Текст
                    ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
В. В. ФЕДОРОВ
Численные методы
максимина


ш
ОПТИМИЗАЦИЯ И ИССЛЕДОВАНИЕ ОПЕРАЦИЙ Редактор серии Н. Н. МОИСЕЕВ МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ 1979
В. В. ФЕДОРОВ ЧИСЛЕННЫЕ МЕТОДЫ МАКСИМИНА МОСКВА «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-М АТЕМАТИЧЕСКОЙ ЛИТЕР МУРЫ 1979
22.193 Ф 33 УДК 519.95 Федоров В. В. Численные методы макспмнна.— М.: Наука, Главная редакция физико-математической литературы, 1979. Книга посвящена минимаксным зада¬ чам исследования операций. В ней с еди¬ ной точки зрения, основанной на методе штрафных функций, излагается теория максимина и приводятся алгоритмы чис¬ ленного решения. Особое внимание уделя¬ ется новым минимаксным задачам, возни¬ кающим при анализе иерархических си¬ стем. Как следствие полученных результа¬ тов вытекают многие факты теории мате¬ матического программирования. Книга рассчитана на широкий круг научных работников и инженеров, специ¬ ализирующихся в области теории управле¬ ния, а также студентов и аспирантов фи¬ зико-математических факультетов. 20204—0'*8 7Г-п 4 7ПОП7ПППЛ © Главная редакция Гг о п170*070000 ^физико-математической Uoo (U*) / У литературы издательства «Наука», 1979
ОГЛАВЛЕНИЕ 7 Предисловие < g Введение Глава 1. Метод штрафных функций в минимаксных за- ^ дачах 26 § 1. Свойства функции минимума ..•••• Q 8 2. Сходимость метода штрафов . . • • * ; 2 3 Оценка скорости сходимости метода штрафных ' функций в задачах математического программпро- вания. Условия регулярности • ■_ • § 4. Лексикографические задачи оптимизации и одно- этапный способ их решения ° § 5. Сведение задачи поиска максимина к задаче на максимум • • § 6. Некоторые минимаксные задачи со связанными переменными § 7. Освобождение от дифференциальных связей в ми¬ нимаксной задаче оптимального управления Глава 2. Условия оптимальпости в минимаксных задачах 107 § 8. Условия регулярности и существование множите¬ лей Лагранжа в задачах математического програм¬ мирования Ю7 § 9. Функция Лагранжа в задаче отыскания максими¬ на с распадающимися переменными . . . . 1.15 § 10. Необходимые условия для максиминов с распада¬ ющимися переменными . . . . . . . . 124 § И. Регулярность многозначных отображений и необ¬ ходимые условия для максиминов со связанными 139 переменными § 12. Принцип максимума для некоторых минимаксных задач оптимального управления 148 Глава 3. Аппроксимация н регуляризация минимаксных задач 174 § 13. Неустойчивые задачи исследования операций . 174 § 14. О многоэтапном способе решения лексиографиче- ских задач с конечным множеством стратегий . 178 § 15. Регуляризация задачи поиска максимина со свя¬ занными переменными 181 § 16. Аппроксимация множеств стратегий сеточными множествами 188 § 17. Регуляризация задачи линейного программирова¬ ния ..... 195 G4 82 93
6 ОГЛАВЛЕНИЕ 207 209 Глава 4. Вопросы численной реализации метода штрафов и конкретные алгоритмы § 18. Итеративный процесс с нарастанием штрафа и «метод невязок» в задаче поиска максимина § 19. Стохастические алгоритмы в минимаксных задачах 218 § 20. Стохастические алгоритмы в минимаксных задачах (выпуклый случай) 238 § 21. О вычислении кратных максиминов .... 246 § 22. Комбинированный метод стохастических градиен¬ тов и штрафных функций для решения задач ма¬ тематического программирования 249 § 23. Алгоритм решения линейных игр с передачей ин¬ формации и запрещенными ситуациями . . . 255 § 24. Один метод решения иерархических игр двух лиц с конечным множеством стратегий второго игрока 265 Литература , , * 273
ПРЕДИСЛОВИЕ Книга посвящена минимаксным задачам исследования операций. Содержание ее составляют в основном резуль¬ таты, полученные во время работы автора в семина¬ ре Ю. Б. Гермейера по теории игр и исследованию опе¬ раций. Основное отличие книги от предшествующих моногра¬ фий по теории максимина состоит в следующем. Во-пер¬ вых, уделено большое внимание более сложному и недо¬ статочно еще изученному в настоящее время классу ми¬ нимаксных задач со связанными переменными. Во-вто¬ рых, предложен единообразный подход к столь широко¬ му кругу задач, основанный на методе штрафных функ¬ ций. Из полученных результатов по минимаксным задачам в качестве частных случаев вытекают многие факты тео¬ рии математического программирования. Поэтому, на наш взгляд, книга доступна и читателю, знакомому лишь с курсом анализа, но ранее не изучавшему теорию экстре¬ мальных задач и численных методов их решения. Список литературы не претендует на полноту. В на¬ стоящее время нет возможности привести все многочис¬ ленные работы, относящиеся к методу штрафов и мини¬ максным задачам. Автор ссылался лишь на некоторые, причем * отдавал монографиям предпочтение перед жур¬ нальными статьями и работами из сборников. При написании книги автору были полезны замеча¬ ния и пожелания, высказанные сотрудниками факультета Вычислительной математики и кибернетики МГУ, гд^е цо
6 ПРЕДИСЛОВИЕ данной теме читался курс лекций. Столь же плодотворны¬ ми явились обсуждения результатов с сотрудниками Вы¬ числительного центра АН СССР — участниками семинара по исследованию операций и теории игр. Мне приятно выразить свою признательность всем им и в особенности Н. Н. Моисееву, который поддержал идею написания книги и проявил внимание к работе. В. ФЕДОРОВ
ВВЕДЕНИЕ 1. Изучение в рамках исследования операций и теории игр многообразных конфликтных ситуаций привело к фор¬ мулировке различных оптимизационных задач, которые по степени сложности значительно превосходят традици¬ онные задачи математического программирования. Среди оптимизационных задач исследования операций одно из центральных мест занимают так называемые ми¬ нимаксные (или максиминные) задачи. Вместе с тем ме¬ тоды решения минимаксных задач разработаны еще не¬ достаточно. Одна из первых макспминных задач — задача о нап- лучшем равномерном приближении функции многочлена¬ ми — была поставлена еще П. JI. Чебышевым и интен¬ сивно изучалась многими авторами (см., например, биб¬ лиографию в [24, 34]). Эта задача по существу является частным случаем задачи отыскания максимина с распа¬ дающимися переменными: найти sup inf F (х, у) (0.1) xez уе у и точку хй е X такую, что inf F (хе, у) sup inf F (х, у) — е V^Y х(=Х уеУ для заданного е ^ 0. Как известно, решение антагонистических игр ([67]) сводится к поиску максимина (0.1), где F(x,y) является функцией выигрыша; X, Y — множества стратегий игро¬ ков. С помощью различных частных приемов решены многие конкретные антагонистические игры ([51]). Си¬ туации равновесия в бескоалиционных играх также могут ыть найдены путем решения некоторой минимаксной за¬ дачи с распадающимися переменными [69].
10 ВВЕДЕНИЙ В последние годы теория игр обогатилась новыми кон-» цепциями и результатами. Значительный прогресс наблю¬ дается в теории игр с непротивоположными интересами, развитой Ю. Б. Гермейером [14]. Выяснение роли инфор¬ мированности, передачи информации и совместных дейст¬ вий игроков привело в работах Ю. Б. Гермейера и Н. II. Моисеева [15, 59] к формулировке основных проб¬ лем управления иерархическими системами. Оказалось, что анализ иерархических систем требует решения слож¬ ных максиминных задач. Таким образом, в теории иерар¬ хических систем, по-видимому, впервые стала ясной не¬ обходимость систематического исследования минимакс¬ ных задач более сложной природы, чем задача (0.1). Прежде всего выделим задачу поиска максимина со связанными переменными sup inf F(x,y)t (0.2) x<EiX y^B(x) Данная задача является основной в теории игр двух лиц с передачей информации ([14, 55]). Пусть один игрок с функцией выигрыша F(x, у) сооб¬ щает свой ход, т. е. стратегию х е X, второму игроку с функцией выигрыша G(#, у) и стратегией у е7. Тогда величина (0.2) задает наилучший гарантированный ре¬ зультат первого игрока при отображении В (х) = \ij е Y | G (х, у) = ma^x G (х, z)j. Если множество стратегий второго игрока есть Y (х), т. е. зависит от х (зависимость Y (х) может описывать, например, ограниченность совместных ресурсов игроков), то отображение В(•) в (0.2) задается в виде В (х) = (у еУ (я) | G (я, у) = max G (х, z)\. (0.3) \ 2ЕУ(зс) / Важный класс задач (0.2, 3) составляют линейные зада¬ чи, возникающие при моделировании иерархий в эконо¬ мике ([43]). Задача (0.2) охватывает и решение игр с запрещенны¬ ми ситуациями. Пусть стратегии игроков связаны сов¬ местными ограничениями (я, у) е Q. Будем считать, что на Q интересы игроков противоположны, однако выход ва пределы Q крайне нежелателен для каждого из них.
ВВЕДЕНИИ И Предположим также, что второму игроку в момент выбора им своей стратегии известна стратегия ^первого игрока*). Ясно, что первый выберет х так, чтобы мно- жество В(х) = {у\ (х, У) е= (?) было непусто. После этого второй игрок минимизирует F(x,y) по множеству В(х) и наилучший гарантированный результат первого записы¬ вается в виде (0.2), где X = {х\В{х) Ф 0}. Приведенные примеры показывают, таким образом, что максимин (0.2) задает величину наилучшего гаран¬ тированного результата первого игрока в простейшей двухуровневой иерархической системе, состоящей из двух игроков. Результат функционирования этой системы с точки зрения первого игрока — Центра определяется множеством X и отображением (в общем случае много¬ значным) #(•)• Задача оценки эффективности фиксированной страте¬ гии х0 в рассмотренных играх с передачей информации есть задача поиска inf F(x0,y) на множестве В(х0) — у^В{х0) реализаций максимума G(xq, у) по у. Подобные задачи, называемые часто лексикографическими задачами опти¬ мизации, изучаются довольно давно. Во многих моделях операций приходится рассматри¬ вать не один критерий эффективности, а целую совокуп¬ ность частных критериев, образующих векторный крите¬ рий. В некоторых многокритериальных задачах частные критерии строго упорядочены по важности, так что сле¬ дует добиваться приращения более важного критерия за счет любых потерь по остальным менее важным крите¬ риям. Наиболее часто многокритериальные задачи с та¬ ким жестким упорядочением частных критериев по важ¬ ности возникают при последовательном введении допол¬ нительных критериев в обычные, скалярные задачи оптимизации, которые могут иметь не единственное реше- ние ([7, 73]). Формально лексикографическая задача оптимизации заключается в определении величины max fn (х) (0.4) * *) Например, первый игрок сообщает выбранную стратегию
12 ВВЕДЕНИЯ и точки х* ^ Х*—1, для которой /Л^*) = шах /п(^), хеЛ7г-1 где X- = (x<=X*_1\fi{x) = max /г (г/)1 (0.5) 1 Г Xq = х. Примерами лексикографических задач, кроме отмечен¬ ной уже задачи оценки эффективности стратегии первого игрока, являются: — Задача отыскания «нормального» решения в мето¬ де регуляризации А. II. Тихонова ([87]), т. е. экстре¬ мальной точки функционала F(•) на множестве X, бли¬ жайшей к заданной точке х0. В этом случае решается за¬ дача (0.4,5) при п = 2, /2(2) = II# — Яо11 на множестве = е= X | F (х) = max F (г/)}. — Задача математического программирования F (х) -> max, А = {х <= X | ср* (х) ^ 0, 1 может быть представлена в виде (0.4, 5) при п = 2 и т h (х) = — 2 [min (°. Фг (г))]2, /2 И = f (*)• 1 = 1 Подобный подход может применяться к задачам матема¬ тического программирования с ограничениями, сведения о совместности которых отсутствуют. — Задача нахождения в множестве X эффективных стратегий (оптимумов Парето) по совокупности частных критериев Wi{x), 1 ^ i т сводится к лексикографиче¬ ской оптимизации с т U (х) = 2 Wt(x), /х (ж) = min XjWi (ж), > 0. i=l l<i<m Оказывается, что так можно получить любую паретов- скую точку, если подходящим образом задать коэффици¬ енты Х{ ([14]). К необходимости решения данной задачи приводят проблемы проектирования сложных технических систем. Пусть х = (x\,..., xN) — вектор конструктивных па-
ВВЕДЕНИИ 13 раметров проектируемой технической системы, x^XaEN, где En — TV-мерное евклидово пространство. В том слу¬ чае, когда эффективность функционирования технической системы нам удалось описать некоторым единым крите¬ рием F(x), задача определения оптимального набора па¬ раметров х* сводится к отысканию таxF(x) = F (х*). (0.6) Однако решение данной оптимизационной задачи «в лоб» оказывается невозможным из-за большой размерности Л пространства конструктивных параметров и сложности критерия F(x). Дело в том, что, как правило, значения F(х) определяются в результате имитации функциониро¬ вания технической системы на ЭВМ, которая требует зна¬ чительного времени. Один из возможных способов решения задачи основан на следующей идее ([54]). Любую известную техниче¬ скую систему, будь то самолет, корабль или вычислитель¬ ная машина, как показывает практика, принято оцени¬ вать по значениям некоторого набора частных критериев или технических характеристик системы. Каждый такой критерий представляет собой отдельно взятое качество си¬ стемы, а весь набор — совокупность качеств, необходимых технической системе для решения тех или иных разно¬ образных задач, возникающих в процессе ее эксплуата¬ ции. Например, для самолета набором частных критериев может служить набор летно-технических характеристик, таких как максимальная скорость полета, потолок, взлет¬ но-посадочные характеристики, дальность полета, скоро¬ подъемность и т. д. Вполне естественно, что размерность пространства частных критериев — качеств значительно меньше размерности пространства конструктивных пара¬ метров. Далее, сами частные критерии, являющиеся функ¬ циями конструктивных параметров, как правило, легко вычислимы, т. е. не требуют значительных затрат машин¬ ного времени, так как для их вычисления необходимо имитировать «простейшие» формы функционирования технической системы. Например, для определения летно¬ технических характеристик самолета необходимо решить Тг79*п1е квазистаЦионаРные задачи динамики полета (l'^J)> что несравненно легче, чем имитировать его функ¬ ционирование в сложной обстановке реальных задач.
14 ВВЕДЕНИЕ Пусть W(x) = {Wx(x), ..., wn(x)}*), m<N- век¬ тор частных критериев. Если считать, что значение гло¬ бального критерия F (х) возрастает при увеличении лю¬ бого частного критерия, то задача (0.6) эквивалентна за¬ даче максимизации F (х) на множестве эффективных то¬ чек х по совокупности частных критериев W(x). Таким образом, приходим к задаче отыскания Задача (0.7), полученная с помощью описанной выше процедуры неформальной декомпозиции, является не столь безнадежной как задача (0.6), однако для ее реше¬ ния нужно уметь находить максимины с распадающимися переменными и максимум (0.7) со связанными перемен¬ ными х и X. Дальнейшие примеры моделей, приводящих к лекси¬ кографическим задачам оптимизации, можно найти в [73]. В реальных лексикографических задачах, по-видимо¬ му, следует ожидать, что количество частных критериев невелико. Тем не менее многоэтапное решение, т. е. ре¬ шение задачи (0.4,5) непосредственно по рекуррентным формулам (0.5) затруднительно, так как нужно отыски¬ вать все множества оптимумов Х{. Поэтому в книге уде¬ лено внимание одноэтапному способу решения лексико¬ графических задач. Естественным обобщением задачи (0.2) следует счи¬ тать максиминную задачу со связанными переменными при наличии случайных параметров. Ее можно интерпре¬ тировать как двухэтапную стохастическую задачу приня¬ (0.7) (m т v 2 Wi (х) = max 2 Wt(y) , *) Предполагается, что Wi(x) >0 для всех х е X, i = 1, ..., т.
ЁВЕДЕЙИВ 15 тия решения в иерархической системе с несовпадающйми 1титР1>есами участников ([ 100J). Пусть Fix, у, ©) — критерий эффективности первого игрока (оперирующей стороны), со — случайный фактор с законом распределения Р. Первый игрок, не зная кон¬ кретного значения © е Q, выбирает стратегию х, которую сообщает второму игроку, имеющему критерий эффектив¬ ности G(x у, со). После этого становится известной реа¬ лизация со, и второй игрок максимизирует свой выигрыш, выбирая стратегию у из множества у(гсо)= fye=N{x,a)\G{x,y,(a)= max G(x,z,a>)\. 4 ’ ' | z^N(x,(a) ) (0.8)’ Здесь N(x, со) описывает множество допустимых страте¬ гий второго игрока при фиксированных х, со и, как прави¬ ло, задается в виде N(x, а) = {у е= У|ф(х, у, о) > 0}. (0.9)' Очевидно, наилучшее значение математического ожида¬ ния гарантированного результата оперирующей стороны есть sup (* min F (х, у, со) dP (со). (0.10) х^Х & 1/еУ(х,о)) Множество X стратегий первого игрока считается таким, что N(х1 о) ф 0 при каждом х ^ X для всех со е= Q. Ранее рассматривавшиеся двухэтапные стохастические экстремальные задачи ([44, 46]) соответствуют задаче (0.10) с совпадающими или противоположными интереса¬ ми игроков. Однако в иерархических системах управле¬ ния, для которых типичной является многоэтапная про¬ цедура принятия решения, выборы компонент х и у про¬ изводятся обычно на разных уровнях, интересы которых, вообще говоря, различны. Поэтому представляется необ¬ ходимым изучение задачи (0.8—10) наряду с другими максиминными задачами. В [100] приведена модель пер¬ спективного планирования в системе Центр — Предприя¬ тие, обобщающая на случай несовпадающих интересов Центра и Предприятия соответствующую модель из [106], Возможны и другие постановки стохастических макси- минных задач.
16 ВВЕДЕНИИ Если ввести принцип доброжелательности второго иг¬ рока по отношению к первому, то наилучшее значение математического ожидания выигрыша равно Имеет смысл рассматривать задачу со случайным и не¬ определенным факторами. Пусть критерии игроков есть F(x, у, (}, со), G(:г, у, р, со), где р е В — неопределенный фактор, значения которого неизвестны первому игроку в момент выбора х, но становятся известными второму при выборе стратегии у. Введем отображения Y(я, р, со), N(:г, р, со), определяемые аналогично (0.8,9) через функ- цпн <р(;г, у, р, со) и G(x, у, р, со). Если при многократном повторении операции значение неопределенного фактора р остается постоянным, то наи- лучший гарантированный средний результат первого игро¬ ка равен Если же значенпе р может изменяться от повторения к повторению произвольным образом, то аналогичный ре¬ зультат равен Наконец, интересным представляется решение указан¬ ных задач в классе стратегий — правил поведения перво¬ го игрока, рассчитанных на информацию об у, р, со вида я (у), х{у, (о, Р), я (у, со), подобно тому, как это сделано в задаче (0.2) без случайных параметров ([14, 55]). Из перечисленных задач наиболее простой является задача (0.8—10). Вместе с тем она содержит специфические чер¬ ты остальных задач, поэтому в книге мы рассмотрим основные свойства и подходы к решению именно этой задачи. Отметим, что величина (0.10) описывает функцио¬ нирование простейшей иерархической системы типа це¬ почки из трех звеньев. На первом уровне находится пер¬ вый игрок, на втором — случайный механизм, вырабаты¬ вающий со в соответствии с законом распределения Р, max F (х, у, со) dP (со). sup inf | min F (x, у, p, со) dP (со). x^X PgBq уеУ(я,р,со) sup min min F (x, у, p, со) dP (со). x<eX q peB i/eY(.x,p,co)
ВВЕДЕНИЕ 17 а на третьем — второй игрок. Порядок ходов в этой систе¬ ме совпадает с порядком уровней. До сих пор речь шла лишь о тех минимаксных зада¬ чах, в которых число операций взятия максимума и ми¬ нимума равнялось двум. Задача отыскания кратного или последовательного максимина sup inf ... sup inf F (xu z/1? ..xn, yn) (0.11) Vi^Yi хп(=ХТ1 л есть обобщение задачи (0.1). Одним из важнейших источников такого рода задач следует считать многошаговые игры ([16]). К задаче оп¬ ределения кратного максимина приближенно сводится решение дифференциальных игр, которые являются пре¬ дельным случаем многошаговых игр, когда число шагов неограниченно возрастает ([110]). Величину (0.11) мож¬ но также считать наилучшим гарантированным результа¬ том первого игрока в иерархической системе типа цепоч¬ ки из 2п уровней, в которой игроки нечетных уровней имеют интересы, описываемые критерием F, а игроки чет¬ ных уровней — противоположные интересы. Задача (0.11) усложняется, если между #i, ух,..хп, уп имеются связи, т. е. если выбор Xi, yt нельзя осуществлять независимо от остальных координат векторов х = (#i, ... ..я»), У = {Уи • • •» Уп). Достаточно типичной задачей такого рода будет задача нахождения кратного максими¬ на со связанными переменными sup inf KiGAt y1^Bl(xl) sup inf F{xu уъ ...,xn, yn), xYle A n(xt, У г,..., Vn-i) %<ЕВП(*1 ,y i, • • • ,*„) (0.12) где отображения Au В{ задаются с помощью некоторых систем неравенств подобно (0.3,9). Можно показать, что к решению задач типа (0.12) сводится задача проектирования технических систем и объектов многоцелевого назначения, которые состоят из основного блока и стыкуемых с ним сменных частей. Ос¬ новной блок является постоянной частью системы, а каж¬ дая из сменных частей предназначена для достижения какой-либо одной определенной цели. 2 В. В. Федоров
id ВВЕДЕНИЕ Таковы основные классы минимаксных задач, которые будут рассматриваться. Их сложность определяется как количеством операций взятия максимума и минимума, так и типами ограничений на переменные. Разумеется, легко сформулировать и другие, более сложные задачи, напри¬ мер, агрегируя задачи (0.1 — 12). Однако мы не будем этого делать по двум причинам. Во-первых, анализ лишь поставленных задач и разра¬ ботка эффективных методов их решения позволили бы исследовать разнообразные иерархические системы, со¬ ставленные из элементарных иерархических цепочек, со¬ ответствующих задачам (0.1 —12). В свою очередь это со¬ действовало бы развитию приложений теории таких систем. Во-вторых, не представляется возможным сформули¬ ровать наиболее общую минимаксную задачу. Дело в том, что любую минимаксную задачу можно считать следст¬ вием применения принципа наилучшего гарантированного результата (либо иного принципа оптимальности) в той или иной игре на тех или иных множествах стратегий игроков ([12, 13]). Поскольку постоянно возникают все новые системы и способы действия (стратегии), то будут появляться и новые минимаксные задачи. В соответствии с этим в книге внимание уделяется не только получению конкретных результатов, относящихся к поставленным задачам, но и методу их получения, который, как нам кажется, позволяет рассматривать еще более сложные максиминные и иные оптимизационные задачи исследо¬ вания операций. 2. До недавнего времени основное внимание уделя¬ лось задаче поиска максимина с распадающимися пере¬ менными. Именно здесь теория максимина добилась наи¬ больших успехов. Задача (0.1) может быть записана как задача макси¬ мизации функции минимума f(x) = inf F(z, у) (0.13) i/eY на множестве X. Поэтому естественной представляется попытка рассматривать максиминную задачу (0.1) как Задачу математического программирования f{x)-+ sup. хех
ВВЕДЕНИЯ 1У Ппименение большинства известных численных мето¬ пов решения задач математического программирования чпесь затруднено отсутствием гладкости у функции f(x) и необходимостью вычислять в (0.13) глобальный мини¬ мум по множеству Y. Однако в ряде случаев можно ис¬ пользовать методы поиска экстремумов недифференци- руемых функций. Общий подход к построению численных методов ре¬ шения задачи поиска максимина с распадающимися пе¬ ременными связан с выводом формулы производной по направлению функции минимума (0.13). Эта формула в некоторых частных случаях была получена И. В. I ирса- новым ([21]) и Б. Н. Пшеничным ([80]), в общем слу¬ чае она установлена Дж. М. Данскиным (L^J) и В. Ф. Демьяновым ([35]). С использованием дифферен¬ цируемости но направлениям функции минимума, в [341 разработан ряд алгоритмов отыскания максимина (0. ) для конечного множества У. Аналогичный подход к мак- симинным задачам со связанными переменными ти¬ па (0.2, 3) пока не принес ощутимых результатов. Дело в том, что даже для непрерывных F, G на компактах X, У функция минимума / (х) = min F(x,y) (0.14) У^В{х) в задаче (0.2, 3) может быть разрывной. В настоящее время для некоторых отображений 5(-) получены формулы производных по направлению функ¬ ции минимума со связанными переменными ([36]), од¬ нако предположения, в которых эти формулы выведены, являются довольно жесткими и, как правило, не выпол¬ няются в сформулированных выше задачах теории игр с передачей информации и запрещенными ситуациями. Между тем, именно к таким задачам приводят проблемы управления иерархическими системами. Таким образом, следует искать и другие пути реше¬ ния минимаксных задач со связанными переменными. Один из возможных подходов, основанный на методе штрафов, излагается в настоящей книге. К сказанному добавим, что задачи на максимин со связанными переменными, как, впрочем, и некоторые за¬ дачи^ математического программирования, являются не¬ устойчивыми. Например, сколь угодно малые изменения 2*
20 ВВЕДЕНИЕ в равномерной метрике платежа G(x, у) второго игрока в игре (0.2,3) могут привести к конечному изменению наилучшего гарантированного результата (0.2). Следо¬ вательно, возникает задача «регуляризации» максими- на (0.2), связанная с тем, что как при моделировании, так и в процессе счета неизбежны ошибки в определе¬ нии интересов второго игрока. Прогресс в разработке методов отыскания кратных максиминов весьма невелик. Так для выпуклой функции максимина ф(я) =max min/^z, у, z) в [37] построен Уе У zeZ алгоритм отыскания ттф(,г). Вычисление максими- зсех нов (0.11) кратности больше трех, как правило, сопря¬ жено с большими, подчас непреодолимыми на современ¬ ных ЭВМ, трудностями ([39]). Не следует ожидать, что в ближайшем будущем проблема отыскания максиминов большой кратности будет решена для функций достаточ¬ но общего вида. Однако следует отметить, что и задача поиска шах min max F (х, у, z) является важной, посколь- эсех yeY zez ку она описывает часто встречающуюся на практике двухэтапную процедуру принятия решения в условиях неопределенности. Задача (0.12) содержит все перечисленные трудности, поэтому разработка алгоритмов ее решения всецело зави¬ сит от нашего умения вычислять максимины (0.2,11). 3. В качестве основного аппарата для изучения по¬ ставленных задач в книге принят соответствующим обра¬ зом обобщенный метод штрафных функций. В математическом программировании метод штраф¬ ных функций позволяет свести экстремальную задачу с ограничениями к последовательности безусловных задач оптимизации. Это дает возможность применить для ре¬ шения исходной задачи сравнительно хорошо разрабо¬ танные методы безусловной оптимизации. Следовательно, метод штрафов, понимаемый как метод освобождения от ограничений, предполагает «элементарность» операции взятия экстремума без ограничений либо при наличии ограничений достаточно простого вида. Заметим, что сей¬ час в математике «элементарной» считается операция интегрирования, которая на достаточно широком классе функций эквивалентна отысканию экстремума.
ВВЕДЕНИЕ 21 В настоящее время развитие метода штрафных функ¬ ций идет по двум направлениям. Первое направление со¬ стоит в уточнении возможностей метода в классических за¬ дачах математического программирования (см. например, Гб 8, 23, 42, 56, 77, 82, 85, 89, 102]); второе — в распро¬ странении идей метода штрафов на более широкии класс задач (см. [17, 19, 25, 26, 27, 28, 41, 46, 58, 93, 101, 107]). В книге, по мнению автора, отражено, в основном, второе направление, хотя в ней содержится ряд новых результатов, относящихся к задачам математического программирования. Большая общность метода штрафных функций позволила создать единый подход к максимин- пым и другим задачам теории принятия решений, полу¬ чить условия оптимальности в них, установить связи по¬ ставленных задач друг с другом и с обычными задачами математического программирования, разработать алгорит¬ мы численного решения. Изложение материала построено так, чтобы продемон¬ стрировать возможности систематического использования метода штрафов и дать читателю владение основными приемами доказательств. Последнее представляется доста¬ точно важным, так как позволяет применять данную ме¬ тодику для анализа еще более сложных классов задач теории принятия решений. Книга состоит из четырех глав. В первой главе (§§ 1—7) исследуются вопросы схо¬ димости метода штрафных функций в минимаксных за¬ дачах. Подготавливается необходимый математический аппарат, изучаются свойства функции минимума (0.14) и доказываются теоремы о сходимости метода штрафных функций для снятия ограничений в задаче (0.12) поиска кратного максимина со связанными переменными. При этом выясняется роль непрерывности по Хаусдорфу много¬ значных отображений, задающих ограничения в максимине (0.12). Оказывается, что, если отказаться от непрерывно¬ сти отображений, то справедливы теоремы о сходимости метода штрафов, связанные с повторными предельными переходами по параметрам штрафа. Для какого-либо практического использования повторные пределы не¬ удобны. Таким образом, возникает задача перехода от повторных пределов к простым путем согласования штрафных параметров. Заметим, что в математическом
ВВЕДЕНИИ программировании подобной проблемы не было, ибо она является следствием иерархии процесса принятия ре¬ шения, отраженной в последовательности (0.12) опера¬ ций взятия максимума и минимума. Далее подробно исследованы вопросы согласования штрафных параметров. Основу составляют оценки скоро¬ сти сходимости метода штрафных функций в задаче ма¬ тематического программирования и в задаче поиска мак- симина (0.1) при сведении ее к задаче на максимум. Здесь же введены условия регулярности, охватывающие более широкий класс задач математического программи¬ рования, чем известные условия регулярности в выпук¬ лом программировании. Основным итогом первой главы следует считать сведение к безусловной оптимизации задач (0.1—12). Вторая глава (§§ 8—12) посвящена условиям опти¬ мальности. Метод штрафных функций позволяет единым- образом получать условия оптимальности в условно-экст¬ ремальных, в том числе и минимаксных, задачах. Схема получения необходимых условий выглядит следующим образом. Сначала исходная задача сводится методом штрафов к параметрическому семейству задач, уже ис¬ следованных ранее. Затем предельным переходом по штрафному параметру в условиях оптимальности для штрафных задач выводятся условия оптимальности в ис¬ ходной задаче. Подобный подход дает основания рас¬ сматривать метод штрафных функций как «алгоритм» для формулировки условий оптимальности. Возможности такого «алгоритма» весьма широки, благодаря накоплен¬ ному в первой главе запасу теорем о сходимости мето¬ да штрафов. В § 8 получены необходимые условия опти¬ мальности в задаче математического программирования при выполнении найденных в § 3 более широких усло¬ вий регулярности. В этом же параграфе установлено, что условия точного решения задачи математического про¬ граммирования при использовании негладких штрафов и существование множителей Лагранжа в математическом программировании эквивалентны. Свойства функции Ла¬ гранжа в задаче отыскания максимина с распадающими¬ ся переменными исследуются в § 9, где обобщается из¬ вестная теорема Куна — Таккера. Остальные параграфы второй главы посвящены минимаксным задачам. Здесь ме¬
ВВЕДЕНИЙ 23 топом штрафов получены необходимые условия оптималь¬ ности в задачах (0.1 — 12). Уделено внимание и мини¬ максным задачам оптимального управления, для которых обоснован метод штрафов снятия дифференциальных связей и выведены необходимые условия оптимальности в форме принципа максимума. Перечисленные теоремы не исчерпывают всех возможностей развиваемого подхо¬ да, который может быть применен и к более сложным задачам теории игр и исследования операции. Глава 3 (§§ 13—17) посвящена изучению вопроса об устойчивости задач (0.1 — 12). Приводятся примеры не¬ устойчивых «по функционалу» задач исследования опе¬ раций и дается метод их регуляризации. Специально рассматривается класс задач линейного программирова¬ ния, для которых предложенный метод комбинируется с методом регуляризации А. Н. Тихонова ([87]). Устанав¬ ливается идейная и формальная связь метода регуляри-4 зации и метода штрафных функций. Результаты третьей главы обосновывают возможность применения численных методов для решения неустойчивых задач. В последней, четвертой главе (§§ 18—24) рассматри¬ ваются проблемы численной реализации метода штраф¬ ных функций и приводятся конкретные алгоритмы. На¬ ряду с традиционными для задач математического про¬ граммирования трудностями реализации метода штра¬ фов, в минимаксных задачах возникают специфические проблемы, связанные со свертыванием ограничений по¬ средством интегрирования, с согласованием параметров и т. д. Основное внимание при построении численных методов уделяется согласованию методов перехода к па¬ раметрическому семейству задач (что обычно и называ¬ ют методом штрафов) с алгоритмами решения этих за¬ дач. Ведь именно несоответствие методов параметризации задачи и алгоритмов безусловной оптимизации послужи¬ ло основой для критики метода штрафных функций. В § 18 сравниваются итеративный процесс с нараста¬ нием штрафа и метод невязок ([20]) в задаче поиска максимина (0.1). Показано, что в этих методах домини¬ руют различные трудности («овражный» характер целе¬ вой функции и вычисление многомерных интегралов), что определяет области их применимости. В §§ 19, 20,22 для решения минимаксных задач применяются алгоритм
24 ВВЕДЕНИЕ мы стохастического программирования, точнее метод сто-» хаотического градиента ([46]), который комбинируется с методом штрафных функций. Алгоритм решения ли¬ нейной игры двух лиц с передачей информации и запре¬ щенными ситуациями, т. е. задачи типа (0.2,3), изложен в § 23. Он основан на сочетании идей метода штрафов и метода ветвей и границ. Наконец, в § 24 предложен один специальный м^тод решения стохастической макси- мииной задачи (0.8—10) в случае конечного множества стратегий второго игрока. Алгоритмы главы 4 были реа¬ лизованы на ЭВМ. Решение ряда тестовых и модельных примеров явилось основой рекомендаций по численной реализации методов.
ГЛАВА 1 МЕТОД ШТРАФНЫХ ФУНКЦИЙ В МИНИМАКСНЫХ ЗАДАЧАХ В этой главе содержатся основные результаты о схо¬ димости метода штрафных функций для задач математи¬ ческого программирования и минимаксных задач. Уста¬ новленные факты будут неоднократно использоваться в дальнейшем в качестве аппарата для построения мето¬ дов решения и анализа оптимизационных задач. Как в первой, так и в последующих главах исполь¬ зуются в основном общепринятые обозначения. Поясне¬ ния требуют лишь следующие. Для сокращения записей иногда будем обозначать Г sup inf lm F (xn, yn) = sup inf sup inf F (*!, Ixn, yn), xk<=xk vheYh Xh+l<=xh+i vm&[m 1 ^ к ^ m ^ n; x'= (x\, ..xt); x° — символ отсутствия аргумента. Далее Arg w = [x(=x\f (х)=max / arg max / (а;) произвольная точка из множества Arg пжх/(#), Так, например, запись Arg [max min ]m F (x\ yn) i=k при 1 ^ k ^ rrt ^ n обозначает множество реализаций максимина 'max min lm F (x\ yn)
26 МЕТОД ШТРАФНЫХ ФУНКЦИЙ {ГЛ. 1 при фиксированных (хи у^ ..., yk-U #m+lf Ут+l) • • • ..хП1 уп), т. е. множество ' т—1 Г;ггеХЛГтт max I \lvi&ri min F(x1,yli..e i=k Ут^хт xi, Уи • • •> Уп) max min ]’” F (xn, yn) 1. L*ie^t Viey,Ji=sft J § 1. Свойства функции минимума Материал данного параграфа носит вспомогательный характер и содержит лишь те свойства функции миниму¬ ма, которые нам потребуются далее. Пусть А и В два подмножества метрического прост¬ ранства X с метрикой рх. Отклонением множества А от множества В называется величина Р (А, В) = sup inf рх fo, х2). Расстоянием по Хаусдорфу между множествами А и В называется А (А, В)=тзх{$(А, В); $(В, Л)}. Рассмотрим многозначное (точечно-множественное) ото¬ бражение В(•), которое каждому х из метрического про¬ странства X ставит в соответствие подмножество В(х) метрического пространства У, т. е. В(•) отображает X в 2Y. Определение. Многозначное отображение В(•) называется полунепрерывным сверху в точке х0, если lim Р(5(х), S(^0))=0. Многозначное отображение /?(•) х-*х0 называется непрерывным (по Хаусдорфу) в точке х0, ес¬ ли lim А (В (х), В(х0)) — 0. 0C->Xo Многозначное отображение В(*):Х-+ 27 называется замкнутым в точке xQ е X, если из условий lim хп = х0, lim уп = у0, уп<=В(хп) следует у0^В(х0). п-юо п-юо Если У — компакт и каждое множество — образ В(х) замкнуто в У, то полунепрерывное сверху отображение замкнуто и наоборот ([70], стр. 95). Иногда вводят также понятие полунепрерывного снизу отображения,
СВОЙСТВА ФУНКЦИИ МИНИМУМА 27 Отображение В(ш) называется полунепрерывным сни¬ зу в точке %0i если из того, что хп >~х$ при п >■ оо и у0^В(хо) вытекает существование последовательности {уп\уп(=В(хп)} такой, что уп~+Уо, когда п-+оо. В наших обозначениях для компакта Y это записыва- ется в виде lim р (В (х0), В (х)) == 0. X—>Xq Ясно, что многозначное отображение В(•) :Х-+27 вслу- чае, когда У компакт, будет непрерывным по Хаусдор- фу тогда и только тогда, когда В(•) полунепрерывно сверху и снизу. Определим функцию минимума /(*) = inf F (х, у), (1.1) У^В(Х) соответствующую функции F и отображению £(•). Лемма 1.1. Пусть F(x, у) задана на произведении компактов X, У метрических пространств, В(•) много¬ значное отображение из X в 2У, определенное в окрест¬ ности точки х0. Тогда I) Если F(x, у) непрерывна на ХХУ, В(•) полуне¬ прерывно сверху в точке х0, то функция минимума /(•), определенная (1.1), полунепрерывна снизу в точке х0. II) Если F(x, у) непрерывна на ХХУ, В (^ — непре¬ рывное в точке xq отображение, то /(•) непрерывна в точке х0. _ HI) Если F (х, у) полунепрерывна снизу на XXV, ■“(*) полунепрерывно сверху в точке х0 и множество В(хо) замкнуто, то /(•) полунепрерывна снизу в х0. IV) Если F(x, у) полунепрерывна сверху на XXY, & V) —непрерывное в х0 отображение, то функция ми¬ нимума /(•) полунепрерывна сверху в точке х0. Доказательство. Утверждения I), II) являются очевидными следствиями равномерной непрерывности F вочке X И иепреРЬ1ВН0СТИ (полунепрерывности) £(•) III) Пусть хп-*-х0 при н->оо и
28 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [гл. i Выберем последовательность {%nh} такую, что lim f(xn) =]im/(.rnft) и lim t/„A = i/0. В силу замкнутости В(х0) и полунепрерывности сверху В(*) очевидно уо^В(хо). При этом F (х0, yo)^f(xo)- Отсюда и из полунепрерывности снизу функции F по¬ лучаем Пт / (хп) = lim F (^хпУпи) ^ ^ (^о> Уо) ^ / (^о)» хп->х0 к->*> что и доказывает полунепрерывность снизу /(•). IV) Выберем точку yQe=B(x0) из условия F{x0, у0) ^ g ^/(:ro)+"2“i гДе е>0 — произвольное наперед заданное число. По условию существует б>0 такое, что F(x0, ij0)>F(x, у) — е/2 при р.тХГ((ж, у), (х0, z/0))<6, а в силу непрерывности В(•) будет для некоторого со>0 справедливо неравенство А(В(х0), В(х))^ б как только р*(я0, о:) ^ со. Пусть рх(х1 ^o)^min(6, со), тогда найдется точка у^В(х), удаленная от у0 на расстояние не более б. При этом из определения со, б имеем /(*о) + F (*<» Уо) > F (*. у) — / (х) — т. е. f(xо) ^*f{x) — е при р*(я, rr0) ^min(6, со), что и означает полунепрерывность сверху /(•) в точке xQt Лемма доказана. ■ В пункте III) условие замкнутости В(х0) существен¬ но, как показывает пример Р(ху) = \1' 0<г/<1/2: 1,г/; [0, 1/2<у<1; ПО, 1/2), 0<*<1/2; В{Х)-\Ю, х), 1/2 < х<1. (1, 0<х<1/2; В этом случае / 0*0 == j g 1/2 < #■< 1 не является П0ЛУ~ непрерывной снизу в точке xq=1/2 функцией.
СВОЙСТВА ФУНКЦИИ МИНИМУМА 29 Существенным оказывается и условие непрерывности В(') в пункте IV) леммы. Так, например, для непрерыв¬ ной функции F и полунепрерывного сверху отображе¬ ния В(•) функция минимума (1.1) будет уже полуне¬ прерывной снизу, причем легко построить пример дейст¬ вительно разрывной функции /(•). Лемма 1.2. Пусть последовательность (с,(*)) не¬ прерывных по Хаусдорфу на компакте X многозначных отображений сходится к В(•), т. е. ПшА(В(з:п), В(х)) = г П-+ ОО = о для любого х <= X и Вп (х) s B„+i (ж)', Bi {х)ф 0 при каждом х^Х. Если отображение В(•) также непрерывно на X, го сходимость Вп(*) к В(•) равномерна относи¬ тельно х s X. Утверждение леммы является аналогом теоремы Ди- ни о равномерной сходимости ([ЮЗ], стр. 431) для мно¬ гозначных отображений и использует ту же идею дока¬ зательства. Следствие. Если F(x, у) непрерывна на произве¬ дении компактов X, Y и для отображений #„(•); п = = 1, 2, ... выполнены условия леммы 1.2, то inf F(x,y)-+ inf F (х, у) при п-+ оо у(=вп(х) V^B(x) равномерно по х^Х. Как было отмечено во введении, многозначное ото¬ бражение в минимаксных задачах весьма часто задается в виде ' B(x) = {y&Y\<p(x, у)> 0}, (1.2)" где ф(я, у) — некоторая функция, определенная на Xy(Y. Непрерывность ф, как показывает пример В(Ж) = {!/€=[ —1,1] \Х-У>0}, не гарантирует еще непрерывности по Хаусдорфу /?(•). Однако справедлива Лемма 1.3. Пусть ф(.г, у) непрерывна на произведе¬ нии компактов X, У. Тогда многозначное отображение, задаваемое в виде (1.2), полунепрерывно сверху на X. Действительно, пусть хп~+-х0^Х и В(хп)^уп-+уо при поо. Тогда из непрерывности ф следует, что Ф (-т0. У о) = lim ф (хп, уп) > 0, т. е, у0 (= В (х0). ■
30 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. i Достаточные условия непрерывности отображения дает Лемма 1.4. Пусть ф(я, у) непрерывная на произве¬ дении компактов X, Y функция, 5(*) = {^у|ф(*. у)> о}, у)>о> и замыкание В°(х0) совпадает с В(х0). Тогда отображе¬ ние В(•) непрерывно в точке х0 в метрике Хаусдорфа. Доказательство. Множество В°(х)ф0 в неко¬ торой окрестности точки xq. В силу леммы 1.3 достаточ¬ но доказать, что для любого б>>0 найдется е>0 такое, что B(xq) ^Vb(B(x)) при р*(я, хо) < е, где V6(A) — б- окрестность множества А. Допустим противное: сущест¬ вует бо>0 такое, что для еА>0, lim sk = 0 найдутся точ- А->оо ки хк, ук; Рх(хк, х0) «£ еА, ук <=В(х0), где ук ф F6o (В {хк)). Учитывая компактность У, можно считать, что уц-*~Уо при к-+- оо. Так как ф(я0, ук)> 0>ф(жл, yk) и xh-+x0, то ф(х0, i/o) = 0. По условию существует точка у е Уб0/2{У0) П В°(х0), в которой__ф (х0, у)>0. Из непре¬ рывности ф вытекает, что ф(яА, г/) >0 для всех достаточ¬ но больших А, т. e1_y^B(xk). Но у0 <= F60/2 (У), поэтому yh <ее V6o (у) с V6o (В (xh)) при достаточно больших к. Противоречие доказывает лемму. ■ Условие леммы 1.4 очевидно выполняются, если ф(я, у) вогнута по у на выпуклом компакте У при лю¬ бом х^Х и справедливо условие (которое* естествепно назвать условием Слейтера) min max ф (х, у) > 0. Леммы 1.1, 3 устанавливают полунепрерывность снизу функции минимума, соответствующей непрерывной функ¬ ции F и отображению (1.2). Интересно в этом направле¬ нии выделить следующее утверждение, дающее представ¬ ление о классе рассматриваемых далее задач. Лемма 1.5. Класс функций минимума /(•), опреде¬ ляемый выраоюениями (1.1, 2) всевозможными непрерыв¬ ными на произведении компактов X, У функциями F, ф совпадает с классом ограниченных полунепрерывных снизу на X функций.
СВОЙСТВА ФУНКЦИИ МИНИМУМА 31 Доказательство. Требуется, в силу леммы 1.1,3 показать, что любая полунепрерывная снизу на компак¬ те X функция /(•) представляется в виде (1.1,2). Пусть 0={{х, у) |же=Х, y>f(x)} — надграфик функции /(•). Положим ф(х, у) = —р((#) у), Q), где р((®, у), (?) - рас¬ стояние от точки (х, у) до множества <?. Очевидно, ф — непрерывная функция и/(х) — mm у, поскольку надгра¬ фик о замкнут. ■ Введем теперь такие функции: f(x, ш) = min F(x,y, со), (1.3) 1/<ЕУ(х,С0) где Y (.г, со) = Arg max G (х, z, 0), zeiV(oc, со) X(z, ©) = {уеУ|ф(а;, у, ©) S* 0} И Ф (я) = | / (х, со) dP (со). (1.4) Q Сделаем предположения: 1) X, У — компакты евклидовых пространств; 2) функции F, G, ф непрерывны по (я, г/) при почти всех соей; 3) функции F, G, ф ограничены и измеримы по 0 при любых (х, y)^X\Y; 4) многозначное отображение А(% 0) при почти всех 0ЕЙ непрерывно в метрике Хаусдорфа. Лемма 1.6. При выполнении условий 1)—4) функ¬ ция минимума /(#, 0), определенная в (1.3), измерима по 0 при каждом х. Доказательство. Зафиксируем точку хо ^ X. Ото¬ бражение 0-)-А(:го, 0) в силу условий Каратеодори 2), 3) является нормальным ([50], § 8.1, теорема 3, следст¬ вие 2). По теореме измеримого выбора ([50], стр. 341) существует счетное семейство измеримых сечений i/v(0); v = l, 2, ... отображения N(xо, «), аппроксимирующее оо это отображение, т. е. N (х0, со)= (J (i/v (со)}*). Следова- V=1 *) Черта обозначает замыкание множества,
32 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 тельно, max G (х0, г, со) = sup G (х0, yv (со), со) измеримая reiV(X0lCD) V функция. Далее, совершенно аналогично, из доказанного вытекает, что и отображение со-^У(.г0, со) является нор¬ мальным, а функция /(яо, •) измеримой. Лемма дока¬ зана. ■ Тем самым обоснована законность операции интегри¬ рования в (1.4) при весьма широких и естественных предположениях. Из лемм 1.1,3 вытекает также полуне- прерывность снизу /(•, со) на X при почти всех оей. Лемма 1.7. Функция Ф(*)> определенная в (1.4), полунепрерывна снизу на X. Доказательство. Возьмем произвольную точку хо^Х и последовательность хп->~хо такую, что lim Ф (хп) = lim Ф (х). Введем измеримую функцию хп~*х0 х-+х0 \|> (со) = lim / (хп, со) =sup gh ((О), где gk (co)= inf / (*„, со). хп^х0 h В силу полунепрерывности f(x, 0) по а: снизу и теоре¬ мы Лебега о предельном переходе под знаком интегра¬ ла [53] имеем ф (*о) = f / (^0. ©) dP И < f Iim / (^n. ©) dP (®) = a a = J ф (со) dP (со) = j lim (со) dP (со) = lim J gh (w) (щ) ^ Q 0 Q Ф{х), что и доказывает наше утверждение. ■ Установленные в леммах 1.1,3,7 факты говорят о том, что в играх двух лиц с передачей информации ([14]) может не существовать оптимальной стратегии первого игрока даже в предположении непрерывности функций выигрыша игроков и компактности множеств стратегий. Поэтому в таких играх естественно отыскивать е-опти- мальные стратегии. Лемма 1.8. Если функция F(х, у) выпукла, а ф (х, у) вогнута по (х, у) на произведении выпуклых множеств X и Y, то функция минимума (1.1,2) выпукла на X.
СВОЙСТВА ФУНКЦИИ МИНИМУМА 33 Доказательство. Зафиксируем любые х\, х2^Х, ух s В(х\), у2 ^ В(х2). Тогда +(1 — a)^2, схг/i -j- (1 — а) у 2) при 0 < a < 1. Б силу вогнутости ф имеем ф(аж1 +(1 — а)^2. аг/i +(1 — а) 1/2) 3* ^■аф(хь pi) + (l — а)ф(х2, у2)>0, т. е. сч/1 + .(1 — a)y2e5(aa:i+(l—а)х2). Отсюда следует неравенство <xF(xu yi)+{l — a)F(x2, у2) > f(axi +(1 — а)х2), из которого ввиду произвольности у 1, у2 вытекает вы¬ пуклость /(•). ■ В теории антагонистических игр ([67]) хорошо из¬ вестно общее неравенство, связывающее максимин и ми¬ ни макс sup inf F (х, у) ^ inf sup F (x, у). осех г/еУ y^Y яех Сейчас мы покажем, что при связанных переменных х, у в некоторых случаях имеет место обратное неравенство. Этот факт, хотя он и не будет использован в дальней¬ шем, представляет определенный интерес, поскольку от¬ ражает преимущества, связанные с правом первого хода в играх двух лиц с запрещенными ситуациями (совмест-, ными ограничениями). JI е м м а 1.9. Пусть F{x, y)=g(x)+h(y), В{х) = {г/|ф(ж, у) >0), А (у) = {ж|ф(ж, у) > 0}, Х={х\В{х)Ф0), У={у\А(у)ф0). Тогда, если Хф0, Уф0, то sup inf F (х, у) ^ inf sup F (х, у). эсех у^В(х) y^Y хеА(у) 3 В, В. Федоров
34 МЕТОД ШТРАФНЫХ ФУНКЦИЙ 1ГЛ. 1 Доказательство. Очевидно, Х^А(у), Y^B(x) при ieX, y^Y. Поэтому sup inf F (х, у) — sup [g (я) + inf h(y) 1> яехуев(х) x(ex[ y<EB{x) J > sup g (x) + inf h (y) > inf Гh (y) + sup g (я)1 = зсех уеУ уеУ L яеА(у) J = inf sup F (x, y). ■ уеУ xeA(y) Пример строгого неравенства дают F (я, у)=х—у, ф(^ у)=1—ж—у. Наконец, докажем утверждения о перестановочности предельного перехода и операции взятия экстрему¬ ма ([28]). Лемма 1.10. Пусть последовательность функций {/«(•)} сходится при п —>- оо в каждой точке множест¬ ва X к функции /о (•), монотонно не убывая. Тогда lim sup fn (х) = sup /0 (ж), и если последователь- n-»oo XGI эсех носгь точек {.гп} такова, что) {хп) ^ sup /п (я) — еп *), хех где lim ел = 0, еп > 0, то Нт/0 (ягп) = sup /0 (х). п-юо п-> оо эсеХ Доказательство. Проведем рассуждения для ог¬ раниченной /о (•). Для любого е 0 существует точка дго иномер 7V такие, что /() (#0) > sllP/o(x) е/2 и /о(яо) — XG X — /п(яо) < е/2 при п > 7V. Отсюда 0 < sup /0 (ж) — sup /п (ж) < sup /0 (ж) — *ех *ех *ех — /п (*о) < /о (*о) + е/2 — fn (хо) < е- Для точек последовательности {^л}, определенной в усло¬ вии леммы, имеем /о Ю > /п (*n) > SUP fn (х) — еп осех и по уже доказанному sup/n(.r)—> sup f0{x). По- хеХ n->0° xeX этому при достаточно больших nf0 (хп) ^ sup /0 (.г) — 2е71, к^Х что и доказывает лемму. ■ *) Для неограниченной сверху функции /0(*) считаем, что ю = + то’
СВОЙСТВА ФУНКЦЙЙ МИНИМУМА 35 Лемма 1.10 обосповывает перестановочность операций взятия супремума и предельного перехода и, по существу, является экстремальным аналогом теоремы Б. Леви ([53]) о предельпом переходе под знаком интеграла. Лемма 1.11. Предположим, что в условиях лем¬ мы 1.10 множество X является компактом, а функции f (•) полунепрерывными снизу. Тогда lim minfn(x) = Jn' ' n-+oo xex = min/0(£) и,если .zn=arg min fn (x), то любая пределъ- пая точка х* последовательности {хп} реализует минимум /0 (х), т. е. х* = arg min /0 (х). Доказательство. Заметим прежде всего, что /о(*) полунепрерывная снизу на X функция ([65]) и, следовательно, min/0(.r) достигается. Пусть хп = = arg min ]п (.г) и хп->х* при п-+ оо. Для любого 8 > 0 найдется яг такое, что /о(я*) — fn{x*) < е/2. Кроме того, по е и m найдется номер /V = 7V(e, лг) та- кой, что при n>N будет справедливо неравенство /т(я*) < /т(яп) + е/2. Следовательпо, /т(я*) —/п(яп) </т(я*) — fm{xn) < е/2 и /о(я*) — /п(я„) < е при n>m3x(N1m). Отсюда по определению #п получаем 0 < min /0 (ж) — min /п (я) < /0 (я*) — min /п (я) < е. *ех хех *ех В силу монотонности и ограниченности сверху последо*' вательности /min/п (.г)! существует lim min /п(я), совпада- \хех / п-^с» хех ющий, как показано выше, с min/0(^)= /о(я*). Лем- яех ма доказана. ■ Следующий пример показывает, что одной монотон¬ ности для сходимости минимумов недостаточно.
36 МЕТОД ШТРАФНЫХ ФУНКЦЙЙ [ГЛ t Пусть X = [0,1] L {*) = о 2n+i > 1 1, в остальных точках Здесь lim fn (х) = /0 (х) = 1, но lim min /п (ж) =0. Леммы 1.10,11 важны для дальнейшего. Как будет показано, ряд теорем о сходимости метода штрафов является их следствием, § 2. Сходимость метода штрафов 1. Идея метода штрафных функций (функций нагру¬ жения) появилась впервые, по-видимому, в работе [108], посвященной решению одной физической задачи о дви¬ жении тела в ограниченной области. Применительно к задачам математического програм¬ мирования идея метода штрафов состоит в следующем. Функция, подлежащая максимизации при наличии огра¬ ничений, заменяется семейством функций, зависящих от параметров и обладающих свойствами: — в большей части допустимой области они близки к максимизируемой функции; — каждая из функций семейства достаточно быстро убывает либо при приближении к границе допустимой области, либо при выходе за ее пределы; . — степень близости и скорость убывания зависят от параметров и по мере их изменения в соответствующую сторону возрастают. Каждая из функций семейства подвергается макси¬ мизации (теперь уже без ограничений). Во многих слу¬ чаях последовательность решений задач без ограничений сходится к решению исходной задачи. В настоящее время есть много работ, посвященных ме¬ тоду штрафов в задачах математического программиро¬ вания (см., например, [3, 49, 52, 57, 75, 81, 102]). Наря¬ ду с доказательством сходимости метода штрафных функций они содержат и рекомендации по его численной реализации. Мы получим достаточно общую теорему о сходимости метода штрафов в математическом программировании, как 71—» эо XGI
СХОДИМОСТЬ МЕТОДА ШТРАФОВ 37 следствие леммы 1.10 о перестановочности операций взя¬ тия супремума и предельного перехода. Итак, рассмотрим задачу математического програм¬ мирования ^(^)->snp, (1.5) асе А где А = {.х <= X | ср,- (х) ^ 0, 1 < i < т} ф 0. Введем семейство функций / (•, С), определенных на множестве X, зависящих от параметра С и обладающих свойствами: / (#, С) ^ 0 при всех х е X; С)\0 при С-+оо на множестве И0, всюду плот¬ ном в А; lim f (х, С) = оо равномерно по яеХ\Уб(Н) для С->30 любого б>>0, где V6(A) обозначает б-окрестность мно¬ жества А. Функции ? (•, С) будем называть штрафными функ¬ циями или функциями штрафа, а параметр С — коэффи¬ циентом штрафа. Введем также функцию 2(х, С) = F(x) -?(х, С). Теорема 1.1. Если функции F(e), срД*)» непрерывны на компакте X метрического пространства, то шах F (х) = lim sup 3? (я, С). Х£з А С—XGr А последовательность {хп} такова, что CJ^supS’Or, Сп) — еп, xGX где lim = lim e7l = 0, en > 0, го любая пределъ- П~>оо 71 —>оо иая точка последовательности {хп} принадлежит допу¬ стимому мноэ/сеству А и реализует maxF(x), т. е. яв- зсеА ляется решением задачи математического программирова¬ ния (1.5). Доказательство. В силу равномерной непрерывно¬ сти функции F для любого е > О найдется б > 0 такое,
38 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ t ЧТО sup F (х) ^ max F (х) -f е, есеУб(А)П^ х^А Используя свойства функции штрафа f, получаем отсю¬ да цепочку неравенств sup 3 (#, С) ^ sup 3 (#» С) = хел° хех = sup 3 (#, С) шах /^(х) + е, справедливых для эсеАТ|Уб(А) зсеА всех достаточно больших С. На множестве А0 последова¬ тельность функций & (х, Сп) сходится к F(x) монотонно, следовательно, по лемме 1.10 lim sup 3 (я, Сп) = sup F (х) = max F {х). Сп-+оо яеА° зсеА° яеА Отсюда и из предыдущих неравепств вытекает сходимость sup 3 С) к max F (х) при сю. эсеХ XGA Пусть теперь последовательность {хп} удовлетворяет условию теоремы и х* — ее предельная точка. Не огра¬ ничивая общности, можно считать, что lim;rn = :r*. Г/ -»то Тогда по доказанному выше имеем F {х*) = lim F (хп) > lim g (хп, Сп) > П—хх> п-*оо ^ lim [sup 2? (х, Cn) — е„] = max F (x). п->оо [лex xeA Кроме того, ясно, что Действительно, в против¬ ном случае из замкнутости А, свойств функции штрафа и ограниченности F(x) следовало бы, что lim sup 3 (х, п-» оо зсех Сп) = — оо. Таким образом, х* — решение задачи (1.5), и теорема доказана, в Замечание. Пусть теперь функция штрафа имеет вид С) = С-Ф(х). Тогда F(x*(C)) , Ф(#*(С)), где х* (С) = arg max 3 (х, С), XGX — монотонно невозрастающие функции от С > 0.
СХОДИМОСТЬ МЕТОДА ШТРАФОВ 39 Действительно, пусть 0 < С\ < С2. Тогда по опреде¬ лению х* (С) имеем &(х*(С1),С1)>2(х*(Ся), С0; С2) >3?(х*{С2),С\). Складывая эти неравенства, получим (С1-С2)[Ф(х*(С2)) -Ф(х*{Сх))] >0, т. е. Ф (х* (Сг)) < Ф (x*(Ci)). Далее, из первого нера¬ венства F (х* (C\)) — F (х* (С2) )> Ci[<b(z*(Ci))— Ф (х* (С2) )]> 0. Теорема 1.1 позволяет освободиться в задаче матема¬ тического программирования от функциональных ограни¬ чений фг(х) > 0, однако условие х^Х по-прежнему со¬ храняется. На практике под X обычно подразумевается некоторое достаточно «простое» множество, например параллелепипед. Как правило, оптимизация на таком множестве значительно проще, чем на исходном. В ряде случаев можно считать X достаточно широким компак¬ том, в котором заведомо содержится хотя бы одна опти¬ мальная стратегия — решение задачи математического программирования. Теорема 1.1 остается, конечно, спра¬ ведливой при освобождении лишь от части ограничений задачи. Приведем несколько примеров штрафных функций, удовлетворяющих всем нашим требованиям, т ?1{х, С) = С2 |min(0, фг0г))|7; г=1 /г (х, С) = ClminfO; min ср( (х)) К q > 0; I \ 1<г<тп I 0, если min ф* (я) ^ 0; Ш1Пф j(x) С*е 1 в противном случае;
40 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 &4 О*'» О i=l 1; 7Г 2 Ф* 1 (*) ПРИ min Ф* (*) > °*» {=1 1<г<7П + оо, в противном случае; т /в(*. С) = 2 ехр [— Сфг (а:)]. i=l Первые четыре штрафные функции можно, пользуясь терминологией из [102], назвать «внешними» штрафными функциями, так как они равны нулю в допустимой обла¬ сти А и положительны вне А. Особенно часто использу¬ ется степенная штрафная функция f \. Функцию ^есте¬ ственно назвать «внутренней» функцией штрафа. Она определена, когда непусто множество А0 =* {х е X | (х) > О, 1 ^ i < т), и удовлетворяет условиям теоремы 1.1, если замыкание А0 множества А0 совпадает с Л. То же самое относится и к /б. Заметим, что задача поиска max {F (х) — f ъ (я, С)} «ел: является задачей с ограничениями. Однако, как показано в [102], эту задачу можно решить методами безусловной минимизации благодаря тому, что ?ь{х, С) имеет вид «барьера» на границе множества А. На практике часто используется логарифмическая штрафная функция вида <F7 О*'» С) — — тг2 ln 'Pi (ж)> i—1 х ф А0. Теорема 1.1 остается для нее справедливой, хотя усло¬ вие $7 (я, С) ^ 0, вообще говоря, не выполняется. Действительно, допустимую область А можно задать в виде Фг (*)
СХОДИМОСТЬ МЕТОДА ШТРАФОВ 41 где I — достаточно большое положительное число такое, - Ф, (я) что ф* (я) = —I— < 1 на X. Тогда т т F И + 7? 2 1п = F (х) + 7J 2 1п ф| (х) — 7Г ln Z« 1=1 i=l где In фг (я) < 0, 0 при С -> оо и, следовательно, lim max (:г) — /7 (я, С)} = max F (х). С->оо хех хеА Для барьерных штрафных функций ?? верхняя грань sup 3> (xi С) достигается на множестве А0 при любом ссех С>0. Теорему 1.1 мы сформулировали для задачи матема¬ тического программирования с ограничениями — неравен¬ ствами. Но легко видеть, что она верна и для ограниче¬ ний типа равенств. Соответствующие штрафные функции могут быть построены аналогично f \, ?2, ?г, f а- 2. Перейдем к доказательству сходимости метода штрафов в задаче отыскания кратного максимина с огра¬ ничениями М = Г sup inf где А, г f-1) = {Xi s ХШх<, Г'1) > 0}, Bi = Bi(xi, yi~1)= {гл<= У<|А,(я*, у1)> 0}; i= 1, 2, Частным случаем задачи (1.6) является задача поиска уп^(ТН0Г0 максимина с распадающимися переменными (U.11) при наличии ограничений. То, что в определении отображений Aiy Bi участвует по одному ограничению ти¬ па неравенства, несущественно; все рассуждения легко переносятся на случай нескольких равенств и неравенств. Кроме того, любое конечное число ограничений может быть свернуто в одно операциями суммирования или взя¬ тия минимума. Континуальное или счетное число ограни¬ чений, как будет показано в § 5, в весьма общем случае " F(xi, уп), (1.6) 1=1
42 МЕТОД ШТРАФНЫХ ФУНКЦИЙ (ГЛ. I свертывается в одно при помощи интегрирования и взя¬ тия минимума. Введем функционал эг (*", 7*,с)= f ("?*, уп) + 21/» (**. ci) + i=i + »(•*•'« У > ^n+j)]i где С= (С], Сг, .,С2n); /1(**-J/' \ Oi &i{x i У > О ‘ непрерывные «внешние» штрафные функции обладаю¬ щие свойствами: /-• -• < \ f 0, х, е At (хг~уг~*); /»(*\ |Г\С) = ’ -i-i -i-i I < 0, , у ); а- (У г с)-| °' е в< »"■)■ при всех С > 0, i = 1, /г. Предполагается также, что стремятся соответственно к —оо и оо при нарушении ограничений задачи (1.6), когда оо. Такие функции легко строятся по аналогии с приве¬ денными выше функциями штрафа для задач математи¬ ческого программирования. Например, можно положить /<(*•', У{~\ С) = Cmin(0, fi(F, у’-1)). Далее под С-+оо будем понимать независимое стрем¬ ление к оо всех компонент С* вектора С. Теорема 1.2 ([28]). Пусть в задаче (1.6) все X*, Y{ являются компактами метрических пространств, функ¬ ции F, gi, ft* непрерывны по совокупности переменных. Предположим также, что Л* (я1’-1, у1-1), i/1""1), 1 ^ не пусты при любых (х\уг~1) и многозначные отображения А{, В{ непрерывны в метрике Хаусдорфа по совокупности переменных. Тогда I) М = lim Г max min ]n ^(^n, С); C-^oo II)любая предельная точка x\ множества [х{ (Ch) | Ch->-
СХОДИМОСТЬ МЕТОДА ШТРАФОВ 43 где Xi (Ch) = arg Г шах mini'* S (хп, уп, Ск) LXi^xi Vi^xi является реализацией максимина (1.6)', х\ = arg max minln F(xn,yn). v^b£Ji=i Доказательство. I) При выполнении условий теоремы все верхние и нижние грани в (1.6), согласно лемме 1.1, достигаются. Зафиксируем некоторое io. Так как функция ф(хи, р’0-1) = min [max mini" F(xn,~yn) Уга^вг0 Lxi^Ai по лемме 1.1 непрерывна, то при любых фиксированных {хи~*, уи~’) в силу теоремы 1.1 имеем шах Ф (х'с, у*0-1) = lim max (Ф (хг°, у*0-1) + *i0eAio Ci0~^o° Xi0^xi0 + Си)}. Для этого предельного перехода выполнены все условия теоремы Дини ([ЮЗ]) о равномерной сходимости. Сле¬ довательно, М — lim Г max min Cio~*°° lxi^Ai io 1 max min i=l Xi^xi0 У г о^Вг0 ... min {F (xn, yn) + fu (*\ yio-\ Cj}. (1.7) Уп^вп Аналогично при любом фиксированном Ci0 можно в мак- симине из правой части (1.7) снять ограничения, напри¬ мер, с переменной Тогда с учетом (1.7) получим М= lim lim Г max mini10-1 max [min max T/0—1 Cio~*°° Cjo~*°° L*ieAi yi^Bi\i=i xi0*=XiQ Ly3^Bj xj+ieAj+lJj=i0 min [max min 1^ [F(xn, yn)+ yjo^YJo Lx/eA/V/eB/]z=jo + l + fu (**•. yU~l, Clt) + 3f,P\ yh, C„+J]. Продолжая такой процесс, устанавливаем, что можно в
44 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 задаче (1.6) снять ограничения в любой последователь¬ ности. Функция монотонна по каждому аргументу С< и существуют, как показано выше, всевозможные повторные пределы, равные тивном случае M(Ch)-^—оо, а это невозможно в силу доказанного в пункте I). Далее, вследствие компактности Х\ существуют такие последовательности Ci.m—>-00, ... С2п, при т-±оо, что точка представляется в виде Из непрерывности F, f и и соотношений (1.7) выте¬ кает, что Оптимальность х\ теперь следует из теоремы 1.1. и М. Следовательно, существует предел lim М (С) =М. С-*оо II) Пусть — предельная точка последовательности Iх* {Ck)\Ck °°1- Очевидно, так как в про- х\ = lim х\ (Ci>m), С) .77Г*00 где ‘И (^l,7n) — lim X\ • • •) Сп,т)\ Q.m"*00 2 * * — • • • 5 Сп,т) =* Hm лц (Ст), xi (р\,гп) 1=3
СХОДИМОСТЬ МЕТОДА ШТРАФОВ 45 Замечание. Любая предельная точка у\ последо¬ вательности У* (Ch)= argmin [max mini" 3?{x\(Ch), yu... «.er, L*ieXj г/*еУ4_]4=2 где Ск->°° при k-+oo и lim (Ck) = x\, удовлетворяет h->oо равенству y\ = arg min [ max min 1" F {x\, yu...,xn, yn). ViSB, L^jSAi ViSBjji=2 Аналогичным свойством обладают и остальные Доказательство этого такое же, как и для во вто¬ рой части теоремы. Для задачи (1.6) можно доказать, правда при несколь¬ ко более жестких предположениях, теорему о сходимости метода штрафов с внутренними «барьерными» штрафны¬ ми функциями ([27]). Мы не будем подробно останавли¬ ваться на этом вопросе, поскольку в дальнейшем будем пользоваться внешними штрафными функциями. Заме¬ тим только, что аналог теоремы 1.2 для «барьерного» штрафа тоже опирается на непрерывность по Хаусдорфу многозначных отображений Аи В и Не представляет особого труда обосновать сходимость метода штрафных функций не только для метрических, но и для линейных хаусдорфовых топологических прост¬ ранств. При этом следует лишь дать иное, не использую¬ щее понятие метрики определение непрерывности мно¬ гозначных отображений ([70]). 3. Теорема 1.2 является весьма общей. Из нее вытекает теорема о сходимости метода штрафов в задачах матема¬ тического программирования и теорема об освобождении от ограничений в максиминных задачах с распадающи¬ мися переменными. В последнем случае отображения А{, Bi в (1.6) постоянны и, следовательно, непрерывны по Хаусдорфу. Но все же теорема 1.2 не охватывает многих важных задач теории игр с передачей информации, так как для этих задач условия непустоты и непрерывности многозначных отображений слишком обременительны. Приведем два примера.
46 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ 1 Для игры двух лиц с непротивоноложными интереса¬ ми отображение В(•) в выражении (0.2) для наилучшего гарантированного результата первого игрока задается в виде ([14]) Б{х) =Arg max G (х, у), V<SY где G — функция выигрыша второго игрока. Очевидно, что В(х) не пусто, если G непрерывная на произведении компактов X, Y функция. Однако, В(•) не обязательно непрерывно по Хаусдорфу. Действительно, пусть F(x% V) = y-x; Х= [-1, 1]; Y= [0, 1]; A={xz=X\g(x)=0}1 где g(x) = [min (0, x)]2\ G(x, У)= —y[max(0, x)]2 — (1 — у) [min (0, x)]2. Тогда ({0}, x>0; #(*)= [0,1], * = 0; .{1}, *<0; — разрывное при x = 0 отображение. В теореме 1.2 можно положить fi(x, Cl) = —Cig(x), Уi (я, у, С2) = — C2G (х, у); & (ж, у, Ci, С2) =F(x, у) +fi(x, СО +3ri(x, у, С2). При этом sup min F (х, у) — lim lim max min g (x, у, Съ C2) = 2, ocsA y^B(x) C2~>°° Сi~>oo x^.X yeY a lim lim max min S’ (x, y, C1} C2) = 1. C*—>00 C2->OO XGZ yeY Следовательно, lim max min 3 (x, у, Сi, C2) не существу¬ ем-* OO 3CGX I/GY C2-> 00 ет, и теорема 1.2 в рассматриваемом примере не верна. Другими словами, условие непрерывности многозначных отображений является существенным. В игре с запрещенными ситуациями ([14]), область которых часто описывается неравенствами, например, ви¬
§2) СХОДИМОСТЬ МЕТОДА ШТРАФОВ 47 да h(х, у)< 0, отображение В(х)= {y^Y\h{x, у)> 0} может быть не только разрывным, по и пустым для неко¬ торых х. Так, для области, изображенной на рис. 1.1, отображение #(•) разрывно в точке х\, а множество В{х 2) — пусто. Пусть В(•) непрерывно по Хаусдорфу, но А = {х^Х\В(х) Ф0}ФХ. Легко видеть, что в рассматриваемом случае А = {х<=Х I g (z) > 0}, где g(x) = max ft {x, у). yeY Положим S’ix, у,СиС2) = F(x,y)+Clmin{0,g{x))-* — C2 min (0, h(x,y)). Тогда lim lim max min 2?(х, У, Си C„) = max min F (x, y), C2->oо Ct-юо эсеХ yeY " xeA уеВ(зс) a lim lim max min g (x, у, Съ C2)= 00 Ci->00 C2-*oо xgA' j/EY Следовательно, двойного предела lim max min 3? (я, i/, C i-»oo jcgA убУ Ci, C2) не существует и теорема 1.2 не справедлива. Рассмотренные примеры показывают, что в некоторых минимаксных задачах справедливы более слабые теоремы о сходимости метода штрафных функций, связанные с повторны- V ми предельными переходами по параметрам штрафа. Для практи¬ ческого использования метода повторные пределы неудобны. Та¬ ким образом, возникает задача перехода от повторных пределов к простым путем согласования штрафных параметров. Заметим, что в математическом программи- хг % х ровании подобной проблемы не рис 1 ^ было, ибо она является следстви- 11 ем иерархии процесса принятия решений, отраженной в последовательности операций взятия максимума и минимума.
48 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 В следующих параграфах будут указаны способы со¬ гласования штрафных параметров для основных классов минимаксных задач. Здесь же мы выделим случай, когда в задаче (1.6) можно ослабить требования теоремы 1.2 .([26, 28, 91]). Теорема 1.3. Пусть из условий теоремы 1.2 исклю¬ чено требование непрерывности многозначных отображе¬ ний Вг(х\ у{~1), 1 ^ i ^ п. Тогда М = Ji=l sup mm x^Ai Vi^Bi n F{-x\~yn) = 1=1 lim Г sup min n~1 max min yn) + c-»oo xn^An ynG.Yn + Vn{xn, yn, C)j. Кроме того, если последовательность {#i {Ck) | Ck-+oo] такова, что [min sup Г-1 min (F(4(Cft), уъ...,хп, pn) + 1У£=вг 0C|_j_ieA|_j_i J^=i yn^Yn + &M (Ch), yi,...,yn,ch)}> ^ Г sup min 71—1 max min [F(xn, yn) -f Iх^^А^у^^В^ j=i xn^ A-п У n^Y n + &n (^П» УП? Ch)) — где eh ^ 0, lim ek = 0, to k—*OQ lim fmin sup ln—1 min F (г* (Cft), z/t,... Ck-+oo \у^в{ зс*_|_1<=А|_|_1 . = 1 уп<=вп • • • i 1/п) = М$ т% е. {х^ (£&)} — последовательность е-оптимальных стра¬ тегий в задаче (1.6). Доказательство. Возьмем произвольную последо¬ вательность Ck / оо, тогда по теореме 1.1 при любых фиксированных (хп, уп~1) имеем min_ F (хп,уп) = lin min [F (хп,уп) Vn^Bn{xnyn~ 1 Ck-ooyn<=Yn + Jn(*n,yn, Ck) }( причем последовательность непрерывных функций в пра¬ вой части монотонно не убывает. Так какЛ( непрерывные,
ОЦЕНКИ СКОРОСТИ сходимости 49 a Bi полунепрерывные сверху по лемме 1.3 отображения, то из леммы 1.1 вытекает достижимость всех нижних граней в доказываемых равенствах. Применяя теперь леммы 1.10,11 получим первое утверждение теоремы. Второе утверждение относительно последовательности стратегий {#i {Ск)\ следует из леммы 1.10.и Пусть отображение задается в виде В(х) = {уеУ|<р(а:, у) >0}, Тогда из теоремы 1.3 вытекает возможность приближен¬ ного перехода от максимина sup min F (х, у) со связан- эсех у^В(х) ными переменными к максимину шах min {F(x1 у)'-f\ x^X y&Y + .^ (ж, у, С)} с распадающимися переменными. Для это¬ го можно положить, например, У (я, у, С) = C[min(0, <р(я, у))]2. При доказательстве теоремы было установлено, в част¬ ности, что min {F (х, у) + У (я, у, Ch)} / min F (я, у), 1/ет у&В(х) когда Ck / оо. Отсюда и из леммы 1.5 следует известный факт: для любой ограниченной снизу полунепрерывной функции существует поточечно сходящаяся к ней неубы¬ вающая последовательность непрерывных функций ([65]). § 3. Оценки скорости сходимости метода штрафных функций в задачах математического программирования. Условия регулярности При решении экстремальной задачи методом штраф¬ ных функций возникает проблема выбора коэффициента штрафа, обеспечивающего заданную точность решения. Из теорем о сходимости метода следует, что такое значе¬ ние существует, однако там ничего не говорится о спосо¬ бе его отыскания. В этом параграфе будет показано, что если ограничить рассматриваемый класс задач математи¬ ческого программирования и вид штрафной фунции, то
so МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 требуемое значение можно найти на основе оценок скоро* сти сходимости. Итак, рассмотрим задачу математического программи¬ рования F(s}->snp, (1.8) х ->А А= {хеХ\^(х) > 0, (1.9) Построенное согласно теореме 1.1 параметрическое семей¬ ство задач имеет вид 3? (х, С) — F (х) — ? (х, С)-+ sup, х - X где ? (х, С) — штрафная функция, С — параметр. Ясно, что если использовать разрывную штрафную функцию (например, равную нулю в допустимой области А и 4~°° вне ее), то при любом С> 0 можно получить точное решение задачи (1.8,9), решая штрафную зада¬ чу. Однако такой способ «освобождения» от ограничений носит формальный характер, поскольку задача поиска максимума 9? (х, С) на X ничуть не проще исходной. По¬ этому естественно ограничиться по меньшей мере непре¬ рывными штрафами. Далее будем рассматривать семей¬ ство задач т 3q (х, С) = F (х) — С 2 | min (0, ф. (х)) |? max, (1.10) *=1 х&Х порождаемое степенной функцией штрафа т /q (х, С) = С 2 | min (0, фг (х)) |9 i=1 с показателем q > 0. Предположим, что F(x), <рг(я) непрерывны на метри¬ ческом компакте X. Тогда при любом q > 0 выполнены условия теоремы 1.1 и lim max gq (я, С)= max F (х). С->оо х<=Х хеА Погрешностью метода штрафных функций (1.10) в зада¬ че (1.8,9) назовем величину F (С, q) = max 2"q (х, С)—max F (х). х<ех хел
ОЦЕНКИ СКОРОСТИ сходимости 51 Очевидно, что E(C,q) ^ 0. Пас будет интересовать оцен¬ ка этой величины через параметры С, q на классе функ¬ ций F(x)1 cpi(x), определяющих задачу (1.8,9). Легко убедиться, что для любых фиксированных С, q > 0 найдутся такие непрерывные функции F(я), ф,(.г), что величина E(C,q) будет сколь угодно близка к maxF(x) — max/7 (.г). ХЕ:Х Х£±А Следовательно, для получения более содержательных оце¬ нок нужно наложить дополнительные требования на за¬ дачу (1.8,9). Теорема 1.4 [93]. Пусть в задаче (1.8,9) функции F (х), фг(я) непрерывны на компакте X и, кроме того, выполнены следующие условия: а) F (х) удовлетворяет условию Липшица на X с кон¬ стантой К; б) существуют постоянные 8, (5, ц > 0 такие, что при всех х ^ (Vt(A)\ А) П X справедливо неравенство inin фг (х)< — Р [рА- (х, 4)р, (1.11) 1<г<т где — метрика в X, V 6 (А) — 8-окрестность множе¬ ства А. Тогда для достаточно больших С при qy > 1: 1 0 < Е (С, д)< В • (к^/с)™-1 U 1 рх(х*д(С),А)^В .(К/СГ~1 , где В — величина, не зависящая от С, К; x*q (С) = arg max 3q (х, С). хеХ Если qy ^ i, то существует значение штрафного парамет- ра С (К, Р,q)=0 (-p-j*) такое, что и Е {С, q) = 0 при всех С (К, р, q). *) Здесь и далее 0(a) = D*а, где D > 0 — некоторая кон¬ станта.
52 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 Доказательство. По теореме 1.1 любая предель-» ная точка последовательности {x*q (Сп)\Сп оо) реализует max F (о:) и принадлежит А. Следовательно, xq{C)^V ^{А) XGA при всех достаточно больших С'> CQ. Если z*q(Q^A, то Е(С, (?) = 0. Допустим, что xq (С) ф А, тогда выполнено условие б) теоремы. При этом в силу условия а) имеем (*; (о, с) < < max F (х) + Крх ((С), А) — С\ min <р,(а£ (С)) I9 < х&А I 1<г<т I <таxF(x) + Крх (х\ (С), А) — C$q[px{x*q (С), Л)]97, т. е. Е(С, q) < г(р), где z(p) = Zp-Cp9p9V р = р х(х1(С),А). Теперь, если <п ^ 1» то для достаточно больших С > 3= С (К, р, q) имеем z (р) = р [К - CpV97-1] < р [К - Ср9 (diam Х)97'1] < 0. Это противоречит тому, что E(C,q)^ 0. Следовательно, уже для конечного значения С выполняется равенство Е (С, q) = 0 и Хд (С) £= А, 1 Если же qy > 1, то Е (С, q) < max z(p) = D - С qy~\ P>0 где qv KQV—i D = — 3=M} 1 L J (?VP9)97 а максимальное p удовлетворяющее условию z (p) 3* 0 1 / К \gv—l есть Po = (CM- Рис* Теорема доказана.и Таким образом, при q*f ^ 1 оказывается возможным точное решение задачи математического программирова¬ ния методом штрафов при конечном значении коэффици¬ ента штрафа. Обеспечить выполнение условия qy < 1
ОЦЕНКИ СКОРОСТИ сходимости 53 можно выбором подходящего значения параметра q. Од¬ нако следует учитывать, что функция fq{x, С) при q < 1, вообще говоря, не является дифференцируемой, даже если фДя) дифференцируемы. Это может привести к трудностям при решении задачи (1.10) и потребовать Рис. 1.2. применения специальных алгоритмов. Для q > 1 сущест¬ вует градиент т f'q (z, C) = Cq'Jj I min (°. Фi (*)) |,_Vi (*) i=l и обоснованным является применение градиентных мето¬ дов оптимизации. Наиболее жестким в теореме 1.4 следует считать ус¬ ловие б). Выделим некоторые простые случаи, когда оно выполняется. 1) Если X — конечное множество, то условие (1.11) теоремы 1.4 справедливо при любых 8 > 0 и соответ¬ ствующем (достаточно малом) р. 2) Если ф{x)=j(x) —шах/(г/), где /(•)—сильно у^х вогнутая на выпуклом множестве евклидова простран¬ ства Еп функция, то неравенство (1.11) справедливо при К = 2 и некотором положительном р ([3], стр. 60). 3) Пусть система неравенств фДя) ^ 0, 1 < i < т имеет единственное решение х* ^ Еп, причем ф1.(я*) = ... = фп+1(:г*) = 0, ' фп + 2(**) >0, ..., фт(х*) > 0.
54 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. I Если любые п векторов системы {ф1 (я*), ..., Фп-и (я*)) линейно независимы, то in in ф; (х) ^ — р I х — х* I. l<i<m Доказательство этого утверждения можно найти в [76]. Особый интерес, как мы увидим, условие (1.11) пред¬ ставляет при 7=1. Геометрически оно означает, что в б-окрестности множества А, задаваемого функциональ¬ ными ограничениями, функция ф(я) = min фг (я) убыва- 1<г<7п ет не медленнее, чем некоторая линейная функция от расстояния до множества А. Заметим, что формально любое множество А можно задать в виде (1.9) условием ф(<г) ^ О, удовлетворяющим (1.11) с 7 = 1, если поло-, жить ф(я) = — $х(х, А). Дадим следующее Определение. Функциональные ограничения Фг(^) >0, 1 ^ i ^ т, задающие множество А, регулярны, если существуют [J, б > 0 такие, что при всех х е е (Vt>(A)\A) [)Х справедливо неравенство min ф^ {х) ^ — Ррх (х, А). (1.12) 1<г<т В том случае, когда А = {х е X\gj(x) = 0, 1 ^ ^ /с}, условие регулярности (1.12) принимает вид max | gj (х) | > ррх (х, А). (1.12') 1<з<Л Наконец, если множество А = {х е Х\ cpi(x) > 0, 1< < i < m, gj(x) =0, 1 < / < к} задается системой ра¬ венств и неравенств, то условие регулярности записыва¬ ется как min f min ф£ (х); - max | gj (х) \\ < - $рх (*, А). (1Л2") U<i<m l<j<A ) Оказывается, что условия регулярности (1.12, 12', 12") выполняются для достаточно широкого класса задач ма¬ тематического программирования. Об этом говорит сле¬ дующая Лемма 1.12 ([93]). I) Ограничения (1.9) типа неравенств удовлетворяют условию регулярности (1.12) с произвольным б>0 в каждом из следующих двух случаев:
ОЦЕНКИ СКОРОСТИ сходимости 55 — функции фг(^) вогнуты на компакте X евклидова пространства Еп и выполнено условие Слейтера, г. е. су¬ ществует точка х ^ X такая, что фДя) > 0, 1 ^ i ^ т; — X — выпуклое множество из Еп, а ф,- (х), 1 < i ^ ^ m — линейны. II) Пусть X — компакт из Еп, А = {д;еХ|^.(а;) =0, 1 </< А:}, где gj(x) непрерывно дифференцируемые функции, и векторы gj(x),l ^ 7 ^ к, линейно независимы на А. Тогда в некоторой 8-окрестности мнооюества А выполняются ус¬ ловия регулярности (1.12'). Доказательство. I) Пусть фД#) вогнуты и фг (£) ^ а > 0, Возьмем произвольную точку х & А, тогда ф (я) = min ф* (х) <С 0. На отрезке, соеди- 1<г<т няющем х и х, найдется точка у, в которой ф(г/) = 0. Из вогнутости функции ф следует ([64]), что [у{у)—Ч(х)У\у — х\> [ф(*) — ф (»)]/!* — у\, откуда получаем ф (ar) ^ , у _ ^ | ^ . Р (от, Л). Рассмотрим теперь случай линейных ограничений срг(х)= (ait х)—Ь{. Положим Ф {х) = пнпф^я). Обозна- 1 <г<т чим через Q (я) множество опорных функционалов ([22, 79]) к множеству А в точке х^А. Зафиксиру¬ ем произвольную граничную точку xq множества А: ф(*о) = 0. Тогда, очевидно, множество точек х Ф А таких, что р(#, А) = \х — хо\ совпадает с множеством {х = x(t) |x(t) = xo — tl, t > 0, Je & (xo), |Z| = 1}, причем t = p(x(t), A). Для всех таких x(t) справедлива оценка Ф (#(£))<: min [{at, х0— tl) — bt] < — t min max (ah I), ie/(3c0) lefi(x0) ?e/(ac0) |i|=l где I(xq) = {£ | К m; (af, x0)— b{ = 0}.
56 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. i Покажем, что величина Р (^0) = m*n .шах ^ строго положительна. Допустим, что Р(^о)^0, т. е. для некоторого ZoG^(^o) будет выполнено неравенство max (аи 10) < 0. Тогда iel(x о) для достаточно малых t > 0 получим в силу полунепре- рывности сверху отображения 1(х), что и, следовательно, х$— tlo^A, что противоречит опреде¬ лению /0 ей (я о). Итак, Р(ж0)->0. Учитывая общий вид опорного к множеству А функционала ([22, 79]), можно ваписать Так как величина Р(#о) определяется множеством 1(хо) и существует лишь конечное число подмножеств множества {1, ..., га}, то Р(#о) ^ Р > 0, когда х0 пробе¬ гает границу допустимой области А. Поскольку любая точка х & А представляется в виде xq — tl, где t > 0, l^Q(xо), |Z| = 1, xo — граничная точка А, то утвержде¬ ние доказано. II) Обозначим G(*) = (gi (•), ..., gh(•)) — отображе¬ ние евклидова пространства Еп в Ek. Так как £.;(•) ли¬ нейно независимы, то G' (х) отображает Еп на все про¬ странство Ек при любом х е А и, кроме того, по предпо¬ ложению производная G' (х) непрерывна. Таким образом, выполнены все условия теоремы Люстерника ([50], стр. 41), из которой непосредственно вытекают условия регулярности (1.12х). Лемма доказана. ■ Ясно, что если допустимое множество А задано систе¬ мой неравенств и равенств, которые удовлетворяют усло¬ виям I), II) леммы 1.12, то выполнены условия регуляр¬ ности (1.12"). Заметим, что из условий регулярности 1ей(х'„) ШНхо) ll|=i Ф Оо — «о) = min [(ai- хо) — 1 (яг> lo) — bt] = iel(aco) = — t max (а(, lQ) ^ 0 ie/(x0) (1.13) где
ОЦЕНКИ СКОРОСТИ сходимости 57 вытекает оценка расстояния от точки до множетва реше¬ ний системы неравенств ([112]). Утверждение леммы 1.12 говорит о том, что условия (1.12) выражают для ограниченного множества X свой¬ ство, присущее глобальным условиям регулярности в выпуклом программировании ([24]). В то же время условию (1.12) удовлетворяет значительно более широ¬ кий класс функций, чем вогнутые и линейные- Например, для ограничения ф(я)>0, где Ф (х) = шах ф*(д;), 1 <{<т Ф<(^)—вогнутые на выпуклом компакте ХаЕп функ¬ ции, условие регулярности (1.12) выполняется, если су¬ ществуют точки в которых ф<(я*) >0, 1 < i < т. Теорема 1.4 и лемма 1.12 устанавливают возможность точного решения задач математического программирова¬ ния при использовании негладкой штрафной функции f 1 (х, С). Для задач выпуклого программирования подоб¬ ный вывод был сделан в [40, 42,102], причем в [42] полу¬ чены также оценки скорости сходимости метода штра¬ фов как по решению (стратегии), так и по функционалу. Для задач дискретного программирования с конечным множеством стратегий всегда можно освободиться от ограничений, используя любую внешнюю штрафную функцию, однако трудности, связанные с дискретностью, остаются. Поэтому представляет интерес попытка освобо¬ диться и от ограничений целочисленности в задаче ди¬ скретного программирования, предпринятая в [31]. Значение точной штрафной константы для задачи (1.8,9) нетрудно оценить, если известно значение коэф¬ фициента (1 в условии регулярности (1.12) и константа Липшица функции F. В случае вогнутых ограничений, как показано в лемме 1.12, для этого достаточно знать хотя бы одну точку из внутренности множества А и ди¬ аметр множества X. В случае линейных ограничений си¬ туация более сложная, поскольку определяется из решения целого набора задач математического програм¬ мирования вида (1.13). Отметим, что коэффициент [} в условии (1.12) в линейном случае, как показывает выра¬ жение (1.13), зависит лишь от векторов а>, 1 < / < т и множеств 1{х). Поскольку существует лишь конечное число подмножеств I (х) множества / = (1, ..., т}, то можно выбрать (} вообще не зависящим от — правых Частей системы линейных неравенств (а*, х) >bi} 1 ^i<m.
58 МЕТОД ШТРАФНЫХ ФУНКЦИЙ 11VI. i § 4. Лексикографические задачи оптимизации и одноэтапный способ их решения Рассмотрим лексикографическую задачу оптимизации, состоящую в определении величины Мп= max fn(x) (1.14) х<ЕХп— 1 и точки X* = arg шах fn (х), где * X* — Arg max X*0 — X. (1.15) x&X i—1 Лексикографическое упорядочение критериев {/i (x), ... • U (x)} определяет один из возможных способов сверты¬ вания векторного критерия- Поэтому целесообразно поста¬ вить вопрос о переходе в задаче (1.14,15) к единому скалярному критерию эффективности ([16]). В этом па¬ раграфе мы установим, что единый критерий может быть сформирован как взвешенная сумма частных критериев с определенным соотношением весовых коэффициентов. Из этих же результатов вытекает и обратный вывод: если единый критерий представляет собой взвешенную сумму частных критериев, то при некоторых условиях поведение оперирующей стороны будет таким же, как и в случае лексикографически упорядоченных критериев. Как отмечалось во введении, решение задачи (1.14,15) по рекуррентным формулам (1.15) затруднительно. Дело в том, что нужно отыскивать все множества Xit а это, вообще говоря, невозможно, если вычисления ве¬ дутся с погрешностями. Таким образом, задача (1.14,15) является неустойчивой. Из сказанного вытекает важность вопроса об одно¬ этапном решении лексикографической задачи, т. е. о све¬ дении ее к одной экстремальной задаче со скалярным критерием ([41, 73, 99]). Лемма 1.13. Предполооюим, что в задаче (1.14,15) функции fi(x), 1 ^ i ^ п непрерывны на компакте X,
Лексикографические задачи оптимизации 59 Пусть с„) = 2сг/гИ; с„>0*), х* {Си ...,Сп) = arg max Ф (х, Си Сп) х<ЕХ и для последовательностей [С\\ 1 ^ i ^ п — 1 существу¬ ет повторный предел lim ... lim x*(Chu ...,С*-иСп) = х*. „h Ji Cn_!^oo d-oo Тогда x* = arg max fn (x) — решение лексикогра- -1 фической задачи оптимизации. Доказательство. Положим f.(x,C) = C\ max* fi(y) — fi(x)1, х <= X*_t. Ье*г-1 J По теореме 1.1, используя внешнюю штрафную функцию yVi{х, С), имеем max ft (х) = lim max {ft {x) — f *_! (x, Ci-1)}? 2 i ^ ra. Из этого соотношения получаем Мп = lim ... lim max\fn (x) + cn_\-*°o C\ —>oo XGl П—1 i = l При фиксированных C\,..Cn-i Arg max Ф (x, C1? ..., CJ = fi(x) — max fiiy) y^xi-1 In — 1 fn (x) + 2 сг i=l ft (x) — max /г (г/) *) Обычно полагают Cn = 1.
60 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. i поскольку шах fi{y)— константы. Остается применить У^Х*г-1 утверждение теоремы 1.1, относящееся к оптималь¬ ным стратегиям. ■ Практическое использование леммы 1.13 затруднено наличием повторного предела. Найдем условия согласова¬ ния штрафных констант Сi, ..., Сп, позволяющее огра¬ ничиться одним пределом. Для этого предположим, что функции fi(x), 1 < i < п удовлетворяют на X условию Липшица и существует б > 0 такое, что для любого х е Х^\ из б-окрестности мноя^ества Xi выполнено неравенство max ft (у) — U (£)> Рр(ж, X*), —1, (1.16) где Р > 0, р(х, Xi)—расстояние от х до множества Теорема 1.5. Пусть наряду с условиями леммы 1.13 выполняются условия (1.16) и z\(C), ..., zn(C) такие функции, что lim = 0, 1<г</г-1. (1.17) С-»оо V ' Тогда для всех достаточно больших С ^ С0 любая реали¬ зация максимума по х & X функционала Ф(х, C) = ^lzi{C)1i{x) г=1 является решением лексикографической задачи оптими¬ зации (1.14, 15). Доказательство. Обозначим 71 Мi = Mi(Ci, ..., Сп) = max 2 С) Г/; (х) — тах fj(y) . Так как fi(x) по предположению удовлетворяют условию Липшица, то для достаточно больших С*, .. Сп функция
ЛЕКСИКОГРАФИЧЕСКИЕ ЗАДАЧИ ОМЙМЙЗАЦИЙ 61 также удовлетворяет условию Липшица с константой Кь = 0( max С Л. В силу условий (1.17) и оценок из теоремы 1.4 Mi = М{-г как только отношение KJCi-1 станет достаточно малым, причем Arg max (л:, С4_ь ..., Сп) Q xeXi-2 Поскольку 0<Л/1(С1, ...,Сп) — max /п (л)< 2 — A/j+i) *<-1 и выполнены соотношения (1.17), то гем самым теорема доказана, в Условия (1.16) есть не что иное как условия регуляр¬ ности из § 3 для ограничений fi(x) > max/*(г/). Они, * очевидно, выполнены для лексикографических задач на конечном множестве X и для задач с линейными (ку¬ сочно-линейными) частными критериями. Для конечного множества X значения точных штрафных констант — ве¬ совых коэффициентов суммарного критерия эффективно- 71 сти 2 Cifi 0*0 нетрудно оценить ([73]) . Таким образом, i=1 теорема 1.5 обосновывает одноэтапный способ решения лексикографических задач оптимизации. Большой интерес в связи с регуляризацией поА. Н. Ти¬ хонову некорректных экстремальных задач ([87]) пред¬ ставляет лексикографическая задача с двумя критериями: найти точку х* = arg max F (х), (1.18) где * X* = Arg max / (х)\ А — {х е X | ф; (х) ^ 0, эсеА Для задачи (1.18) справедливо следующее усиление тео¬ ремы 1}5:
62 МЕТОД ШТРАФНЫХ ФУНКЦИЙ |ГЛ I Теорема 1.6. Пусть F(x), f(z), фД#), не¬ прерывны на X, причем F(x), f (x) удовлетворяют усло¬ вию Липшица, ограничения фД;г)^0 подчиняются ус¬ ловию (1.11), и функция z(C) такова, что Itog-o. (1.19) С-юо г &) Тогда любая предельная точка множества{хк^=\, 2,.. реализаций максимума по х^Х функционала тп Ф (X, Ch) = F (X) + Ckf (X) - z (Ck) 2 I min (0, «p, (x)) |« i-1 (1.20) при Съ/оо является решением лексикографической за¬ дачи (1.18). Если, кроме того, выполнено неравенство max / (у) — / (х) > Рр (х, X*), уеА то для цц ^ 1 любая реализация максимума функциона¬ ла (1.20) при достаточно больших k дает решение ис¬ ходной лексикографической задачи оптимизации (1.18). Доказательство. Второе утверждение теоремы следует из теоремы 1.5, если положить fi(x) = m =-2|min(0, Ф«(*))К /* (*) = /(*). /з (x)=F{x). i=1 Докажем первое утверждение. По теореме 1.1 lim max IF (х) + С Г/ (х) — max f (у) j I — max F (я). С->°ох^А \ [ yeA J/ зсех* Далее, в силу сделанных предположений справедлива оценка из теоремы 1.4 — max / (у)] — 0 max (х) + CSf (х) — max / {у)] х<=Х ( Т. yeA J — £>2 [ min (0, Фг (х)) |9 — max IF (х) + С Г/ (х) — »=l J «ел I L — max / (у)]} < О (C^lD),
§ 41 ЛЕКСИКОГРАФИЧЕСКИЕ ЗАДАЧИ ОПТИМИЗАЦИИ 63 поскольку функция F + С{ при достаточно больших С удовлетворяет условию Липшица с постоянной О(С). Таким образом, при выполнении условий (1.19) lim шах ГФ (я, С) — С шах / (у) 1 = max F (х). (1.21) С->00 х<=Х L J хех* Пусть — предельная точка последовательности {.*£}, xh = arg max Ф (х, Ck),Ck-*- оо. Не ограничивая общности х*=Х рассуждений, можно считать lim xh = х*. Очевидно, А.-» оо х* е А, покажем, что х* е X*. Заметим, что lim max / (ж) — У | min (0, <рг (л;)) И = шах / (х) с-»оо зсеА ( и J 5сел [ max Ф (ж, С) — max I/ (я) — ^ 21 min (°> Фг И) I9! х&Х I i=l max|F(cr)|. (1.22) х^Х Из неравенства (1.22) следует f{x*) = lim /(zft)> h-* оо m > lim /(хУ - 2 I min (0, ф, (x») |' + A-°o I A i=i — A max f F (л:) |] = lim max (А Ф(^, Сft))— °h °h >6X J A->-°° xsX J — lim jT- max (F (x) I = max / (x). k-юо b k XGI sSA Последнее неравенство вместе с включением ж* е4 и до¬ казывает, что х* е X*. Далее из условия Липшица, условия (1.11) получаем при достаточно больших Ck оценку ф (*k, Ch) — Ch max / (®Х F (*а) + ChKp (я£, А) — х<~А -z(Cft)p9[p(4,4)lJV, (1.23) где К — цоцстанта Липшица,
64 МЕТОД ШТРАФНЫХ ФУНКЦИЙ |ГЛ. 1 Учитывая, что F (x*k) ^ max F (.х) + Кр (x*h) X*) и хех* Ф (*£, Ch) — шах / (ж) > max F (х), х^А к&Х* выводим из (1.23), что о<ф(*;, ck) — Ch max / (х) — max F (x) «ел же A* < Xp (*;, X*) + ChKp (xl, A)-z(Ck) p9[p (xl 4)f\ Также как и в доказательстве теоремы 1.4, легко ус¬ тановить, что при выполнении условий (1.19) правая часть последнего неравенства стремится к нулю, когда о°. Отсюда и из соотношений (1.21,23) следует утверж¬ дение теоремы, Действительно, х* е X*, F (х*) = lim F (x*h) lim max (Ф (я, Ck) — max / (я)! = k-*oo ft—юо XG J \ осе A / № max F (я) «ex:* и постоянная Ck max / (x) не влияет на реализацию мак- хеА симума по хеХ в (1.21). Теорема доказана. ■ § 5. Сведение задачи поиска максимина к задаче на максимум Перейдем теперь к вопросу о применении метода штрафных функций для сведения минимаксных задач к вадачам безусловной оптимизации. Основу этого параг¬ рафа составляют процедуры «свертывания» последова¬ тельности операций взятия максимума и минимума, по¬ строенные с помощью оценок скорости сходимости. 1. Прежде чем переходить к изложению результатов, рассмотрим вопрос о штрафных функциях для множеств, задаваемых бесконечным числом ограничений, Пусть множество А задано в виде А = {ieX|(p(a;,^0 при всех уе У}. Предположим, что ? (х, у, С) непрерывная по у при любых х, С «внешняя» штрафная функция для ограни¬
СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 65 чения х<=А(у) = {*€= A'|cp(z, у)>0}, т. е. f (х, у, С) = О при х^А(у), ?(х, у, С) > О при хФА(у) и lim tf(x, у, С) = оо равномерно по х ен С->0О ^Х\Уб(Л(т/)) для любого у е= У и б > 0. Здесь, как и прежде, Ув(Л) обозначает б — окрестность множества А. Лемма' 1.14. Если \1 — мера в пространстве, содер¬ жащем У, такая, что любое непустое пересечение У с лю¬ бым открытым множеством имеет положительную меру, то ?{х, С) = \ f {х, у, С) £1ц {у) (1.24) У является «внешней» штрафной функцией для ограниче¬ ния х е А. При этом А = {*е=Х|Я*, С)<0}. Доказательство. Пусть xg4, тогда, очевидно, ? (х, у, С) — 0 при всех у е У и, следовательно, ^ (о;, С) = = 0. Таким образом, А^А i={x<^X\f(x, С)< 0}. Пусть теперь Тогда найдется точка т/оеУ такая, что / (яо, т/о, С) > 0. В силу непрерывности ^ (х0, у, С) по т/ имеется окрестность У точки г/о, в ко¬ торой f (хо, у, С)> г > 0 для некоторого е. Множество V \ IУ имеет по предположению положительную меру р. (У П ^) > 0- Поэтому /(х0, С) = [ /(х0, у, С) с/(1 (г/) > ец (V п Л > Y и, следовательно, хо&Л\. Лемма доказана, и Для «внутренних» (барьерных) штрафных функций аналогичное утверждение неверно. Положим, например, ф(.г, у) = х—у, У = [—1, 0]. Тогда условие ср(«г, у)> 0 для всех y^Y равносильно тому, что х ^ 0. Выберем барьерную функцию штрафа ?g {х, у, С) = ~ (х — у)~ч, q > 0, ° В. р. Федоров
66 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 а в качестве меры ц возьмем меру Лебега. Тогда О х f q{x,C) = £- j* (х — y)~qdy = — Г j t~4dt. — 1 х-\Л Очевидно, предел lim ? q{x,C) конечен, если д<1 и ?q(xh, С)-+оо при £А->0+, когда g ^ 1. Таким образом, для того, чтобы функция (1.24) была барьерной штраф¬ ной функцией, нужно согласовать выбор f (х, у, С) и меры ц со свойствами ф(.г, у). Приведем одно из достаточных условий, обеспечиваю¬ щих такое согласование, доказательство которого не пред¬ ставляет труда. .Пусть ф(х, у) удовлетворяет условию Липшица по у на параллелепипеде Y /-мерного пространства Et равно¬ мерно относительно х. Тогда /(х, С) = ~ j [ср (х, y)r'0+7)dy, у > Г) У является барьерной функцией штрафа. В дальнейшем мы не будем испытывать затруднений с выбором функции (1.24), так как пользоваться будем лишь внешними штрафными функциями. Рассмотрим задачу отыскания максимина с распа¬ дающимися переменными u* = max min F (х, у) х<ЕХ у<=У и наилучшей гарантированной стратегии х* = arg max min F (x, у). x<=X yeY Эту задачу можно записать как задачу математического программирования с бесконечным числом ограничений к* = maxi£, (1.25) uEB(x) где и — вспомогательная переменная, B.ix) == {и е U | F (х, у) — и > 0 при всех i/eF},
§ 3] СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 67 U — достаточно большой отрезок, содержащий внутри себя и*, например,£/ = | min F (х, у) — 1, max F (х, у) + 1]. L х,У х,у J Освобождаясь в задаче (1.25) от ограничений на (х, и) с помощью штрафной функции (1.24) и исполь¬ зуя лемму 1.14 п теорему 1.1, убеждаемся, что справед¬ лива Теорема 1.7 ([17]). Пусть F(х, у) непрерывна на произведении компактов X и Y. Тогда lim max 2?q {х, и, С) = и*, С—>оо (x,u)sXxti где TBq (я, и, С) = и — С J | min (О, F (х, у) —и) |qd\i(y), q>0. Y При этом, если Ck-+ оо, то любая предельная точка (#*, и*) множества точек Их* (Ch), и* (Сh)) = arg max (х, и, Ck) | /с = 1, 2,.. Л I (x,u)GXXU ) является решением задами отыскания максимина, г. е. гг* = max min F (х, у) = min F (j:*, у). осех yeY yeY Отметим, что функция 5% (я, и, С) при у>1 всегда вогнута по гг и, следовательно, можно положить U = — ( — ОО, оо). Если, кроме того, F(x, у) вогнута по х при каждом у е У, то «2%(я, гг, С) вогнута по (х, гг). Если F(^, у) дифференцируема по х, то при у > I и 3?q{x, гг, С) дифференцируема по (.г, гг), причем ~gq(X, U, С) = = J| min (0, F (х, у) — и) l"-1 Л- F (х, у) (у), Y •£- Sq (х, и, С) = i — qC min (°» F (Х' У) —и) i9-1^ (у)* У В условиях теоремы 1.7, очевидно, lim гг* (С) = гг*, так С -»°о как решение гг* задачи (1.25) единственно.
63 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 Обозначим (uq (С), Xq (С)) = arg max gq (х, и, С) (х.гОеАхН при фиксированных С, q. Выясним теперь как связано решение задачи отыска¬ ния максимина с (х*я (С), uq (С)). Лемма 1.15. I) При всех С, # > 0 справедливы не¬ равенства гг.in F(x*q (С), у) < и* < (С), и\; (С) С) < (С). 1/еУ II) Ясли д > 1, го для достаточно больших С uq(C)^im\nF(x*q(C), у)+ {Cq\x.(Y)] !/еУ Доказательство. I) min (С), г/) сле7 ?/еУ дует из определения а*. Для доказательства правой части цепочки неравенств заметим, что a*<F(z*, у) при всех у е7. Поэтому и* = (з*, и*, С) < max (я, и, С) < и, (С). (x,u)^XxU II) Функция «2% (я, и, С), как отмечалось, вогпута и дифференцируема по и. Для достаточно больших С в точ¬ ке uq (С) должно выполняться следующее условие экст¬ ремума: -%Г&ч(хя(С), и9(С),С) = 0. Но j-S’qix, и, C)'^i — Cq\mmF (х, у) — и |? V (У) > 0 I уеУ I при ___1 и < min F (х, у) + [Cq[i (И)] 9—1 . 1/еУ Следовательно, для uq (С) справедливо обратное неравен¬ ство, что и требовалось для доказательства. ■
СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 69 Далее, для получения оценок скорости сходимости (С) к w* при С -*■ оо нам требуется Л е м м а 1.16. О пределам множество Н= {y<=Y\K-\\y-yo\\<a}, где Y — параллелепипед в l-мерном пространстве Eh у — = (У ь .... Уд, IMI = max | у, |. 1<г</ Тогда при > 0 и достаточно малых а > О / = j (а - А' 1 у - у JI fcly > (А)',+Р ±т н для любых у о е 7. Доказательство. Легко видеть, что на /-мерном кубе ^ = (Ц — Тк' Уа1 ~Ш /а\Р подынтегральное выражение не меньше, чем I — (рис. 1.3). При любом положении точки г/0 в параллелепипеде У при достаточно малых а мера множества Q П У не меньше (а/2К)\ Поэтому /»(!)%е?п г»(т)’(-&)'- Лемма доказана. ■
70 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. I Теорема 1.8 [90]. I) Пусть Y — параллелепипед l-мерного пространства Et, ц— мера Лебега и F{х, у) удовлетворяет условию Липшица по у равномерно отно¬ сительно х, т. е. |F(x, y\) — F{x, i/2) I < Alz/i — y2II При любых у 1, У2^У, £ <= X. Тогда для достаточно больших С справедлива оценка 1 0 < u*q(C) - и* < В [к1/С] ч+‘~1, где В = B(l, q) — константа, не зависящая от С и К. II) Если У = {г/i, г/m}— конечное множество, m gpq (X, г/, С) —г/ — С 2 I min (0, F (х, у^ — и) \q, i--. 1 то 1_ 1 (Суш) q~'1 ия (С) — гг* ^ (67/) 4 1 при q > ], и Uq (С) = гг* при q — 1, С > 1. Доказательство. I) Левое неравенство вытекает из леммы 1.15. Так как в конечномерном пространстве все нормы эквивалентны, то, изменяя в случае необходимости кон¬ станту Липшица функции F, можно все последующие' рассуждения проводить, используя ту же норму, что и в лемме 1.16. Обозначим при фиксированных С, q а= u*q (С) — min F (х*я (С), г/), уеУ Н= {//G У| А||г/ — г/оII ^ я}, •где у0 = arg min F (x*q (С), у). y^Y Так как F удовлетворяет условию Липшица с констан¬
СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 71 той К, то f| min(0; F(x*q(C), у) — и* (С))\Чу > У > f I F (х*я(С), y)-F (4 (С), y0) + F (х'я(С),у0)-ич(С) |%> я >1П in Г | а — К \\у — у01 |7с?г/. Уо^У J я По леммам 1.15,16 имеем min F (х, (С), у) < (a:J (С), и* (С), С) < уеу < и9* (С) — С min f I а — К || у — у011Чу < Vo€=Y ^ ^ Uq (С) — С {^j-j -j~T- Отсюда что дает для величины а оценку 1 которая вместе с неравенством ид (С) — и*^а леммы 1.15 доказывает утверждение. II) Пусть сначала q> Из леммы 1.15 вытекает неравенство u*q (С) > min F (x*q (С), yt) + (Cqm) q~[. 1<г^,7П Кроме того, JT S’q (*, «. С) < 1 — Cq I mill F (х, yt) - и |'-> < О аи I l<i<m I при __J u > min F(x, yt) + {Cq) ?-J . l<i^m
72 МЕТОД ШТРАФНЫХ ФУНКЦИЙ LT.l. i Следовательно, для хя (С), ия (С) справедливо обратное неравенство. Для q = 1 утверждение теоремы очевидно, так как при фиксированном х максимум по и функции 2?\{х, и, С) достигается в точке и= min F (х, унесли l<i<m только С> 1 (см. рис. 1.4). Теорема полпостыо дока¬ зана. ■ Замечание. Обозначим Uq (С, х) = arg max &у (л, и, С) U€:U при фиксированных С, д, я. Тогда, используя доказатель¬ ство теоремы, легко показать, что 1 О < Uq {С, х) - min F (х, у)^В [К1 iC\ ,+z_1 j/еУ в случае Z-мерного У. Сохраняется оценка разности ид (С, я) — min F{x,y) и для конечного множества У. y(EY * Величину | uq (С) — и* | естественно назвать погреш¬ ностью метода штрафных функций при сведении- задачи поиска максимина к задаче на максимум функции S?q. Таким образом, теорема 1.8 дает оценки скорости сходи¬ мости метода на выделенном классе функций F.
СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 73 Погрешностью метода можно было бы назвать и ве¬ личины I min F (хд (С), у) — S’g (х* (С), и* (С), С) I, I !/бУ I I min (х^ (С), у) — щ (С)|, I yei7 I для которых, как видно из леммы 1.15, справедливы те же самые оценки. Однако все эти определения погрешности приводят по существу к оценкам «по функционалу», т. е. по сте¬ пени близости к величине максимина, что, конечно, не гарантирует близостия5(С) к множеству Arg max ш in F(x, у) х(ЕХ уеУ оптимальных стратегий. Тем не менее оценка эффектив¬ ности стратегии хя(С) сходится к и* при С->оо и для достаточно больших С стратегию xq (С) можно принять в качестве оптимальной. В данном случае мы исходим из того, что в операциях с единственным критерием, пол¬ ностью описывающим интересы оперирующей стороны, любые стратегии, гарантирующие одинаковый результат, эквивалентны. Если это не так, т. е. модель операции сфор¬ мулирована неполностью, то для поиска оптимальных стратегий, обладающих определенными свойствами, сле¬ дует применять методы регуляризации ([87]). Более под¬ робно такие вопросы обсуждаются в третьей главе. 2. Теорема 1.8 служит основой для сведения кратного максимина к задаче на максимум. Вначале продемонст¬ рируем это на примере задачи отыскания М = max min max F (х, у, z), (1.26) зсех 1/eY г<=2 а затем перейдем к общему случаю. Это поможет лучше понять суть процедуры «свертывания» последовательного максимина при помощи метода штрафных функций. Задачу (1.26), как и в случае простого максимина (1.25), можно представить в виде М = max min и, зсеХ уеУ и(ЕЩх,у) где Б(х, у)= {и ^ U\u — F(x, у, z)> 0 при всех zeZ}, U — достаточно большой отрезок на числовой оси.
74 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 Используя метод штрафных функций (теорема 1.3), получаем М = lim max min fи + С Г | min (0, и — F (х, у, z)) \^d[i(z)\t С->оо X6I y^Y -I I u<=U I z > Вторично применяя метод штрафов (теорема 1.7), сво¬ дим приближенно задачу (1.26) к задаче на максимум М = lim lim max (у — D Г |min(0, u + г i yJxt/ + C j I min (0, u — F(x, 11, z))|%(z) — v)\pdv(y, u)|. (1.27) Здесь v — мера на У X С/, обладающая теми же свойст¬ вами, что и мера в теореме 1.7, L — достаточно большой, отрезок на числовой оси, содержащей величину М. Таким образом, исходная задача поиска максимума минимакса свелась к задаче (1.27) на максимум весьма сложного функционала. В этом функционале последова¬ тельно применяемым к функции F в (1.26) операциям взятия максимума и минимума соответствуют вложенные интегралы: один — по множеству Z, другой — по мно¬ жеству У X С/. Как мы увидим в главе 4, замена опера¬ ций экстремума интегрированием оказывается полезной при построении численных методов решения минимакс^ ных задач. Однако в (1.27) участвует повторный предел по па¬ раметрам штрафа. Для практического использования ре¬ дукции задачи (1.26) к (1.27) необходимо перейти к простому пределу, т. е. согласовать параметры С и D. Сделать это можно на основе оценок скорости сходи¬ мости из теоремы 1.8. Вернемся к общему случаю — задаче отыскания крат¬ ного максимина с распадающимися переменными М = Г max mini71 max F(xn+i, yn) (1.28) Lxie^i ^ieYiJi=l xn+l<E:Xn-\-l непрерывной на компактах Хг, У* функции F.
§ 5] СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 75 Введем следующие обозначения: /о = /о(я1, Уи а:», Уп, x*+i) = F(xn+\ уп); fi — fi {х 1, , хп ,уп | 6n-f 1, g„+1) = Wn-f-i -|- + Cn+1 j | min (0, M„+i — /0) |<7п+1йц.п+1 (#n+i). ^n-fl Здесь yn =(yn, i), ^n+i ^ L, L — отрезок, содержащим отрезок [min F(xnH,yn), min F (a;”'1"1, */")]> lxn_rl,yn x'l+l,y'1 J /2 === /2 (^1> Уь • • • » ^’n |-Сп-И» Дц5 (7nf 1» P/l) “ = vn — Dn f I min (0, f1 — vn) IPfldv„ (г/;), где л4 =.(хл, yn); nn e L, Y'n = YnxL, pn> 1. И вообще для 1^2: /гг—l = /гг—i Уь • • •, Уп-г+i I Дч-ь Dn, ... Cn—{i-2j Уп ьь • • • i Qn—1+2) ~ Un—г+2 cn—i-}_2 X X J I min (0, m„_i+2 — /2г-2) |7'v-i f-2c?n,t_(4-2 (^-1+2); X n—l+2 %n—/-(-2 = 2ч Vn—1+2)1 Уn — г+2 ^ 1» /гг = /гг (^1» Уь • • •» ^n—i+i | Дч-ь Dn, ..., Z)n_z.]_t; ?n4-i» Pm •••<! Pn—l + i) = ^тг-г+1 — Дг-г4-1 X X i* I min (0; f2i-i — vn-i+i) \Pn-l+[dvn-1 H (уп-ж); Yn-l 4-1 Уп—г-и = {уn—г+ь ^n—г+2); Pn-i и 1. При этом всегда можно считать, что vn_i4-i, 1гп_г_|_2 е L, Хп_^2 — ^п—24-2 X Д Fn—/4-1 = = yn_;_|_iXL,
76 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. I Наконец, 1 Чп === f 2п (*^1 ’ ^1 | ^я-И» » ••••> С2ч ^\ч *77г f- bPn 1 • • • » ^2» Pi) «= i’i — Z>1 j I min (0, /2„—i — Ух) |p’ c/vx (yj), />х>1. Если меры Pn-/+2, v„_/+i, удовлетворяют усло¬ виям леммы 1.14, то последовательно 2/г раз применяя теорему 1.7 получаем М = !im lim ... lim lim max /2n. (1.29) Cn_|_i->-oc Dn-+oo ca-+ oo Di-^oo (^1(t‘i)eX,XL Кроме того, если (#1, щ) — предельная точка множества j(t£i (C„+1, Z?n, . . . , 62, 7)2); 17 j (Cn-fl* • • * 7 ^2» ^1)) ~ - arg max /2n|, XitVt J . т. e. для некоторых подпоследовательностей Chn+1, Dha, ... ..., D\ —► 00 при A->oo имеем lim lim ... lim x* (€„+1, .. ., D*) = j:*, ^’riи-1~*‘oc lim lim . .. lim v* {Chn | i, Dhn, . . ., D\) = y*, /_/i nA r./f CH fi->oo DH-00 I^-oo to щ = M и Гm 1*П max 1” F {x\. //j, .. ., xv. ?/n. .r„ ( ■) = Д/. Uieyi аЧ Н^г-И ]г=! Обозначим при т '> к р (//г, А;) = qmpm-1 a (/7i, А) — /?wgm ... ркш Справедлива следующая теорема о переходе от повторного предела (1.29) к простому. Теорема 1.9 ([91]). Пусть в задаче (1.28) функция F непрерывна на произведении параллелепипедов Хи Ys евклидовых пространств Ет{, ES., 1 ^ i ^ п + 1, 1 < / < п, удовлетворяет условию Липшица по уи х2, . . ., уП1 хп+\
§ 5] СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 77 \ равномерно относительно е Xj и функции D, — cpj (C„+i), С) = ^j{Cn+1) таковы, что Г , , ../У'п—<+2/г’“(л’п—,+2)l?n—l+2 П Ca(n~l+i'n~l ^2)9п->+2. 0„_/+iiyn_ -г О -I 11 ^n_l+i+l i—2 nf5(n—i+i+l.n—Н-2) LJn— f + i + l ЯП—1 + 1 + 1 _ = o(Z?n_l+1), 1<г</г; /—1 n ra{n,n— if 1) TT ^Trx(?r-/4-?,?г— i+l) L/n—i+iCn+i 11 Cn-i 4-j-4-i i=l ^(п-1+;+1,«-1+2)Р,г._(+1 lrn-i+i+i ?i—14-.H' 1 J “ 0lun-'f 1/’ 0<Z<rc —1, (1.30) когда Cn+\oo. Тогда, если в процедуре «свертывания» v,-, ц, — жеры Лебега, т»э: I) повторный предел (1.29) может быть заменен про¬ стым пределом lim max f2n=M; Cn _J_ J ->oo (Xt', 17, )eA, x L II) 0С./Ш (.riA, arg max /27г /г/?а значениях пара- ЛЬГ1 метров С\, D), определяемых из условий (1.30) после¬ довательностью Сп+^- ->оо, то любая предельная точка последовательности {хци Ki/J/tLi является реше¬ нием задачи (1.28), т. е. Т(х*,У1, Уп, r„fi) = М. nun max JH-Yi Доказательство. Обозначим через Я,- константы Липшица функций 0 < i < 2/г — 1. Из замечания к теореме 1.8 следует оценка 0 ^ max f2l — min /2г_ %—г-|-1 ?/п—i-м ^71 — /-4-2 < Pj_, [/Г2"-р D-J_l+i\Pn-l+1+Sn-l+\ (1.31) где Р21-1 — некоторая константа.
78 МЕТОД ШТРАФНЫХ ФУНКЦИЙ/ 1ГЛ I Применяя к неравенству (1.31) оператор [шах min ln_z max , xi^*i 111Уi ? —-1 xn——J-H выводим, что О^ Гтах mini71-г max /2i — L xi Vi Ji=l xn-l-\-1 vn— l+i — Гтах minln—J max min fii—\ ^ [ *i Vi Ji=i *n—Z-fl Vn—l+l un—l+2 p2I_i [я^'+‘+1 • дг-1г+1]Рп-,+1+*п-1+1. (1.32) Пользуясь тем свойством, что для любой функции f(x, у) имеет место равенство sup inf / (я, у) = — inf sup [— / (ж, у)], ос 2/ к у нетрудно получить аналогично (1.32) оценки 0<Г max minln—1 max f2i — Г max mini71-*-1 max L Ji=i xn—Z-f-1 [ *1 V| ji=i *n—2 vn— l+l 1 min/2I+,<^1[^;r,+l+1 • Cfrii+i],n_1+'+r'l~!+i . (1.33) Vn—I un—l+1 Складывая неравенства (1.32,33) для всех Z = 0, 1, 2, ... ..., п имеем - 2 p2(-i[^r1,+1+1 • дг-н-1]Рп-,+1+%-,+1< 1 < М - max /2П < Q0 [iT-И . С;гЛ]Гп+1+<гп+1 + Kl.Vl л—1 \ + 2 Qu [ffr2?-,+i+1 • C^i,+,]r»-'+i+tf»-‘+i. (1.34)
§ 51 СЕЛЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 79 Оценим теперь Порядок констант Липшица функций /,• при достаточно больших Си А/ Kq — const, Ki ~ Сп+1, К2 ~ Dn (Сп.j-i)Pn, ..« K2i ~ Dn—/л_1 (^2i-i)Pn_I+1; П2/-(-i ~Cn-f4_1 (К2г)Яп~г+1,... По индукции выводим, что 1—1 V Л ra(n,n—l+l) ТТ —Z+j,n—Z+1) Л_2{ ^ Un— f+l^ п±1 6/7i— j=l . Д^(”Гнж+1’П_ +“№п-'+2; я21+1 - c„_i+1z>^'+'c’“<”in_,+1)<7n_!+1 х I v ГГ ra(n—Z+i”"1»ri“*+1)9n-Z4-l Г)р(п—Z-fi+l,n—Z+1) X П C^_|+i+i 71 Е1 • Un-l+i+\ г ~ 2 Отсюда и из оценки (1.34) ясно, что для сходимости max/2пк М достаточно согласования роста КОЭффиЦИеН- ^Ь^ тов штрафа A, Dj в соответствии с условиями (1.30). Докажем вторую часть теоремы. Г1усть(^1д, -^(з*, г;*) при &->• оо. Тогда из оценки (1.31) при п = I, оценки (1.34) и непрерывности функции Ф (^) = min maxln F (зд+1, у71) У * х? f I J? -1 получаем Ф(хР= lim Ф(^) = lim max /2п (x]h, j Чгп+1 (Cn+i)), h-*<x> A ->oo Vt Фп (Cn+l)» • • •» 9l (CnH-i)i Qn+h • • • 1 Pi) = = lim max f2n (x^ vx \ C*+u #£,•••, D\\ qn+u ...,p1) = k-^oo xuv, = 1 im v*h — v* = M. k-> oo Эта цепочка равенства и доказывает оптимальность х\. Теорема доказана. ■ Выделим некоторые частные случаи согласования штрафных параметров.
80 МЕТОД ШТРАФНЫХ ФУНКЦИЙ/ [ГЛ. i 1) В задаче (1.27) достаточно для/сходимости поло¬ жить I Cv=<o{D) при С, D-»- оо и любых р, q > 1. 2) Если при сведении задачи (1.28) к задаче на мак¬ симум все р{, qj= 2 (квадратичная функция штрафа), то условия (1.30) принимают вид [—1 r П2 г2(1-\) ГГ Г22(«“П Л221-3 О 71—\А-2’-' П - /+20'п-[-1 ^ 7г-j-1 — / + г * О'тг— 1-И + 1 Л 'тТ r22i~l п-Г) 5=1 гг—г+1 + 1 sn— i+1 + l — 0 (fln-1+l), = О (Сп—J+l) • 3) Если положить ри д, =1, то г—1 Cn+l-^n—Z —)— 1 П Сп—г+1-Dn—г+1 = О (СП— Z-j-1) ? г—1 г-i Сп-\-\ П Сп—~[Dn—= о (Z)n—г-[-1)« i--l 4) Если Y\, ..., Yn, Z2, ..X„+i — конечные множе¬ ства, то задача (1.28) может быть сведена к задаче на максимум введением функций /1 = Итг+1 + + Сп+1 |min(0, м„.И — F(xlt iji,..., уп, arn+i)|, 71 \-1 /2 = у„ — -°п 2 1 I min (0, А — и„) | dun^ и т. д. *nt По теореме 1.8 при любом Сп+\ > 1 М = laxminl71 1 шах min /г, x-i Vi Ji=l хп Уп>ип-\-1 и, следовательно, условия сходимости метода штрафов имеют вид г-i Аг-г-и П Cn_j_|_i Dn—= о (Сп—г+i), 1 ^ I ^ и lj
СВЕДЕНИЕ К ЗАДАЧЕ НА МАКСИМУМ 81 1—1 п Cn—j-±.\L)n—= о (Dn—г-j-i), 1 ^ I ^ /2. 3=1 Последовательный максимин со связанными перемен¬ ными таким же методом может быть сведен к задаче на максимум, если предварительно с помощью теоремы 1.2 освободиться от ограничений. Итак, метод штрафных функций в принципе позво¬ ляет решить*) задачу отыскания максиминалюбой крат¬ ности. Однако практическая реализация метода требует преодоления ряда серьезных трудностей вычислительно¬ го характера, связанных со счетом интегралов и быст¬ рым ростом штрафных параметров. Рассмотренные слу¬ чаи согласования показывают, что требование большей гладкости штрафных функций приводит к более быстро¬ му росту параметров штрафа. Это утверждение в полной мере относятся и к задачам математического программи¬ рования, как следует из оценок теоремы 1.4. Таким об¬ разом, численная реализация метода штрафов каждый раз ставит вопрос о компромиссе между гладкостью штрафной функции и величиной коэффициента, т. е. во¬ прос о способе параметризации исходной задачи, соответ¬ ствующем выбранному методу поиска безусловного экстре¬ мума. Как отмечалось во введении, к задаче (1.28) сводится определение наилучшего гарантированного результата первого игрока в антагонистической многошаговой игре с полной информацией. Метод штрафов в сформулиро¬ ванном выше виде позволяет найти лишь первую компо¬ ненту оптимальной стратегии первого игрока. Для * * / * \ отыскания второй компоненты х2 = х2 , уi) нужно ре¬ шить параметрическую задачу на последовательный мак¬ сим гтн max mini" F (х*, уъ x2, yn) H Vi Jj—2 при всех y\ e Y\. Теоретически это возможно, хотя и чрезвычайно трудоемко. На практике, конечно, следует поступать иначе. А именно, избежать табулирования *) Под решением здесь понимается сведение задачи к безус¬ ловной оптимизации.
82 МЕТОД ШТРАФНЫХ ФУНКЦИЙ 1ГЛ. 1 функцийх2, */2)ит. д. можно, если решать возникающие максимииные задачи по мере поступления информации о неопределенных факторах уи 1 ^ i< п. § 6. Некоторые минимаксные задачи со связанными переменными 1. Рассмотрим одну из задач, возникающих при изу¬ чении игр с передачей информации ([14]). Пусть функции выигрыша игроков суть F (х, у) и I/), а X Y — множества стратегий. Наилучший га¬ рантированный результат первого игрока, сообщающего свой «ход» х е X второму, равен sup inf F(x,y), (1.35) кех у£В(х) где В (х) — Arg max G (x, у). y&Y Отображение #(•)» как показано в § 2, не обязательно непрерывно по Хаусдорфу. Поэтому теорема 1.2 оказы¬ вается неприменимой, а справедлива теорема 1.3. Обозначим через 1(х, у, С) внешнюю штрафную функ¬ цию ограничения у^В(х), например I (х, у, С) = С J [min (О, G (х, у) — G (х, z))]2d|.i (z), (1.36) у где мера ц на Y обладает теми же свойствами, что и в § 5, либо I (я, У, С) = С j^max G (х, z) — G (х, z/)J. (1.37) По теореме 1.3 имеем для непрерывных на компакте XXY функций F, G sup min F (х, у) = lim max min {F (x, у) + I (#, у, C)}, jcel У^В{х) С-ЮО x<=X 1/£Y т. e. задача со связанными переменными приближенно сводится к максимину с распадающимися переменными. Если взять штрафную функцию (1.37), то max min {F (х, у) + I (х, у, С)} = ссех уеУ s= max min{F(or, у) + C[G(x, z) — G {x, (/)]}, л-ех.геУ г/еУ
ЗАДАЧИ СО СВЯЗАННЫМИ ПЕРЕМЕННЫМИ 83 и задача (1.35) приводит к максимину с первой пере¬ менной (х, z) большей размерности. Увеличение размер¬ ности в данном случае является «платой» за использо¬ вание негладкой штрафной функции и отсутствие опера¬ ции интегрирования. Перейдем теперь к сведению задачи (1.35) к задаче на максимум. Теорема 1.10 ([26]). Пусть F(x, у), G(x, у) в за¬ даче (1.35) непрерывны на произведении компактов X, У и удовлетворяют условию Липшица по у равномерно относительно хеХ, причем Y — параллелепипед в I- мерном пространстве Ей Тогда sup min F (х, у) = оееА у^В(х) = lim max {и — z (С) f | min (0, F (х, у) + C->oo {xtu)<EXXU У + I {х, у, С) — и) IЧу), (1.38) где 1(х, у, С)—штрафная функция вида (1.36) или С1 (1.37), a z(C) — такая функция, что lim-—— = 0. С-ию z 'И Далее, для любого е > 0 существует С о такое, что при всех О С0 реализации максимума в (1.38) (^(С), щ (С)) являются соответственно г-оптимальной стратегией и г-приближением к величине (1.35). Доказательство. По теоремам 1.3 и 1.7 получаем sup min F (х, у) = lim max min{F (я, у) + I (х, у, С)} = х&Х у^В(х) С-»°О хеХ yeY = lim lim max {и — D Г | min (0; F (х, у) + С-*оо D-*oc(x,u)eXxU ^ + /(х,у,С)-а)|^]. (1-39) Так как F и G удовлетворяют условию Липшица, то при достаточно больших С функция F(x, у)-\-1(х, у, С) также удовлетворяет условию Липшица по у с константой О(С). По теореме 1.8 при фиксированном С имеем 0 ^ max {и — D [ \ min (0; F (х, у) + I (х, у, С) — (х ,и)е^хп J
84 МЕТОД ШТРАФНЫХ ФУНКЦИЙ (ГЛ. 1 — и) \qdy} — max min{F(.r, у) + I {х, у, С)}< х^Х ij^Y ^o([Cl/D] '+9_1)« Следовательно, для перехода от повторного предела (1.39) к простому (1.38) достаточно положить Cl = o(D) при D-+00. Вторая часть теоремы непосредственно вытекает из теорем 1.3,7. и В случае конечного множества У, как это следует из теоремы 1.8, коэффициенты С, D можно увеличивать не¬ зависимо друг от друга и, в частности, считать С = D. 2. Пусть требуется определить наилучший гарантиро¬ ванный результат первого игрока в игре двух лиц с за¬ прещенными ситуациями ([14]): sup inf F (х, у), (1.40) лед f/e/i(x) где В (х) •= {у е У | ср(.г, у) > 0}, А-= {jel | В(х) Ф 0]. Множество разрешенных ситуаций в игре есть <? = У) I х^Х, y^Y, А, у efi(i)} и супремум в (1.40) берется по тем стратегиям х перво¬ го игрока, которые не «запирают» второго игрока, т. е. дают ему возможность образовать допустимую ситуацию. При этом, естественно, предполагается, что второму иг¬ року становится известным ход первого. Если отказаться от предположения, что В(х) ф 0 при всех х^Х, то, как показано в § 2, теорема 1.2 ста¬ новится неверной, даже если В(•) непрерывное отобра¬ жение. Далее будем считать А ф 0, A cz X (т. е. А собст¬ венное подмножество X). Теорема 1.11. Пусть X и Y компакты, F, ф непре¬ рывны на XXУ, В(•) непрерывное на множестве А по Хаусдорфу многозначное отображение В(х) = {у^У |Ф(.г, у)> 0}. Предположим, что В(•) задано в виде В(х) ■= {уе У | h{x, у) = 0},
ЗАДАЧИ СО СВЯЗАННЫМИ ПЕРЕМЕННЫМИ 85 причем h(x, у) > 0 (например, h(x, у) •= [min ”(0; ф(*, у))I2); (л, у, С, D) = F (.г, г/) + Ch (х, у) — Z? min h (х, у). уеУ Тогда lim max min (я, г/, С, z (С)) = max min F (х, у), с-*«> зс<еа уеУ зсел у^В(х) где z(C) такая функция, что существует предел 1ип4^->1- (1.41) С —у оо и Любая предельная точка х* множества {4 = arg max min g (x, у, Ck, z (Ch)) | Ch ool | X€EX yE:Y J принадлежит A, т. e. В{х*)ф 0 и x* = arg max min F (x, y). хел y^B(x) Доказательство. Обозначим м.-* r= max min F (x, y), w (C) = max у, С, z(C)). xga y€zB{x) x(ex i/ey Так как м; (С) > min [F (ж, у) + Ch (х, у)], где i/e у я = arg max min F (дг, у), зсел у^В(х) и по теореме 1.1 min [F (х, у) + Ch (х, у)] —^ w*, i/e у то lim w(C)^w*. U-4-J С другой стороны, найдутся ео > 0, Со > 0 такие, что z(C) > (1 + е0)*С при С > Со. Отсюда при всех С ^ С0 и; (С) ^ max min [F (.г, у) —е0С/г (я, у)], 0CGX уеУ(х) где Y (х) = Arg min h (х, у). уеУ
86 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 Так как Y(x)=B(x) при х^А, то Y (х) непрерывно по Хаусдорфу на А. По лемме 1.11 получаем, что lim max min [F (x, у) — eGCh (x, y)] = w*. C-*oo xGl y^Y(x) Итак, lim w (С) ^ ш*, что вместе с (1.42) дает первое ут- С->00 верждение теоремы. Второе утверждение доказывается с учетом непрерывности отображения В{•) точно также, как в теореме 1.2. в Сведение задачи (1.40) к задаче на максимум мето¬ дом § 5 теперь уже не представляет труда. Условие (1.41) теоремы можно интерпретировать сле¬ дующим образом. Для того, чтобы обеспечить сходимость метода штрафов при решении игры с запрещенными си¬ туациями, достаточно потребовать, чтобы штраф за на¬ рушение ограничений первым игроком, сообщающим ход, был больше, чем у второго. В пределе при С-*- оо, z(C)оо это означает, что первый игрок не может уве¬ личить значение максимина функции 3 за счет выбора стратегии, не дающей возможности второму игроку избе¬ жать возникновения запрещенной ситуации. Таким об¬ разом, в задаче (1.40), так же как и в других игровых задачах, иерархия игроков в процессе принятия решения находит свое отражение в иерархии штрафных пара¬ метров при обосновании метода штрафов. 3. Рассмотрим стохастическую максиминную задачу со связанными переменными Мц --= sup Г min F (х, у, со) dP (со), (1.43) хех Д t/eT(x,со) где “ Y (х, со) Arg max G(x , у, со), j/eAr(.x,d)) N(x, о) •= {у <= Y | ф(л:, у, (о) > 0}. Данная задача описывает процесс принятия решения в иерархической двухуровневой системе при наличии случайных факторов 0 ^ Й с законом распределения Р. Решение задачи состоит из двух компонент: детермини¬ рованного вектора х *, реализующего (1.43) (хотя бы с точностью е>0), и случайного вектора у*(х*, 0) = = arg max G (я*, у, 0). Вектор х* можно интерпретиро- y^N{x*, о)
ЗАДАЧИ СО СВЯЗАННЫМИ ПЕРЕМЕННЫМИ 87 вать как план первого этапа, выбираемый «Центром», а */*(£*, со) —как план второго этапа, находящийся в ра¬ споряжении второго уровня системы—«Производителя», имеющего собственные интересы. Таким образом, зада¬ ча (1.43) является обобщением двухэтапной стохастиче¬ ской задачи ([46]) на случай несовпадающих интересов участников. В частности, в нее вкладываются линейная модель перспективного планирования в системе «Центр — Производитель» ([100]). Придерживаясь общей схемы анализа максиминных задач, состоящей в последовательном сведении при по¬ мощи штрафных функций сложных задач к более про¬ стым, рассмотрим вопрос о снятии связей между страте¬ гиями хи,г/в максимине (1.43). Для этого предположим следующее: 1) X, У — компакты евклидовых пространств; 2) функции F, G, ф непрерывны по (х, у) при почти всех о)£Й и ограничены и измеримы при любых (х, у) е еХХУ; 3) множества N{х, со) не пусты при всех я<=Х, о ^ £2; 4) многозначное отображение ЛЦ*, со) при почти всех со ^ Q непрерывно по х в метрике Хаусдорфа. Для выполнения последнего требования в силу леммы 1.4 достаточно, чтобы замыкание №(х, со) множества №(х, а>) •= {у <= Y | ф(ж, у, со) > 0} совпадало с N (х, со) при каждом щей. Из леммы 1.6 тогда вытекает измеримость по со при каждом 2 функции f(x, со) = min F (х, у, со), уе У(я,со) а из леммы 1.7 — полунепрерывность снизу на X функции Ф(я) = Есоf(x, со). Здесь Е о— символ математического ожидания. Лемма 1.17. Пусть ? (х, у, а), С) — непрерывная по (х, у) штрафная функция, равная нулю при у Y(х, со) и положительная при у ^ N(х, со) \У(^, со)*
88 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ I Тогда lim max min Н (х, у, со, С) = Д/q, (1.44) С-*оо х&Х yeJV(x.co) где Н(х, у, «в, С) = F(x, у, со) f (х, у, а, С), и любая последовательность (х* (ch) = arg max Еи min Я (х, у, со, Ck) | Ck -*■ ool I хеА i/SN^co) I является г-оптималъной в задаче (1.43), г. е. lim Еш min F {х* (Ск), у, со) = Ма. h-*x уеУ(эс*(С/{), со) Доказательство следует из леммы 1.10, теоремы 1.3 и теоремы о предельном переходе под знаком интег- рала ([53]). ■ Можно освободиться в (1.44) от ограничения у е ^ N (х, со), также связывающего (х, у), введя для мно¬ жества Y\N(x, со) штрафную функцию У (я, г/, 0, О), и еще раз применяя лемму 1.17. Получим lim lim max min (x, г/, со, С, D) = Д/q, (1.45) С-»оо D-*oo х~Х y€=Y где S’(ж, у, 0), С, £>) =F0r, г/, со) + /(г, г/, со, С) + + У(х, У, со, D). Здесь в качестве штрафных функций можно исполь¬ зовать, например, следующие: /х(Е I/, СО, С) = С\ max G(x, г, со) — G(x, у, со)]; L z^N(xta) \ ?.г (х, у, со, С) = С j I min (0; G (х, у, со) — N(x, со) — G (х, z, со)) |7c?(.i (г); /з {х, у, со, С) = С j* [min (0; G (х, у, со) — У — G(x, z, co))]2-[max (0; ср(х, z, со))12ф(г); когда №(#, 0) = iV(:r, 0), I/, w, #) = ^|min(0; ф(яг, г/, 0)) h д > 0- и т. д.
ЗАДАЧИ СО СВЯЗАННЫМИ ПЕРЕМЕННЫМИ 89 Мера р на У должна быть такой, чтобы условия f i{x, у, со, С) = 0; i = 2, 3 и у & Y (х, со) были эквива¬ лентны (см. § 5). Заметим, что можно построить единую штрафную функцию для множества Y\Y (х, со), если №(х, со) = N(х, со) при всех (х, со). Легко проверить, что такой функцией является / (л-, у, со, С) = = С j j [min (0; G (х, у, со) — G (х, г, со))]2 X X [max (0; ф (х, z, co))]2c/|.i (2) -f [min (0; ф (x, у, со))]2} п, следовательно, по лемме 1.17 Л/а = lim max Еш min {F (х, у, со) + ? (х, у, со, С)}. (1.46) С->оо xei уеУ Таким образом, мы пришли к стохастической макси- минной задаче с распадающимися переменными х и у, используя, в отличие от (1.45), лишь одну штрафную кон¬ станту. При фиксированном С отыскание максимума в (1.46) есть решение двухэтапной стохастической задачи с противоположными интересами игроков. В общем случае не удается ограничиться одним штрафным параметром и нужно, следовательно, согласо¬ вать параметры С, D в соотношении (1.45). Теорема 1.12 ([100]). Пусть функции G(x, у, со), F(x, у, со) удовлетворяют условию Липшица по у равно¬ мерно относительно (х, со) и ограничение y^N(x, со) таково, что ф(х, у, со) «с —р[р(у, N(х, со))]т; Р, К > 0 при у &N(x, со). Если дц > 1, функция z(C) удовлетворяет условию то Mq = lim max Е© min{# (х, у, со, С) + 2f q {х, [/, со, z (С))} С-*-ос у<ех уеУ
90 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 и любая последовательность точек Sx*h = arg шах Еш min {Я (х, у, со, СЛ + I х<=х уеу +Уq (х, у, со,г (Cft)) | Ch -> с»} будет г-оптимальной в задаче (1.43). Если qy < 1 и, кроме того, G(x,y, со) — шах G (х, z, со) ^ —р • р (г/, Y (х, со)) (1.47) 2GN(3C,C0) для y&Y(x, со), то для некоторого конечного С0 Ма = шах Effl min{F(x, у, со) + f t (х, г/, со, С0) + хех уе у + (х, у, со, г(С0))}, причем Arg шах Ет min {F (х, у, со) -h f х (х, г/, со, С0) + хех г/еУ + .9^ (х, г/, со, z(C0))} = Arg max Еш min F(x,y,<s>). XGI J/GY(X, (О) Доказательство этой теоремы легко можно по¬ лучить из теоремы 1.6 (равенство (1.21)), используя лемму 1.10 и теорему о предельном переходе под знаком интеграла. ■ Теорема 1.12 обосновывает сведение исходной задачи к двухэтапной стохастической экстремальной задаче, в которой выбор х и у производится игроками, пресле¬ дующими противоположные цели. Условие (1.47) теоре¬ мы, как показано в лемме 1.12, выполнено для линейного критерия G и многогранников N(х, (о), У. Другой способ преобразования задачи (1.43), также основанный на идее метода штрафных функций дает Теорема 1.13 ([100]). MQ = lim sup ЕtoF{x, у{х, со, С), со), С * эо xei где у (х, со, С) = arg max [—F (х, /у, со) + С-G (х, у, со)]. y^N(x,(o) Если последовательность {xh} такова, что {хи,У (**> Си), “) > sup Eq,F (х, у (х, со, Ch), со) — ей,
ЗАДАЧИ СО СВЯЗАННЫМИ ПЕРЕМЕННЫМИ 01 где lim гк = lim -ту- = 0, JflQ k~>00 k-ЮО к lim E<o min F (xh, у, со) = MQt k->oo г,'еУ^,(о) т. e. {xj — г-оптималъная последовательность стратегий в задаче (1.43). Доказательство. Зафиксируем (х, со). Задачу минимизации min F(х, у, со) представим как лекси- y&Y(x,cо) кографическую задачу максимизации по векторному кри¬ терию [G{x,y, со); — F(x. у, со)] на множестве N(x, со). По теореме 1.1 имеем / (х, со) = lim max I—F (х, /у, со)+ С IG (я, у, со) — С_*х> ?;eN(X,(D) \ L — max G (х, ъ, со) . :EN..y.(o1 И При фиксированном С множество N (х, со, С) = Arg max [ — F (х, уу со) + C-G (х, у, со)J z/eiV(oc,(o) совпадает с множеством реализаций максимума в правой части последнего равенства, так как max G (xt z, со) 2eiY(x,co) ’ не зависит от у. Пусть |F(x, у, со) | < М при всех (х, у, со), тогда N (х, со, С) ^ Yt(x, со), где у = 2М/С и Yy(x, со) = [уе N (х, со) \G(xy у, со) > max С(х9 2, со) — у]. I z^N{x,(o) \ Действительно, при гу^УДя, со) имеем --F (х, у,а>) + C\G(xt у,ш)— max G (х, z, со) 1 < [ zeiV(x,со) J < М - Су = —М
92 МЕТОД ШТРАФНЫХ ФУНКЦИЙ (ГЛ. I и в то же время max l—F(x,y,(o)-\-C\G(x,y,a) — max G(x,z, со) 11^ y£i\'(jc,(i)) 1 L со) Ji ^ — min F (x, у, 0) — л/. ye У c.v, со) Далее — min F (x, y, w) — F (x, у с» ю) + l/eY(x,co) -fC[G(;r, г/с» со) ~ max G (д:, z, 0)1 ^ — F(x, ус, 0) [ zeiV(x, со) J при yc^N(x, со, С), т. о. F(;r, г/с, со) < /(гг, со). Итак, при i/с е УУ (ж, со, С) имеем / (.г, со) > F (гг, г/с, о)) > m in F (х, у, со) > yeiV(oc,co,C) ^ min F (я, у, 0) = fy (х, 0). уеУ Y(ac,co) Отсюда MQ > sup EoF (х, у (х, 0, С), 0) > sup EJy (х, 0). аеА х<ЕХ Так как fy{x, со) v"0+ >/(•£, со) при любых (я, 0) моно¬ тонно по y> то, применяя лемму 1.10 и теорему о предель¬ ном переходе под знаком интеграла, получаем для после¬ довательности точек {я*}, определенной в условии тео¬ ремы lim Ещ/ (xh, со) > lim EfflF (xh, у (xh, со, Ch), со) > k->oo k->oo > lim {sup Eb/va (*» ®) — M = Ma, 00 Uex / где Ya === 2M/Ch. Данное неравенство и означает e-опти¬ мальность. Теорема доказана, в Утверждение, аналогичное теореме 1.13, при отсутст¬ вии случайного фактора 0 доказано в [61]. Если функция F(х, у, 0) удовлетворяет условию Лип¬ шица по у и выполнено условие регулярности (1.47), то N(х, 0, С)= Y(х, 0) при всех С больших некоторого Со и поэтому MQ = sup EqF (х, у (я, 0, С), 0). X
§ 7] ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 93 В частности, = sup Еш max F (х, у, (о). леХ beiV(x,(o,C) Это равенство можно интерпретировать как сведение за¬ дачи (1.43) к двухэтапно.й стохастической экстремальной задаче с совпадающими, в отличие от теоремы 1.12, ин¬ тересами игроков, выбирающих стратегии х и у(х, со). Эффективность использования теоремы 1.13 для построе¬ ния численных методов решения минимаксных задач со связанными переменными, как показано в работе [43], вытекает из того, что здесь не требуется находить все множество Y(х, со) оптимальных ответов второго игрока с последующей минимизацией F (х, у, со), а достаточно взять любую точку из множества N(х, со, С). § 7. Освобождение от дифференциальных связей в минимаксной задаче оптимального управления 1. Пусть движение динамической системы описывает¬ ся уравнением x(t) = f(x(t), u(t), IJ); x(t0) = x0(y), (1.48) где x(t) — фазовая траектория в пространстве Еп, u(t) — управление, выбираемое оперирующей стороной, у е У — неопределенный фактор. Появление неопределенного фактора в уравнениях движения может быть связано ли¬ бо с недостаточной изученностью процесса (природная неопределенность), либо с действиями игрока, пресле¬ дующего собственную цель. Управления u(t) будем считать ограниченными изме¬ римыми функциями, принимающими значения из. задан¬ ного множества U u(t)^U<=Er. (1.40) Если для уравнения (1.48) выполнены условия теоремы существования и единственности решения, то каждой па¬ ре (1г(•), у) соответствует траектория x(t, и{*), у). Та¬ ким образом, программному управлению u(t), которое выбирается без информации об у, можно сопоставить це¬ лый пучок траектории М*. «(*). и) lz/e Y}.
94 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. I Оперирующая сторона стремится перевести систему (1.48) при каждом y^Y на целевое множество S (у) ^ Еп. Возможны, по меньшей мере, два варианта такого ус¬ ловия, определяющего класс допустимых управлений D. а) Класс допустимых управлений D состоит из функ¬ ций u(t), удовлетворяющих условию (1.49), и таких, что для любого у е У найдется момент времени ty'> t0, когда и('), У) sS(y)- б) Множество D включает в себя управления u(t), для которых существует момент времени t* ^ to такой, что условие х(1*, и(-), у) е S (у) выполняется сразу для всех у ^ У. Очевидно, множество допустимых управлений в слу¬ чае б) является более узким, чем в случае а) и, в част¬ ности, может быть пустым. Поэтому мы более подробно остановимся на задачах с условием а): x(ty, и(»), у) *=S(y). (1.50.)' Предположим, что множество допустимых управлений D не пусто. Введем функционал 1У У(и(.), у, ty)= J/o(z(f, U(.), у), u(t), t, у) dt, (1.51) to описывающий качество управления (критерий эффектив¬ ности). Допустим, что оперирующая сторона стремится по возможности уменьшить значение функционала (1.51). Применение принципа гарантированного результата при¬ водит к задаче отыскания минимакса min max#~ (и(-), у, ty) (1.52) u(*)eD i/GY ty>lo и оптимального управления n*(»)^Z), определенного на отрезке Г£0> max^l, реализующего L 2/ег J тах^~(н* (•), у, tl) = min max ЗГ {и (•), у, ty). y^Y u(-)gD i/GY ty^t о Выделенный нами класс допустимых управлений может быть пустым. Приведем соответствующий
ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 95 Пример. Пусть в точке а\ < 0 на прямой находится тело единичной массы, которое в начальный момент вре¬ мени to = 0 имеет скорость а2 > 0. На тело действует тормозящая сила u(t), 0 ^u(t)<:P и сила трения — yx](t), где х1 (t) — координата тела в момент t, причем коэффициент трения у известен неточно: у\ ^ у < у2. Требуется так выбрать управление и(•), чтобы как мож¬ но быстрее остановить тело в начале координат, т. е. пе¬ ревести в точку Ь = (0, 0) фазового пространства (х\ х2). Уравнение движения под действием управления u(t) записывается в виде =^мр«)+с“(<). и.5з, где z(0) = {аи а2)] A(y) = [Q _ J; С = (_ ,)• Используя принцип максимума JI. С. Понтрягина ([78]), легко получить, что при а\ + а21у > 0 и -р- In + 1 j ^ 0 для каждого фиксирован¬ ного у существует оптимальное по быстродействию уп¬ равление ,о, (*» у) = р где момент переключения t(y) определяется попаданием системы (1.53) в точку с координатами п,у2 \-п0у е~~^ -1 хЧу) = а1 + ^-- v ; х- (у) алцг\-а2у Р У .-1 В то же время не существует управления, которое пере¬ водило бы систему (1.53) в начало координат сразу для всех y^Y. Действительно, если и{•) фиксировано, то либо при у = у 1 тело остановится справа от точки Ъ\ = 0, либо при у =<У2> У\ — слева от точки Ъ\ = 0. Таким образом, здесь множество D пусто. Заметим, что в классе программных управлений такой случай, по-видимому, наиболее типичен. Множество D
96 МЕТОД ШТРАФНЫХ ФУНКЦИЙ 1ГЛ. 1 может оказаться непустым в классе управлений, исполь¬ зующих ту или иную информацию о неопределенном факторе у. Далее в § 12 будет показано, что введение «корректирующего» управления в рассмотренном выше примере позволяет поставить и решить задачу об опти¬ мальном гарантированном быстродействии. Задача (1.48—52) в качестве частных случаев содер¬ жит варианты минимаксных задач оптимального управ¬ ления, рассмотренные в [1, 9, 25, 30], а также задачи уп¬ равления по быстродействию несколькими объектами ([105]) и некоторые задачи с промежуточными условия- МП ([4]). 2. Метод штрафных функций для снятия дифферен¬ циальных связей в задачах оптимального управления ис¬ пользовался уже неоднократно ([58, 60, 85, 107]). Осво¬ бождение от дифференциальных связей позволяет упро¬ стить задачу оптимального управления путем сведения ее к задаче вариационного исчисления. При этом можно не только применять более простые численные методы, но и получать необходимые условия оптимальности в за¬ дачах оптимального управления. Рассмотрим задачу (1.48—52) в том случае, когда неопределенный фактор у принимает N возможных зна¬ чений из множества {1, 2, . . ., N}, и моменты времени ty =.t\, t2, . .., tN фиксированы. Иайти 7/* (•) = arg min max ST-(?/ (•), ff)4 (1.54) u(-)en f<;<n где ti tj) = j fo (Xj (t, u(.)). U(t), t)dt, (1.55) to Xj(t, u(*)) — решение уравнения Xj(t) u{t), t) (1.56) с условиями *j(*o) ==,^'0i ^ Sj. (1.57) Исследуем предварительно вопрос о компактности мно¬ жества D допустимых управлений, переводящих каждую
ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 97 из систем (1.55)' из толки х0 на свое целевое множество й, К j < N, и вопрос о непрерывности интегрального функционала (1.55). Существуют различные условия слабой непрерывно¬ сти (или полунепрерывности) интегральных функциона¬ лов ([50]). Для наших дальнейших выводов достаточно будет следующего результата, содержащегося в лемме 1.18. Пусть моменты времени to <С t\ ^ ^ tN фиксирова¬ ны и множество допустимых управлений D состоит из ограниченных измеримых на отрезке [£о, tN] функций u(t) со значениями из выпуклого компакта UczEr, пе¬ реводящих %j(t, и(•)) из точки xq на замкнутые целевые множества Sj ^ Еп. Предположим также, что в систехме (1.56) все функции /j, l^j^N линейны по управлени¬ ям, т. е. Xj(t) =.Aj(t, Xi{t))-u(t) + b>(t, x/(t))\ '(1.58) Функции A5(t, x), bj(t, x) будем полагать определен¬ ными на [*о, tj]X>X(XiDX] — область значений Xj(t, и(•)), когда и{т) пробегает множество допустимых уп¬ равлений), и ограниченными; при постоянном х^Х из¬ меримыми по t, а при любом t ^ [t0l tj] непрерывными по х. Кроме того, предположим, что эти функции удовлет¬ воряют условию Липшица I а\к (*, Ъ) — a\k (t, x2) | < lj (t) 2 | x\ — «21, 8=1 IH (t, Xj) — b\ {t, x2) I < lj (t) 2 | x\ — x\ I, S=1 где A’ (t, x) = (a\k (t, x)) — матрица; ft5 (t, x) = (b\ (t, x),... x\, x2^X, lj(t) — суммируемая на [£o, tj] функция. Множество X принимается замкнутым и огра¬ ниченным. Это условие выполняется, если, например, \ (х, fit, я))| < т(1 + |#|2) *), где т > 0. Действитель¬ но, тогда IXJ (0 |2 = 2 (i, (t), Xj (t)) < 2m (i + \xj (t) I2), *) \x\ обозначает евклидову норму вектора х е Епщ 7 В. В. Федоров
08 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 — равномерно по is [t0, tj] и / =, 1, . . N ограничены, откуда I Xj (О Г < (1 + К I2) e"n{t~u) — 1 Сформулированные требования обеспечивают существо¬ вание на отрезках [£o, £j] и единственность абсолютно непрерывных решений уравнений (1.58) для любого из¬ меримого управления u(t), удовлетворяющего условию (1.49) ([50]).. Функции /о, 1 < / </V, задающие интегральные функ¬ ционалы в (1.54) также считаем линейными по управ¬ лениям /о (х, и, t) = а’о (t, х)-и+ Ь’0 (t, х), где a[(t, 5)» ^0 х) удовлетворяют тем же условиям, что и a\h (t, х), Ы (t, х). Лемма 1.18 [74]. При выполнении всех перечислен¬ ных требований множество D допустимых управлений задачи (1.54—57) является компактом, а функционалы (1.55) непрерывными в слабой топологии пространства L2(t0, tN). Доказательство. Добавим при фиксированном / к системе (1.58) уравнение *0 (*) = «О (t, X (t)) -u(t) + bj> (t, * (t)) и введем дополнительно к (1.57) начальное условие x0{t0) =='0. Расширенную систему запишем в векторном виде как = A3(t,x} (t)).u(t) + P(t,x(t)), (1.59) где Xj = (а:о, Xj), b3 = (b3, b30), A’ — расширенная матрица. Пусть Xj (*), Xj (') —• решения системы (1.59), соот¬ ветствующие управлениям и*(«), и(«). Для доказательст¬ ва слабой непрерывности &~j(u(*), tj) достаточно пока¬ зать, что Xj {t)-+Xj(t) равномерно по * е= [*0| tj], когда {щ(*)} слабо в £2(^0, tj) сходится к и(*). Положим zh(t) = Xj (t) — Xj (t). В силу сделанных предположений | zh(t) | ограничен. Из уравнения (1.59) имеем (** (<), г* (0) = (Л; (г, ~х) (<)) Uh (t) - А} (г, ~х) (t)) и («),
ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 99 «* (0) + (а* (г, Ц (0) U (t) - A’’ (t, х} (0) U (*), г* (0) + + (#(*. ** (0)-^(<,^(0),*й (0). Так как коэффициенты уравнения (1.59) удовлетворяют условию Липшица по х и множество U ограничено, то отсюда получаем оценку A I zk (t) I2 < М, (t) IZ* (t) I2 + Mt (t) [Uh (t) - и (/)], где функция M\(t) суммируема, a M2{t) — ограничена. Допустим, что J Мг (0 [«k (0 - « (г)] * рав¬ номерно по всем [*0, ^]. Тогда в силу леммы Грону- олла ([58], стр. 261) справедлива оценка |zA(£) |2 ^ Са, где С — некоторая константа. Итак, осталось доказать, что t f AMOK (0 — Ы (01 0 'to при к —> оо равномерно по is [£0, ^]. По определению слабой сходимости {^а(-)} к и{*) для любого е >> 0 при фиксированном t существует но¬ мер к (в, t) такой, что при всех к ^ /с(е, t) справедливо неравенство t I' M2(t)[uh (t)-u(t)]dt to Дадим t приращение Дt так, что t + At е [£0, ^]. Тогда J M2{t)[uh{t)-u(t)]dt <2М-Д*, (1.60) где М = шах | и |* sup М2 (t). Следовательно, любой vet; точке t можно сопоставить интервал б* длины -щ такой, что для те бх будут справедливы вытекающие из (1.60) неравенства J ЛМ0 МО - «(01 * . е. (1.61)
100 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. I Поскольку [£0, tj] компакт, то из покрытия {б/} можно выбрать конечное подпокрытие {6Х}. Каждому 6Х соот¬ ветствует свой номер к(е, к). Обозначим наибольший из них к*(е). Тогда при к^к*(е) неравенства (1.61) вы¬ полнены равномерно по т е [t0, tj]. Слабая непрерывность функционалов ^(и(*), tj) доказана. Множество управлений, удовлетворяющих условию (1.49), выпукло, замкнуто и ограничено в гильбертовом пространстве L2(tо, tN). Следовательно, оно и слабо ком¬ пактно. Множество допустимых управлений D, переводя¬ щих траектории Xj(t, и(•)) системы (1.58) из точки х0 на множества Sj будет слабо замкнуто в Z/2 (^о, М- Это вытекает из доказанной выше равномерной сходимости xi(t, uh{*)) Xj{t, и(т)) при ик (») и замкнуто¬ сти целевых множеств Sj, 1 < / < N. Следовательно, D — компакт. Лемма доказана, в Из леммы 1.18 вытекает слабая непрерывность функ¬ ционала max ЗГj (и (•), tj) и — в случае непустоты D — существование оптимального управления в задаче (1.54— 57). Отметим, что лемма 1.18 заключает в себе условия применимости метода штрафных функций. Перейдем теперь непосредственно к освобождению от дифференциальных связей в задаче оптимального управ¬ ления (1.54—57). Введем задачу минимизации функционала где х= (хи ..., xN) и минимум берется по всем абсо¬ лютно непрерывным функциям х(•) =. (#i(e), . .., #*(•)) с производными Xj(•) из Z/2(£o, tj), т. е. £,(•) е 0, tj] ([86]), удовлетворяющим условиям (1.57), и множеству управлений u(*)^Loo(t0, tN) со зна¬ чениями из U. Моменты времени tj, 1 ^ ^ N, по-прежнему, счита¬ ются фиксированными: to < t\ ^ t% < ... <tN. + С 2 j \xj(t) - r (Xj (t), и {t), t) I2 dt, (1.62) > = 1 to
ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 101 Лемма 1.19. Пусть выполнены следующие предпо- ложения: 1) /; (х, и, t), /о (х, и, t), 1 ^ уN . ограниченные при любых ограниченных (х, и) функции; 2) U — выпуклый компакт из ЕГ, Sj — замкнутые множества Еп\ 3) если ип(*)-+и(*) слабо в £2(^0, tN), то для любой абсолютно непрерывной функции х(•): Ч ]fo{x(t), u(t), f) eft < Inn f/o(s(f), «п(г). г)^> te n-> OO /о 4 j| x(t)-f(x(t),u(t), t)\2dt< и 4 < Urn j | л; (0 — f (x (t), иn (t), t) I2 ctt, 71—*00 t0 1 < / < TV; 4) 1 (Я, f{x, Щ 0) I < m(! + I2)» m > 0; 5) функции fo(x, и, £), 1 < 7 < /V ограничены снизу при всех х, и ^ U, t ^ [t0, tj]. Тогда при любом фиксированном, С > 0 существует решение задачи минимизации функционала (1.62) (*(., С), М(., С)) = arg min /г (ж(.), и(*),С)- к(-),м(.) Доказательство. Пусть (£*(•)> мя(*)) таковы, что lim h (хп (•), ип (•), С) = lim max \fo{x"(t), ип (t), t)dt+ n->00 n—>oo + С2Ьп(-)|11(^)}= inf /ф(.),и(-), 0 = ^,0, j=l v x(.),u(.) где 4 (t) = i? (f) - f (x] (t), un (<), 0- Так как /г(С) конечная величина, то можно выбрать подпоследовательность, которую обозначим также через М*) такую, что {|]фА(0||1,(/в,^)1 сходятся при всех
102 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. i / = 1, . . N. Обозначим kh (t) = \х* (t) |2. По условию 4) леммы имеем I (*? W, f W w. ип w, 0) I < ™ [1 + к (о], и, кроме того, | (^j (0t tyn (О) | ^ I Ч'П (0 I ’[l + k'n (/)]. Следовательно, kiW-2 (4(0, (*)) = -(^n(o, to)+ (/'(*? (0> mo> 0. *?(*))< < 2 I ^ (0 I (t) + Мгк (t) + M21 (t) I + A/3, где Mi, Д/2, Л/з > 0 — константы. Отсюда по лемме Гронуолла ([3]) получаем, что х7- (t) равномерно по п, t е [г0, ограничены. Далее, так как функции f ограничены при ограниченных (х, м), то I xj № I ^ I (0 I "Ь I f [хз (0» (0» 0 I и, следовательно, нормы ||х™ (*) IIvv^1)[/01 ] равномерно ограничены. По теореме о вполне непрерывном вложении пространства И^Но» f/1 ([^6]) семейства функций 1х?(•))» 1 < / < iV компактны в пространстве С[^0, ^]*) и можно выбрать подпоследовательности, обозначаемые далее также 1#"(*)К сходящиеся равномерно по [£0, £j] к функциям я°(*)-Так как нормы \х*(') ||ь2((<0|^) ограни¬ чены, то можно считать, что и х7- (•)(•) слабо в L2(tо, tj). Из равенств х• (t) = lim f x" (s) ds + x0 = [ y} (s) ds + x0 n^°° и и вытекает, что функция х] (*) абсолютно непрерывна и X°j (t) = У] (0 почти всюду. *) Компактность семейства (яуЧ*)) легк° доказывается и не¬ посредственно ([3], стр. 344).
§ 7] ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ ЮЗ Множество управлений u(t) со значениями в U слабо¬ компактно (лемма 1.18), поэтому существует подпоследо¬ вательность {М*)}> слабо сходящаяся к упразлеиию w0(*). Из условий 3) получаем, что /г(£°(0> МО, C)<limfe (х° (•), uh( •), С) = h-*oo = lim А (**(•). МО. С)-ft (С). &->оо Итак, (х° (•), и0 (•)) = arg min h {х(•), u(•), С). 5C(*),U(*) Лемма доказана. ■ Таким образом установлено, что задача (1.62) со штра¬ фом эа нарушение дифференциальных связей имеет ре¬ шение при каждом значении штрафного параметра С. Замечания. 1) Условие 3) леммы 1.19, как пока¬ зано в лемме 1.18, выполняется, если f, /о линейны по и. 2) Можно не предполагать выполнения условия 4), ес¬ ли рассматривать в задаче (1.62) лишь траектории x{t) со значениями из ограниченного множества X а Еп. Покажем теперь, что задача (1.62) аппроксимирует исходную задачу оптимального управления (1.54—57) сколь угодно точно при достаточно больших значениях коэффициента штрафа С. Теорема 1.14 (метод штрафных функций). Пусть выполнены условия леммы 1.19, ui О, fo^Xl и* t), 1 < / < N ограничены при ограниченных (я, и) и при С> 9; h (С) = min А (*(•), u(.), C) = h(x(<, С), и(., С), С). 5С( •),!*(*) Тогда lim h (С) = min max j(u (•), £,) = С~*оо u(.)eD l<j<N 4 = lim max \ fQ (xj (t, С), и (£, C), t) dt, C-»°o <o где x(t,C) — решение системы (1.56) с начальным усло¬ вием x(t$,C) = соответствующее управлению
104 МЕТОД ШТРАФНЫХ ФУНКЦИЙ [ГЛ. 1 Доказательство. Из определения я (•,£), и(*,С) и замечания к теореме 1.1 следует, что функции с • N — max 1 fo (Xj (t, С), и (t, С), t) dt, 2 II V(* >Q |l,(<0i< ■), Ki<N f0 j=1 где C) = Xj(t, C)—f(Xj(t, C), и(£, С), £), монотонно не возрастают по С. Очевидно, при всех С>0 справедли¬ во неравенство h{C)<! min max 8Г j (и (•), tj) = &~0. u(-)eDl<j<iV N Тогда Q\\L2(t0,ti)~^ 0 при С->оо и существует э=i v предел lim max 1 /о (я/ (*, С), и (t, С), t) dt^tF0. c^oo i<j<iv;; Пусть #(•,£) — решение системы (1.56) соответству¬ ющее управлению и(*,С). Так как -^у/о ограничены но (я, и) и U — ограниченное множество, то существуют в силу условия 4) леммы 1.19 константы Mj такие, что |/о (*j (t, С), и (t, С), t) — /о (Xj (t, С), и (t, С), t) I < < Mj | Xj (t, С) — xj (t, C) | (1.63) при t0 < t tj, 1 < / < N. Из ограниченности по (x, и) f и условия 4) следу¬ ет, что (zs{t,C),Zi{t,C)) = = (f(xj(t1C), u(t,C),t)-f(x](t,C), u(t,C),t), z,(t, C)) — — W(f,C). С)) < (М,Ц)г,Ц,С), Zj(t,C)) - - Zj(t, C)), где Zj(t, C) = Xj(t, C) — Xj(t, С) равномерно no t e [<0, tj], 1 / < N ограниченные функции,
§ 7] ОСВОБОЖДЕНИЕ ОТ ДИФФЕРЕНЦИАЛЬНЫХ СВЯЗЕЙ 105 Обозначив m,j(t,C) — \zj(t,C)\2, получаем отсюда m}(t,C) < С) +M2\^(t, С)|, Щ(Ч,С) =0. Так как lim || \)У (•, С) ЦцлоДЯ = 0) то из леммы Гронуолла С —9 ОО ’ 3! вытекает, что С)0 при С -> оо равномерно по t е [*0, 1 < / < N. Пользуясь слабой компактностью множества управлений, выберем Сп оо так, чтобы и(-,Сп) слабо в L2(t0, tN) и xj(t1 Сп) -+Xj(t) рав¬ номерно на [*„, £,•], где, очевидно, Xj(t) —решение урав¬ нения (1.56), с условием Xj(t0) =. #0, соответствующее управлению ^(*)- - ' Из доказанного выше равенства lim || гщ(-, Сп) ||сг(„,(■] = 0 Сп-*оо следует, что xs(tj) s Sh т. е. Xj(t) удовлетворяет гранич¬ ным условиям (1.57). Отсюда и из (1.63) получаем lim h (С) ^ С-»0© ч > lim max f f0(xj (t, Cn), и (t, C„), t) dt^z cn-*o° i<i<w £ 4 > max f fo (xJ (t), и (t), t) dt > Tй, £ что вместе с обратным неравенством доказывает теорему. ■ Легко видеть, что в теореме 1.14 также как и в лемме 1.19 можно освободиться от условия ограниченности/о • Для этого достаточно в задаче (1.62) рассматривать лишь траектории x(t) со значениями из компакта, заведомо со¬ держащего оптимальную траекторию исходной задачи (1.54—57). Теорема 1.14 обосновывает метод внешних штрафных функций для снятия дифференциальных связей в задачах оптимального управления. Специфика метода внешнего штрафа такова, что решения #Д*,С), и(*,С) задачи (1.62) могут нарушать дифференциальную связь (1.56), однако, как показано при доказательстве теоремы, «невязка» И^Ч*, -»-0 при Crt оо. Функции х}(», С), и(*, С),
ioa МЕТОД ШТРАФНЫХ ФУНКЦИЙ (ГЛ. 1 напротив, удовлетворяют дифференциальному уравнению (1.56), но, вообще говоря, нарушают граничные условия (1.57), т. е. Xj(th С) <£Sj. Можно лишь утверждать, что для достаточно больших С значения Xj(thC) будут содер¬ жаться в любой наперед заданной окрестности множест¬ ва Sjt Такое ослабление ограничений (1.57), по-видимому, допустимо в практических задачах оптимального управ¬ ления, что позволяет рассматривать и(*,С) при больших С как «приближение» к оптимальному управлению. Решать вадачу отыскания минимума функционала (1.62) можно разными методами. В случае, когда Sj=En, 1 < / < N, простым является использование градиентных методов ([3]), если от минимаксной задачи (1.62) в со¬ ответствии с результатами § 5 перейти с помощью метода штрафных функций к задаче отыскания предела lim min SB (х (•), и (•), v, Си С2) =» Сх-+ ОО х(-),и(-) Ci~* оо —ос V <С оо s= min max j (и (•), tj) u(-)e.D для функции л 3? (*(•)> u (•)» Q =« N ' ( r • = y + c2 2 max 0; f0 (х} (t), >-'L V и N 4 + C 2 (t),u(t), t)l2dt. ,_i j Градиент SB вычисляется достаточно просто. В то же вре¬ мя в задачах оптимального управления для определения градиента требуется решить систему дифференциальных уравнений, а также сопряженную к ней систему ([3, 60]). u(t), t)dt-Vi +
ГЛАВА 2 УСЛОВИЯ ОПТИМАЛЬНОСТИ В МИНИМАКСНЫХ ЗАДАЧАХ Метод штрафных функций позволяет единым образом получать условия оптимальности в условно-экстремаль¬ ных задачах, в том числе и минимаксных. Схема получе¬ ния необходимых условий оптимальности выглядит сле¬ дующим образом. Сначала исходная задача сводится ме¬ тодом штрафов к параметрическому семейству задач, уже исследованных ранее. Затем предельным переходом по штрафному параметру в условиях оптимальности для штрафной задачи выводятся и условия оптимальности в исходной задаче. Подобный подход дает основания рас¬ сматривать метод штрафных функций как «алгоритм» для формулировки условий оптимальности в экстремальных задачах. В настоящей главе будет показано, что возмож¬ ности такого «алгоритма» весьма широки, благодаря на¬ копленному в главе 1 запасу теорем о сходимости метода штрафов. Индуктивный характер рассуждений позволяет, исходя из известных условий оптимальности в простой задаче, вывести необходимые условия в задаче сложной, шаг за шагом упрощая ее методом штрафов. Трудность каждого «шага», как правило, сравнительно невелика. В отличие от других схем анализа экстремальных за¬ дач ([22, 38, 50, 79]) мы не будем стремиться к форму¬ лировке необ!ходимых условий общего вида типа уравне¬ ния Эйлера — Лагранжа. Нашей основной целью будет демонстрация основных особенностей развиваемого далее подхода и получение результатов по условиям оптималь¬ ности в минимаксных задачах. § 8. Условия регулярности и существование множителей Лагранжа в задачах математического программирования Рассмотрим задачу математического программирования F(x)^sup, (2.1) где Л = {я е Х|ф((я) > 0, 1 < i < т). (2.2)
108 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ 2 Пусть X — замкнутое выпуклое множество евклидова пространства. Введем Определение. Замыкание КХ(х) конуса Кх(х) = [v = Х(х — х) |А, > 0, х е X} называется конусом возможных направлений множест¬ ва X в точке х <= X. Конус К*х (х) = {w | (w, v)^0 для всех и ^ Кх {%)}, где скобки обозначают скалярное произведение, называет- ся сопряженным к конусу Кх(х). В дальнейшем будет полезна Лемма 2.1. Многозначное отображение Кх(>), за¬ даваемое сопряженным конусом, замкнуто. Доказательство. Требуется показать, что если xl <= Кх {ч)> xh -*^0» хо ПРИ k->oo то х*о е Кх(х0). Допустим, ЧТО х0 ф КХ (^о)» тогда (^(Ь 2о)^ 8 < О для некоторых z0 е Кх (х0), б > 0. При достаточно боль¬ ших к будем иметь (4, г0)< —6/2. (2.3) G другой стороны^ так как z0^Kx(x0), то для _любого е > 0 найдется z0^Kx(x0) такое, что |z0 — z0j < е. В силу определения Кх (хо) точка z0 представима в виде z0 = Х(х — хо), X > 0^ х е X. Рассмотрим точки zk = = X (х — xh). Так как х, xk е X, то zft е (ял) ? zh = z0 + + X (л?о — xh). Далее имеем Z0) = Zq ~f" Zq) = Z0 2o)“h 20) ^ >-141- lzo — zo| + (4, zo)> — e I **! + (*£> Z0). (2.4) Учитывая, что e X* (xh), получаем 0<(4, 2Л) = (4, Z0) + h(x*h, — xh), откуда
УСЛОВИЯ РЕГУЛЯРНОСТИ 109 Итак, окончательно неравенство (2.4) можно записать (*Ai 20) > — | xl I • (е + к I ЛГ0 — Хк I). Так как Xk-*-Xo, то нормы |а:*| ограничены; | д:0—I —^ 0 при к-*- оо, е — произвольно. Следовательно, выбирая до¬ статочно малое е и большое /с, получим (д£, zQ) > — 6/2, что противоречит (2.3). Лемма доказана. ■ Покажем теперь, что условия регулярности из § 3 яв¬ ляются условиями существования множителей Лагранжа в задачах математического программирования. Предварительно отметим, что если F(х) — непрерывно дифференцируемая функция и х* = arg max F (х), где X — выпуклое замкнутое множество евклидова про¬ странства, то - F'(х*)<=Кх(х*). (2.5) Доказательство необходимого условия (2.5) непосредст¬ венно вытекает из определения сопряженного конуса. В том случае, когда X совпадает со всем пространст¬ вом, то, очевидно Кх (х*) ={0}, и необходимое условие (2.5) превращается в равенство F'(х*) = 0. Теорема 2.1. Пусть х* е= X — решение задачи ма¬ тематического программирования (2.1,2) с непрерывно дифференцируемыми на выпуклом замкнутом множест¬ ве X евклидова пространства функциями F, ф<, 1 < i < m. Тогда существуют не равные одновременно нулю чис¬ ла Яо, Ки ..., Кт ^ 0 такие, что - {v" (*•) + 2 *|ф1 (**)} S Кх (х*), '(2.6) ЯгФг (х*) =0, 1 i ^ m. Если дополнительно выполняются условия регулярности (1.12), то Ко > 0 (не ограничивая общности, можно счи¬ тать Ко = 1). Доказательство. Положим F(x) = F(x)-~ — \х — х*\2. Тогда F(х) имеет единственную реализацию максимума на А. Далее все рассуждения будем прово¬
110 УСЛОВИЯ ОПТИМАЛЬНОСТИ (ГЛ. 2 дить на компакте X = S П X, где S — некоторый замкну¬ тый шар с центром в х*. Поскольку на X выполнены все условия сходимости метода штрафов, то max F (х) = lim max с) = F (х) — Х^А с-*оо т \ — С 2 [min (0, фг(аг))]2 г=1 ) И ТОЧКИ х* (С) = arg max 9? % (х, С) х^Х сходятся при С оо к х*. Запишем для достаточно боль¬ ших С, когда х*(С) лежит внутри S, необходимые усло¬ вия (2.5) экстремума 3*2 (х, С) на X — jf' (х* (С)) — 2С miu (0; ср; {х* (С)))-cpi- (х* (C))J <= е= Кх (** (С)). (2.7) т Нормируем теперь (2.7) на \i (С) = 1 + 2 И* (О» где г =1 ц,(С) = —2С min (0; фг(£*(С))), т. е. введем и перейдем в (2.7) к пределу по С -*■ оо. Поскольку т ta(С) > О(С) = 1 при всех С, то можно выбрать i=0 последовательность {Ch} оо так, чтобы Яо(С^)-^Яо, (£*fc) “"** В силу леммы 2.1, непрерывности F'(x), фг (х) и сов¬ падения F'(x*) = F'(х*) при предельном переходе по оо из (2.7) вытекает включение (2.6). Далее, если ф»(х*) >> 0, то для достаточно больших Ch коэффициент fJtt(Cfc) равен нулю, т. е. справедливы условия дополняю¬ щей нежесткости А,гфг(#*) = 0. Пусть выполнены условия регулярности (1.12). Пока- т жем, что в этом случае сумма 2 РЧ (Q равномерно по С
УСЛОВИЯ РЕГУЛЯРНОСТИ 111 ограничена. Справедливо, очевидно, следующее неравен- ство: тп 2 (О m. I 2С min min (0, (х* (С))) I ^ {=1 | Ki<m I < 2тСКр (х* (С), Л), где К — константа Липшица функции ф,(я) в шаре S. По теореме 1.4 р (х* (С), А) ^ О следовательно, т 2 Ixi (С) ограничена. Этого достаточно для доказатель- i=i ства второй части теоремы, так как при переходе в соот¬ ношении (2.7) к пределу по Ch-*oo коэффициент при F'(х*) будет отличным от нуля. Теорема доказана, а Замечания. 1) Как отмечалось в § 3, условия ре¬ гулярности (1.12) выполняются не только в задачах ма¬ тематического программирования с вогнутыми ограниче¬ ниями (2.2). Таким образом, теорема 2.1 устанавливает существование множителей Лагранжа Ко — 1, Х\, ..Хт^. 0 для более широкого класса задач. 2) Легко обобщить теорему 2.1 на задачи с условия¬ ми — равенствами. Пусть в задаче математического программирования (2.1) допустимое множество задано в виде А — {зге Х|&(дг) =0, 1 k}, (2.8) Если .г* — решение задачи (2.1,8), то существуют не рав¬ ные одновременно нулю числа Хо ^ 0, Xi, .. ., Xh такие, что - ' (а*) + 2 hSi (**)} 6= Кх (2.9) Если дополнительно выполнены условия регулярности (1.12'), то множитель Хо в (2.9) равен единице. Доказа¬ тельство необходимых условий (2.9) аналогично доказа¬ тельству теоремы 2.1. Ясно теперь как сформулировать и доказать необходи¬ мые условия оптимальности для задачи с ограничениями в виде равенств и неравенств, опираясь на условия регу¬ лярности (1.12") из § 3.
112 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Перейдем теперь к вопросу о существовании седловой точки у функции Лагранжа. Определение. Функцией Лагранжа, связанной с задачей (2.1,2), называется m L {х, К) = F (я) + 2 ^гФг (*), г=1 где Kj ^ 0 — множители Лагранжа. В теории математического программирования важную роль играет факт существования седловой точки функции Лагранжа, т. е. такой точки (я*, X*), что minL (х*, X) = L (х*, X*) =maxL (х, X*) *). х Справедлива следующая Лемма 2.2 ([42]). Если у функции Лагранжа зада¬ чи (2.1,2) существует седловая точка, то для любых Сг > Х\, где %i —множители Лагранжа, соответствующие седловой точкеу справедливо равенство max inf L (х, X) = max SB± (я, С) = max F (z). x K>0 X Xел Кроме того, множество решений задачи (2.1,2) совпадает с множеством решений задачи таxS>l(x, С). X Здесь тп 2, (.г, С) = F (*) + 2 ct min (0, ф, (X)); i = 1 с= (Сь ..., Cm). Доказательство. Пусть (я*, А*) — седловая точ¬ ка функции Лагранжа. Обозначим Л = {X = (Х2,..., ^7П) 10 ^ Xt ^ X* + е, 1 ^ i ^ т, г > 0}. Тогда sup min L (я, X) ^ max inf L (x, X) = и0. X лел X b>0 *) Условие X =(XU ..., Ят) ^0 означает, что 0,
§ 81 \ УСЛОВИЯ РЕГУЛЯРНОСТИ 113 \ С другой стороны и min L (х, к)^Ь (х, к*) при шл всех х. Поэтому sup min L (х, к) ^ max L (х, к*) = и0, х лел зс что вместе с обратным неравенством дает sup min L (х, ^) = и0. зс хел Очевидно, что если = arg max inf L (x, X), то #*=* зс Я>0 = arg max minL (^Д), поскольку эс лед minL (ж*, к) ^ inf L (я*, X) = п0. л>0 Следовательно, решения задачи (2.1,2) содержатся в множестве Arg max inf L (x, X). Обратно, пусть х* = arg max inf L (x, к). Если при этом _ _зс яел _ ^ а:* е Л, то и0 = min L (я*, к) = F (а*) их* — решение задачи (2.1,2). Если же х*<£А, то 771 u0 = min L (х*, к) = F (я*) + ^2 + е) min (0» Ф* (х*)) < ьел г—1 < min L (х* Д)< L (х* Д*)< н0, что невозможно. Лемма доказана, так как minL (х, к) = лел ^ 3? 1 (#» С)» где С = ^* + е, а е >» О можно взять про¬ извольным. ■ Заметим, что в лемме 2.2 не предполагается вогну¬ тость функций F, cpi задачи (2.1, 2). Верно и обратное утверждение. Лемма 2.3 ([5]). Пусть в задаче (2.1,2) множест¬ во X совпадает со всем пространством, функции L, cpir 1 ^ i < m вогнуты и при некоторых конечных С* > О множество решений задачи max Зх (.г, С*) X 8 В. В. Федоров
114 УСЛОВИЯ оМимллъйостй (гл. а совпадает с множеством решений задачи (2.1,2). Тогда функция Лагранжа, связанная с задачей (2.1,2), имеет седловую точку. Доказательство. Пусть максимум штрафной за¬ дачи maxi?!(я, С*) достигается в точке #*, являющей- х ся решением исходной задачи. Тогда в точке х* сущест¬ вует равный нулю опорный функционал Vi?i (я*, С*). Учитывая общий вид опорного функционала ([79]), име¬ ем равенство VF(x*)+ 2 CU4V<Pi(a*)=0, где I(x*) = {i \ 1 < i < m, ср,-(я*) = 0}, щ > 0. Вводя hi = Ci\ii, получаем m VF{X*)+ 2 *4 V<P; (**) = 0; Х*4ф, {X*) = 0, 1 < i < m. i = 1 Это условие означает, что функция Лагранжа Ь(х, л) до¬ стигает при X = X* максимума по я в точке я*, т. е. £(#*, К*) ^ L(x, X*) при всех х. С другой стороны, по определению при Х\^ 0 справедливо неравенство m L (**, Я) > F (х*) + 2 (х*) = L (X*, Я*). 1 = 1 Таким образом, для любых х и Х> 0 L(x, X*) ^ L(a* X*) ^ L(s*f X), что эквивалентно определению седловой точки, данному выше. Лемма доказана, в Доказанные утверждения послужили в работе [42] основой для получения оценок скорости сходимости мето¬ да штрафов в задачах выпуклого программирования. Лемма 2.3 дает возможность обобщить теорему Куна — Таккера на класс вогнутых задач (2.1,2), удовлетворяю¬ щих условиям регулярности (1.12), которые обеспечивают конечность множителей Лагранжа. Пример задачи макси¬ мизации функции F (х) = х при ограничении —х2 > 0 показывает, что условие регулярности (1.12) существен¬ но. В этой задаче оно, очевидно, не выполняется и в то
ФУНКЦИЯ ЛАГРАНЖА 115 же время форма Лагранжа Ь(х, X) — х — Хх°- не имеет седловой точки, так как Inf sup L (х, X) = inf -тг = О 1>0 х Х>0 не реализуется ни при каком конечном X. На вопросах, связанных с обобщением теоремы Ку¬ на — Таккера, мы более подробно остановимся в следую¬ щем параграфе. Здесь же отметим, что любой вогнутой задаче (2.1,2) можно сопоставить регулярную в смысле (1.12) вогнутую задачу: максимизировать F(x) при ограничении —р(#, А)>О, где р (х, А) = min | х — у \ — расстояние от точки х до вы- уеА пуклого множества А. Подводя итог рассуждениям этого параграфа, можно сказать, что условия регулярности в выпуклом програм¬ мировании есть не что иное, как условия точного реше¬ ния задачи математического программирования методом штрафных функций при использовании негладкой штраф¬ ной функции т 7i (*. С) = — С 2 min (0, ф; {х)). i=1 § 9. Функция Лагранжа в задаче отыскания максимина с распадающимися переменными Поставим задачу отыскания максимина с распадающи¬ мися переменными при наличии ограничений sup inf F (х, у), (2 10) хеА уев где А = {xsX\g((x) > 0, 1 (2 1!) В = {у е Y\hj(y) >0, 1 </<«}. 8*
116 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Определение. Функцией Лагранжа, связанной с задачей (2.10,11), называется m п L (х, у, \i, X) = F (х, у) + 2 (х) + 2 (^)* i=1 i=l где jit ^ 0, Xj ^ 0 — множители Лагранжа. Будем предполагать далее, что множества Л и В не пусты. Связь задачи (2.10,11) с задачей поиска макси¬ мина функции Лагранжа устанавливает Лемма 2.4 ([19]). Для любых ограниченных чп X X Y функций F, hj справедливо равенство sup inf F (х, у) = sup inf inf sup L (x, y, |x, X) = x<=A y<=B x^X ?/eY ц>0 = sup inf sup inf L (x, г/, jx. \). зсеА г/еУ x<u д>0 £с\/ш существует x* = arg max inf inf sup L (x, у, |x, A,), xex уеУ in>o a,<o x* = arg max inf F (x, y)\ x^A y€=.B справедливо и обратное. Доказательство. Покажем, что inf sup L (х, у, |.i, К) = F (х, у) + Ц>0 А,<0 ТО + inf sup U>0 1 i —1 Г 771 71 I 2 igi (*) + 2 i}hj (у) >=1 = Fi(x, у), (2.1: где Ft (■*, i/) = F(x,y), если у <= 5; — оо, если я §£4, у^В; + оо, если у ф В. Пусть фиксированы любые jx,. Если при этом у Ф В, т. е. хотя бы одно ограничение hjx (у) < 0 — нарушено, то по¬ лагая X] = 0 при / ф /1 иXjx—>— оо, получим sup А.<0 2 v-igi (х) + 2 hhj (у) i=1 7=1 = + оо, а значит, и inf sup L(x, у, jx, X) = +оо, и>о жо
ФУНКЦИЯ ЛАГРАНЖА 117 Пусть теперь у е 5, т. е. все hj(y) > 0; тогда sup ь<о 2 ViSi (х) + 2 kjhj {у) 7=1 = 2 Ц;£г(*) г=1 inf sup L {х, у, |х, X) = inf F (х, г/)+ 2 Иг£г (*) Ц>0 КО U>0 L 1=1 Если при этом хоть одно git (#)< 0 , т. е. х Ф А, то пола¬ гая \Xi = 0, i ф i\ и |Tj, -f* оо, получим — оо в соответ¬ ствии с определением функции Fi(x} у). Наконец, если и все gi{x) > 0, то inf F(x, г/)+ 2 Ih8i(x) ii>о L i=i = F(x,y), поскольку нижняя грань реализуется при ц = 0. Равенство (2.12) доказано. Легко также убедиться в справедливости равенства sup inf L (я, у, ц, X) = F2 (х, у), КО Д>0 где F(x,y), если х^А, у^В\ р2(х,у)=\ + оо, если х<=А, уфВ\ — оо, если х ф. А. Так как А и В не пусты, то sup inf F2 (х, у) = sup inf F2 (x, у) = ace A ye У x£A ye У = sup inf F (x, (/) = sup inf Fx (x,y), aceA yeH зсеХ yeY что вместе с доказанными выше равенствами для Fi, F2 и функции Лагранжа L дает утверждения леммы. ■ Лемма 2.4 устанавливает таким образом, что отыска¬ ние максимина с ограничениями сводится к решению двухшаговой игры с полной информацией или, иначе го¬ воря, к поиску кратного максимина. Множители Лагран¬ жа ц, X являются компонентами стратегий игроков. Для задач математического программирования подобным экви¬ валентом служит антагонистическая игра, в которой мно¬
118 УСЛОВИЯ ОПТИМАЛЬНОСТИ [гл. а жители Лагранжа имеют смысл стратегий противника (лемма 2.2). Это означает, что для решения задач мате¬ матического программирования можно применять итера¬ тивные методы решения игр ([11]). В том случае, когда ограничения, задающие множест¬ ва А и 5, удовлетворяют условиям регулярности типа (1.12), оказывается возможным ввести в лемме 2.4 огра¬ ниченные области изменения Лир. Лемма 2.5. Предположим, что в задаче (2.10,11) F{x, У) удовлетворяет условию Липшица по (х, у) на произведении метрических компактов X, У; функции gi(x)i hj(y) непрерывны и min gt (х) ^ (х, А) при х ф А, 1<i<m (2 13) min hj(y) < — Ррг (у, В) при уфВ, v l<j<n где (J > 0 — некоторая постоянная. Тогда существуют р* ^ 0, Л* < 0 такие, что max min min max L (x, у, p, Л) = max min F (x, y). x^x i/еУ oзеел уев Доказательство. Зафиксируем произвольное х е еХ. Тогда из условий регулярности (2.13) в силу теоре¬ мы 1.4, для достаточно большого —Л* > 0 справедливо равенство min (f (ж, у) + 2 min (0, hj (г/))] = yeY I j= i J = min max <F (ж, y) + 2 (УН = min ^ (■*. &0- уеУ I j=l J уев Функция / (ж) = min If (ж, у)+ 2 h min (0, h} (у))} в си- veY I j=-i J лу наших предположений удовлетворяет условию Лип¬ шица. Поэтому существует р* ^ 0 такое, что max If (я) + 2 min (0> Si W)} = max / (я) = кеХ I i=l J acSA = max min F (.r, y) = max min (/ (я) -f 2 И**#* (z)|- хел уев eceA 0<ц<ц* I {=i j
ФУНКЦИЯ ЛАГРАНЖА 119 Данное равенство доказывает лемму, так как Ixi£i (я)} = max т^п min тах J XGI 0<Д<|Ы* y<=Y Z/ (д;, г/, pt, Л,) = max: min min max L (x, г/, pД). в eceX yeY 0<ц<ц* При поиске максимина (2.10, И) с ограничениями за¬ дачу вычисления соответствующего ему по лемме 2.5 кратного максимина функции Лагранжа можно упро¬ стить, сводя ее к решению антагонистической игры с сед- ловой точкой, в которой первый игрок выбирает стратегию (х, X), а второй — (у, р). Это позволяет, как и в случае задач математического программирования, применять со¬ ответствующие численные методы ([И, 32]). Условия, когда возможно такое сведение, мы сейчас и рассмотрим. Справедлива Лемма 2.6. I) Пусть sup inf L (,х, z/, p, X) = inf sup L (x, у, p, X), (2.14) xel yeY yeY xe! X<0 ц>0 ц>0 *,<0 тогда sup inf F(x,y) = inf sup F(x,y). (2.15) xeA !/ев i/eBx<=A В частности, если [(£*, %*)', (у*, р*)] —седловая точка функции Лагранжа, то (х*, у*) — седловая точка для F(x, у) на АХ В. И) Если gi(x), h^y) вогнуты, F(х, у) вогнута по х и выпукла по у на выпуклых компактах X и У, то из (2.15) следует равенство (2.14). Доказательство. I) Применяя общее неравенство sup inf / (х, у) inf sup / у) ух ух и используя лемму 2.4, получаем sup inf F (х, у) = sup inf sup inf L (x, у, p, X) > все A ye£ всех yeY j.i>0 ^ sup inf L (x, г/, p, X). всех y«Y Я,<0 ц>0 Аналогично inf sup F {x, y) < inf sup L {x, у, p, X), что уеВвсеА yeY xex n>0 *,<() вместе с равенством (2.14) доказывает (2.15). {m / (я) + 2 i=l
120 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 II) Пусть тогда sup inf L (.х, у, р, X) = sup inf F (z, у) + 2 V*; (tf) • ь<о уеу уеУ I j=i ) Ц>0 (2.16) Покажем, что sup minL (у, X) = min sup L (г/, ^) = minF(x, г/), 1/6У г/еу КО уев где £ (г/, X) = F (*, г/) + 2 V*; 0/)- j=i Пусть Хк -■-00 > — оо такая последовательность, что sup min/y (уД) = lim max minL(y,X) = A,<0 уеУ fe-*oo y^Y = lim min max L(y,X). h-+oо уеУ В последнем равенстве использован тот факт, что выпук¬ ло-линейная функция L(y, X) имеет седловую точку, т. е. max и min можно поменять местами ([16], стр. 192). Так как min max L (у, X) = min <F (x, i/) + 2 miXi (0» hj (i/))L y^Y xh<K<o y<aY I >=1 J то по теореме 1.1 о сходимости метода штрафных функ¬ ций получаем lim min max L (г/Д) — min F (z, y), k-too |/£У ?^<X,<0 У£=В что и требовалось. ч Теперь из (2.16) следует sup inf L (я, у, |л, X) ^ sup inf F (х, у). кех уеу зсеА уев 2иС0 (X>Q
ФУНКЦИЯ ЛАГРАНЖА 121 Совершенно аналогично выводится, что inf sup L (х, у, p., А,) ^ inf sup F (х, у). yeY хех уев хеА Д>0 Х<0 Сопоставляя последние два неравенства и учитывая ра¬ венство (2.15), убеждаемся в справедливости (2.14). Лемг ма доказана. ■ Частные случаи леммы 2.6 можно найти в [16, 19]. Следующая теорема обобщает теорему Куна — Танке¬ ра на задачу отыскания максимина (2.10,11) для ком¬ пактных множеств стратегий. Теорема 2.2 ([93]). Предположим, что в задаче (2.10,11) функции gi(x), hj(y) вогнуты; F (х, у) вогнута по х и выпукла по у на выпуклых компактах X и Y. Пусть, кроме того, выполнены условия регулярности (2.13). Тогда для того, чтобы (х*, у*) была седловой точкой F (х, у) на АХ В, необходимо и достаточно существова¬ ния X* < 0, р* ^ 0 таких, что пара [(я*Д*); (у*, р*)] является седловой точкой функции Лагранжа, связанной с задачей (2.10, 11), т. е. max inf L (х, у, р, X) = inf L (х*, у, р, X*) = яех yeY yeY Х<0 д>0 д>0 = L (.х*, у*, р*, К*) = sup L (х, у*, р*, X) = эсех Х<о = min sup L (х, у, р, X). yeY х<=х Д>0 жо Доказательство. Достаточность следует из утвер¬ ждения I) леммы 2.6. Докажем необходимость. Пусть (х*, у*) — седловая точка функции F (х, у) на АХ В. По лемме 2.4 х* = arg max min sup inf L (x, у, p, X), a'GX yeY д>о у* = arg min max sup inf L (x, у, p, X). yeY XEX ко ix>0 Из условия теоремы и леммы 2.5 вытекает, что можно считать X, р ограниченными: Х° < X ^ 0, 0 < р < р°. На произведении этих областей и множеств X, Y функ¬ ция Лагранжа, связанная с задачей (2.10, 11), очевиднот
122 УСЛОВИЯ ОПТИМАЛЬНОСТИ (ГЛ. 2 имеет седловую толку ([16]), т. е. пах L (х, у, р, X) = ех <х<о (2.17) max min L (х, у, р,Х) = min max L (х, у, р, X) = и* эсех уеу уеУ хеХ Х°<Х<0 0<д<]хо 0<u<jn° Х°<Х<0 В силу леммы 2.4 и выбора Х°, р° имеем для max min L (x*, у, p, X) = min min max L(x*,y,p,X) = X°<\<0 yeY yeY 0<JH<H° ^°a<0 о<ц<ич = min sup inf L (x*, у, p, X) =- minF (x*, y) > min F (x, y) ye У x<o ц>о уев уев при всех x s A. А так как min sup inf L (,x, у, p, X) = yeY ?w°<x<o o<u<m° minF(;r, y), a; <= 4; уев < max min F (x, i/), £6*4, *ел уев то тем самым доказано, что х* реализует максимум в ле¬ вой части равенства (2.17). Аналогично показывается, что у* = arg min min max L (x, у, p , X). уеУ и<д<д° xex Ь°<А,<0 Выберем теперь в качестве множителей Лагранжа X*, р* точки X* = arg max min L (x*, у, p, X), Х°<л<0 ye У p* = arg min max L (x, у*, p, X). xex X°<K<0 Так как x* e A, то по определению (x*, X*) имеем inf L (x*, у, p, X*) = min L (x*, у, p, X*) = yeY yeу Д>0 0<JLKU" = max min L (x, у, p, X) = y*. xex yey Я°<Я<0 0<jli<h°
ФУНКЦИЯ ЛАГРАНЖА 123 Точно так же max L (я, у*, р*, А) = у*, лех т. е. sup L {х, у*, р*, X) = inf L (х*, у, р, А*), х<ЕХ ?уеУ Я.<0 ц^О и [(#*, X*); (г/*, р*)] — седловая точка функции Лагран¬ жа. Теорема доказана, в Следствие (необходимые условия для седловоп точки при наличии ограничений). Пусть выполнены все требования теоремы 2.2 и функции F, gu hj непрерывно дифференцируемы. Если (х*, г/*) — седловая точка функции F(х, у) wa ЛХВ, го существуют числа А], ..., Ап^ 0; pi, ..., р4 ^ 0 такие, что Higi (X*) = 0, Я-й,- (у*) = 0; (2.18) — (л:*, у*) + 2 \Cigi (z*)J е= К*х (Х*)\ {П (х*, у*) + 2 ^ (у*)|е= /4 (У*)- Доказательство. Вторая группа условий вытека¬ ет из теоремы 2.2 и необходимых условий (2.5) для точек х* = arg max L (х, у*, р*, А*); яех у* = arg min L (х*, у, р*, А*), уеу В доказательстве нуждаются лишь условия дополняющей нежесткости (2.18). Так как по определению седловой точки £(я*, у*, р*, А*) < Ь{х*, у*, р, А*) при всех р ^ 0, то отсюда получаем m m 2 (**) < 2 ыг (**)• i*=i i=l
124 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Последнее неравенство имеет место и для р = 0, т. е. т 2 (**) < О, i=i а следовательно, (и,*#* (#*) = 0, 1 ^ i ^ т, поскольку IМ ^0» gi(z*) ^ 0. Такое же рассуждение приводит и к условиям %]hj (у*) = 0, 1 ^ ^ п. в § 10. Необходимые условия для максиминов с распадающимися переменными 1. Приступим к получепито необходимых условии, ко¬ торым удовлетворяет точка х* ^ X, реализующая max min F (х, у) = min F (я*, у). (2.19) а-ex уеУ 2/еУ Теорема 2.3. ([18, 34]). Пусть F(х, у) задана на произведении X X Г, где X — выпуклый компакт п-мер- ного евклидова пространства Еп, Y — компакт метрическо¬ го пространства. Предположим также, что F(#, у), F (х,у) непре¬ рывны на XX У. Тогда, если я* = arg max min F (.£, у) — наилучшая га- хел’ ?уеУ рантирующая стратегия в задаче (2.19), то существуют числа р{'> 0 и точки yf, 1 < i < г < п + 1 такие, что г г = ~^iPiiF(x*^yi)^Kx(x*y, i=l г=1 у* = arg min F (я*, у) г/еу ггли е эквивалентном виде -С(**)П К*х{х*)Ф0, (2.20) где (?(я) — со II (х) —выпуклая оболочка множества Н {х) = |г = F (х, у) | у <= Arg min F (ж, г/)|. Доказательство. Введем функцию Р(х, У) = Р(х, У) — \х* — *12.
НЕОБХОДИМЫЕ УСЛОВИЯ для Максимйнов 425 Эта функция имеет те же реализации минимума по у е Y, что и F(x, */), и единственную наилучшую гарантирую¬ щую стратегию х*. Выберем произвольное е >0 и сеть {у\\ на компакте Y такую, что для любых (х, у) найдет¬ ся номер iдля которого |^(х, V) — F{x, у?0|<е. Пусть хг = arg max min F (x, yf). Тогда lim x8 — x* в силу x^X i ^ e->0 единственности arg max min F (x, у). Нъ множестве {i/fl x^X y^Y задачу определения максимина по теореме 1.7 сведем к задаче на максимум по (х, и) функции 2?е(х, и, С) = и — (0; Р (*, уТ) — и)]2. i Очевидно, для (х'(С), и’ (С)) .реализующих maxS^x, и,С) (х,и) при соответствующем выборе последовательностей е8-^0, Ct ->■ оо справедливы равенства lim lim х s (Ct) = х*, S-»oo /->00 lim lim 1/' (Ct) = max min F (x, y) = w*. S-ЮО tf-юо xgX При фиксированных es, Ct необходимые условия (2.5) максимума 3?г по (х, и) дают - 2 Pi8 (<М £ f (**' **) е к* (*Vi)), (2.21) I>PiS(Ct) = 1, i где обозначено pf (С) = - 2С min [0; F (х8 (С), у?) - и8 (С)]. Пусть t-+oo, тогда после перехода к пределу во включе¬ нии (2.21) суммирование будет происходить только по множеству Ys = Arg min F (x s, у/), поскольку i u* (Ct) min F (хг$, у -s).
126 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Не ограничивая общности рассуждений, можно счи- Условия (2.22) означают, что выпуклая оболочка конеч¬ ного множества II точек ^-мерного пространства вида По теореме Каратеодори ([70], стр. 36) любая точка из со Н может быть представлена как выпуклая комбина¬ ция не более, чем (тг + 1) точки из II. Таким образом, можно считать, что в (2.22) не более (п + 1) коэффици¬ ентов pi3 отличны от нуля. Eg . 8g , Пусть теперь sSj -> 0 так, что р{ 3 рь у{ 3 yt, 1 < i < л + 1. Подобный выбор подпоследовательности [г3.] возможен благодаря компактности Y и множества векторов (pi%..рп+1). Переходя к пределу по esj->0 в (2.22) с учетом непрерывности F, ее производной и леммы 2.1, приходим к условиям (2.20) теоремы, в Теорема 2.3, также как и теорема 2.1, использует при доказательстве схему рассуждений, описанную в преди¬ словии к настоящей главе. А именно, условия оптималь¬ ности для максимина (2.19) получены из необходимых условий безусловного экстремума (2.5) при помощи ме¬ тода штрафных функций. Другие доказательства необхо¬ димых условий максимина (2.20) можно найти в [18, 34]. В теореме 2.3 требование ограниченности множества можно опустить, так как все рассуждения остаются спра¬ ведливыми на компакте X = X fl S, где S — шар с цент¬ ром в точке х*. es е3 тать {Ct} выбранной так, чтобы P\(Ct) -> р\\ Учиты¬ вая лемму 2.1, получаем из (2.21) е/^О'5)- (2-22) содержит точку
НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ МАКСИМИНОВ 127 Иногда удобно представить условие (2.20) в другом виде. Теорема 2.4 ([34]). Условие (2.20) равносильно следующему равенству: sup min [Л-F (г*, у), г — г*) = 0, (2.23) хех \ ах j где Y (х*) = Arg min F (о;*, у). VSLY Доказательство. Покажем, что из равенства (2.23) следует (2.20). Допустим противное. Пусть равен¬ ство (2.23) выполняется, однако -<?(**) П К*х(х*)ш*0. Тогда в силу теоремы отделимости выпуклых множеств ([43], стр. 313) найдется вектор v0 е\К*Х (■£*)]* =» = К*х (х*) =Кх{х*) такой, что min (г0, z) = а > 0. zeQCx*) Функция (у, z) непрерывна по и равномерно относитель¬ но z е Q(x*). Поэтому для vQ можно указать вектор V\ *= = hi (xi — х*) е Кх (ж*), для которого min (ух, z) ^ а/2. Отсюда следует неравенство min (zt хх — х*) ^ ^ и, в zeQ(**) частности, F (х*у у), хг — ^ что проти¬ воречит (2.23). Покажем, что из (2.20) следует (2.23). Допустим про¬ тивное. Тогда найдется вектор v0 ^ Кх(х*) ^Кх(я*)ч для которого min i'ix ^ ^х*' у)’ уо) > уеУ(**) \ ох ] Последнее неравенство можно переписать в виде min (vQ, z) > 0. (2.24)
128 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 В силу того, что v0 €5 Кх {%*) = \К*х (х*)Ги min (у0, z) = z<EH(x*) min (у0, г), выполняется неравенство (у0, г) > 0 для всех 2 е /£* (х*). (2.25) Сопоставляя (2.24, 25) заключаем, что -Q(**) П Кх (х*) = 0. Но это противоречит (2.20). Теорема доказана. БЗ Необходимые условия (2.20, 23) позволяют как строить численные методы отыскания максимина (2.19) ([34]), так и аналитически решать некоторые задачи. Причем в одних случаях удобнее использовать необходимые усло¬ вия максимина в виде (2.20), а в других — в виде равен¬ ства (2.23). В связи с этим рассмотрим решение двух задач. Задача 1. Оперирующая сторона производит стрель* бу по цели, находящейся на отрезке [0, 1]. Если х — ко¬ ордината точки прицеливания, у — координата цели, то вероятность ее поражения равна k*e~K^x~v) , 0 < k < 1 В распоряжении оперирующей стороны имеется два вы¬ стрела, причем результат первого выстрела не становится известным перед вторым. Цель неподвижна, а ее положе¬ ние — неопределенный фактор. Определить оптимальную стратегию стрельбы в том случае, когда критерием эффективности служит матема¬ тическое ожидание числа попаданий в цель. Решение. Оптимальные точки прицеливания х\ (К), ^г(^)» очевидно, симметричны относительно точки 1/2: х\ (А) = х(Х), Х2(К) = 1 — #(^), 0 < х(^) < 1/2. Крите¬ рий эффективности есть Fx (х, у) = + е-м-*-у*9 Для нахождения оптимальной стратегии используем не¬ обходимые условия максимина в форме (2.20). Легко видеть, что
§ 10] НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ МАКСИМИНОВ 129 Рассмотрим два случая. 1) Для достаточно малых Я > 0 У* (я) = {0, 1}. В этом случае необходимые условия (2.20) приводят к уравнению ph(2i% 1) 1 — х (2.26) Если Я < 2, то это уравнение имеет лишь один корень я (Я) = 1/2. В противном случае существует еще один ко¬ рень в интервале (0, 1/2). Нетрудно убедиться, что стра¬ тегия х(Х) = 1/2 при Я > 2 не оптимальна. 2) Если Ух(х) = {0, 1/2, 1}, то необходимые усло¬ вия (2.20) превращаются в равенство Fx(x, 0)=Fk(z,'i/2). Решая это уравнение, находим , * (*•) = -§■ + X ln t1 “ У1 “ е~Ш)- (2.27) Данная точка является решением задачи при X > Яо, где Яо —значение параметра Я, при котором выражение (2.27) удовлетворяет уравнению (2.26), т. е. 3X„ + 4In(l-l/l-e-^2') W2 (х _ лГ _ ^0_4ln(l-Vl-e-W2) I1 V1 )• Итак, оптимальна стратегия (см. рис. 2.1)' [1/2, 0<Я<2; z* (Я) = | корень уравнения (2.26), 2 ^ Я ^ Я0 ^ 3.235; 1(2.27), Я0<Я. Задач а 2. Пусть в кооперативной игре N лиц ([55]) характеристическая функция v супераддитивна, г. е. для любых коалиций Si, S2 игроков таких, что 52Q/ = {1,..., N}, Sx П S2 = 0, справедливо неравенство v ($i) + v (S2) ^ v (Si U S2). Введем функцию e(S, z) = v(S)~ i<ES 5 В. В. Федоров
130 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 — эксцесс коалиции S, которая служит мерой того, на¬ сколько дележ z из множества дележей z = jz = (zx,..., zN)\ztptv{{i}), = y(7)J выгоден коалиции S. Игрокам сообщается, что дележ z будет назначаться так, чтобы минимизировать максимальный эксцесс шах е (5, г). SQI Показать, что /г/ж таком принципе «справедливого» дележа игроки образуют коалиции с одинаковым экс¬ цессом. Решение. «Справедливый» дележ z*g2 реализует min max е (S, z) = max е (S, z*). zeZ sc:/ SQ/ Запишем для z* необходимое условие (2.23) min max e (S, z*), z — z*) = 0, :ez SGY(z*)l 52 V 7 ; где y(z*) — множество коалиций Si, Sk, на которых достигается тахе (S, z*) = е (St, z*), SQ/ Очевидно, Л_е (S, z) = (0, ..—1, ..., —1, ..., 0). Здесь dz ца m-ц месте стоит —1, есди m-ж игрок входит в коали-
НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ МаИСЙМЙНОЙ 131 цпю S. Тогда условие оптимальности z* записывается в виде min max zez х/2 2 (z*-2*)) = 0. (2.28) \tes. ieS* J Если теперь /-й игрок не входит ни в одну из коалиций S\, ..., 5кеУ(^), то минимакс (2.28) достигается при гз = v ({/})— минимально допустимом значении Zj. Коа¬ лиция S\ (_J {у} также не входит в 7(z*). Следовательно, U {/}, Z*) <e(Su Z*) или v (Si U {]}) — 2 2,* — z* < V (Si) — 2 2i'. iGiS, i#r=Si Из последнего неравенства вытекает v(Si и MX* ($,) + *({/}) — противоречие с супераддитивностью характеристиче¬ ской функции. Таким образом, каждый игрок входит хо¬ тя бы в одну коалицию из 7(z*). 2. Необходимые условия, которым удовлетворяет наи¬ лучшая гарантирующая стратегия х* & X в задаче оты¬ скания максимума минимакса max min max F (я, yt z) = min max F (x*, y, z), (2.29) леА {/ЕУ zez уеУ ?ez можно получить, опираясь па необходимые условия мак¬ симина, по той же самой схеме, которая была использо¬ вана при доказательстве теоремы 2.3. Теорема 2.5 ([91]). Пусть функция F(х, у, z) за¬ дана на произведении XXYXZ замкнутых выпуклых множеств X и Y соответственно п- и m-мерного прост¬ ранств, Y — ограничено и Z — компакт метрического про- д д странства. Предположим, что непрерывны на XX YXZ. Тогда, если х* ^ X реализует максимум минимакса (2.29), то найдутся числа ри ^ 0 и точки уif ziu 5*
132 УСЛОВИЙ ОПТИМАЛЬНОСТИ [ГЛ. 2 ^ i < q < 72+1, 1 ^ / < S < 22 + 772 + 1 TCLKUe, ЧТО Я s 2Pi = 1, 2^ = i, (2.зо) i=1 j=i Я s -2+2 r li i F (x*, у i, 2i;-) e Kx (■X*), (2.31) i=1 j=1 s 2 гг+ ^ (**> ^г. ггД e /Су (г/г), (2.32) ,-=i y min max F (x*, y, z) = max F {x*, y„ z) = F (x*, yt, zu) i(6У isz zez v < »i> ш (2.33) гсди всея 1 sS г < g, 1 < / «£ s. Доказательство. Введем функцию ^(*. У. z) =F(x, у, z) — \x*—x\2 и будем далее рассматривать задачу отыскания максиму¬ ма минимакса для F на компакте X == X f| S, где 5 — шар с центром в х*. Из компактности X, Y, Z и непре¬ рывности F следует, что для любого е>0 существуют точки z® такие, что I F (*, y,z) — F (х, у, z-/) |< е для некоторого /' = / (я, у, z). Пусть £e = arg max min max F(x, у, z*), тогда \\тхг = х* x<=X V^Y i _ E_*° в силу единственности arg max min maxF (x, y, z). На конеч- ном множестве {zj} задача поиска max min max F (xf y,Zj) xel y^Y 3 по теоремам 1.3 и 1.7 приближенно сводится к задаче определения максимина max min 3?г {х, у, и, С) осех «.2/еУ функции у, 12, С) = и + С 2 [min (0; и — F (х, у, Zj))J2.
§ 101 НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ МАКСИМИНОВ 133 Очевидно, для точки х (С) = arg max min 3?& (х, у, и, С) справедливо равенство lim lim х s (Cf) = х* S->00 t-> оо при некотором выборе последовательностей {ев} -* 0, {£*}-> оо. При достаточно больших Ct, 1/е, запишем для es х (Ct) необходимые условия (2.20) из теоремы 2.4. Существуют числа р* (Ct) ^ 0 и точки yi(Ct), Ui8(Ct), 1 < i ^ q < n+1 такие, что PiS (Ct) = 1, i=i - 2 P** (C<) i ^ ^ (c*). “i3 (Ct), Ct) s i=l (2-34) (i/iS(C,), 4'5(C,)) = arg min г/, и, С,). (2.35) u, i/еУ Здесь i г V (Ci), »*• (со, u?«?,), c,)«. j rij(Ct) = — 2С4 min (0; u-s(Ct) — F (/s(Ct), yi3(Cf), zjs))>0. Условие (2.34) в этих обозначениях запишется в виде -22р?(°л<с*)-кf(*е$^у* (c‘).e i=i €=£-(/*((7,)). (2-36) Так как 3?г при х s (Ct), yiS (Ct) достигает в точке и\ (Ct) минимума по и, то выполняется необходимое
134 УСЛОВИЯ ОПТИМАЛЬНОСТИ (ГЛ 3 д (-р л условие минимума«х = 0, что дает равенства 2Гц (С,) = 1, 1<г<д. (2.37) О es В точках у % (Ct) также выполнены необходимые условия минимума функции по у ^ Г: 2 ^ (с*) Ьf {Ct)’{Ct)'z^ e k*y ^ {Ct))• (2-38) i У Перейдем к пределу по такой подпоследовательности чтоР*\С1к)-+рег\ ri8j(Ctk)-+r*ah Ui8(Clk)-+Ui8, y\\cth)-> е3 es es -+Ух,х (cth)^x . причем e-t / es es\ Ui" = max F {x , г/г , zj ) j 84 по замечанию к теореме 1.7. Отсюда следует, что г\у = О для тех номеров /', для которых ^ (-А г/»8', г-?) < max F {х\ у**, z)s). j Следовательно, после перехода к пределу по Cth-> оо в (2.34—38) суммирование будет производиться только по номерам / (г) = arg max F (х\ yl\ z]s)- О Рассмотрим множества Я< точек \n-\-rn)-мерного проста ранства вида когда ]{i) пробегает все возможные значения. Усло¬ вия (2.36—38) означают, что выпуклая оболочка множе¬ ства Ih содержит (тг+т)-мерный вектор
НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ МАКСИМИНОВ 135 По теореме Каратеодори этот вектор представляется в виде выпуклой комбинации не более, чем 1) точек из Н{. Таким образом, можно считать, что число индексов у(I) не превосходит (n-j-m-j-1). Перейдем к пределу по подпоследовательности eSe-*-0, для которой в силу компактности Y и Z, обеспечена схо- ®S Sg ДИМОСТЬ ГцеГu, Pie->Pi, Z/г Zj(i)При ЭТОМ сохраняются условия (2.37). В силу предполо¬ жения о непрерывности функции F и ее производных возможен предельный переход в соотношениях (2.34— 38). В результате, учитывая лемму 2.1, приходим к необ¬ ходимым условиям (2.30—33). Теорема доказана, и Сравнивая теоремы 2.4 и 2.5 нетрудно подметить, что они устанавливают факт непустоты пересечения выпук¬ лых линейных оболочек некоторых множеств и сопря¬ женных конусов. С этой точки зрения необходимые усло¬ вия максимина и максимума минимакса устроены одина¬ ково. Если, например, в задаче (2.29) множество Z состоит лишь из одной точки, то условия (2.30—33) пе¬ реходят в (2.20). В качестве примера использования условий (2.30— 33) рассмотрим задачу отыскания х* = arg max min max F{x) 0<x<2i=lf2 j=l,2 ’ где Fn{x) = (x—1)2+1; Fl2(x)=4x— 1; F2i(x) = — 2 + x—x2; F22 {x) = 2—x. Для решения задачи нужно построить множества Zt (х) = Arg max Fu (x), I (x) = Arg min max Fu (x), j=l,2 i=l,2 j=l,2 после чего поиск оптимальной стратегии х* сводится к применению условий (2.31,33). В нашем примере это сделать легко Zx (х) - {1}, 0<*<3-К6; (1,2), x = 3-yTf; z>W-{ J; 0<х<2 {2}, 3-1/6 <;г <2; 1{1}>
136 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 ‘{1,2}, х = 0, х = -±+Щ /(*) = < {1}, 0<х<-±+Щ {2}, -Л- + У*±<х^2. Анализ промежутков^ 2J и ^0, |гЬ^1г)’ где 1{х) — одноточечное множество, показывает, что там нет стационарных точек, удовлетворяющих необходимым условиям. Следовательно, оптимальна одна из точек х— *3 т/21 = 0 или х =* —^2"» в К0Т0РЫХ /(^) = {1, 2}, т. е. выполняются равенства (2.33). Непосредственной про¬ веркой убеждаемся, что х* = |- + Учитывая индуктивный по кратности максимина*) характер доказательств теорем 2.4,5, легко вывести не¬ обходимые условия оптимальности в задаче поиска по¬ следовательного максимина. Теорема 2.6. Предположим, что F(x[t уь ..., хП1 уп, хп+\), fa-P'Ihf ^ * ■** '~ду~^ непрерывны на произведении выпуклыхкомпактов Yu 1 < £ < ?г, где и компакта Xn+i метрического пространства. Пусть х\ = arg max mini71 max F (#n+1, у71). Ji=l ^n-f leXn-fi Tогда существуют числа р(£ > 0, > 0,..., pfjl, > 0 u точки р(14,) <= Уь sX, 4ii"jn) €= Хп+1, где 1 < U < rr -f 1; 1 «5 < п + «1 + 1; 1 < i2 < п + «1+ ,+г2+1; • • •; 1 < /» < n+Si+r2+ • • • +rn+5„+l такие, что *) Кратностью последовательного максимина назовем количе¬ ство чередующихся операций взятия максимума и минимума.
НЕОБХОДИМЫЕ УСЛОВИЯ ДЛЯ ЫАКСИМИНОВ 13? 2р!!’-1; и 2 Pit], = 1 для всех г\; 2 Puh...jn = 1 для всех /ь.. /п; in (2.39) 11 п On n(2n) , д Г(* 7/М / *\ . • • • Pixii. ..Jn F ? • • • ? *n+l j ^ Л-^ГХ v^l/ * 2 2 • • • 2 pS. ■ ■ ■ /CU i-П*, «ЙЛ On aVi K-Y! YlD<2"> . . JL W*? v\U) Рг,н--гп]п 8}/ 1 Vxb У-l J 0 n (2.40) для всея ii, ji, . . in; ^ (^1 1 I/l7 %2'> • • • 7 *n+l) = Г min max [г/геУг = Г max min LXjGA'i у4€=У* г=1 n max F(x*, y[4), х2,*xn+1) i=2 x7i-|-le^n-{-l mciv TP ('r* 7/*^ /у/nil) 7/(ii7ii2) \ — max t , у i , ^2 7 J/2 7 • • • j *^n+l / хп4-1е^?г+1 ■ (2.41) при всех ii, /ь ^л 7 / ?г • Доказательство. Доказательство теоремы про¬ ведем индукцией по кратности последовательного макси- мина. Для максиминов кратности 2 и 3 необходимые условия (2.39—41) получены в теоремах 2.4,5.
138 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Предположим, что условия (2.39—41) верны для мак¬ симина кратности (2п+1) и докажем их для максимина Г max min >Н F (P+1, yn+i) (2.42) кратности (2?г+2). Пусть в задаче (2.42) F,-^F,-^F,..не- прерывны на произведении выпуклых компактов Х\, Fi, Хп, У„, Xn+i(X<<=ETi, YjdESj)vi компактаУ„+1, х\ — реализует (2.42). Введем на компакте Yn+\ е-сеть {г/п+1%Е+1=1- Тогда в силу непрерывности F и резуль¬ татов § 5 имеем lim lim х\(гг, Ст) = х\, ei“*0 Ст-+оо где х\ (eh Ст) реализует максимин Г max min 1n max S’®1 (хг, уъ..., xn+l, и, Cm) (2.43) *n+le^n+l 1! функции (*^1» Уъ • • • » *^71+11 О ^ =u~с 2 fmin(0;Уь---,Яп+1. г/n+i1)— и)]2. * n+l=l Здесь F=F— \xi — #i|2 — функция с единственной реа¬ лизацией максимина (2.42), равной xit Максимин (2.43) имеет кратность (2тг+1), следова¬ тельно, точки Xi (е*, Ст) удовлетворяют условиям (2.39-41). Обозначим PiJ,+.!injn<„+i (£ь crn) = — 2Cm min [0; F (xj (ег, Ст), Viil) (е„ Ст),.... a&tf"'*0 (е„ Ст), Й? (е,(См)) - -«(U,-jn)(eIlcj]>ol
$ И] РЕГУЛЯРНОСТЬ МНОГОЗНАЧНЫХ ОТОБРАЖЕНИЙ 139 где ст) = arg (ео CJ, U у[и) (ег, ст),..., х(^п]{гиСт), и, Cm). Необходимые условия максимума по и приво¬ дят к равенствам *п+1 которые следует добавить к равенствам (2.39) . Соответст¬ венно и в условиях (2.40) появится включение - 2 P('l+\in+ i„ , , т ’«-И • • •, Уп+i) е Kxn+l (-*4+1 n) fo, CJ), вытекающее из необходимых условий максимума функ- ции i? по хп+\ на выпуклом множестве Хп+\. Перейдем в необходимых условиях максимина (2.43) к пределу: сначала по Ст-*- оо, а затем — по е*-*•(). В результате, используя, как в теореме 2.5, непрерывность функции F, ее производных и теорему Каратеодори о вы¬ пуклых оболочках, получим для максимина (2.42) усло¬ вия типа (2.39,40) и группу условий (2.41). Доказатель¬ ство завершено. ■ § 11. Регулярность многозначных отображений и необходимые условия для максиминов " со связанными переменными Пусть в задаче отыскания максимина со связанными переменными sup min F (,х, у) ,(2.44) зсех уеВ(зс) и точки х* == arg max min F (x, у) эс€- X y^B(x)
140 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 (если таковая найдется), многозначное отображение В(9) задано в виде В{х\ = {у ЕЕ У !*/(*, у) т), '(2.45) причем В(х) не пусто при любом х^Х. Для существования оптимальной стратегии я*, как показано в лемме 1.1, достаточно непрерывности в мет¬ рике Хаусдорфа отображения #(•) и непрерывности F (х, у) на произведении компактов X, У. Одно из доста¬ точных условий непрерывности многозначного отображе¬ ния В(•) было приведено в лемме 1.4. Далее мы восполь¬ зуемся другим условием непрерывности, вытекающим из условий регулярности. Определение. Отображение В(•)' регулярно в точ¬ ке х0^Х, если существуют р, 6>0 такие, что для всех х из 8-окрестности Уб(^о) точки х0 и всех ye\Vt(B(x))\B{x))C\Y справедливо неравенство min gj (х, i/)< - рр (у, В (х)). (2.46) 1 Отображение В(•) регулярно на множестве X, если оно регулярно в као,сдой точке х е X с одними и теми же па¬ раметрами р, 6>0. В том случае, когда В(•) постоянное отображение, данное определение, очевидно, совпадает с определением регулярности из § 3. Нетрудно сформулировать достаточные условия для регулярности отображения #(•), аналогичные приведен¬ ным в лемме 1.12 § 5. А именно, отображение #(•,), оп¬ ределенное выражением (2.45), будет регулярным в точ¬ ке хо^Х, если ^функции gj(#, у) непрерывны на XXY, вогнуты по у на выпуклом компакте У евклидова прост¬ ранства и существует такая точка у ^ У, что gj (х0, у) > >0, 1^7 ^m (условие Слейтера). Если gj(x, у) = = (dji y)~\~fj(x)i гДе dj — вектор, то £(•) регулярно на выпуклом множестве X. Как и в § 3 можно привести примеры невогнутых по у функций gj(x, у), задающих по (2.45) регулярные отображения #(•). Для регулярных отображений справедлива
РЕГУЛЯРНОСТЬ МНОГОЗНАЧНЫХ ОТОБРАЖЕНИЙ 141 Лемма 2.7. Если многозначное отображение #(•), заданное в (2.45) непрерывными функциями gj(x, у), 1 ^ < m и компактом У, регулярно в точке Хо> то оно непрерывно в х0 по Хаусдорфу. Доказательство. По лемме 1.1 отображение В(#) полунепрерывно сверху в точке х0. Докажем полунепре- рывность снизу. Пусть существуют последовательности xk-^x0 и yk^B(x0), такие, что Уь & V6{B(xk)) для неко¬ торого 6>0. Тогда в силу (2.46) min gj(xh, yh) < l<j<m < — рб<0 для всех к. С другой стороны, в силу компакт¬ ности У и замкнутости В(х0) можно выбрать подпосле¬ довательность {/с,} так, чтобы yhl ->у0& В (х0). При этом lim min gj(xhvyk.) = min gj{x0, г/0) > 0 l—ЬОО l<j<771 i<j<77l и приходим к противоречию. Лемма доказана. ■ Лемма 2.7 при регулярности В(•) на компакте X га¬ рантирует для непрерывной функции F в силу леммы 1.1 существование оптимальной стратегии в задаче (2.44). Большую роль играет условие регулярности отображения и при получении необходимых условий. Теорема 2.7 [92]. Пусть в задаче (2.44,45) i F (*. У), F (*» I/). gj (*. »). -щ; gi (*. 1/)- 1 < / < непрерывны на произведении выпуклых замкнутых мно¬ жеств X, У евклидовых пространств, где Х^ЕП1 а У — ограниченное множество. я* = arg max min F(;r, i/), го существуют чис- x^X y^B(x) ла pi> 0 и не все равные нулю числа Яо, hi ^ 0, 1 < г ^ г < п + 1, а также точки у{ такие, что 2 Рг = 1; г = 1
142 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Если отображение В{*) регулярно в точке х*, т. е. в точке х* выполняется условие (2.46), то ^о=1* Доказательство. Используем схему рассуждений теорем 2.3,5. Введем функцию F(x, у) =F(x, у) — \х*— —х\2 с единственной реализацией .г*=argmax min F(x, у). хех уев(х) Здесь 5 — шар с центром в точке х*. По тео¬ реме 1.3 имеем max min F (х, у) = lim max min 3? (x, у, С), зсеХ У^В(х) С-юо y&Y m где 2 (х, у, С) —F {х, у) + С 2 lmiQ (0; gj (я, У))!2- При 1 = 1 оо реализации я* (Cfc) = arg max min 2 (x, у, Ck) x<=X y*=Y максимина функции 9? сходятся к х*. Запишем необхо¬ димые условия для точки x*(Ch) из теоремы 2.3: суще¬ ствуют неотрицательные числа Pi(Ck) и точки yt (Ch) е= Y (х* (Ch)) = Arg min g {x* (Ch), y, Ck) jyeY такие, что 2 рг (ch) = l, i=l i=l I - 2(c*) y*(C*»/e ^ <c*»- <2*49) 7=1 Здесь обозначено s«(C„)=—2Ckmin(0; gj(x*(CkJ, y,'(Ck)) > 0. Поскольку г/* (Cft) реализует минимум 2(x*(Ck), у, C\) на выпуклом У, то из необходимого условия (2.5) полу* чаем е= К'у {у, (С,)). (2.50)
4 и! Регулярность мйогозйачнйтх отображений 443 Нормируем выражения (2.49,50) на Р (£fe) = 1 + 2 sij {Ch) ^ 1 * г»? вводя новые коэффициенты мс,)=мЬ мс*)_тч§г Очевидно, /.о (Ск), }Ч] (Ск) не все равны нулю, так как они неотрицательны и ^ (Рн) + (Ск) = 1. i,j Перейдем в (2.49,50) к пределу по подпоследователь¬ ности {Ckl} такой, что У г {Chi)-* yi^Y (х*), %Q (С^) Х0, Xtj (Cfcj) Тогда из (2.49,50) получим условия (2.47,48). Если же выполняется условие (2.46) регулярности отображения В(•) в точке я*, то, как и в теореме 2.1, легко показать, т что суммы 2 su (С) равномерно по С ограничены. При ;=i этом условия (2.47,48) вытекают из (2.49,50) при пре¬ дельном переходе по Ch[ ->- оо без предварительной нор¬ мировки. Теорема доказана. ■ Отметим, что при доказательстве первой части теоре¬ мы не предполагается непрерывности или дифференци¬ руемости по направлениям функции минимума f(x) = min F (х, у). V^B(x) Легко видеть, что число соотношений в необходимых ус¬ ловиях теоремы 2.7 равно числу неизвестных парамет¬ ров, так что эти условия, в принципе, содержат доста¬ точную информацию для определения х*. В случае, когда Y совпадает со всем пространством и регулярное отображение В(*) ограничено в окрестно¬ сти точки х*, теореме 2.7 можно придать иную формули¬ ровку. Введем функцию Лагранжа )И L (х, у,%) = F (х, у) —2] 'kjgj (х, у), j = l Я=(?Ц, ..., %т)> 0
144 УСЛОВИЯ ОПТИМАЛЬНОСТИ {ГЛ. 2 и множество Л(х*, у) =^>0 у, К) = о, у) =0}- В силу регулярности отображения £(•) в точке х* и те¬ оремы 2.1 множество А (ж*, у) непусто для всех г/s е Y(х*). Обозначим через А множество функций Х(*)» заданных на Г (я*) и таких, что X(z/)^A(:r*, у) для всех у е У (ж*). Следствие. Утверждение теоремы 2.7 эквивалентно тому, что существует функция Ц*) ^А такая, что (2.51) Здесь Д/(А,(*))—замыкание выпуклой оболочки множе¬ ства = Iz = L ^к ^е 7 (**) Из условия (2.51) в силу теоремы 2.4 (см. (2.23)) выте¬ кает следующее необходимое условие для точки х*: inf sup inf f-~L(x*,y,\(y)),g)< 0. (2.52) «•)ел lg|=i vs:Y(x*)\ox 1 g<SKx(x*) Проверка условия (2.52) требует решения бесконечно¬ мерной задачи поиска минимакса, так как инфимум в ,(2.52) берется по множеству А функций Ц*). Однако (2.52) нельзя записать как sup inf min (-?- L (x*, у, %), g'j ^ 0, |gj=l t/eY(i*) ),ea(i* ,v)\°x j g&Kx(x*) т. e. перейти к минимаксной задаче в евклидовом простран¬ стве, поскольку в выражении (2.52) inf и sup М-)ел \g\=itg^K^(x*) вообще говоря, неперестановочны. Это говорит о том, что, по-видимому, использовать необходимые условия в фор¬ ме (2.51) или, что тоже самое, в виде (2.47,48) удобнее,' чем (2.52). Заметим, что бесконечномерные минимаксные задачи типа (2.52) в последнее время все чаще появляются при анализе иерархических систем управления ([14, 55]).
§ ii] РЕГУЛЯРНОСТЬ МНОГОЗНАЧНЫХ ОТОБРАЖЕНИЙ 145 В [36] (теорема 4.2) показано, что при более жест¬ ких предположениях, обеспечивающих дифференцируе¬ мость функции минимума f(x)= min F (я, у) по направ- у<=В(х) лениям, условия (2.51) справедливы для любой функ¬ ции ^(») еД. В этом случае аналог условия (2.52) есть sup sup inf (-Ц-Ь(х*, у, к(у)), g\*^0, МОел IsHi. уег(ж*)\с'ж 1 &ЕКХ(Х*) что в силу перестановочности sup и sup эквивалентно М-)ел lg|=i g=Kx(x*) sup inf max (-L L (x*, у Д), g) < 0. |£!==1 г/£У(х*)ШЛ(зс*,2/) \ ax J g<EKx (x*) Рассмотрим теперь естественное обобщение теорем 2.6,7. Пусть х\ реализует Г max mini71 max F (xn+i, yn) = M, (2.53) lxi^Ai y^BiJf=1 xn+1eAn+1 т. e. в наших обозначениях x\ = arg Г max min |n max F (#n+\ yn). y^Bjj2=:i ^An-\-l В (2.53) многозначные отображения задаются в виде At = At (х1~\ у1-1) = (хг е X, | h„ (У, у1'1) > ^ 0, для всех Z}, Bj =Bj(x\ у) = {yje=Yj\g)m{x’, 7)>0, для всех то]( множества индексов. 1 ^ ^ 7г+1, 1 < / < тг, где I и т пробегают конечные Сделаем следующие предположения. 1) Множества Х{, Yj выпуклые и замкнутые из евкли¬ довых пространств ЕТ{, ^.соответственно. .*■ 2) Отображения Аи Bj ограничены и непрерывны по Хаусдорфу. 3) Функции hu, gjm имеют непрерывные частные про¬ изводные по всем аргументам.
146 УСЛОВИЯ ОПТИМАЛЬНОСТИ [Гл. 2 Введем функцию Лагранжа, связанную с зада¬ чей (2.53), L » У > Л'о» ^1» • • ч ^тГ> Mi’• • ч Мл-и) = = X0F (xn+l, уп) - 2 (Xj, gj (?, ?’))+ j=l + П2(Ц|,А, (2 54) i--i где Kj= {^m}, \ii= {Цг/} — векторы; gj{x3i y3) = {gim(xs> У3)}, M**1 J/'"1) = {*«(«*» ^7"1)} —вектор-функции; скобки обозначают скалярное произ¬ ведение. Теорема 2.8 [92]. Пусть выполнены сделанные вы¬ ше предположения и е Хх — решение задачи (2.53). Тогда существуют числа р\\\ Ри?и ..^п^ 9» а не все равные нулю векторы л0, л* , а также точки у[г'\ ^l7l),..., 1 < ii < П + 1, 1 ^/i < n+si + l, 1 </n<r1+s1+...+rn+5n+l, 1^ < £ ^ тг, 0 < /с ^ тг такие, что 2р<,” = 1, SpS. = i is h jn ■“ l (#ь р!г1\* • ч n); я,01 •••, tn^x"Av)\ /7 + 1 h. 1‘У1'" i*'';,'’"1) s jrin+l (*„<;■,•■■•'">); 2 £ («*. V MM.. • • in yn ...,Xn , Hi, ц2 ,...,(in+i ) e Куп\Уп j; 22 ■ Spg-pSU i- L (*I, si4... it is *}\. \
§ 11] РЕГУЛЯРНОСТЬ МНОГОЗНАЧНЫХ ОТОБРАЖЕНИЙ 147 У V Т n(1)n(2) n(2n) JL.T (т* Jj(il) 2j • • • 2j Pit Pilji • • Qx L* [^1 » У1 j • • •» ^-n+1 > U ii in 1 V tf0 |ix, ц(аш,..$?Г"'п)) s ей, (Й); *, (*;,*?.,»iU"' ,‘)) = 0; ( • - jfi) , / * ({j) (‘ t-?1* * • rx , hk±i ^i, у i ,...,xh+i J=0; I max mini" max F (x*, y[tl), x2,..., xn+l)= [*i6Ai WjSBj Jj_2 *n4-iSAn_f_j M = = Г min max 1" F (a:*, a4,1,l>,..., xn+i) = Lyi*=Bi *i+leAi+l i=2 = max F (.r*, i/i*'’,.., жп+1) = xn+lsAn+l n 7 * (it) (ufi-• -jn)\ Если отображения Au Bj регулярны на произведении соответствующих Xi4 Y;, то в форме Лагранжа (2.54) *о=1. Доказательство. По теореме 1.2 о сходимости метода штрафов в задаче (2.53) имеем М = lim [max min 1" max уг,...,уп, xn+1 ,C), С-»oo [xjeXj y^Yi*n-He^n-|-l где (^1» ^/i»• • • »^n+ii E) = F {x\i у, yn, #n-|_i) Ц- n + CS X [min (0; gim (zlt г/х, ..., ^))]2 — i=l m n-fl — C 2 2j [min (0, hn (xu ^))]2. i=1 / Записав здесь необходимые условия (2.39—41) для крат¬ ного мъксимина с распадающимися переменными функ¬ ции 2\ после перехода к пределу по С-*- оо, как и в теореме 2.7, получим утверждение нашей теоремы, ц
148 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 По-видимому, наиболее важный регулярный случай задачи {2.53) соответствует линейным ограничениям, когда 1 {—1 ) 2 Fkt*k + 2 Did/« . /1=1 /=1 .7 /1=1 t=l где Fhi, Dti, — матрицы, a<, bj — векторы соответ¬ ствующей размерности. § 12. Принцип максимума для некоторых минимаксных задач оптимального управления 1. Результаты § 7 о снятии дифференциальных свя¬ зей позволяют довольно легко получить необходимые ус¬ ловия в минимаксной задаче оптимального управления. Будем рассматривать задачу отыскания min max ^~./(и(*)»^) (2.55) u(.)€=D l<j<N tj>to функционала ^•И-)Л,) = j fi(xj(t,u(-)),u(t)tt)dt, (2.56) to где xf(t, u(')) — решение уравнения ъ(0 = u(t), t), (2.57) с условиями Xj(t0) = x0l XjXtj) <= sj9 К j < Nt [(2.58); соответствующее управлению u(*)^D. Множество допу¬ стимых управлений D определяется здесь как множество ограниченных измеримых функций u(t) со значениями из U таких, что для любого значения неопределенного фактора /, 1 < j < N найдется момент времени когда Zj(tj, и(•)) ^ Sj.
ПРИНЦИП МАКСИМУМА 149 Оптимальным в задаче (2.55—58) называется управ¬ ление определенное на отрезке W0, max t* , для L J которого max ?Fj (a* (•), t*j) = min max &~} (u (•), £,-). u(.)eDi<ja tj>to В § 7 были сформулированы достаточные условия на функции /о, f\ целевые множества Sj и множество U, при выполнении которых справедлив метод штрафных функций (теорема 1.14). Напомним эти условия. 1) Функции /о (х, и, t), f(x, и, £), I < j < N линей¬ ны по и, измеримы по i и непрерывно дифференцируе- д % д . мы по ху причем -^г/о» /о» / ограничены при любых ограниченных (я, и). 2) Целевые множества Sh 1 < / < iV, замкнуты в Z?n, С/ — выпуклый компакт из Ег. При этом задача (2.55—58) для фиксированных tj4 to*^ t\ ^ . <:tN сводится к задаче отыскания предела lim min 9? (х(-), и(-)у v, С) =» min max $F, tj) C->oo x(-),u(-) u(-)^DKi<N —оо<г>< oo функционала S (z (•), u(-), v, C) — N Г r = y + C 2 max(0; J /о “(0. t)dt — y)]2 + ^=1 L (. N + CS j (f) - fi (Xj (f), «(0, *) l2dt, (2.59) ^ = 1 to где минимум берется по абсолютно непрерывным функ¬ циям #(•) = (#i(*), ..£*(*)) с производными из ^(to, tj), удовлетворяющим условиям (2.58), и множест¬ ву управлений и(•) eLoo(^0? ^) со значениями из С/. Используя приближенное сведение минимаксной зада¬ чи оптимального управления (2,55—58) к задаче на минимум функционала (2.59) выведем локальный прин¬ цип максимума.
150 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Лемма 2.8. Пусть в задаче (2.55—58) моменты вре¬ мени tj, to ^ t\ < ... ^ tN (фиксированы, выполнены при¬ веденные выше условия 1), 2), причем Sj— гладкие мно¬ гообразия. Если и* (•) = arg min max вГ;(*/(•), tj), u(.)eD 1<5<2V x* (t) — соответствующие траектории системы (2.57) с условием (2.58), то существуют числа Яо, Рз ^ 0, 2 Ру = 1, Pj = 0 при j&f и функции \pj(£), удовлет- 5s & воряющие на отрезках [£0, уравнениям ь (о = - [-£• f (xi (0i(0. 0]Чу (о + + *„Py (2.60) с условием трансверсальности в точке х* (tj) Sy Ъ(*з)±П,(*}(*з)), (2.61) причем Яо, гр1 (•)', »*., ^(*) не равны одновременно ну¬ лю, такие, что функции Н] (К- Ф (*). ** (0, «. р) = 2 [/’ (4 (0. ц. 0 (г) — г=5 — hPifo (x*i (*). и, 0] (2.62) при почти всех t^ [^-ь tj] и u — u*(t) удовлетворяют необходимым условиям максимума по и& U: (^ГЯЯ^0- Ф(*). **(0, и*(*), р), « —и*(о)<0, 1 < j <ЛГ. (2.63) Здесь /=Argmax^(w*(.), «,), я* (•)=(*! (•),-•• ,**(•)), 1<j<N Т — знак транспонирования, П, (ж) — касательное под¬ пространство к многообразию Sj в точке х е Доказательство. Сначала выведем необходимые условия, которым удовлетворяют реализации #(•, С),
ПРИНЦИП МАКСИМУМА 151 и{% С), v(С) минимума функционала (2.59) при фикси¬ рованном Cj> 0. Пусть Xj(t) — любая бесконечно дифференцируемая функция, которая обращается в нуль вне некоторого ин¬ тервала, содержащегося в (t0, t3). Так как (#(•, С), и(*, О» V(C)) — решение задачи min j? (#(•), и (♦), у, С), то первая вариация б«2?(х(*, С), н(*, С), v(C),C\ х;(•)) должна обращаться в нуль для любой функции x3(t) ука¬ занного вида. Отсюда и из непрерывности "§7/0 следует, что ([22, 50]) Ч д Р, {С) (X} (*, С), и (t, С), t) Xj (t) dt + (о и . ^ + 2С C),xj(t)- to 4 - -L f (Xj (t, С), и (t, C). t) X, (t)) dt = 0, где использованы обозначения tyj (^» О = xj (^» О ^ (xj (^» O? ^ О» 0» p, (С) = 2C max ^0; J f0 {x} (t, С), и (t, C), t) dt — v (C) j. Иначе это условие можно записать в виде ч J м*. C)xj(t)dt = to tj = I (Ii? to V'u (*•c)’ ^ (*•c) - to - Ю i & to V'toM <*• to ^ <*» Таким образом, vM*, С) e [f0, £/] и является по тео¬ реме вложения ([86]) абсолютно непрерывной функци-
152 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 ей, удовлетворяющей уравнению С), u(t, С), оГ'Ы*. С) + + с)- UV' V' *)• (2-64) Далее, пусть Xj(t) абсолютно непрерывная функция с производной яДв).е£2(£о, tj) такая, что яД£о) = О, яДфеПДяД** С)), где ПДя) — касательное подпрост¬ ранство к многообразию Sj в точке х е Sj. Это означает ([22]), что найдется функция гДе), |гДе)| =о(е), для которой Xj{tj, С) +еXj(tj) + гДе) еS}. Построим гладкую с ограниченной производной функцию гД£, е) такую, что г . (£, е) Tjltj, е) = гДе) и Пш — = 0 равномерно по е->0 8 t^[t0, tj] (можно положить, например, гДt, е) = 1] 0 S Дадим траектории аД*, С) приращение езД*) + + гД», е) и вычислим приращение функционала (2.59) AS = 2Се j* (ф, (t, С), ж, (*)) dt - /о - 2Ce .f (fi u (i’ C)' f)]T^(*’ <*)) 4“ Py (O j* /о 0» w 0» 0» xj (0) dt "Ь 0 (8)* Интегрируя первый член по частям с использованием (2.64), получим = кЗ? = 2Се С), ЯД**)) +о(е). Отсюда вытекают условия трансверсальности фД*„ C)±nj(Xj(tj1 С)), (2.65) так как в противном случае нашлись бы е Z> О, #Д*), гД •, е), для которых Д57 < 0, что противоречит опти¬ мальности яД% С).
ПРИНЦИП МАКСИМУМА 153 Пусть и(9) — произвольная, измеримая на [£0, tN] функция со значениями u(t)^U и u(t)=a[u(t) — —u(t, С)], 0 < а 1 — вариация управления. Необходи¬ мое условие минимума (2.5) функционала (2.59) по и(•) при фиксированных х(•, С), v(C) с учетом выпуклости U дает N ( ^ 2 П ([^г f* to (*» с)’ “ V' с)> о]г^ («, С) - <3 = i Wo Pi iP) д i 1 - /оЫ*. О. и(*, С), 0, u(t)-u(t, C))dt <0 или 0 Г iV 2 112( s=i <;_! 'г“* --k Аto(t'С)' u{t’ С)>t]’ (f. c»}d*< °- Так как функция u(t) выбиралась произвольно и незави¬ симо на каждом из отрезков [£j_i, t,], то отсюда вытека¬ ет, что при почти всех is [£;-1, £,] управление м(*, С) должно удовлетворять условию (i (fi fi ^ и у*^ *)]т^ у* v - \i=j _ 1^1й (.Гf (*, С), В (f, С), *)}, « - И (f, С)) < 0 (2.66) для всех и е С/, 1 < / < iV. Наконец, необходимое условие минимума (2.59)' по и приводит к равенству 'М<, С)- N 2рПС) = 1. 6=1 (2.67) Из условий (2.64—67) предельным переходом по С не¬ трудно цолучить условия (2.60—63).
154 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Введем функцию 2? (х(*), u(0, V, С) = S' (х{>), и(‘), v, С) + N + SI*! (•) - ^(•)IIL(«o.ij)+!«*(•) - w(*)|L(<..(N). i=i Пусть x(•, С), м(% С), у(С) — решение задачи min S7 {х (•), м (•), у, С), тогда по теореме 1.14 из § 7 x(-),u('),v *(., С)-***(.), «(•, С)-►£**(.)■ при С —оо сильно в £2(£o, М и limi;(C) = min max у {и («), £у). С—о u(«)^jD l<j<iV Как и при доказательстве теоремы 1.14 можно показать, что существует последовательность^^, Cn)}Z=1, сходящая¬ ся равномерно к x*(t). Кроме того, будем считать {С„}->-оо выбранной так, что и(£, Cn)-+u*(t) почти всюду на [t0, tN] и Pj{Cn)^Pi для /= 1, ..., N. Пусть rpj(•, Сп) — решение системы (2.64) с условием (2.65). Обозначим Ь„ = [2СП| |iMf„Cn)| + ll *. i=l *?(*) = 2KCnbV, сп). Очевидно, что К + Ъ I (*/) I= 1» j=l т. е. Хп, Ф? (^i) , • • • 1 Флг (^iv) не равны одновременно нулю, причем фу (*у) _L Пj (xj {th Сп)). Из определения Хп, ф” (£) вытекает, что Й (*>= - [ifl (*> V*“ & с»>* *)]т^ <*> + ”Ь (Сп) /о (я/ (^» Сп), w (^» Сп), f). Используя рассуждения леммы 1.19 из § 7, нетрудно по¬ казать, что существует подпоследовательность щ-^оо
ПРИНЦИП МАКСИМУМА 155 такая, что г|^ (/) сходятся к решению ^>,(0 уравнения 711L (2.60) равномерно по t, t0<t*Ztu knk->- ^ (£;•)-> -♦ tyfo)-LПу (a$ (tj)) и сохраняется равенство + N +Х ЬМгу) 1 = 1- Отсюда и из условия (2.66) вытекает, что почти всюду на [£j-i, tj] выполняются неравенства (2.63). Числа Рз в силу (2.67) удовлетворяют условию ‘ N 2 Pj = 1 и, кроме того, рз = 0 при / так как 1 v(Cn)-~+ min max j (u (•)» tj)- u(.)eD Kj<iv Лемма доказана. ■ Замечание. Если в задаче (2.55—58) целевые мно¬ жества Sj совпадают со всем пространством ЕП1 то в ло¬ кальном принципе максимума (2.60—63) условие транс¬ версальности принимает вид и можно считать Ко = i. Действительно, при Sj = Еп условия (2.65) записыва¬ ются в виде \f>i(^-, С) = 0, а функции (0 ^ (t, Сп) в силу (2.64) удовлетворяют уравнению <*) “ “ [iс^> и (*’ Сп)’ (<) + + Pj(Cn)if}o(Xj(t,C„), u(t,C„), t), причем (tj) = 0. Если теперь перейти, как и при доказательстве лем¬ мы 2.8, в этом уравнении к пределу по подпоследователь¬ ности {%} такой, что ^jA(0 сходятся равномерно по t к функциям ^(*)> Рз(сп) т+Ри то получим локальный принцип максимума с Яо =. 1. ■ Локальный принцип максимума доказан нами в до¬ вольно жестких предположениях, обеспечивающих схо¬
166 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 димость метода штрафных функций при снятии диффе¬ ренциальных связей. Однако эти ограничения, как пока¬ зывает следующая теорема, несущественны с точки зре¬ ния вывода необходимых условий оптимальности в форме принципа максимума. Рассмотрим задачу (2.55—58) в случае, когда /о, /\ l^j^N явно не зависят от времени t (автономный случай). Найти min max \&~ j (и (•), tj) = 1 f0 и (•)), u(9)d/|, u(.ten [ /' J tj>t 0 (2.68) где xj, u(*)) — решение уравнения ^(t) = u(t))\ Xj(t0) = x0, (2.69) соответствующее допустимому управлению u(•) еД при¬ чем и(-)) (2.70) Минимум в (2.68) берется по допустимым управлениям, принимающим значения из произвольного множества U и по всем tj^ to, удовлетворяющим условию (2.70). Теорема 2.9 ([93]). (Принцип максимума). Пусть д * д в задаче (2.68—70) функции /\ /о, /\ -^г/о непрерыв¬ ны, Sj —гладкие многообразия и управление u*(t), оп¬ ределенное на отрезке \tQ, тахЫ, оптимально. Предпо- [ l<j<N J ложим, что оптимальные моменты времени tj занумеро¬ ваны в порядке неубывания t0 ^ (£) — траектории системы (2.69) то отрезках [£0> *j]» соответ¬ ствующие управлению и*(•). Тогда существуют числа Х0 > 0, р, ^ 0, Pj — 0 при )<£?, SPy = l, где is f f =Arg max j {и* (-), t*),
принцип максимума 157 и функции удовлетворяющие на [г0, f*| уравне¬ ниям ^ “ [i f1 (0. и* (0 + + KPJ «(0) (2-71) такие, чго Хо, xpi (•)', ..(•), не равны одновременно = 2[/г (** (0, “Иг (0 — ^оРг/о (4 (0. и)] (2.73) i=j достигают максимума по u^U на управлении u*(t) Обозначения здесь те же, чго и о лемме 2.8. Доказательство. Пусть £j — £0 — оптимальное время перехода траектории Xj (t) из точки х0 на гладкое многообразие Sj. Не ограничивая общности рассуждений, * . ,* * можно предполагать, что все tj различны: t0 < < ... < tjy Введем преобразование времени ([38]) £->т, определяе¬ мое ограниченной измеримой функцией у(т) такой, что и условиям трансверсальности (2.72) N т О Определим на \tj—\, tj] однозначную обратную функцию т (t) inf т, t=^=t(j), т (t (/)) — /. t( x)~t Положим <(т)=< = {те [/ — 1, я|г(т) > 0}, (у (■)) = [/- 1, Я\^} (у (•)). 1 < /
158 УСЛОВИЯ ОПТИМАЛЬНОСТИ (гл i Сформулируем теперь задачу min max &~j{yj{'), v('))> (2.68') Kj<N .7 где (У)( •), v (•)) = j v (т) II (y} (x), w* (t)) dx, 0 У) W = v (t) f (yj (r), w* (x)), iIj (0) = x0; (2Ш) yj(j)eaSj, (2.70') и w*(t) — а*(г*(т)) почти всюду на (и* (*)), £*(т) определяется по (2.75) при некоторой функции у*(т), вид которой будет указан позднее. Справедливы утверждения ([22, 50]), устанавливаю¬ щие связь между задачами (2.68—70) и (2.68'—70'). а) Пусть xj(t)1 u(t) удовлетворяют уравнению (2.69). Если Уз(т) =Xj{t{т)) и w(т) =.u(t(т)) почти всюду 3 (г) на U Т\} (у(*))> то ^j(t) — решение уравнения i=i •JT У) (т) = V (т) /'(!/; (т), и; (т)). (2.76) Наоборот, если iv{ т) ограничена, измерима на N U (i;(«)), принимает значения из U и уДт) — ре- 1=1 шение уравнения (2.76), то u{t) = и;(т(£)) —допусти¬ мое управление в задаче (2.68—70) и Xj(t) =.у;(x(t)) есть решение уравнения (2.69), соответствующее управ¬ лению u(t). б) Если х* (£) =(#* (0» • * • ix*n (*))» и* (0 ~■ оптималь¬ ный процесс в задаче (2.68—70), то для произвольной функции у*(т), удовлетворяющей условиям (2.75), функ- ции у* (т) = (i/i(t),..., y*N (т)), V* (т), где у* (т) = = х* (t* (т)), 1 ^ < 7V, дают решение задачи (2.68'—70'). Запишем в задаче (2.68'—70') для у*(т), у*(т) не¬ обходимые условия из леммы 2.8. Это можно сделать, так как правые части уравнений (2.69') и подинтегральные функции в функционалах &~j(yj(9), &>(•)) линейны по управлениям и и далее будет показано, что 0 ^ и < const.
ПРИНЦИП МАКСИМУМА 159 Получим, что найдутся числа Хо > 0, pj > 0, Pj=.0 при i&f, = l и функции срj (т), удовлетворяющие на отрезках [/—1, /] уравнениям •iL ф, (т) = _ V* (Т) ^/'((/* (т), io*(T))jr9y(T) + + ^ /о (vj (т). (т)) • (т), Ф/'Л L ГГ, (т/7 (Л) такие, что (2. [/‘ Ы W, и>* (т)) фг (т) — Х0р4/(; (у,* (х), ц;* (т))], и— для почти всех / — 1 < т < / и всех i; > Q. Из последнего неравенства следует, что S. [/* (У* (т). W* W) <Pi (Т) - - V* (т) < О — hPifoiyUt), w* (т))1 ' = 0 при почти всех Т(= Т[}) (V* (•)); (2.77) <!0 при ночти всех те (»*(.))• (2.78) Введем теперь функции г|)/(£) = ф/(т*(г)), где т*(£) — обратная к £*(т) функция. В силу сформулированных вы¬ ше утверждений ^(t) удовлетворяют уравнениям (2.71,72). Если в условии (2.77) сделать замену т на t, то по¬ лучим Hj(Xо, г|)(0, **(f), u*{t), р) = 0 (2.79) для почти всех i, £j] таких, что t =. £*(т) , у*(т) > 0. Уточним теперь вид функций у*(т), ш*(т) на мно¬ жествах TIP (*>(•))» в выборе которых остался большой произвол,
160 условна ОПТИМАЛЬНОСТИ [ГЛ. 2 Пусть Т\i7) — совершенные нигде не плотные мно- t* — t* жества положительных мер |r(r(iJ)) такие, что - ^ s = const, 1 < / < N. Положим при те [/ — 1, /] Ч ~ **-i _ _ тс». - ^ 1 , у*(т) = Кг17)) ’ [о, теГ(2У) = [/-1,/]\Г'Л Множество точек t таких, что теГ? счетно, поэтому неравенство (2.78) выполняется для почти всех [^7—i, tj]. Построим теперь функцию и;*(т) на Множество Т{2 состоит из счетного числа интерва¬ лов. Пусть б один из них. Разобьем б на счетное число замкнутых слева непересекающихся интервалов б = |J 6Z. i В множестве U выберем счетное всюду плотное множест¬ во точек {ut} е С/. Положим w*(t) =,uh если те б*. Ес¬ ли записать теперь неравенство (2.78) дляте 6Z с: б cz Т{£\ то получим 2 [/Чу*(т). щ) 'ViW—hPifb&ifr), щ)]< 0- i=j Отсюда следует, что 2 [f (у* (т)> и) (т) — hPifo (y*i W. и)] < 0 (2.80) i=j для всех u^U и почти всех те Т£\ поскольку у\{т), Ф<(т) постоянны на б, а щ плотны в U. Перейдем теперь в последнем неравенстве к переменной t в результате чего получим Я,(Хо, ^(0, **(*)» и> Р) ^ 0 (2.81) для всех и и всех t, для которых множество — имеет ненулевую меру. Действи¬ тельно, если [х(W> 0, то для некоторого те W\^вы¬ полняется неравенство (2.80), поскольку (2.80) может
§ 12] ПРИНЦИП МАКСИМУМА 161 быть нарушено лишь на множестве меры нуль. Упомя¬ нутое множество точек t всюду плотно. В самом деле, возьмем любой отрезок из [t*— 1, £*]. Полный прообраз этого отрезка при отображении £*(т) также есть отрезок Д. Но ТК2] всюду плотно, поэтому оно пересекается с Д, причем это пересечение содержит некоторый интервал б. Пусть б, t = t*{т), тогда б ci и ц (W[3)) > 0, т. е. получим, что в произвольном отрезке содержится точка из множества {t | ц(рУ<(-')) > 0). Поскольку в левой ча¬ сти неравенства (2.81) стоит непрерывная функция от t, то (2.81) выполняется для всех t е [^*—ь ^j]* Учитывая ограниченность управления u*(t) и непрерывность по (t, и) функции //ДАо, 'ф(^), x*(t), и, р), из (2.79,81) выводим принцип максимума (2.73,74). Теорема дока¬ зана. ■ Следствие. Пусть и* (•) — управление, реализую¬ щее минимакс min max tj = max t] u(-)eD l<j<iV l<j<iV tj>to времени перехода системы (2.69) из начального состоя¬ ния Xj(t0) = а в конечное состояние Ъ\ Xj (t) соответ¬ ствующие траектории, причем x*(t*) = b, 1</<ЛГ и t0 ^ t\ tN. Тогда существуют не все равньье нулю решения систем ^ (*) = - [i f' (*> W’ «*(f))]4 (0 (2.82) такие, что функции IIj (v|5 (t), x* (t), u) = 2 f (x*j (0, (0 (2-83) при почти всех [**—i, tj] достигают максимума no и et/ на управлении u*(t), неотрицательны и постоянны. Это утверждение вытекает из теоремы, если в задаче (2.68—70) принять /j = 1, Sj = b, 1 ^ / < N* 6. Ц. В. Федоров
162 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Рассмотрим теперь вопрос о том, как применять прин¬ цип максимума в минимаксных задачах оптимального управления. пР им ер 1. Вернемся к примеру из § 7 о торможе¬ нии тела, когда коэффициент трения у принимает одно из двух возможных значений yi, г/2, у\ < г/2. Как было показано, в классе программных управле¬ ний не существует решения задачи поиска оптимального гарантированного быстродействия. Поэтому введем иное множество управлений, рассчитанных на информацию о неопределенном факторе у yi) = v(t) + где 0 < u(t) < Р, 0 < wj(t) < Q, / = 1, 2 — «корректи¬ ровка». Тогда в соответствии с (1.53) уравнения движения объекта запишутся в виде Xj(t) =A(yj)Xj(t) + C[v(t) +u>,(*)]; '(2.84) x} (®) = (ai> аг)> A {yj) = — i/jjI С — ^,j. Легко понять, что решение задачи о переводе объекта (2.84) в начало координат существует, если величина «корректировки» Q достаточно велика. Действительно, множество D допустимых управлений в таком случае не¬ пусто, так как можно положить v(t) = 0 и соответству¬ ющим образом подобрать wj(t) при каждом / = 1, 2 (см. пример из § 7). Сопряженная к (2.84) система (2.82) есть ^(«) = —AT(yj)-фДО, pi откуда получаем, что ф] (t) = pj; гр| (t) =-у- + 3 Хе1' — монотонные функции; р], р|, / = 1, 2 —некоторые постоянные. Применим принцип максимума (2.82,83). Обозначим: tj — оптимальный момент попадания системы (2.84) при у = Уз в начало координат; т} — момент включения «тормоза» wj(t); 0 — момент включения «тормоза» i>(0« ,2 Р[ У] р 1- х
ПРИНЦИП МАКСИМУМА 163 Рассмотрим два возможных случая. 1) t\ ^ ^2. При этом в соответствии с необходимыми условиями функция Понтрягина есть Hi = — bl>i (0 + tl (ol v — ^1(0 wl— 'I’i (t)w2 при *e[0, tj] H2 = — ipl (t) (V + w2) при t <= [tlt y. Очевидно, г|5?(£), ф!(О — монотонно убывающие функ¬ ции, так как переключение управлений v(t), wj(t) имеет смысл производить с 0 на Р и Q соответственно, а не на¬ оборот. Оптимальными могут быть лишь управления вида 6*
1G4 УСЛОВИЯ ОПТИМАЛЬНОСТИ (ГЛ. 2 2) t2^t\. Рассуждая, как и выше, приходим к управ¬ лениям Случай, изображенный на рис. 2.2, а), является три¬ виальным. Он соответствует оптимальному по быстро¬ действию управлению системой (2.84) при / = 1 с «тор¬ мозом» Q и системой при / = 2 с «тормозом» Р + Q. Другими словами, задача распадается на две независи¬ мые задачи быстродействия, решение которых указано в примере § 7. Вариант на рис. 2.2, б) также исследуется просто. Вид управления wl(t) однозначно определяет моменты времени 0 и ^ из условия попадания системы (2.84) при / = 1 в начале координат. В свою очередь при извест¬ ных 0, t\ находятся моменты £2, Т2. Осталось рассмотреть наиболее интересные случаи на рис. 2.2, в) и рис. 2.3, когда управления есть ступенча¬ тые функции вида v w Q |—| Р Г; -8 ^ ^2 '7' h Рис. 2.3. О, v(t) + w'(t) = Q, Q, т,< t< P + Q, 0; 0, 0<f<6; P, 0 < < < x2; P + Q, t>+, где Tj <0 ^ T2.
ПРИНЦИП МАКСИМУМА 165 Обозначим через = (я], х2) точку, в которую по¬ падает траектория системы (2.84) при фиксированном / в момент 0 под действием указанных управлений v(t) + -f- wj(t). Интегрируя систему (2.84), получаем следую¬ щие условия попадания траекторий в начало координат в моменты tj, j = 1, 2: = r+2 [i _ + L±Q {tl - 0); !/f J ' 2/i X\ = — S/i 4 = a2e-^e; 4 = - £s. e-^9 +fll +-£l; У 2 У 2 ^ # I ~2\ з/2(0—Ti) _ — I/iT1# “TT + l'F"r*r 2 ’ _ _p_ , /_P_ + -2\ ey2(0-T2) = _ [! _ е^((г-х2)Т 2/2 V 2/2 J 2/2 L 1_ /_£_ 2/2 2/2 + + 4 = _ ^ в-** + «1 + -Ss-; Vi y{ 2/i 2/1 + Щ ey’(l^ (0 - t2) + ^ + + fi + 4 = *±2[1 _ + £±2 (f, _ T2). у 2 2/j 2/2 2/2 Выразим отсюда т;, ^ как функцию от момента 0 вклю¬ чения «тормоза» Р. Получим /j(PQ+a!_Ul!/j-P,j)/Q + _ p/iM)] = 0> (P + Q)t, — a1y, — a2 — P-Q . т; = - ; 7—1,2. (2.85) Первое из уравнений (2.85) имеет не более двух кор¬ ней при tj'> 0. Нас интересуют минимальные корни ^(0), удовлетворяющие неравенствам O<ti(0) <0<т2(0) < min{fi (0), taW).
УСЛОВИЯ ОПТИМАЛЬНОСТИ 1ГЛ. 2 Эти корни легко находятся, например, методом деления достаточно большого отрезка времени. Следовательно, можно табулировать функции ^(0) и, вычислив min max {^(0), е>о определить оптимальное управление. Таким образом, в рассмотренном примере смысл при¬ менения принципа максимума заключается в сведении задачи оптимального управления к конечшшерной мини¬ максной задаче. 2. Извлечем теперь ряд следствий из теоремы 2.9. Поставим задачу нахождения процесса u*(t)), определенного на отрезке [t0, реализующего min maxF(f1, #(•), и(-)ч //), (2.Р6) *(0,u(.) i/еУ tt>lo U F (h, *(.), и (•), У) = J /о (* (0. « (0, У) dt (2.87) при ограничениях x(t) = f(x(l), u(t)), (2.88) x(t0) — х0, a:(/i)e,S, '(2.89) u(t)^U при почти всех [г0, Л], £7 — произвольное множество из Ет. От задачи (2.55—58) задача (2.86—89) отличается тем, что неопределенный фактор у принимает бесконеч¬ ное число значений из множества Y и уравнение движе¬ ния (2.88) от у не зависит. Справедлива Теорема 2.10. Пусть (**(•), «*(•)) —оптималь¬ ный процесс в задаче (2.86—89), определенный на от¬ резке [f0, «*]. Предположим, что /, /непре- рывны по совокупности аргументов и Y — компакт ев¬ клидова пространства. Тогда существуют функция 'ф(г), число Ко ^ 0, не равные одновременно нулю, и ее роят* постная мера ц, сосредоточенная на множестве Y* = ArgmaxFpi, **(•)> и* ('). у)• уеу
ПРИНЦИП МАКСИМУМА 167 удовлетворяющие уравнению ♦(*) = - [i 1 V' и* (0)]Г•’р(0 + ^0 j i /о (** (t), у* u*(t), у) dp (у) (2.90) с условием i>(*i)-Ln (**(*;)) такие, что функция Н(К х* ({), w) = /(z*(0. “)’Ф(0 — — К J /о (х* (*), и, у) Ф (у) -(2.91) у* при почти всех [£0, £i] достигает равного нулю мак¬ симума по u^U на управлении u*(t). Наметим схему доказательства этой теоремы. От за¬ дачи (2.86—89) перейдем к дискретной минимаксной задаче, вводя {i/f} — е-сеть на множестве Г. Для диск¬ ретной задачи из теоремы 2.9 вытекает принцип макси¬ мума типа (2.90,91), если ввести функцию = = 2^(0, где i|fj(t) удовлетворяют уравнениям (2.71, j 72), и меру р8, задаваемую числами Pj. Переходя в необходимых условиях оптимальности к пределу по е-^0 с использованием теоремы Хелли ([53]) о слабой сходимости мер, получаем теорему 2.10. ■ Если в задаче (2.86—89) множество Y = {у\, ... у*} — конечно, правый конец x(t\) траектории сво¬ боден и время t\ — фиксировано, то полагая А,о = 1 (см. замечание к лемме 2.8) получим, что сопряженная систе¬ ма (2.90) примет вид *(<) = “ [i f (** (0. “• (9)]т - Ч> (*) + + 2 Piifo(x*(t).u*(t),yj), (2.92) VjeY* а функция Понтрягина есть x*(t), и, р) = f(x*(t), u)-${t) — — 2 Pjfo (x* (t), u, y}), (2.93) VjeY*
168 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 где числа 0, 2 Pj = 1 задают вероятностную меру j на множестве У*. Принципу максимума в этом случае можно придать иную форму. Лемма 2.9. Необходимые условия в форме принци¬ па максимума в рассматриваемой задаче эквивалентны тому, что при почти всех t\]na оптимальном уп¬ равлении и* {t) выполняется равенство ([9]) и min max f \Ж (\|3j (0» х* (О» и* (Of Uj) — iKoeD У}еу* £ -50 (if; (0. ** (О, и, у,)] с (О Л = 0 (2.94) для любой непрерывной на [£0, fi] функции с(1)> 0. Здесь ъ w = - [i / u* (t))]r • ^(<) + + ■£■/»(** (0, »*(*), г/;); tM*i) = 0, z* (0. У)) = /(** (0.м),гМ*) —/о (ж* Z) — множество допустимых управлений. Доказательство. Применяя ^-замену времени (см. доказательство теоремы 2.9), можно, не ограничи¬ вая общности рассуждений, считать /, /о линейными по управлению и на выпуклом компакте U с= Z?r. Пусть выполняется равенство (2.94). Используя тео¬ рему о существовании седловой точки у билинейной функции ([16], стр. 192), получаем и 0 = min max f 2 Р}\% (Ь (О. ** (0. “* (г), У}) ~ u(.)enpj>o to j 2pj=1 j -ЗДИ0, ** (0, u, yj)]e{t) dt = и = max f min 2 Pj W (fy (0> x* (0> u* (0> J/j) ~ Рр*° /о ueC/ J
пгйнцйп максимума 1П9 h — 36 (^у (0, я* (О, и, г/7*)] с (0 df = f min 2 Pj [5$ (^ (О» £oMel7 i ж* (О, и* (О» Уу) — ^ (0. ** (О» и, г/у)] с (t) dt, где {pj} реализуют последний максимин в этих равен¬ ствах и задают некоторую меру на У*. Если ввести те¬ перь функцию ^(0 = 1iPhi (О. О то, учитывая произвольность функции <?(£)> 0, придем к принципу максимума из теоремы 2.10, так как функция (2.93) представляется в виде я (г|> (<), я* (t), и, р) = 2 (ty (0, ** (0. и. рО э и я|э(£) удовлетворяет системе (2.92). Обратно, пусть справедлив принцип максимума. Тог¬ да, представив решение системы (2.92) в виде 2 Pjtyj (0> j будем иметь при любой непрерывной функции с(£)^0 и и, р)] с (t) dt = min 2 Р)\ № (Ь (0> х* (0> w* (0. РО — u(-)(=D j /о — Ж (fy (0, я* (0» и» JO)lс (О ^ ^ min max i W (0* u(.)sD »;eY* £ **(<). «** (0, JO)-*0M0. **(0. «. P;)M0 В то же время очевидно, что ti min max f Щ (ty; (0. x* (0. u* (0. У}) — n(-)6D ?/;eY* ,0 Следовательно, эквивалентность принципа максимума и условия (2.94) доказана. ■
170 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Предположим, теперь, что в задаче (2.55—58) целе¬ вые множества Ss совпадают со всем пространством Еп, tl = t2 = ...=tN и время t\ — фиксировано. Тогда урав¬ нения движения имеют вид Xj(t) = u(t)), xj(to)=Xo, (2.95)v а целевой функционал есть fi «(.)), u(t))dt. (2.96) to Такая задача сводится к (2.86—89) с конечным множе¬ ством У, если ввести расширенное фазовое пространство переменных х = (х\, ..., xN). Применяя теорему 2.10, получаем принцип максимума в следующем виде ([25]). Пусть (х*(9), и*(*)), х*(-) = (х* (♦),-.x*N(-)) опти¬ мальный процесс в задаче отыскания min max 9” (м (•), j) при условиях (2.95,96). Тогда существуют решения уравнений Ь (*) = ~[if3 № (0. и* (0)]г (*) + + i /в (*; СО. «* (0); Ь (ii) = о (2.97) и числа pj^O, 2 Pj = 1. где is/ / = Arg max (и* (•), /) к; <n такие, что функция Я(ф(0,х* (0, и, р) = “ ,?/ PJ [/У (xi (0. w) • (0 - /о (0, «)] (2.98) достигает максимума по u^U на управлении u*(t) при почти всех t е [£0, £i]. Условие максимума функции (2.98) позволяет найти функцию и = и(х(*), -ф^), р, t). Подставив ее в урав¬ нения (2.95,97), получим краевую задачу из 2Nn урав¬ нений с 2Nn краевыми условиями относительно функций
ПРИНЦИП МАКСИМУМА 171 £(•)» ^(*)» содержащую N параметров р — (р{, *.pN), Pi = 0, i ^ Обозначим через Ф (/?, /) значение целевого функцио¬ нала (2.96), определяемое решением данной краевой за¬ дачи. Для того, чтобы найти решение минимаксной задачи следует перебрать все подмножества множества {1, .iV} и, выбрав подмножество {&i, ..ц}, найти все решения (если они существуют) системы и Ф(р, t,) = Ф(р, ih); I = 1,..., к — 1; 2 Pi, = 1 относительно р. При этом следует отобрать лишь такие решения, для которых р> О, Ф(р, 4)>ф(р, /') при j<£{iu ik}. Найденные решения р определяют набор управлений, удовлетворяющих принципу максимума, среди которых и содержится оптимальное. Такой метод решения эффективен, когда число зна¬ чений неопределенного фактора N невелико. Проиллюст¬ рируем это на примере. Пример 2. Имеется технологический процесс, про¬ изводящий некоторый продукт. Функционирование про¬ цесса описывается на отрезке [0, £i] уравнением Xj(t) — [а,и'(*)' — хДО)=Яо, ’(2.99) где производственные коэффициенты (фондоотдача и ко¬ эффициент амортизации), принимающие по два воз¬ можных значения ajf ft; / = 1, 2, являются для опе¬ рирующей стороны, заинтересованной в накоплении про¬ дукта, неопределенными факторами. Управлением слу¬ жит u(t), 0 < u(t) < 1 — часть продукта, вновь направ¬ ляемая в производство в момент t. Гарантированное количество накопленного продукта равно min ^ (и (•), /), (2.100) j=l»2 где {и(-), /) = j [1 — u{t)]xj(t, ц (•)) dt. о Требуется найти управление и* (.) = arg max min (и (•), /). U( •) j=1,2
172 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. 2 Очевидно, если min (aj — рj) ^ 0, то оптимально уп¬ равление u*(t)= 0. Если а2 > ai, Р2 < Рь ai > Pi, то минимум (2.100) всегда достигается при / = 1 и опти¬ мальное управление может быть получено обычным принципом максимума для задач без неопределенных факторов: Итак, наибольший интерес представляет случай, когда «j > Pj, / = 1, 2, а2 > ai, Р2 > Pi. Применим принцип максимума (2.97,98). Сопряжен¬ ная к (2.99) система (2.97) имеет вид где р\ + Р2 = 1, Ри Р2^0 и многоточием обозначены члены, не зависящие от и. Производная сомножителя при и в силу (2.99) и со¬ пряженной системы отрицательна. Следовательно, опти¬ мальное управление имеет не более одного переключения 3 = 1,2 где %(0 = — [ад*(0—М— [1—и(0]; ^(«1)=0; /=1,2, а функция (2.98)" Я = u[pia\xi(t) 'i\(t)—p\(X\Xi(t) + .+ P2U2X2(t) ^2(t)—p2a2X2{t)] + . . ., При этом всть функция момента переключения £*.
ПРИНЦИП МАКСИМУМА 173 Рассмотрим три возможных случая. a) pi = l, т. е. 1) <0~(и*(-),2). Тогда б) pi = 0, т. е. ^(и*(«), 1) 2). Аналогично в) #"(w*(*), 1) =ЗГ(ц*(*), 2) = &~з- При этом мо¬ мент переключения t3 определяется как корень на от¬ резке [0, t\] уравнения Тогда легко видеть, что решение поставленной задачи дается управлением Мы рассмотрели некоторые минимаксные задачи оп¬ тимального управления, в которых принцип максимума получается с помощью метода штрафных функций. Од¬ нако возможности метода этим не исчерпываются. Можно подобным образом анализировать и более сложные зада¬ чи оптимального управления, например, задачу поиска максимума минимакса ([101]), задачу с фазовыми огра¬ ничениями ([96]) и т. д. оптимальный момент переключения чае, и гарантированный результат равен 1 (ах—Pi тге Pi Пусть максимум тах(^“*, .^"2, 2Г\) достигается на &~1*.
ГЛАВА 3 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ МИНИМАКСНЫХ ЗАДАЧ § 13. Неустойчивые задачи исследования операций В исследовании операций целесообразно различать два типа задач. К первому типу относятся задачи поис¬ ка наилучшего гарантированного результата операций и любой е-оптималыюй последовательности стратегий опе¬ рирующей стороны. В случае задач математического программирования это означает, что требуется найти эк¬ стремальное значение целевой функции и какую-нибудь стратегию, реализующую оптимум с заданной точностью е. Подобного рода задачи соответствуют полностью сфор¬ мированным моделям операций ([16]), в которых инте¬ ресы оперирующей стороны заключаются в увеличении значения критерия эффективности и, следовательно, лю¬ бые стратегии, гарантирующие одинаковый результат, эквивалентны, В действительности любая модель операции может считаться полностью сформированной (замкнутой) лишь приближенно. Поэтому следует выделить задачи второго типа, где наряду с наилучшим гарантированным резуль¬ татом нужно находить оптимальные стратегии опериру¬ ющей стороны, либо достаточно хорошее приближение к ним. К таким задачам, как правило, приводят непол¬ ностью сформированные модели, где в критерии учтены не все стремления оперирующей стороны. Неединствен¬ ность оптёкальной стратегии можно использовать для того, чтобы удовлетворить каким-либо дополнительным условиям. Таким образом, задача поиска оптимальных стратегий естественно возникает, когда рассматриваемая операция является частью другой более широкой «гло* бальной» операции. Задачи вычисления гарантированного результата и оптимальной стратегии в математическом плане различ¬ ны.
$ 13) НЕУСТОЙЧИВЫЕ ЗАДАЧИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ 175 Рассмотрим, к примеру, антагонистическую игру с критерием F(х, у), в которой первый игрок использует стратегии вида х = х(у), рассчитанные на полную и точ¬ ную информацию о выборе противника у. Наилучший гарантированный результат первого игрока, очевидно, равен minmaxF(:r, у) и требует для своего определения у X решения минимаксной задачи. В то же время поиск аб¬ солютно-оптимальной стратегии я* = я*(г/) сводится к решению задачи параметрического программирования, так как х* (у) = arg max F (х, у) при всех у. Отметим, что X наилучший гарантированный результат в игре известен заранее, а конкретное значение функции #*(•) определя¬ ется лишь после того как станет известным у. Минимаксные задачи часто бывают неустойчивыми, т. е. сколь угодно малым изменениям входных данных (функций, задающих критерий и ограничения) могут соответствовать большие изменения гарантированного результата и оптимальной стратегии. В частности, е-опти- мальная последовательность стратегий не обязательно сходится к множеству оптимальных стратегий. В первом случае назовем задачу неустойчивой по результату, во втором — по стратегии. Для решения неустойчивых по стратегии (некоррект¬ ных) экстремальных задач А. Н. Тихоновым разработан метод регуляризации, который можно интерпретировать как «замыкание» исходной неполностью сформированной модели операции. Изложение метода регуляризации и других методов решения некорректных задач дано в {87] (см. также [3, 40, 41, 52, 64]). В настоящей главе рассматриваются, в основном, не¬ устойчивые задачи поиска наилучшего гарантированного результата операции. При этом подразумевается, что мо¬ дель операции, соответствующая задаче, полностью сфор¬ мирована. Различные формулировки максиминных задач можно представлять как описания операторов, которые функ¬ циям, задающим критерий эффективности и ограниче¬ ния, ставят в соответствие величину искомого максимина. Пусть некоторый класс максиминных задач представ¬ лен оператором 9Л(*), определенным на множестве ЗГ метрического пространства вектор-функций / с метри¬
17В АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 кой р. Конкретной функции /о е соответствует задача (&о) с результатом 9Л(/о). Определение. Задача (910) называется устойчивой по результату, если для любого г > 0 найдется б > О такое, что оператор 9Й(*) определен при всех / : р (/, /о) ^ ^ 6 w для таких / справедливо неравенство |SR(/)-SR(/o)| <е. Устойчивость задачи означает непрерывность 2Я(*) в точке /о, когда множество совпадает со всем простран¬ ством. Если нарушается требование непрерывности 9Й(*) или существует последовательность {/„} -*■ /о, на элемен¬ тах которой ЗИ(*) не определен, то задача (91о) называет¬ ся неустойчивой. Приведем примеры неустойчивых по результату задач. 1) Задача линейного программирования. Пусть задача (3t0) состоит в максимизации F(x) = Х\ + Х2 на многограннике А = {(хи #2) |0 < х\ ^ 1, — х2 + х\ ^ 0, 2х\—2хч < 0}. Легко проверить, что max F (х) = 2 и достигается в точ- хеА т е х* = (1, 1) . Построим задачу F (я)-►max, *еАе где Ае = {(ЯЬ Х2) |0 ^ ХХ < 1, ЛГ2—’(1 — е>лг! < 0, 2(1-\-&)х\—2х2 < 0}. Здесь при любом е > 0 х\ — arg max F (х) = (0, 0) и max F (х) = 0. Следовательно, задача (Я0) неустойчива по хе=Ае результату (как, впрочем, и по стратегии). Если положить Аг= {{хи ж2) |0 < ^1 < 1, х2—х\<0, 2х{—2х2+г ^ 0}, то при е > 0 А е = 0 — пустое множество и результат sup F (я) не определен (обычно доопределяют К€=0
§ 13] НЕУСТОЙЧИВЫЕ ЗАДАЧИ ИССЛЕДОВАНИЯ ОПЕРАЦИЙ 177 sup F (х) = — оо). Это опять-таки говорит о том, что задача неустойчива. Подобное «вырождение» многогранника условий ти¬ пично для задач линейного программирования большой размерности с линейно зависимыми ограничениями. 2) Максимин со связанными переменны¬ ми. Пусть F(x, у) = у, <р(я, у) =з О, Х = Y == [0, 1]. Определим результат SR (F, Ф) = sup inf F (х, у) = О, хех уеВ(х) где В(х) = {.^7|ф(х, у)> 0). Введем метрику в пространстве функций, определенных на XXY Р(/ъ /2) = sup \fi(x,y) — fi(x,y)\. (3.1) Положим фе(^, у) = г (у—1). Очевидно, р(ср, ф,) —ев метрике (3.1), однако для любого е > 0 |ая (Л ф)—ая(^в Фе) | =1, поскольку SK(F, фе) = 1. Задача неустойчива. Этот же пример говорит о том, что неустойчивыми являются лексикографические задачи оптимизации и, в частности, задача поиска нормального решения ([87]). В том случае, когда ф (S, y) = G (х, у) — max G {х, г), zeY функционал ЯЯ(Р, ф) определяет наилучший гарантиро¬ ванный результат первого игрока в игре двух лиц с пе¬ редачей информации, где Fy G — функции выигрыша иг¬ роков. Отсюда становится ясным влияние точности опи¬ сания интересов партнера на гарантированный результат. Неточное знание критериев может привести к тому, что оперирующая сторона из-за неустойчивости задачи оты¬ скания максимина с ограничениями будет необоснованно рассчитывать на более высокое по сравнению с истинным вычисленное значение гарантированного результата. В то же время на практике (например, в экономических моде¬ лях) интересы партнеров задаются приближенно.
173 АППРОКСИМАЦИЯ Й РЕГУЛЯРИЗАЦИЙ [ГЛ. 3 Неустойчивость перечисленных задач не позволяет, вообще говоря, применять к ним непосредственно неко¬ торые численные методы решения, так как при числен¬ ной реализации того или иного метода значения функций входных данных неизбежно вычисляются с погрешностью. Вопросы, рассматриваемые в данной главе, являются частью общей проблемы аппроксимации моделей и ус¬ тойчивости оптимизационных задач ([16, 87]). Сначала строится метод регуляризации, позволяющий получить приближение к результату (но не к оптимальной стра¬ тегии), и исследуется вопрос об аппроксимации мноя^еств стратегий. Затем для задач линейного программирования это построение объединяется с методом регуляризации А. Н. Тихонова. Смысл предлагаемого метода регуляризации заключа¬ ется в эамене исходной задачи с ограничениями задачей с «ослабленными» ограничениями того же типа. Приме¬ нительно к поиску наилучшего гарантированного резуль¬ тата первого игрока в игре двух лиц с заданным поряд¬ ком ходов такой подход означает менее жесткую регла¬ ментацию поведения второго игрока. А именно, ему разрешается выбирать не только те стратегии, которые доставляют максимум его критерия эффективности, но и е-оптимальные. Подобное представление о поведении второго игрока кажется довольно естественным. § 14. О многоэтапном способе решения лексикографических задач с конечным множеством стратегий Напомним (см. § 4), что лексикографической задачей оптимизации называется задача отыскания величины Мп= max /„(я) (3.2) eceXn—1 и точки х* — arg max fn (я), *ех„_ 4 где X*i =Arg max /г (я), 1<г<м, Х*й = X. (3.3) XEzX j j
О МНОГОЭТАПНОМ СПОСОБЕ РЕШЕНИЯ 179 Наряду с рассмотренным в § 4 одноэтапным способом решения задачи может оказаться целесообразным в слу¬ чае конечного множества X применение многоэтапного способа, когда по рекуррентным формулам (3.3) опреде¬ ляется Хп-1?а затем решается задача оптимизации (3.2). Однако прямая реализация такого метода практически невозможна, так как из-за ошибок вычислений нельзя точно найти все множества X*. Для того, чтобы преодолеть возникающие трудности, введем «уступки» at- по каждому из частных критериев fi и рассмотрим задачу отыскания il/,l(an-1)= тах /Л*)» хеХ*__ *) где х\ (а*) = 1я<= ХГ-! (а1-1) I/,(*)> max fi(y)—аЛ | uex-_ ,(“*-!) J* (3.4) а* = (аХ)..at); аг>0, — 1, Х*0 = Х. Введение «уступок» на практике правомерно, когда возможна компенсация убытков по одному критерию за счет некоторого выигрыша по другому критерию ([7]). Ясно, что для достаточно малых а* > 0 из-за конеч¬ ности множества X будут верны равенства = XI («1, а2) = х*2; (а71-1) = (3.5) и поэтому Мп (а” *) = Мп• Пусть теперь известно, что значения функций fi(x) вычисляются с ошибками е<, в результате чего появля¬ ются функции fi (я) такие, что р(/*,/гг)^е* в метри¬ ке (3.1). Заметим, что задача вычисления величины (3.2) устойчива относительно возмущений fn{x) в метрике (3.1) f поэтому мы их в дальнейшем не рассматриваем.
180 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Обозначим Мсп 1(an'“1)= _max /Л*), (ап~*) где Х\ (аг) определяются из (3.4) по функциям fi (х). Следующее утверждение показывает как нужно со¬ гласовать точность вычислений е71-1 и параметр an_1 для определения величины (3.2). ^ Лемма 3.1. Для всех достаточно малых a71"1, en_I таких, что a77-1—2sn-1 > 0 справедливо равенство МТ' (а"-1) = Ml Доказательство проведем__по индукции. Пусть для достаточно малых а\ е*, a*— 2eh ^ 0, k<Cn— 1 до¬ казано, что хГ(а*) = Х1 0 <i</c. Выберем достаточно малые aft+i, efc+i. Тогда Af+V (a,1+1) с X'h+l (0^0, aft+1 + 2eft+1). h Действительно, если x <= xf^ (aA+l), то в силу ин¬ дуктивного предположения 0 < ctft-и + /л+11 И — max /А+У (у) < vex|ft(aft) < aft+i -f /ft+1 (ж) - max fh+l (у) + 2ekH. v<?x*, Аналогично показывается, что Xl+l (О^.-Д), «ft+i - 2еА+1) с X|+t‘ (aft+1) h при выполнении условия ah+\ — 2&k+\ > 0. Из доказанных включений и (3.5) вытекает, что X(aft+1) = Таким образом, (ап~1) = Xn_i для достаточно малых an-1, en_1, an_1—2en_1 ^ 0, что и до¬ казывает утверждение леммы. ■
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ ПОИСКА МАКСИМИНА 181 Заметим, что если я6 1 (an *) = arg max fn {х) _ _ x&Xn — i (ап—*) при достаточно малых ап~\ гп~\ а”-1—2еп-1 ^ 0, то эта же стратегия является оптимальной в задаче (3.2,3), т. е. M°n = fn (х6,1-1 (а"-1)). Обоснование изложенного метода регуляризации лек¬ сикографической задачи существенно опиралось на ко¬ нечность множества X. Распространение его на общий случай более громоздко ([63]) и, по-видимому, целесо¬ образно для тех классов лексикографических задач, для которых существуют методы отыскания всех точек опти- мумов (3.3). § 15. Регуляризация задачи поиска максимина со связанными переменными 1. Рассмотрим неустойчивую задачу отыскания вели¬ чины uQ = sup min F (.г, у), (3.6) зеех у^В{х) где В(х)= {js у|ф(х, у)> 0} ф 0. Сопоставим (3.6) задачу поиска i/a = sup min F(x,y), (3.7) л'сеа у^ва(х) Ва(х)= {ye у) + а> 0}, а > 0. Всюду далее будем предполагать, что функции F, ф не- прерывны на произведении компактов X и У. Установим связь между задачами (3.6,7). Лемма 3.2. При любом х^Х в метрике Хаусдорфа lim Ва (х) = Вао (х), а0 > 0. Доказательство. Очевидно, Вао (х) с= Ва (х) при a^ao. В то же время по лемме 1.3 отображение Ва(х) при фиксированном х^Х полунепрерывно сверху по а, что влечет непрерывность в метрике Хаусдорфа. ■
182 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ (ГЛ. 3 Заметим, что сходимость Ва (х) -> Вао (х) при а -► а0 +, вообще говоря, не является равномерной по х. Теорема 3.1 [62]. I) lim иа = и0; се—>0~Г II) Пусть последовательность точек {х(aft) | ah ->■ 0} такова, что min F (.х (aft), у) > uaf1 — eh y^Bah(x(ah)) причем lim eh = 0. fc-»oo Тогда {x{ah)\k=\, 2, ...} задает последовательность г-оптимальных стратегий в задаче (3.6), г. е. lim min F (х (aA), у) — uQ. h-*°o Доказательство. I) При фиксированном x^X в силу леммы 3.2 последовательность {minF(a;, у)} У^вак{х) сходится, монотонно не убывая, к min F(x,y), когда 1/GiJ (х) aft\0. Из леммы 1.10 теперь вытекает сходимость и^—> Uq. II) Пусть {a:(aft)} удовлетворяет условию теоремы. Тогда из доказанного выше имеем min F (я(аА), у) = sup min F (х (ak), у) ^ yeb(x(aft)) а>0 i/бВа(*(аА)) > min ^ (* (а*), у) > иа — ек. Полученное неравенство и означает е-оптимальность {я(а*)}* так какыад->1г0, при к-+оо, щ Предположим теперь, что вычисления значений функ¬ ций F, ф ведутся с погрешностью е ^ 0, т. е. вместо за¬ дачи (3.6) фактически решается аналогичная задача с некоторыми функциями Fe, фе такими, что в метрике (3.1) р {F,Ft)^e, р(ф, фе),<8. Обозначим = sup inf Fe (x, у), x<=X yeBa(x) где Вга(х) = {i/e У|ф,'(ж, г/)+а>0}.
I 16] РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ ИОЙСКА МАКСИЫЙНА 183 Теорема 3.2 ([62])', I) lim иа=щ. а,е^0+ а—£>0 II) Если замыкание множества В°а(х) = {г/е У|ф(аг, г/) + а> 0}, а>0 при каждом х^Х совпадает с Ва(х), то lim ul = иа, £—^О-J¬ r. е. задача (3.7) устойчива относительно ошибок вычис¬ ления функций F, ф. Доказательство. I) Задача (3.6) устойчива относительно ошибок вычисления функции F ([16], стр. 235). Поэтому, не ограничивая общности рассужде¬ ний, можно считать Fe = F. Так как р(ф, фе) < е в метрике (3.1), то ф, + <ф+а+8 и, следовательно, 5а (я) S Ва+е(я). Анало¬ гично устанавливается, что при а — е > 0 множества Ва-г{х) непусты При всех Х^Х И Sa-eWQia(^)- Из полученных включений следует, что величина и% опреде¬ лена корректно (5а (х) Ф 0), когда г, причем Ua+г ^ ^ Иа—е« Первая часть теоремы доказана, поскольку lim Ha+e = lim ыа—e = Щ a,e->0-b a-»0 a>£>0 в силу теоремы 3.1. II) Покажем, что в условиях теоремы 5а (х) стре¬ мится при 8-^0 к 5а(х) в метрике Хаусдорфа равномер¬ но по х е X. Докажем сначала, что для любого б > 0 найдется во такое, что В% (х) с: F6 (5a (я)) при всех же!, если е < ео. Здесь V6(A) — 6-окрестность множест¬ ва А. Допустим противное. Тогда существует б > 0 та¬ кое, что для любого е/>0 найдутся точки Xh yi Уi е (В» (xl)\Vъ (5а (£*)))• Пусть lim е/= 0, тогда в си- 1->оо _ лу компактности X, У можно считать, что х\->х, yi-*~y при о? По предположению и фа (xh Vi)< ^ 0, где Ф?=фе + а.
184 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Так как функция фа(я, г/)=ф(я, у)+а непрерывна и lim р (фер Фа) = 0, то фа (х, у) = 0. 1-> оо По условию теоремы существует точка уо ^ V6/2{у) та¬ кая, что фа(я, уо) > 0. Из непрерывности Фа(.г, |у) выте¬ кает неравенство фа(я*, Уо)_> 0 при всех достаточно боль¬ ших Z, т. е. yo^Ba{xi) и у е Fe/2(fia(^))- Учитывая, что lim = у получаем противоречие с предположением. {-> оо Аналогично доказывается обратное включение Z?a (я) ^ ^Уб(5а(^))- И3 равномерной непрерывности F на XX У следует, что lim inf F (х, у) = min F(x,y) равно- Е^0+ убВ®(*) У*В<*Х) мерно относительно х, т. е. справедливо и второе утверж¬ дение теоремы. ■ Отметим, что условие II) теоремы 3.2 обеспечивает существование оптимальной стратегии ха = arg max min F (x, у). кех уе.ва(х) Теоремы* 3.1,2 приближенно сводят определение максимина со связанными переменными (3.6) к задаче (3.7) и указывают соотношение между параметром регу¬ ляризации а и погрешностью вычислений е, которое обеспечивает сходимость вычисленного наилучшего га¬ рантированного результата к истинному. Данный метод регуляризации естественно назвать методом аппроксима¬ ции многозначного отображения. Рассмотрим игру (F, G, X, У) двух лиц с передачей информации, где F — критерий первого игрока, G — кри¬ терий эффективности второго, заданные на XX У. Наи¬ лучший гарантированный результат первого игрока в та¬ кой игре, как показано во введении, равен величине (3.6), если положить Ф (я, У) = G (х, у) — max G (х, z). zey Пусть функция выигрыша второго игрока известна пер¬ вому с погрешностью ei в метрике (3.1), т. е. задан кри¬ терий GBi (х, у): р (G, 6%)^ Имея такую информацию, первый игрок может пытаться найти приближение к ис¬
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ ПОИСКА МАКСИМИНА 185 тинному наилучшему гарантированному результату в иг¬ ре (F, Gy Ху У), используя один из методов отыскания максимина (3.6)'—метод штрафов из § 6. Предварительно ограничения G(x, y)—G(x, z)> О для всех z^Yy определяющие множество В(х) оптималь¬ ных ответов второго игрока, свертываются в одно огра¬ ничение путем интегрирования Ве‘ (х) — |(/ <= Y | /гЕ, (.г, (/) == j [min (0; (7Ci (х, у) — -Gtl(x, 2))]2Йц(г)<о}. (3.8) Предположим, что вычисление интеграла в (3.8) ве¬ дется с некоторой погрешностью ег, Другими словами, ограничение (3.8) заменяется на hi* (х9 у) ^ 0, где p(^et> hl2{) ^е2. Тогда формальное применение метода штрафных функций из § 6 может дать ошибочное зна¬ чение наилучшего гарантированного результата первого игрока, поскольку задача (3.6) неустойчива. Учитывая сказанное, необходимо предварительно ре- гуляризовать игру (F, G, X, У) методом теоремы 3.2. Для этого вместо ограничения h\]{xy у) 0 следует ввес¬ ти ограничение а— (х, у) ^0 и согласовать параметр регуляризации а с точностью знания интересов партнера ei и точностью интегрирования 82. Очевидно, р (hy hi*) ^ е2 + О (е,). Из теоремы 3.2 вы¬ текает, что при a, 8i, 82->0+ для сходимости вычислен¬ ного результата к истинному достаточно, чтобы выполня¬ лись условия: 8i = о (а), ег/а < 1 — б, где б > 0 — фик¬ сированное число. Утверждение теоремы 3.2 позволяет сделать выводы об устойчивости ряда задач. 1) Если F{Xy у) непрерывна вместе с то вычисление производной в точке х по направлению g, |g| = 1 функции minF(.r, у) сводится к отысканию уег min [4zF(Xy у)у Д yeY(x) \ох ) где Y (х) = Arg min F (Ху у) ([34]), У<ЕУ
186- АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Данная задача является неустойчивой лексикографи¬ ческой задачей. 2) Игра <F, Ga, X, У), где .6?а(я, у) = min{G(.r, у); maxG(£, z) — а}, а > 0 и G(x, у) вогнутая по у на вы- цуклом У функция, устойчива по результату. 3) Задача вычисления таxF(x)y А = {х <= Х\ц(х)> эсеА > 0} устойчива в метрике (3.1), когда F, ф непрерывны на выпуклом компакте X, ф —вогнутая функция и вы¬ полнено условие Слейтера, Если же условие Слейтера не выполнено, то, как сле¬ дует из теоремы 3.1, можно от исходной задачи с любой степенью точности перейти к устойчивой задаче, регуляр¬ ной по Слейтеру. 2. Изложенный метод регуляризации и метод штраф¬ ных функций реализует одну и ту же идею «ослабления» ограничений исходной задачи. Регуляризация игры двух лиц с передачей информа¬ ции содержательно представляет собой введение вместо «идеального» второго игрока, точно оптимизирующего свой выигрыш, игрока «реального», который не реагирует на малые a-изменения выигрыша, и потому максимизи¬ рует свой платеж лишь с точностью до а. Для лексико¬ графической задачи оптимизации предложенный метод регуляризации означает введение а-уступок по каждому из критериев. Между регуляризацией и методом штрафных функций существует и тесная формальная связь. А именно, с по¬ мощью теорем, относящихся к методу регуляризации, можно получить теоремы о сходимости метода штрафов. Наоборот, метод штрафных функций позволяет иногда регуляризовать задачу, сделать ее устойчивой ([85]). Отметим, что и сама конструкция сглаживающего функ¬ ционала в методе регуляризации А. Н. Тихонова ([87]) сходна с конструкцией функций штрафа. Более детально связь регуляризации и метода штраф¬ ных функций проследим на примере задачи поиска мак¬ симина со связанными переменными (3.6). По теореме 1.3 о сходимости метода штрафных функ¬ ций в задаче (3.6) имеем и0 = lim max min 3 (х, у, С), (3.9) с-*оо х<ах */<еу
5 151 РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ ПОИСКА МАКСПМПИА 18? где 2’(х, у, С) = F{x, !/)-{-с [min (0; cp(z, у))]2, а по теореме 3.1 иа = soр min F (х, у) а —и0. (3.10) x<=zX у^Ва(х) Покажем, что соотношение (3.9) может быть выведено из (3.10). Действительно, в силу ограниченности F для любого a Z> 0 найдется Со > 0 такое, что при С ^ Со В (С, х)^ Ва(х) для псех хеХ, где В (С, х) = Arg min 2 (х} у, С). 2/еУ Из определения 2 (х, у, С) и множества В (С, х) полу¬ чаем и0 ^ max min 9? (х, у, С) = max min 2 (х, у, С) ^ дех ^еУ х^х у^В(С,х) ^snp min F(^, у) ^5 sup min F(x,y) = na x^X i/GB(C,x) x&X y^Ba(x) при С > C0, т. е. из (3.10) следует (3.9). Более того, можно и а в соотношении (3.10) рассмат¬ ривать как параметр, определяющий штраф при перехо¬ де от задачи с ограничениями (3.6) к параметрическому семейству задач без ограничений. Для доказательства введем при а > 0 непрерывную монотонную функцию Ха(') на числовой оси такую, что Лемма 3.3. Пусть F(x, у) < 0 при всех (х, у)^ еХХУ. Тогда lim max пппФа (х, у) = и0, */еУ *де фа(х, у) = F(x, у) У))>
188 АППРОКСИМАЦИЯ Й РЕГУЛЯРИЗАЦИЯ [ГЛ. з Доказательство. Так как п F(x, У) < 0, то для любого х ^ X min F (х, у) ^ min Фа (.г, у) ^ min F (х, у) у&Ва(х) yeY у€:Ва(х) и поэтому max ттФа {х, у) ^ г/0. хеА ?уеУ Доказываемое утверждение теперь следует из (3.10). ■ Так как предположение об отрицательности F не ог¬ раничивает общности утверждения (можно вычесть из F достаточно большое число), то таким образом показано, что теорема о сходимости метода штрафов в задаче (3.6) может быть довольно просто получена из теоремы 3.1. Введение функции %«(*) может рассматриваться как иная параметризация задачи с ограничениями. Отметим, что и применение метода штрафных функ¬ ций иногда помогает регуляризовать задачу, т. е. сделать ее устойчивой. Так, для игры (F, G, X, У) задача вычисления наи¬ лучшего гарантированного результата первого игрока (3.6) при Ф y) = G (х, У) — max G (х, z) неустойчива. Применим метод штрафных функций и перейдем при¬ ближенно к задаче отыскания max min IF (х, у) + С [max G (х, z) — G (х, у)]\ = xtEX y<=Y{ [z^Y J/ = max min {F (x, y) + C[G (x, z) — G (x, y)]}. x<EX y^Y 2€У Последняя задача (максимип с распадающимися пере¬ менными), очевидно, уже устойчива по результату. С дру¬ гим примером такого рода мы встретимся в § 23 при ре¬ шении линейных игр двух лиц, § 16. Аппроксимация множеств стратегий сеточными множествами Рассмотрим вопрос об аппроксимации задачи отыска¬ ния максимина со связанными переменными задачей с конечными множествами стратегий.
§ 1б] АППРОКСИМАЦИЯ СЕТОЧНЫМИ МНОЖЕСТВАМИ 189 Такая аппроксимация может явиться промежуточным этапом решения задачи отыскания максимина со связан¬ ными переменными. Например, решение игры двух лиц с передачей информации становится более простым, если множество стратегий второго игрока конечно (см. § 24); для вычисления дискретного максимина шах min F t{x) х i с распадающимися переменными также разработаны спе¬ циальные методы ([34]). Пусть Xh — конечная сетка на метрическом компакте X такая, что расстояние между любой точкой х^Х и ближайшей к ней точкой сетки Xh меньше ft. В силу компактности X такая сеть существует для любого ft > 0. Обозначим vh = шах min F (х, у), аеАд i/GB(x) где отображение В{•) такое же, как и в задаче (3.6), F, ф — непрерывные на XX Y функции. JT о м м а 3.4. lim vh = и0 = sup min F (x, у). h->0 XEJl yE:B{X) Доказательство. По лемме 1.3 из непрерывности функций F, ф вытекает, что функция минимума 1{Х) = min F(x, у) */€=«(*) полунепрерывна снизу, т. е. lim / (х) ^ / (^х) для любой x-*xt ТОЧКИ Х\ е X. Зафиксируем теперь произвольное е >> 0. По опреде¬ лению верхней грани существует х\^Х такое, что f(x{) > uq — е/2. В силу полунепрерывности / на X су¬ ществует Vh(x\)—ft-окрестность точки х\ такая, что f(x)>f(xi)—е/2 для всех x^Vh{x\). Построим теперь сетку Xh на X. Тогда в Vh(x\) най¬ дется хотя бы одна точка из ХЛ. Следовательно, vh = max / (х) ^ / (^i) — е/2 ^ и0 — е. x^Xh С другой стороны, очевидно, Xh^X и vh^ и0 при любом h 0. Полученные неравенства и доказывают лемму. ■
190 аппроксимация й Регуляризация [ГЛ. з Как видно, при доказательстве использовалась полу- непрерывность снизу функции минимума. Утверждение, аналогичное лемме 3.4, в задаче отыскания шах max F (х, у) я=Х у^В(х) уже неверно. Действительно, в силу леммы 1.5, можно так подобрать F, ф, что / (х) = max F (х, у) У<=В{Х) будет любой наперед заданный полунепрерывной сверху функцией, Это говорит о том, что игровые задачи с добро¬ желательным вторым игроком (см. Введение), вообще го¬ воря, не допускают непосредственной сеточной аппрокси¬ мации множества стратегий первого игрока. Вопрос об аппроксимации в задаче (3.6) множества У сеточными множествами Yh, которые вводятся аналогич¬ но Xhl является более сложным. Ясно, что значение min F (х, у) при каждом фикси¬ рованном х^Х может отличаться на конечную величину от min F{x,y), где Bh(x) = {у е Ул|ф(ж, у)> 0}, ка- y^Bh( х) ким бы малым ни взять шаг сетки h. Пример. Пусть # —фиксировано, У = [0, 2л], F(xi !/)=*/, ф(я, У) =—sin У, При этом min F (х, у) = = F(x, 0) = 0. Рассмотрим сетку Yh = \kh | к = 1, 2,... Для того чтобы аппроксимация множества У была осуществимой, нужно предварительно регуляризовать задачу (3.6) по методу § 15. Обозначим у(=В(х) Видно, что точка 0 не принадлежит Yh и lim min F (х, у) = min у = л. y<=:Bh(X) У^[л,2п) и* = sup min F(x,y), хех уея^х) Ва (х) = {/ е Уд | Ф (х, /) + сс> 0). *) М ““ целая часть числа а.
АППРОКСИМАЦИЯ СЕТОЧНЫМИ МНОЖЕСТВАМИ 191 Теорема 3.3 ([62]). Пусть F(x, у), ф(я, у) непре¬ рывны на произведении метрических компактов X, У, Тогда lim Ua = и0, oc,/i—>0-j~ а—6(/i)>0 где 8(h) = max max | .q.(x\ у) — ф (x, z) |, j/,rey P (У,2)<Л p — метрика в У. Доказательство. Пусть т (/г) = max max | F (я, i/) — F (х, г) |. sex y.zeY p(y,z)</i Так как F и ф равномерно непрерывны на XXУ, то 8(h), т(й)->0 при Множество В^(х), когда a — 6(A) > 0, непусто при любом х е X. Действительно, так как В(х)ф0, то существует точка i/i такая, что ф(я» */i)^0- Пусть ^ — ближайшая к z/i точка сетки У*. Тогда Ф (х, '/Л) + « > ф (х, ух) — б (h) + а, т. е. yh<=Ba(x). Очевидно, если yh^Ba(x),xo и yh ^ Ва(х); таким обра¬ зом, Ba(x)cz Ва(х). Далее, если у <= Ва-ьт(х), то ф(х, у) + a — 6(h)> О, По определению Yh существует yh е Yh\ Р (У, yh)^h, <p(z, у)< ф(ж, yh)+ 6(h), поэтому ф (х, yh) + а > ф (х, у) + а — б (h) > О, т.е. yh<=Bha(x). Следовательно, Ba^(h) (х) принадлежит А-окрестности множества В^(х). Из доказанных включений вытекает, что
192 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ (ГЛ. 3 Если /г, так, чтобы a —5(A) ^ О, то из теоремы 3.1 следует Ua->u0. ш Замечания. 1) Пусть стратегия xk такова, что min F(xh, y)^uah — e(aft, hh), y^B'ak(-4) где a*, hk-+ 0, ak—6(hk)>0 при k-+oo и lime (a*, hk)= 0. h-^oo Тогда {xh}h=i задает последовательность е-оптималь- ных стратегий в задаче (3.6). Действительно, из включений Ва_ m(x)^vh{Bha (х)) и леммы 3,2 получаем min F (xh, у) — lim min F (xh, у) = ыеВ(*А) aH\h)>o ueB“-6№)(**) = sup min F(xh,y)> min F (xh, у)> > min F{xh,y)—T{hk)'^uakll — x(hh)—&{ah,hk). V^Bah{xk) hu Утверждение доказано, так как по теореме 3.3 Иак-+и0 при hk, aA->0, aA —6(Aft)^0 и, кроме того, е(аА, Аа), т(Аа)->0. 2) Теорема 3.3 верна и для игры (F, G, X, У) двух лиц с передачей информации с платежами F(x, у), G(.r, i/). В этом случае В (х) = Arg max G (х, у), l/€=Y (ж) = S Ул I G (аг, у) — max G(x,z) + а > 0|. Доказательство проводится так же как в теореме 3.3 п основано на вк^очениях В&{х)с Ba+6(h) (#)» Ва—6(h) («г) ?== где б (А) = max max | G (х, у) — G (х, z) |. яех v,z&y p(v.z)<^
§ 16] АППРОКСИМАЦИЯ СЕТОЧНЫМИ МНОЖЕСТВАМИ 193 Это позволяет аппроксимировать игру двух лиц с пере¬ дачей информации биматричной игрой с любой степенью точности. Действительно, в силу леммы 3.4 можно перей¬ ти к конечному множеству стратегий первого игрока и по теореме 3.3 — к конечному множеству стратегий вто¬ рого игрока. Для формирования искомой биматричной игры остается определить функцию выигрыша второго игрока как G (х\ yh) = — 2 [min (0; G (xh, /) — G (xh, zh) + a)]2. Легко видеть, что В& (xh) =Arg max G (xh, z). ze=Yh В некоторых случаях задачу поиска максимина со связанными переменными можно аппроксимировать диск¬ ретной и без введения регуляризирующего параметра а Следующая теорема заключает в себе достаточные усло¬ вия, когда такая аппроксимация возможна. Теорема 3.4. Пусть F, ср непрерывны на произве¬ дении компактов X, Y метрических пространств, и. при любом х^Х замыкание множества В°(х)= {г/еУ|ф(х, у) > 0} совпадает с В(х). Тогда lim Uq = uQ. h-* o+ Любая предельная точка х* последовательности {xhh\hh -+ —>0}, для которой min F (x*k' у) u°h — lim = °> ЯЛ(*) = {У^Уа|ф(;г, y)>0}, является оптимальной стратегией в задаче (3.6), т. е. min F{x*,y)=ut. уев(*») 7 4 В. В. Федоров
194 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Доказательство, Покажем, что в метрике Хаус¬ дорфа lim Bh (х) =•= В (х) h-+ 0+ равномерно по х е X. В силу непрерывности ф(я, у) для достаточно малых h, 0 ф Bh(x) ^ BHh) (х), где е(А)->0 при 0. По лем¬ мам 3.2 и 1.2,4 lim B4h) (х) = В (х) равномерно по х, л-*о поэтому и lim В (x)czB (х) равномерно по х^Х. Л.—>0 Докажем обратное включение. При каждом х е X внут¬ ренность intfi(x) множества В (х) не пуста. Обозначим через г(х) наибольший радиус шара, вписанного в В(х). Так как отображение #(•) по лемме 1.4 непрерывно в метрике Хаусдорфа, то функция г(х) также непрерывна и достигает min г (я) = г (х0). Но intB(xo) ¥= 0, поэтому х&Х г(хо) ^ 8 > 0. Зафиксируем любое б > 0 и построим сеть Yh, где h <С ho = min(e, б). Тогда в любом шаре радиуса h0 най¬ дется точка из Yh. Пусть Yh(x) = Yh[\B(x). По постро¬ ению Yh(x)=£ 0 для всех х^Х ж Yh(x)^B(x)^Vh(Yh(x)), где Vh(Yk(x))—h-окрестность множества Yh(x). Учиты¬ вая, что Bh(x)= Yh(x) и ft <6, получим отсюда В(х)Е ^ Уо (Вн(х)). Таким образом, lim Bh (х) = В (х) равно- /г—>0 мерно по х ^ X. Из непрерывности F(x, у) и доказанной равномерной сходимости отображений следует, что lim min F (х, z) = min F (x, z) /i-»0 z^B^(x) reB(x) равномерно по x, и lim uo = *V По лемме 1.1 достигается максимум max min F (x, y). xci yeB(x) Пусть последовательность | 0 J удовлетворяет
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 195 условию теоремы и lim xhh= **■ Тогда Zi¬ min F(x*,z) = lim min F(xh.,z\. так как min F (x, у) — непрерывная функция от я и yeB(x) ^ min F (х, z) ► min F (х, z) равномерно по xt Отсюда ze=Bh(x) zeB(ac) вытекает неравенство min F(x*, lim(wjft — eft) = u0, y^B(x*) oo 4 7 т. e. x*— оптимальная стратегия в задаче (3.6). Теоре¬ ма доказана, ■ Отметим, что результаты §§ 15, 16 легко обобщаются на задачу отыскания кратного максимина со связанными переменными ([94]). § 17. Регуляризация задачи линейного программирования В предыдущих параграфах мы рассмотрели минимакс¬ ные задачи на компактных множествах стратегий. Разу¬ меется, все выводы справедливы и для частного случая — задачи математического программирования на компакте метрического пространства. Однако далеко не всегда в оптимизации предположение о компактности выполняет¬ ся. В частности, множество допустимых планов задач линейного программирования может быть неограничен¬ ным в евклидовом пространстве. Поэтому представляется целесообразным специально рассмотреть вопрос об устой¬ чивости задач линейного программирования и, используя их специфику, получить более сильные результаты. Введем две задачи линейного программирования. Задача (91). Найти и0 = sup (с, х) на множестве xeD D — {х \ (аи х) — Ь{ > 0, 1 < i < тп) и оптимальную стратегию xo^Dy реализующую ио = (о, Д?о) • Всюду в дальнейшем предполагается, что задача (91) разрешима, т, е. значение щ линейной формы конечно и 7а*
196 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ 1ГД. 3 существует хотя бы одна оптимальная стратегия. Опти¬ мальные стратегии будем называть также решениями задачи, в отличие от результата щ. Задача (91а)- Найти Иа = sup (с8, х), где *ег>а Da = \х | (я®, х) — 6* -f- ос ^ 0, 1 ^ ^ т), а также точку x&^Da, для которой я8 = {с , ха). Здесь с, я<, я®, х — векторы я-мерного евклидова пространства Еп, скобки обозначают скалярное произве¬ дение, е, а>0. Число 8 будем интерпретировать как погрешность определения параметров задачи (Щ и счи¬ тать, что |с — с8|<1е, \аь — я8|<1е, |b| —Ь?|^е, £ = 1,...,яг. Определение устойчивости из § 13 в данном случае вы¬ глядит следующим образом. Задача ($1) называется устойчивой по результату, ес- • ли найдется ео > 0 такое, что при всех е < ео задача (Яо) разрешима и для любой последовательности {е*} -> Сь -+-0 существует предел limw0 = и0. h-* оо В соответствии с [87] введем также Определение. Задача (91) называется устойчивой по решению, если для любого 6 > О найдется ео > О та¬ кое, что при всех е < ео задача ($о) разрешима и мно¬ жество ее решений Р% принадлежит 8-окрестности P-множества решений задачи (91). Установим связь между устойчивостью задачи линей¬ ного программирования по результату и по решению. Лемма 3.5. Устойчивая (по решению или по ре¬ зультату) задача линейного программирования имеет ог¬ раниченное множество решений. Доказательство. Если бы множество решений Р задачи (Я) было неограниченным, то оно содержало бы луч z[t) =. Xq 4“ tl, t ^ 0, где xq eP, a I — некоторое направление. При этом (с> x{t) I— uq для всех t> 0, т4 е. (с, I) = 0. Возьмем те-
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 197 перь в задаче (?to) вектор с8 таким, чтобы (с8, I) > О и положим ^ Ь\=Ьг. Тогда (се, хо -\-tl)-*~oo при оо для любого 8 > 0, т. е. задача (Sto) имеет неог¬ раниченную на допустимом множестве Dq =* D целевую функцию. Это противоречит как устойчивости по резуль¬ тату, так и устойчивости по решению. ■ Теорема 3.5 [95], Для устойчивости задачи (Я) по результату необходимо и достаточно, чтобы она была устойчивой по решению. Доказательство. 1) Достаточность. Зададим про¬ извольное со > 0. Пусть 8о таково, что при всех е < е0 е со точки ^принадлежат ^ с | ^ ~~ окрестности множест¬ ва Р и, кроме того, 80^ min ( 2 шах \ х\ )* Заметим, что \ хеР ) по лемме 3,5 величина т = max | х | конечна. Тогда хеР I и0 — 4| <| (с8, *0 —*о)| + I (с* — с. х) I < '<|се|-р(4, ^) + г-|с — се\, где р (4, Р)—расстояние от точки 4 до множества Р, равное 14 — I * а г — радиус шара, содержащего Р, Так как р (4, Р) < 2(| и |с‘| «S \с\ + \с — с’| ^ |с| + 1 в силу выбора ео, то | и0 — щ | ^ со при е < ео, что и до- называет устойчивость по результату. 2) Необходимость. Как показано в лемме 3.5, мно¬ жество решений задачи (St) есть многогранник (т. е, ограниченное многогранное можество) Р = {х \ (с, х) > мо, х)—Ъ{> 0, 1 < i < m]. Далее, многогранник Ра, f = {хI (с, х) < и0 — р, (ah x)—bt + а > 0, 1 < г < т} ограничен при любых а, р > 0 ([102], стр. 115). Выбе- В, В. Федоров
198 АППРОКСИМАЦИЯ Й РЕГУЛЯРИЗАЦИЯ (ЙЛ. 3 рем такое ео, что при всех е ^ е0 и всех ie Ва в I (с6, х) — (с, х) — и\ + и0 | < б (е), | (af, х) — Ь\— (аь х) + bt | < 6 (е), 1 < i < т, где б(е) < min (а/2, р/2). Это всегда возможно, так как задача (21) устойчива по результату. Теперь легко видеть, что РoQ-#a/2,p/2> т. е. множест¬ во Ро ограничено. Действительно, возьмем любую точку х^Ва,е \Ва/2, Р/2. Тогда (се, х) — и® < (с, х) — и0 + б (е) < О, (а?, х) - Ъ\ < (в„ х) - Ь, + б (е) < - а/2 + б (е) < О, т. е. х не может быть решепием задачи (31о). Итак, точки 4 при е ^ ео принадлежат компакту Ва/2, р/2. Пусть хо — предельная точка последовательности U()/? I 0]. Не ограничивая общности, можно считать, 1 т-т что lim ^o = х0. При этом k-*oo I (с, Х0) — Ц„| ^ < I (с6*, х\к — х0) I + I (с4 — с, х0) | + | и0 — и0к I < < | С4 [ I xlh — х0 | + | 2Г0 |-| Ск — С | + | и0 — ulk |. Правая часть неравенства по предположению стремится к ^^yлю, когда к -> сю. Следовательно, (с, #0) = и0. Кроме того, ясно, что хо — допустимая точка в задаче (31), по¬ скольку многогранники Ва, р при а, сходятся в метрике Хаусдорфа к многограннику решений Р (лем¬ ма 3.2). Теорема доказана, и Таким образом, для задач линейного программирова¬ ния устойчивость по результату эквивалентна устойчи¬ вости по решению, причем ограниченность множества решений необходима для устойчивости. В § 13 был приве¬ ден пример неустойчивой задачи линейного программиро¬ вания с ограниченным множеством решений. Следова¬ тельно, ограниченность множества Р не является доста¬ точным условием устойчивости задачи. Достаточные условия устойчивости, состоящие в ог¬ раниченности множеств решений прямой и двойственной
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 103 задач, сформулированы в [24]. Однако их проверка, как правило, затруднительна за исключением ряда простых задач. Кроме того, для большого числа задач линейного программирования множество решений двойственной за¬ дачи неограничено. Поэтому целесообразно регуляризовать исходную за¬ дачу (21) по методу § 15. Обоснование же метода в слу¬ чае задач линейного программирования должно учиты¬ вать возможную неограниченность множества Z), задавае¬ мого линейными неравенствами. Введем в рассмотрение вместо задачи (21) задачу (8Й) при а > 0. Нашей ближайшей целью будет дока¬ зательство сходимости Ua-+uQ при сс—>■ 0 и устойчивости задачи (2(a)- Лемма 3.6. Если задача (2() разрешима, то задача (2(a) также имеет решение при любом а ^ 0, причем 0 ^ иа — и0 ^ О (а) *). Доказательство. Множество Da лежит в -^-ок¬ рестности множества D, где р >* 0 — такая константа, что min [(ah х) — ftf] < — Р-р(*, Ь), при x<£D (см. лемму 1.12 из § 3). Действительно, пусть жеО0а\А. Тогда — а<С <^min [(ah х) — bt] < 0 и, следовательно, р(я, D) < а/р. Ki<m ^ _ Далее, для любой точки х ^ Da\D существует х — гра¬ ничная точка множества D, удаленная от х на расстоя¬ ние не более а/р. Поэтому _ (с, х)^(с, я) + М *Р(^ ^о+ М а/р. Следовательно, линейная форма (с, х) ограничена па Da и существует решение задачи (2(a)- Из полученного неравенства вытекает оценка Ua ^ "4" I с | * а/Р> *) Напомним, что О(а) = С-а, где С >- 0 — некоторая коя* станта. * 76'
200 АППРОКСИМАЦИЯ II РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 0 \ что вместе с очевидным неравенством иа^и0 и доказы¬ вает лемму, в Следствие. Если а > 0, Да^О ^ Да, то Ыа+да — О (Да) < иа < иа—да + О (Да). Теперь можно показать, что задача (Sta) при а >* 0 обладает свойством устойчивости. Теорема 3.6 [95], I) Пусть множество решений задачи (St) ограничено. Тогда задача (Sta) устойчива при любом а > 0, т. е. lim ига = и^. Б—> 0 И) Если множество D допустимых планов задачи (St) ограничено, то lim Ua = W0. | Uu — u0 I < О (a). a->0 e=o( a) Доказательство. I) Так как множество решений задачи (St) ограничено, то ограничено и множество ре¬ шений задачи при любом а>0, описываемое си¬ стемой неравенств Ра — [х I (с, х) > Ua, (at, х) — bt > — a, 1 < i < m\y где Ua ^ Uq. Отсюда следует ограниченность множества £a+6,3 = \х 1 (С, X) — Ua^ — р; (at, х) — bt + ос + б ^ 0, 1 ^ i ^ пг]; a, Р, 6 > 0. Зафиксируем некоторые р, а и зададим произвольное число со, 0 < со <С min (а/4, р/4). Будем рассматривать далее только те е > 0, для которых множество Ва.со = [х\ (с8, х) — Ua > — со; (а8, х) — Ъ\ + а> 0, 1 ^ i ^ тп} непусто и лежит в многограннике _§_• Это выполнено для достаточно малых е<е0 в силу ограниченности Ва+ь, р и непустоты Ва, 0. Тогда Ва,аЯ^В з для всех достаточно малых е > 0. Действительно, существует го такое, что при
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 201 6 < ео и всех х е Ва+6 р |(af, х) — b\ — (at, х) + Ьг|<7, 1<г<т, | (с8, х) — (с, х) | ^ со/2, где Y5^®- И) Если теперь х е 5а,сь то 0 < {а\, х) — Ъ\ + a < (аь х) — bt + а + со, 1 < i <; т\ 0 ^ (с 1 •О — иа "Ь ® ^ (с> х) — Ua -)—2~ ® > что означает ieS 3 . ОС+О),— (1) Из доказанного включения вытекает неравенство 0 ^ / \\ / е \ со в со Исч-ш^ max (с, .г) > max , я) — = иа х^Ва,(й х^Ва,(й Далее, при достаточно малых у множество В^ ^ ю не¬ пусто, так как lim Ua—y == и» по следствию к лемме 3.6 и Y-»0 множество Ва jw имеет внутренние точки. Пусть ео таково, что неравенства (3.11) выполняются с допустимым у ^ со. Тогда, если х е В со, то а-v,— 0 < (аь х) — Ъь + а — у < (а|, х) — + а, 1 < i < яг; 0 < (с, х) — ui + < (с8, я) — и« + ®, т. е. В е, Q 5а,о). а-7.Т Отсюда следует неравенство ui = max (с8, а:) > На-v тр. х^ва,(о Итак, при достаточно малых е < ео получена оценка 0 СО ^ Е ^ 0 , СО иа—у ^ Ua ^ иа^-(в ч 2~*
202 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Учитывая произвольность о, ч < оо и следствие из лем¬ мы 3.6, находим, что lim и\ = иа. е-»0 II) Пусть г>0 —радиус шара S, содержащего внут¬ ри себя ограниченное множество D^. Для любого а > 0 существует ео такое, что при е < е0 множество Оа-нг+пв содержится в S. Это вытекает из оценок I {flu х) — Ъх — (ai? х) + bt | ^ < I ai — a?i I-1 x I + I bi — b\ I < e ('‘ + 1) для всех i— 1, ?т. При таком выборе ео и а— (г+1)е^ ^0, очевидно, Оа-(г+1)8С^СС“+(г+1)е. Так как | (с®, х) — (с, х) | ^ гг для всех х ^5, е < е0, то из полученных включений следует неравенство —(г-|-1)е — 6Г ^ Ua ^ Ua+(r-\-l)e + £г• Отсюда по лемме 3.6 получаем, что lim Ua — и0 а->0 а—(г+1)е>0 п при этом \ul — и0 |<0(а). Поскольку оценка г радиуса шара, содержащего мно¬ жество Д заранее неизвестна, то для сходимости игак и о достаточно согласования параметров е/ат+0 при а-^0. Теорема доказана, я Рассмотренный способ регуляризации задачи (91) не выводит из класса задач линейного программирования вида (9(a)- При этом решения задач (91а) могут оказа¬ ться недопустимыми точками для исходной задачи. Од- пако для многих практических задач при достаточно ма¬ лых а это обстоятельство несущественно. Рассмотрим теперь проблему получения устойчивого приближения к решению задачи (91) в том случае, когда входные данные задаются с погрешностью. Следуя [87], поставим задачу поиска «нормального» решения задачи (91), т. е. решения, ближайшего к фикси¬
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 203 рованной точке х. В экономике нормальное решение мож¬ но интерпретировать, например, как оптимальный план наименее уклоняющийся от первоначального плана х и, следовательно, минимизирующий затраты на перестройку производства. Введение нового критерия — затрат на перестройку — замыкает исходную неполностью сформулированную мо¬ дель операции, соответствующую задаче (91). В матема¬ тическом плане, как уже отмечалось в § 4, задача поиска нормального решения есть лексикографическая задача оптимизации с двумя критериями. Одноэтапный способ решения данной задачи из § 4 в сочетании с регуляри¬ зацией по результату задачи (§1) позволяет строить по¬ следовательности планов, сходящихся к нормальному решению. Следующая теорема объединяет метод регуляризации А. II. Тихонова задач линейного программирования ([87, 88]) с методом регуляризации по результату, из¬ ложенным выше. Теорема 3.7 [95]. Пусть множество допустимых планов задачи (21) ограничено и последовательности (U, {5,}, {afc}, {е*}, W таковы, что <oh -> 0, Sk оо, ^->0, 0, Th afe->0 k h (3.12) при /с -> ОО. Тогда последовательность {я*}, определяемая усло¬ вием где Фв(х, r,5) = |*-*|J + + Т ' 2[min (°; (аи *)— Ъ\ + а)]2 — S-(ce, X), г=1 сходится к нормальному относительно х решению за¬ дачи (21).
204 АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Доказательство. Введем функционал Та(*, т, S) = Феа(х, Т, S) + S-ul Нетрудно убедиться, что при достаточно больших к ниж¬ няя грань (х, Tk, Sh) по х^Еп достигается внутри некоторого шара Q, так как Ч'а (х, Т, S) сильно выпук¬ лый функционал ([3]), а множество допустимых планов задачи (Я) ограничено. Далее все рассуждения будем проводить внутри этого шара. В силу утверждения II) теоремы 3.6 и условий (3.12) имеем | ¥** (х, Th, Sh) - (х, Th, Sh) | < О (Thah) (3.13) / равномерно no x ^ Q, По теореме 1.6 из § 4 (см. (1.21)) последователь¬ ность минимумов [min XF|] {х, Tk, £ft)l сходится к г= \х<=Еп J = min | х — х |2 = р2 (я, Р)— расстоянию от нормального эсер ^2 решения задачи (§1) до точки я, когда тр—>-0, Sh-+- оо. 1 ft Следовательно и lim min (х, Th, Sk) = г, так как Thak-+-0. Поскольку функционал (xt Th, Sh) сильно вы¬ пуклый, отличается при фиксированном к отФlk(x, Th, Sh) ah на постоянную Shuk, не влияющую на реализацию ми- ft нимума по х^Еп, и o)ft-^0, то для доказательства тео¬ ремы достаточно показать, что последовательность x*h = arg min ¥*А (x, Th, Sh) *£n h сходится к нормальному решению задачи (St)'. Зафиксируем произвольное 8>0 и точку z, не ле¬ жащую в б-окрестности множества P-решений задачи (91),
РЕГУЛЯРИЗАЦИЯ ЗАДАЧИ 205 Из (3.13) вытекает, что Тк, Sk) > У°о (z, Th> Sk) - О (Thah) > > | г — х\2 + Th max [min(0; {аи z) — 6г)]2 + 1<г<?п + Sh [u0 — (с, г)] — О (Ткак). Множество Р описывается системой неравенств (с, х) > и0, (аи х) — bi > 0, 1 т. Если z & Р и Uq — (с, z)> шах Imin (0; (аи z) — bi) |, то по 1<г<т j лемме 1.12 К1 (2> Sh)^\z-x |2 + О (Sh р (г, Р) - Ткак) -> оо при р (2, Р) > б > 0, к-^ оо. Если же шах |min(0; (я{, 2)— bi) | ^ uq — (с, 2), то по той же лемме Ккк (z- Tk,Sh)>\z-x\2 + 0 (Тк р2 (г, Р) - . — Sftp(z, Р)) — 0(Tkak)^- 00, (3.14) когда к-+оо и выполняются условия (3.12). Это показы¬ вает, что минимум (•£, Tk, Sh) достигается в любой аА наперед заданной окрестности Р для достаточно больших к. Следовательно, все предельные точки последователь¬ ности {xh\ принадлежат Р. Пусть у — одна из них, Не ограничивая общности рассуждений, можно считать, что lim xh = у. h->OQ Тогда IУ — * |2 < \х — x*h j2 + L \х*к — у |, где L — константа Липшица функции | х — х |2 на огра¬ ниченном множестве Q.
23fi АППРОКСИМАЦИЯ И РЕГУЛЯРИЗАЦИЯ [ГЛ. 3 Отсюда при и0~^(с,х1), учитывая (3.13), получим |/у —x|2<L| х\ — у\ + lFo(4. Th, 5ft)< < L | xh - у | + min 4'** (x, Th, Sh) + О (Tk*h). k А в том случае, когда u0 < (c, xy,) в силу (3.14) будем иметь |/у — xp<L|4 — у\ -f min Ч^Лх, Th, Sh) + *e£n + О (Skp (*:, P) - 7\p2 (*;, P)) + О (7>„). Так как ^2 шах (Shp — Tkp2) = T7f- -> 0 при /с oo P>0 k по условиям (3.12) | X;* — t/1 -> 0 и lim min 4;Mx,7’ft,5A) = fc-*oo XEzEn “ = г, то из последних двух неравенств следует, что \у — х\2 =г. Теорема доказана, в Теорема 3.7 усиливает результаты работ [40, 52, 88], так как сводит проблему регуляризации задачи линейно¬ го программирования к решению задач однопараметри¬ ческого семейства.
ГЛАВА 4 ВОПРОСЫ ЧИСЛЕННОЙ РЕАЛИЗАЦИИ МЕТОДА ШТРАФОВ И КОНКРЕТНЫЕ АЛГОРИТМЫ Численная реализация метода штрафных функций представляет собой довольно сложную проблему. По существующим в настоящее время представлени¬ ям метод штрафов обладает следующими достоинствами и недостатками. К достоинствам метода относят его про¬ стоту и универсальность, позволяющую использовать его в самых различных задачах. Недостатки обычно связы¬ вают со специфическим характером получающихся па¬ раметризованных безусловных задач. В частности, при больших значениях параметра штрафа оптимизируемые функции имеют так называемый «овражный» вид, за¬ трудняющий использование градиентных методов и сни¬ жающий их скорость сходимости ([57]). Обсудим эти положения несколько подробнее, Простота метода штрафных функций, как мы могли убедиться в главе 1, весьма относительна. Несомненно простой является идея метода. Однако сведение к безус¬ ловной оптимизации многих минимаксных задач иссле¬ дования операций требует решения проблемы свертыва¬ ния ограничений и согласования штрафных параметров в соответствии с иерархией процесса принятия решения (задача согласования параметров возникает и в методах Регуляризации). Область применимости методов штрафных функций Действительно широка. Существуют классы задач (см. §§ 4, 6), для которых пока не предложено иных мето¬ дов решения. В других задачах метод штрафов успешно конкурирует с более традиционными методами, особенно, вели используются специальные алгоритмы решения бе¬ зусловных задач ([102]), Рассмотрим теперь вопрос об «овражном» характере караметризованной задачи и связанных с этим труд- i Еостях.
208 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ 4 Во-первых, «овражность» присуща и многим другим задачам, встречающимся на практике, т. е. проблема «ов¬ рагов» является достаточно общей. Решение ее ищется на пути создания специальных методов оптимизации (см., например, [3]). Во-вторых, существуют способы перехода от условно-экстремальных задач к параметри¬ ческому семейству безусловных задач, не требующие бесконечно больших значений параметров, Некоторые из них указаны в главе 1, другие можно найти в работах [23, 29, 77, 82, 111]. При этом могут возникать задачи минимизации недифференцируемых функций ([45]). Для некоторых классов задач удается получить точное реше¬ ние, используя гладкие штрафные функции ([8, 56]). Трудности, связанные с отысканием экстремумов «овражных» функций, создали мнение, что метод штра¬ фов эффективен для решения задач лишь с небольшой точностью. Однако исследования последних лет показали, что в задачах математического программирования соот¬ ветствующие варианты метода штрафных функций дают высокую точность (см., например, [23, 82, 89, 102]). За¬ метим, что стремление к абсолютно точному решению задач оптимизации может оказаться не оправданным. Следует принять во внимание, что сама постановка ис¬ ходной экстремальной задачи, как задачи с жесткими связями, может оказаться менее адекватной действитель¬ ности, чем задача со штрафованием за нарушение огра¬ ничений в зависимости от величины нарушения. Кроме того, точность решения задачи должна иметь тот же порядок, что и точность задаваемой информации. Между тем в больших задачах, особенно экономического характе¬ ра, начальные данные обычно известны с невысокой точ¬ ностью. Эффективность метода штрафных функций, на наш взгляд, нельзя правильно оценить, если изолированно рассматривать способы перехода от задачи с ограниче¬ ниями к задачам безусловной оптимизации (что обычно и называют методом штрафов) и алгоритм решения по¬ лучившейся безусловной задачи. По-существу, вся кри¬ тика метода штрафных функций направлена на несоот¬ ветствие метода снятия ограничений и метода безуслов¬ ной оптимизации. Более широким является понимание метода штрафных функций как совокупности приемов
§ !8] ИТЕРАТИВНЫЙ ПРОЦЕСС С НАРАСТАНИЕМ ШТРАФА 203 перехода к параметрическому семейству задач без огра¬ ничений в сочетании с методами решения этих задач. Определяя так метод штрафных функций, можно объе¬ динить естественным образом в одну группу методы, реа¬ лизующие одну и ту же идею сведения условно-экстре¬ мальных задач к последовательности безусловных, не обязательно при помощи добавления штрафного слагае¬ мого к целевой функции (см?, например, [20, 29, 82]). При этом, конечно, численные методы должны соответ¬ ствовать характеру возникающих задач. Кроме того, мы не предполагаем фиксации параметров и способа пара¬ метризации, что позволяет менять их во время счета и строить специфические, присущие методу штрафных функ¬ ций алгоритмы, такие, как метод линейной экстраполя¬ ции ([89, 102]), метод «невязок» ([20]), непрерывный аналог метода штрафных функций ([6, 93, 102]) и т. д. Трудно дать однозначный рецепт, когда какую пара¬ метризацию задачи и какой численный метод использо¬ вать. По-видимому, целесообразно применять целый на¬ бор методов штрафных функций в диалоговых системах оптимизации, а также специальные адаптирующиеся ал¬ горитмы на их основе. В данной главе мы рассмотрим некоторые вопросы, связанные с численной реализацией метода штрафных функций в минимаксных задачах. Наряду с общими проб¬ лемами, о которых говорилось выше, в минимаксных за¬ дачах возникают дополнительные трудности такие, как реализация свертывания ограничений при помощи интег¬ рирования, согласование параметров, неустойчивость и т. д. Им мы и уделим основное внимание. Исследование проблем применения метода штрафов, конечно, этим не исчерпывается и требует как дальнейших теоретических Разработок, так и опыта решения большого числа прак¬ тических задач. § 18. Итеративный процесс с нарастанием штрафа и «метод невязок» в задаче поиска максимина 1. Оценки скорости сходимости из § 5 позволяют выбрать значение штрафной константы, гарантирующее 8аданную точность определения максимина и* = max min F (х, у) k£Z j/GY
210 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОЛА ШТРАФОВ [ГЛ * при переходе к задаче шах 9 q (.г, и, С), х,и ГДО 2% (х, и, С) = Ц — С j| min (0; F (х, у) — и) рйц (у), q > 1. у Пусть F(.r, у) дифференцируема по х, тогда 9q(x, и, С)', g > 1 дифференцируема по (я, и), и т&х9ч(х, и, С) JC,U можно искать одним из градиентных методов, начиная с некоторого начального приближения. Однако далеко не всегда выгодно сразу решать зада¬ чу нахождения максимума функции 9q с нужной конс¬ тантой С*, так как это может быть связано с большим количеством лишних вычислений. Обычно последователь¬ но решают ряд задач с коэффициентами штрафа Си ^2, = С*, где С\ < С2 < причем ре¬ шение гг*(С*), x*(Ci) задачи шах 9q(x1uJCi) служит- х,и начальным приближением шах 2% (х, и, Ci+l). x,u Поясним в чем заключаются неудобства, связанные с выбором слишком большого С, а затем обсудим вопрос о рациональном выборе последовательности {С*} для функ¬ ции F(x, у), удовлетворяющей условию Липшица по у с константой Выводы, которые будут сделаны на основе проводи¬ мых далее рассуждений, следует рассматривать как ре¬ комендации по численной реализации метода штрафных функций в задаче отыскания максимина. Обозначим через (х, и) начальное приближение. Тогда 2 ч ( г, и, С) = 1 — Cq JI m in (0, F (x, у) — и) |7_1 tfn {у), У (I, й, О = •= qCi | min (0, F (x, y) u)|7~' JL F (x, y) d\i (у). у cte
$ \s) ИТЕРАТИВНЫЙ ПРОЦЕСС С НАРАСТАНИЕМ ШТРАФА 211 По лемме 1,15 имеем 1 щ (С) > min F (х* (С), у) + \cq[1 (У)] . 1/еУ Допустим, что х, и выбраны так, что и > min F (х, у). y^Y На первом же этапе решения задачи максимизации 2?q градиентным методом может получиться, например, точ¬ ка (х\, и\) такая, что 2*1 = х -|- -Tjj Sq (х, н, С); Ui = и -) — 9?q (.г, м, С). д _ ^ Легко видеть, чтоq (х, и, С) <0при достаточно больших С, и может оказаться, что ^Cmin F(x1, у). Ясно, у<=У что такая точка (х\, щ) заведомо не реализует тах9д(х, и, С) (см. лемму 1.15), т. е. утрачены преиму- х,и щества, связанные с выбором разумного начального при¬ ближения. Этот нежелательный эффект можно устранить, накла¬ дывая определенные условия на последовательность {С\}. Получим в случае, когда Y — параллелепипед из Et, dii = dy, необходимые условия, которые следует нало¬ жить на {£<}. Пусть X = Xq (Cl), и = Uq (Ct). Для Ci+\ > С{ ИМввМ и, Ci+1) = q{Ci — Ci+i) j |min(0, F(x,y)—u)\q~ldy, Y потому что U, Q = 0. А так как -^£q{x, U, Ci+i) =0, To Xx = X = X*q (Ct).
212 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [Гл. 4 Для достаточно больших выполнено в силу леммы 1.16 неравенство | min (О, F (х, у) — и) |4 {dy > 2,+° ЛА-/ , У где а = и*п (Ct) — min F (x*q (Ct), у). l/SY Поэтому «i + q (Ci - Cl+l) (y)/+9_1 • -JT • Требованием^ min F (x±, у) влечет за собой условие на уеу Ci+\: mm F {xl (Ct), у) < uq {С,) + q{Ct- Ci+,)• (y)'+?_1- jr ИЛИ [a\i+q-1 1 О ^ м + q (Ci — Ci-уi) • ^ 2 J £* * Решение последнего неравенства: j(l olJrq~1 ci+1<ci + — Вспоминая, что по лемме 1.15 i mes (Г)] з-1, получаем окончательно 1+я—2 С,<С|+1<Сг. + /тг(/, д, АТ)-^ , (4.1) где m(Z, q, Z) > 0 — величина, не зависящая от коэффи¬ циента штрафа С. Осталось только указать выбор С\. Нетрудно видеть, что С\ следует брать не слишком большим, а именно та¬ ким, чтобы поиск xq (Сг), uq (Сг) не требовал много вре¬ мени,
§ tgj ИТЕРАТИВНЫЙ ПРОЦЕСС С НАРАСТАНИЕМ ШТРАФА 213 Как видно из (4.1), с ростом I — размерности векто¬ ра у — в задаче поиска макси мина коэффициент штрафа можно увеличивать быстрее, что в какой-то степени ком Если точность е определения величины максимина за¬ дана, то увеличение штрафного параметра С следует про¬ изводить до тех пор, пока не будет выполнено неравенст¬ во (см. лемму 1.15) Проверка данного условия, естественно, требует отыска¬ ния глобального минимума функции F по у е У. Предложенный способ постепенного увеличения коэф¬ фициента штрафа позволяет ускорить поиск максимина с заданной точностью, сократить объем вычислений и представляет собой один из методов преодоления труд¬ ностей, связанных е «овражным» характером параметри¬ зованной задачи. Для задач математического программи¬ рования имеется довольно много рецептов выбора после¬ довательности штрафных параметров {С<} (см., напри- Методом штрафных функций в таком виде был чис¬ ленно решен ряд задач поиска максиминов. Так в одном из расчетов, связанных с решением за¬ дачи стрельбы ([97]), простейший вариант которой был аналитически исследован нами в § 10, функция F — ма¬ тематическое ожидание числа попаданий — имела вид ки прицеливания при i-м выстреле, oi, 02 — средние квад¬ ратические отклонения по осям координат, у — (у 1, 1/2) — координаты центра цели, представляющей собой прямо¬ угольник [yi — el, у\ + ei] X [у2 — е2, У2 + е2]. Предпо¬ лагалось, что неопределенный фактор у принимает значе¬ ния из единичного квадрата. пенсирует более медленную сходимость Uq (С)->ц*. iLq (C) — min F (x*q (С), у) < e. уеУ мер, [68]). *4*1,У) = Здесь п — число выстрелов, (хц, Ха) — координаты точ-
214 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 1 1 При п = 8, 5 = г = 12, 81 = 82 = 0.1 ПОЛУЧИЛИСЬ г 2 о\ оптимальные точки прицеливания, изображенные на рис. 4.1. При больших значениях п оказалось, что в оптималь¬ ных стратегиях стрельба должна вестись на прицелах, хг 1 1 0,913 ' I I. ' " I II -++■ + Н~ 0,831 I I I И I II 0,5 I I | II -+4 +- +f- 1 1 1 j 1 1 1 0,109 I 1 II 1 1 1 —(- Н j 0,087 -+f + [4-- 1 1 1 II 0 0,0870,189 0,5 $837 0J13 1 щ Рис. 4.1. некоторые из которых практически не различаются меж¬ ду собой. Этому легко найти теоретическое объяснение, аналитически решив задачу стрельбы без технического рассеивания (oi = 02 = 0). Постепенное увеличение штрафного параметра умень¬ шало время счета в несколько раз по сравнению с вре¬ менем решения задачи при нужном значении коэффици¬ ента штрафа. Оптимизация проводилась методом гради¬ ентного спуска. Опыт решения этой, а также других тестовых задач показывает, что хорошее приближение к оптимальной стратегии х* получается значительно быстрее, чем приб¬ лижение к величине максимина и*. В следующем параг¬ рафе мы увидим, что одной из причин такого явления
iS] ИТЕРАТИВНЫЙ ПРОЦЕСС С НАРАСТАНИЕМ ШТРАФА 215 иедует считать случайные ошибки вычисления интегра- ов, входящих в функцию 2q и ее производные. 2. Избежать больших значений параметров штрафа озволяет так называемый «метод невязок» ([14, 20]), дея которого вытекает из теоремы 1.7. Пусть имеется задача определения максимина с ог- аничениями и* = max min F (х, t/), ySY (4.2) х* — arg max min F (x, y), XGA yeY tie A = {xzeX\gi{x)>0, hi(x) = Q, 1 (4.3) (4.2,3) все функции предполагаются непрерывными, — параллелепипед в евклидовом пространстве Ей Образуем функцию 1 (х, и) = [ Imin (0; F (х, у) — и)]Чу + Y т к + 2 V*; (*) + 2 bt [min (0, gt (z))]2; a}, bt > 0. (4.4) j=1 i=1 'ли множество У конечно, то интеграл в (4.4) следует менить суммой. Теорема 4.1 [20]. Величина максимина и* опре- ляется как максимальное и, для которого min Ф (х, и) = 0, (4.5) е минимум по х берется уже без ограничений (4.3). m этом = arg min Ф (х, и*) дает оптимальную стра¬ хах гию, реализующую (4.2). Доказательство. Для точек (х*, и*) имеем х А и F{x*, у)^и* для всех г/^У. Тогда, очевидно, (ж*, и*) = 0, а это из-за неотрицательности Ф означает, о х* реализует min Ф'(я, и*). Ясно, что (4.5) при и <С и* также выполнено, ибо Ф (я*, и)\ = 0,
216 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. Пусть теперь и > и*. Тогда для каждого допустимого .rei имеются у ^ Y такие, что F(x, у) < и, а значит, и [min(0, F(x, у)—и)]2> 0. В силу непрерывности F больше нуля и интеграл в (4.4). Точно такое же рассуждение приводит к противоре¬ чию предположение о том, что хь ф Arg max min F (x, у). XE .4 g/GY Если х0 реализует ттФ(я, н*), то Ф(яо, »*) Ф 0, хЕЕ Л если Хо Если же х$ &А, то Ф(яо, и*) ф 0 из-за поло¬ жительности хотя бы одного члена суммы в (4.4). Тем самым теорема доказана, и Она остается, конечно, справедливой и для локаль¬ ных по х максиминов (4.2). Решение задачи (4.2) теперь можно провести следу¬ ющим образом (см. [20], где составлена также АЛГОЛ- программа). Для фиксированного и методом наискорейшего спуска по х находится минимум (4.5). Если этот минимум равен нулю, то и будет увеличено. В противном случае и будет уменьшено. Для нового и и имеющегося х снова произ¬ водится градиентный спуск и т. д. Начальные значения х и и задаются. В результате будет найдено такое наи¬ большее и, при котором минимум (4.5) еще равен нулю. Схема изменения и может быть следующей. Пусть, например, сначала и должно увеличиться на задаваемую величину Аи. Если при следующем изменении и его сно¬ ва нужно увеличить, то это изменение уже будет равно 2-Ап и т. д., до тех пор, пока не возникнет необходимость его уменьшить. Уменьшение производится методом деле¬ ния пополам отрезка [uk-uuk]y на правом конце которого (4.5) больше нуля, а на левом — равно нулю. Дробление будет производиться до тех пор, пока не потребуется при¬ ращение Аи меньшее, чем минимальное задаваемое при¬ ращение. Это значение и и будет искомым значением ве¬ личины максимина (4.2,3). Из сказанного видно, что параметр и определяет па¬ раметризованное семейство задач минимизации (4.4) и что в методе невязок достаточно оперировать со значе¬ ниями ц из отрезка [min F (х, у), max F {х, у)], т. е. мож- X,IJ х,у но избежать слишком больших значений параметра и- Величины аи > 0 в (4.4) можно выбрать любыми. Та-
| 18] ИТЕРАТИВНЫЙ ПРОЦЕСС С НАРАСТАНИЕМ ШТРАФА 217 ним образом, функция (4.4) имеет ту же степень «овраж- ности», что и F, gt, При помощи метода невязок был решен ряд задач; например, для различных квадратных матриц, размер¬ ность которых доходила до двадцати, решались соответ¬ ствующие матричные игры ([20]). Во всех случаях, ког¬ да было известно аналитическое решение, значение век¬ тора х* и значение максимина и* были определены с точ¬ ностью до трех значащих цифр. Кроме того, был решен ряд отладочных задач (4.2,3) с известным решением, для которых множество Y бесконечно. Здесь также были получены удовлетворительные результаты для векторов у <= Y размерности до восьми. Наконец, решались прак¬ тические сложные задачи по определению максимина функций при моделировании реальных ситуаций. 3. Отметим ряд особенностей изложенных методов. Для спуска по градиенту необходимо в методе невязок вычислять значение интеграла по у в (4.4) и его произ¬ водных по х. В связи с тем, что в общем случае у — век¬ тор, вычисление интегралов, с достаточной точностью представляет самостоятельную проблему. К тому же под- интегральная функция [min(0, F(x, у) — и)]2 имеет спе¬ цифический вид: при значениях и, близких к и*, она от- * лична от нуля лишь в небольшой части параллелепипеда Y. Можно, например, для вычисления интегралов восполь¬ зоваться одним из вариантов метода Монте-Карло — оп¬ ределением среднего значения за N случайных испыта- лижсния и к и* число испытаний следует увеличивать Для достижения с заданной вероятностью нужной точ¬ ности вычислений. Таким образом, хотя метод невязок и позволяет избе¬ жать больших значений параметра штрафа, его реализа¬ ция требует достаточно точного счета интегралов при ре¬ шении уравнения (4.5). В методе штрафных функций, связанном с макси¬ мизацией <2% (я, и, С), как показано в следующем пара- гРафе, напротив, можно ограничиться малым числом ис¬ пытаний для вычисления интегралов. Сходимость при э,'ом будет с вероятностью единица. N mes У “A~ ** / (Ун)' Однако по мере приб- А=1 ® 0. В, Федоров
218 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Доминирование различных трудностей в изложенных выше методах определяет области их применения. По- видимому, метод невязок следует использовать, когда х, у имеют небольшую размерность. § 19. Стохастические алгоритмы в минимаксных задачах 1. Рассмотрим задачу отыскания максимина с распа¬ дающимися переменными при наличии ограничений и* == mas min F (х, у), (4.6) хед yGY А = {х е XI фг(а:) ^ О, 1 < i < т)t (4.7) В соответствии с результатами §§ 2,5 задачу (4.6,7) можно свести к максимизации *(*» и, С) -+ max , (4.8) (X,U)SEXXU где и, С) = и + С? ЯичЛх, u)i 7яия, (х>и) = — \ Imin (°;F (х> у) — и) № {у) — Y т — 2 «i|min(0; ср* (х)) Г’ г=1 771 — функция штрафа. Здесь q\, q2>0; а*>0, 2 = 1 г=1 числа,характеризующие желательную относительную точ¬ ность выполнения ограничений (4.7) в минимаксной задаче. Очевидно, что функцию 9? quq2(x, и, С) можно рас¬ сматривать как математическое ожидание и, С\у, 0 *) функции kucU и, С | у, i) — и С | min (0; F (я, у) — и) |?1 — — Coli | min (0, ер; (х)) |7* *) Надомниц, что Е — символ математического ожидания.
CtOXACTПЧЁСКИЁ АЛГОРИТМЫ 219 от двух независимых случайных величин у и г, причем у распределено на компакте У в соответствии с мерой ц, а i принимает значения из множества /={1, ..т) с вероятностями аи ..., ат. Таким образом, задача (4.8) записывается в виде ^ lqltq, (х, и, С | г/, /) max (х,и £АГ х U и для ее решения естественно применять методы стоха¬ стической оптимизации, например, метод стохастическо¬ го градиента ([46]). При этом целесообразно предусмот¬ реть увеличение параметра штрафа С в самом алгоритме и, тем самым, избавиться от многократного решения за¬ дач (4.8) при различных значениях С. В результате для X = Et получаем итеративный про¬ цесс ( ХП\-1 ~ Хп ^ П^з » I п (4-9) 1 мп+1 = un + annf; п = 1,2,... Здесь при q2>1 стохастический градиент (£n, r\n) функции Sq^qt(xn, мп, Cn) определяется по формулам S ~ (^71' ^ п | Уп' ^п) = = Cn<li I min (0; F (xn, i/„) - un) |7l_1 -L F (xn, i/,,) + + С nil | min (0, fpin(.T„))|^-1-|r9in(xn);(4.10) Q "П qu iqitq2 (Xni | Уп, ln) = = 1- Cnq, |min(0; F (xn, yn) - гДе (Уп, in) — значение случайной величины (у, i) в п-и независимом ыспытании. Если же q{ или q2 равно 1, то в качестве (£п, цп) мояшо взять обобщенный градиент ([44]) функции (когда таковой существует). Исследуем свойства процесса (4.9,10). Теорема 4.2 [47]. Пусть в задаче (4.6,7) X = Eh У — компакт евклидова пространства и функции F, cpit * ^ i ^ mt удовлетворяют следующим условиям; 8*
220 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [РЛ. 4 F {:г, у) ограничена, непрерывна и непрерывно диффе, ренцируема по х на -^F(x, у) ограничена на EtXY и удовлетворяет усло¬ вию Липшица по х на Et равномерно относительно у ^ Г; фг(£), 1 < i ^ т, непрерывно дифференцируемы и ог¬ раничены снизу на Ei\ дф. (аг) —^ограничены и удовлетворяют ус¬ ловию Липшица на Еи Введем числовые последовательности {ап}, {Сп}, удов¬ летворяющие условиям ( оо ап > 0, 2 ап — оо. Сп^+оо, П —1 Cn+i = Cn +А Сп, АСп-^0, (4.1 i) АС , —^+0, апСп -*■ О (например, ап = 1/Т/2, ДСП = 1/тг). I) Тогда при q\, q%^2 для любого начального при¬ ближения (х\, их) последовательность {(хп, ип)}, опреде¬ ляемая процессом (4.9—11), содерхсит подпоследователь¬ ность такую, что все ее конечные предельные точки (х\ и') с вероятностью единица удовлетворяют следую¬ щим условиям: существуют числа ps, 1 < Z и точки ys^ATgm\nF(xr,y)1 5=1, Z-j-1, для которых 1/еУ справедливы соотношения и' = min F (х', г/), уеУ /+1 m 2 Ps + 2 (4.12) s=l i=l 7+1 m 2 P.-gj У,) + 2 -Й-Фг (*') = 0. S = 1 i = l И) Е'слгг, кроме того, 00 (i-'Pifc)* ie/„(*)j^0,
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 221 М;1 где I- (х) = {i ^ /|ф, (-т) ^ 0}, то х' <= А, 2 Р* > 0 и епра* ведливы условия дополняющей нежесткости ^срДя') =0, i=l, m, т. е. точка х' является стационарной в задаче (4.6,7). Доказательство. I) Покажем, что при выполне¬ нии условий теоремы в итеративной процедуре (4.9) по¬ следовательность {ий} ограничена, т. е. существует Ai> >0 такое, что un^Ux=[-KhK{\, /1=1,2,... (4.13) Пусть К>0 — константа, ограничивающая F, I д iF дх ф| . Фп являющаяся также константой Липшица для ЭР d<f i . W » = 1,т. Докажем сначала ограниченность {ил} сверху. По ус¬ ловиям (4.11) CnS оо и, значит, существует Ni > 0 та¬ кое, что q\Сп > 2, п = УУЬ Nx + 1, .. . Отсюда получаем, что для любого n>N\ из неравенства ип>А+1 в си¬ лу (4.10) следует т]"<С — 1 и ип+\<ип. Так как ип+1 = оо = ип-\-апг[п, 2 ап = 00» то для любого начального npib п= 1 ближеиия {хх,и{) найдется N2>NX такое, что uNi < А+1. Из очевидного неравенства цп<<1, тг=1, 2, ... имеем ип<А+2, п > N2i и, следовательно, ип < А' = шах (и19.. ., uNi, К + 2); п= 1,2,..» В силу ограниченности F на Et X Y и последнего неравен¬ ства получаем, что существует постоянная А">0, для которой |т]”| CiT-Cn, т. е. lim | аяг|711 — 0, поскольку П—юо Нш апСп = 0 по условиям (4.11). U^-oo Заметим, что если ип<С—А, то т]п = 1 и, следователь¬ но, ип+1>цп. Очевидно, для любого начального прибли¬ жения существует /V3 такое, что uNi > — А, тогда для до¬ статочно больших п ип > — А — K"aNfi^9* Итак, пока¬ зана ограниченность {и„} и снизу, т. е. доказано утверж¬ дение ,(4.13).
222 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ (ГЛ. 4 Отметим, что из (4.13), (4.10) и условий теоремы сле¬ дует существование постоянной К.2>0, для которой 111 <К2Сп, \цп\<К2Сп; /г = 1, 2, ... (4.14) Кроме того, из (4.13), ограниченности снизу F, ср*, i = = 1, т и определения функции -2%,^, (х, и, С) имеем inf Е |— (хп, ип, Сп)1 > — оо. (ИП) 71 Введем обозначения Ф (х, и) = - Чх j I “in (0, F (х, у) - Ы) р-' F {х, у) ^ (у) -{- У т + Чг 2 “j Imin (°. ь (*)) 1?4-' £ фi (*); i=1 и) = qY р min (0, F (x, у) — и) (у); У в(х, и) — — J I min (0; F (х, у) — и) f’rfj.1 (у) — Y т — 2 | min (0. <jpi(*))h- i-l Очевидно, что &4чя, (*, О = СФ (х, и); u,C) = l-CY(*, и); и, С) = &(х, и). Из условий теоремы и (4.13) следует, что функции Ф(г), У (г), 0(г), где z = (х, «), ограничены на £<Х£/1 некоторой константой /£3;>0: max (|Ф(2)|, |^(г)|, |e(z)|)<tfs (4.16) для любого z ^ Ei\U\ и удовлетворяют условию Липши¬ ца по 2 с константой #4>>0. Рассмотрим теперь последовательность {— 3?quqi (zni ип) Сп)}.
I 19] СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 223 Имеем [—■ qiyq3 O^n+i? Иц+ь ^n-fl)] [ ^qt,qt i^ni ^п)].33 5=5 ^q\,qi {хпч ит Cn)i £nj "^3»*9a (^ги ^n)j T1 | 1 - ~дС ^ЧиЧг С^ти wn> Cn) + Ял J <7b«7j wm ^n) ' 0 ' - -gj S’,,.,, (*„ + aan|n, и„ + aanr)n, £„ + aACn), ln)da+ 1 “Ь Qi’Qt (*^th Wn, Cn) 0 ' - &qub (xn + a anln% un + aany\n, Cn + a ДСП), if) c?a+ l H" ACn J* ^quq2 ixm um Cji) 0 — У 2qu4t (Xn + aanln, un + aanr\n9 Cn + aACjj da. (4.17) При получении (4.17) мы воспользовались формулой 1 F (х + Ах) — F (х) = j Fa (<£ + аАх) da о и, кроме того, прибавили и вычли выражение [^&1чЧг (Хп, М-n. Сп), an£") + ( ди ^ Я,Лг^Хп,^п, Сп)уО,пУ\ )-{- ( qq 2?quq, (*n.Mn> Сп), ДСП). ва (4.17), которые для краткости обозначим через Т\, Т2, Г3. Воспользовавшись утверждениями (4.14,16) и не- 9деним три последних члена в правой части равенст-
224 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 равенством Коши-Буняковского, получаем 1 Ti = an J (Сп[Ф{хп, ип) — Ф (хп + <xanZn, ип + aanrf)] — о ' J — аАСпФ{хп + aanln, ип + аапУ]п), |n)doc< < 2К\К,а1с\ + КЖ3ап • АСп • Сп. Аналогично Тг < Ш\К/пС\ + К2К3апСп. АСп, Т3^2КгК,АСп-Сп-ап. Используя эти оценки, а также (4.16), из (4.17) имеем неравенство 3?<21,Яг {Хп+1, ^п+Ь Сп+ j) ^ S?quq2 {хп, Un, С п) 0/71 ^~дх qi,q2 ^7г’ ^7г’ ^71^’ — «„ (j-u3?quq2 (*„, ип, Сп), if) + К3АСп + ~Ь Kbalcl + Аба?г«АСп'Сп, где новые постоянные К$, К$ связаны с Кз, К\\ КЪ = АК1К„ К6=АК2К3. Возьмем математическое ожидание от обеих частей этого неравенства. По свойствам условных математических ожиданий ([66]) Е [ 3? quqz (.Zn+i, Hn+1, Сп-j-l)] ^ Е [ 3 quq2 (хп, Un, Сп) ] — ап |ЕЕ 3 quq2 {хп, Mn, сп), rj |( уи h), . . . * • • > (^/п—1) in—l)j “Ь ЕЕ | ^ ^ 3? ql}q2 (*ГЛ, W7l, ^*n)> ^1 (^/1 ? *l)» * • •» {Уп—\ч in— i)j K3 — K6anCn KeCn • ДCn \ = E [ 3? quq2 (%n, Un, Cn)] 3? quq2 (Zn, Cn) - - ВД^сЛ (4.18) ^ /
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ *226 Предположим, что не существует такой подпоследо¬ вательности {я,}, что 3?;{uqt (zng, СПа) сходится к ну¬ лю в среднем квадратичном. Тогда найдется е>0 и це¬ лое N>0, для которых Е | -S7quq2 (zn, Сп) |2> е, n^N. По условиям (4.11) ДСп/ап-^0, апС\-+ 0 и, следователь¬ но, ЬкСпСп —^0 при п-+ оо. Таким образом, получаем, что существует целое N\, N\>N, для которого ^^чичг (*». С„)|2- К^-КьапС\-К£п-ЬСп>\ при всех n^>N 1. Отсюда из неравенства (4.18) имеем Е [ & Qi,q2 (2п’ Сп)] ^ п— 1 ^ Е [ 3? quq2 (ZNn ^iV,)] *Г 2 + i—Ni oo а так как 2 an = °°, T0 Пт E [— 3?qx%qi {zn, Cn)] = — oo, П--1 П->оо что противоречит (4.15). Итак, показано, что существует подпоследователь¬ ность последовательности (zn* Cn)j, сходя¬ щаяся к нулю в среднем квадратичном. Значит ([53]), существует подпоследовательность [znk] такая, что (znft. Cnh) =0 дочти наверное (п. н.), т. е. на некотором множестве Q == (со = (г/i, ц; г/2, h\ . ••)} полной меры. Таким образом, мы получили, что lim гк = lim = 0 (4.19) k-юо fe->oo множестве Q полной меры, где ~ Их ^<Ь’Я2 (Znk> = "^7 & qi,q2 (Znfii ^пк)* Покажем, что на множестве Q любая предельная трч- Ка (х\ и') последовательности [{хпк, unh)\ удовлетво¬ ряет условиям (4.12).
22б ЙЙСЛЁЙЙАЙ РЕАЛИЗАЦИЯ МЁТОДА ШТРАФОВ (ГЛ. 4 Возьмем любое и рассмотрим последователь¬ ность [xUk (со)’ ипц, ((0))» обозначаемую далее просто [(xnk, ипь)}- Без ограничения общности можно предпо¬ лагать, что limxnh = х\ lim unk = и'. h->oo k-+oo Заметим, что из (4.10,19) и условий теоремы вытека¬ ет ограниченность j qiCnk I min (0; F (Xnk, у) - un/i) р.-l ± F yym к = 1, 2, ... и, следовательно, существование подпоследо¬ вательности {(^nA , unks)} такой, что jqiCnki | min(0; F (xn^, y)-«n X ~k F{xnv y) dp (y) = M +A„ {4.20) где lim = 0. Из соотношений (4.10,19,20) имеем *-» оо m lim 2 qiCnhs | min (0, Фг (хпк)) |*-« ± Фг = — M. (4.21) Докажем, что ur = min F (x\ у). Предположим, что ]/£У u'< min F(x', у). Тогда unk <min F (xn у) для всех yeY л* yeY 4 ** ' достаточно больших s > L\ и, значит, J QiCnks j т*п (®i F У) ипь$) |71 1 d\\. (У) = 0, s ^ Liy что противоречит (4.19). Пусть теперь и' = min F (х'ч у) + 20, 0 > 0. Для до- yeY статочно больших s отсюда вытекает справедливость не¬ равенства и „ >minF(.r у) + р. (4.22) *. у^у N Л
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 227 Из непрерывности функции F(х, у) следует существова¬ ние такого множества Yi^Y, p(Yi)==6>0, что F (х\ у) — min F (х\ у) < 0/4 l/€=Y для любых уеУ1# Таким образом, при достаточно боль¬ ших s из (4.22) получаем неравенство иПк > F (xnh , у)— -—Р/2, справедливое для всех у е Уь что дает оценку. jtfiCn/iJ min(0, F(xnht, (у) : qiC"ks (~r) p Так как правая часть последнего неравенства стре¬ мится к бесконечности при оо, то получаем противо¬ речие с условием (4.19). Рассмотрим функции Р, (У) = qiCnk$ | min (0; F(*„v у) - *-[1 - в*,]”1; 5 = 1, 2,. . . Из непрерывности F и соотношения (4.19) следует, что р,(у) непрерывна на У и j* ps (у) р {dy) = 1, т. е. явля¬ ется плотностью относительно меры р некоторой вероят¬ ностной меры р, на У. Не теряя общности рассуждений, будем считать, что последовательность {р4} слабо схо¬ дится к мере ро ([83]). Легко видеть из определения р.{у) и сходимости{хПк , ипк^-+(х\ и'), что мера р0 со¬ средоточена на множестве У (х') = Arg min F (xf, у). yeY Из непрерывности функции F, слабой сходимости {р*} к мере ро и соотношения (4.20) следует У У1*')
228 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 По теореме Каратеодори отсюда получаем, что существу¬ ют р\ ^ 0, у{ е Y(я'), 1=1, Z+1, для которых i+i l+i 2 Pi = 1. 2 pi i ^ Pi) = М* 0-23) i=i i=l Обозначим И, = 1 + 2 g,Cnk<| min (0, ф, (*„*,)) ?*спл I min(°. ))!«•-» Ри = Pj/««; ^ = z : 1 /=1, Z + 1; Z = 1, m. (4.24J Подпоследовательность индексов (л^), не ограничивая общности, можно считать выбранной так, чтобы Pi*-* Ра h при $->■ оо, поскольку 1+1 т 2 Pjs + 2 his = и Pjsi his ^ о* j=1 i= 1 Тогда из равенств (4.19—21,23) следует, что 1+1 ТП 2 pij7f vs) + 2 i(fi {х">= °’ з=1 i=l причем 1+1 m ^ 0; 2 Pj + 2 ht = 1. .7=1 i=l Объединяя эти условия с доказанными выше равенства¬ ми и' = min Р (я', у) = Р (х\ г/7), / = 1, Z + 1, приходим к V& условиям (4.12). Таким образом, мы показали, что на множестве Q полной меры любая предельная точка после¬ довательности {(ЯпЛ, ипь)\ удовлетворяет требуемым в пункте I) теоремы условиям. II) Будем, по-прежнему, рассматривать последователь¬ ность {#ПА (®). Unh (o))J из П. I) при 0£Й.
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 229 Пусть 0 ^ 00 {i 1 е 7- (*)}• = 1, т. Докажем, что в этом случае г*= !1» Imin ф; (^О) l?,-i < 00’1=* Предположим, что это не так. Выберем ц^1 таким образом, чтобы О lim lin (°- M*»0) Г2-1 .— т- = т; ^ 1, i = 1, т. min (О, Ф1§ (*nft<)) I®*-1 Очевидно, т\% = 1, n = mi = 0, и lim q2Cnh I min (0, cpio (xnh )) = oo. (4.25) S-+oО S 1 s * Из равенств (4.21,25) следует m I min lim V (°- ф; (*»*.)) |,,_1 ^ |min(01?io(,nfts))J и, значит, Я 2- -•to ф« (*»*,) = о 2 Щ ± Ф| (х') = О, где /тгг>0, S=l, /тг, .. 2 mi> 0. ге/_(х') Итак, мы получим противоречие с условием т. е. ограниченность г< доказана. Следовательно, срДя') ^ О, * = 1, пг (т. е. х ^ А) и выполнены условия дополня¬ ющей нежестокости ^срДя') = 0. Из неравенства нт оо 1 + 2 ЯгСщ{а | min (°. <Pi (r»;,5)) |''2_1 ^ J. + 2 г j оо, i=J
230 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 1+1 условия 2 Pj — 1 и определения (4.24) чисел pjs име- j=i i+i ем 2 Pj > 0* Теорема полностью доказана. ■ j=i Замечание. Условие со ср* (ж), i е /_ (я)j ^ 0, очевидно, выполнено для х^Еи если векторы Фг (^), линейно независимы для любых х, таких, что 1_{х)Ф0. Данное условие выполняется также в том случае, ког¬ да функции фДя) вогнуты и удовлетворяют условию Слейтера на Et. 2. В теореме 4.2 показано, что последовательность {(хп, ип)}, определяемая итеративным процессом (4.9— 11), содержит подпоследовательность{(#n/i, иПА)),все пре¬ дельные точки которой являются стационарными в ми¬ нимаксной задаче (4.6,7). Для практического нахожде¬ ния стационарных точек необходимо научиться выделять искомую подпоследовательность {(хпл, иПА)}. Сделать это можно при реализации итерационного процесса, зная значения градиента п= 1, 2, ... Однако для нахождения градиента функции 3?qi,qt при¬ шлось бы вычислять интегралы по множеству У, что за¬ труднительно, если у имеет значительную размерность. Для того, чтобы избежать вычисления интегралов, в ите¬ ративный процесс (4.9—11) целесообразно ввести новый следящий параметр vn^El+ ь п= 1, 2, Этот параметр должен вычисляться при каждой итерации с помощью стохастических градиентов (4.10) и удовлетворять ус¬ ловию
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 231 Тем самым мы получим возможность следить за значе¬ ниями —z&quqt{Zm Сп) по параметру иП1 не прибегая к вычислению интегралов. Исследуем возможность введения в наш итеративный процесс такой следящей переменной. Сначала рассмотрим ситуацию в общем случае. Пусть г] — случайная величина, принимающая зна¬ чения из множества II в соответствии с некоторым за¬ коном распределения. Определим процесс ( wn+i = wn + anl {wn, Cn I Tin); \ rn+i = rn + 6n (I (wn, Cn | г|п) — rn), где вектор-функция l(w, С j rj) = (l\(w, C|ri), lk(w, Ch)) определена на EhxE~txH(Et— положительная по- луось); т|л — реализация в п-м независимом испытании случайной величины tj; {я™}, {Ь«}, {Cn} — числовые по¬ следовательности; (wu гi).— начальное приближение. Введем обозначение L(Wn) Cn) Е [ / ( Сп\г\п) |ць • • ч Ц л — 1 ] . Теорема 4.3([48]) (следящий алгоритм). Пусть wn^BczEk, п = 1, 2, ... и существует по¬ стоянная К\ > 0 такая, что \2(w + Aw> С) С) | < Кх • С . | Дм7|; (4.27); 1С + ЕС) -2(и>, С)\<К{• |ДС|; \l(w, С|л)| <КХ -С- \&(и>,С)\ <КХ-С Оля любых w, w + Aw е В; С, С + А С >1; r\<= II. Числовые последовательности в процессе (4.26) К), {&«}, {С„} удовлетворяют условиям: оо ап > ап 2 ап = о°; п=1 Сп / 00» Cn+i — Сп + АСп, ДСп->0;
т ЧЙСЛЁЙЙАЙ РЕАЛИЗАЦИЙ МЕТОДА ШТРАФОВ [ГЛ. 4 К > о, 2 К = 71=1 оо оо 2 АСп < оо; 2 апьспс1 < оо; п=1 п=1 оо оо 2 4Сп < оо; 2 АСпЪпСп < оо; (4.28) n=i 71 = 1 оо оо 2 а-пРпСп < 0°; 2 ь2с2 < °°; 71= 1 71=1 2 АСА 2 &А < оо; 2 я АС2„ 2 Ь.С. < оо; 71=1 \S=1 / 71=1 \S=1 / 2 b2Cn f 2 b.C.) < оо; 2 bi I 2 &A )< оо; 71=1 \s=l J .71=1 \S = 1 / OO OO 2 aldbn* < oo; 2 anACnClbnl < oo; П=1 71=1 ACnbn < 71= 1 (.например an = _ n-2i/25) д^п = n-99/ioo UM a„ = «_1,bn = rc-12/13, AC„ = (rclnrc)-1). Тогда lim |rn — S’ (шп, Cn)| = 0 n. h. для любого начального приближения (w\, r{)\ Доказательство. Так как для достаточно боль¬ ших п \гп\ = i (1 — bn-i)r„-i + bn-\l(wn-u Cn-i ITJn-l) | < ^ Irn-i | + K\bn-\Cn-\, то существует такая постоянная K<i > 0, что Ь.С.;, ,71 = 1,2,.,. (4.29) *=1
С^ОХаС'ГЙЙЁСЖйЁ АЛГОРИТМЫ 233 Из условий (4.27) теоремы имеем 3 (^’п-ьь Сп-\-1) ~ 3? (ivn+\, ^n+i) 2 Cn) -j~ “Ь 2 (м?п+1, ^7i) 2 (wn, Cn) -f- 2 (i^’n, Cn) = = 2(и;п>Сп) + 4? + ^ (4.30) где [i4" | < Kx'ACn, \An1\<K\Clan- n = 1,2,.., Рассмотрим последовательность {0ц — \rn-g(wn, cn)|}. Из оценок (4.27,29), равенства (4.30) и условий (4.28)( теоремы получим On-н ^ On 4" Wn -^n I rn I2 "b (rn, I (ivn, Cn | т]Л)) —|— + 2bn (rn! S’ (u>n, Cn)) - 2bn (I (wn, Cn | r|n), S (wni Cn)) + + 2/iTjACn| S’ (wn, Cn) — rn\-\- + 2K\anCl j S (wn, Cn) - rn |,: (4.31) oo где 2 Wn < oo, Wn > 0; w = 1, 2, ... Возьмем уСЛОВ- n^l ное математическое ожидание от обеих частей полученно¬ го неравенства ВДи hi, • • V, Tin—l) < 0n + wn-2bn I rn-S> (wnt Cn) p+ + 2 | - S’ (wn, Cn)\-(K3anC2n + K^Cn) = = 62 + Wn - 2bnd2n + 2Qn (K3anC2 + Kv ACn)t где K3 = Kb Для любого pn можем записать E(0n+ihi,.-vv, 4n-i)< 9 i d cl ДС \ <Q2n+Wn-$n2bnBn (Qn-K3^-K1T±j- \ t n Tl } - (1 - pn) 2bn0n (on-K3^ ~ (4.32)
234 Чйслёнйая Реализация метода штрафов цл. 4 Положим в (4.32) Р» = + кгьс 1, если 0»> 11 \ п О в противном случае. Тогда из неравенства (4.32) и условий (4.28) имеем Е (Вд+1 | 1ll5 • • v» Tin—l) ^ б?г + Wn + + 2 (К3апС2п + Kv ДСП)^3^ + К, ^ < 0* + W'n, оо где 2 W п < оо, Wn >0; п = 1,2, По теореме п —1 о сходимости супермартингалов ([46], стр. 22) (0^1 схо¬ дится к конечному пределу с вероятностью единица. По¬ кажем, что этот предел равен нулю. Возьмем математическое ожидание от обеих частей неравенства (4.31) Ебп+1 = ее (е?г+1 hi,--., < < + Wn + Е [- 2Mn + 20n (Ksancl + ^ДС»)]. Для любого последнее неравенство мы можем пе¬ реписать в виде Е0£+1<Е62„ + Жп + + Е «пСп v ^п I ‘з ~ь «г — ) — п п - 2 Ъп (1 - Yn) еп (ел - к3 ^ _ KlAC- Положим Yn = 2 K^aCl т ДС 1, если 0п>-±-Л-? + 2К1-7^; (4.33) 0 в противном случае. .2 а1-" Ь 2 К3а Cl ДС Заметим, что, если 0П >. —+ 2Кг то
§ 19] СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 235 К3а Cl АС < 0П ^ K1—rJ}L. Из неравенства (4.33) и ус- 71 п ловия (4.28) получаем E0n+i ^ Ебп Jr W п 4 е[- ЬЛ + 4(Я1ДСП+ К3апС2п)[Ks *-ф- + \ 71 71 - Е0« + Wn - ЪпЕ6*, (4.34) оо где 2 Wn < 00, ТРП >0; п = 1, 2, ... Из неравенст- П— 1 ва (4.34) следует, что существует подпоследователь¬ ность {щ}, для которой lim E0nft = 0. (4.35) h-*°о Действительно, если это соотношение не выполнено, то оо из неравенства (4.34) и расходимости ряда 2 Ьп по- п= 1 лучим, что lim Е0п = — что невозможно. П —> оо Равенство (4.35) означает, что для некоторой под¬ последовательности {Пи8} Hm Qnk == 0 п. н. Отсюда и из S-+OO s установленной выше сходимости {0„} п. н. получаем, что lim 0П = 0 п. н. Теорема доказана. ■ п-юо С использованием теорем 4.2,3 дадим практический метод нахождения стационарных точек задачи (4.6,7). Для этого рассмотрим итеративный процесс Zn+1 = 4- апхп, / п \ (4.об) Vn+i = Vn + Ьп (т — Vn)\ п = 1, 2,.. где тп = (£п, к\п) — стохастический градиент, определя¬ емый по формулам (4.10); zn = (яп, ип) ^ El+1, (^1,щ) — начал ьное п рибл и жени е. Теорема 4.4 [47J. Пусть функции F(x, у), ф,-(я), i = 1, пг в задаче (4.6,7) удовлетворяют условиям тео¬ ремы 4.2; числовые последовательности {я*}, {Ьп},
236 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ ГГЛ. 4 {Сп} в процессе (4.10,36) таковы, что оо I. ап 0, ап >■ 0, ап оо, 71 = 1 и. сп / ОО , Сп и “ Сть + АСпл ДСп ->• оо III. 2 Ad<oo; 71= 1 IV. ДСпСп-*0; оо V. 2 Ьп = с»; 71=1 VI. -> 0; VII. оо VIII. 2 ’71=1 IX. 5 Ысп ( S bsCs ) < оо; 71=1 \s=l J ОО /71 \ 2 х. 2^(2^,) <оо; XI. апСХЧ0,: 71=1 {например, ап = t/n, Ъп = /г_12/13, ДСп = (/21п лг)-1 млм оп = га”49/5°, Ъп = тг“21/25, ДСп =/г“99/10°). Тогда для лю¬ бого начального приближения (zi, i/i): I) Последовательность {zn = (хп, ип)}, определяемая итеративным процессом (4.10,36), содержит такую под¬ последовательность {{х-пк unh)}i что 11“ ^ s“па’ Св*)= 0 П’и’ Любая предельная точка (х', и') этой подпоследова¬ тельности удовлетворяет условиям (4.12) и является
СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ 237 стационарной в задаче (4.6,7), если д ^ дх 11) 1i m ^п ^ Чи Чг^пг Сп) О И. Н. dz Доказательство. I) Покажем, что числовые по¬ следовательности {ап}, {Ьп}, {С„}, удовлетворяющие ус¬ ловиям (4.37), удовлетворяют и условиям (4.11,28) теорем 4.2,3. Условия (4.11) включены в (4.37). Выпишем те из условий (4.28), которые не во¬ шли в (4.37): оо оо апАСпСп< оо; 2 alPn < 2 апЬпСп < оо; 2 АСпЪпСп < оо; П=1 п= 1 2 А СпЪп ( 2 С а) < оо; 2 апъпс1 (2 < оо; 11= 1 V S= 1 J 71= 1 \ S—1 оо оо 2 anACnClbnl < оо; 2 АС2пЬ^1 < оо. п=»1 71=1 Покажем, что эти условия следуют из (4.37). Из ус- оо ловий (4.37, XI, VI, V, II) получаем ап&СпСп < °°г П=1 оо 2 апСп < оо. Из соотношений (4.37, XI, VIII) имеем п=1 оо оо 2 anbncl <оо, а из (-137, XI, IX, VI) - 2 АСпЪпСп< п ~ 1 п ---1 <оо. Из (4.37, XI, IX) получаем^ a7i^7i^n( 71= 1 \.S=1 / Из последнего неравенства и (4.37, VI) имеем 2 ДCnbn I 2 Csbs < °°- Наконец, два оставшихся ус- П-1 \,= 1 / ловия вытекают из (4.37, VI, XI). Так как числовые последовательности {я»}, {Си} удовлетворяют услови- ям (4.11), то для последовательности {(яП) ип)}, гене-
238 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 рирусмой процессом (4.36), справедливы все утвержде¬ ния теоремы 4.2. Первая часть нашей теоремы доказана. В теореме 4.2 было показано, что un^U i = «= [—-йч, К{\ для всех лг = 1,2,.. ""fa ^ Qi,Q2 и1 С) == и)\ ±3?quq!(x, и, С) = 1-СЧ(х, и), где Ф, Т удовлетворяют условию Липшица и ограни¬ чены на EtXU 1. Следовательно, выполнены усло¬ вия (4.27) и, тем самым, теорема полностью доказана. ■ Теперь мы можем сформулировать алгоритм выделе¬ ния подпоследовательности, сходящейся к стационар¬ ной точке задачи (4.6,7). Шаг 1. Задаемся начальным приближением {х\,и\) и числом е > 0. Шаг п. На п-и шаге итеративного процесса (4.36) сравниваем значение с е. Если |гл„| < е, то счита¬ ем (хп, ип) членом подпоследовательности, сходящейся к стационарной точке, уменьшаем е в два раза и пере¬ ходим к (тг+1) шагу. Если \ип\ > е, то переходим к шагу (п1), сохраняя прежнее значение е. § 20. Стохастические алгоритмы в минимаксных задачах (выпуклый случай) Рассмотрим прежнюю задачу отыскания максимина с ограничениями (4.6,7). Будем предполагать, что функции срДя), i — 1, ... ..., га, непрерывны и вогнуты на выпуклом компакте X с Eh функции F {х, у), -^Е (х, у) непрерывны на про¬ изведении X и компакта Y евклидова пространства, причем F(x, у) вогнута по х для любого y^Y. Для отыскания оптимальной стратегии воспользуем¬ ся итеративным процессом 2n-fi “ Pz Сп | Уп, ?7l)j, ^ 1» 2, . . . (4.38) Напомним, что в (4.38) использованы обозначения пре-
§ 20] СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ (ВЫПУКЛЫЙ СЛУЧАЙ) 239 дыдущсго параграфа: z=(x, и), Z = Xx U, где U — достаточно большой отрезок, содержащийf min F (х,у), [(Х'У'еХхУ шах F (х, у) 1 и П2 — оператор проектирования на Z. Сx,y)t=XXY J Заметим, что при наших предположениях функция ^ <7ь<7« (^’ 2 и, С j /у, i) вогнута ио z = (х, и) на Z для любого С > 0,gi, q2 > 1. Для того чтобы исследовать сходимость процес¬ са (4.38), докажем сначала ряд вспомогательных ут¬ верждений. Введем обозпачегия Q*= Arg max min F (x, y)X{u*}— дел iye г множество решений задачи (4.6,7); О?, = {z<=Z I s4u „(z, Cn) > и* - 6}, 6 > 0. Очевидно, что замкнуты, выпуклы и ограничены в Е,+1, Q?,2Q£+i при C„<Cn+1 и Qn' G Я6„* (4.39) при любых п, Si, 62 (0 ^ Si ^62). Лемма 4.1. Пусть СпХ оо; тогда I) Q* = П п II) Q° = na«* h для любой последовательности {SJ такой, что lim 0. к—юо Доказательство. I) Возьмем произвольную точ¬ ку z* = (х*у п*) е Q*. Тогда функция штрафа <7,(2*) в (4.8) равна нулю и, следовательно, для любого ft. Итак z^gQL ft ^ 1, т. е. п ) Пусть теперь ъ' = (хи') «= Q = f) Q?,. Из определе- 11 ния Qn получаем, что и'>и*. Предположил!, что и' > и*, тогда f Чи q,(z')< 0 и, значит, найдется та¬ кое N, что 2?Чи qt(z', СN) < и*. Последнее неравенство противоречит условию z' s Q, следовательно, и' = и*. Если же и* > min F (х', у), либо х'&А, то снова wev
246 ЙЙСЛЁЙНАЯ реализация МЕТОДА ШТРлбоЙ (ГЛ. 4 ?яи яг ОО <0 и 2r ^ Q. Таким образом, х' е А, и' = и* = = min F (х'у у), т. е. z' е Q*. Первое утверждение леммы yeY доказано. Второе утверждение — очевидно в силу (4.39). ■ Следствие. Из доказанных равенств получаем, что при Сп^оо, 8*^0 в метрике Хаусдорфа lim Qnn = fl fl«=Q*. П—»оо n Сходимость итеративного процесса (4.38) вытекает из следующей теоремы. Теорема 4.5 [47]. Пусть функции F{x, у), — F (х, у) непрерывны на X ХУ и F(x, у) вогнута по х на X для любого y^Y\ функции фг(я); i = 1, ... ..., m имеют непрерывные частные производные и во¬ гнуты на X. Предположим, что числовые последовательности {дп}, {Сп} удовлетворяют условиям ап \ 2 ап = °°> П---1 С л А ОО, 2 впСп <С ОО п -1 (4.40) {например, ап = н_3/4, Сп = га1/5). Тогда для любого начального приближения z\ = = (xj, Hi) последовательность {zn}, определяемая ите¬ ративным процессом (4.38), с вероятностью единица сходится к множеству Q* решений задачи (4.6,7). Доказательство. Заметим, что из условий, на¬ ложенных на F{х, у), фг(^), 1 < i < яг, вытекает суще¬ ствование постоянной К > 0 такой, что max | | lqu g2(-sn, Сп\уп, in) |, j ^ lqu q2 (zn, Cn | yn, fn) Пусть 8n \ 0. Покажем, что если z^eQ^, то п р2(г„, Q*) ^ е„, <КСп. (4.41)
$ 201 СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ (ВЫПУКЛЫЙ СЛУЧАЙ) 241 lime„=0, р(z„, Q*)—расстояние от точки г„ до мно- п-*°° жества Q*. Из свойств оператора проектирования для любого имеем \Zn+l — z|2<|z„-z|2 + + 2я„ lquq, (г„, Сп I уп, in), zn— zj + а” \~я7 ЧияЛ2п1 Сп | Уп> hi) • (4-42) dz В силу ограниченности Z и оценки (4.41) отсюда следует, что Р“ (2п+1» й*) ^ р2 (zn, й*) -1- KifinCn -f- КыйпСп для некоторой константы К\ > 0. бп Если е йп , то из последнего неравенства вы¬ текает р2 (*n+1, Q*) < 0 (q!/\ Q*) + - е„ > 0, где р(Л, В) — отклонение множества Л от множест¬ ва В (см. § 1). Из следствия к лемме 4.1 и усло¬ вий (4.40) теоремы получаем, что lim е7г — 0. п-юо Рассмотрим случайную последовательность {0/1 ~ ttnlqltq2 {Zni Сп | Уп, О/)}’ Из оценки (4.41) имеем | е„ I < Капсп, 0',; < Кга1с1\ п = 1,2,..., следовательно, и с» ЕО» < КЮ1а2п, 2 Е9п < оо. 71— 1 Отсюда ([46], стр. 21, следствие теоремы 1) вытекает, что последовательность случайных величин 2 1—Е(0у|(г/j,»,). ...ЛУЗ-1. h-i))]Y j-1 )n=i уходится к случайной величине с вероятностью единица,
242 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Заметим, что ^ (®/ I (У1> Ч)» • • •» (Уп—1» гп— l)) ~ q\At (Zm Cn) и, таким образом, an^q \Аг (Zni Сп I Уги ?*7l) = ап^ q хАг (Zm ^п) Ч" ^П» оо где ряд 2 vn сходится с вероятностью единица. Ис- П —1 пользуя (4.42) и вогнутость lguQl (z, С \ у, i) по z, полу¬ чаем, что при г е Q* |zn+i — г |2< ^ I гп Z 1“ “Ь 2яп {lquq, (zn> Cn I !/„, f’n) Ц*) -f" K^d^Cn — = I - г Is + 2an (&tuq, (*„, Cn) - u*) + Wn, oo где ряд 2 Wn сходится, с вероятностью единица. Так и—\ как последнее неравенство справедливо для любого ТО p2(z,l+1, а*) < р2 (zn, а*) + 2ап (2%„?, (z„, Сп) - и*) + И7,,. (4.43) Пусть {6„} — такая последовательность положительных оо чисел, что 6«\0, 2 Я/Аг = оо- Используя неравенство п —1 p2(z„, й*) ^ еп, перепишем (4.43) в виде ГЛ^п е?1, если zn <= Ып ; р2 (z„, Q*) + 2а„ (S’,,.,, (z„, CJ - «*)+ + Wn, если zn Q*". р*(г„.|-1, Q*)< Так как &qt,q, (zn, Сп) — и* < — бп при z„ а,", то отсюда вытекает неравенство p2(zn+i, Q*) < max {е„, p2(z„, а*) — 2а„б„ -f- W„}, где е„ > 0, Ню еп = 0, ряд 2 Wп < 00 с вероятностью П—1 единица, 2 й,.б„ > 0. П~[
§ 20] СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ (ВЫПУКЛЫЙ СЛУЧАЙ) 243 Применяя теперь лемму 8 из [2] (стр. 229) заклю¬ чаем, что lim р2 (zn, Q*) = 0 почти наверное. Теорема ?i jo доказана. ■ Замечания. 1. В работе [71] аналогичная теоре¬ ма доказана при более жестких ограничениях на после¬ довательности {tfn}, {^п}. 2. В том случае, когда в минимаксной зада¬ че (4.6,7) X = Ei и функции F, сри 1 < i ^ т, удовлет¬ воряют условиям теоремы 4.2, для решения задачи можно применять процесс zn+l = zn + ап /9„7г (2„, Сп | уп, /„); л = 1, 2,, где {яп}, {Сп} подчиняются условиям (4.40). Итак, мы установили, что в выпуклом случае при решении задачи поиска максимина отпадает надобность в построении следящего алгоритма, т. е. в выделении соответствующей подпоследовательности. Это, несом¬ ненно, облегчает численную реализацию метода. Пример [71]. Метод (4.38) применялся для отыскания максимннов функций м*. 0=1 +(*-4-) Ft(x, у) = exp (- - у)2) + ехр (- (** - у)2)-, x = (xv я2); *,(*, у) = ехр (— {х1 - ух)2 - (х2 - z/.,)2); х ={xl,x2);у = (yv z/2), когда X, Y — единичные кубы. Последовательности {я„}, {Сп} выбирались в виде ап — 1//г, Сп = п2/ъ. Результаты численных эксперимен¬ тов отражены в табл. 4.1. Машинное время в минутах указано для ЭВМ БЭСМ-4. При численной реализации стохастических алгорит¬ мов в минимаксных задачах целесообразно использовать ряд практических рекомендаций, указанных в [71]. Обсудим теперь особенности стохастических алгорит¬ мов из §§ 19, 20. Достоинствами процедур (4.36,38) являются: просто¬ та реализации, устойчивость относительно вычислитель-
244 численная рёалйзаЦйя метода ШтраФой [Ел. 4 иых погрешностей и отсутствие операций интегрирова¬ ния. Эффективность данных методов по сравнению с гра¬ диентными методами решения задачи (4.8) увеличивает¬ ся с ростом размерностей х и г/. Таблица 4.1 Функция Начальное приближение Получен мое значение Точное решение Время F, Х\ = 0, i/i = 0 1 l/i = l х = 0.500, и = 1.007 х = 0.500, и = 1.002 1 х* ■■•= — 2 г/*= 1 5 5 *1 = (0, 0), г/i = 0 НИ) 1/1 = 1 х = (0.504, 0.504) и = 1.66 х = (0.494, 0.494) и = 1.57 НИ) гг* = 1.55 10 10 *‘-(f т} х = (0.4999, 0.4999) 20 г/, = 1.56 и = 1.56 х\ = (0, 0) х = (0.50, 0.49) -(H) 25 F, г/i = 0 ■ИИ) i/i= 0,61 а = 0.62 \х = (0,49999, 0.50000) а = 0.608 и* = 0.606 45 Что же касается сходимости, то, как показывает про¬ счет тестовых примеров, сравнительно быстро достигает¬ ся первое приближение к гг* и достаточно хорошее при¬ ближение к множеству оптимальных стратегий. Дальней¬ шее уточнение координаты и происходит довольно мед¬ ленно, так что для практического ускорения сходимости
§ 20] СТОХАСТИЧЕСКИЕ АЛГОРИТМЫ (ВЫПУКЛЫЙ СЛУЧАЙ) 245 рекомендуется использовать различные модификации ал¬ горитмов (например, один шаг по переменной х чередо¬ вать с несколькими шагами но переменной и) и исполь¬ зовать все более точные стохастические оценки (£n, rf)‘ градиента функции 3? ЯиЯг2 (например, увеличивать чис¬ ло испытаний при вычислении интегралов методом Мон¬ те-Карло). Заметим, что алгоритмы (4.36,38) не опираются ни на какие специальные свойства зависимости функции F от у. В то же время методы, использующие дифференци¬ руемость по направлениям функции минимума / (х) = = min F (х, у) (134]), требуют глобальной минимизации F у<= Y по у. Отсутствие общих алгоритмов глобальной оптими¬ зации ограничивает класс решаемых данными методами задач: рассматриваются максимины выпуклых по у функ¬ ций F, максимины с конечным множеством У и т. д. Возможность использования стохастических алгорит¬ мов в минимаксной задаче обусловлена методом штра¬ фов, с помощью которого задача (4.6,7) с любой сте¬ пенью точности сводится к отысканию максимума мате¬ матического ожидания (4.8). Тем самым неопределенный фактор у в операции с критерием эффективности F(x, у) приравнивается к случайному фактору в операции с осредненным критерием EZ9l>g2(#, и, С\у, i) и стратегией (х, и) оперирующей стороны. Точнее, неопределен¬ ный фактор с любой степенью точности можно считать случайным, если изменить цель операции соответствую¬ щим образом. Этот подход перекликается с известной ги¬ потезой Лапласа, когда у — природная неопределенность. Алгоритмы (4.36,38) часто интерпретируются как ал¬ горитмы обучения или адаптации в случайных сре¬ дах ([104]). Возвращаясь к нашей исходной зада¬ че (4.6,7), можно назвать процессы (4.36,38) алгоритма¬ ми обучения в условиях неопределенности, основанными на замене неопределенного фактора случайным. Такой взгляд на методы (4.36,38) сближает их с известным итеративным методом Брауна решения игр. Сходимость метода Брауна установлена для игр с седловой точкой ([И, 32, 84]); при отсутствии в игре седловой точки лег¬ ко строятся примеры, когда процедура Брауна расходится. В алгоритмах (4.36,38) игроки, преследующие проти¬ воположные цели, проводят локальное улучшение своего
246 Численная реализация метода штрафов (гл. 4 выигрыша: один — по стратегии z= (х, и), второй — по стратегии С. Именно локальные действия игроков и обе¬ спечивают сходимость процессов (4.36,38). §21,0 вычислении кратных макснмннов Проблема вычисления кратных или последовательных максиминов является весьма актуальной. Продвижение в данной области позволило бы решать задачи, связан¬ ные с многоэтапными процессам принятия решения. К сожалению, в настоящее время не существует универ¬ сальных методов, позволяющих находить максимины большой кратности. Это в полной мере относится и к из¬ ложенному в § 5 методу штрафных функций. Метод штрафных функций открывает принципиальную возможность отыскания кратных максиминов с помощью существующих методов оптимизации, однако его реали¬ зация требует преодоления вычислительных трудностей, которые быстро растут с увеличением кратности макси- минов. Эти трудности, как и в случае обычного макси¬ мина, связаны с вычислением интегралов, большими значениями штрафных коэффициентов и многоэкстре- мальностыо штрафной задачи. Возможные пути их прео¬ доления рассмотрим па примере задачи отыскания мак¬ симума минимакса w* = max min max F (x, z/, z), (4.44) XGI уЕУ zGEZ к которой сводится практически важная и распространен¬ ная двухэтапная процедура принятия решения в услови¬ ях неопределенности. Следующие рекомендации могут оказаться полезными при выборе метода решения задачи (4.44). 1. Если в (4.44) множество Y конечно, т. е. Y= — {уь •••» то можно понизить кратность максимина за счет увеличения размерности, так как iv* = шах min max F (х, yt, z) = max min F (x, yt, zt). KGX l<i<A rEZ xeX.zi^Z Следовательно, поиск максимума минимакса (4.44) свел¬ ся к нахождению максимина в пространстве переменных (х\ zi, ..., zh) более высокой размерности. Решать полу-
§ 21] О ВЫЧИСЛЕНИИ КРАТНЫХ МАКСИМИНОВ 247 лившуюся максиминную задачу можно методами §§ 18— 20, а также соответствующими алгоритмами из рабо¬ ты [34]. При численной реализации здесь следует учесть блочную структуру задачи (см. § 22). Точно таким же приемом можно понижать кратность других последовательных максиминов. Например, max min max min max F ^ (x, y, z) = x<aX yeY 1 <j<m zEZ В этом случае снова получается задача с блочной струк¬ турой в пространстве переменных {х\ уь ..., уА; я1Ь ... ..zim; Z2u • • •» z2m; r.zki, . .zkm) высокой размерно¬ сти, для решения которой пригодны методы §§ 18—20. 2. Вычислять максимум минимакса можно и путем комбинирования метода «невязок» из § 18 с методом штрафов из § 5. А именно, сначала следует свести зада¬ чу (4.44) к максимину w* = lim max min | min (0, v — F (x, y, z)) |pc?|x (z) где p > 1, V — достаточно большой отрезок на числовой оси, а затем применить при достаточно большом С ме-^ тод «невязок» поиска максимина. Очевидно, подобная па¬ раметризация задачи (4.44) связана лишь с одним пара¬ метром С, принимающим большие значения. 3. В общем случае в соответствии с результатами § 5 задача (4.44) приближенно сводится к задаче на макси¬ мум вида max min max Fц (x, yt, z) = x^X i<i<h :£Z Vi&? i<j<m max mm xE^fyieY,?j)-eZ i<i <k min Ftj (x, ytJ zu). C-*oо xGX y£=Y rev
248 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 где р, q > 1, С, Z) — коэффициенты штрафа; U, У —до¬ статочно большие отрезки на числовой оси. Решение задачи (4.45) градиентными методами за¬ труднено не только вычислением интегралов, но и усло¬ вием согласования параметров С и D: Dm+l = о (С) при D-+- оо, где т — размерность параллелепипеда 7. Если т вели¬ ко, то параметр С растет значительно быстрее, чем D и для достижения удовлетворительной точности аппрок¬ симации задачи (4.44) задачей (4.45) могут потребовать¬ ся слишком большие значения С, D. Однако при реше¬ нии простейших тестовых примеров оказалось, что в не¬ которых случаях можно не придерживаться условий согласования параметров С, D и получать решение с за¬ данной точностью. По-видимому, это связано с тем, что условия согласования из § 5 существенны лишь при до¬ статочно больших значениях С, D, т. е. когда требуется найти максимум минимакса (4.44) с относительно высо¬ кой точностью. Применение в задаче (4.45) метода стохастического градиента из § 19 позволяет избавиться от операции ин¬ тегрирования по 7.Х У, но интегрирование по Z остается. В связи с этим большой интерес представляет разработка стохастических методов решения задач типа (4.45), осно¬ ванных на наблюдении значений случайных величин У у v, z. Возвращаясь к интерпретации алгоритмов из § 19, 20, можно сказать, что целевой функционал в задаче (4.45) описывает так называемую «сложную цель обучения» ([104]) в случайной среде. К функционалам указанного типа сводится и решение некоторых двухэтапных задач стохастического программирования ([46, 106]). Задачи отыскания максиминов большей кратности или много¬ этапные стохастические задачи требуют оптимизации еще более сложных функционалов. Общий подход к мини¬ максным задачам с позиций метода штрафных функций позволяет надеяться, что дальнейший прогресс в области методов стохастического программирования отразится и ца методах поиска кратных максиминов.
КОМБИНИРОВАННЫЙ МЕТОД 249 § 22. Комбинированный метод стохастических градиентов и штрафных функций для решения задач математического программирования Поставим задачу отыскания точки х* = arg max F (х), (4.46) хеА где А = {х е X | ф (х, i) > 0, 1 < i < т}, X — выпуклый компакт из Et. Заметим, что отыскание величины максимума maxF (х) сводится к задаче (4.46) введением дополнительной ска¬ лярной переменной и, в результате чего получаем зада¬ чу: и -> max при ограничении F(x) —и ^ 0. хеА.и Для решения задачи (4.46) можно использовать тот же самый подход, основанный на сочетании метода сто¬ хастического градиента и штрафных функций, который мы в §§ 19, 20 применяли к минимаксным задачам. Рассмотрим процесс: xn+i = Щ(.тп+а4п); /г= 1, 2,.., (4.47) Здесь стохастический градиент определяется по фор¬ муле dF(x ) д dx ' ~~ СI miD <0’ ф Шп)) М W Ф ©J. (4.48)' где (о„ — реализация случайной величины со, принимаю¬ щей значение из множества /={1, ..., ш) с положитель¬ ными вероятностями ai, ..си в п-м независимом испы¬ тании; х\ —- начальное приближение; {Cn}, {an}—число¬ вые последовательности; П* — оператор проектирования на X; q> 1. Справедлива следующая теорема о сходимости про¬ цесса (4.47,48). Теорема 4.6 [47]. Пусть в задаче математического программирования (4.46) функции F(x), ф(я, i), 1< ^ i < тп, непрерывны вместе со своими производными и вогнуты; X—выпуклый компакт из Eh Аф0; числовые последовательности {an}, {Сп} удовлетворяют услови¬ ям (4.40). ® Э. В. Федоров
250 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Тогда для любого начального приближения Х\ после¬ довательность {хп}, определяемая процессом (4.47,48), с вероятностью единица сходится к множеству Arg max F (х) асел решений задачи (4.46)'. Доказательство вполне аналогично доказательству теоремы 4.5. Процесс типа (4.47,48) может применяться и для отыскания стационарных точек в невыпуклых задачах, математического программирования, подобно тому как это было сделано в минимаксных задачах из § 19. При этом в случае большого числа ограничений задачи (4.46) для выделения подпоследовательности, сходящейся к стацио¬ нарной точке, целесообразно использовать следящий ал¬ горитм (см. теоремы 4.3,4). Процедуру (4.47,48) можно трактовать как нестацио¬ нарный процесс математического программирования .([68]), позволяющий отслеживать множество решений задачи тп max 2?q (х, С),2 ч(х, C)—F(x)~C 2аг|тт(0, Ф(г, г))|7 х<ЕХ г = 1 при изменении параметра С. Найденные условия согласования (4.40) последова¬ тельностей {Сп}, {ап} обеспечивают не слишком боль¬ шую скорость «дрейфа» экстремума функции 9?q и по¬ вышение точности его отслеживания при возрастании п. Процесс (4.47,48) удобнее записать в следующем виде: #n+i = П;^ |хп -f- ап ^ F (хп) -f- + фп I min (0, ф (хп, ©„)) ф (*„, ®п)}. (4-49) где {ап}, {Ьп = Спап} удовлетворяют условиям ап, Ьп>0; оо оо ап \ 0; 2 ап = 00 J 2 Ьп < оо (например, ап = п~г/Ач 71 — 1 71 —1 Ьп = лг-и/20). Легко видеть, что Ъп -> 0 и поэтому в методе (4.49) отсутствуют неудобства, связанные с умножением боль¬ ших параметров штрафа на малые невязки. Работоспособность алгоритма (4.49) была проверена на ряде тестовых задач небольшой размерности,
КОМБИНИРОВАННЫЙ МЕТОД 251 П р и м е р. Задача выпуклого программирования с двумя переменными и семью ограничениями: F (х) = —]/’хх + х2 -> шах, — х\ — х\ + 16 ^ 0, х\ + х\ — 1 ^ О, — х\ — х2 + 8 0, (хх 2)2 + х\ — 1 ^ О, — а?! + я2 + 3 ^ 0, ^ — х2 + 2 ^ О, i 2х1 — я2 + 1 ^ 0. Точное решение этой задачи есть х*= (1.646. 3.646),» F (х*) =2.36. В алгоритме (4.49) последовательности {ап}, {&п} вы¬ бирались в виде an=n~l, bn = rr2/z, q = 2,4, а в качестве начального приближения была взята точка х\ = (8,8). Сходимость процесса по значению целевой функции F[x) отражена на рис. 4.2. Нетрудно заметить,' что при больших п (когда шаг по стохастическому градиенту мал) точность решения задачи повышается чрезвычайно медленно. Поэтому на практике процесс (4.49) следует время от времени «об¬ новлять». Как и при поиске максиминов здесь наблюда¬ ем
252 ЧИСЛЁНЙАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 лась более быстрая сходимость по стратегии к х*, чем по переменной и. Нетрудно заметить, что в подобных задачах эффек¬ тивность алгоритма (4.49) невысока. По-видимому, до¬ статочно хорошими объектами для применения комбини¬ рованного метода стохастических градиентов и штраф¬ ных функций являются задачи большой размерности. Обсудим более подробно вопрос о том, в каких слу¬ чаях может оказаться выгодной редукция задачи мате¬ матического программирования к задаче на максимум математического ожидания с дальнейшим применением алгоритма (4.49). 1) Задачи с большим числом ограниче¬ ний. Алгоритм (4.49) на каждой итерации оперирует лишь с одним ограничением задачи математического про¬ граммирования (4.46), соответствующим случайной реа¬ лизации со. Отдельную итерацию этого алгоритма можно рассматривать как итерацию детерминированного алго¬ ритма решения задачи максимизации F (х) при наличии случайно выбранного из множества {ф(#, i) ^0|i<=/} ограничения. Следовательно, при достаточно большом числе огра¬ ничений процедура (4.49) имеет преимущества перед иными алгоритмами, оперирующими со всеми ограниче¬ ниями. В особенности это относится к задачам, в кото¬ рых ограничения могут формироваться по мере надобно¬ сти в ЭВМ. Задачи с большим числом переменных и от¬ носительно малым числом ограничений могут быть реше¬ ны, если предварительно перейти к двойственной задаче. 2) Задачи с блочной структурой. На прак¬ тике часто встречаются задачи математического програм¬ мирования с ограничениями специального вида К такого рода задачам приводятся, например, задачи ли¬ нейного программирования, в которых ограничения Ах ^ ^ Ь задаются матрицей с блочной структурой ф(я\ #m+I, i) > 0, 1 ^ i < т. (4.50)
Комбинированный метод 253 где At = (а(Д) — матрица размера (rt X st); х* = (хи,xiSi); Dt = (dtf) — (rt x sm+i) матрица; b* = {btl,...,btri). Для того, чтобы записать ограничения Ах> b в виде (4.50), достаточно положить, тшримср, ср (xU a:m+1» *) = Tt = -2 i-1 / l<!t °7П |-1 \ in 0; 2 а\У} + 2 4'ДтИ';-^) Задачи с блочной структурой появлялись у пас и в § 21 при изучении минимаксных задач. Пусть целевая функция в задаче математического программирования (4.46,50) сепарабельна, т. е. имеет вид т |-1 _ 771 Д-1 F (.г) = 2 ф, (У) и X = П Xf i = l 2=1 Тогда процесс (4.40) с учетом специфики ограниче¬ ний (4.50) и целевой функции записывается следующим образом: хгп+1 = Пд-г{^+ Сг(х^ х„+1, ап, 6„|со„)), (4.51) xZ# = П*т+1 |^+1 + г) (жп, ап, Ъп | <»„)}, (4.52) 1 < i < т\ /2=1, 2, где обозначено £г(ж\ хт+\ а, 6|ш) = а -Ь ь<71 min (0, ф(ж\ жт+1, t))f * X х а? фО^У""1"1* 0; при ® = *; ad?^(y) ПРИ ®^=i; Л (*. а, 61 (о) = а 4>m+i (^т+‘) + + bq [ min (0, ф (ж®, жт+1, со)) |9—1 ^+1 ф (ж®, xm+i, ю). Здесь, как и в (4.49) со ^/= {1, ..., т}.
254 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Заметим, что rj при каждом фиксированном a) = i яв¬ ляется функцией лишь х\ xrn+l. Алгоритм (4.51,52) можно реализовать в системе, со¬ стоящей из управляющего устройства S& и т вычисли¬ тельных устройств 1 ^ i ^ т. В блоке S& задан датчик случайных чисел, задающий распределение на I. В каждом из блоков производит¬ ся вычисление процедур (4.51,52) при соответствую¬ щем U Система работает следующим образом (см. рис. 4.3). Рис. 4.3. .x/-+xj r£ "Я*1 ~ зГ-»Лf ■ • «* • . <&i ... Пусть задано начальное приближение х1 = {х\,.. х™+1). В управляющем блоке производится случайное испытание и определяется реализация со = г, сообщаемая в вычислительные блоки. Затем начинает работать блок 3$i и по процедурам (4.51,52) вычисляет х\, х™^1. При этом производятся операции лишь с вектором (х\, х™+1) и функциями ф(*, i), г|)<(•). В блоках j Ф i, в соответ¬ ствии с определением £*, ц одновременно выполняется процедура 4 = nXj jz| + аг ф ^ (жО Найденное в значение запоминается во всех остальных блоках ^ при / ф i.
АЛГОРИТМ РЕШЕНИЯ ЛИНЕЙНЫХ ИГР 255 Далее в зФ делается следующее случайное испытание и в зависимости от его результата приступает к работе очередной блок что приводит к £3, Значения заносятся во все остальные блоки и процесс пов¬ торяется. Рассмотренная система вычислительных устройств фактически осуществляет декомпозицию задачи (4.46,50). Если размерность каждого вектора х* невелика, то рабо¬ та блоков не требует большой памяти. Реализация итеративных процедур типа (4.47,49) тре¬ бует решения целого ряда проблем, связанных с рацио¬ нальной организацией вычислений. Это обусловлено на¬ личием большого числа управляющих параметров алго¬ ритма, таких как выбор последовательностей {ап}, {6п}, выбор стохастического градиента £п, распределения ве¬ роятностей на /, которые следует менять в ходе решения задачи для ускорения сходимости. Например, в алгорит¬ ме (4.51,52) можно распределить процедуры (4.51) по вычислительным блокам 3$,, 1 < / < m так, чтобы мини¬ мизировать время выполнения отдельных итераций. Ав¬ томатизировать изменение управляющих параметров для широкого класса задач достаточно трудно. Поэтому при численной реализации алгоритмов целесообразно преду¬ сматривать контакт человека с ЭВМ, позволяющий сле¬ дить за ходом вычислительного процесса и вмешиваться в него. § 23. Алгоритм решения линейных игр с передачей информации и запрещенными ситуациями 1. До сих пор изучались проблемы комбинирования метода штрафных функций, понимаемого как метод осво¬ бождения от ограничений, с градиентными (локальными) методами оптимизации. Эти методы позволяют отыскивать стационарные точки в минимаксных задачах с распадаю¬ щимися переменными (см. § 19). Если же с помощью ме¬ тода штрафов освободиться от ограничений в вадаче со связанными переменными, то можно находить стационар¬ ные точки и в таких задачах. Однако подобный подход часто не решает проблемы, поскольку минимаксные зада¬ чи со связанными переменными, как правило, многоэкст¬ ремальны. Поэтому следует разрабатывать и специальные
256 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 алгоритмы для поиска тех или иных максиминов со свя¬ занными переменными, основанные на комбинировании метода штрафных функций с методами глобальной опти¬ мизации. В настоящем параграфе будет дан один пример соче¬ тания метода штрафов с одним из методов направленного перебора — методом ветвей и границ для решения следу¬ ющей минимаксной задачи со связанными переменными: найти и* = sup min [(а, х) +(6, у)] (4.53) гсеХ у^В(х) и точку X* е X, для которой U* = min [(а, х*) -\-(Ь, у)\. у^В{х*) Здесь В (х) =Arg max (с, у), У*=У(Х) Y(x) = {y>0\Ax + By<d}; Х = {х > 0\Y(x) Ф 0}, (4.54) а, х е Еп; Ь, у е Et\ d <= Ет\ А — (т X п) матрица; В — — (тХ1) матрица; множество D= {(о:, у) > 0\Ax -f- + By ^ d} — многогранник, т. е. ограниченное много¬ гранное множество. Дополнительные линейные ограниче¬ ния на х, у предполагаем уже включенными в (4.54). Отыскание величины и* сводится, таким образом, к на¬ хождению max / (х), где f (х) = min [(а, х) + (6, у)\. хех i/едх) Заметим, что максимум f(x) на многограннике X дости¬ гается в силу линейности критериев и ограничений, т. е. существует оптимальная стратегия х* е X. Поиск х* и величины и* требует решения максимии- ной задачи со связанными переменными. Функция мини¬ мума f (x), как правило, многоэкстремальна (кусочно-ли¬ нейна), что усложняет применение локальных методов вычисления максиминов. Поэтому целесообразно преобра¬ зовать исходную задачу, используя идеи метода штрафов для того, чтобы воспользоваться методами направленного перебора.
АЛГОРИТМ РЕШЕНИЯ ЛИНЕЙНЫХ ИГР 257 Множество В(х) при фиксированном х ^ X описывает¬ ся системой линейных относительно у неравенств By*^.d— Ах; (с, у) > шах (с, z). (4.55) zeY(x) Пусть y^Y (я)\В(;г), тогда, как показано в лемме 1.12 § 3 max (с, z) — (с, у) > р • р (у, В (х))у (4.55) геУ(зс) где р(у, В(х)) — расстояние от точки у до множества В(х) и (} > 0 — константа, не зависящая от х. Лемма 4.2. Существует число 'у0 > 0 такое, что при всех у >7° задача (4.53,54) эквивалентна отысканию max min [(а, s) -f у (с, z) + (6 — ус, у)]. (4.56) (зс,2)ен 1/£У(х) Л именно, если ж*, z* реализуют максимин (4.56), го я* — оптимальная стратегия в задаче (4.53,54), причем значение максимина (4.56) равно и* — наилучшему га¬ рантированному результату (4.53). Обратно, если я* — оптимальная стратегия, го пара ж*, z*, где z* = arg max (с, у), уеУ(зс*) реализует максимин (4.56). Доказательство. При фиксированном х функция {Хх У) ~ max ici z) — (с, */) равна нулю на множестве zeY(x) В(я) и положительна на Y (#)\fi (я), т. е. является внешней функцией штрафа. Определим у0 = |Ь|/р, где Р > 0 — константа, удовлетворяющая (4.55). Пусть y^Y (х)\В (х) и г/ — проекция у на В(х). Тогда в си¬ лу (4.55) Ф, у) + у- f (х, у) >Ф,И) — \Ъ\Р (*, в (х)) 4- + YPP (у, В {х)) > (6, min (Ъ, г/). y£J’;jС) Таким образом, при любом х минимум min 1(6, у) + у/ (х, у)] 1/еУ(х) достигается на множестве В(х) и равен min (д, у). У^В(х)
258 числёцйая рёалйзацйя Метода штрафов 1Гл. 4 Учитывая, что min [(6, y) + y-f (х1 j/)] = max min [у(са z) + (6—усг у)], у^У(х) zeY(x) уеУ(х) . . получаем отсюда утверждение леммы. ■ Итак, решение исходной задачи (4.53,54) свелось к поиску максимина (4.56). Максимизируемая в (4.56) функция минимума в отличие от /(я) будет выпуклой по (я, z) (лемма 1.8) и, следовательно, достигает максимума в одной из вершин многогранника D. Отметим тот оче¬ видный факт, что если (я*, z*) — вершина D, то я* — не обязательно вершина многогранника X, являющегося про¬ екцией D. Лемма 4.3. Пусть (я*, z*) — крайняя точка много¬ гранника D, а у* — крайняя точка У(я*), Тогда (я*, z*, у*) — крайняя точка многогранника D = {(я, z, у) 0|Ах + Bz < d, Ах + By < d}. Доказательство. Предположим, что (х*, г*, у*) = а(*1, z,, ух) + (1 — а) (х2) z2, у2), где 0 < а < 1. Тогда (х1( Zj) = (х2, z2) = (х*, z*), так как (я*, z*) — крайняя точка D. Таким образом, (я5**, Z*, р*) = а (я*, Z*, z/i) + (1 — а) (я*, z*, у2)« Но у* — крайняя точка У(я*), следовательно У\ = У2 — У*< Лемма доказана. ■ При фиксированных (я, z) минимум <Р (** z) = min [(а, х) + ? (с, *) + (& — уех у)] (4.57) уеУ(х) достигается в одной из вершин У (я). Поэтому для отыскания максимина (4.56) и оптималь¬ ной стратегии я* достаточно, в силу леммы 4.3, перебрать все вершины (я, z, у) многогранника D, обладающие тем свойством, что при фиксированных я, z точка у реализует минимум (4.57). Преобразование задачи (4.53,54) к задаче (4.56) игра¬ ет решающую роль при построении численного метода, Пусть многогранник D задан в каноническом виде D = {(*, У, t, z, 5) ^ 0| Ля + By + t = d, Ля -f Bz -f- я = d} f где 5 — дополнительные переменные.
АЛГОРИТМ РЕШЕНИЯ ЛИНЕЙНЫХ ИГР 259 Как уже отмечалось, для поиска максимина (4.56) следует организовать перебор вершин многогранника D, Объем данного перебора можно уменьшить, используя следующий факт. ^ Если (х, у, t, zi, s 1), (я, у, t, z2, 52) — крайние точки D такие, что у реализует минимум в (4.57), a zi, z2 реали¬ зуют max (с, z), то эти крайние точки эквивалентны zeY(x) в том смысле, что ф(я, zx) = ф(я, z2). Следовательно, можно ограничиться перебором лишь таких вершин (х, у, £, z, 5) многогранника D, для которых, во-первых, при фиксированном х точка z реализует max (с, z) и, во- ze Y(oc) вторых, любые две рассматриваемые вершины (хи yh th Zi, Si), 1=1, 2 отличаются, по крайней мере, одной из координат (х, у, t). Осуществить указанный перебор помогает использова¬ ние метода ветвей и границ в линейных задачах типа (4.56) ([109]). Изложим алгоритм ([98]), учитывая спе¬ цифику задачи (4.56) и сделанные выше замечания. На первом шаге симплекс-методом вычисляем верх¬ нюю оценку vx = max ___ [(а, х) + Y (с, z) + (b~ Ус>. У) 1 (М (x,i/,<,z,s)eD и находим опорный план Р(1) = (х\, у\, t\, z\, si) ре¬ шение задачи (Ii). Вектор Р (1) = (/?},..prl+2t+2m) s En±2i+2mx так как х ^ }hn\ у, z Ei* £, s ^ Ет. Обозначим через Т( 1) мпожество номеров базисных переменных вектора Р(1), являющихся координатами вектора (xuyuti). Затем находим нижнюю оценку как решение задачи wx = min [(а, хх) + у (с, zj + {b — ус, р)]. .(Hi) 1/eY (xj Очевидно, ivу < и* < v\, и если w 1 = иi, то хх — х* — оптимальная стратегия. Если w\ < щ, то переходим ко второму шагу. Так как (х\, у\, t\) определяет неоптимальную точку в задаче (4.56), то по крайней мере одна из базисных пе¬ ременных плана Р(1), соответствующая множеству Г(1), должна быть заменена на небазисную.
260 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. i Поставим задачи, порождаемые задачей (11), uh = шах ^ [(а, х) + у-(с, z) + (x,ytttz,s)&D -|- (Ь — ус, у) | p[h — иебазисная переменная],(1;,) где /*«= Т(1), к >2. Если план Р(1) невырождон, то Т (1) = {г 11 ^ п -f I + m, р\ > 0} и, следовательно, ограничение в (1/{): р* — небазисная j/l г\ переменная записывается как р i =U. Далее будем говорить, что задачи (I/t) получаются вет¬ влением задачи (Ii) Если множество допустимых планов какой-либо зада¬ чи (lb) пусто, то в дальнейшем ее исключаем из рассмот¬ рения, полагая uh= — оо. Хотя бы для одной задачи (Д) будет vh> — оо, так как по предположению w\ < щ. Пусть P{k) = (xk, yk, th, zh, sh) — оптимальный опорный план разрешимой задачи (Ih). Определим нижние оценки wh из решения задач wh = min [(я, xh) + у (с, zh) + (b — ус, у)], (Uh) i/ey (,rA) соответствующих разрешимым задачам (I*). Для величины и* справедливо неравенство max wh^.u* ^ max vki h> 1 k>2 вытекающее из определения uh, wh. Если данное нера¬ венство обращается в равенство, то оптимальной страте¬ гией в задаче (4.53) является вектору, для которого к0 = arg max wh. В противном случае переходим к следую- h щему шагу. Пусть уже сделано q шагов процесса. После q-го шага имеем набор задач (Ij) и (Ilj), / е f с оптимумами Vj, w} соответственно. Обозначим P(j) = (xh у5, t5, zjy Sj) опти¬ мальный план задачи (IД (если она разрешима). Поло¬ жим Wq = max Wj и Vq = maxiу, где максимум берется f j по всем /, являющимся номерами задач (1Д еще не под¬ вергавшимся ветвлению.
АЛГОРИТМ РЕШЕНИЯ ЛИНЕЙНЫХ ИГР 261 Очевидно Wq < и* < Vq. Если Vq = Wq, то оптималь¬ ной стратегией будет Xj0, для которого Wj0 = Wq. Если Wq < Fg, то берем любой индекс /', реализующий = = Vq, и подвергаем ветвлению задачу (Ij). Данная за¬ дача (I/) порождает ряд задач (If), ieJ, которые полу¬ чаются из (Iу) выведением из базиса T(j') решения Р(//) одного из столбцов матрицы ограничений с номером и^Т(У). Таким образом, после (д+1)-го шага получим набор задач (Ij), (IIj), где U У - Далее процесс повторяет¬ ся аналогично. Ясно, что на (g-fl)-M шаге следует исключить из рас¬ смотрения неразрешимые задачи, а также задачи, у кото¬ рых верхняя оценка и, не больше нижней оценки Wq на q-м шаге. В ходе работы алгоритма могут появляться оди¬ наковые задачи (1л), отличающиеся друг от друга лишь порядком дополнительных ограничений. Такие задачи бу¬ дем отождествлять и использовать только одну из них. Процесс решения задачи (4.53) закончится через ко¬ нечное число шагов в силу конечности числа вершин D. Рис. 4.4. Пример. Пусть (а, х) + (Ь, у) = — 9х + у{ — 1у2, (с, У) = У и а многогранник D задается системой нера¬ венств (см. рис. 4.4): ' х + Ух + У2 < 3; — .г + у1 < 0; + г/2<2; я-уг-Уг<1; я, Уь У г >
262 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 1 Функция минимума / (х) = min [— 9# + У\ — 7г/2] (УиУ2)^В(х) изображена на рис. 4.5 и достигает глобального макси¬ мума, равного — 12 в точ¬ ке #* = 3/2 — внутренней точке множества X — = [0,2]. Применим разработан¬ ный алгоритм. Так как в нашем при¬ мере (с, у) зависит лишь от одной переменной уi, то, очевидно, неравенство (4.55) выполнено при Р = 1. В общем случае задача оценки р является достаточно сложной (см. § 3). Далее, в соответст¬ вии с леммой 4.2 задача Рис 45 максимизации /(#) сво- дится к задаче (4.56), если принять у > |Ь|/Р = V50, например, ^ = 9. Таким образом, приходим к задаче отыскания max min [—9# (5C,21,Zs)eD (У1,У2)^У(х) 8i/i — 7 У г + 92^. Работа алгоритма в данном примере отражена в табл. 4.2, а схема ветвления показана на рис. 4.6. Из 22 задач (Ih) были решены 16, остальные 6 оказа¬ лись неразрешимыми. На соответствующих этапах работы алгоритма были исключены из рассмотрения 9 задач, ко¬ торые либо уже встречались ранее, либо имели слишком малые верхние оценки vk. Решение примера было найдено на 6-м шаге из задач (I19), (I21). Однако оптимальное значение #* = 3/2 явля¬ лось первой координатой оптимального плана задачи (1з), полученный уже на втором шаге. Таким образом, после¬ дующие 4 шага алгоритма потребовались для обоснования оптимальности #*, ?' " К решению минимаксных задач типа (4.53,54), как было отмечено во введении, сводится поиск наилучшего гарантированного результата первого игрока в линейной иерархической цгре. Это позволяет на основе методов ли¬
АЛГОРИТМ РЕШЕНИЯ ЛИНЕЙНЫХ ИГР 263 нейного программирования проводить анализ разнообраз¬ ных моделей иерархий в экономике ([43]). 'т 2. Сделаем некоторые замечания по изложенному ме¬ тоду решения линейных минимаксных задач со связанны¬ ми переменными. 1) Значение точной штрафной константы у0 в лемме 4.2 зависит от параметра ^ в неравенстве (4.55). Как по¬ казано в лемме 1.12, величина р может быть определена из решения ряда задач математического программировав ния, составленных по вектору с и матрице В. В общем случае подобный метод оценки р является слишком тру¬ доемким и вряд ли может быть рекомендован. На практике, по-видимому, следует выбирать зна¬ чение руководствуясь спецификой задачи и какими- либо априорными оценками (в линейной иерархиче¬ ской игре 7 имеет смысл коэффициента штрафа второму игроку за нарушение ограничения у ^В(х)). Целесооб¬ разно также в целях проверки найденного решения задачи повторить расчет по алгоритму с увеличенным значением Y-
Таблица 4.2 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Примечания СП S V а и—ч со со ю а а " V V II сО t>i — а а ^ неразрешима vn<.wz неразрешима неразрешима се св % 3 ^ Я « я ^0 а В п ф \/ ф II Он V Рн го «о со ч« се .г се ^ о, а Р, > . ф ф И И ce S Я a oti Ш a a | V V СО о (N o, ft ft ф W см см СМ см O' ЧН 1 1 1 1 Ю > о о о О чгн 1 чр см ю SP Ю CM CM 1 1 1 1 ■ч-i 1 1 тН 1 ft ^-1 1 1 ю СО 4F со CM 4f CM CO й* о О <гЧ гн О 1 1 ч—t О о 1 1 Т О тн чп th INI СО Г'- СО Г'» ю СО СО LO ю'ю со lO in 4)f Ю)" LO чР sf ю" cm" cm" £Г см ЧГ СО ^ -^н ЧР-1 / ^ ^ ^ /">■ 4^ о 0^0 |см о оо о О о (zn ‘М *х) о О О о" О о о 00 1см 00 1 ГЧ1 ЭИНЭШЭс! •» •» о" g.00 1см^^£ о£ о COlcM 00 Icm НВНН9И -эсТэп НВН0И8 N ^ ID N « л е s м » й (О Я f И N и n ID О N -едэн неяон ft, ft. a. ft. a. a. ft, а. ft, ft, ft, ft. ft, ft, ft, ft, ft, ft, ft. ft. ft. иызНве элн -нэйшойоц И| «t fi? * ° "" 2 2 t и» e n вьеНве >Ц « о 00 CO ноившвахэд 1—1 l—H Ъ JBITT - см 00 Ю CO
§ 24] МЕТОД РЕШЕНИЯ ИЕРАРХИЧЕСКИХ ИГР ДВУХ ЛИЦ 265 2) В главе 3 показано, что задача (4.53,54) неустой¬ чива по результату. Другими словами, сколь угодно ма¬ лые изменения коэффициентов линейной формы (с, у) мо¬ гут привести к конечным изменениям наилучшего гаран¬ тированного результата (4.53). Преобразование исходной задачи по лемме 4.2 приво¬ дит к задаче (4.56), устойчивой относительно погрешно¬ стей определения вектора с, задающего интересы второго игрока в иерархической игре. Действительно, достаточно малые возмущения линейной формы мало изменяют ве¬ личину максимина (4.56) и сохраняют хотя бы одну опти¬ мальную стратегию. Если неточно известны матрицы ог¬ раничений А, В и вектор d, то задачу (4.56,54) можно ре- гуляризовать методом § 17. 3) Пусть в рассматриваемой иерархической игре вто¬ рой игрок доброжелателен по отношению к первому, т. е. при неединственности своего выбора из множества В(х) он выбирает стратегию у = arg max (bt у). Наилучший уеВ(зс) гарантированный результат первого игрока в таком слу¬ чае равен и* = max max [(а, х) + (Ь, у)]. (4.58) х&Х у^В(х) Точно так же, как в п. 1, задачу (4.58) можно свести к задаче отыскания max min [(а, х) + (Ь + ус, у) — у (с, z)] С*,у)еп геУ(х) при всех достаточно больших у. Эта задача представляет собой задачу того же типа, что (4.56) и, следовательно, может быть решена при помощи изложенного алгоритма. Близкий алгоритм разработан в [10] для решения неко¬ торых максиминных стохастических задач в случае линей¬ ных критериев игроков и связывающих ограничений. § 24. Один метод решения иерархических игр двух лиц с конечным множеством стратегий второго игрока 1. Результаты главы 3 позволяют аппроксимировать игры двух лиц с передачей информации аналогичными играми с конечным множеством стратегий второго игрока. Конечность множества стратегий может быть использова-
268 ЦИСЛЁЙНАЙ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ (ГЛ. 4 на при построении специальных методов решения игр. Покажем это на примере стохастической максиминной за¬ дачи из § 6. Пусть множество стратегий второго игрока есть f = = {1, 2, ..., TV}, а наилучший гарантированный резуль¬ тат первого равен ikf = supEco min Fj{xx со), (4.59) x^X je /(*,<»>) где, как и прежде, Ео — символ математического ожида¬ ния, <f (xi ю) = Arg max &h (xi со), 0 е Q, Fj(xt (о)£ ле/ Gj(x, 0) — функции выигрышей игроков. Предположим, что X есть замыкание открытого множества из £„, функ¬ ции Gh(x, 0) дифференцируемы по х для каждого 0 и Gt (х, со)¥=-^Gj (х, со) при i ф ]. Лемм а. 4.4. Если множество Q конечно, то в X су¬ ществует всюду плотное множество X, состоящее из то¬ чек жеХ, для которых ответ второго игрока f (я, 0) единственен при любом ©gQ. Доказательство. Докажем утверждение для од¬ ного произвольного 0о е £2. Пусть х0 е int X и х0 Ф X. Тогда существует достаточно малая окрестность V (#о) точки х0 такая, что . inf Г min Gj (хх 0О) — max Gh(xl 0О)] > 0, зс<=у(х0) |je/(x0,Q0) Ае/\/(хО)0О) Множество f (хо, 0О) не состоит из одного элемента, сле¬ довательно, существуют /1, /2 е/(^о, ©о). Так как (хоу ®о) (хо, ®о)> то существует такая коор- дината х{ вектора х, что либо д д Gji (Х0\ ®о) ^ foT (^01 ®о)* 1 1 I либо справедливо обратное неравенство. Рассмотрим точку x0-j-x, где #= (0, <>., Ах, 0, Sii, 0), Ах стоит на i-м месте. Ясно, что если Ах положительно
§ 24] МЕТОД РЕШЕНИЯ ИЕРАРХИЧЕСКИХ ИГР ДВУХ ЛИЦ 261 и достаточно мало, то х0 + х е V (х0) и Gh (*о + *1 ®о) > (*о + *, ©о).: так как Gh («о + юо) — Gj, О,, + ©о) =* Ах + о (Ад:). \дх1 ^ дхх ^ со°^ Это означает, что f (х0 + х, соо) содержит по крайней ме¬ ре на один элемент меньше, чем f (#0, соо). Если для х\ = = я0 + х множество f (#1, соо) не состоит из одного эле¬ мента, то аналогично выберем окрестность V (хх) с= V (х0) и продолжим процесс, выбрав точку х^ соответствующим сдвигом по одной из координат. Так как множество f ко¬ нечно, то на каком-то шаге получим точку х с одноэле¬ ментным множеством f (х, соо). Обобщение проведенных рассуждений для всех со ^ £2 теперь очевидно. Лемма до¬ казана. ■ Теорема 4.7 ([100]). Последовательность г-опти- мальных стратегий в задаче (4.59) в случае конечного £2 может быть найдена кап максимизирующая последова¬ тельность для задачи N 2 2 Р (©) F] (Я, ©) sup (4.60) j=l coeQj х с ограничениями Gj (х, со) max Gh (х, со) для всех со е £27-, k^j ;(4.в1): еде р(со) — вероятность, с которой случайный фактор принимает значение co,{£27}jLi— некоторое разбиение мно¬ жества £2 на непересекающиеся, возможно пустые, множе¬ ства £2j. Доказательство. Пусть {а;т} — е-оптимальная последовательность в задаче (4.59). В силу полунепре¬ рывное™ снизу функции /(*) = Eq min Fj foco) ;е/(зс,со)
268 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 (лемма 1.7), исходя из {хт}, можно построить е-оптималь- ную последовательность {хт}, состоящую из точек с един¬ ственным ответом второго игрока (лемма 4.4). Так как существует лишь конечное число разбиений множества £3 и конечно множество f, то существует подпоследователь¬ ность {Яш} такая, что Gj(xm,, со) > max Gh(xmi, со) h-Фз при о) ^ Qj для некоторых £2,-. Далее, при /<*> е со) будут выполнены нера¬ венства N (*т,, ю) = S 2 pH F) («т,, «) < э—1 соей; J N ^ sup 2 2 Р (со) Fj (х, со) ^ М, яех({й}) coeQj где через Х({£2}) обозначено множество точек, удовлетво¬ ряющих ограничениям (4.61) при выбранном выше раз¬ биении {£2,}. Учитывая, что / {хт1)-+М при /->■ оо, по¬ лучаем утверждение теоремы. ■ Замечания. 1) Для случая линейных по х крите¬ риев игроков Fj{x, со) = яДсо),г; Gj(x, о) = Сз((й)х задачи (4.60,61) можно заменить задачами линейного программирования, замыкая ограничения (4.61). В общем случае приближенное решение задачи (4.60,61) может быть найдено с помощью метода штрафов с использова¬ нием, например, логарифмической функции штрафа. А именно, задача (4.60, 61) сводится к отысканию max (2 2 \р И Fj (х, со) + г 2 In (Gj (х* со) — Gft(x,co))]) х<=Х (j=l ox=Qj [ JJ для достаточно малого г > 0. 2) Трудоемкость решения задачи (4.59) данным мето¬ дом быстро увеличивается с ростом | £21 — числа элемен¬ тов £2. Если для решения игры без случайных факторов
§ 24] МЕТОД РЕШЕНИЯ ИЕРАРХИЧЕСКИХ ИГР ДВУХ ЛИЦ 269 (\Q\ = 1) нужно решить N задач типа (4.60,61), то, на¬ пример, при | Q | = 2 их количество равно уже N + 2 С я = =iV2. Вообще, при |Q[ = т < N имеем тп т с„ = т 2 -тя^г71г i=l 1=1 задач оптимизации. Отсюда следует, что в процессе ре¬ шения целесообразно использовать любые соображения, позволяющие уменьшить перебор разбиений множества Q. 2. Проиллюстрируем метод на примере биматричной игры с передачей информации при отсутствии случайных факторов ([62]). Пусть первый игрок применяет смешанные стратегии х eSn (Sn — (/г — 1)-мерный симплекс), а второй игрок, знающий стратегию первого, применяет чистые стратегии /€=/= {1 7V>. Тогда п Fj и = 2 аихи 1=1 п ^ j (^) = 2 ЬцХ^, i=l Обозначим bj — (bu, ..bnj). Перенумеруем стратегии второго игрока так, чтобы / = {1,г, /г+1,..., и выполнялись следующие условия: 1) если bk = Ьи то найдется Z, г -f- 1 < I < s, такое, что к е= / е 2) если bk ф bj, то к, / не могут одновременно принад¬ лежать ни к одному из множеств г + 1 < I < s. Так как все стратегии каждого из множеств равно¬ ценны для второго игрока, то можно считать / е= f =» = {1, ., s}. Для первого игрока, который придержива¬ ется принципа гарантированного результата, платежная функция примет вид ~F}(x) = Fj(x), 1 </<>; Fk ix) ~ m*n Fj (^)j г -j- 1 к ^ s.
270 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Для второго игрока G,(x) =Gj(z), 1 </<г; Gh(x) = Gt(x), г +_ 1 < к < s. К игре с этими платежными^функциями можно приме¬ нить теорему 4.7 так как grad Gj(x) = bh г^е bj, если 7 ^ г; ^ J \ Ъи I е f j, если г + 1 <1 у ^ s; и все bj различны. Тогда sup min F 7 (я) = max max F;- (a:) ,*) где ^Z);-[lsSn|f (*)=</}], / (ж) = Arg max Gk (x). Покажем теперь, как определить те / е для которых Z?j =т^= 0. Очевидно, Д =И= 0 тогда и только тогда, когда существует такое х е 5П, что Gj (ж) > max Gk (ж),; т. е. п а7- = max min 2 ( btj — bih) 0. (4.62) oceSn i=l Нахождение а, нетрудно свести к задаче линейного про¬ граммирования оtj = max и х,и при ограничениях п iSiJ", u< Д (bil — bih)x(t к<=?гкф]. *) Черта обозначает замыкание множества.
§ 24] МЕТОД РЕШЕНИЯ ЙЕРАРХИЧЕСКИХ ИГР ДВУХ ЛИЦ 271 Полученному критерию (4.62) непустоты множества Di можно дать и другую формулировку: множество Dj не пу¬ сто тогда и только тогда, когда столбец ^ не доминирует- ся никакой выпуклой комбинацией столбцов &ft, к е f, к ф /. Это видно из равенства п aj = max min 2 2 (hj — bih) xtyh ==>' XGSn V^Ss~~1 *—1 ^Фз = min max (Ъц — 2 bihyh) f у1 \ ЬфJ Для / s ^ таких, что Ц, ф 0, нетрудно доказать, что Д = [x<=Sn\i€3j (*)}, т. е. Dj задается линейными неравенствами 2 ( bi j — bift) xt > О* * <= Snt кф]. 1=1 Итак, окончательно sup min Fj(x)=* X esnie/(x) {n n ч max max 2 atjxt\ max max min 2 aikxi\- :Щ*0 XSDi 1=1 ^0 hS?J i=‘ j Нахождение П max 2 oceUj является задачей линейного программирования, а нахож¬ дение п max min 2 aikxi K<EDj ke? j i=i сводится к задаче линейного программирования так же как и вычисление
2?2 ЧИСЛЕННАЯ РЕАЛИЗАЦИЯ МЕТОДА ШТРАФОВ [ГЛ. 4 Покажем теперь, как найти е-оптимальную стратегию. Возьмем е > 0. Пусть оказалось, что sup min Fj{x)= max Fh, (x) = Fko (xkJ. X€=snje/(X) xeDft( Очевидно, что для достаточно малого 6 > 0 точка Хй = (1 — 6) Хк, + бХ,:„; где^, — точка, реализующая (4.62) при / = ко, принад¬ лежит Dkt, ? (хь) = {&о} и IFk, (з-б) Fka {xkt) | <е.
ЛИТЕРАТУРА [1] Болтянский В. Г., Ч е б о т а р у И. С. Минимаксные задачи оптимального управления.-—Дифференциальные урав¬ нения, 1974, т. 10, № 7, с. 1213—1224. [2] В а з а н М. Стохастическая аппроксимация.— М.: Мир, 1972. [3J В а с и л ь е в Ф. П. Лекции по методам решения экстре¬ мальных задач.— М.: Изд-во МГУ, 1974. [4] В е л и ч е н к о В. В. Задачи оптимального управления с промежуточными условиями,— В кн.: Исследование опера¬ ций, ВЦ АН СССР, 1974, вып. 4, с. 126—145. [5] Венец В. И. Седловая точка функции Лагранжа и неглад¬ кие штрафные функции в выпуклом программировании.— Автоматика и телемеханика, 1974, № 8, 109—118. [6] В е н е ц В. И., Р ы б а ш о в М. В. Непрерывные алгорит¬ мы выпуклого программирования с использованием штраф¬ ных функций.—Автоматика и телемеханика, 1975, № И, с. 10-15. [7] В е н т ц е л ь Е. С. Исследование операций.— М.: Сов. радио, 1972. [8] В и л ь ч е в с к и й II. О. О выборе коэффициента штрафа в задачах линейного программирования.— Автоматика и теле¬ механика, 1970, № 4, с. 121—126. [9] Виноградова Т. К., Демьянов В. Ф. К необходи¬ мым условиям в минимаксных задачах управления.— Ж. вы- числ. матем. и матем. физ., 1974, № 1, с. 233—236. [10] Владимиров А. А. О решении линейных стохастиче¬ ских минимаксных задач.— Вестник МГУ, сер. Вычисл. ма¬ тем. и кибернетика, 1977, № 4, с. 63—71. [И] Волконский В. А. и др. Итеративные методы в теории игр и программировании.— М.: Наука, 1974. [12] Воробьев Н. II. Современное состояние теории игр.— Успехи математических наук, 1970, т. XXV, вып. 2 (152), с. 81—140. [13] Воробьев Н. Н. Приложения теории игр.— В кн.: Успехи теории игр, Вильнюс, 1973, с. 249—283. [14] Гермейер Ю. Б. Игры с ^противоположными интереса¬ ми.—М.: Наука, 1976. [15] Гермейер Ю. Б., Моисеев Н. Н. О некоторых зада¬ чах теории иерархических систем.— В кн.: Проблемы при¬ кладной математики и механики, М.: Наука, 1971, с. 30—43. [16] Гермейер Ю. Б. Введение в теорию исследования опе¬ раций.—М.: Наука, 1971. [17] Гермейер Ю. Б. Приближенное сведение с помощью щтрафных функций задачи определения максимина к заразе
274 ЛИТЕРАТУРА определения максимума.— Ж. вычисл. матем. и матем. физ., 1969, № 3, с. 730—731. [18] Г е р м е й е р Ю. Б. Необходимые условия максимина — Ж. вычисл. матем. и матем. физ., 1969, № 2, с. 4S2—438. [19] Гермейер Ю. Б. К задаче отыскания максимина с огра¬ ничениями.— Ж. вычисл. матем. и матем. физ., 1970, № 1, с. 39-54. [20] Гермейер Ю. Б., Крылов И. А. Поиск максиминов методом «невязок».— Ж. вычисл. матем. и матем. физ., 1972, т. 12, № 4, с. 871-881. [21] Гир с анов Й. В. Дифференцируемость решений задач математического программирования.—Тезисы докладов Все¬ союзной межвузовской конференции по применению методов функционального анализа к решению нелинейных задач. Ба¬ ку, 1965. [22] Гирсанов И. В. Лекции по математической теории экст¬ ремальных задач.—М.: Изд-во МГУ, 1970. [23] Гольштейн Е. Г., Третьяков Н. В. Градиентный метод минимизации и алгоритмы выпуклого программиро¬ вания, связанные с модифицированными функциями Ланг- ранжа.— Экономика и матем. методы, 1975, № 4, с. 730—742. [24] Гольштейн Е. Г. Теория двойственности в математи¬ ческом программировании и ее приложения.— М.: Наука, 1971. [25] Горелик В. А., Федоров В. В. Об одном подходе к решению минимаксных задач оптимального управления.— Изв. АН СССР, сер. Техническая кибернетика, 1976, № 1, с. 45-54. [26] Горелик В. А. Приближенное нахождение максиминов с ограничениями, связывающими переменные.— Ж. вычисл. матем. и матем. физ., 1972, № 2, с. 510—517. [27] Горелик В. А., Федоров В. В. Метод внутренней точ¬ ки в задаче определения кратного максимина с ограничени¬ ями.— Ж. вычисл. матем. и матем. физ., 1975, № 4, с. 883—894. [28] Горелик В. А., Федоров В. В. Метод внешней точки в задаче определения кратного максимина с ограничения¬ ми.— Ж. вычисл. матем. и матем. физ., 1975, № 3, с. 599—607. [29] Горский А. А. Модифицированный метод штрафных фун¬ кций для решения задач выпуклого программирования.— Изв. АН СССР, сер. Техническая кибернетика, 1971, N° 6, с. 25-29. [30] Г у р и н Л. Г., Е. М. Столярова. Принцип максимума в одной минимаксной задаче.— Ж. вычисл. матем. и матем. физ., 1973, N° 5, с. 1175—1185. [31] Давыдов Э. Г., Сигал И. X. О применении метода штрафных функций в задачах целочисленного программиро¬ вания,— Изв. АН СССР, сер. Техническая кибернетика, 1972, № 1, с. 28-31. [32] Д а н с к и н Дж. М. Итеративный метод решения непрерыв¬ ных игр.— В кн.: Бесконечные антагонистические игры, М.: Физматгиз, 1963, с. 123—132. [33] Дан с кин Дж. М. Теория максимина,—- М.: Сов. радио, 4970,
ЛИТЕРАТУРА 275 [34] Демьянов В. Ф., Малоземов В. Н. Введение в мини- макс.— М.: Наука, 1972. [35] Демьянов В. Ф. К решению некоторых минимаксных за¬ дач. I, II.— Кибернетика, 1966, N° 6, с. 58—66; 1967, № 3, с. 62-66. [36] Демьянов В. Ф. Минимакс: дифференцируемость по на¬ правлениям.— JL: Изд-во ЛГУ, 1974. [37] Д е м ь я н о в В. Ф. Минимизация выпуклой функции мак¬ симина.— Ж. вычисл. матем. и матем. физ., 1971, № 2, с. 313-327; № 3, с. 761—766. [38] Дубовицкий А. Я., Милютин А. А. Задачи на экст¬ ремум при наличии ограничений.— Ж. вычисл. матем. и ма¬ тем. физ., 1965, № 3, с. 395—453. [39] Евтушенко Ю. Г. Численный метод отыскания наилуч¬ ших гараптирующих оценок.— Ж. вычисл. матем. и матем. физ., 1972, № 1, с. 89—104. [40] Еремин И. И., Астафьев Н. Н. Введение в теорию линейного и выпуклого программирования.— М.: Наука, 1976. [41] Еремин И. И. О задачах последовательного программиро¬ вания.— Сиб. мат. ж., 1973, т. 14, № 1, с. 53—63. [42] Еремин И. И. О методе «штрафов» в выпуклом програм¬ мировании.— Кибернетика, 1967, № 4, с. 63—67. [43] Е р е ш к о Ф. И., 3 л о б и н А. С. Алгоритм централизован¬ ного распределения ресурса между активными подсистема¬ ми.— Экономика и матем. методы, 1977, № 4, с. 703—713. [44] Ермольев Ю. М. Стохастические модели и методы опти¬ мизации.— Кибернетика, 1975, № 4, с. 109—119. [45] Ермольев Ю. М., IH о р Н. 3. О минимизации недиффе¬ ренцируемых функций.— Киберпетика, 1967, № 1, с. 101—102. [46] Ермольев 10. М. Методы стохастического программиро¬ вания.— М.: Наука, 1976. [47] 3 а в р и е в С. К. Об отыскании стационарных точек в ми¬ нимаксных задачах с ограничениями.— Вестник МГУ, сер. вычисл. матем. и кибернетика (в печати). [48] 3 а в р и е в С. К. Комбинированный метод штрафов и стоха¬ стического градиента для поиска максимина.— Ж. вычисл. матем. и матем. физ. (в печати). [49] Зангвилл У. И. Нелинейное программирование.— М.: Сов. радио, 1973. [50] Иоффе А. Д., Тихомиров В. М. Теория экстремаль¬ ных задач.— М.: Наука, 1974. [51] Карлин С. Математические методы в теории игр, про¬ граммировании и экономике.— М.: Мир, 1964. [52] Карманов В. Г. Математическое программирование.— М.: Наука, 1975. [53] Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа.— М.: Наука, 1968. [54] Краснощеков П. С. О формировании предварительного облика сложной технической системы.— Материалы Всерос¬ сийской школы 1975 г. по автоматизации проектирования, МФТИ, г. Долгопрудный, 1976. [55] Кукушкин Н. С., Морозов В. В. Теория неантагони¬ стических игр.— М.: Изд-во МГУ, 1977.
276 литература [56] К у т а н о в А. Г. Об уточнении решения задачи линейного программирования в методе штрафных функций.— Автома- тика и телемеханика, 1970, № 4, с. 127—132. [57] Левитин Е. С., Поляк Б. Т. Методы минимизации при наличии ограничений.— Ж. вычисл. матем. и матем. физ., 1966, № 5, с. 787—823. [58] Лионе Ж. Л. Оптимальное управление системами, опи¬ сываемыми уравнениями с частными производными.— М.: Мир, 1972. [59] Моисеев Н. Н. Иерархические структуры и теория игр.— Кибернетика, 1973, № 6, с. 1—11. [60] Моисеев Н. И. Численные методы в теории оптималь¬ ных систем.— М., Наука, 1971. [61] Молодцов Д. А. Сведение решения одной игры двух лиц к задаче на максимум.—Труды 2-й конференции молодых ученых факультета вычислительной математики и киберне¬ тики.— М.: Изд-во МГУ, 1975, с. 41—44. [62] Молодцов Д. А., Федоров В. В. Аппроксимация игр двух лиц с передачей информации.— Ж. вычисл. матем. и матем. физ., 1973, № 6, с. 1469—1484. [63] Молодцов Д. А. К вопросу о последовательной оптими¬ зации.— В кн.: Вопросы прикладной математики, СО АН СССР, Сиб. энергетический ин-т, Иркутск, 1975, с. 71—84. [64] Морозов В. А. Линейные и нелинейные некорректные за¬ дачи.— В кн.: Итоги науки и техники, Математический ана¬ лиз, 1973, № И, с. 129-178. [65] Натансон И. П. Теория функций вещественной перемеп- ной.— М.: Наука, 1974. [66] Н е в ё Ж. Математические основы теории вероятностей.— М., Мир, 1969. [67] Фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение.— М.: Наука, 1970. [68] Нестационарные процессы математического программирова- ния/Под ред. И. И. Еремина.— Труды Ин-та математики и механики УНЦ АН СССР, 1974, вып. 14. [69] Н и к а й д о X., И с о д а К. Заметка о бескоалиционных вы¬ пуклых играх.— В кн.: Бесконечные антагонистические иг¬ ры, М.: Физматгиз, 1963, с. 449—458. [70] Никайдо X., Выпуклые структуры и математическая эко¬ номика.— М.: Мир, 1972. [71] Новикова II. М. Стохастический квазиградиентный ме¬ тод поиска максимина.— Ж. вычисл. матем. и матем. физ., 1977, № 1, с. 91-99. [72] Остославский И. В., Стражева И. В. Динамика полета. Траектории летательных аппаратов.—М.: Машино¬ строение, 1969. [73] П о д и н о в с к и й В. В., Г а в р и л о в В. М. Оптимизация по последовательно применяемым критериям.— М.: Сов. ра¬ дио, 1975. [74] П о д и н о в с к и й В. В. К вопросу о существовании реше¬ ний задач оптимизации «с закрепленным временем».— Изв. АН СССР, сер. Техническая кибернетика, 1967, № 3, с. 41—45. [75] Г1 о л а к Э. Численные методы оптимизации,— М.: Мир, 1974.
ЛИТЕРАТУРА 277 [76] Поляк Б. Т. Методы минимизации функций многих пе¬ ременных.—Экономика и матем. методы, 1967, 3, №6, с. 881-902. [77] Поляк Б. Т., Третьяков Н. В. Метод штрафных оце¬ нок для задач на условный экстремум.— Ж. вычисл. матем. и матем. физ., 1973, № 1, с. 34—46. [78] П о н т р я г и н JI. С., Болтянский В. Г., Гамкре- л и д з е Р. В., М и щ е н к о Е. Ф. Математическая теория оптимальных процессов.— М.: Наука, 1976. [79] Пшеничный Б. Н. Необходимые условия экстремума.— М.: Наука, 1969. [80] Пшеничный Б. II. Двойственный метод в экстремаль¬ ных задачах. I, П.—Кибернетика, 1965, N° 3, 4. [81 ] Пшеничный Б. Н., Данилин Ю. М. Численные мето¬ ды в экстремальных задачах.— М.: Наука, 1975. [82] Разумихин Б. С. Физические модели и методы теории равновесия в программировании и экономике,— М.: Наука, 1975. [83] Рид М., Саймон Б. Методы современной математиче¬ ской физики.— М.: Мир, 1977. [84] Робинсон Дж. Итеративный метод решения игр.—В кн. Матричные игры, М.: Физматгиз, 1961, с. 110—117. [85] Се а Ж. Оптимизация, М.: Мир, 1973. [86] Соболев С. JI. Некоторые применения функционального анализа в математической физике.— Новосибирск, 1962. [87] Тихонов А. Н., Арсенин В. Я. Методы решения не¬ корректных задач.— М.: Наука, 1974. [88] Тихонов А. Н. О некорректных задачах оптимального планирования.— Ж. вычисл. матем. и матем. физ., 1966, № 1, с. 81-89. [89] У м н о в А. Е. Многошаговая линейная экстраполяция в ме¬ тоде штрафных функций.— Ж. вычисл. матем. и матем. физ., 1974, N° 6, с. 1451—1463. [90] Федоров В. В. О методе штрафных функций в вадаче определения максимина.— Ж. вычисл. матем. и матем. физ., 1972, N° 2, с. 321-333. [91] Федоров В. В. К задаче поиска последовательного мак¬ симина.— Ж. вычисл. матем. и матем. физ., 1972, № 4, с. 897-908. [92] Федоров В. В. Условия регулярности и необходимые условия максимина со связанными переменными.— Ж. вы¬ числ. матем. и матем. физ., 1977, № 1, с. 79—90. [93] Федоров В. В. Методы поиска максимина. Вып. 1, 2,— М.: Изд-во МГУ, 1975, 1976. [94] Федоров В. В. Об устойчивости задачи отыскания крат¬ ного максимина.— Ж. вычисл. матем. и матем. физ., 1975, Ne 1, с. 79—86. [95] Федоров В. В. К вопросу об устойчивости задачи линей¬ ного программирования.— Ж. вычисл. матем. и матем. физ., 1975, N° 6, с. 1419—1423. [96] Федоров В. В. Принцип максимума в минимаксной за¬ даче управления с фазовыми ограничениями.— Вестник МГУ, сер. вычис^!. матем. и кибернетика, 1977, № 4. с. 36—46.
278 ЛИТЕРАТУРА [97] Федоров В. В. К задаче об искусственном рассеивании.- В кн.: Исследование операций. ВЦ АН СССР, 1974, вып. 4, с. 200-218. [98] Федоров В. В. Метод решения линейных иерархических игр.— Ж. вычисл. матем. и матем. физ., 1977. № 4, с. 915— 921. [99] Федоров В. В. О задачах оптимизации с упорядоченной совокупностью ограничений.— Ж. вычисл. матем. и матем. физ., 1975, № 5, с. 1126-1137. [100] Федоров В. В. Двухэтапная стохастическая задача при¬ нятия решения с несовпадающими интересами участников.— Изв. АН СССР, сер. Техническая кибернетика, 1977, № 6, с. 36-45. [101] Федоров В. В. Об отыскании максимума минимакса в задачах оптимального управления.— Изв. АН СССР, сер. Тех¬ ническая кибернетика, 1975, № 6, с. 21—25. [102] Фиакко А., Мак-Кормик Г. Нелинейное программи¬ рование.— М.: Мир, 1972. [103] Фихтенгольц Г. М. Курс дифференциального и ин¬ тегрального исчисления, т. II.— М.: Наука, 1966. [104] Цыпкин Я. 3. Основы теории обучающихся систем.— М.: Наука, 1970. [105] Ч е р н я т и н В. А. Об оптимальном по быстродействию управлении несколькими объектами.— Автоматика и телеме¬ ханика, 1970, № 3, с. 25—31. [106] Юдин Д. Б. Математические методы управления в усло¬ виях неполной информации.— М.: Сов. радио, 1974. [107] Balakrishnan А. V. On a new computing technique in optimal control — SIAM J. Control, 1968, v. 6, № 2, p. 149—173. [108] Courant R. Variational method for the solution of prob¬ lems of equilibrium and vibrations.— Bull. Amer. Math. Soc., 1943, v. 49, 1, p. 1—23. [109] Falk J. E. A linear max-min problem.— Math. Program., 1973, v. 5, 2, p. 169—188. [110] Fleming W. H. The convergence problem for differential games —J. Math. Anal, and Appl., 1961, v. 3, 1, p. 102—116. [111] Fletcher R. An ideal penalty function for constrained op¬ timization.— J. Inst. Math, and Appl., 1975, v. 15, 3, p. 319—342. [112] Hoffman A. J. On approximate solutions of sistems of linear inequalities.— J. of Research of Nat. Burean of Standarts, 49 (1952), p. 263-265.
Вячеслав Васильевич Федоров Численные методы максимина М., 1979 г., 280 стр. с илл. Редактор В. В. Абгарян Техн. редактор Н. В. Кошелева Корректоры Г. В. Подвольская, Н. Б. Румянцева ИБ Кя 11453 Сдано в набор 09.08.78. Подписано к печати 16.02.79 Т-05328. Бумага 84х108'/з2, тип. Кя 1, Обыкновенная гарнитура. Высокая печать. Условн. печ. л. 14,7. Уч.-изд. л. 14,69. Тираж 8000 экз. Заказ jsft 254. Цена книги 1 р. 30 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 Типография JVfi 4 издательства «Наука», 630077, Новосибирск, 77, Станиславского, 25.
J- \ ИЗДАТЕЛЬСТВО «НАУКА» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 ВЫХОДИТ ИЗ ПЕЧАТИ В 1979 ГОДУ: «Современное состояние теории исследования операций» под редакцией И. И. Моисеева (Оптимизация и исследо¬ вание операций). Книга представляет собой обзор современного состоя¬ ния теории исследования операций, написанный как еди¬ ная работа коллективом известных специалистов в этой области. Основное внимание уделено перспективным на¬ правлениям, возникшим в последние годы: новым моделям принятия решений в ситуациях, характеризуемых наличием многих целей, иерархией, разной степенью информирован¬ ности и т. п., новым численным методам для экстремальных задач сложной природы (негладких, многоэкстремальных, комбинаторных), использованию имитационных моделей и вопросам выработки решений с помощью человеко-ма¬ шинных систем в режиме диалога специалиста с ЭВМ. Книга предназначена для широкого круга специалистов из различных областей, занятых разработкой сложных тех¬ нических систем, проектированием структур управления, решением оптимизационных задач. Предварительные заказы на указанную книгу прини¬ маются магазинами Книготорга и Академкниги, распрост¬ раняющими литературу по данной тематике. \ /