Текст
                    ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
Б.Н.ПШЕНИЧНЫЙ
Ю.М. ДАНИЛИН
Численные
методы
в экстремальных
задачах



ОПТИМИЗАЦИЯ И ИССЛЕДОВАНИЕ ОПЕРАЦИЙ Редактор серии Н. Н. МОИСЕЕВ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1975
Б. Н. ПШЕНИЧНЫЙ Ю. М. ДАНИЛИН ЧИСЛЕННЫЕ МЕТОДЫ В ЭКСТРЕМАЛЬНЫХ ЗАДАЧАХ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1975
518 П93 УДК 519.95 Численные методы в экстремаль- ных задачах. Пшеничный Б. Н., Данилин Ю.М., Главная редакция физико-математической литературы изда- тельства «Наука», 1975. В книге излагаются методы и алго- ритмы численного решения задач, воз- никающих в математическом программи- ровании, экономике, теории оптимального управления и других областях науки и практики, в которых возникают задачи численного нахождения экстремума функ- ций и функционалов. Основное внимание уделено изложению алгоритмов с высокой скоростью сходимости и практически удоб- ных для реализации на ЭВМ. Рассматри- ваются методы минимизации функций как без ограничений на независимые пе- ременные, так и учитывающие такие огра- ничения. Книга будет полезной как специа- листам в области математического про- граммирования, вычислительной матема- тики и теории оптимального управле- ния, так и широкому кругу студентов и инженеров, встречающихся в практике с решением задач минимизации функций. Библ. 144 назв. 20203-032 11 053 (02)-75 70’75 © Главная редакция физико-математической литературы издательства «Наука», 1975.
ОГЛАВЛЕНИЕ Предисловие........................................... 8 Глава I. Введение в теорию математического программи- рования ............................................. 13 § 1. Выпуклые множества............................ 13 1. Определение. Теорема отделимости (13). 2. Вы- пуклые конусы (15). 3. Строго и сильно выпук- лые множества (19). § 2. Выпуклые функции............................... 19 1. Определение. Основные свойства (20). 2. Диф- ференциальные свойства (21). 3. Строго и сильно выпуклые функции (24). 4. Вогнутые функции (27). § 3. Выпуклое программирование...................... 27 1. Постановка задачи. Основные свойства (27). 2. Необходимые условия минимума (29). 3. Тео- рема Куна—Таккера (32). 4. Двойственная зада- ча (32). 5. Задача линейного программирования (34). 6. Задача квадратичного программирования (36). § 4. Необходимые условия минимума................ 38 1. Основные определения (38). 2. Необходимые условия минимума (38). 3. Минимаксная задача (45). 4. Необходимые условия второго порядка (47). § 5. Некоторые дополнительные сведения........... 49 Краткая библиография............................. 50 Глава II. Методы минимизации функций без ограни- чений ........................................... 51 § 1. Градиентные методы...................... . 52 1. Метод наискорейшего спуска (52 ). 2. Различ- ные варианты метода ( 58 ). 3. Другие градиентные методы (61). 4. Качественный анализ методов (64). § 2. Метод Ньютона с регулировкой шага........... 67 1. Построение метода (67). 2. Теоремы о свойствах метода (69). 3. Модификации обобщенного метода Ньютона (73). 4. Обсуждение свойств метода Нью- тона (76). § 3. Методы двойственных направлений............. 78 1. Соображения о выборе схемы методов (78). 2. Обоснование методов (80). 3. Построение раз лич-
6 ОГЛАВЛЕНИЕ ных алгоритмов (86). 4. Определение вектора (89). 5. Организация начала процесса (92). 6. Минимизация квадратичной формы (93). 7. Об- суждение свойств методов (94). § 4. Методы сопряженных направлений. Минимизация квадратичных функций.............................. 96 1. Сопряженные направления и их свойства (96). 2. Построение методов (100). 3. Общие свойства методов (105). 4. Конкретные алгоритмы (110). 5. Минимизация выпуклой квадратичной функции (116). 6. Обсуждение результатов (120). § 5. Методы сопряженных направлений. Минимизация произвольных функций............................. 122 1. Соображения о применимости методов (122). 2. Теорема о сходимости методов (123). 3. Изучение свойств различных алгоритмов (lol). 4. Сходимость процессов без восстановления (142).J 5. Обсуждение результатов (147). § 6. Методы,, не требующие вычисления производных . . 152 1. Вводные замечания (152). 2. Построение мето- дов двойственных направлений (153). 3. Замечания по реализации методов двойственных направлений (161). 4. Методы сопряженных направлений (163). 5. Обсуждение результатов (170). Краткая библиография............................. 171 Глава III. Методы решения задач с ограничениями . . 173 § 1. Задача квадратичного программирования........ 173 1. Операторы проектирования (174). 2. Минимиза- ция квадратичной функции на подпространстве (175). 3. Алгоритм для общей задачи квадратичного про- граммирования (178). 4. Вычислительные аспекты (187). 5. Задача квадратичного программирования с простыми ограничениями (189). § 2. Метод возможных направлений................... 191 1. Метод выбора возможного направления (192). 2. Алгоритм метода возможных направлений (196). 3. Обоснование сходимости алгоритма (197). 4. По- строение^ начального приближения (200). § 3. Метод условного градиента и метод Ньютона ... 201 1. Правило выбора длины шага (202). 2. Описание алгоритма (203). 3. Обоснование и оценка скорости сходимости алгоритма (203). 4. Оценка сходимости для сильно выпуклой области (207). 5. Метод Ньюто- на с регулировкой шага (209). 6. Свойства метода Ньютона (209). § 4. Метод отсекающей гиперплоскости............... 217 1. Алгоритм (218). 2. Вычислительные аспекты (220). 3. Заключительные замечания (221).
ОГЛАВЛЕНИЕ 7 § 5. Метод линеаризации............................. 221 1. Основные предположения (222). 2. Формулиров- ка алгоритма (223). 3. Сходимость алгоритма (223). 4. Вычислительные аспекты (229). 5. Некоторые обобщения (232). 6. Задача линейного программи- рования (236). 7. Локальная оценка скорости схо- димости (241). § 6. Метод линеаризации: решение систем равенств и не- равенств и нахождение минимакса..................... 248 1. Системы равенств и неравенств (249). 2. Схо- димость алгоритма (250). 3. Замечания (253). 4. Достаточные условия сходимости (254). 5. Ре- шение задачи о нахождении минимакса (258). § 7. Локальное ускорение сходимости................. 264 1. Постановка задачи. Основные формулы (265). 2. Алгоритм (270). 3. Вычислительные аспекты. Применение к задаче математического программи- рования (273). 4. Задача минимизации с ограниче- ниями типа равенства (274). § 8. Метод штрафных функций......................... 276 1. Обоснование метода штрафных функций (278). 2. Выпуклое программирование (282). 3. Вычисли- тельные аспекты (284). 4. Метод Фиакко и Мак- Кормика (285). § 9. Методы проектирования с восстановлением связей 287 1. Схема построения методов (287). 2. Методы пер- вого порядка (292). 3. Метод второго порядка (297). 4. Методы минимизации с повышенной эффектив- ностью (299). 5. О решении общей задачи математи- ческого программирования (301). 6. Заключительные замечания (302). Краткая библиография................ 302 Приложение. Вычислительные схемы основных алго- ритмов ........................... 305 Литература............................ 311
ПРЕДИСЛОВИЕ Вычислительные методы решения различных экстре- мальных задач в последние годы развивались чрезвычай- но интенсивно. Библиография по этим вопросам в нас- тоящее время насчитывает сотни наименований. Такой интерес к развитию вычислительных методов не случаен. Он отражает ту важную роль, которую играют экстре- мальные задачи в различных проблемах прикладного ха- рактера. Проблеме эффективного нахождения минимума функции при различных ограничениях на переменные и посвящена данная книга. Сразу же следует подчеркнуть, что в последние годы произошло изменение тех требований, которые предъяв- ляются к новым вычислительным алгоритмам. Если еще лет десять — пятнадцать назад с интересом воспринимал- ся любой новый алгоритм для той или иной задачи ми- нимизации, то теперь просто построение нового алго- ритма недостаточно. Необходимо показать, чем он лучше уже известных. Таким образом возникает проблема срав- нения эффективности различных алгоритмов. К сожале- нию, эта проблема не допускает простого решения. Дело в том, что для сравнения эффективности необходимо за- даться критерием эффективности, а эти критерии могут быть разные. Например, критерием эффективности может быть точность получаемого результата, время счета, объем необходимой памяти вычислительной машины и т. п. При- чем зачастую требуется оценивать алгоритм по довольно противоречивым критериям. При отборе алгоритмов, включенных в данную кни- гу, авторы в основном исходили из критерия точности
ПРЕДИСЛОВИЕ 9 результата и быстроты сходимости итерационного процес- са. Однако даже такое ограничение не позволяет одно- значно упорядочить все алгоритмы и сказать, какой из них лучше, а какой хуже. Дело в том, что получаемые оценки скорости сходимости являются оценками не для конкретных задач, а для классов задач. Поэтому алго- ритм плохой для широкого класса задач может оказаться эффективным на более узком классе. Это делает необхо- димым для вычислителя иметь в запасе большой набор алгоритмов и в зависимости от конкретной задачи при- менять тот или иной из них. Совершенно не безразлично также, за счет каких средств достигается высокая скорость сходимости алго- ритма. В практических задачах часто вычисление даже первых производных от функции вызывает трудности, которые при попытке вычислять вторые производные ста- новятся непреодолимыми. Поэтому основной упор в книге делается на описание таких алгоритмов, которые требуют лишь вычисления первых производных либо только вы- числения значения функции. При изложении вычислительных методов мы рассмат- риваем конечномерный случай. Это обусловлено двумя причинами. Во-первых, при расчетах на вычислительной машине задачу так или иначе надо аппроксимировать конечномерной. Во-вторых, большинство известных алго- ритмов сравнительно просто обобщаются на случай ми- нимизации функционалов без каких-либо существенных изменений. Поэтому нам казалось целесообразным вести все изложение для конечномерного случая. Это также позволило сделать книгу доступной широкому кругу чи- тателей, поскольку для понимания большинства излагае- мых результатов требуется лишь знание основ матема- тического анализа и линейной алгебры. Чтобы не загромождать изложение, ссылки на ли- тературу в основном тексте почти не приводятся, а
10 ПРЕДИСЛОВИЕ вынесены в краткую библиографию, которой сопровож- дается каждая глава. Мы не пытались охватить всю лите- ратуру по рассматриваемым вопросам, так как это невоз- можно ввиду ее обширности. Поэтому список литературы включает в основном лишь те статьи и монографии, которые непосредственно использовались при написании этой книги. Заметим, что в данной книге мы совершенно не рас- сматриваем методы решения обширного и важного класса некорректных экстремальных задач, которые разрабаты- ваются в работах А. Н. Тихонова и его учеников и по- следователей. Мы также почти не касаемся вопроса о решении задач оптимального управления. Изучение таких задач с различных точек зрения и методов их решения проводится в монографии Н. Н. Моисеева «Численные ме- тоды в теории оптимальных систем». Описанные ниже алгоритмы носят итерационный ха- рактер. Это значит, что строится некоторая конеч- ная или бесконечная последовательность точек- к = 0, 1, . . . , относительно которой можно утверж- дать, что она в том или ином смысле сходится к решению задачи минимизации. При этом последовательные точки связаны соотношением £ft+i = Xk + W Ph — вектор сдвига из точки a ак — шаг вдоль направления Поэтому описание любого из приводимых ниже алгоритмов состоит в задании способа выбора век- тора рк и величины шага aft. Следует отметить, что если способ выбора вектора рк определяет общую скорость сходимости процесса, то способ выбора существенно влияет на количество вычислений на каждой итерации. Поэтому мы старались всюду задавать такой способ вы- бора aft, который бы позволял находить нужное значение ак после конечного числа операций, не снижая при этом общую скорость сходимости.
ПРЕДИСЛОВИЕ 11 Остановимся кратко на тех оценках скорости сходи- мости, которые чаще всего используются в книге. Говорят, что последовательность сходится к точ- ке с линейной скоростью] или со скоростью геометри- ческой прогрессии (со знаменателем д), если, начиная с некоторого Аг, выполняется неравенство || xft+1 — х* | 9 I хь — х* II’ гДе 0 < g < 1. При выполнении неравен- ства | xh+1 — х* ||< Qh II хь — х* I’ гДе 9* 0 пРиА “* °°« говорят, что скорость сходимости последовательности {#&} сверхлинейная, или выше скорости сходимости любой гео- метрической прогрессии. Если С || xk — х* || —>0, то будет | xk+1 — х* || < С|| xh — я* ||2. Эта оценка харак- теризует квадратичную скорость сходимости. Приведенные оценки будут встречаться в книге и в некоторых других эквивалентных формах. Несколько слов относительно обозначений. Как уже говорилось, изложение ведется для случая л-мерного пространства векторов, которое будет обозна- чаться через Еп. Сами векторы будут обозначаться ла- тинскими буквами х, у, z и т. п., в то время как их ком- поненты обозначаются индексами сверху, так что хг — это i-я компонента вектора х. Нижние индексы обозна- чают элементы некоторой последовательности. Матрицы обозначаются большими буквами А, В, С и т. п. Звездоч- ка сверху при этом обозначает транспонирование, т. е. Л* — это транспонированная матрица А. Под вектором х будет, как правило, пониматься вектор-столбец, так что х* обозначает вектор-строку. Скалярное произведение двух векторов обозначается как {х, у), т. е. («, у) = 2 xiyl- i=l При этом, если не оговорено противное, под нормой век- тора понимается его евклидова норма: Ik 11 =
12 ПРЕДИСЛОВИЕ В заключение авторы выражают свою искреннюю приз- нательность за неоценимую помощь, которую им ока- зали Г. Е. Любарская, Л. А. Соболенко, Э. И. Богуслав- ская и В. М. Панин при подготовке этой книги. Главы I (за исключением § 5 и частично § 2), III (за исключением § 9 и частично § 3) написаны Б. Н. Пше* ничным. Главы II, п. 3—4 § 2 и § 5 гл. I, п. 5, 6 § 3 и § 9 гл. III написаны Ю. М. Данилиным. Б. Пшеничный, Ю. Данилин
ГЛАВА I ВВЕДЕНИЕ В ТЕОРИЮ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ В этой главе изложены некоторые факты из теории выпуклых множеств и необходимых условий экстремума, которые необходимы для понимания материала последую- щих глав. § 1. Выпуклые множества В этом параграфе мы рассмотрим основные свойства выпуклых множеств в и-мерном евклидовом прост- ранстве Еп. 1. Определение. Теорема отделимости. Определение 1.1. Множество X точек в Еп на- зывается выпуклым, если вместе с любыми своими точ- ками х% Ez X оно содержит и все точки вида х = \х1 + (1 — %)я2, 0 X 1. На геометрическом языке это означает, что если кон- цы некоторого отрезка принадлежат выпуклому множест- ву X, то и весь отрезок принадлежит этому множеству. Л е м м а 1.1. Справедливы следующие утверждения-. 1. Пересечение любого числа выпуклых множеств вы- пукло. 2. Если X, i = 1, ...» иг, то при всех i = т = 1, . . . , иг, удовлетворяющих условию 2 = 1,Х<>0, г*=1 m i == 1, . . . , иг, точка я= 2 Мч принадлежит X. г=1 Следующая теорема и ее следствия являются основ- ным инструментом, с помощью которого удается получать результаты, характеризующие те или иные свойства вы- пуклых множеств.
14 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Теорема!.1. Пусть X — выпуклое множество, а X — его замыкание. Если точка xQ не принадлежит X, то найдется такой вектор a ЕЕ Еп, а О, и такое число е > 0, что (а, х) (a, xQ) — 8 для всех х G X. Доказательство. X — замкнутое множество по определению. Покажем, что оно выпукло. Действи- тельно, если х ЕЕ X, то найдется такая последователь- ность хъ, к = 1, ..., что хк ЕЕ X, xk —> х. Пусть теперь х, уЕХ, 0 < X < 1. Покажем, что Хх + (1 — Х)у ЕЕ X. Так как X — выпуклое множество, то из xh, yk ЕЕ X, хк-+ х, Ук~+ У следует Xxk + (1 — tyyk ЕЕ X, Xxk + (1 — Х)ук -> Хх + (1 — К)у. Но это как раз и означает, что Хх + (1 — tyy Е= Х\ т. с* X выпукло. Возьмем точку у ЕЕ X, расстояние которой от яв- ляется наименьшим, т. е. — ж0Ц>||у — ®o|, же X. Так как А" выпукло, то при любых х GE X и 0 1 кх 4- (1 — к)у = у 4-Х(ж — у) е X. Поэтому J кх + (1 — к)у — х01|2 = j у — ж0 4- А (ж — у) ||2 = = (У — «о + И* ~ У)> У ~ *о + И« ~ У)) = = (У— «о> У — «о) + 2Х (у — ж0, ж — у) 4- V (ж — у, ж — у) = = II У — «о II2 + 2% (У — «о> « — У) + к? II х ~ У I2 > > I У - «о Г Последнее неравенство справедливо при всех Л, изме- няющихся в пределах от нуля до единицы. Упрощая его, получаем 2 (у — ж0, ж — у) 4- к | х — у ||2 > 0, откуда при Л — 0 (у — х0, X — у) > 0. Положим а = Хц — у. Тогда последнее неравенство
§ 11 ВЫПУКЛЫЕ МНОЖЕСТВА 15 перепишется в виде (а, х) (а, у). Но (а, у) = (a, xQ) — (a, xQ — у) - (а, xQ) — |( а ||2. Итак, положив 8 = || а ||2, окончательно получаем (а, х) (а, х^ — 8. Это неравенство справедливо при любых х ЕЕ X. Кроме того, 8 0, ибо х0 X и> значит, у х^. Поэтому 8 = II а II2 = II жо — У II2 > °- Теорема доказана. Замечание. Доказывая теорему 1.1, мы попутно доказали, что замыкание выпуклого множества также выпукло. В качестве простого упражнения можно дока- зать, что множество внутренних точек выпуклого мно- жества также выпукло. Следствие!.1. Пусть X — выпуклое множество и х0 — граничная точка X. Тогда найдется такой век- тор а 0, что (а, х) (а, £0), х ЕЕ X. Следствие!.2. Если X и Y — непересекающиеся выпуклые множества, то существует такой вектор а Q, что (а, х) < (а, у), х X, у е Y. Следствие!.3. Если X и Y — выпуклые замкну- тые непересекающиеся множества, одно из которых огра- ничено, то существует такой вектор а ^=0 и число 8 0, что (а, х) (а, у) — 8, х Е= X, у ЕЕ Y. 2. Выпуклые конусы. Определение!.2. Множество К называется вы- пуклым конусом, если оно выпукло и вместе с каждой точкой х ЕЕ К содержит все точки Кх при % 0. Нетрудно видеть, что если х, у GE К, то х + У ЕЕ К. В самом деле, поскольку К — выпуклое множество, то 1 1 точка -у- х + -?~у принадлежит К. Но . 9 ( 1 . 1 \ $+У =2(~Х+~^)’
16 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I откуда следует, что х + у е= К в силу определения ко- нуса. Наиболее важные свойства конусов формулируются в терминах, устанавливающих зависимость между исход- ным конусом и сопряженным или двойственным к нему конусом. Определение 1.3. Пусть К — выпуклый конус. Множество всех векторов у Е: £л, удовлетворяющих при всех х ЕН К неравенству (х, у) > О, называется сопряженным конусом и обозначается К*. Элементарная проверка показывает, что К* — также выпуклый конус. Л е м м а 1.2. К* — замкнутый выпуклый конус. Лемма 1.3. Пусть К — выпуклый конус. Тогда xQ ЕЕ ЕЕ к тогда и только тогда, когда (я0, у) 0 для всех у ЕЕ К*. Если К замкнут, то (#*)* = К. Доказательство. Очевидно, что если ЕЕ К, то t#0, У) > 0 для всех у ее К*. Докажем обратное. Итак, пусть (х0, у) 0 для всех у ЕЕ К*, но #0Ez К. Посколь- ку — выпуклое замкнутое множество, то на основании теоремы 1.1 существует такой вектор а, что (а, х0) (а, х) — 8, х е= К. Но замкнутый конус К всегда содержит точку 0. Поэто- му, в частности, (а, х0) < — 8. (1.1) С другой стороны, (а, я)>0, хЕЕК. (1.2), Действительно, если (а, Xi) < 0 для некоторого хгЕЕ К то, поскольку Ххг ЕЕ- К при X > 0, (а, х^ X (а, хг) — 8 и последнее неравенство должно быть справедливо при всех X, что невозможно, если (a, < 0. Итак, (1.2) справедливо и, значит, аЕ А?*. Но тогда (а, х0) > 0, что противоречит (1.1). Тем самым первое утверждение леммы доказано.
§ 1] ВЫПУКЛЫЕ МНОЖЕСТВА 17 Докажем теперь второе утверждение. Если х К, то (х, у) 0 при всех у Е= К* по определению и поэтому х ЕЕ (К*)*, К CZ (ЛГ*)*. Обратно, по определению, х ЕЕ Е= (№*)♦ тогда и только тогда, когда (х, ?/) > 0 для всех у €= К*. Но выше мы показали, что в этом случае х ЕЕ К, т. е. (X*)* С К. Таким образом, (К*)* = К, что и требовалось доказать. Важный класс конусов, встречающихся в теории ли- нейного программирования, составляют многогранные конусы. Определение 1.4. Конус К называется много- гранным, если существует такой конечный набор п-мерных векторов at, i — 1, . . . , т, что из х ЕЕ К следует спра- ведливость разложения т ^=2^ 1=1,..., TH, (1.3) г=1 и, обратно, (1.3) влечет за собой включение хЕЕ К. Так что многогранный конус К — это просто мно- жество точек, представимых в виде (1.3). Данная точка х ЕЕ К в виде (1.3) представляется, вообще говоря, неод- нозначно. Лемма 1.4. Пусть х ЕЕ К, где К — многогранный конус. Тогда существует такое разложение х по векторам at с неотрицательными коэффициентами Ki, что число индексов i, для которых Kt 0, не превосходит размер- ности пространства п. При этом векторы at, соответст- вующие ненулевым Ki, линейно независимы. т Доказательство. Пусть х ЕЕ К, т. е. я = 2 Мь и i=i .7 — множество тех индексов i, для которых Kt > 0. Допустим, что число элементов в У больше п либо это число не превосходит п, но векторы аь i е= О, линейно зависимы. Так как в тг-мерном пространстве не может существовать более чем п линейно независимых векторов, то в любом случае найдутся такие коэффициенты а/, не все равные нулю, что 2 = 0- Кроме того, по опре- iGe/ ____ делению У, Kt = 0, если i ЕЕ J, так что г=2Мь bi>0, teJ.
18 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Вычитая из этого соотношения предыдущее, умножив его на 8, получаем, что * = S (?Ч — ^i) ai- г^У Без ограничения общности можно считать, что аг- О X- для некоторых i ЕЕ X Положим 80 = min —. <х.>о ai Тогда, если положить — 80аг, причем Zf 0 и по крайней мере для одного i = 0. Таким образом, мы получили разложение х по век- торам at с неотрицательными коэффициентами, однако число строго положительных коэффициентов уменьшилось. Мы теперь можем продолжить этот процесс до тех пор, пока число ненулевых коэффициентов не станет мень- ше или равно п и векторы аь для которых Хг- > 0, не станут линейно независимы. Поскольку мы имеем дело с уменьшением целого чис- ла, то ясно, что процесс не может продолжаться беско- нечно, и после конечного числа шагов мы придем к раз- ложению, удовлетворяющему условиям леммы. Лемма 1.5. Многогранный конус замкнут. Лемма 1.6. Пусть конус К задан системой линей- ных неравенств (ait я) > 0, i = 1, . . . , тп, где ai GE Еп. Тогда сопряженный конус К* является мно- гогранным конусом и состоит из точек у, представимых в виде т У — 2 М 0, f = 1, . . . , т. i=l Доказательство. Рассмотрим конус т 1 i=l J
§ 21 ВЫПУКЛЫЕ ФУНКЦИИ 19 По определению Я* есть множество точек х, для которых . т (X, у)>0, У<=К, Т. е. \х, 2 при всех X/ > 0. i=l ' Но тогда m m 2 = S (^’ ^i) > 2=1 ' 2=1 Последнее же неравенство возможно при любых > 0 очевидно лишь тогда, когда (af, х) > 0, i = 1, . . . , mt т. е. если х е К. Таким образом К* = К. Поскольку К — многогранный конус, то он замкнут и в силу лем- мы 1.3 (£*)* — R. Таким образом, К* = К, что и тре- бовалось доказать. Замечание. Доказанная лемма носит название леммы Фаркаша — Минковского и служит основным инструментом при получении необходимых условий экст- ремума. 3. Строго и сильно выпуклые множества. Определение 1.5. Множество X d Еп называ- ется строго выпуклым, если при любыхх^ х2 d X, х^Ф х2, все точки вида + (1 — К)х2, 0 <%< 1, являются внутренними точками этого множества. Определение 1.6. Множество X GZ Е* называ- ется сильно выпуклым, если существует такая постоян- ная у 0, что любая точка XI + хч 2 если xt, x2d X и || у || < у || х2 — ^Ц2. Легко убедиться, что сильно выпуклое множество яв- ляется и строго выпуклым (но не наоборот). § 2. Выпуклые функции Выпуклые функции, обладая рядом важных свойств, составляют один из основных объектов изучения в тео- рии математического программирования. В терминах выпуклых функций формулируется задача выпуклого про- граммирования — наиболее исследованная задача на
20 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I экстремум. Однако и в общей нелинейной задаче выпуклые функции играют решающую роль, ибо только в случае, когда производные по направлению в данной точке от входящих в задачу функций являются выпуклыми функ- циями от направления, удается сформулировать достаточ- но общие и исчерпывающие необходимые условия экстре- мума. В дальнейшем мы будем изучать в основном выпуклые функции, определенные во всем пространстве, так что если задана некоторая выпуклая функция, то ее значе- ние конечно в каждой точке х Еп. С точки зрения общей теории бывает целесообразно рассматривать также выпуклые функции, которые могут в некоторых точках принимать значение Однако выпуклые функции, принимающие значение +<х>, будут в дальнейшем встре- чаться довольно редко — только при изучении двойствен- ных задач выпуклого программирования. Поэтому во всех утверждениях этого параграфа, если не оговорено про- тивное, будет предполагаться, что рассматриваемая вы- пуклая функция определена во всем пространстве Еп и принимает конечные значения. 1. Определение. Основные свойства. Определение 2.1. Функция f (х), определенная для всех х 6= Еп, называется выпуклой, если f (^1*^1 4" ^2^2) М/ (#1) ^2/ (^2) для всех Хг, х2 и Х2 > 0, М + Х2 = 1. Замечание. Если / (х) = 4~ оо для некоторых х, то определение остается в силе. Лемма 2.1. Пусть ft (х) и f2 (х) — выпуклые функ- ции, а с19 с2 — неотрицательные числа. Тогда f (х) = cji (х) + Са/2 (х) — также выпуклая функция. Лемма 2.2. Пусть (х), i = 1, . . ., т,— выпук- лые функции. Тогда / (х) = шах Д (х)— также вы- пуклая функция. Лемма 2.3. Если / (.г)— выпуклая функция, то / 4" ^2^2 4" • • • 4~ Кпхт) Хц/ (Х1) 4“ ^2 / 4"*” 4“ ^т/
5 2] ВЫПУКЛЫЕ ФУНКЦИИ 21 для любых неотрицательных удовлетворяющих условию М + • • • 4" ~ Доказательство. При т = 2 утверждение сле- дует из определения выпуклой функции. Пусть оно уже доказано для т к. Покажем, что оно справедливо для т = к 4-1. Итак, пусть > О, i — 1, . . . , к 4- 1, М + • • • + ^ь+1 = Очевидно, можно считать, что все Хг- строго больше нуля, ибо иначе мы бы имели случай, для которого неравенство выполняется по предположению. Итак, Xfc+i 0 и 1 — = \ 4- • • • -F 0. Имеем по определению выпуклой функции /(Xi^i 4е • • • + (А Л \ Т“Г----Х14~. • • + -7 г 4“ ^k+if (%к+1)- 1 ЛЛ+1 1 — кк+1 / (24) Но по предположению индукции < т4—/(*i) + • • • + тЛ~/ (**), (2-2) 1 Лк+1 1 ЛЙ+1 ибо ___1 ... _|_ = 4 . ^k+i 1 ^к+1 Сопоставляя неравенства (2.1) и (2.2), получаем требуемый результат. На основании принципа математической индукции лемма доказана. Лемма 2.4. Функция / (х) выпукла тогда и только тогда, когда при любых х и р Еп выпукла функция одно- мерного аргумента t: Фх,р (0 = / (# 4“ Ф)- (2-3) 2. Дифференциальные свойства. Пусть / (х) — выпук- лая непрерывно дифференцируемая функция с градиентом /' (х). Лемма 2.5. Следующие утверждения эквивалентны: 1) / (#) — выпуклая функция.
22 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ СТ Л. I 2) / fa) — / (#i) > if" (^i), а* — #i) для любых х2 е Еп. 3) (/' (х + Хр), р)— неубывающая функция X. Если / (х) — дважды непрерывно дифференцируема, то 4) Г (х) — матрица вторых производных положительно определена, т. е. (f (х) р, р) > 0 для любых х, р ЕЕ Еп. Доказательство. Заметим прежде всего, что если фх,Р ДО = / то, как показано выше, фх>р (X) — выпуклая функция и Фх,р ДО = (/'(*+ fy>). р), Фх.р W = (р> /" (* + *р) р). (2.4) Покажем, что из утверждения 1 следует 2. Действитель- но, поскольку / ((1 — X) Xi + Хх2) < (1 — X) / (#0 + X/ (х2), 0 < X < 1, то / (XI 4- X (#2 — Х1)) — / (#1) <Ж) — Переходя к пределу по X —» О, получаем (/' (*1)> х2 — Xi)< / (я2) — / W- Итак, из утверждения 1 следует 2 или, коротко, 1 —» 2. Покажем, что 2 —> 3. На основании утверждения 2 имеем для <р х, р (X) фх, р (Xi) (Х2 %i) фх, р(Х2) Фх, р (Xi), фх, р (Х2) (Xj — Х2) <рХ) р (^1) Фх, р (^а). Эти два неравенства при Х2 >• Xt дают т. е. (/'(«+ hp), Р) < (/' (* + ^2?)> Р)> что и требова- лось доказать. 3 -> 1. Пусть (/' (х 4- Хр),р) — неубывающая функция X. Тогда фх,р (Xi) < фх.р (Х2) при Х2 > ХР Если 0 < р. < 1,
§ 21 ВЫПУКЛЫЕ ФУНКЦИИ 23 то О И (%2 — ^1) 5 [фХэ р (^1 + Т (^2 — ^1)) — О — ф; р (^1 + TH (Х2 — Xi))] dx = (1 — р) фх, р (Х1) + р<р (Х2) — — Фх, р ((1 — И) ^1 + Р^г)> т. е. фх,р (%)— выпуклая функция X. Но лемма 2.4 тогда показывает, что / (х) — выпуклая функция. 3 —> 4. Так как фх>р (X) = (/' (х + Хр), р)— неубываю- щая функция, то фх,р (X) > 0, т. е. (р,/"(^+^Р)Р)>О, (2.5) откуда следует, что матрица /" (х) положительно опре- делена. 4 —> 3. Обратно, если (2.5) выполнено, то фх,р (X) неотрицательно, а значит, фх>р (X) = (/' (х -f- Ар), р)— неубывающая функция. Так как мы показали, что 1—>2—>3—> 1, 4 —>3 и 3 —> 4, то тем самым эквивалентность всех четырех утверждений леммы доказана. Следствие 2.1. Квадратичная функция t (^)=4" Ах^ + х>> выпукла тогда и только тогда, когда матрица А положи- тельно определена. В самом деле, / (х) дважды непрерывно дифференцируе- ма и /" (х) = А. Поэтому утверждение следствия сразу получается из утверждения 4 леммы 2.5. Доказанная лемма дает целый ряд критериев выпукло- сти функции, на основании которых можно убедиться в выпуклости той или иной функции. Определение 2.2. Пусть теперь выпуклая функ- ция / (х) определена в точке х0 и принимает конечное значение. Вектор g называется субградиентом или опор- ным к функции / (х) в точке х$, если для всех х выполняется неравенство / (ж) — / (ж0) >(g, X — х0). (2.6) Можно показать, что если / (х) непрерывна в точке х0,
24 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I то в этой точке существуют субградиенты и множество субградиентов выпукло, замкнуто и ограничено. Из лем- мы 2.5 (утверждение 2)) следует, что /' Сг0)— субградиент функции / (х) в точке х0, если / (х) — дифференцируемая функция. Так что понятие субградиента обобщает поня- тие градиента. Из определения легко видеть, что если gr и g2 — субградиенты выпуклых функций Д (х) и /2 (х) в точке х0, то ctgi 4- c2g2 — субградиент функции (ж) + + сг/г (#)» с2 > 0. Таким образом, если знать суб- градиенты для некоторых выпуклых функций, то легко вычислить субградиент и для их линейной комби- нации. Пусть теперь / (х) = шах Д (х), где /г- (х) — выпук- г=1,...,т лые функции, и пусть gi — субградиенты Д (х) в точке х0. Тогда вектор g, т g=2 i=l т 2^г==1> ^>0, г = 1,...,тп, = 0, если Д (я0) < / (#о), г=1 есть субградиент функции / (х). 3. Строго и сильно выпуклые функции. Весьма важную роль в математическом программировании играют функ- ции, для которых условие выпуклости выполняется в уси- ленной форме. Определение 2.3. Функция / (х) называется строго выпуклой, если /((1 +^)<(1 + Щу), о<х<1, Если строго выпуклая функция достаточно гладкая, то справедливы утверждения, подобные сформулированным в лемме 2.5. Лемма 2.6. Следующие утверждения эквивалентны: 1) / (х) — строго выпуклая функция. 2) / (я2) ~ / (^1) > {f (^i), я2 “ xi) для любых Хи , Xi Ж2. 3) (/' (х _|_ р) — строго возрастающая функция X.
§ 2] ВЫПУКЛЫЕ ФУНКЦИИ 25 Определение 2.4. Функция / (х) называется сильно выпуклой, если при любых хи х2 S Еп ~ Yks ~ *ill2> (2-7) где у 0 — произвольно малая постоянная. Сильно выпуклая функция является, как нетрудно убедиться, и строго выпуклой, но, вообще говоря, не наоборот. В дальнейшем будут рассматриваться дважды непре- рывно дифференцируемые сильно выпуклые функции. Лемма 2.7. Если / (х) — дважды непрерывно диф- ференцируемая функция, то условие сильной выпуклости (2.7) эквивалентно условию (/"(*)р, Р)>т\\р\\\ тп>0, (2.8) при любых X U р ЕЕ Еп. Выполнение последнего неравенства означает, что мат- рица /" (.г) — сильно положительная. Следствие 2.2. Строго выпуклая квадратичная функция / (х) = у (Ах, х) 4- (Ь, х), определенная в прост- ранстве Еп, является и сильно выпуклой, и наоборот. Доказательство. Необходимо доказать лишь первое утверждение. Используя условие 2) леммы 2.6, можно убедиться, что для любого х Ф О (Ах, х) 0. В то же время (Ах, х) X (х, х) = X || х || 2, (2.9) (2.10) где X — наименьшее собственное значение матрицы вто- рых производных А. Из сравнения (2.9) и (2.10) вытекает, что X 0. Но при этом выполнение неравенства (2.10) означает, что / (х) — сильно выпуклая функция. Пусть £0 —- произвольная точка Еп. Рассмотрим мно- жество У = {х : / (х) < / («о)}- Лемма 2.8. Если f(x) — дважды непрерывно диф- ференцируемая сильно выпуклая функция, то Y — замкну- тое, ограниченное, сильно выпуклое множество.
26 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Доказательство. Замкнутость множества У следует из того, что / (х) — непрерывная функция. Докажем ограниченность У. По формуле Тейлора / (я) = / (х0) + (/' (ж0), X — Х0) + (/* (?) (х — х0), X — х0), где ? = х0 Ц- 0 (х — х0), 0 е [0. И- С учетом (2.8) / Ы (*о) + (/' (*о), х — х0) 4- 1| я — х0 II2. Отсюда следует, что -у- II X — х01|2 4- (/' («о), X — х0) < 0, т. е. -у- II х — х0 II2 < I (/' (яг0), X — х0) КII /' (ж0) || || X — х01|, или Это неравенство и доказывает ограниченность У. Установим, наконец, что У — сильно выпуклое мно- жество. Пусть хь ЕЕ У. Используя формулу Лагран- жа и условие (2.7), получим / 4- у) = / + (/' (В). У) < < 4~ р(ж1) + / (*2)1 — ТII *1 — *21|2 4- МIII/1|. (2.11) Здесь ? — Xi 4- 0У> 6 6= [0. И> М — максимальное значение производной /' (х) на множестве Y. Предположим, что / (жх) > / (х2). Тогда 4 [/ («1)+/ (^г)К </(хх). Если |у|< j(-lx2 — Х1||2, то из (2.11) следует / ^4'.Ж2 +!/) </(*i)» т. е. 4- у s Y. По определе- нию это означает, что У — сильно выпуклое множество. Лемма доказана. Замечание. Замкнутость и сильная выпуклость множества У сохраняется и в случае, когда / (х) — диф-
§ з] ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 27 ференцируемая или непрерывная сильно выпуклая функ- ция. При этом доказательство сильной выпуклости Y опирается на тот факт, что непрерывная сильно выпуклая функция на каждом ограниченном множестве удовлетво- ряет условию Липшица (см. Н. Бурбаки [1], стр. 116). Лемма 2.9. Если матрица /" (х) удовлетворяет условию (2.8), то существует обратная матрица У"”1 (я), причем У’^р,р)<±1рГ Если к тому же матрица f (х) ограничена, т. е. (ГЮр,р)<М\\р\\*, (2.12) то (rWp)>-gdH2- 4. Вогнутые функции. Определение. Если для любых ац, т 2 ЕЕ Еп и лю- бого 0 X 1 выполняется неравенство У (Х#! + (1 — %) х%) (#i) + (1 — X) у (#а)> то функция / (х) называется вогнутой. Отсюда следует, что функция / (х) вогнута тогда и толь- ко тогда, когда функция —/(я) выпукла. С учетом этого все свойства вогнутых функций могут быть получены простой переформулировкой соответствующих свойств вы- пуклых функций. По аналогии с тем, как это делалось для выпуклых функций, можно определить строго и сильно вогнутые функции и изучать их свойства. § 3. Выпуклое программирование Предмет выпуклого программирования составляет за- дача минимизации выпуклой функции в выпуклой области. Выпуклое программирование составляет наиболее разра- ботанную часть математического программирования. 1. Постановка задачи. Основные свойства. Пусть за- дана выпуклая непрерывная функция / (х), х е Еп, определенная при всех х ЕЕ Еп, и выпуклое множество X. Требуется найти минимум / (х) на множестве X, т. е.
28 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I найти такую точку х*, что / (*♦) < / (я), х е х. Лемма 3.1. Выпуклая непрерывная функция / (х) достигает своего минимума на компактном выпуклом множестве X. Доказательство. Утверждение леммы есть просто частный случай хорошо известной теоремы Вейер- штрасса о том, что непрерывная функция достигает своего минимума на компактном множестве. Лемма 3.2. Пусть множество X замкнуто, a f( дважды непрерывно дифференцируемая сильно выпуклая функция. Тогда / (х) достигает своего минимума на X. Доказательство. Пусть я0 €= X. Рассмотрим множество У - {x:f(x)^f(x0)}. Оно замкнуто и ограничено в силу леммы 2.8. Рассмотрим теперь пересечение X П Y. Очевидно, что если х* — точка минимума / (х) на множестве X П Y, то эта точка будет и точкой минимума / (х) на X. Но мно- жество X П Y ограничено и замкнуто как пересечение двух замкнутых множеств, одно из которых ограничено. Поэтому / (х) достигает своего минимума на X П У, а значит, и на всем X. Выпуклая и строго выпуклая функции могут и не до- стигать своего минимума. Лемма 3.3. Множество X* CZ X точек, в которых выпуклая функция f (х) достигает своего минимума на X, выпукло. Лемма 3.4. Строго выпуклая функция достигает своего минимума на выпуклом множестве X в единствен- ной точке. Доказательство. Пусть х± и х2 — различные точки минимума / (ж) на X. Тогда / ^”2"А + ~ #aj <С ~/ (xi) + ~/ (хг) = / (^i)> ”2” “1—2" #2 > что противоречит тому, что хх — точка минимума / (х).
§ 31 ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 29 2. Необходимые условия минимума. Пусть / (х) — непрерывно дифференцируемая выпуклая функция, а X — выпуклое множество. Нас будет интересовать следующий вопрос: если х* — точка минимума / (х) на X, то какие условия в этой точке должны выполняться? Определение 3.1. Пусть х0 ЕЕ X. Обозначим через К (х0) множество векторов р таких, что р ЕЕ 6= К (х^) тогда и только тогда, когда существует такъе а > 0, что xQ + ар ЕЕ X. Множество К (х0) называется конусом допустимых направлений для X в точке х0. Лемма 3.5. К (х^) — выпуклый конус. Если р ЕЕ ЕЕ К (х0) и х^ + aQp ЕЕ X, то xQ + ар ЕЕ X при всех 0 < а < а0. Теорема 3.1. Пусть х* — точка минимума не- прерывно дифференцируемой выпуклой функции f (х) на выпуклом множестве X. Тогда f (*,) е к* (ж#). (3.1) Обратно, если (3.1) выполнено, то х* — точка минимума f (х) на X. Доказательство. Пусть (3.1) в точке х* вы- полнено. Тогда (/' (х*), р) 0, р ЕЕ К (я*). Если теперь х ЕЕ X, то р = х — х* СЕ К (х*), ибо + (х — я*) = = х ЕЕ X. Поэтому (/' (х*), х — я*) > О, х е X. Но для выпуклой функции по лемме 2.5 Поэтому / (х) — / (ж*) > (/' (жф), X — ж*). / (ж) - / (ж*) > О, ж Е X, откуда и следует, что ж* — точка минимума / (ж) на X • Докажем теперь необходимость условия (3.1). Пусть ж* — точка минимума. Тогда для любого г Е X и 1, 0 < <1<1, f ((1 — +1М = / (ж* + М® — «*)) > t (х*), или f К + X (х — *„)) — f (xj 0 — ^v.
30 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Переходя к пределу X 0, получаем (/' (#*), * — г*) > 0, х е X. (3.2) Пусть теперь р ЕЕ К (я*). Тогда х* + &Р = % ЕЕ X, а > 0, или Р = ~ **}• Тогда (/ (^*)» Р) == (/ (#*)»# (3.3) где учтено (3.2) и то, что а 0. Итак, неравенство (3.3) верно для любого р е К (х*), откуда и следует, что f (х*) ЕЕ К* (х*). Следствие 3.1. При условиях теоремы точка х* есть точка минимума f (х) на X тогда и только тогда, когда выполнено неравенство (/ (*£*)» % *£*) 0, Действительно, как только что было показано, (3.2) эквивалентно (3.1). Покажем, как применить теорему 3.1 для случая, когда область X задается системой линейных неравенств. Пусть заданы векторы at е Еп, i е (J J°, где .7” и J° — конечные множества индексов, и соответствую- щие им числа Пусть область X задается системой ра- венств и неравенств (ah i ЕЕ (at, х) - bt = 0, iE J°. (3.4) Опишем конус К (я0)в произвольной точке xQ е X. По- ложим Г (х0) = {it (af, xQ) - bt = 0, i e J’}. По определению p ЕЕ К (#0), если x$ + ар EE X при до- статочно малых а. Но нетрудно видеть, что я0 + ap Е ЕЕ X, т. е. точка х0 + ар удовлетворяет (3.4) при малых а тогда и только тогда, когда (az, р) <0, iE Т Cr0), (^» Р) = 0, IE (3.5) Таким образом, конус К (х0) описывается системой (3.5), которую мы можем переписать в эквивалентном
§ 3] ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 31 виде: (—, р) > О, i е (х0), (af, р) > 0, i Е 7°, (—af, р) > О, Z Е 3°. На основании леммы 1.6 вектор у ЕЕ К* (xQ) может быть представлен в виде у= 2 — w4+ 2 —w+1«i+ 3 и~1аг> i^-(Xo) где и*, u+i, и~г — неотрицательные числа. Обозначая Z? __ и+г _ U~i, [ £= дОЛуЧавМ у = — 2 и*а* — 2 > о, i е т (х0). (3.6) ге<^“(х0) ге<^° Теорема 3.2. Пусть f (х) — выпуклая дифферен- цируемая функция, а множество X описывается системой (3.4). Тогда для того, чтобы точка х* была точкой мини- мума f (х) на X, необходимо и достаточно, чтобы нашлись такие числа и', i ЕЕ .7“ (J J0, что /' (х*) + 2 и^ а^ = и* > 0, i е и' = О, г&г'-СР0 если (az, х*) —- < О, i Е 7". Доказательство. Результат получается сра- зу, если воспользоваться теоремой 3.1 и представлением (3.6) для элементов К* (xQ), а также положить и* — 0 для i ЕЕ 7~ (х*). Следствие 3.2. Для того чтобы точка х^. была точкой минимума выпуклой дифференцируемой функции во всем пространстве, необходимо и достаточно выполне- ние равенства f (х#) = 0. Следствие 3.3. Для того чтобы точка х^. была точкой минимума выпуклой дифференцируемой функции на множестве > о, / е где — некоторое подмножество множества j — 1, 2,..., п, необходимо и достаточно, чтобы выполнялись
32 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I соотношения э/ > 0, если х’ = 0, 7 е К, дх1 2L^*L = о, если xj =# 0 или j 3. Теорема Куна — Таккера. Рассмотренные выше не обходимые и достаточные условия минимума основыва- лись на абстрактном описании допустимого множества X, на котором минимизировалась функция / (х). В широком классе задач множество X задается в виде системы нера- венств и равенств. В этом пункте приводятся необходимые условия минимума для такого, более конкретного случая. Итак, пусть заданы выпуклые функции ft (ж), i = 0, 1, ..., иг, и выпуклое множество X. Требуется минимизи- ровать /0 (х) при ограничениях fi {х) < 0, i = 1, ..., тп, х е X. ’ (3.7) Теорема 3.3. (Куна — Таккера). Пусть х* — точ- ка минимума /0 (х) при ограничениях (3.7) и существует такая точка хгёв X, что fi (^i) < 0, i = 1, ..., т. Тогда существуют такие числа ш > 0, i = 1, ..., иг, что т m /о (Ж#) + 3 “Vi (**) < /о(®) + 2 “Vi (x), x^X, i=l i=l P«o) uifi (•£*) — 0, i = 1, ..., m. Приведенные условия являются и достаточными. Определение 3.2. Числа и\ фигурирующие в теореме, называются множителями Лагранжа. 4. Двойственная задача. Рассмотрим снова задачу минимизации выпуклой функции /0 (х) при ограничениях (3.7). Пусть т? > 0, г = 1, ..., тп, фиксированы. Вычис- лим m <р (u) = inf Г/о (х) + 2 “Vi (ж)] • (3.9) хеХ L i=i -* Таким образом, для и > 0 определена функция ср (и), которая, правда, может принимать и значения — со. Пре-
§ 3] ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 33 доставляем читателю убедиться, что ф (и) — вогнутая функция. Теорема 3.4. Пусть и > О, а х удовлетворяет ограничениям (3.7). Тогда ф (и) < /о (х). Если же выполнены условия теоремы 3.3, то max ф (и) = min /0 (х), и>0 x&D где D — множество точек х, удовлетворяющих (3.7) Доказательство. Имеем для х Е Z), и > О т Ф («) < /о (х) + 3 uVi (х) < /о (х). 1=1 Пусть теперь выполнены условия теоремы 3.3. Тогда найдется такой вектор uQ > 0, что для него выполнены соотношения (3.8). Но из этих соотношений следует, что m Ф («о) = /о (х*) 4- 2 “o/i (х*) = /о (х*)- i=l Так как ф (и) /а (я*), то отсюда следует, что вектор uQ дает максимум функции ф (и) в области и > 0 и max ф (и) = ф (и0) = /о (х,) = min /0 (ж), что и требовалось доказать. Задача максимизации ф (и) при ограничении и > О называется двойственной задачей выпуклого программиро- вания, а и — вектором двойственных переменных. Суть теоремы 3.4 теперь можно проинтерпретировать следующим образом: при условиях теоремы Куна — Танке- ра значение максимума целевой функции в двойственной задаче совпадает со значением минимума целевой функ- ции исходной задачи. При этом множители Лагранжа исходной задачи являются решением двойственной задачи. Часто задача выпуклого программирования возникает в форме: минимизировать /0 (х) при ограничениях ft (х) < о, IE fi (х) - о, i е J°, хе х. (3.10) Здесь и J0 — конечные множества индексов, /0 (х) и 2 Б. Н. Пшеничный, Ю. М. Данилин
34 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I fa (х), t е — выпуклые функции х, fa (х), i Е J0, — линейные функции, а X — выпуклое множество. Для такой задачи двойственная определяется как задача максимизации ср (и) при ограничениях и1 О, i ЕЕ где и имеет компоненты z?, i ЕЕ 3" U а ф(и) = inf Г/о(ж) 4- 2 (3-11) L. J Таким образом, число двойственных переменных рав- но числу ограничений (3.10), и соответствующая г-му. ограничению переменная и1 принимает неотрицательные значения, если она соответствует ограничению типа нера- венства, и принимает произвольные значения, если соот- ветствует ограничению типа равенства. 5. Задача линейного программирования. Задача ли- нейного программирования состоит в минимизации функ- ции /0 (х) — (а0, х) при ограничениях (3.4) (af, х) — bi < 0, i Е (аг, х) — bt = 0, i Е J°. Эта задача совпадает с задачей /3.10), если Л (х) = (ah х) -bh X = Еп. Лемма 3.6. Если ограничения (3.4) совместны, то либо задача линейного программирования имеет решение х*, либо значение нижней грани /0 (х) = (а0, х) при огра- ничениях (3.4) равно —оо. Доказательство этой леммы имеется в курсах линей- ного программирования. Необходимые условия, характеризующие х*,— ре- шение задачи линейного программирования — даются просто переформулировкой теоремы 3.2, поскольку /0(^) = = а0. Теорема 3.5. Для того чтобы точка х* была ре- шением задачи линейного программирования, необходимо и достаточно, чтобы нашлись такие числа и1, i ЕЕ U J0, что а0 + 3 «4 = 0, г?>0, ieJ", = 0, (3.12) если («г, х*) — < 0, i ЕЕ
§ з] ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 35 Построим задачу, двойственную к задаче линейного программирования. По определению в этом случае ф(и)= inf Г/0(х) + 3 = Х(=Еп L ie^-U^0 J - inf Г(a0, x) 4- 2 w‘ ((ai>ж) ~ = = inf [((«o+ 2 «4),*) — 2 = — 2 еоли ao + 2 — o, — ос, если a0 + 2 игаг=/=0- Таким образом, задача, двойственная к задаче линей- ного программирования, т. е. задача максимизации ср (и) при условиях i? > О, Z ЕЕ эквивалентна задаче: мак- симизировать — 2 . uibi при ограничениях &о Ч" 2j и^а^ = 0» и* 0, i (ЕЕ У • (3.13) (3.14) Теорема 3.6. Если исходная задача линейного про- граммирования имеет решение, то множители Лагранжа являются решением двойственной задачи, и при этом значение минимума целевой функции в исходной задаче равно значению максимума целевой функции двойственной задачи: Часто в задаче линейного программирования, помимо ограничений (3.4), присутствуют ограничения вида Xs > 0, / е (3.4') где fy — подмножество индексов 1, 2, ..., п. Исполь- зуя теорему 3.6, читатель легко докажет следующий ре- зультат. Теорема 3.7. Если задача линейного программиро- вания с ограничениями (3.4), (3.4') имеет решение, то 2*
36 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I множители Лагранжа, соответствующие ограничениям (3.4), являются решением двойственной задачи: максими- зировать — 2 при ограничениях «о+ S wM>0, »о+ 2 иМ = о, u’>o, где ai — j-я компонента вектора at. Значения минимума целевой функции в исходной задаче и максимума в двой- ственной — совпадают. 6. Задача квадратичного программирования. Задача квадратичного программирования состоит в минимизации квадратичной функции /о (х) = (х, Сх) 4- (d, х) при ограничениях (3.4). Здесь С — положительно опре- деленная симметричная матрица размером п X и, d — тг-мерный вектор. Лемма 3.7. В задаче квадратичного программиро- вания нижняя грань либо достигается, либо равна —оо. Доказательство этого результата мы не приводим. Теорема 3.8. Для того чтобы точка х* была ре- шением задачи квадратичного программирования, необ- ходимо и достаточно, чтобы нашлись такие числа и\. i е (J J0, что Сх* -|- d 4- 2 = и* = 0, если (at, х*) — < О, i ЕЕ С/ , и* > 0, i G Доказательство получается путем прямого примене- ния теоремы 3.2.
§ 31 ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ 37 Пусть теперь матрица С строго положительно опреде- ленная, т. е. существует такое у, что (х, Сх) >?|| я|| 2. В этом случае матрица С невырождена и имеет обратную С"1. Построим двойственную задачу: Ф (и) = inf Г/о (х) + 2 u'fi (*)] = = inf [4" {X, Сх) + (d, х) + 2 (Ч»ж) — bi. х^Еп = inf Г— 2 + 4" Сх) + (х, d + S w’ai Приравнивая производные от правой части нулю, находим, что минимум достигается при х (и) — — С"1 (d2 и1аЛ . При этом ф (и) = — 2 — iey-U^™ -4-(d+ S «W'1 (d+ 2 «4)). (3.15) Таким образом, двойственная задача состоит в макси- мизации (3.15) при ограничениях i? > О, i fe Теорема 3.9. Если минимум в задаче квадратич- ного программирования достигается и матрица С строго положительно определена, то для задачи квадратичного программирования верна теорема Куна — Таккера (3.3) и верна теорема 3.4. При этом — множители Лагранжа исходной задачи являются решением двойственной задачи, и если и* — решение двойственной задачи, то решение исходной может быть найдено по формуле х(и) = 2 “Ч)« (3.16)
38 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I § 4. Необходимые условия минимума . Общая задача математического программирования со- стоит в минимизации функции /0 (х), х Ez Еп, на множе- стве, заданном системой равенств и неравенств А (х) <0, i е J", А (х) =0, iE Z х е X. (4.1) Здесь и J0 - конечные множества индексов. Всюду в этом параграфе будет предполагаться, что ft (х) — не- прерывно дифференцируемые функции, имеющие гради- ент /• (х). Относительно множества X пока предполагать ничего не будем. Главной задачей этого параграфа будет вывод необ- ходимых условий, которым должна удовлетворять точка х*, которая дает минимум f0(x) при ограничениях (4.1). 1. Основные определения. О п р е д еление 4.1. Множество D точек, удов- летворяющих ограничениям (4.1), называется допустимой областью. Мы будем предполагать, что это множество непусто. Определение 4.2. Функция /0 (х), минимизи- руемая на D, называется целевой функцией. Определение 4.3. Точка х*, удовлетворяющая (4.1), для которой fo (•£*) /о (^)> & называется точкой минимума. Определение 4.4. Точка х* называется точкой локального минимума /0 (х) на D, если существует такая окрестность Q точки х*, что ' . /(?*)</<>(*)> В дальнейшем, как правило, рассматривается задача Минимизации fQ (х). Очевидно, что задача максимизации некоторой функции / (х) на D сводится к задаче минимиза- ции на D функции /0 (х) — —f (х). 2. Необходимые условия минимума. Определение 4.5. Вектор ' р Ez Еп опре- деляет допустимое направление относительно множества X в точке xQ ЕЕ X, если для любых векторов et ЕЕ Еп, i €= G и любых функций г* (Л), i ЕЕ J°, удовлетворяющих
§ 4] НЕОБХОДИМЫЕ УСЛОВИЯ МИНИМУМА 39 условию ПтЕД = 0, (4.2) Х-Н) л выполняется #о + Хр + 2 (^) ei^ X (4*3) ге<^® при достаточно малых X 0. Теперь можно сформулировать основной результат, который будет доказан в этом пункте. Теорема 4.1. Пусть х* — точка локального ми- нимума /0 (х) на D. Пусть, кроме того, множество допус- тимых направлений относительно множества X в точке х* образует выпуклый конус К (х*). Тогда найдутся такие числа uQ, иг ЕЕ J" (J J°, что u°fo (X*) + 2 “Vi (**) е К* (я:*), (4-4) ulfi (я*) =0, i Е J , иг > 0, i — 0, i ЕЕ J . Доказательство. Рассмотрим два случая. 1) Векторы fi (х*), i ЕЕ J0, линейно зависимы. Тогда найдутся такие числа us i ЕЕ 3°, что 2 u^fi (х*) = 0. Положив и0 = 0, и1 = 0, i ЕЕ убеждаемся, что все утверждения теоремы выполнены. 2) Векторы fi (х*), i ЕЕ J0, линейно независимы. Тогда существуют такие векторы et, i ЕЕ J°, что где 8и = 0, если i Ф f и 8it = 1. Пусть общее число индексов I в множестве J” (J J0 равно т. Рассмотрим в пространстве £'m+1 множество Z, определенное следующим образом. Вектор z принадлежит Z тогда и только тогда, когда существует такой вектор Р ЕЕ К (х*), что = (f (я*), р), если fi (х*) = 0, i е J” [J J0 или i = 0. Компоненты z* вектора z Е 2, для которых fa (х*) < 0,
40 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I произвольны. Так как К (я*) — выпуклый конус, то лег- ко видеть, что Z — также выпуклый конус. Определим теперь множество Р. Вектор w ЕЕ Р тогда и только тогда, когда wi < 0, если fi (х*) = 0, i ЕЕ или i = 0, wi — 0, если i ЕЕ #°. Остальные компоненты вектора w произвольны. Очевид- но, что Р — также выпуклое множество. Докажем, что Z и Р не пересекаются. Допустим против- ное. Тогда найдется такой вектор рое К (хф), что (А (**)> Ро) < 0, (fi (**)> Ро) < 0, если i е И fi (х#) = 0, (4.5) (fi (**)> Ро) = 0, i е J®. Составим теперь систему уравнений относительно функ- ций г1 (%), 16 Л (** + Хро + з г'еЛ =0, t е £f>. (4.6) Обозначим gi (X, г) = /i (я* + Хр0 + 2 ГЧ) , Тогда система (4.6) эквивалентна системе gi (%, г) = 0, i ЕЕ J0, (4.7 которая определяет г* как неявные функции %. Так как предполагалось, что ft (х) — непрерывно дифференцируе- мые функции, то gi (%, г) непрерывно дифференцируемы по X и г1 также. При этом легко вычислить, что ds. (0, 0) • = (A (**),Po) = о, (4.8) в силу (4.5), dg. (0, 0) -^^- = (Л(^),е0 = б«. (4.9) ат dgi (0, 0) Обозначим через dg/dr матрицу с компонентами---------—
§ 4] НЕОБХОДИМЫЕ УСЛОВИЯ МИНИМУМА 41 / ЕЕ J0. По теореме о неявных функциях система (4.7) разрешима относительно г при малых X, если матрица dg/dr невырождена. При этом г (X) есть дифференцируе- мая функция X, г (0) = 0 и (4.10) dg ^{(0,0) _ где — вектор с компонедтами —. В рассматри- ваемом случае = I, -Й- = 0, (4.11) дг ’ дк ' 47 где I — единичная матрица. Это следует из (4.8) и (4.9). Таким образом, мы видим, что при малых X определены непрерывно дифференцируемые функции г* (Л), i ЕЕ J0. При этом lim == Пш г^_ = = 0 (4 12) Х-Н) А х-н> Л в силу (4.10) и (4.11). Пусть теперь х (к) = х* кр 0 + 2 г{(Х)е(. Тогда при iSe?0 малых /. > 0 я (к) £ X в силу определения К (ж*), ибо р0 ЕЕ К (х*). Далее, (х (Л)) =0, i Е J0 в силу того, что г* (X) удовлетворяют (4.6) по определению. Далее, при малых Л 0 /0 (х (Л)) < /0 (я#). В самом деле, по формуле Тейлора /о (* (*)) = /о (*♦) + (/о (S), * (*) - х*), где £ —- точка отрезка, соединяющего х* и х (Л). Поэтому м*(Ь))-м**) e Ро) + 2 (/;е.)_ /V . Л ге«У® Так как в силу (4.5) (/0 (#*)> Ро) < 0, а —т0 ПРИ малых положительных % получаем | -> х* и fo (х (X)) /о (я;ф) Q Аналогично, если i е и Д (х*) = 0, то из (4.5) следует что А (х (%)) <0, i Е Г, Л (^) = 0.
42 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Если же fi (х#) <0, i е У~, то fi (х (X)) < 0 по непре- рывности. Итак, точка х (X) при малых положительных X удов- летворяет всем ограничениям (4.1) и /0 (х (X)) < /0 (х*). Но это противоречит тому, что х* — точка локального минимума. Полученное противоречие показывает, что множества Z и Р не пересекаются. Так как эти множества выпуклые, то их можно разделить. Это значит, что найдутся такие не все равные нулю числа u°, i? Е Т U J0, что u°z° + 2 u'zi u°wQ + 2 u'w'> zEzZ, weP. (4.13) Структура множеств Z и P позволяет сделать некоторые выводы о числах и*. В самом деле, по определению Р иР может принимать любое значение, меньшее нуля. От- сюда следует, что и° 0, ибо иначе правую часть можно было бы сделать как угодно большой в противоречии с (4.13). Аналогично, и1 0, если ft (я*) = 0, i G= (4.14) Далее, если i Е Т и (х*) < 0, то иР произвольно. Поэтому, чтобы неравенство (4.13) имело место необхо- димо, чтобы и1 — 0, если fi (х*) <0, i Е (4.15) Устремляя теперь и? в (4.13) к нулю так, чтобы и? Е Р, учитывая (4.15) и определение Z, получаем ИЛИ (w°/o(**) + S «*Х(**).р) >0. (4.16) Доказанные утверждения (4.14), (4Л5), (4.16), очевидно, эквивалентны утверждению теоремы. Доказательство завершено. Следствие 4.1. Если X — Еп, то для того, что- бы точка х* была точкой локального минимума, необхо-
НЕОБХОДИМЫЕ УСЛОВИЯ МИНИМУМА 43 § 4] димо существование таких не всех равных нулю чисел и[, что и0 > 0, и1 > 0, i е J', и1 fi (я*) = 0, i е У~. (4.17) Доказательство. Если X = то любое направление р является допустимым, т. е. К (х*) — Еп. Поэтому конус К* (х*) состоит из единственного ну- левого вектора, и соотношения (4.4) сразу переходят в (4.17). Следствие. 4.2. Для того чтобы точка х* была точкой минимума /0 (х) в области х1 > 0, / е где — подмножество индексов 1, 2, ..., п, необходимо выполнение условий > о, если х}* - о, / S дх1 я. , . . (4.18) '° ”* = 0, если х* > 0, или j g= dxJ Доказательство. Ограничения а? >0, / €= могут быть переписаны в виде (—а,-, х) 0, / е где Uj — вектор с компонентами а] == i = 1, ..., п. Применяя предыдущее следствие, получаем, что най- дутся не все равные нулю числа и° и и\ j (ЕЕ что и°/о (#*) ~ 3 u'ai и = 0, )'Е (4.19) Первое из соотношений (4.19) может быть записано в покомпонентном виде: и0 (**) 2 и^у=0 ИЛИ = ue^sl=0, ie^-(4.20)
44 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I Из (4.20) следует, что и° 0, ибо если и0 = 0, то и все и1 = 0, что противоречит следствию 4.1. Поэтому можно считать, что и° = 1. Из (4.20) и (4.19) сразу получается утверждение след- ствия. Определение 4.6. Точка минимума х* в зада- че минимизации f0 (х) при ограничениях (4.1), где X = = Еп, называется регулярной, если градиенты fa (х*) для индексов i таких, что i GE (J J°, fi (х*) = 0, линей- но независимы. Следствие 4.3. Если точка х* регулярна, то в (4.17) можно положить и0 — 1, а множители и*, i€E У" определяются однозначно. Доказательство. В самом деле, и°^> 0 в рас- сматриваемом случае. Ибо если и0 — 0, то в силу (4.17) градиенты fa (х*), для которых i е (J J0, А (х*) = 0 оказались бы линейно зависимыми. Далее, в силу соотно- шений (4.17) и' = 0, если А (я*) < 0. Поэтому первое соотношение (4.17) с и0 = 1 дает разложение fi 1**)=* вектора /о (х*) по линейно независимым векторам fa (х*) и, значит, однозначно определяет коэффициенты и1. Пусть теперь в задаче (4.1) ограничения типа неравен- ства отсутствуют, а имеются только ограничения типа ра- венства А (*) =0, i е J0, и X = Еп. Если х* — точка минимума /0 (х) при таких ограничениях и градиенты fa (х*) линейно независимы, то необходимые условия минимума (4.17) запишутся в виде /о(^*) + S =°- г(=<^0 Множество векторов р, удовлетворяющих условию (А (**)> р) = о, i е 2°, в рассматриваемом случае называется касательным много-
S 4] НЕОБХОДИМЫЕ УСЛОВИЯ МИНИМУМА 45 образней к множеству D = {х: ft (х) = 0, i GE J0} в точке х*. Следствие 4.4. Для того чтобы точка х*, в ко- торой (ж*), i ЕЕ J0, линейно независимы, была точкой минимума функции /0 (х) на множестве D, необходимо, чтобы градиент fQ (х*) был ортогонален касательному мно- гообразию к D в точке х*, т. е. если р принадлежит каса- тельному многообразию, то (/0 (х*), р) = 0. Другими сло- вами, проекция вектора /0 (х*) на касательное многообра- зие равна нулю. Доказательство. Если х* при сделанных пред- положениях — точка минимума, то (/о (ж»), р) = — s (fi (х#), р) = 0 is*?® для любого вектора р из касательного многообразия. Об- ратно, если (/о (х*), р) равно нулю при любом р, принад- лежащем касательному многообразию, то имеет место представление /о (#*) 2 (*£*)’ как это следует из леммы 1.6, если расписать каждое из равенств (fi (х*), р) = 0 в виде двух неравенств (fi (**), Р) > 0, — (fi (**), Р) > 0- 3. Минимаксная задача. Пусть требуется найти точку минимума функции f(x)= max fi(x), (4.21) где ft (х) — непрерывно дифференцируемые функции, х ЕЕ Еп. Чтобы применить изложенные в предыдущем пункте результаты, сведем задачу минимизации / (х) к эквивалентной задаче математического программирова- ния. А именно, легко видеть, что если ввести дополнитель- ную переменную яп+1, то х* — точка минимума / (х) — бу- дет также решением следующей задачи: минимизировать
46 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ /ГЛ. I g0 (ж, #n+1) = хп+1 при ограничениях / gi (х, xn+1) = fi (х) - хп^ <0, i - 1, т. (4.22) При этом минимальное значение g0 (х, а/141) равно х*+1 = Применим к задаче (4.22) следствие 4.1 теоремы 4.1. При этом надо учесть, что рассмотрение теперь произво- дится в пространстве 2?n+1 переменных х1, ..., #n, .rn+1, так что градиенты функций gi (х, xn+l) имеют вид (f'(x}\ /0\ 1 ) ’ i = l,...,m, g'(z,*n+1) = L J • Применение следствия 1 теперь дает: найдутся такие не все равные нулю числа u°, us i = 1, ..., тп, что i? > 0, i = 0, 1, ..., т, (4.23) и1 (ft(x*) — хГ) = и* (А (**) — f (**)) = 0, i = 1, m. m Первое из соотношений (4.22) дает, что и° = 2 иг- Отсюда, 1=1 так как и1 0, следует, что и0 0, ибо при и0 = 0 все и1 также были бы равны нулю. Учитывая однородность соотношений (4.22) относительно us можно считать, что и0 = 1. Итак, окончательно мы получили следующий ре- зультат. к Теорема 4.2. Для того чтобы точка х* была точ- кой минимума f (х), определенной соотношением (4.21), необходимо, чтобы нашлись такие числа и\ i = 1, ..., т, что тп 2 ulfi (**) = о, 1=1 т 2 и1 = 1, г? 0, i — 1,..т, (4-24) и1 (ft (х*) — / (х#)) 0, i = 1, т.
§ 4] \ НЕОБХОДИМЫЕ УСЛОВИЯ МИНИМУМА 47 4. Необходимые условия второго порядка. Возвратим- ся снова к задаче минимизации /0 (х) при ограничениях (4.1), X =*= Еп. Обозначим L (х, и) = (х) + 2 00 • (4.25) Допустим, что точка х* — решение поставленной за- дачи минимизации — регулярна (определение 4.6). Тог- да в силу следствия 3 теоремы 4.1 первое соотношение (4.17) может быть записано в виде L'x (х*, и) = 0. (4.26) Допустим теперь, что все функции /г (х) дважды не- прерывно дифференцируемы, т. е. существуют непрерыв- ные матрицы вторых производных /, (х). Поэтому опреде- лена и матрица вторых производных Zxx (х*, и) функции L (х, и) по х. Из предположения регулярности х* следует, что соот- ношение (4.17) однозначно определяют множители и‘, i Е 5' U J0. Обозначим Jo(^) = {i- ы{>°> *eJ"), J-(x*) = {i: /iW = 0, 1£Л. В силу (4.17), Jo (х#) G2 J~ (хф). Пусть теперь вектор р удовлетворяет неравенствам (A(**),P)<0, ieJ~(x#), i(=W, (4.27) (А (**). р) =0, iG Jo (**) и Положим Яр (х*) = {i е J’ (х*) U J°: (fi (**), р) = 0). (4.28) В силу регулярности х* векторы (х*)> i ЕЕ (^*), ли- нейно независимы. Поэтому можно показать, что сущест- вует такая функция г (X) ЕЕ Еп, что А (х (1)) = 0, i е JP (хж), (4.29) г (АЛ где х (1) = х* + \р + т (%), lim = 0. Делается это х->о точно так же, как при доказательстве теоремы 4.1.
48 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / [ГЛ. I Далее, если i ЕЕ (я*), то либо ft (я#) </0, либо (fl (#*)> Р) < О» что в обоих случаях гарантирует неравен- ство fa (х (X)) < 0 при малых X. Таким образом, Точка х (X) при малых Л удовлетворяет всем ограничениям (4.1), X — = Еп. Используя этот факт, а также (4.27) — (4.29), по- лучаем /0 (о: (X)) = Ь (х (X), и), ибо если и1 Ф 0, то в силу (4.29) fi (х (X)) = 0. В то же время, из (4.17) получаем, что /0 (x^j — L {х*, и). Учиты- вая теперь, что х (X) удовлетворяет всем соотношениям (4.1) и что х* — точка минимума /0 (х) при ограничениях (4.1) получаем при малых X: L (х (X), и) L(x*, и). Но разлагая с точностью до членов второго порядка ма- лости L (х (X), и) по степеням X, получаем L (х (X), и) = L (х*, и) + (L*x (х*, и), х (X) — х*) + 4" *2“ (^хх(^(Х), и) (х (К) х*), х (X) x*)^L(x*, и), где | (X) — точка отрезка, соединяющего xQ и х (X), так что | (X) -> х* при X -> 0. Воспользовавшись (4.26), получаем и)(р + ^), р+Ц^) >0. Разделив на X2 и устремив X к нулю, окончательно полу- чаем (Lxx (я*, и) р, р) > 0. Доказана следующая теорема. Теорема 4.3. Пусть функции fi (х) дважды не- прерывно дифференцируемы, их* — регулярная точка минимума f0(x) при ограничениях (4.1), X = Е*. Тогда существуют такие числа и1, i ЕЕ U J°, что Lx (х*, и) = 0, и* > 0, i е uifi (х*) =0, ie и (Lxx (х*, и) р, р)> 0 для всех р, удовлетворяющих неравенствам (4.27).
НЕКОТОРЫЕ ДОПОЛНИТЕЛЬНЫЕ СВЕДЕНИЯ 49 § 5J § 5. Некоторые дополнительные сведения В математическом анализе рассматривается формула Ньютона — Лейбница, устанавливающая связь между скалярной функцией f(x) и ее производной. Эта формула обобщается на случай операторных функций. Если F (х) — дифференцируемая операторная функ- ция^ определенная на открытом выпуклом множестве Й ЕЕ ЕЕ Еп, и х, х + h ЕЕ Q, то 1 F (х + h) — F (х) = F' (х + a/j) Wa. (5.1) о Доказательство этой формулы (справедливой и для опе- раторов, определенных в функциональных пространст- вах) содержится, например, в книге А. Н. Колмогорова и С. В. Фомина [1], стр. 477. Приведем еще одно свойство операторных функций. Если F (х) — нелинейная дифференцируемая оператор- ная функция, то для любых х, h, у ЕЕ Еп справедлива фор- мула (F (х + h) - F (х), у) = (F' (х + Bh)h, у), (5.2) О < 0 < 1. Эту формулу называют формулой Лагранжа для опе- раторов (или обобщенной формулой Лагранжа). Дока- зательство формулы (для операторов более общего ви- да) можно найти в монографии М. М. Вайнберга [1], стр. 33. В последующих главах мы будем часто использовать формулу Тейлора с остаточным членом в форме Лагранжа. Если / (х) — дважды непрерывно дифференцируемая функция на выпуклом множестве й, то при любых х,х-\- + h е Й и а ЕЕ [О, 1J / (х + ah) — f (х) = a (/' (х + a0i^), h) и / (х 4- ah) = / (ж) + a (/' (х), h) + у (/" (ж + aQJi) h, h), где Oj, 02 е [О, 1J.
50 МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ [ГЛ. I КРАТКАЯ БИБЛИОГРАФИЯ ] Свойства выпуклых множеств и выпуклых функций' в кон ечно- мерных пространствах описаны в книгах С. Kaj/лина [1], Г. Зойтендейка [1J, Г. П. К ю н ц и и В. К/p е л л е [1J. Наиболее полное описание содержит книга Р. Т. Рщсафеллара [1]. Свойства выпуклых множеств и функций в функциональных прост- ранствах подробно исследуются в книге Н. Данфорда и Дж. Т. Ш варца [1]. Специальные свойства, связанные со строгой и сильной выпук- лостью, приведены в статье Е. С. Л е в и т и н а и Б. Т. П о л я- к а [1]. Среди многочисленных работ, посвященных теории необходи- мых условий экстремума, отметим книги С. Карлина [lj, Г. Зойтендейка [1], С. И. Зуховицкого и Л. И. Ав- дее в о й [1], Г. П. Кюнци и В. Крелле [1], где рассмот- рены задачи линейного и выпуклого программирования в ко- нечномерных пространствах. Более полную теорию необходимых условий первого порядка в общем случае читатель найдет в работах А. Я. Дубовицкого и А. А. Милютина [1], Л. В. Н ей- штадта [1], Г. Халкина и Л. В.Нейштадта [1], Б. Н. Пшеничного [ 1 J, М.Р. Хестенса [2J, К. Дж. Эр- роу, Л. Гурвица иХ.Удзавы [1J. В книге М. Р. Хестен- са также изложены необходимые условия второго порядка. Задачи линейного программирования подробно рассмотрены в книгах Д. Г е й л a [1J, Дж. Д анцига [1], С. К а р л ина [1], С. И. Зуховицкого и Л. И. Авдеевой [1], где приве- дены также вычислительные алгоритмы и теория двойственности в линейном программировании. В общем случае теория двойствен- ности в выпуклом программировании рассматривалась в работах Е. Г. Гольштейна [1 J, [2J и Р. Т. Рокафеллара [1]. Теорему о неявных функциях, которая используется при выводе необходимых условий экстремума, читатель найдет в книге Г. М. Фи хтенгольца [1].
ГЛАВА II МЕТОДЫ МИНИМИЗАЦИИ ФУНКЦИЙ без ограничений Настоящая глава посвящена изучению задачи миними- зации функции / (я), определенной в тг-мерном евклидовом пространстве Еп. Таким образом, всюду в этой главе х — n-мерный вектор. Для решения задачи будут использоваться итерацион- ные процессы типа (0.1) где /ц- — вектор, определяющий направление движения из точки гг/с, — числовой множитель, величина которого определяет длину шага в направлении рк. Процесс (0.1) будет определен, если будут указаны способы построения вектора рк и вычисления величины на каждой итерации. От того, каким образом строится вектор рк и определяется множитель непосредственно зависят свойства процесса:, поведение функции на эле- ментах последовательности {х/с}, сходимость последова- тельности к решению, скорость сходимости и другие. В то же время различные способы построения вектора р/£ и множителя ак требуют различного количества вычисле- ний, накладывают различные ограничения на минимизи- руемую функцию. Поясним соображения, которыми мы в дальнейшем бу- дем руководствоваться при выборе направления движения и величины шага. Для того чтобы приблизиться к точке х* (в общем слу- чае х* — точка, где выполняются — возможно, с опре- деленной точностью — необходимые условия экстремума функции /(#)), естественно двигаться из точки хк в на- правлении убывания функции, т. е. в направлении спуска. Если точка хк не является точкой минимума или стацио- нарной точкой, то существует бесконечно много векторов Р, определяющих направления спуска из точки хкг причем каждый из них определяется условием (в случае,
52 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II когда /(ж) дифференцируема) (/'(**), р)<0. Это вытекает из следующих рассуждений. Пусть х = хи + ар. Используя разложение функции в ряд Тейлора в окрестности точки х^ (разумеется, при этом предполагается, что функция дифференцируема достаточ- ное число раз), можно получить представление /(*) = / (хк) + а (/;, р) + у (4сР, р). Здесь обозначено Д = /' (хк), f'icc = Г (хкс), хкс = хк + + 0 (х — хк), 0 GE [0, 1]. Эти же обозначения (для крат- кости) мы часто будем использовать на протяжении всей главы. Если (/jt, р) < 0, то, во всяком случае при малых зна- чениях параметра а, / (я) < f (хк), так как при этом знак правой части определяется членом, линейным относи- тельно а. Выбирая различными способами направление спуска и множитель afc, можно получать различные алгоритмы минимизации. §1. Градиентные методы 1. Метод наискорейшего спуска. Проще всего выбрать направление удовлетворяющее условию (/&, pfc) < О (т. е. являющееся направлением спуска /(#)), полагая Рк = —fk- Итерационный процесс хк+1 = Хк — ^kf М, ак > 0, к = 0, 1,..., (1.1) получающийся при таком выборе направления движения, называется методом наискорейшего спуска, или градиент- ным методом. В координатной форме процесс (1.1) запи- сывается следующим образом: Ч+i = — &k * f = 1,2,..., n. В настоящее время метод наискорейшего спуска яв- ляется одним из наиболее известных методов минимизации. В большой степени широкому распространению этого ме-
§ 1] ГРАДИЕНТНЫЕ МЕТОДЫ 53 тода способствовала его сравнительная простота и воз- можность применения для минимизации весьма широкого класса функций. Приступим к изучению свойств алгоритма (1.1). Опи- шем прежде всего способ, который мы будем использовать для выбора величины скалярного множителя ай. 1) Выбираем некоторое произвольное значение а (од- но и то же на всех итерациях) и определяем точку х = = хк — a/к. 2) Вычисляем / (х) = f (хк — afk). 3) Производим проверку неравенства /(*) — / Ufc) < еа (f 'k, Pit), (1.2) где 0 < 8 < 1 — произвольно выбранная константа (од- на и та же при всех fc = 0, 1, ...). 4) Если неравенство (1.2) выполнится, то значение а и берем в качестве искомого: ак = а. Если же неравенство не выполнится, производим дробление а (путем умноже- ния а на произвольное число Л < 1) до тех пор, пока нера- венство (1.2) не окажется справедливым. Приведенный способ выбора нуждается в обоснова- нии: необходимо выяснить, при каких условиях сущест- вуют ненулевые значения параметра а, при которых нера- венство (1.2) выполняется. Такое обоснование способа выбора проводится в доказываемой ниже теореме. Те орема 1.1. Если функция f (х) ограничена сни- зу, ее градиент f (х) удовлетворяет условию Липшица: (1-3) при любых х, у €= Еп , а выбор значения производится описанным выше способом, то для процесса (1.1) будет II fie В *** 0 пРи к оо, какова бы ни была начальная точ- ка xQ. Доказательство. По теореме о среднем — f (xk) = (/' (xkc), x — xk), (1.4) где xkc — xk + 0 (х — xk), 9 G (О, И. Чтобы не огова- риваться каждый раз, отметим, что и в дальнейшем ин- декс «кс» («с»), будет употребляться для обозначения не- которой промежуточной точки соответствующего отрезка.
54 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Равенство (1.4) можно преобразовать к виду / (^) /& = (/а*? *^/с) (//со А» % — %к)- Отсюда, учитывая, что х — хк = —аД, и используя (1.3), получаем / (я) — / —а (Д, Д) + а7? || хкс — хк || \\f'k || < < —а || fn ||2 + ай || х — хк || ||/л || = а || 4 ||2 (—1 + ай). Полученная оценка показывает, что существуют значе- ния а 0 такие, что неравенство (1.2) выполняется: для этого достаточно выбрать а таким образом, чтобы — 1 + + aR —8. Это всегда возможно сделать, поскольку R — ограниченная величина, а 0<s < 1. Следовательно, (1.2) будет во всяком случае выполняться при а -1 8 . Итак, выбирая ак в соответствии с приведенным выше ал- горитмом, получим /т-А<-еак||/И2> С1-5) т. е. при любом к будет /к+1— fk <Z 0 (при условии || fk Ц Ф 0). Поскольку функция, по условию, ограничена снизу, то из последнего неравенства вытекает, что при к оо /к+1-Л->о. (1.6) Из (1.5) следует л (1.7) • Заметим теперь, что применяемый алгоритм выбора ак гарантирует, что при любом к будет ак > d > 0, где в качестве d может служить любая константа, не превышаю- 1 — 8 щая величины —, поскольку, как уже отмечалось, неравенство (1.2) (или (1.5)) заведомо выполняется при а = —. Сучетом этого замечания из условий(1.6) и(1.7) следует, что || Д ||-> 0 при к-+ оо, что и доказывает тео- рему. Класс функций, удовлетворяющих требованиям теоре- мы 1.1, весьма широк. Такие функции могут вообще не
§ 11 ГРАДИЕНТНЫЕ МЕТОДЫ 55 иметь точки минимума, могут иметь локальные минимумы, седловые точки и т. д. Теорема 1.1 показывает, что гради- ентный метод обеспечивает сходимость по функции либо к точной нижней грани inf / (х), либо же к значению функ- х ции в некоторой стационарной точке. Сходимость после- довательности {хк} к станционарной точке (если такая существует) при этом также имеет место, но установить, какова же скорость сходимости при тех требованиях к функции, которые предъявляются в теореме 1.1, затрудни- тельно. При достаточно жестких требованиях о глад- кости и выпуклости функции можно доказать не только сходимость последовательности {rrfc}, но и оценить ско- рость сходимости. Теорема 1.2. Пусть / (х) — дважды непрерывно дифференцируемая функция, причем ее матрица вторых производных удовлетворяет условиям М>т>0, (1.8) при любых х, у ЕЕ Еп, а последовательность {хк} строится по методу (1.1), где ак выбирается описанным выше спо- собом. Тогда при любой начальной точке xQ будет хк -> х*, / (хк) / (х*), где х* — точка минимума (единст- венная) / (х). Для скорости сходимости справедливы оценки (1-9) С < оо, 0 < q < 1. Доказательство. Существование и единст- венность минимума f (х) при условиях теоремы вытекает из результатов леммы 1.3.2. Поэтому нам нужно доказать лишь сходимость последовательности к точке х* и получить оценки (1.9). Установим вначале справедли- вость первой из оценок (1.9). Используя формулу Тей- лора, получаем / (#*) = / (?) (/ (^)» •£* #) Н 2 W откуда, с учетом (1.8), / (я) — / М < (f (z), х — х^ — ~ || я - х* ||2 < Cll/'Wllk-^lbyk-^ll2. (1.Ю)
56 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II В то же время (поскольку /' (х*) = 0) / (#) / (*£*) "% (J & •£*)» & *£*)» поэтому в силу (1.8) yk-MX/(*)-/(**Xyk-**IT (i-и) Используя левое из неравенств (1.11) совместно с (1.10), устанавливаем, что (1-12) а из правого неравенства (1.11) следует Их — х% ||2 > ^ [/ (х) — /(я*)]- С учетом полученных оценок (1.10) можно представить в виде /(х) _/(Жф)<11Ш£ - ^[/(х) -/«)], ||/'(x)B2>m(l+ ^)[/(x)-/(x#)J. (1.13) Используя эту оценку в неравенстве (1.5), получим Д+1 — /X — жкт (1 + й V* — /*)• (1-14) При условиях теоремы Z I / (ж) — / = (Jk, х — хк) + у (/to — хк), х — хк) = = -«ll/d2 + y (/to/to AX-a(l-^j||/fc||2. Отсюда следует, что неравенство (1.2) заведомо выполняет- ся, если будет 1-2“>е, т- е- аЧа:=——.(-«уче- том этого из (1.14) вытекает /л+1 — ЛХ [1 — (1 + J)] (/к -/»)<« (4 — /*)> где q = 1 — 8Йт (1 + ^) < 1, т- ®- (1-15)
§ 1] ГРАДИЕНТНЫЕ МЕТОДЫ 57 „ - 2 (1 — в) л Поскольку а — , будет _ . 2е (1 — е) m /. т \ q 1 М V1 + м) ’ откуда следует, что минимальное значение знаменателя 1 прогрессии gmin достигается при 8 = причем , т / , , т \ ?min — 1 — 2М + м) ‘ следовательно, в условии (1.2) целесообразно полагать 8 = 1/2. Оценка (1.15), совместно с левой из оценок (1.11) позволяет установить сходимость и оценку скорости схо- димости последовательности {хк} к точке минимума: К (^)*/*(/* -/*)‘/2< (^-)V’(/o- < CgW. Теорема доказана. Анализ проведенного доказательства показывает, что для получения оценки (1.15) мы, в конечном счете, исполь- зовали лишь условия (1.2) и (1.13). Отсюда можно заклю- чить, что класс функций, для которых будет справедлива оценка (1.15), в действительности гораздо шире, чем класс функций, удовлетворяющих условиям (1.8). А имен- но, оценка (1.15) будет справедлива для всех функций, удовлетворяющих условиям теоремы 1.1 и, кроме того, условию II/' (х)р>6[/(Ж)-/#1, S>0. Доказательство справедливости оценки (1.15) в этом слу- чае фактически не связано с вопросом о существовании минимума — можно считать, что = inf / (х), не инте- ресуясь, достигается ли точная нижняя грань. Однако сле- дует подчеркнуть, что у функций такого класса существует точка минимума — не обязательно единствецная, при- чем последовательность {хк} сходится к какой-либо точ- ке х*, и для скорости сходимости справедлива вторая из оценок (1.9). В самом деле, используя (1.1) и (1.7), получим ос, Ц хк+1 - хк II2 = а2 II /' II2 < -* (/* - /т) < < 7 (А - /*) < <7* [/о - /*] < <\<?.
58 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Здесь атах — максимальное значение параметра, с кото- рого начинается дробление. С учетом этого для любого тп к m-l fe,2 i=k i=k 1 ~ Я откуда следует, что при к —> оо || х1П — хк || 0, т. е. последовательность {х^} сходится (к некоторому мини- муму х*)] при этом 1/ || || = lim || xm - хк || < С? ти-*оо 1 -Q 2. Различные варианты метода» Описанный выше спо- соб выбора параметра ак в процессе (1.1), связанный с про- веркой неравенства (1.2), не является единственно возможным. Сейчас мы остановимся на некоторых других способах выбора значения afe; каждый из таких способов определяет различные варианты градиентного метода. При доказательстве теорем 1.1 и 1.2 было установлено, что не- равенство (1.2) заведомо выполняется при значениях а 1 - (теорема 1.1) либо при а 2 (1 ~е) (теорема 1.2). Именно это обстоятельство и позволило доказать утвержде- ния о свойствах метода (1.1) при выборе ак из условия вы- полнения неравенства (1.2). Если известны константы R илъМ, характеризующие минимизируемую функцию/ (х), то в методе (1.1) можно заранее выбрать ак = а, где О < а < 1 д-- либо 0 < а >и ПРИ этом теоремы 1.1 и 1.2 сохранят силу. В таком варианте градиентного мето- да удается уточнить величину знаменателя q в оценках скорости сходимости (1.9). Теорема 1.3. Если функция / (х) удовлетворяет 2 условиям теоремы 1.2 и в методе (1.1) ак — а, 0 <Са<С д/ > то для скорости сходимости последовательности {хк} справедлива оценка II %к 0. || %о |Ь q ~ max {| 1 — ат |, |1 — аМ |},
§ 1] ГРАДИЕНТНЫЕ МЕТОДЫ 59 причем минимальное значение qmin = 2 пРи а * Доказательство. Имеем М — т М т достигается цхк+1 — х* ||2 = {хк — afk — х*, хм — х*) = = (хк — x* — a(fk — fa, хм — х*). Используя формулу Лагранжа для операторов (1.5.2). получим (а (/fc /*)> ^/£+1 х*) = faffc (xR £*), Xfr+i С учетом этого |pj£+l х* ||2 = ((I Ice ) (#£ х*)> хк+1 #*) < И — a/te IIII хк — х* || || хк+1 — х* ||, т. е. ||хл+1 —х#||<||7 —а4с|| ||хл — х#|| = g||xk — xj. В силу условий (1.8) q = III — а/kc 1 = max {| 1 — ат |, | 1 — аМ |). На интервале (О, ИМ) линейная функция 1 — аМ заведомо меняет знак. Поэтому минимальное значение (7min (а) будет достигаться, когда 1 — ат = —(1 аМ), 2 y-r М — т Т- е- “ = м+т ПРИ этом> очевидно. 3rnin = + Теорема доказана. 2 Отметим, что при а = первая из оценок (1.9) уточняется следующим образом: /т-/*<(5^)2(/к-/*)- (1.16) Укажем еще один способ выбора длины шага. Можно выбирать величину afc из условия минимума функции в направлении движения, т. е. выбранное значение должно обеспечивать выполнение условия / (^к — akfk) = min / (хк — afk). (1.17) а>0 При таком способе выбора величины шага все результаты
60 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II относительно свойств метода (1.1), приведенные выше, ос- таются в силе; кроме того, удается получить более точные оценки скорости сходимости. Докажем утверждение, аналогичное теореме 1.1. Теорема 1.4. Если функция / (х) удовлетворяет требованиям теоремы 1.1, и в методе (1.1) выбирается из условия (1.17), то || || -> 0 при к оо, какова бы ни была начальная точка х0. Доказательство. Как и в теореме 1.1, полу- чаем оценку f(x) — fix*) = — а II и И2 — а(4с — 4, 4) < <-а||4||2 + а2Я||4||2. Минимум функции ф (а) = — а J 4 II2 + «27? Ц 4П2 1 , v nffclF достигается при amin = , причем ф (ат1п) =-- Поскольку а2/? || А ||2 является верхней оценкой члена — а (Ас — /к» /к), то ясно, что значение ак, удовлетворя- ющее условию (1.17), будет не меньше amin и при этом /к+1-/к<-Ц^- (1-18) Отсюда, рассуждая так же, как в теореме 1.1, устанавли- ваем, что || Д || 0. Теорема доказана. Доказательство справедливости оценок (1.9) для ва- рианта градиентного метода с выбором длины шага из ус- ловия (1.17) можно провести аналогично тому, как это делается в теореме 1.2 с той лишь разницей, что выраже- ние (1.13) следует использовать в оценке /fe+i — 1 ' —2Д/11АИ2’ которая получается тем же путем, что и (1.18). Мы, однако, проведем доказательство, используя результаты теоремы 1.3. Таким путем удается получить более точное значение знаменателя прогрессии q. Пусть ^+1 = хк — - Д; тогда справедлива оценка (1.16): / (*к+1) - / (*♦) < (’(/к - 4).
§ ГРАДИЕНТНЫЕ МЕТОДЫ 61 Если точка хк+1 выбирается из условия минимума в на- правлении движения, то /(*К+1) - / (**) < / Ы - / (**) < ( ) 2 (Л - /ж) < ^\М + т} '*>' Воспользовавшись теперь оценками (1.11) получим - 2 ., , . 2 (М — т\М П2 ^fc+1 II w (/к+1 /*) т (м т) 2 II Х° Х* Л или, окончательно, гдеС=(г) 1*"~ Таким образом, справедлива Теорема 1.5. Если функция f (х) удовлетворяет условиям теоремы 1.2 и в методе (1.1) ак выбирается из условия (1.17), то последовательность {xfc} сходится к точке минимума со скоростью геометрической прогрессии М — т со знаменателем а = . * М + т Отметим, что именно вариант метода (1.1), в котором величина шага выбирается из условия минимума функ- ции в направлении движения, в литературе часто называ- ют методом наискорейшего спуска. 3. Другие градиентные методы. Пусть F (х) — про- извольная симметричная матрица, удовлетворяющая ус- ловиям Р II У II2 < (F {х)у, у) < R К у II2, р > 0, (1.19) при любых х, у €= Еп. Тогда, если выбирать вектор р = = — F (х) /' (ж), то (/' (х), р) —(f, Ff) < — р || /' ||2 < < 0 при условии, что || f (х) II Ф 0. Таким образом, век- тор р = —F (x)f (х) определяет направление спуска функ- ции / (ж). Исходя из этого, для минимизации / (х) можно построить итерационный процесс (хк), ак > 0, к = 0, 1, ..., где {Fk} — последовательность произвольных матриц,
МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II удовлетворяющих условиям (1.19). Для связи с дальнейшим изложением этой главы (точнее говоря, лишь для связи обозначений) мы будем рассматривать процесс xfc+1 = хк — ajcF^f'ic, а* > 0, (1.20) в котором используется матрица, обратная к Fk, Это ни- как не отражается на существе дела, так как если матри- ца Fk удовлетворяет условиям (1.19), то для матрицы Fkl будут выполняться условия (см. лемму 1.2.9) (1.21) и поэтому (А, Рь) = -(А, < ~mt II Л II2 < 0. (1.22) Различным последовательностям {F^1} будут соответст- вовать различные итерационные процессы. В идейном плане изучение метода (1.20) не содержит каких-либо новых элементов по сравнению с «чистым» гра- диентным методом (1.1). Все результаты, полученные для метода (1.1), сохраняют силу и для метода (1.20) при оди- наковых требованиях, предъявляемых к минимизируе- мой функции и одинаковых способах выбора величины шага. Незначительно изменяется лишь техника доказатель- ства соответствующих утверждений. Разумеется, коли- чественные значения параметров в процессе (1.20) будут отличаться от значений аналогичных параметров метода (1Л). В частности, это относится к величине знаменателя прогрессии q в оценках скорости сходимости. Мы остановимся сейчас лишь на тех результатах, от- носящихся к методу (1.20), которые нам понадобятся в дальнейшем. Теорема 1.6. Результаты теоремы 1.2 сохраняют силу для метода (1.20). Доказательство. Если х — хк -|- арк1 где Рк = —Fk~fk, то /(*) — / fo) = а (fk,Pk) + у tfkoPk, Рк) < <а(А> Р»)(1 + 2 Р^-'
§ 1] ГРАДИЕНТНЫЕ МЕТОДЫ 63 Но с учетом (1.19) (fk, Рк) = —(РкРк, Рк) < —Р IIP/- (1.23) Следовательно, /(*)-/(**)<«(4Р*)(1-£7) • Отсюда вытекает, что неравенство (1.2) будет обязательно J л аМ. - 2 (1 — 8) выполняться, если 1----> е, т. е. а < а = ——г;—р. 2р М Тем самым обоснован способ выбора аЛ. Поскольку (fk, рк) < 0 при | fk || #= 0, из условия fk+1 fk (fk> Pjt) (1.24 следует, что fk+l < fk. Теперь, используя (1.24) и учиты- вая ограниченность / (х) снизу аналогично тому, как в тео- реме 1.1 доказывалось, что II || ->• 0, устанавливаем, что при &->оо (fk, рк)-+0. В силу (1.22) это означает, что ||Д 0- Отсюда в силу сильной выпуклости f (х), сле- дует сходимость последовательности (1.20) к решению х*. Для получения оценок скорости сходимости /&->•/*, хк-> я* представим неравенство (1.24), воспользовавшись (1.22), в виде fk+1 — fk< ||А||2. Далее, предста- вив в этом выражении ||/к| с помощью неравенства (1.13) и повторяя полностью рассуждения теоремы 1.2, устанав- ливаем справедливость для метода (1.20) оценок скорости сходимости (1.9). При этом величина знаменателя прогрес- сии будет Л / л . т \ А 2(1 --- 8) р ( А \ т\ q^l—ымщт (1 +jj) = 1 ~ е м (1 + . Минимальное значение знаменателя достигается при 8 = 1/2: grain = 1 — 2^М (4 + S) • Теорема доказана. Из доказательства теоремы следует, что сходимость процесса (1.20) сохраняется, если положить ак = а, 2 0<^а<^р (вариант метода с постоянным шагом).
64 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Рассуждая так же, как в теореме 1.3, можно получить оценку [I •Z'fc+l •£* II II /fcc II II •£* II* Однако получить отсюда оценку знаменателя прогресии аналогично тому, как это делалось в теореме 1.3, невоз- можно, поскольку матрица F^fkG не является в общем слу- чае положительно определенной (последнее свойство выпол- няется лишь при условии, что матрицы и/\хЛс) пере- становочны). Можно рассматривать вариант метода (1.20) с выбором шага из условия минимума / (х) в направлении движения. Теорема 1.7. Если функция / (х) удовлетворяет условиям теоремы 1.2 и в методе (1.20) параметр ак вы- бирается из условия / (®k + алрл) = min / (xk + арД а>0 то последовательность {хк} сходится к точке миниму- ма со скоростью геометрической прогрессии. Доказательство теоремы может быть проведено по сле- дующей схеме. Воспользовавшись разложением функ- ции в ряд Тейлора до членов второго порядка в окрест- ности точки хк и рассуждая как в теореме 1.4, можно полу- чить оценку f 1 (4 /к+1 /к^ 2 М |рк|» • Это неравенство в силу (1.22) и (1.23) эквивалентно сле- дующему: , , . 1 РяиЦ/кР 7 fc+i h 2 м Далее, представив |/к[ с помощью неравенства (1.13), следует полностью повторять рассуждения теоремы 1.2. Мы не получаем здесь уточненного значения знаменателя д, поскольку оно будет заведомо больше чем в методе наи- скорейшего спуска. 4. Качественный анализ методов. Сравним рассмот- ренные градиентные методы и изложим некоторые сооб- ражения о качестве этих алгоритмов, т. е. об их эффектив- ности при решении задач минимизации.
§ 11 ГРАДИЕНТНЫЕ МЕТОДЫ 65 Мы изучили три варианта метода (1.1), отличающиеся друг от друга способом выбора длины шага. Свойства этих вариантов близки друг к другу. Они могут быть использо- ваны для минимизации функций одинаковых классов, при этом скорость сходимости (в тех случаях, когда ее удается оценить) также примерно одинакова. Следова- тельно. целесообразно для решения задач использовать тот из вариантов метода, трудоемкость которого мини- мальна. Трудоемкость каждой итерации вариантов про- цесса (1.1) может быть различной, очевидно, только в силу разницы в способах определения параметра а к. Наи- меньшего количества вычислений на итерации требует ва- риант метода с постоянным шагом = а (в этом случае необходимо вычислять лишь градиент /' (хц)). Однако в большинстве задач такой способ выбора практически невозможен, поскольку обычно неизвестны значения кон- стант /?, М, характеризующих функцию. Сравним трудоемкость способов выбора длины шага, связанных с проверкой условий (1.2) и (1.17). Мы уста- новили, что если функция f (х) удовлетворяет определен- ным требованиям (теоремы 1.1, 1.2), то неравенство (1.2) заведомо выполняется по крайней мере при достаточно малых значениях а к (определяемых величиной констант R, М). В силу этого, с какого бы начального значения атах мы ни начали проверку неравенства (1.2), через ко- нечное число дроблений параметра это неравенство вы- полнится, т. е. для выбора нужного значения потре- буется вычислять функцию конечное число раз. Выбор же величины из условия (1.17) представляет собой в об- щем случае бесконечномерную процедуру. Практически, конечно, приходится определять точку минимума в на- правлении движения, также вычисляя функцию конечное число раз. Ясно, что для более или менее точного решения одномерной задачи минимизации требуется произвести больше вычислений функции, чем для удовлетворения не- равенства (1.2). Высказанные соображения говорят о том, что более предпочтительным является способ выбора дли- ны шага, связанный с проверкой неравенства (1.2). Все сделанные замечания могут быть отнесены и к ме- тоду (1.20). Читатель, конечно, понимает, что рассуждения, кото- рые мы проводим, основываются лишь на использовании 3 Б. Н, Пшеничный, Ю. М. Данилин
66 МИНИМИЗАЦИЯ ФУНКЦИЙ БЁЗ ОГРАНИЧЕНИЙ [ГЛ. It самых общих свойств минимизируемой функции и изу- чаемых алгоритмов и не используют специфику конкрет- ных функций. Поэтому высказываемые рекомендации не могут рассматриваться как абсолютные. Это замечание сле- дует учитывать и в] дальнейшем. Обсудим вопрос об эффективности градиентных мето- дов. Для достаточно хороших — с точки зрения решения задачи минимизации — функций (гладких, выпуклых) градиентные методы сходятся к минимуму со скоростью геометрическойпрогрессии. Величина знаменателя прогрес- сии, в частности для сильно выпуклых функций, зависит от наибольшего М и наименьшего т собственных значений матрицы вторых производных функции / (х). Дос- таточно малым знаменатель q будет лишь в том случае, ког- да собственные числа т и М мало отличаются друг от дру- га, т. е. когда матрица /" (х) хорошо обусловлена. В этом случае градиентные методы будут сходиться с высокой скоростью. Однако в вычислительной практике такие за- дачи встречаются крайне редко. Как правило, приходится отыскивать минимум функций, у которых матрица /" (х) плохо обусловлена (1) • Чем меньше будет отношение mlM, тем более близок к единице будет знаменатель про грессии ди тем медленнее сходятся градиентные методы. Можно дать геометрическую интерпретацию этого факта. С уменьшением отношения т!М поверхности уровня ми- нимизируемой функции (т. е. поверхности / (ж) == С) ста- новятся все более вытянутыми и направление вектора гра- диента /' (х) в большинстве точек все более существенно отклоняется от направления в точку минимума. Именно это и приводит к замедлению скорости сходимости. Осо- бенно наглядно можно себе представить это, рассматривая в качестве примера строго выпуклую квадратичную функ- цию / (х) в пространстве Е2, например, / = ylji + ) • Матрица вторых производных этой функции имеет посто- янные элементы, поверхности уровня ее — эллипсы 1 / х2 . I/2 \ л у IJF + gr I = С, точка минимума совпадает с центром эл- липсов. Собственные числа матрицы вторых производных 1/а2 и 1/Ь2. Чем больше отношение а2/Ь2 отличается от еди- ницы, тем сильнее вытянуты линии уровня вдоль одной из
§ 21 МЕТОД НЬЮТОНА С РЕГУЛИРОВКОЙ ШАГА 67 осей ОХ или ОУ, и тем больше шагов в направлении анти- градиента нужно сделать при движении из произвольной точки Уо) для того, чтобы попасть в достаточно малую окрестность точки минимума. Медленная сходимость градиентных методов не позво- ляет решать с их помощью сложные задачи минимизации, поскольку на это требуется слишком много времени даже при использовании современных быстродействующих вы- числительных машин. Поэтому в настоящее время разра- ботаны и разрабатываются методы минимизации с более высокой скоростью сходимости, и градиентные методы за- частую используются в комбинации с другими, более эф- фективными методами, на начальной стадии решения за- дачи, когда точка хк находится далеко от минимума и шаги вдоль антиградиента позволяют достичь существенного убывания функции. Вместе с тем еще раз подчеркнем не- сомненные достоинства градиентных методов — их прос- тоту и возможность использования для минимизации весь- ма различных по характеру функций. § 2. Метод Ньютона с регулировкой шага 1. Построение метода. В градиентных методах для оп- ределения направления движения используется лишь ли- нейный член из разложения функции в ряд Тейлора, т. е. используется наиболее грубая аппроксимация минимизи- руемой функции. Пусть функция / (х), минимум которой требуется определить, является строго выпуклой и достаточно гладкой. Рассмотрим функцию •Ф(ж) = /(!/)+ (/'(!/)» * — + — у), х-у), представляющую собой уже квадратичную аппроксима- цию / (х) в окрестности некоторой точки у. В силу строгой выпуклости / (х) функция ф (ж), как легко убедиться, так- же будет строго выпуклой, поэтому минимум этой функ- ции достигается в единственной точке, причем вектор р = = у — у, минимизирующий ф (ж), определяется по фор- муле р = —(/" (i/))”1/' (у). Направление, определяемое вектором р, является направлением спуска f (х), так как 3*
68 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II (/' (г/)» Р) =* “(Г (*/)Р, Р)< 0 в силу выпуклости / (х). Квадратичная функция гр (х) в малой окрестности точки у аппроксимирует минимизируемую функцию гораздо более точно по сравнению с линейной функцией. Поэтому ес- тественно ожидать, по крайней мере если точка у находит- ся в достаточно малой окрестности решения я*, что дви- жение из точки у в направлении р = — (f (у))"1 f (у) позволит достичь более существенного убывания функции и получить более точное приближение к решению, чем дви- жение в направлении —/' (у), используемом в градиент- ном методе. Основываясь на проведенных рассуждениях, можно предположить, что итерационный процесс для по- строения последовательных приближений к решению за- дачи минимизации функции / (х): ^+1 = Хк— ак (fk)~lfk, afc>0, к = 0, 1, ..., (2.1) окажется более эффективным по сравнению с методом на- искорейшего спуска, т. е. скорость сходимости хк-+х*, /(#&)->/(#*) ПРИ использовании алгоритма (2.1) будет выше, чем при использовании градиентного метода. Ре- зультаты этого параграфа покажут справедливость вы- сказанных предположений. Метод (2.1) мы будем называть методом Ньютона с регулировкой шага, или обобщенным методом Ньютона. Обычный метод Ньютона соответствует случаю ак = 1. Если элементы матрицы (/&)-1 обозначить через (хк), i, j =s 1, 2, ..., п, i -— индекс строки, то можно записать метод (2.1) в координатной форме: ж1+1== Ч—°* 3 Фи dxj » j = 1, • • •> «• Заметим, что метод (2.1) можно представить еще в следую- щем виде: fkPk = —/к, #k+i = #k + <%kPk или, в координатной форме, у ^f(^) a/(*fc) Д дх*дх> р* дх1 9 4н = 4 + М» 1 = !>•••>«.
§ 2] МЕТОД НЬЮТОНА G РЕГУЛИРОВКОЙ ШАГА 69 Следовательно, для определения вектора рк можно решать систему линейных уравнений вместо того, чтобы обращать матрицу f" (хк). Мы будем изучать два варианта обобщенного метода Ньютона, в которых используются различные способы выбора параметра а. Первый способ заключается в сле- дующем. 1) Полагаем а = 1 и вычисляем точку х = х^ + 2) Вычисляем / (х) = f (хк + ар &). 3) Производим проверку неравенства / (ж) — / (жк)< ва (А, рк), 0<8<-у- (2.2) 4) Если это неравенство выполняется, то значение а = 1 берем в качестве искомого: ак = 1. В противном случае производим дробление а до тех пор, пока неравенство (2.2) не выполнится. В дальнейшем описанный способ выбора значения afe будем называть выбором afc из условия (2.2). Как видно, такой способ выбора длины шага строится аналогично способу выбора параметра afe в методе наискорейшего спуска, связанном с проверкой неравенства (1.2). В другом варианте метода (2.1) значение должно доставлять минимум функции в направлении движения: / (*к — «к (/к)'Ук) = min / — а (А)-1/к). (2.3) а>0 2. Теоремы о свойствах метода. Метод Ньютона, как это следует из формулы (2.1), может применяться лишь для минимизации таких функций, у которых существует обратимая матрица вторых производных, причем, как бу- дет видно из дальнейшего, матрица (/к)-1 должна быть ограниченной. Требуемыми свойствами обладают сильно выпуклые дважды непрерывно дифференцируемые функ- ции. Поэтому на протяжении всего параграфа мы будем предполагать, что функция / (х) удовлетворяет условиям mhll2<- (/'(®) У» у)< h II 2> ^>0, (2.4) при любых х, у GE Еп. Напомним, что такие функции огра- ничены снизу и у них существует единственная точка ми- нимума х*.
70 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Теорема 2.1. Если для минимизации функции / (ж), удовлетворяющей условиям (2.4), используется метод (2.1), в котором выбор параметра производится из условия (2.2), то независимо от выбора начальной точки х0, после- довательность {хк} сходится к точке минимума со сверх- линейной скоростью: IIXN+1 — #*|| "С • • ^N+l- (2.5) Здесь N, С ею, < 1 при любом I > 0, 0 при i —> оо. Доказательство. Метод (2.1) можно рассмат- ривать как процесс градиентного типа (1.20), считая, что Ffc1 =• (/it)”1. Поскольку матрица Д обладает требуемыми свойствами, сходимость метода (2.1) к решению вытекает из общих результатов о сходимости градиентных методов (теорема 1.6). Установим справедливость оценки (2.5). Для этого, прежде всего, заметим, что (/k. Pk) = — (/kPk>Pk)< —m||Pfcl|2- (2.6) Так как (fk, pk) <" 0 и (jk, pk) —>0 (теорема 1.6), то из (2.6) вытекает, что Ц рк Ц —» 0 при к —> оо. Покажем теперь, что начиная с некоторой итерации в методе (2.1) будет = 1. Воспользовавшись формулой Тейлора и выраже- ниями (2.6), получим а2 а2 /к+1 — /к = «к (/к. Рк) + y(/fcPk. Рк) + ((/кс - /к) Рк. Рк) < ______ ак “kii/kc-Zkini/’kiH <<Ы/к> РкЦ1 у 2 М?к1Р / Здесь хке = хк 4- 0 (хк+1 — хк), 0 GE [0, 11. Поскольку J хк — я* Q —> 0, то при к -» оо II /кс— /к||^||/ко /* И + II /* /к||—* 0 в силу непрерывности (операторной) функции f (х). В силу этого для любой константы 0 < е < у найдется такое число 7V0 (е)« что ПРИ Л > 2V0 (е) условие , «кИ4-/'к1К 1 2 2 ЙГ 8
§ 21 МЕТОД НЬЮТОНА С РЕГУЛИРОВКОЙ ШАГА 71 будет выполняться при = 1. А это оздачает, что нера- венство (2.2) также будет выполняться при ,afc = 1. Та- ким образом, используемый способ выбора величины шага при условиях теоремы гарантирует, что начиная с декотог рой итерации метод (2.1) будет осуществляться с единич- ным шагом, т. е. перейдет в обычный метод Ньютона. Те- перь уже можно получить оценку скорости сходимости ме- тода: (#fc+l 3/fc+l — X#) = (*£fc (fk) if to *^k+l В силу формулы Лагранжа для операторов ((fk) ifki ^к+1 •£*) :== ((fk) 1 (fk /#)» %к+1 = ((fk) *fkc (рк ^*)» Хк+1 -£*)• Здесь Хкс -и Х]с 4- 0 (хк — х*), 0 ЕЕ [0, 1]. Следовательно, Ц^/с+1 ’ ^*||2 = ((-^ (fk) !fkc) (хк #*), Хк+1 •£*) ~ ((fk) 1 (fk fkc) (#fc #fc+i #*) ~ I) fk fkc || X X II #*|| || %k+i •2'*ll’ или || ^fc+1 * •£* И ^k || xk II» (2*7) где ~ || h — fkc ||- Поскольку || fk — fc Ц -> 0, найдется число N такое, что при к =^= A7 -|- Z, I — 0, 1, . . . , будет ^n+z <С 1» причем Xjv+i —> 0при Z—> сю. Полагая|| х^ — я*|| = -Си учитывая сделанные замечания, мы и получим оценку (2.5). Теорема доказана. Предположим теперь, что матрица /" (ж), помимо усло- вий (2.4), удовлетворяет еще условию Липшица IIГ (х) - Г (у) II < R к - у ||, х, у е Е\ (2.8) В этом случае в оценке (2.7) = ^Кс II тп IIХк Х*И и поэтому будет II 2jc+i xj || ^к я*||2- (2.9) Следовательно, справедлива
72 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Теорема 2«£. Если функция f (х) такова, что вы- полняются условия (2.4) и (2.8), то последовательность (2.1), в которой значения ак выбираются из условия (2.2), независимо от выбора начальной точки xQ сходится к реше- нию с квадратичной скоростью, т. е. справедлива оценка (2.9). Оценку (2.9) можно представить еще в следующем виде. Обозначим == “И^/с — #*||- Найдется число L такое, что при k = L + I, I = 0, 1, . . . , будет p,L+z < 1. При этом Окончательно можно записать в ^l+i #*|| Остановимся теперь на варианте метода (2.1) с выбором шага из условия (2.3). Сходимость последовательности {хк} к решению в этом случае вытекает из общих резуль- татов о сходимости градиентных методов (теорема 1.7). Скорость сходимости, как и в варианте метода с выбором из условия (2.2), будет сверхлинейной в случае, когда выполняются условия (2.4), и квадратичной, если, помимо того, выполняется еще условие (2.8). Доказывается это следующим образом. Пусть fk+1 = хк — (Л)-1 /ь а хм = хк — (4)-% где выбрано из условия (2.3). Тогда, используя оцен- ки (1.11), получим VII хк+1 — ж*1|2 fk+1 / (^Л+1) ~2 И ^+1 •С*Ц2’ В силу (2.7) 11^+1 — х* ||< \\хк — X* ||, о при к —> оо. Следовательно, при выполнении условий (2.4) II хк+1— #*|| ("т’) ^fcll^fc ^*11 = Т/с || хк ^*11 > (2.10) где Y/f == 1/2^—>0 прий—>оо. Если справедлива оцен- ка (2.8), то #*|| и <2Л1>
§ 21 МЕТОД НЬЮТОНА G РЕГУЛИРОВКОЙ ШАГА 73 3. Модификации обобщенного метода Ньютона. В ка- честве первой из возможных модификаций метода (2.1) мы рассмотрим алгоритм, в котором последовательные при- ближения к решению строятся по формуле ^fc+i = (/о) Vfc, сЧс 0. (2.12) В этом методе рк — — (/0)-1 Д, т. е. для построения на- правлений спуска используется одна и та же матрица (/о)-1 2. Метод (2.12) является частным случаем алгоритма (1.20) (Ffc1 = (/о)-1), поэтому можно утверждать, ч1го по- следовательность (2.12), независимо от выбора начальной точки я0, будет сходиться к решению со скоростью геомет- рической прогрессии как при выборе длины шага из усло- вия (2.2), так и при использовании условия (2.3) (теоремы 1.6 и 1.7). Однако от выбора начального приближения xQ будет существенно зависеть величина знаменателя прогрес- сии д, т. е. реальная скорость сходимости. В самом деле, учитывая, что для метода (2.12) (Д, рк) = — (Д, ДД), можно, воспользовавшись формулой Тейлора, получить оценку (как в теореме 2.1) (2.13) Здесь хкс = хк + 0 (xk+i — #й), Э ЕЕ [0, 1]. Если х0 —> —> х*, то в силу непрерывности матрицы вторых производ- ных max ||f (я) —f (яо)||-->0 х е S (S = {х: / (х) / (х0))). Следовательно, чем ближе к точке «ф выбрана начальная точка я0> тем при большем значении afc будет выполняться неравенство (2.2), т. е. с тем большим шагом будет осуществляться процесс (2.12) при выборе длины шага из условия (2.2). В частности, для любой константы 0 < 8 < у найдется такая постоянная р (е), что если начальное приближение х0 выбрано в сфере 5 радиуса р, то 1 1 s (Ж) 2 2 т
74 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Это означает, в силу (2.13), что если начальное приближе- ние выбрано достаточно близко к точке х*, неравенство (2.2) будет выполняться при а& = 1, т. е. процесс (2.12) будет сходиться с единичным шагом. Теперь, аналогично тому, как это делается в теореме 2.1, можно получить оценку В *ш - я*8 < Я (/о)-1 IIII /о—/У И ~ М < ? И ~ М • (2-14) Здесь g = — шах||/о —Отсюда и следует, что вели- т «е8 чина знаменателя q зависит от выбора начальной точки х0, причем д становится тем меньше, чем ближе к решению х* расположена точка ха. Для варианта метода (2.12) с выбором длины шага из условия минимума / (х) в направлении движения можно, используя неравенства (2.14) и рассуждая также, как при получении оценок (2.10) и (2.11), установить, что 8 *ш — < (-J-)172? 8 — я*8 = q 8 — **8> ~ / М \1/2 1 и S /' и п причем 9 = — — max|]/о —/йгс|] —>0, если \ 771 / m xeS Другая возможная модификация метода Ньютона за- ключается в следующем. Пусть к = + i, £ = 0, 1, ... , i = 0, 1, . . . , t — 1, 2 > 1 — произвольное целое число. Можно построить ите- рационный процесс #У+1+1 = ^Zt+i aZM (/^rVy+i, 0> пли, в исходных обозначениях, xjt+i (fzt) и* 0* (2*15) Такой метод занимает промежуточное положение между алгоритмом (2,1), в котором для построения вектора рк каждый раз используется новая матрица (Д)-1, и алгорит- мом (2.12), в котором для определения направления дви- жения используется одна и та же матрица (/о)'1. В методе (2.15) обновление матрицы производится через t шагов. Этот алгоритм, как и методы (2.1), (2.12), можно рассмат- ривать как один из вариантов градиентного метода (1.20),
МЕТОД НЬЮТОНА С РЕГУЛИРОВКОЙ ШАГА 75 § 2] и поэтому его сходимость при различных способах выбора величины шага вытекает из теорем 1.6 и 1.7. Изучим вопрос о скорости сходимости метода (2.15), считая, что выбор шага производится из условия (2.2). При этом мы будем предполагать, что для функции / (х) справедливы условия (2.4) и (2.8). Используя формулу Тейлора, получим м. -/,<«. й, р.) (1 - £ - \ & т / В силу сходимости процесса [ хке — x$t || = [ х(у+г)С — — Ху J < Ц xv — агу+i |[ +... + Ц xy+i — xy+i+1 J -> 0 при к -> оо. Следовательно, || /Лс — /у || —> 0. С учетом этого, рассуждая так же, как в теореме 2.1, можно показать, что начиная с некоторой итерации метод (2.15) будет осуществляться с единичным шагом: afc = 1. Тогда, в силу теоремы 2.2, справедлива оценка ll^Si+l £,4 ~|| X%f ^#||2 (2-16) при всех £ > L, L — некоторое положительное число. Далее, по схеме теоремы 2.1 может быть получена оценка II жУ+2 3-*B = B^V+l (/$<) Vsf+l ®*В II (/у)-1 IIII /st — Ау+1) с ОII Яу+1 — Ж*В • Здесь Х(у+1) с = xy+i + врг*— ®y+i\0 е [0,1]. В силу (2.8) II/у — Ау+1) с||< ll/у —/*|| + В/*—/««+1) с || -R (||*у — я*|| + + II ^y+i — ж*| )• Теперь, учитывая оценку (2.16), получаем •^У+2 ®#|| “ (I Жу Х#Ц + || Xy+i Xml) || Ху+1 — ж*|| < 5 hs* ~ ж*113 (1 + 77 к» - ®*И), т. е. || Жу+2 — Х*|| Ci В Ху С^ ОО. Предположим, что при некотором 2 < / < / — 1 выпол- няется оценка В*£y+j ~~ Сj||Ху — х*|р+1, Cj оо.
76 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Тогда ll^f+i+i #*|| == (At) ^f^t+з •£*![ II (АО 1IIII A* /(£*+;) с IIII ^*11 < ~in Ч ^*11 + II ^+J* ^*4) II *£*11 Cj+i || x^t — **||;+2, Cj’+i ~ ~ Cj (1 + Cj || x^ — #*||;*)* Таким образом, справедлива следующая оценка ско- рости сходимости метода (2.15): II x(R+i)t_ ^*|| С || ^*l|f+1 • (2*17) Эта оценка означает, что последовательность {х^} сходит- ся к решению со скоростью порядка t + 1. 4. Обсуждение свойств метода Ньютона. Мы устано- вили, что метод Ньютона с регулировкой шага сходится к решению независимо от выбора начальной точки х$ и обладает либо сверхлинейной скоростью сходимости, либо же квадратичной в зависимости от требований, которым удовлетворяет функция / (ж). Сходимость с любого начального приближения явля- ется существенным преимуществом метода (2.1) по сравне- нию с обычным методом Ньютона, в котором сходимость гарантируется лишь при наличии достаточно хорошего начального приближения (т. е. достаточно близкого к ре- шению задачи). К тому же проверка условий, гарантирую- щих, что данное начальное приближение обеспечивает сходимость процесса, в методе Ньютона практически труд- но выполнима, так как требует знания таких сведений о функции, которые обычно неизвестны (например, значение констант тп, М). Сравнение двух способов регулировки длины шага, связанных с проверкой условий (2.2) и (2.3), говорит в пользу первого, ибо он оказывается менее трудоемким по количеству вычислений функции (в частности, начиная с некоторой итерации первый способ требует лишь одного вычисления функции, так как будет ak = 1), и обеспечи- вает порядок скорости сходимости не ниже, чем при выборе длины шага по второму способу. Если сравнивать метод Ньютона и градиентные методы применительно к решению задач минимизации выпуклых функций, то оказывается, что метод Ньютона обеспечивает
§ 2] МЕТОД НЬЮТОНА С РЕГУЛИРОВКОЙ ШАГА 77 гораздо более высокую скорость сходимости последователь- ных приближений к решению. Таким образом, если пони- мать под эффективностью метода быстроту сходимости, то оправдывается предположение, высказанное в начале пара- графа, о том, что метод Ньютона должен быть гораздо эф- фективнее градиентных методов. Однако более точный смысл понятия эффективности метода заключается в оцен- ке общего количества вычислений, затрачиваемого при ис- пользовании конкретного алгоритма на решение задачи о определенной точностью. Следовательно, об эффективности того либо иного алгоритма можно судить по числу итера- ций, необходимых для решения задачи, и по количеству вычислений на каждой итерации. Количество вычислений на итерации метода Ньютона, как правило, значительно больше чем в градиентных мето- дах, за счет необходимости вычисления и обращения мат- рицы вторых производных. Но зато на получение решения (с достаточно высокой степенью точности) с помощью мето- да Ньютона обычно требуется в десятки и сотни раз меньше итераций, чем при использовании градиентных методов, в силу чего метод Ньютона оказывается существенно более эффективным. Тем не менее в ряде задач трудоемкость итерации метода Ньютона может оказаться непомерно большой именно за счет необходимости вычисления матри- цы вторых производных /" (х) (как правило, при решении экстремальных задач наибольшую трудность представляет вычисление матрицы /" (х), а не ее обращение). Такие за- дачи ниже еще будут рассматриваться. В этих случаях для решения задачи можно использовать модификации метода Ньютона, которые мы изучали. В одной из таких модифи- каций вычислять и обращать матрицу /" (х) нужно лишь один раз, в другой это делается через конечное число ите- раций. При этом, если начальное приближение достаточно хорошее, скорость сходимости к решению будет высокой. Однако использование модификаций метода Ньютона не является кардинальным решением вопроса о сокращении трудоемкости решения задачи (трудоемкость, вообще гово- ря, может даже возрасти). Поэтому встает вопрос о воз- можности построения методов минимизации, которые по скорости сходимости были бы близки к методу Ньютона, но которые требовали бы для своей реализации существен- но меньше количества вычислений на каждой итерации.
78 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II В настоящее время уже разработано несколько таких мето- дов, основанных на использовании различных соображе- ний. Как правило, они оказываются более эффективными по сравнению с методом Ньютона и поэтому находят сей- час все более широкое применение. Изучению таких алго- ритмов посвящены следующие параграфы настоящей главы. § 3. Методы двойственных направлений 1. Соображения о выборе схемы методов. В предыду- щем параграфе мы отмечали, что основную сложность при реализации метода Ньютона представляет собой вычисле- ние матрицы вторых производных минимизируемой функ- ции. Следовательно, алгоритмы, которые бы превосходили метод Ньютона по своей эффективности, не должны содер- жать вычисление вторых производных, сохраняя тем не менее скорость сходимости метода Ньютона. Возникает вопрос — нельзя ли для построения после- довательных приближений к решению строить направле- ния pk, близкие к направлениям, получаемым в методе Ньютона, используя для этой цели лишь первую производ- ную минимизируемой функции? Между первыми и вторыми производными функции / (х) может быть установлена связь с помощью формулы Тейлора для операторов (каковым является градиент /' И): /' (у) — /' (ж) = /" (ж) (у — х) + со (х, у — х), (3.1) где || со (х, у — х) || = о (|| у — х ||). Равенство (3.1) наводит на мысль, что если вычислить производные /' (ж) в произвольных, но близких друг к другу точках . . . , xn+i, и определить квадратную п X тг-матрицу А с помощью системы (векторных) урав- нений f (ХМ) — /' (хг) = A (xi+i — xt), i = 1, . . . , п (3.2) (предполагая, конечно, что векторы хм — хь i = 1,. . .,тг, линейно независимы), то матрица А должна быть близка к матрице вторых производных, вычисленной в любой из точек xt. В самом деле, в силу (3.1) при любом i f (хм) — f (xt) = f (xt) (xM — Xt) 4- co (xt, xM — xt)
МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 79 § 31 и поэтому, с учетом (3.2), оказывается Оч’+i — / (*^i) (^г+1 #i) ® (*^i, *^г+1 ^i)j I = 1, . . ., П. Эту систему уравнений можно переписать в виде ^4 (#г+1 *£{)• = fi (ач+i — xt) + (Д — /J)(xi+1 — xt) 4- со (хъ xi+1 — x^, (3.3) i = 1, . . ., лг, 1 j n. Если матрица /" (x) невырожденная и непрерывная, то в силу предположенной близости точек xt сумма последних двух членов правой части каждого из уравнений системы (3.3) должна быть существенно меньше первого члена, т. е. A (xi+t — х^ (xj) (хм — xt), i = 1, . . n, что в общем-то и говорит о том, что матрицы А и //, / = = 1, . . ., лг, должны быть близки друг к другу. Нетрудно представить себе, каким образом можно использовать вы- сказанные соображения для построения итерационных процессов минимизации. Если {xfe} — построенная про- извольным образом последовательность, сходящаяся к точке минимума / (ж), то в достаточно малой окрестности минимума точки хк, xk_i9 . . ., хк_п близки друг к другу. Поэтому, определив матрицу А к с помощью системы урав- нений А к (xk_i — Xk-i-i) = /' (Xk-i) — f (Xk-i-i), i = 0, 1,..., n — 1, можно построить (A 4- l)-e приближение уже по формуле Хк+1 = Хк — O'kA'kfk, ак > 0. (3.4) £ ►к № Если матрица Ак окажется достаточно близкой к матрице направление рк = — Абудет близким к направ. лению — (/fc)-1/fc (т. е. к направлению движения в методе Ньютона) и поэтому будет направлением спуска. Если дальше определять аналогичным образом матрицы Afc+1, A/f+2, . . ., то в силу их близости к матрицам fk+1> fk+z, ... процесс (3.4) должен быть близок по своим свой- ствам к методу Ньютона. В то же время в методе (3.4) не требуется вычислять вторые производные функции.
80 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Основываясь на проведенных рассуждениях, оказыва- ется возможным построить целый класс процессов спуска, обладающих сверхлинейной сходимостью и не требующих для своей реализации вычисления вторых производных функции. Эти процессы мы назвали методами двойственных направлений. Происхождение названия станет ясно позд- нее, когда будут изучаться способы вычисления матрицы А к1 и вектора р^ Сейчас мы приступим уже к строгому обоснованию ме- тодов типа (3.4). 2. Обоснование методов. Предположим, что / (х) — функция, имеющая непрерывные первые и вторые произ- водные. Пусть имеется некоторая бесконечная последова- тельность элементов fr/J. Этой последовательности мы по- ставим в соответствие последовательность {yfc}, определив ее по формуле Ун = 4- гк, (3.5) где векторы гк таковы, что выполняются следующие усло- вия: 1) если Дк — определитель, столбцами которого явля- ются векторы . • • , то при любом к ||г к II Irfc-n+i О — 1 | Afc | > в, е — произвольно малое положитель- ное число; 2) |[гй || —> 0 при А —> оо. В остальном выбор векторов произволен. Первое из требований, предъявляемых к векторам rfe, есть, по сути дела, требование их линейной независимости. Лемма 3.1. Пусть {х^ — ограниченная последова- тельность, || Xk+i — Хк || —> 0 при к —> оо и при любом А > п — 1 матрица А к определяется системой уравнений Atfk-i = ek-t, i = 0, 1, .... п — 1, (3.6) где ek-i = /'(уй_{)—/'(^л-г), гк, ук — элементы последователь- ности (3.5). Тогда Пт||Лк —f(a:fc)j = O. /f—>оо Доказательство. Используя формулу для представления оператора f (х) по его производной (1.5.1),
§ з] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 81 можно записать 1 /' (Ук-i) — f = J /" (*м + т (уЙЧ — Xfc-i)) r^idx = 0 1 1 = § /' (*s-i) r*-i dr + [f 4- тгк_{) — г («»-»)] rk-idx = 0 0 1 = f Ы rk-i 4- [f (xfc_i 4- Trft_i) — f (xk-i)] rk-i dr. О С учетом этого (Л k - r (^)) - (/" M - r (^)) ГН + 1 + J [/" 4- trs-i) — f гь-idr. 0 Если обозначить A к — Д = Bk, то получим II в^г k_i || <; || /fc_i — fk || || гы ||+ + sup || f (tffc-i + xrft4) — f (tffc-i) IIII rk_i ||. (3.7) Поскольку {#fc} — ограниченная последовательность, при любом к будет хк е= Q, Q d Еп — некоторое замкнутое ограниченное множество. На множестве Q функция /" (х) равномерно непрерывна, следовательно, ((Л-i—/&| = = 1йн->0 и sup ||f + f (zfc_i)||= oC'cCi при к —> оо. Таким образом, из (3.7) вытекает 1В j? k~i |1 (Xfc_i + p-fc-i) || г к-i || = hk-i J Гм ||, (3.8) где hk-i —* О ПРИ Л —> оо. По определению нормы оператора ||Z?J| = max ||^z||. „ Ikll-1 „ Пусть максимум достигается на элементе Zk- Если _ X ! I Я rfc-n4-l то в силу условия | Ajt | > 8 > 0 коэффициенты 8k-i будут ограничены: ] 6#_г | С, i = 0, 1,..., п — 1. Используя
82 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. XI представление вектора Zk, получаем II Вк\\ = II = In—1 2 ^k-i^k г=0 Отсюда с учетом (3.8) и ограниченности | 6^ | следует п-1 п-1 i=0 II Гк-г II г=0 при к оо. Лемма доказана. Результат доказанной леммы, по существу, и открывает пути для построения методов типа (3.4). Лемма 3.2. Если f (х) — непрерывно дифференци- руемая сильно выпуклая функция и последовательность {хк} такова, что /к+1 Д- и (fk, хм —#&)—> 0 при к —> -> ОО, то | хк+1 — хк | -> 0. Доказательство. В силу условия fk+1 <1fk при любом к будет xft+1 $к, Sk = {х: (жк)}. Множество Sk является сильно выпуклым, поскольку f(x)— сильно выпуклая функция (лемма 1.2.8). Следова- тельно, существует положительное число X > 0 такое, что любая точка Х]с+1^~Х* + £, где |Щ < Л [| xk+i — хк ||2, яв- ляется внутренней точкой множества Sk- Пусть —— = == v + со, где v G= Тк, Тк — касательная плоскость к мно- жеству Sk в точке хк, а со | 7\. Тогда, учитывая, что /' («it) ± тк, получим 41 (4> ж«+1 — хк) I = I (4. V 4- (О) I = II /к IIII <01|. Но || со j >|| £ ибо в противном случае, помимо точки х^ существовали бы и другие общие точки множества Sk и плоскости что противоречит строгой выпуклости Sk- Поэтому I (fk, Xk+i хк) I > || fk || II Хк+1 %к ||2, Отсюда, если J А || ?> О, следует, что | Xk+i — %к ||—> 0. Если же J Л||—>0, то в силу сильной выпуклости / (х)
§ з! МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 83 максимальный диаметр множества —>0, в силу чего также || —^/с||—> 0. Лемма доказана. Теперь можно приступить непосредственно к изучению свойств процесса (3.4). Мы будем изучать этот процесс, предполагая, что значение параметра выбирается из условия (2.2) (§ 2), учитывая, что в данном случае р^ — = — A’kfk. Минимизируемая функция предполагается глад- кой сильно выпуклой. Обоснование возможности выбора параметра в этом случае проводится по той же схеме, как это делалось в предыдущих параграфах. Используя разложение функции в ряд Тейлора, получаем оценку L 2 2 <4^*)] где ak= ||/fc — A k ||, xke = xk + 0 (xM — xk), 0 e Ю, 1]. Заметим, что (4» Рк) = — (Akpk, pk) = — (4, A /Д). (3.9) С учетом этого /fc+1 — fit ®k(Jk> Рк) 1 ak . akak IIP/ ' 2 2 (4»Pfc)]’ откуда следует, что условие (2.2) будет заведомо выпол- няться, если ак удовлетворяет неравенству 1 ак , акак ll/’sll4 2 + 2 (4^). (3.10) Теорема 3.1. Если / (х) — дважды непрерывно дифференцируемая функция, для которой справедливы ус- ловия (2.4), матрица А % при любом к п — 1 определя- ется системой (3.6) и удовлетворяет условию И?44)>о (3.11) a определяется из условия (2.2), то независимо от выбора начальной точки х0 для последовательности (3.4) справед- ливы утверждения: fk+i fk и | — я* || —> 0, причем скорость сходимости сверхлинейная: || %n+i CXjv . . . A/jv+z* (3.12)
84 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. И Здесь С, N °°> <С 1 пРи любом 1^0, —>0 при i —> оо. Доказательство. Для того чтобы воспользо- ваться результатом леммы 3.1, мы должны прежде всего показать, что при условиях теоремы для последователь- ности (3.4) будет | — хк || 0. В силу условий (3.9) и (3.11) при любом к будет (/s> Рк)<^9- Отсюда, во-первых, следует, что всегда найдется значение afc =/= 0, при котором выполняется неравенство (3.10) (а следовательно, и (2.2)); во-вторых, в силу (2.2) будет /к+л < Д. Это означает, что хм S S = {х : / (х) (х0)} при любом к и, кроме того, поскольку / (ж) огра- ничена снизу, то fk — fk+i —> 0. В силу этого из (2.2) сле- дует, что «к (/к, Рк) = (/к > *k+i — хк) -> 0. (3.13) Так как Д+1 и выполняется условие (3.13), последо- вательность {xk} удовлетворяет требованиям леммы 3.2. Следовательно, при к —> оо hk+i—®k|->o. (З.14) Таким образом, условия теоремы обеспечивают выпол- нение всех требований леммы 3.1, вследствие чего при к —> оо 1Л-/П-0. (3.15) Отсюда с учетом условий (2.4) вытекает, что для любых Мi и nti таких, что Mi найдется число L такое, что при к L для любого у ЕЕ Еп будет mt J у В8 < (А*У’ УХ Mt 1У В ’• (3-16) В силу условий (3.9) и (3.16) начиная с некоторого к бу- дет (/к, рк) — mi В рк J2. Следовательно, неравенство (3.10) будет заведомо выполняться, если окажется выпол- ненным неравенство . «к аЛ I 2 2 пи £ 2 (3-17) Учитывая, что а* М Mi <С оо, нетрудно убедиться, что существует постоянная а 0 такая, что при любом к не- равенство (3.17) будет выполняться при а» > а. В силу
§ з] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 85 j этого из (3.14) следует, что ||рл|| -||£fc+1 — я\||—>0. От- а/с сюда в свою очередь вытекает: Последнее условие, как показывает неравенство (1.12), означает, что хк —> х*. Установим справедливость оценки (3.12). Поскольку [ рк J —> 0 и выполняется условие (3.15), а вторые производные функции / (х) равномерно непрерывны на множестве S, при к —» оо <? ||/" (хк + 0 (xk+i - ^)) - /" (хк) || + + |1/'Ч^)-А1|->0, откуда следует, что при любом 0 8 < 1/2 начиная с не- которой итерации неравенство (3.17) будет удовлетворять- ся при ак = 1. Это означает, что процесс (3.4) будет осу- ществляться с единичным шагом. Левая из оценок (3.16) означает, что при Л > L будет 1 || Ак || — (лемма 1.2.9). Вместе с обратимостью матрицы A k при любом к п — 1 эта оценка позволяет сделать вывод, что существует константа М2 такая, что || Акг || М2 при к > п — 1. Учитывая это, можно получить оценку скорос- ти сходимости также, как это делалось в теореме 2.1: II •Z'fc+i ^*|| || I Ак fkc || || %к *£*11 < II Ак || || Ак — ffc || || хк £*11 М2 [| Ак //сс [| || хк £*[[, или [I хм — £* II < Ifc II хк — £* ||, где Xfc = М2 [| А к — — /fee ||. Поскольку || Ак — fkc || < || Ак — fk И 4- ук — —/" (#fc + 0 (хк — £*)) ] 0, найдется число N такое, что при к — N 4- Z, I = 0, 1, ... будет kN+i < 1, причем при Z -> оо будет kN+i 0. Положив j xn — х* J = С и учитывая замечания отно- сительно значений кк, мы и получим оценку (3.12). Теорема доказана. Условие (3.11), используемое в теореме, означает в силу (3.9), что направление рк есть направление спуска / (х). На некоторых итерациях процесса может оказаться (Л кУй, fk) 0. Тогда можно либо изменить вектор
86 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II rfc и заново построить матрицу Акг (таким образом, чтобы выполнилось условие (3.11)), либо сделать шаг в направле- нии антиградиента. Число шагов по антиградиенту, кото- рые могут понадобиться, всегда будет конечным, поскольку при спуске по антиградиенту || xk+i — хк (| -» 0, и если век- торы гк удовлетворяют сформулированным выше требова- ниям, то || Ак — Д || —> 0. Следовательно, в силу условий (3.16) и (3.9) начиная с некоторой итерации необходимо будет (Акг /к, Д)>0. Впрочем, если при некотором к выполняется условие (А^Д, Д) = — (pfc, Д) < 0, то про- ще в формуле (3.4) поменять знак скалярного множителя ак — при этом движение из точки хк будет происходить в направлении — рк, т. е. в направлении спуска. 3. Построение различных алгоритмов. Требования, ко- торым должны удовлетворять векторы гк, используемые для построения последовательности (3.5), не являются жесткими и предоставляют большую свободу в выборе этих векторов. Это позволяет строить различные алгорит- мы типа (3.4), поскольку различные последовательности {rfe} будут определять (в силу (3.6)) различные последова- тельности матриц Ак. Остановимся на некоторых возможных способах по- строения векторов гк. В качестве гк можно брать векторы, направленные по координатным осям. Если, например, г0 = Ао то ПРИ Л = Zn + г, где t — целое число, a i = = 0,1, . . ., п — 1, будетrk = Здесь ri+1 — единич- ный вектор соответствующей оси, а кк — числовой мно- житель — должен удовлетворять условию Кк —> 0 при к —> оо. Такой выбор векторов гк гарантирует выполнение условия | Дй | > е. При этом на каждой итерации для определения матрицы А к необходимо вычислять производ- ные в двух точках: хк и ук. Закон уменьшения Хк можно выбирать произвольно, однако вычислительная практика показывает, что наибольшая скорость сходимости достига- ется при монотонном убывании например, можно по- лагать кк = 1/А2. Еще один возможный способ определения векторов гк заключается в следующем. При А > п — 1 вместо (3.5) можно непосредственно использовать последовательность (3.4), т. е. полагать гк = — хк = — акА к\[к.
МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 87; § 31 Действительно, из доказательства теоремы 3.1 ясно, что> если А к — произвольная матрица, удовлетворяющая лишь, условию (3.11), а Як выбирается из условия (2.2), то> [ xk+i — хк || —* О ПРИ & —► °©. Следовательно, если для: построения векторов г к использовать последовательность, (3.4), то требование || Ц —> 0 будет необходимо выпол- няться, и нужно проверять лишь выполнение условия! | Д/с | > е. Если это условие при некотором к не выполня- ется, нужно выбрать другой вектор (уже не по формуле; (3.4)). В таком алгоритме для определения матрицы Л^на1 каждой итерации (где последовательность (3.4) обеспечи- вает выполнение требований, накладываемых на векторы! г/с) необходимо вычислять градиент лишь в одной точке х^.. Допустимы, разумеется, и другие способы построения! векторов гк. В системе уравнений (3.6), определяющей мат- рицу Ль при любом к используется лишь один новый век- тор и соответствующий ему вектор остальные векто- ры Гй-ь . . rfc-n+1new, . . ., б/c-n+i строятся на предадут щих итерациях. Можно видоизменять систему (3.6) таким! образом, чтобы на каждой итерации процесса (3.4) в сис- теме (3.6) обновлялось произвольное число векторов^ r/c-ip ..., г^., 1 п (и соответствующие им векторьп Q-i,, • • •, ^-i5), а остальные п — / векторов г/м;+1, •, r^in> использовались с предыдущих итераций. При этом систему; (3.6) лучше записывать в виде АкГ} = eh i=l, . . ., п. (3.18)) Если требования леммы 3.1 сохраняются, то, повторяя до- словно ее доказательство, можно убедиться, что для мат- рицы Ль определяемой системой (3.18), также выполня- ется условие Ц ЛJ —> 0 при к —> оо. Применяя в системе (3.18) различные способы построе- ния векторов можно получить некоторые хорошо из- вестные алгоритмы минимизации. Так, если полагать = = (при этом = хх + где г?ь — вектор, направ- ленный вдоль г-й оси координат и такой, что || || —> О при к—> сю, то система (3.18) будет иметь следующий вид: AkVki = f (хк + Vm) — /' (хк), i = 1, . . ., п. Матрица определяемая этой системой, является раз-
88 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II постным аналогом матрицы вторых производных /" (хк), следовательно, в этом случае процесс (3.4) превращается в разностный аналог метода Ньютона с регулировкой шага. На основании теоремы 3.1 можно утверждать, что разност- ный метод Ньютона с регулировкой шага сходится с лю- бого начального приближения со сверхлинейной ско- ростью. Если считать, что матрица /" (х) удовлетворяет условию Липшица (2.8), то можно показать, используя предыдущие результаты, что в случае, когда || vki || A ||, разностный метод Ньютона сходится с квадратич- ной скоростью. Это вытекает из следующего. В лемме 3.1 оценка величины* Bkrt = Bkvki принимает вид И Bkvki || < sup || f (хк + xvki) — /" (хк) у vki откуда с учетом (2.8) следует, что || Bkvki ||< R Ц vki |2. Используя это неравенство и оценку Ц vkt || [ fk Ц так же, как в лемме 3.1, устанавливаем п п IIA-= 1М11АНШ11 • i=l i—1 В силу (2.4) градиент /' (х) удовлетворяет условию Лип- шица с константой М. Следовательно, |Ял|<Я|/»| = Я||/*-/'|<Я2И||а:4-а:4 Теперь оценка скорости сходимости, получаемая в теореме 3.1, уточняется следующим образом: J х *|| 1| -4ft Ас (I || ^ ^*|| < Мг (В Ак — /fc || + II fk — f (хк + 0 (хк — X*)) J) || хк — ж#|| < <М8(ЯМ + Я)1^-х#||а, т. е. || Я-k+i %*|| I *£*11 ' Остановимся еще на одном способе выбора векторов гг. Пусть гг = — Kkf (yi), yi = хк, ум = yi + rt, i = 1, 2, п. В этом случае система (3.18) принимает вид - W (Уг) = f (yt+i) — f (Vi), i =
§ з] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 89 Матрица Afe, определяемая такой системой уравнений (с точностью до числового множителя Ifc), используется для построения итерационного процесса Эйткена — Стеффен- сена. Мы не будем здесь изучать свойства этого метода. Заметим лишь, что, регулируя значение множителя можно добиться того, что скорость сходимости процесса будет квадратичной. 4. Определение вектора Трудоемкость вычисления вектора рк в значительной степени определяет трудоем- кость процесса (3.4). Сейчас мы рассмотрим один способ построения вектора Ри = — А^Д, использующий специфику системы (3.6), определяющей матрицу Учет специфики этой системы позволяет существенно уменьшить трудоемкость построе- ния вектора рк. Начнем мы с вопроса об обращении мат- рицы Ак. Необходимым условием существования матрицы А*1 является невырожденность матрицы Ак, для чего в свою очередь необходимо, чтобы система векторов ek_n+i была линейно независимой. При достаточно больших к матрица Ак, как показывают условия (3.16), будет невырожденной. Однако на некоторых итерациях началь- ной стадии процесса (3.4) система векторов е&,..., может оказаться линейно зависимой. В этом случае можно либо изменить один из векторов либо сделать шаг по антиградиенту, вследствие чего изменится и систе- ма . . ., е^+1. В дальнейшем мы будем предполагать, что при любом к п — 1 система efe, ..., линейно независима. Систему (3.6) при этом можно записать в виде = Гц, i = 0,1, — 1, или, в виде матричного уравнения, А?Ек = Rk, (3.19) где Ек, Лк — матрицы, столбцами которых являются со- ответственно координаты векторов ек^ и rk^t. Из (3.19) получаем А? = ад1. (3.20)
90 МИНИМИЗАЦИЯ ФУНКЦИЙ БЁЗ ОГРАНИЧЕНИЙ [ГЛ. II I Таким образом, для построения матрицы прежде | всего необходимо вычислить матрицу Ек\ Из линейной I алгебры известно (см., например, Д. К. Фаддеев, В. Н. Фаддеева [1], стр. 93), что строками матрицы Екг будут векторы базиса ..., sk-n+i, двойственного (или биорто- гонального) к базису ек, . . ., ек_п+1. Напомним, что ли- нейно независимые системы векторов ai9 . . ., ап и bi, . . ., bn называются двойственными, если выполняются условия (af, bj) = 0 при г 5^/, (at, bt) = 1. Если базис sk, . . ., sjt-n+i двойствен по отношению к ба- зису ек, . . ., efe.n+1, то (в силу соотношений двойствен- ности) SkEk = I, где Sk — матрица, столбцами которой являются векторы sk^. Отсюда и следует, что Sk = Екг. Каждая из матриц Ек, к = 0, 1, . . ., отличается от соседних слева и справа только одним столбцом. В силу этого процесс построения базиса $£,•••, $&-n+i можно осу- ществлять с помощью рекуррентных соотношений, что су- щественно снижает трудоемкость такого построения. Пусть мы уже вычислили матрицу Е^, т. е. построили базис sk, • • •> ^~n+i. Построим систему векторов $к+1, зк, . .., sfe-n+2 следующим образом: -_________sk-n+i fe+1 (sk-n+r е/с+1) ’ (3.21) S/c+l-j = — (5fc+i-J> ek+i) Sfc+D j = 1> • • .»И — 1. Из линейной независимости векторов ek+r, ек, . . ., ^-n+2 вытекает, что (5fc-n+i> £fc+i) =/= 0. (3.22) В самом деле, в силу двойственности базисов sk, ... . . ., sfc^+1 и ек, . . ., ек^п+1 будет (sk^+1, екч) = 0 для j = 0, 1, . . ., п — 2, и если бы (§^+1, ек^ = 0, то от- сюда бы следовала линейная зависимость векторов e^+i, . . ., Следовательно, для проверки линейной независимости векторов ек+1, ек, . . ., ек_п+2 достаточно проверять условие (3.22). । Убедимся, что система векторов (3.21) является бази- сом, двойственным к базису ек+1,. . ., ек_п+2.
$ 31 МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 91 Действительно, («т>ек+1)--д^—^-1, (sfc+i-i> ек+1) ~ (sft+i-j, ek+i) — (s/c+i-j> е#+1) —e*+1j = О, (Sm.^+l-3)------(Sfc+1_n,efc+1) -° —в силу двойственности базисов ^-n+i и 5/с,. . .j $к-п+1) (Sfc+1-Ji ^fc+1-тп) = /о л \ /п „ \ (*/с+1-п» еЛ+1-7п) © — (ss+l-ji ек+1-т) — (Sft+i-j, £fe+i) -Г---—— = Ojm, ^/с+Х-п’ ек+1> j, т = 1, 2, . . ., п — 1, SjTO — символ Кронекера (6у;- = = 1, 6;m = 0 при / Ф т). Следовательно, для систем век- ТОрОВ п+2 И 5/f+j, • • ., 8k—nV2 ВЫПОЛНЯЮТСЯ уС— ' ловия двойственности, что и подтверждает наше утвер- ждение. Итак, с помощью рекуррентных соотношений (3.21) построение базиса «хг+х, ...» s/c-n+2 (т. е- матрицы £^) осуществляется весьма просто. Теперь мы можем получить простую формулу для опре- деления направления движения рц. Для этой цели запи- шем уравнение (3.20) в виде п—1 Ац1 — 2 Гk-isk-i г^о (здесь индексом * обозначается вектор-строка). Используя это выражение, получаем П-1 п—1 S А) Пс-г* г=0 г—0 Именно эта формула для определения направления спуска в методах типа (3.4) и дала повод назвать такие алгоритмы методами двойственных направлений. С учетом (3.24) фор- мула (3.4) может быть представлена в виде п—1 %к+1 '•= % к — ttfc 2 A) rk-i (3.23) Рк — Ак fk — 2 Гк-iSk-ifk — (3.24) (3.25) I i
92 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II или, в координатной форме, v v V V J * а #Л+1 — — Ofc 2 2 Sfc-i--Т~л— Пс-i» V — 1, . . . , MJ=1 ™ Практически последовательные приближения нужно строить именно по этой формуле. Заметим еще, что, используя выражение (3.23), можно получить рекуррентную формулу для вычисления матри- цы Л*1. Мы приведем ее здесь без вывода: -4/c+i = -4ft1 + (rfc+i — В справедливости формулы легко можно убедиться не- посредственным умножением построенной таким образом матрицы на векторыefc+1, . . ., е^п+2. Оказывается, что ^k+leM-i==rk+l-li i = 0,1,..., n 1, т. e. матрица Л^н удовлетворяет системе (3.6). 5. Организация начала процесса. До сих пор мы рас- . сматривали итерационный процесс (3.4) начиная с к = = n— 1, поскольку для определения матрицы Л требуется пвекторов гк и соответствующих векторов ек. Первые итерации процесса (к п — 1) можно осуще- ствлять различными способами. Например, воспользо- ваться методом наискорейшего спуска: хк+1 = хк — akfki j ак > 0, к = 0, 1, . . п — 2. Для того чтобы обеспе- чить единообразие вычислительного алгоритма начиная с первой итерации, можно использовать следующий способ организаций процесса при 0 к < п — 1. 1 Положим Ло1 = I. Представим эту матрицу в виде Л о1 = До^о1, где 7? о = = Л или же, используя (3.23), в виде п—1 J л о1 = 2 го-г5о-г» | 1=0 где г0, г-!, . . ., г_п+1 и s0, S-1, . . ., s-n+i — векторы еди- j ничного ортонормированного базиса. С учетом этого п—1 = Xq (Xq 2 (/о> $0-i) Го-i» 1=0-
§ 3] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 93 Далее, вычислив векторы гг и еи по формулам (3.21) строим базис: Si = — (si-j> ei)«ь /=1» n~i> и следующее приближение: П-1 «2 = Х1 — аг 2 (/1, $l-i) 1=0 Построение следующих итераций уже очевидно. 6. Минимизация квадратичной формы. Рассмотрим в качестве примера использование методов двойственных на- правлений для отыскания точки минимума квадратичной функции. Пусть / (я) = {Ах. х) + (Ь, х) + с. Здесь А — симметричная строго положительно определен- ная матрица п X п с постоянными элементами: (Лх, х) > 0 при любом х 0, Ъ — вектор, с — скаляр. Градиент этой функции /' (х)=Ах + Ь. вектор = f'(x + rt) — f (x)—Art. (3.26) Следовательно, если r1? . . ., rn — линейно независимая система векторов, s1? . . ., sn — базис, двойственный к ба- зису е19 . . еп. то в силу (3.20) и (3.23) Ай1 = НпЕпг = 2 ГХ- i=l Но, поскольку из (3.26) следует, что матрица А определя- ется системой уравнений Art = ei9 i = 1, 2, . . ., лг, будет n (3.27) 1=1 т. e. An1 = А-1. Следовательно, xn+1 = xn — A^f’n = xn — A-1 (Axn + b) = — A~lb (3.28) и /п+i = — AA гЬ 4- b = 0, Ti. e. avw-i —
94 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Таким образом, для минимизации квадратичной функ- ции с помощью методов двойственных направлений требу- ется вычислить градиент функции в п + 1 точках и по- строить базис, двойственный к базису векторов е19 . . ., еп. Если рассматривать процесс последовательного вычис- ления векторов е19 . . ., еп как некоторую итерацион- ную процедуру, то можно сказать, что методы‘двойствен- ных направлений позволяют отыскивать минимум квад- ратичной функции за конечное число шагов. Отметим еще, что рассматриваемая задача эквивалент- на решению системы линейных уравнений Ах = — Ь. Следовательно, методы двойственных направлений позво- ляют решить систему линейных уравнений за конечное число итераций. 7. Обсуждение свойств методов. Методы двойственных направлений позволяют решать задачу минимизации стро- го выпуклой гладкой функции независимо от выбора на- чального приближения, причем скорость сходимости по- следовательности к решению сверхлинейная. Способ выбора параметра обеспечивает определение требуемого значения за конечное число дроблений. Разумеется, в процессе (3.4), как и в методах, рассмотренных в предыду- щих параграфах, можно выбирать ah из условия минимума функции в направлении движения, однако такой способ более трудоемок. По оценке скорости сходимости методы рассматривае- мого класса приближаются к методу Ньютона. Сравним трудоемкость итерации методов двойственных направлений и метода Ньютона. В процессах типа (3.4) с матрицей определяемой системой (3.6), для вычисления матрицы Ак1 требуется вычислить вектор и затем по рекуррент- ным формулам (3.21) построить базис, двойственный к ба- зису вь, . . ., Для построения вектора как отмечалось в п. 3, необходимо вычислять градиент функции в одной или двух точках. Построение двойственного базиса по формулам (3.21) снижает трудоемкость этого процесса по сравнению с обычными способами построения двойственного базиса (Д. К. Фаддеев, В. Н. Фаддеева [1]) в п раз (если прове- рять условия, обеспечивающие неравенство нулю знамена- теля в общих формулах для построения двойственного ба- зиса, то это отношение будет еще больше).
§ 31 МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 95 Таким образом, во-первых, в методах двойственных на- правлений, в отличие от метода Ньютона, не требуется вы- числять вторые производные функции. Если же проводить сравнение с разностным методом Ньютона, то оказывается, что количество вычислений в изучаемых методах, необхо- димое для построения матрицы примерно в п раз меньше, поскольку в методе Ньютона требуется на каждой итерации вычислять производные в п 4- 1 точках и обра- щать матрицу А 1с без применения рекуррентных соотно- шений. В разностном методе Ньютона для определения на- правления движения pic можно вместо обращения матрицы Ак решать систему линейных уравнений (аналогично тому, как это можно делать в обычном методе Ньютона). Для такого случая количественная оценка отношения трудо- емкостей методов типа (3.4) и метода Ньютона зависит от трудоемкости способа решения системы уравнений, однако примерная оценка отношения трудоемкостей и в этом слу- чае равна п. Например, если для решения системы линей- ных уравнений применять метод двойственных направле- ний (см. пункт 6), то для этого фактически необходимо вы- числить матрицу Л;1 без применения рекуррентных соотношений, для чего, как уже говорилось, необходимо в п раз больше вычислений, чем при использовании фор- мул (3.21). Примерно такая же трудоемкость решения системы ли- нейных уравнений с помощью методов сопряженных на- правлений, о которых мы будем говорить в следующем па- раграфе. Таким образом, методы двойственных направлений, об- ладая скоростью сходимости, близкой к скорости метода Ньютона, требуют в то же время значительно меньшего ко- личества вычислений на каждой итерации. Недостатком этих методов является то, что для их реа- лизации на вычислительных машинах требуется большая машинная память, поскольку необходимо хранить в памя- ти две системы векторов rfe, г^, . . ., rft-n+iHSfc, Sfc-i, . . . . . ., Sfc-n+i, т. е. фактически две матрицы п X п. Это за- трудняет использование методов двойственных направле- ний для решения задач большой размерности на машинах с ограниченной оперативной памятью. Заметим, правда, что
96 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II частично этот недостаток устраняется, если в качестве век- торов гк использовать векторы, направленные по коорди- • натным осям, так как в этом случае в памяти машины фак- ! тически необходимо хранить лишь один n-мерный вектор | вместо системы гк, . . ., гк_п+1. । § 4. Методы сопряженных направлений. Минимизация квадратичных функций ; 1. Сопряженные направления и их свойства. Вернемся к задаче минимизации квадратичной функции / (ж) = -I- (Ах, х) + (Ъ, х) + с, (4.1) • где (Ах9 х) > 0 при любом х Ф 0, которую мы уже рас- I сматривали в предыдущем параграфе (п. 6). Как легко убе- | диться, задача минимизации квадратичной функции, по { существу, сводится к обращению матрицы А: если известна j матрица Л”1, решение сразу же находится по формулам { (3.28) я* = я0 — Л-1/о = — Л"1??, (4.2) где хъ — произвольная точка. Если вычислять матрицу Л’1, используя выражения (3.27), то необходимо, выбрав произвольную линейно не- зависимую систему векторов р0, . . ., рп_х (здесь мы ис- пользуем обозначениевместо rf), вычислить соответст- вующие им векторы = f (xt + Pt) — f (xt) = Apt, t = 0, 1, . . n — 1, (4.3) где Xi — произвольные точки, и построить базис $0, ... . . ., sn-i, двойственный к базису ё0, . . ., ёп_х, т. е. удовлетворяющий условиям («п ^i) = (st, ё}) = 0 при i =# /• (4.4) Эти соотношения в силу (4.3) можно записать в виде (sf, Ар^ = 1, (si9 Ар-) =0, i ф j. (4.5) Особый интерес представляет случай, когда векторы Ро, • • •> Pn-i являются А-ортогоналъными или, как еще :
§ 4] МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 97 говорят, сопряженными, т. е. удовлетворяют условиям (Рь APj) =0, i ^/. (4.6) Система (ненулевых) векторов pQ. . . ., pn-i> удовлетво- ряющая условиям (4.6), является линейно независимой (как ортогональная в метрике, определяемой невырожденной матрицей), следовательно, она может использоваться для определения векторов et по формулам (4.3). Векторы удовлетворяющие условиям (4.5), при этом вычисляются по очень простым формулам: р. Si = 7-7^— , i = 0,1,...»п -1. (4.7) (APvPi) v Таким образом, если векторы р0, . . ., pn-i Л-ортого- нальны, матрица Л-1 вычисляется по формуле (см. (3.27)) п—1 п—1 л-1 - 2 Pisi = 2 i=0 i=0 Pjpj (Ар., Pi) (4-8) т. е. задача обращения матрицы Л, а тем самым и отыска- ния минимума функции / (х), решается весьма просто. Рассмотрим теперь задачу определения точки х* с по- мощью сопряженных векторов с несколько другой точки зрения; попутно мы выясним ряд интересных свойств со- пряженных направлений. Поскольку ро. . . ., рп~г — базис пространства Еп. точка х* представима в виде п—1 х* --= хй 4- 2 ад»- (4-9) г=0 Но в силу (4.2) и (4.8) 72—1 * = *0 — 2 ' i=o ' *»’ rv Из (4.9) и (4.10) следует * хо + 2 ад» = *0 - 2 TTTVF или, в другой форме, *о + 2 ад = ~ 2 та’ -* \ Pi- (4.11) 4 Б. H. Пшеничный, IO. М. Данилин
98 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II В силу единственности разложения вектора по осям базиса из последнего равенства определяются значения коэффи- циентов в разложении (4.9) а. = , i = 0,1,...,п-1. (4.12) г (APi'Pj (evp.) v 7 Таким образом, если известна некоторая система сопря- женных векторов, то точка минимума квадратичной функ- ции (4.1) легко определяется по формулам (4.9), (4.12). Процедуру определения точки х* по формуле (4.9) мож- но рассматривать как процесс последовательного построе- ния точек: ^г+i — + <*iPb г = 0, 1, . . ., п — 1, (4.13) где параметры определяются по формулам (4.12). Следо- вательно, с помощью сопряженных направлений задача ми- нимизации квадратичной функции может быть решена за конечное число шагов, не превосходящее п (число точек в итерационном процессе (4.13) может оказаться меньше п, если некоторые из коэффициентов аг- в разложении (4.9) окажутся равными нулю, т. е. если для некоторых i будет (/о, Pt) =0). Приведенное свойство является важнейшим из свойств сопряженных направлений. Оно указывает на эффективность использования сопряженных векторов для минимизации квадратичной функции и является причиной широкого распространения методов сопряженных направ- лений. В качестве интересного следствия из полученного ре- зультата можно показать, что точка хь построенная по формулам (4.13), (4.12), является точкой минимума функ- ции (4.1) на подпространстве, образованном векторами Ро, • • •> Pi-i и проходящем через точку х0. Действительно, пусть г—1 + 2 где а/с — некоторые произвольные коэффициенты. Для того чтобы точка 5*г- была точкой минимума строго выпук- лой дифференцируемой функции на подпространстве, образованном векторами р0, . . необходимо и
§ 41 МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 99 достаточно (следствие 1.4.4), чтобы выполнялись условия (/'(ft).Zb’) =0.7 =0, 1, . . ., г-1. (4.14) Но для всех 0 j i — 1 (/' (ft), Pj) = (A$i + b, pd = [A (x0 + 2 &kPk) + b, Pi) = 4 fc=0 J i—1 = (Axq + b, Pi) + 2 «А Pi) = (/o. Pi) + S; (Api, Pi). fc=o Отсюда с учетом (4.14) следует, что точка реализует ми- нимум функции на подпространстве, образованном векто- рами р0, ...» ры и проходящем через точку х0 в том (и только в том) случае, если (/0, pj) + (Apji Pj) =0, т. e. ~ (Ar -Pj) 3 (App p.) Но эти коэффициенты совпадают с коэффициентами af, вы- численными по формуле (4.12), т. е. точка реализующая искомый минимум, совпадает с точкой xt (4.13). Следова- тельно, (/' (ft). Pi) = о, j = 0, 1, . . i — 1. (4.15) Теперь ясно, что отыскание точки минимума квадра- тичной функции в пространстве Еп по формулам (4.13), (4.12) можно толковать как процесс последовательной ми- нимизации функции в подпространствах размерности i + 1, i — 0, 1, . . ., п — 1, причем для отыскания каждой следующей точки минимума необходимо вычислять лишь один коэффициент af. Отметим, что для отыскания коэффициентов по фор- мулам (4.12) фактически не нужно вычислять матрицу вто- рых производных Л, а требуется вычислять лишь векторы ег- = /' + р^ — f (х^ (см. (4.3)), т. е. лишь первые производные функции. Нетрудно убедиться, что формулам (4.12) для определе- ния коэффициентов можно придать иной вид. В самом деле, если xt определяется по формуле (4.13), то (/о» Рг) = (/о /1 + /1 — • • • “ /i + /г» Pi) = == (— а0Лр0 — aMpi — ... — а^Л/Vi + Д, рг) 4*
100 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II и в силу А-ортогональности векторов р0, . . ., pt будет (/о, Pi) = (fi Pi)- Следовательно, _ (4 л) _ (f'vPi) 01 4 г" (АР.,Р.) - (ё.,Р{) ’ 1. (4.16) Отсюда следует, что если при некотором 0 < i п - 1 в формуле (4.13) = 0 (т. е. xi+l = xt) , то это означает, что (/$, Pi) = 0- Объединяя это равенство с (4.15), получаем (А+1, Pj) = (A. Pj) =о, 7 = 0, 1, . . i. Таким образом, обращение в нуль коэффициента аг- означает, что соответствующая точка xt реализует ми- нимум квадратичной функции на подпространстве, по- рожденном векторами р0, . . pt и проходящем через точку х0. Наконец, заметим еще, что в силу (4.15) (Д, p^-i) = 0. Это означает, что выбор коэффициентов по формулам (4.12) или (4.16) соответствует выбору af из условия /Сч + а»Рг) = min/fo + ap{). a 2. Построение методов. Говоря в предыдущем пункте об эффективности использования сопряженных направлений для минимизации квадратичной функции, мы совершенно не касались вопроса о способах построения таких векторов и о трудоемкости этой процедуры. Приступим теперь к изучению способов построения А-ортогональных векторов. Каждый из таких способов будет определять тот либо иной метод сопряженных направле- ний, заключающийся в построении последовательных при- ближений к решению задачи минимизации функции (4.1) с помощью формул (4.13), (4.12) (или (4.16)). Эффективность методов сопряженных направлений бу- дет непосредственно зависеть от количества вычислений, которые потребуется затратить для построения системы со- пряженных векторов. Если выбранный способ построения сопряженных векторов окажется слишком трудоемким, эффективность определяемого им метода сопряженных на- правлений может оказаться низкой (по сравнению с алго- ритмами других классов). Поэтому имеет смысл сразу же
МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 101 § 4] оговорить общие требования, которым должен удовлетво- рять любой из способов построения сопряженных векторов для того, чтобы соответствующий метод сопряженных на- правлений оказался достаточно эффективным. Во-первых, процесс построения сопряженных векторов может использовать лишь вычисление функции и ее гра- диента и не должен включать вычисление вторых производ- ных функции. Если это требование не будет выполняться, то для отыскания точки минимума квадратичной функции с помощью метода (4.13) может понадобиться вычислять мат- рицу вторых производных и, помимо этого, производить еще вычисление градиентов в нескольких точках. Поэтому, как правило, метод сопряженных направлений, включающий вычисление матрицы вторых производных, будет менее эффективен, чем метод Ньютона (исключение могут составить лишь те задачи, в которых обращение мат- рицы А гораздо более трудоемко по сравнению с ее вычис- лением). Во-вторых, для построения сопряженных векторов должна использоваться информация о функции лишь в точ- ках последовательности (4.13). Другими словами, процесс построения сопряженных векторов должен быть организо- ван таким образом, чтобы для определения вектора pf, 0 i п — 1, использовалась лишь информация о значе- нии функции и ее градиента в точках гг0, . . ., xt. Из этого требования вытекает, что можно рассматри- вать лишь такие методы построения сопряженных векто- ров, в которых условие (fi Pi) = 0, 0 < i < п — 1, (4.17) выполняется только тогда, когда fi = 0. Действительно, если выполняется условие (4.17), то в силу (4.16) аг- = 0, следовательно, в последовательности (4.13) хН1 = хг. Это означает, что на (i 4- 1)-й итерации процесса не поступит новой информации о функции и поэтому нельзя будет по- строить вектор pi+1 Ф pi. Следовательно, процесс выродит- ся (застопорится), не дойдя до решения, если Д #= 0. Таким образом, для любого из способов построения со- пряженных векторов (и соответствующего метода сопря- женных направлений) должно выполняться условие (fi Pi) Ф 0, если А Ф 0. (4.18)
102 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Это условие гарантирует, что на всех итерациях процесса будет аг 0. В процессе разработки алгоритмов для построения со- пряженных векторов выполнение условия (4.18) мы долж- ны предполагать. Затем, когда алгоритмы будут построе- ны, необходимо проверить, действительно ли это условие имеет место, и, если понадобится, наложить какие-то до- полнительные ограничения на алгоритм для того, чтобы оно выполнялось. Учитывая сделанные замечания, займемся уже непо- средственно разработкой соотношений для построения А-ортогональных векторов. Будем далее обозначать Г1 = xi+1 — Xi = atPi, et = A+1"— fi = UiApt. (4.19) В качестве вектора p0 можно выбрать произвольное на- правление спуска функции (4.1), т. е. положить pQ = I = — Яо/о, где Hq — симметричная строго положительно оп- ределенная матрица. Определим требования, которым дол- | жен удовлетворять вектор рк, 1 <1 к п — 1, для того, чтобы выполнялись условия А-ортогональности: (Рь, APj) = 0, 0 < j < к - 1. (4.20) , С этой целью воспользуемся тем обстоятельством, что в си- лу свойств сопряженных направлений (см. (4.15)) при вы- боре в процессе (4.13) по формуле (4.16) одновременно с выполнением условий (4.20) должны выполняться также равенства | (Л? Р/) = о, 0</<*-1. (4.21) Если положить | Рк = - (4.22) I где Нк — некоторая квадратная матрица п X п, то уело- 1 вия (4.20) можно переписать в виде (fk, HkAPj) = 0, 0<7</с- 1. Из сравнения полученных равенств с (4.21) становится । ясно, что при выполнении (4.21) условия (4.20) также будут * иметь место, если матрица Нк удовлетворяет соотношениям НкАр^ = apj, 0 к — 1, где а — произвольная константа. |
§ 4] МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 103 Так как в силу условия (4.18) и строгой выпуклости функции (4.1) 0 < | аг- | < оо при любом 0 I п — 1, то, воспользовавшись формулами (4.19), равенства (4.20) и (4.21) можно представить в виде (гь еу) = 0, 0 < j < к - 1, (4.23) (4, О) =0, 0 < / < к - 1, (4.24) а условия для определения матрицы Hh записать так: HicSj = аг], 0 ^7 к —- 1. (4.25) Таким образом, условия Л-ортогональности (4.20) будут выполняться, если матрица определяющая век- тор Рй по формуле (4.22), будет удовлетворять уравнениям (4.25). При к <С п — 1 число векторных уравнений (4.25) будет меньше тг, откуда следует, что матрица определя- ется неединственным образом. Кроме того, при различных значениях константы а системы уравнений для определе- ния матрицы Нц также будут различными. Все это говорит о разнообразии алгоритмов, которые могут быть исполь- зованы для построения сопряженных направлений, так как для построения различных матриц Нъ требуется при- менять различные методы. Поскольку уравнения (4.25) должны выполняться при любом к = 1,2, ..., п — 1, естественно попытаться строить матрицу Нц с помощью рекуррентных соотно- шений. Представим (4.25) в виде (Яй-1 + A^fc-i) = arh 0 < / < к — 1. (4.26) Так как матрица должна удовлетворять уравнениям = arj, О 7 к ~ 2, то из (4.26) следует, что матрица АЯ^х определяется следующими условиями: АЯ^ = 0, 0 < j < к - 2, (4.27) АЯ^^ = аг д.-! — Последнее из этих равенств будет, очевидно, выполняться,
104 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ 1ГЛ. 11 если положить — О (wfc-p вк-1) <Vk-l’ ek-i) (4.28) где ик-19 vk~t — неизвестные векторы. Эти векторы необ- ходимо выбирать таким образом, чтобы выполнялись пер- вые из условий (4.27), т. е. должно быть (и^, в;) == 0, (v/f-1? ej) =0, 0 j к — 2. (4.29) Разумеется, векторы uk-i, должны также удовлетво- рять условиям (W&-1> ек-1) 0’ (Ук-п ек-1) =^= 0» (4.30) С учетом (4.23) ясно, что условия (4.29) будут выполняться, если выбрать Условия (4.30) при этом также выполняются, поскольку (Ffc-i, *fc-i) = (г/c-i, Агк^) > 0 (4.31) в силу свойств матрицы А. Можно также выбирать векторы rjt-n воспользо- вавшись следующими соображениями. При выполнении условий (4.20) (Арк-!, Pj) = (—— ek-i, гЛ = 0, 0 < 7 < к — 2. Следовательно, с учетом (4.25) о (Ук-i, п) = (^i, Я^) = (Я*-ъ ек~19 е-) = 0, 0 < / < к —2, откуда следует, что для выполнения (4.29) можно полагать И/c-i == v — Нк^\ек^г Вообще, если выбирать векторы uh^1 и vk-i в виде ик-1 = ^1,кгк-1 +• ^2,к^ к-1е к-и V /с-i = ^з,кгк-1 + ^,k^k-iek-ii (4.32) где tbk, t2,k, ^з,/с, t^k ~ произвольные числа (которые, в принципе, могут изменяться с изменением к), то условия (4.29) будут, очевидно, удовлетворяться. Для выполнения условий (4.30) следует, если потребуется, регулировать ве- личины i = 1, . . ., 4 (в частности, как уже отмена-
§ 4] МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ Ц)5 лось, условия (4.30) будут выполнены при = -1, = 0; см. (4.31)). Таким образом, выбирая векторы uk^, в виде (4.32), мы сможем по формуле (4.28) построить матрицу ДЯ/с-х и тем самым определить рекуррентные соотноше- ния для построения такой матрицы что определяемый ею вектор будет удовлетворять Л-ортогональным усло- виям (4.20). При этом каждой выбранной паре векторов Ufc-i, и константе а будет соответствовать своя матри- ца АЯк-х и, следовательно, матрица Нк. Иначе говоря, выбирая различные векторы и константу а, мы будем получать различные алгоритмы построения сопряженных векторов, т. е. построим различные методы сопряженных направлений. 3. Общие свойства методов. Попытаемся выяснить, какими общими свойствами обладают методы сопряженных направлений, которые могут быть построены описанным выше образом. Прежде всего необходимо выяснить, будет ли для изу- чаемых методов выполняться условие (4.18), поскольку при разработке методики построения алгоритмов предполага- лось, что это условие имеет место. Другой интересный вопрос — будут ли направления р7-, / == 0, 1, . . ., п — 1, определяемые различными матри- цами Н], отличаться друг от друга, т. е. будут ли точки . . ., хп-! различными для различных алгоритмов (при условии, что точка #0 одна и та же) или же они будут сов- падать. Для того чтобы ответить на поставленные вопросы, представим вектор — Pj = Я*/;, используя рекуррентную формулу для матрицы Hj и выражения (4.28), (4.32): (ям + дям)*/;« С учетом условий (4.24) Если еще учесть, что Нj-xfj-x == + Pj-n
106 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II то вектор — Pj можно представить в следующем виде: 1 4i ^j-i’ _ <V1’ W *3,jrи-* / _ r {л 4Иез-1’^Г \ 2 V - (^-x) ) Далее, (yr-i> ^’-i) “ (Wi-i + e^) = t3ij (r^-x, e^) + + ^4,5 (^-i> Hj-ifj) + Pj-i), (4.33) в силу чего (rj-V gi-i) (f , I *4,7 \ — Л _ h,} (^p^-16) (»и,ен) V3,j+ ам ) (»j-p4i) Используя полученное выражение в формуле для получим А / Г. е* \ Hifi = Т1 (4.34) где Если вектор удовлетворяет условию (4.30) и при этом aj-i ^з,; ¥= — ^4, v то ПРИ любом / = 1,2,... множи- тель у; У= 0, поскольку отношение Z4,j <еМ’ , л (VrW — в этом нетрудно убедиться, сравнивая числитель этого отношения с выражением (4.33). Дальнейшие рассужде- ния мъъ будем проводить, предполагая, что множители ^з,7 и выбираются именно таким образом, чтобы при / > 1 выполнялись условия (у^х, е^ 0 и у7- =^= 0.
j§ 4 МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ Ю7 Умножим обе части равенства (4.34) скалярно на fa (fi Htfy = J(A)*- (4-35) L (ri-v ei-i> J Поскольку =/=0, а (А, Я* fy = О, (Д, rj) = 0 при jk — — i (в силу (4.21) и (4.24)), из (4.35) следует (/;,я;_^) = о, !</<*-!. (4.36) Вычитая из (4.36) равенства (Д, Я*_1/^_!) = 0,1 к —1, получим также условия (A, Hi et) = 0, 0 < i < к - 2. (4.37) Докажем теперь, используя полученные соотноше- ния, что при 0 <3 7 — 2 справедливы равенства яГ+1/; = Htfa т. е. = Hl^ = ... = Яо/;. (4.38) Используя рекуррентную формулу для матрицы Hi и учитывая условия (4.24), можно представить вектор Hi+ifi следующим образом: = 0<i<7- 2. (4.39) Для доказательства равенств (4.38) необходимо показать, (fi Htet) = 0, 0 < i < j - 2. (4.40) Вновь используя рекуррентную формулу для получим (fi Я1+1б1+1) = (fi Я<А+1) - S ’ <4-41) 0 i j — 2, (fi Ht+1ei+1) = (fi Hoei+l) - 2 , (4.42) 8=0 1 3’ 0 z / — 2. В силу условий (4.24) и (4.37) (^/;) = А,{(П,Х) + А,{(Я1Ч/;) = 0, 0<i<7- 2. (4.43)
108 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. П С учетом этих равенств и условий (4.37) из (4.42) следует (Л, Яоег+1) = 0, 0 < i < / — 3. (4.44) Рассмотрим теперь соотношения (4.41). При i = 0 в силу (4.37) (Яого, Л) - (Я*г0, /;•) = 0, a (/j, HQet) = 0 в силу (4.44). Следовательно, оказывается, что (Я^, /,-) = — 0. Рассуждая далее подобным образом, мы и установим справедливость равенств (4.38). Учитывая эти равенства, выражение (4.34) можно за- писать в виде (г • в. \ /_ rLZ-1- я0/-. (4.45) Эта формула и позволит нам получить ответ на поставлен- ные в начале пункта вопросы. Умножив (скалярно) обе части (4.45) на fa и учитывая условия (4.24), получим - (A Pi) = Hofa / > 0• (4-46) Если Яо — строго положительно определенная матрица, то (Д, Я0Д) 0. Следовательно, если yj 0, из (4.46) вытекает, что (/,, =# 0. Таким образом, из (4.46) следует, что предположение о выполнимости условия (4.18), которое использовалось при разработке методики построения сопряженных век- торов, оказывается справедливым, если в качестве HQ выбирается симметричная строго положительно опреде- ленная матрица. Для того чтобы выяснить, различаются ли векторы Pt и точки #$+1, I = 0, 1, . . ., п — 1, в различных алгорит- мах, вновь обратимся к формуле (4.45). Первый шаг в любом из методов сопряженных направ- лений делается один и тот же (если выбирается одна и та же матрица Яо), поскольку = xQ — аоЯо/о, а а0 выби- рается из условия min / (я0 — аЯ*/0). Следовательно, а точка хх, а поэтому и векторы г0, е^, Д будут одни и те же для любых алгоритмов, которые могут быть построены по описанной выше методике. Но тогда, как следует из
§ 4] МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 109 (4.45), и направление также не будет зависеть от выбора векторов u0, vQ (удов- летворяющих сформулированным требованиям), т. е. не будет зависеть от способа построения матрицы Hv Точнее говоря, векторы рг, получающиеся при различных спосо- бах построения матрицы Ях, будут отличаться друг от друга лишь скалярным множителем ух. Но, поскольку величина ах выбирается из условия min / (#х арх), а точка х2, в которой этот минимум реализуется, будет одна и та же независимо от способа построения матрицы Ях (в силу строгой выпуклости / (х)). Следовательно, вели- чины гх, £х, /2 будут одни и те же для различных методов сопряженных направлений. Продолжая эти рассуждения, основанные на представлении вектора формулой (4.45), мы убедимся, что точки xQ, х19 . . хп не зависят от вы- бора векторов н/с, У/с, т. е. от способа построения матрицы Hti. Таким образом, последовательные приближения к ре- шению задачи минимизации квадратичной функции будут одни и те же для различных методов сопряженных направ- лений. Сделаем еще одно замечание. Выше уже можно было обратить внимание на тот факт, что первая из двух матриц, образующих матрицу ЛЯ; (4.28), / == 0, 1, . . ., к — 1, не участвует в построении вектора р^. Действительно, если определять вектор АЯ*/&, то в силу условий (4.24) оказывается, что /с—1 т. е. в построении вектора — рк = Я*Д = (Яо + 2 j=o матрицы а ~ j 1, участия не принимают. Однако влияние этих матриц су- щественным образом отражается на свойствах матрицы
110 МИЙЙМЙЗАЦЙЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. 11 Як, в частности, на свойствах матрицы Нп. На этот во- прос мы будем обращать внимание при изучении конкрет- ных алгоритмов в следующем пункте. Здесь же отметим, что различие в свойствах матрицы Нп будет сказываться на свойствах методов сопряженных направлений при мини- мизации неквадратичной функции. 4. Конкретные алгоритмы. Рассмотрим теперь не- сколько различных формул, которые могут быть исполь- зованы для построения сопряженных направлений. Еще раз повторим, что каждая из таких формул будет опре- делять тот либо иной метод сопряженных направлений, заключающийся в построении последовательных прибли- жений к решению по формулам Хк+1 = Хк + акРк, Pk = — Hkh, к = о, 1, . . п —1, (4.47) причем ак выбирается из условия min / (хц + apfe), т. е. а определяется выражениями (4.12) или (4.16). 1) Полагаем в (4.28) а = 1, и^ = гк-i» Ук-i = = Я*^к-1 (т. е. в формулах (4.32) tblt = tr = 1, = t2 = 0, = *3 = = h = !)• Тогда и ___ и , rfc-irfc-l Нк-Л-А-Л-1 21 fc-1 -Г -77----;--X-----—5-----------— • v\-i’ ek-ii (Hк-х^-р ек_±) Изучим некоторые свойства матрицы Як, получаемой та- ким способом. Матрица Нк — симметричная. Этот факт легко уста- навливается по индукции. Матрица Яо — симметричная, обе матрицы, образующие ДЯ0, также симметричные (вторая из них — в силу симметрии Яо), поэтому Нг будет симметричная матрица. Аналогичные рассуждения справедливы при любом к = 2, . . ., п. Матрица Нк — строго положительно определенная. Доказательство проводится по индукции. Матрица Яо — строго положительно определенная. Пусть Нк — строго положительно определенная матрица. Тогда при любом х ЕЕ. Еп {Hk+iX, х) = (ЯЛ х) + в _ (нкх’х^нкек'ек) — (нкек>х^ <гк>х? ^кек’ е/Р (гк‘ ек)
§ 41 МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 111 Вейлу предположения о матрице Нkсуществует квадрат- ный корень Нк’ (Д. К. Фаддеев и В. Н. Фаддеева [1], стр. 107). Следовательно, с учетом симметричности мат- рицы Нк (Нкх, х) = (Нк‘Нк‘х, х) = (Я?х, Н?х) = (у, у). Аналогично (Нкек, ек) = (Нкгек, H?ek) = (z, z), x) = (Я^‘ ек, НЪ) = (z, у). Учитывая эти соотношения и используя неравенство Коши — Буняковского, устанавливаем справедливость неравенства (Нкх, х) (Ице*, ек) — (Нкек, х)* = (у, у) (z,Jz) — (z,y)2 > 0, причем равенство имеет место лишь в случае z = у, т. е- в силу невырожденности Нк, лишь при условии х = ек- Но при этом (г^, х) = (г&, ек) = (rfc, Агк) > 0. Таким об- разом, при любом х 0 (И X т\- (?/-?/)(z<z) —(2.У)а . (rfc>a:)4 х) _-----+ -7^- > 0, что и доказывает справедливость индуктивных рассуж- дений. Матрица Нп = Л-1. Действительно, Нк удовлетворяет уравнениям (4.25) при а — 1, т. е. Hnej = tj, j == 0, 1, . . ., п — 1, или с учетом (4.19) HnArj — rj, / = 0, 1, . . ., п — 1. Следовательно, векторы г0, . . ., гп_х являются собствен- ными векторами матрицы НпА с собственными числами, равными единице. Отсюда вытекает с учетом линейной независимости сопряженных векторов i = 0, 1, . . . ...,rn —'1, что НпА = 7, т. е. Нп = А-\ Но (см. (4.8)) П—1 А-1 =2 i==0 (Лг., г.) (е., г.)
112 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ 11 т. е. оказывается, что матрицу Нп определяют только мат- рицы Гги\ rir\ ei) (rv ei> (об этом шла речь в конце предыдущего пункта). 2) Другой (метод построения Нк получится, если по- ложить в (4.28) а = 1 и выбрать u/f_x = i^_x = r/f_x. Тогда * Нк = Нк.г + (г,_х - Я^_х) . (4.49) v/с-1» ек-1> Матрица Нк, определяемая таким способом, уже не яв- ляется симметричной. Поскольку а — 1, будет Нп = Л'1— это доказывается точно так же, как для метода (4.48). Используя (4.49), можно построить несколько отлич- ную формулу для определения Нк. Запишем (4.49) в виде к—1 ♦ = но + S . (4.50) В силу условий сопряженности (4.20) (с учетом формул (4.19)) будет (ек. rj) = 0, 0 j < к — 1. Следовательно, из (4.50) вытекает Нкек = HQek, к = 0, 1,. . ., п - 1. (4.51) С учетом этого формулу (4.49) можно представить в виде * Нк~Н/с-i + (г/с-Х — Но^/с-х) г;——г • (4.52) v/с-i» Если HQ = I, эта формула оказывается несколько проще (4.49). 3) Выберем а — 0, и&_х = г^. При этом Her* • (4.53) V/С-1» Из (4.25) при а = 0 следует Hnej = 0, j = 0, 1, . . . ..., п — 1. Эти равенства в силу линейной независимости векторов е0,. . . , еп^ означают, что Нп = 0 (линейная неза- висимость векторов = Ar^ i = 0, 1, . . ., n — 1, выте- кает из линейной независимости сопряженных векторов ц и свойств матрицы Л).
МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ ИЗ § 4] Поскольку для формулы (4.53) также выполняется условие (4.51), ее можно записать в виде Я, - • <4-54> Можно продолжить построение методов сопряженных направлений, выбирая различные сочетания константы а и векторов иц, Vk по формулам (4.32), но мы этого делать уже не станем (здесь и далее, говоря о каком-либо кон- кретном методе, например (4.48), мы имеем в виду метод (4.47), в котором для построения матрицы Нк использу- ется формула (4.48)). Отметим следующее. Строго говоря, в каждом из рас- смотренных выше методов необходимо было проверять выполнение условий (4.30) для векторов ufc, Легко убедиться, что во всех изученных методах эти условия выполняются. Так, когда ик == = г^, о выполнимости условий (4.30) уже говорилось в п. 2. В методе (4.48) однако в силу положительной определенности матрицы Hk будет (р^, е^) = е^) 0, т. е. усло- вия (4.30) также выполняются. Следовательно, в соответ- ствии с результатами п. 3 для рассмотренных методов выполняется условие (4.18), т. е. гарантируется невы- рожденность методов. Получим теперь формулы непосредственно для вычис- ления векторов рк, определяемых различными матрицами Нц. Это просто сделать, если воспользоваться формулой (4.45). Поскольку г/с-.х = из (4.45) следует Рк = — Ук Ш* — $кРк-1), (4.55) где Если Pfc = то __ л ___
114 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II (4-57) В силу равенств (4.38) (ек^ H*-ifk) = (ек-у Я04). Далее, в силу (4.21) и (4.38) будет (Я^, ек) = (Hkfk+1, fk+1) +(Hkfk, fk) = (HQfk+v fk+1) — (pk, fk). Полученные равенства показывают, что __ i______________________(Hofiv е/с-Р__ Заметим, что из (4.45) в силу (4.21) и (4.24) вытекает (при условии, что уз 0) (А, Яо/j) — о, о < j < к - I. С учетом этого оказывается (я04^_1) = (я04А). Используя равенства (4.59) в (4.57), устанавливаем ___________(Pk-v /fc-i)__ (Яо/fk) (Рк-г fk-1) Заметим еще, что (/fc> Р/с) = (fki Рк) (/fc+l> Рк) = (ек> Рк)- (4.58) (4.59) (4.60) (4.61) Сравнивая формулы (4.56) и (4.60) с учетом (4.59) и (4.61) нетрудно установить, что ук = 1/(1Рк). Отсюда следует, что Tfcpfc = 1 — у». Следовательно, формула (4.55), опре- деляющая вектор рц в случае, когда для построения мат- рицы Нк используется вектор = Hk-i^k-i, может быть представлена в виде Рк = — yicHofk + (1 — Ук)Рк-1, (4.62) где коэффициент ук определяется по одной из формул (4.57) либо (4.60). Можно еще записать вектор рк следую- щим образом: Р/с = — #o/fc 4" Р/с (#o/fc + Р/С-1)» (4.63) где В __ u (М14)-(р/с-гМ * (4.64)
§ 41 МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 115 Можно получить и другие выражения для коэффициента если воспользоваться равенствами (4.59), (4.61), (4.46); заметим, что последнюю из этих формул можно предста- вить в виде (А,Р/с) = (₽&-1)(^о4А). (4.65) Вычисляя в выражениях (4.62), (4.63) коэффициенты Уй, Pfc по различным формулам, мы тем самым фактически получим различные методы сопряженных направлений. Подчеркнем, что при минимизации неквадратичных функ- ций различные формулы для определения р& будут опре- делять различные (и по величине, и по направлению) векторы. Особенно просто построить вектор pfe, используя вы- ражение (4.45), в случае, когда для построения матрицы Як используется вектор В этом случае = О, поэтому у/f = 1, и из (4.55) получаем Л = — Hof к + (4.66) где Р/с вычисляется по формуле (4.56). Если воспользовать- ся равенствами (4.59), (4.61) и (4.46)— последнее из них в рассматриваемом случае приобретает вид (Р*,А) = -(ЯЛЛ). (4.67) то для определения коэффициента (3^ можно получить, например, одну из следующих формул: п ___ _ (^°//Г ____ (Яо/^> ffc) _ /ft) (Р/с-1» //с-i) CPfc-г /&-1) (Яо/к->1, /Л-1) (4.68) Выражения (4.62), (4.63), (4.66), определяющие вектор Р/с, в свою очередь можно представить в виде рк = = --Н^, где матрица Нц зависит от вида коэффициентов Р/с Р/с- Так, если в (4.63) коэффициент pfe вычисляется по формуле (4.64), то соответствующая матрица (4.69) (Яо/j,/^) (Pfc-r fk-i) Здесь Нп = ZT0(поскольку /п = 0). Если в (4.66) р^
116 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. 11 вычисляется по первой из формул (4.68), то вектор оп- ределяется матрицей . (4.70) (^/C-l» //с-1) Если для вычисления (Зл в (4.66) используется вторая из формул (4.68), то Н* = Яо + • (4.71) (^/С-1’ //С-1) Отметим, что в формуле (4.71) Нп = Яо (поскольку /п = 0), в (4.70) Нп Яо. Другие формулы для построения Нк читатель при желании может получить сам. Наиболее простую формулу для вычисления А-ортого- нальных векторов можно получить, если выбрать в (4.66) Яо = I. При этом Рк = — fk + Р/сР^-1, (4-72) где |3fc определяется, например, по одной из следующих формул: п __ (/&» б/С-1) __ (//С ’ / /С ) О /С » //С ) / / у ок (Pk-v fk-i) (Pk-v /fc-1) (//с-i» Zfc-i) Метод (4.47), в котором сопряженные векторы строятся по формулам (4.72), (4.73), широко известен как метод сопряженных градиентов (это название определяется ус- ловиями (4.58)). 5. Минимизация выпуклой квадратичной функции. До сих пор мы рассматривали методы А-ортогональных на- правлений для минимизации строго выпуклой квадратич- ной функции, т. е. предполагали, что матрица А строго положительно определена. Пусть теперь /(х) = (Ах, х) + (Ь, х) + с — выпуклая функция, т. е. матрица А — положительно определенная: (Ах, х) > 0 при любом х =# 0. Будем считать, что минимум этой функции существует.
§ 4] МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ Ц7 Изучим вопрос о применении методов сопряженных направлений в этом случае. Отметим предварительно не- которые свойства функции / (х). 1) Если (Ар,р) = 0, то необходимо Ар = 0. (4.74) Действительно, если (Ар, р) = 0, що р есть точка ми- нимума выпуклой функции ср (х) — у (Ах, х). Но в точке минимума должно выполняться необходимое условие эк- стремума ф' (?) = Лр = 0. 2) Если р — точка минимума выпуклой функции ф (х) = у (Ах, х), то необходимо (Ь, р) = 0. (4.75) Действительно, если (Ар, р) = 0 и (Ь, р) 0, то / (ор) — & (Ъ, р) + с — оо, если а —> — оо, т. е. / (х) не достигает минимума, что противоречит исходному предпо- ложению. Аналогично рассматривается случай (Ь, р) < 0. 3) Точка минимума функции / (х) неединственна. В самом деле, любая точка минимума выпуклой квад- ратичной функции / (х) должна являться решением линей- ной системы Ах + Ъ =0, и наоборот, поскольку условие /' (х) = Ах + 6 = 0 есть необходимое и (в виду сущест- вования минимума / (х)) достаточное условие экстремума выпуклой функции / (х) (следствие 1.3.2). Но так как ранг матрицы А меньше числа неизвестных (условие (Ах, х) 0 означает, что матрица А — вырожденная; см. (4.74)), то система Ах + Ъ = 0 имеет неединственное решение. 4) Если (Ар, р) =0 и z е= Еп — произвольная точка, то необходимо (/'(Z), р) = 0. (4.76) Действительно, в силу условий (4.74) и (4.75) (/' (z), р) = (Az + b,p) = (Ар, z) + (Ь, р) = 0. Равенство (4.76) можно интерпретировать следующим об- разом. Множество решений задачи минимизации функ-
118 МИНИМИЗАЦИЯ ФУНКЦИЙ ВЁЗ ОГРАНИЧЕНИЙ [ГЛ. И ции ф (х) образует гиперплоскость размерности п — д, где q — ранг матрицы А. (Эта гиперплоскость принадле- жит поверхности уровня функции / (х), поскольку, если р — произвольная точка минимума ф (я) == — (Аг, х), то с учетом (4.75) / (Р) = р) + (Ь,р) +с = с.) Следовательно, равенство (4.76) означает, что градиент функции / (х) в любой точке расположен в подпространст- ве размерности q, ортогональном к плоскости Ар = 0. Отсюда вытекает, что число линейно независимых векто- ров f (х) равно q < п (для выпуклой квадратичной функ- ции /(х)). Учитывая приведенные свойства функции / (я), вернем- ся к вопросу об использовании методов сопряженных направлений для решения рассматриваемой задачи. Будем считать для простоты, что Яо =/, и рассмотрим метод (4.72). Обозначим подпространство, которому при- надлежат векторы /' (ж), через Eq. Легко убедиться, что вектор р^ определяемый формулой (4.72), принадлежит Eq. Действительно, pQ = — /0 Eq и, следовательно, при любом к вектор рц является линейной комбинацией векторов, принадлежащих подпространству Eq. Следо- вательно, при использовании метода (4.72) минимизация функции (процесс (4.47)) фактически осуществляется в подпространстве Eq. Но в этом подпространстве выпол- няется условие (Ах, х) 0 для любого х 0. Это означает в силу конечномерности пространства Е9, что для лю- бого х ЕЕ Eq будет mi II х II2 [| х |]2, тг 0, Мг М. Отсюда вытекает, что на рассматриваемом подпрост- ранстве функция / (х) является строго выпуклой и поэто- му все свойства методов сопряженных направлений, рас- смотренные в предыдущих пунктах, сохраняют силу в данном случае. В частности, сохраняют силу равенства (4.58), показывающие, что векторы Д, i = 0, 1, . . ., fc, являются линейно независимыми. Но в подпространстве Eq не может быть более чем q линейно независимых векто- ров. Следовательно, при некотором к q — 1 процесс
МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 119 § 41 построения сопряженных векторов должен прекратиться. В силу невырожденности метода (свойство (4.18)) это произойдет лишь в случае, когда /к = 0. С учетом сказанного ясно, что при минимизации функ- ции методом (4.72) при некотором & g — 1 необходимо окажется Д = 0. Поскольку направления р^, определяе- мые различными методами сопряженных направлений, совпадают (с точностью до скалярного множителя), то все сказанное справедливо не только для метода (4.72), но и для других алгоритмов, изучавшихся в настоящем пара- графе. Несколько усложнив рассуждения, можно пока- зать, что установленный результат сохраняет силу и в слу- чае, когда HQ — произвольная строго положительно опре- деленная матрица. Таким образом, методы сопряженных направлений по- зволяют отыскивать точку минимума выпуклой квадра- тичной функции, причем решение задачи получается за число шагов меньше п. Предположим теперь, что выпуклая функция / (х) не достигает минимума; как следует из доказательства ра- венства (4.75), это будет в том случае, когда для произ- вольного вектора р, минимизирующего функцию <р (х) — = (Ах, х), выполняется условие (&, р) #= 0. Посмотрим, к чему приводят процессы построения со- пряженных направлений в данном случае. Предварительно приведем одно свойство Л-ортогональ- ных векторов, имеющее место при условии, что / (х) — выпуклая функция (но не строго выпуклая). Если матрица А — положительно определенная, то по крайней мере для одного из сопряженных векторов Р&, 0<ЗО — 1, выполняется условие (APk,Pk) =0. (4.77) Справедливость этого утверждения вытекает из сле- дующего. Если бы выполнялись условия (Apt, Pi) > 0 (4.78) для всех i = 0, 1, . . ., п — 1, система векторов р0, рг, . . ., рп_г была бы линейно независимой. Действительно,
120 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II предположим, что условия (4.78) выполняются и пусть 2 = о, 2——0 причем, например, б0 Ф 0. Тогда, умножая обе части ра- венства (скалярно) на Лр0, получим в левой части So МРо, Ро) > т. е- придем к противоречию. Следова- тельно, при выполнении условий (4.78) векторы {pJJT1 образовывали бы базис в Еп, и поэтому любой вектор z допускал бы представление п—1 “ 3 ЛгРг» г=0 где по крайней мере один из коэффициентов =^= 0. Но тогда оказалось бы (Az, z) = (Л S aiPi) (APi> Pi) > °- г г г Это противоречит условию (Ах, х) > 0. Таким образом, исходное предположение о выполнении условий (4.78) неверно. В силу рассмотренного свойства Л-ортогональных век- торов при использовании любого из методов сопряженных направлений при некотором fc > 0 выполнится равенство (4.77). Поскольку для рассматриваемой функции свойства (4.75), (4.76) не имеют места, при выполнении (4.77) пара- метр в формуле (4.47), вычисляемый по формуле (4.16), обратится в бесконечность, т. е. дальнейшее построение сопряженных направлений окажется невозможным. 6. Обсуждение результатов. Итак, мы рассмотрели некоторую общую схему построения методов сопряженных направлений и на ее основе получили многочисленные кон- кретные алгоритмы. Любой из методов рассматриваемого класса позволяет отыскивать минимум выпуклой квад- ратичной функции за число шагов процесса (4.47), не превосходящее п. Кроме того, мы выяснили, что последо- вательные приближения к решению xQ, хг, . . ., х^, полу- чаемые при использовании различных алгоритмов, оказы- ваются одни и те же.
41 МИНИМИЗАЦИЯ КВАДРАТИЧНЫХ ФУНКЦИЙ 121 Если оценивать алгоритмы с точки зрения количества вычислений на итерации, то, конечно, предпочтение сле- дует отдать алгоритмам (4.62), (4.63), (4.66). Особенно просто эти методы реализуются, когда в качестве началь- ной матрицы Hq выбирается единичная матрица /, а в большинстве задач, по-видимому, выбор HQ = I является наиболее целесообразным. В этом случае по трудоемкости итерации методы (4.63), (4.66) очень незначительно отличаются от градиентного метода, но вследствие конечношаговости процесса (4.47) существенно превосходят его по эффективности. Достоинством методов (4.62), (4.63) и (4.66) является также и то, что при реализации их на ЭЦВМ требуется лишь незначительное увеличение машинной памяти по сравнению с той, которая используется при решении за- дачи методом наискорейшего спуска. Методы сопряженных направлений, в которых для определения направления движения предварительно стро- ится матрица ((4.48), (4.49), (4.52) — (4.54)), в рассмот- ренных аспектах несколько уступают методам (4.63), (4.66), однако также сохраняют значительное преимуще- ство перед градиентами методами. Преимуществом всех методов рассматриваемого класса перед методом Ньютона является то, что они не требуют вычисления вторых про- изводных функций. Может возникнуть вопрос — имеет ли смысл рассмат- ривать методы, в которых предварительно осуществляет- ся построение матрицы, если они по трудоемкости итера- ции и по требуемой машинной памяти уступают методам (4.63), (4.72)? Здесь, однако, следует учесть, что мы даем сугубо теоретическую оценку методов и не учитываем такой важный фактор, как чувствительность алгоритмов к погрешностям вычислений. Учет же этого фактора мо- жет значительно изменить соотношение количества вы- числений, которое необходимо будет затратить при реше- нии задачи различными алгоритмами. К тому же следует отметить, что, например, методы (4.48), (4.49), (4.52) позволяют одновременно с решением задачи минимиза- ции получить обратную матрицу А-1, что в некоторых случаях может оказаться полезным. Особенно существенно разница в свойствах алгоритмов будет сказываться при их использовании для минимизации
122 МИНИМИЗАЦИЯ ФУНКЦИЙ НЕЗ ОГРАНИЧЕНИЙ [ГЛ. II неквадратичных функций, о чем пойдет речь в следующем параграфе. Методы сопряженных направлений оказываются по- лезными еще с одной стороны — они позволяют выяснить знакоопределенность матрицы. Так, в соответствии с ре- зультатами п. 5, если матрица А — положительно опре- деленная и функция / (х) не достигает минимума, то на некотором шаге окажется = оо. Если же матрица А не является положительно определенной, то на некотором шаге процесса (4.47) окажется а& < 0. Таким образом, по величине параметра ац и можно судить о знакоопреде- ленности матрицы А. Эффективность методов сопряженных направлений обу- славливает их все более широкое применение для миними- зации квадратичных функций и решения систем линей- ных уравнений. § 5. Методы сопряженных направлений. Минимизация произвольных функций 1. Соображения о применимости методов. Предполо- жим, что мы хотим использовать процесс жА+1 = хк н- а,крк, Рк = — к = 0, 1, . . (5.1) где вектор (или же матрица Н^) определяется по одному из методов, изученных в предыдущем параграфе, для минимизации произвольной (неквадратичной) выпуклой функции / (х). В этом случае в различных точках после- довательности (5.1) матрица /" (х) будет иметь различные элементы, в силу чего при построении векторов р0, . . ., рк по любому из методов пункта 4 § 4 они не будут уже удовлетворять условиям (4.20), т. е. не будут сопряжен- ными. Однако, если начальная точка xQ выбрана в до- статочно малой окрестности минимума х* гладкой выпук- лой функции / (х), то в любой точке этой окрестности мат- рица f (х) будет близка к матрице /" (я*), т. е. исходная функция / (х) будет хорошо аппроксимироваться квадра- тичной функцией Ф (з?) — -у (/ (#*) (# ^*)? # •£*) Ч- / (•£*)• Следовательно, можно ожидать, что свойства векторов
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 123 р0, . . ., рк, определяемых по методам § 4, будут близки к свойствам сопряженных векторов (/* (^-ортогональ- ных) и поэтому свойства процесса (5.1), в котором параметр аи выбирается из условия минимума функции / (х) в на- правлении будут близки к свойствам изученных мето- дов сопряженных направлений. Иначе говоря, можно пред- положить, что методы предыдущего параграфа окажутся достаточно эффективными и при минимизации неквадра- тичных функций. Разумеется, в этом случае они уже не будут конечношаговыми, поскольку строгого выполнения условий (Г (*») Рк, Pt) = 0, f ¥= к, не будет при любом выборе точки х0. Итерационные процессы типа (5.1), в которых построе- ние вектора Рк осуществляется по алгоритмам § 4, а зна- чение параметра ак выбирается из условия / (%к + afcPfc) = min / (Хк + арк), а мы будем по-прежнему называть методами сопряженных направлений. Заметим, что условие для выбора параметра ak можно представить еще в виде (А+1, Рк) = (/' &к + <*кРк), Рк) = 0. (5.2) Цель настоящего параграфа — обоснование сходимости методов сопряженных направлений при минимизации не- квадратичных функций и получение оценок скорости схо- димости. 2. Теорема о сходимости методов. В дальнейшем будем считать, что / (х) — сильно выпуклая дважды непрерывно дифференцируемая функция, т. е. выполняются условия ™>0, (5.3) для всех х, у е= Еп, а в качестве Яо выбирается симмет- ричная строго положительно определенная матрица т0 Р у II2 < (Ноу, у) < М^у ||2, т0 > 0, (5.4) для всех у 6= Еп. Мы будем рассматривать процессы типа (5.1), которые осуществляются либо с восстановлением матрицы Нц через
124 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II конечное число шагов, либо без восстановления матрицы. Говоря о процессах с восстановлением, например, через п шагов, мы имеем в виду, что при любом | = 0, 1, . . . производится в останов л ение матрицы т. е. Н^а = HQ. Сразу же отметим следующее. Если осуществляются процессы с восстановлением матрицы Нк через конечное число шагов, то для любого из методов сопряженных направлений будет выполняться условие 0, (5.5) поскольку каждый первый шаг процесса после восстанов- ления является шагом градиентного спуска, для которого в силу (5.3) выполняются условия сходимости градиент- ных методов (теорема 1.6), а на последующих шагах между восстановлениями осуществляется спуск до ми- нимума функции в направлении движения. Выполнение условия (5.5) для строго выпуклой функции означает, что любой из рассмотренных в § 4 методов, осуществляемый с восстановлением матрицы через конечное число ша- гов, сходится к решению я*. Поэтому для процессов с вос- становлением важно получить оценку скорости сходимо- сти для того, чтобы можно было судить об их эффектив- ности. Заметим, что условие (5.5) для процессов с восстанов- лением будет выполняться не только для строго выпук- лых функций, но и для любых функций, для которых вы- полнение условия (5.5) гарантируется при использова- нии градиентных методов (см. теорему 1.4). Если же осуществляются процессы без восстановления Н^, то сходимость таких процессов необходимо обосно- вывать. Кроме того, как и для процессов с восстановле- нием, здесь необходимо оценить скорость сходимости про- цессов. Сформулируем теперь теорему, содержание которой составляет основной результат настоящего параграфа. Теорема 5.1. Пусть для минимизации функции f(x), удовлетворяющей условиям (5.3), используется про- цесс (5.1), в котором построение матрицы Нц осущест- вляется одним из методов § 4 ((4.48) — (4.49), (4.52) — (4.54), (4.69) — (4.71)), причем через п шагов производится восстановление Нц. Тогда, если значение выбирается
МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 125 § 5] из условия минимума функции в направлении после- довательность {хк} независимо от выбора начальной точки xQ сходится к решению со сверхлинейной скоростью. Наметим общую схему доказательства теоремы. Пред- положим, что утверждение теоремы неверно, т. е. для описываемых итерационных процессов при любом к выпол- няется условие II 1 — Я*]| > X II — #*||,. (5.6) где X > 0 — константа. Если воспользоваться неравенст- вами (1.12) и Л Г О) В = В/' (х) - f (х*) И < М В X - х* В, (5.7) справедливыми для функции, удовлетворяющей условиям (5.3), то можно убедиться, что условие (5.6) эквивалентно следующему:’ 1г/;+1«>бвА«, (5.8) где S > 0 — константа. Изучая свойства процесса (5.1) в предположении, что выполняется условие (5.8), мы уста- новим, что независимо от алгоритма построения матрицы Hr будут выполняться следующие оценки: г q/'d < Л/И. (5-9) где С, N — константы, не зависящие от к, С > 0, и (^^n+i» Г^п+j) = (II || || Г^п+j ||), & 7» 0<f,7<^ (5.10) Далее мы покажем, что при выполнении этих оценок последовательность (5.1) сходится к решению со сверх- линейной скоростью. Но это противоречит исходному пред- положению (5.6) (или (5.8)), т. е. для процесса (5.1) усло- вие (5.6) выполняться не может. Используя этот факт, уже легко будет установить справедливость теоремы. Таким образом, схема доказательства теоремы единая для всех изучаемых методов; по-разному устанавливается лишь справедливость оценок (5.9) и (5.10). Доказатель- ство справедливости этих оценок для различных алго- ритмов мы проведем в следующем пункте, а в этом изло- жим общую для всех методов часть доказательства.
126 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Предварительно сделаем одно замечание по поводу обозначений. В дальнейшем, оперируя с векторами и па- раметрами Г%п+г f f%n+i» ? ^n+i ? Pgn+i > i = 0, 1, . . . , Д 1, мы будем часто для, простоты записи опускать индекс т. е. оперировать с векторами и параметрами ri9f^ и т. д. Однако подчеркнем, что это делается лишь для простоты записи; действительный индекс соответствующих векторов -J- i. Итак, приступим к доказательству теоремы, считая, что выполняются оценки (5.9) и (5.10). Воспользовавшись формулой Лагранжа для операторов, получим Ai> г3) = (&Г{, Гу) = (/-Го Гу) + ((/ic - /•) г{, г}). (5.11) Здесь, как обычно, индексом ic обозначается некоторая промежуточная точка соответствующего отрезка: Xic = Ъ + 0 < 0 < 1. Если || || —> 0, то в силу равномерной непрерывнос- ти вторых производных функции / (х) на множестве S = {х: / (z) </ (z0)} будет ЦАС —Д||->0 и из (5.11) следует, что при выполнении (5.10) справедливы также оценки (АП, rj) = о (I Г, || [ Г; ||) 4-0 (| et j |г/ J), * =7*= /, о f, / <; п — 1. При условиях (5.3) [| et || = ||/i+1 — Д|] (|гг- |(, следова- тельно, |]ег- || и || являются величинами одного порядка малости. С учетом этого будет = о (Ih || II Гу ||), i^i, 0 < i, /< п — 1. (5.12) При выполнении оценок (5.12) существуют векторы fi — Г} + (Dj, i = 0, 1, . . ., п — 1, (5.13) где Цсо/ || = о (||rf ||), такие, что САпА, о) = °> г'=#А 0<г,/<п—1. (5.14) Показать это можно так. Пронормируем векторы Ъ = •
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 127 Тогда (Дпг = 1 и при £ —> оо в силу сходимости про- цесса (5.1) (с восстановлением Нк) и условий (5.3) и (5.12) (/^п т || г у || г. || fj) + ((/$n fi) rii 7j)] 0» iI f, 0 i, j n — 1. Поэтому, если R^n — матрица, столбцами которой являют- ся векторы Гь a F%n = R*nfenRtw ТО при g оо Так как 7Yn#*nAn$^n = 7, то, обозначив F^R^n = (?*п > получим Qzn fe^R^n = 7. (5.15) Но, поскольку F^n —> 7, будет также F^ —> I и, следова- тельно, R\n-*Q*n , т. е. векторы-столбцы ^матрицы Q%n представимы в виде 7г = П +S{, i = 0, 1, . . ., п — 1, гДв II SЛ —> 0 при £ —-> оо. Запишем полученные равенст- ва в виде (АпГ|, rtf* & = + (Дпго rtf* tof В силу (5.15) векторы rt nrt = (Дпгь rtf* Чь £ = 0,1,... . . . , it — 1, удовлетворяют условиям (5.14). В то же время векторы rf удовлетворяют условиям (5.13), поскольку в силу (5.3) II “г И Г, || И’’г II-------------------ГМ ИМ ЙНО. Таким образом, справедливость (5.14) установлена. Векторы 7t при достаточно больших | будут линейно независимы. В самом деле, пусть существуют множители бг, i — 0, 1, .... п — 1, по крайней мере два из которых п—1 не равны нулю, такие, что 2 = 0« Тогда, если i=0 б0 Ф 0, получим п So (АпГо? Г0) 4" 2 Sj (/^П^О» = 0.
128 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Однако при достаточно больших | это равенство не может выполняться. Действительно, поскольку || <х>$ J = о (|| J) и при £ —> ею || || —> 0, при достаточно больших £ с учетом (5.3) будет (ДпГо, Го) = (4пГ0, ГО) + GWo, соо) ф о, в то время как (/^пг0, г>) = 0, / = 1, . . ., п — 1, в силу (5.14). Следовательно, получено противоречие, т. е. век- торы i — 0, 1, . . ., п — 1, действительно будут ли- нейно независимы. Пусть z?n — точка минимума квадратичной функции / 1 " ф (*г) = (Ап, *Г^п) "4” ~2~ (Ап ^п), *Г^п) • Представим вектор z^n — х$п в виде п—1 zzn. — xZn = 3 «Л- (5.16) г=0 Поскольку <р' (z£n) — fen 4- fen (z^n — xin) = 0, то, исполь- зуя (5.16), получим n—1 2 aifzn^i = — An» i==0 откуда с учетом (5.14) следует, что коэффициенты вы- числяются по формулам i = 0,1,.. . ,n —1. (АпГ г’ Гг) Представим числитель правой части в виде г (Ап, Г{) = (/о — /1 + /1 — • • • — /г+1 + /г+1, П) = — (ejf Гг) 3=0 (здесь учтено, что (/i+1, гг) — 0 в силу (5.2)). Отсюда с учетом оценок (5.10) вытекает, что г—1 (4n,r{) = - (^,п)+ S °(IIММ- (5-17) 3 =
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 129 В силу условий (5.8) и (5.9) все векторы г0, . . ., гп_4 яв- ляются величинами одного порядка малости (напомним, что фактически имеются в виду векторы r^n+i). Поскольку, как уже отмечалось, М | гг|[ , векторы е0, . . . . • • ^n-i имеют тот же порядок малости. С учетом этих заме- чаний равенства (5.17) можно записать в следующем виде: (/еп »>•«)=— (ег, г<)|+ о (I rt I2)# = °» 1, ...» п — 1. Далее, учитывая (5.13), устанавливаем, что (/е»А, г{) = GWi, гЭ 4- (/еп®»» П) = = (A+i, rd + ((An — fie) rit rd + (An<+> rd = = (ei»ri)+°l(llrili2)- Таким образом, (<+ rd + о (|| г. |р) ai~ («г + oi(|| г. |P) • В силу (5.3) («ь rd = (A+i, rd > т j rt ||2, i = О, 1, . . п — 1. (5.18) Следовательно, при > оо (т. е. при ||—> 0) at —> 1, i = 0, 1, . . п — 1. (5.19) п—1 Поскольку Жк+1)п — Х^п = 2 Г it ТО 1=0 п—1 •£(£+l)n Zfcn = (#(fc+l)n (^п ^п) = 2 (^i г=0 Отсюда с учетом (5.13) и (5.19) вытекает Ь(е+1)п-^п||= 2°(1Гг||) i или, с учетом (5.8) и (5.9), k(e«)n-2en|| =о(||Лп||). (5.20) Так как z^n — xZn = — (An)-1An, то с учетом (5.20) будет +e+i)n х%п = (+e+i)n ^jn) + (zgn Xfyd ~ (An) Ven + ^len> W hen ||=o (|| fn ||). 5 В. H. Пшеничный, Ю. M. Данилин
130 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Отсюда следует, что существует последовательность мат- риц таких, что ^(^+1)п = (о. 21) (например, можно полагать, что ВД = (/5)-* + V*,'-? W£n> !%п) Равенство (5.21) указывает на сверхлинейную сходи- мость последовательности {^п}, | = О, 1, . . ., к реше- нию: получить соответствующую оценку скорости сходи- мости можно точно так же, как это делалось в теореме 3.1 для последовательности Итак, предположив, что выполняется условие (5.6) и счи- тая, что оценки (5.8) и (5.9) имеют место, мы доказали, что для {^п} выполняется неравенство II ^a+i)n II || ||> (5.22) где >0 при £ —» оо. Но, если справедливо условие (5.6), неравенство (5.22) выполняться не может, посколь- ку при выполнении (5.6) II ^(^+i)n — я# Ц Хп || х^п я*||« (5.23) Таким образом, мы пришли к противоречию. Это озна- чает, что условие (5.6) (или (5.23)) для процесса (5.1) вы- полняться не может. Невыполнимость условия (5.6) при любом к фактически означает, что для процесса (5.1) (с восстановлением) неравенство (5.23) не может выпол- няться и на какой-либо подпоследовательности {?т}, т = 0, 1, . . .. Если бы существовала последовательность {£™}, на которой 11ж(5т+1)п ж*|| II Х^тп ^*11’ (5.24) то при любом %тп к (gm 4-1) n-для методов с восста- новлением выполнялись бы оценки (5.9), (5.10) — в этом мы убедимся, изучая свойства таких процессов в следую- щем пункте. Поэтому, повторяя проведенные рассужде- ния, мы пришли бы к выводу, что на итерациях, соответ- ствующих последовательности {gw}, выполняется нера- венство (5.22), что противоречит (5.24).
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 131 Итак, для процесса (5.1), осуществляемого с восстанов- лением матрицы Hk, неравенство (5.24) выполняться не может. Отсюда следует, что для любой постоянной % О найдется число Т такое, что при | > Т будет выполняться условие (5.22), т. е. последовательность {^п} сходится к решению со сверх линейной скоростью. 3. Изучение свойств различных алгоритмов. Займемся доказательством справедливости оценок (5.9), (5.10) для различных методов сопряженных направлений, осущест- вляемых с восстановлением матрицы Нк через п шагов, предполагая, что выполняется неравенство (5.6) (или (5.8)). Справедливость этих оценок для любого из методов устанавливается с помощью индуктивных рассуждений: доказывается, что оценки (5.9), (5.10) имеют место при i /, j 0, 1; затем, предполагая, что эти оценки имеют место при 0 i, —1, доказывается, что они сохраняют силу и при 4-1. 1. Метод (4.48). Если осуществлять восстановление матрицы (4.48) через конечное число шагов, то при любом к матрица Нк будет ограничена: l< °°- (5.25) Покажем, каким образом это доказывается. В силу (5.2) (Н kfk, A+i) = — (рк, Д+i) = о, поэтому ек) = (flkfki fk) + C®fc/fc+l> /fc+l)* (5.26) В силу положительной определенности (§ 4) (Нкек, ек) > — (рк, fk) = (рк, ек), откуда с учетом (5.18) (HkekJek)>^\\rkf. (5.27) ак Учитывая еще, что М|гл||, получаем из (4.48) Учитывая условие (5.4), несложно убедиться, что а^п оо, в силу чего из рекуррентного неравенства для Ц/Tfc+i В следует, что оценка (5.25) для матрицы Я^п+1 справедлива. Опираясь на это, ниже будет доказываться 5*
132 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II по индукции, что а^п+г а <; оо при любом i = 1, ... п — 1. С учетом этого и устанавливается справед- ливость (5.25). Докажем теперь, что при i = 1 имеют место соотно- шения Оч, е0) = 0, (е15 г0) = о (|r0|| h|D, GII/lKkilK^liAil, (5.28) где константы Ct не зависят от Л, причем 0. Первые из этих оценок устанавливаются следующим обра- зом: (rit еп) = — ах (Htfi е0) = — (fi ^te0). Но Н^о — г0, поэтому (rlt е0) = — (А, г0) == 0. Далее, (еи Г0) = (fieri, Го) = (Г1, /осГо) + (Г1, (fi — /ос) Го) = = (Г1, Со) + о (|| Г11| || Го ||) = О (|| Г11| Ц Го II). Докажем теперь справедливость оценок для ЦгЛ. Из (4.48) с учетом (5.2) и (5.26) следует (Ях/i, А) = (ЯоА, А) \н^} = W1, fi) —• (#°А- А> ) Используя оценки (1.14), (1.15) и (5.7), легко устано- вить, что для функции, удовлетворяющей (5.3), т{1 +-5-)(/(^)-/.)<11/'(^)1|2<^-(/(^)- /.)• (5.29) С учетом оценок (5.4) и (5.29) на множестве 50 = = {x:f(x) </(х0)} (gp/y fj) ДМ fill2 (Яо4А) 4 mo IIA IP 4 &(/о-/.) 4 * ’ где d2— константы, не зависящие от В силу этого (Hifif'i) > >«i||/;n2, (5.30) «2 где ai = m0 j (i -{ не зависит от
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 133 Воспользуемся неравенствами (5.30) для оценки зна- чения параметра а$п+1. Так как , а? п 1t~fi = ai(/i,Pi) + — (AcPi, Pi)> a «j выбирается из условия (5.2), то ясно, что ()1> Рх) (f'v Pl) Но в силу (5.30) — (/1, Pi) = (Hifi, fi) > || А ||2, а в силу (5.25) [pj || — || Hifi || L || fi Ц; с учетом этих оценок оказывается, что аг = а 0. В то же время из (5.30) следует, что ||р! || > at ЦД Ц. Воспользовавшись этой оценкой, легко установить, что =а<^ос. Та- та^ ким образом, оказывается, что А В = ЙАII >h й = «1II H*ifi Ц >ав1 IIAJ = Ci|fi J, где константы не зависят от |, т. e. справедливость оценок (5.28) установлена. Предположим, что справедливы оценки Ai, ef) = о (||Tj || ||Г; ID, i Ф j, 0 < i, f < т < п — 1, (5.31) Ct ЦАЦ < НМ<ЛА|]А||, 0<i<r, (5.32) где константы Ni9 Ct ^>0 не зависят от |. Покажем, что аналогичные оценки имеют место и при 0 i, / т -|- 1. (Mi, rj) = (/-+1, rj) + (ej+1 + ... + еХ9 rj) 0 < / < т. (5.33) В силу условия (5.8) и оценок (5.32) величины Ц/т+1||» || fi || и || | при всех 0< i т имеют один и тот же порядок малости. Учитывая это и используя условия (5.2) и (5.31), устанавливаем на основании (5.33), что (Mi, г,) = о(||Mi||||г;||) = о(||rjll2), 0</<т. Так как (/т+1, гх) = 0 в силу (5.2), то окончательно (/ш,^) = о(кЛ|2),0</<т, (5.34)
134 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Оценим теперь величину (Нт+1, А+х> А+х). Воспользовав- шись формулой (4.48) и учитывая (5.26), получаем при любом 0 т: /о-, Z / / \ । (rj’A+i)2 (#jej»A+i)3^ V«j+i/T+i, /г+12 — (njJx+ijJx+i) -1 ------(Hfy, fa) (H e- e.) K^jA+i* A+iX^j/i+i» A+i)H” (^A’Aw A+i)(^A’A> fj) -Л a+i)2 - w;, a+1)2+2 (я^;+1, /;+1) (я^;, /;+1)]. В правой части полученного неравенства разность первого и третьего членов числителя неотрицательна в силу нера- венства Коши — Буняковского. Учитывая оценки (5.34), (5.27) и (5.25) и ограниченность а;, / т, легко убедиться, что отношение последних двух членов числителя к знаме- нателю есть величина порядка о (|(rj||/^+х[) = о (ЦА+iПо- следовательно, odiMih- Оценки (5.32) означают, что существуют константы не зависящие от В, такие, что (Яj fa, fa) fj) aJ J A’ II2- С учетом этого и (5.25) (W™ a+1) > (я/+1, /;+1) - о (j /;+1 в2) > > (Hjfa н> A+i) — ° (ILA+1||2)> (5.35) где aj >0 и не зависит от В (в силу (5.32)). В предыдущем пункте отмечалось, что для процессов с восстановлением Ял при к —> оо Ц/’^Ц —> 0. Поэтому из неравенств (5.35) следует, с учетом положительной оп- ределенности матрицы Я&, что если при любом £ будет (Я/ Д+1, /г + 1) > У] ||/г+1||2, гДе > 0 И Н6 ЗЭВИСИТ ОТ В, ТО найдется константа у7-+1 0 такая, что при любом В будет (Я/+1/г+1, A+i) > Уш Ц/г+1 [|2. Но, оценивая величину (Я1А+1, А+1), В силу ТОГО, ЧТО (Яо/г+1, А+1) > Шо ||/г+11|2, уббЖ- даемся, что существует константа такая, что (Я1А+1, A+i)> > Vi j| A+i К2 при любом |. С учетом этого проведенные
§ 51 МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 135 индуктивные рассуждения показывают, что существует константа ат+1, не зависящая от такая, что (Ят+1Д+1,Д+1)> > К А+1II2- Теперь точно так же, как и выше, уста- навливаем, что ат-Н _____ Vт+1> ^т+1) __ (fv+V •Рт+1) L Mlp^f ^^+14 M?X+1IP 4 m<x ' Поэтому будет NT+lJI /т+1 II IIгт+11| = «Т+1 II ^т+1/т+1 б ^Т+1 II/т+1 II- (5.36) Покажем теперь, что Н^е, = г} + т];, 0 < / < т, (5.37) W hl 1= °(11Г1В)- Умножая обе части формулы (4.48) на получим Я„е; = И,, + . (5.38) Если предположить, что при некотором s, / + 1 s т, имеют место равенства Hsej — rj + Лj > гДе JI Ч/J — = о (II г; ||), то, используя оценки (5.31), (5.27), (5.25) и учитывая, что все величины jrj) имеют один и тот же поря- док малости, убеждаемся, в силу (5.38), что будет также Н^е} = г} + т|,, где hl II = ° (1 rl ID- Но я1+»е1 = ri> следовательно, по индукции устанавливаем справедли- вость равенств (5.37). С учетом (5.37) {гт+1> = (®т+1А+1> ез) = О"с+1 (А+1» Tj Н“ *Ц/)> поэтому в силу (5.34) оказывается, что (Гт+1. = О (| Г} Г) + о (|| /'+11В п ID’ 0 < j < т- Неравенства (5.8) и (5.36) показывают, что ||гх+1Ц являет- ся величиной одного и того же порядка малости с J /т+i || и, следовательно, имеет тот же порядок малости, что и ве- личины В Г; ||, 0 < / < т. Отсюда следует, что (г,+1,^) = о(||г.+1ВВг^ = о(Вгх+1||2), 0</<т. (5.39) С учетом этого, аналогично тому, как это делалось при
156 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. И i = 1, устанавливаем, что и (^т+1, rj) = О (|| Гт+11|2), (5.40) Соотношения (5.36), (5.39) и (5.40) показывают, что оценки (5.31) и (5.32) действительно имеют место и при т -f- 1. Тем самым установлена справедливость оценок (5.9), (5.10) для метода (4.48) в предположении, что процесс (5.1) осуществляется с восстановлением матрицы Нк через конечное число шагов. Проведенные рассуждения можно дословно повторить, предположив, что выполняется не условие (5.6) (или (5.23)), а неравенство (5.24) (или соответствующее ему неравенство И/с^+цп || > бп ||Лшп||) и рассматривая лишь итерации, соответствующие подпоследовательности {£т}. На этих итерациях оценки (5.9) и (5.10) сохраняют силу. Отсюда следует, как показано в предыдущем пункте, сверхлинейная сходимость метода. 2. Метод (4.49). Если производить восстановле- ние Нк через конечное число шагов, то при любом к мат- рица Нк будет ограничена. Это следует из неравенства |rsIP , |Hk|M|rfcp «|rkP + m|rk|F При i — 1 (Я1*А^ = (ЯоЛ,^>/по||АГ Учитывая эти соотношения и рассуждая точно так же, как это делалось при изучении метода (4.48), устанавли- ваем справедливость оценок (5.28), а затем, предположив, что имеют место оценки (5.31) и (5.32), доказываем спра- ведливость (5.34). Далее, /П* Z Z \ _____ /IT*Z Z \ i <Ь+1’Г<) (ri ^т+1) \n^+ih+uh+i) = о/т+i»/т+i/ + Zj ------------(гТёО-------- ’ Отсюда, воспользовавшись ограниченностью Нк и оцен- ками (5.18), (5.34), а также учитывая, что все величины НИ» IIei II» i4+1II имеют одинаковый порядок {малости, устанавливаем, что (Я *14+1,4+1) > т0 II4+1II2 + о (II4+1II2).
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 137 Следовательно, при достаточно малых ll/mll (т- е. при достаточно больших £) будет (^"t+i/t+1, А+1) > II /т+1 ||2> значениях где aT+i > 0 и не зависит от %. С учетом этого оказывается а а 0 и Ст+11 A+i || || ^*т+1|| Nт+11| /т+1||. Используя равенства (г , е.) Нз+Ърг ~ Н зег + (rs ' Нses) 4" 1 X, учитывая оценки (5.31), (5.18), ограниченность Нк и рас- суждая так же, как при изучении (4.48), убеждаемся, что матрица Ят+1 будет удовлетворять уравнениям (5.37), в силу чего оценки (5.39) и (5.40) сохраняют силу. На этом заканчивается доказательство справедливо- сти индуктивных рассуждений. Изучение метода (4.52) проводится совершенно ана- логично. Замечание. Если на какой-либо итерации на- чальной стадии процесса окажется, что pt = — Hi fa = 0, необходимо начать процесс заново, восстановив матри- цу н0. 3. Метод (4.53). Техника доказательств, связанных с матрицей здесь точно такая же, как и в методе (4.49). Отметим лишь, что матрица Нх+1 в этом методе будет удов- летворять не условиям (5.37), а уравнениям H^ej = я}, 0 < / < т, где || Л/ II ~ 0 (|| ri ID* Это, впрочем, только упрощает полу- чение оценки (5.39). Метод (4.54) изучается аналогично. 4. Метод (4.69). Матрица (4.69) определяет век- тор рк (4.63), в котором Рк вычисляется по формуле (4.64). Для этого метода ^ || 4ip+ моц 4111^^,11 iif^n II f'x II 2 В силу (5.8) при любом к 1^’ • -у > где ||Я,||<М0 +
138 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II не зависит от В- С учетом этого оказывается, что при лю- бом к для процесса с восстановлением L. Установим теперь, что при любом к будет pfc р < 1, т. е. 1 —— Р = Р>0, (5.41) где Р не зависит от В- С учетом (4.65) ___________Ы_________________ fy+(i (я0/;_г /U) В силу (5.4) и (5.8) при любом к (Hvflt-y Mo|| ffc x||2 где у не зависит от В- Кроме того, используя (4.65) и (4.64), по индукции легко установить, что при любом к будет 0 < pte < 1. Следовательно, 1 + (1 — зл-1) т Отсюда, учитывая, что р^п = О, В = 0, 1, . . ., можно установить справедливость (5.41). С учетом (5.41) из (4.65) вытекает, что при любом к -(PkJ'k) > IIPd > 0^0 п/d- Учитывая это и ограниченность как и для рас- смотренных выше методов, устанавливаем, что 0 <С а а и С||/кЦ<||гл||<^ ||/d- Этим самым доказана справедливость оценок (5.9). Установим справедливость оценок (5.10). При к = = Вп + 1 , (Яо/i, А) (Pi> *о)== e0)+ , ,—-----т~ [(Яо/i, *о) +(Po,^o)b (Яо/Г /г) —(ро, /0)
$ 51 МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 139 Но (Я0Д, ео) = (Яо/1, /0 и в силу (4.61) (р0, е0) = — — (Ро. /о). С учетом этих равенств оказывается, что (Рь ео) = 0. Если справедливы оценки (5.31), то так же, как в ме- тоде (4.48), доказывается справедливость оценок (5.34). Далее, используя (4.63), устанавливаем (Рт+и е>) = (Рт+i— 1) ej) Рт+1(рт, ej). Оценим величину (Я0Д+1, е?)- Из (4.63) следует я^=тЬ’(/’’“&рм)- (5-42) С учетом этого будет Р;+1 1 Pj 1 Используя это выражение и учитывая оценки (5.34), (5.41), устанавливаем, что (4+1, Я^) = о(||рт+1Н = о(|гтГ), 0</<Т. Поскольку в силу (5.31) также и (pt, ej) = о (||rt+1||2), 0 < т, то оказывается, что (Рт+ь е3) = о (| гт+1 Ц2), 0 < j < х. При j = т (Рт+1! et) — (3-t+l — 1) (ЯоД+1, ет) + Зт+1(Рт, ^т), откуда, используя (4.64) и (4.61), получаем \__ (Яо/т+1, /х) (р„ /х) (Яо/х+1, /х+1)-(рх< /,) В силу (Яо, /т+1, /т+i) 0 оказывается, что (Рт+i, er) (ffoA+i, А)" Если оценить величину (Я0Д+1, Д), используя выра- жение (5.42) при / = т, то с учетом (5.34) и (5.41) окажется, что (Яо/;+1,/;)=о(8гт+1р)
140 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II (здесь уже учтено, что .в силу справедливости (5.9) все величины || ^ || и ||/- ||, i' = 0, 1, . . ., п — 1, имеют один и тот же порядок малости). Таким образом, (Рт+1, е>) = о (|| rx+11|2), 0 < / < г, т. е. для рассматриваемого метода оценки (5.39) сохраня- ют силу. Следовательно, сохраняют силу и оценки (5.40). Итак, справедливость оценок (5.9), (5.10) для метода (4.69) в предположении, что выполняется условие (5.6), установлена. 5. Метод (4.71). Для этого метода в силу (4.67) и (5.4) —(Рь fk) > т01| fk ||2. (5.43) С учетом этого ЦЯо|| II/\ц II н^\\ 11/^II 1|/к—1 ||2 Поскольку при любом к на множестве 50 отношение ||/к||/|| f'k-i || есть ограниченная величина и || Яо Ц<^М0, то ||ян|<м0 где d — константа. Отсюда следует, что если произво- дить восстановление матрицы через конечное число шагов, то при любом А матрица будет ограниченной: |||| L. Учитывая это и оценку (5.43), убеждаемся, что при лю- бом к будет а > ак > а > 0 и N || f’k || > || > С || fk |. Следовательно, для метода (4.71) оценки (5.9) спра- ведливы. Докажем справедливость оценок (5.10): (Рш, е») = - (Яо ek) - (pk, es). (Рк’ fk) Отсюда, с учетом (4.61) (Pfc+1> ек) = — (#o/m, ек) + Wm, fk+i) = (-^о/fc+i» fk)* (5.44) При к = из (5.44) вытекает (Ръ е0) = (Яо/i, f) = (Д, ро) = 0-
МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 141 § 5] Используя (4.66), можно получить следующие выражения: (Рт+1? — (^о/т+1, £j) 4" Зт+1(Рт, Hof'j = —Pj+ PjPj-i, Hoej = — pJ+1 + Pj — ^j+iPj + PjPj-i- Если предположить, что справедливы оценки (5.31), то так же, как в методе (4.48), можно доказать справедли- вость оценок (5.34). Заметим также, что коэффициент (Яо/;, /р мои4ip dl (pk_r ZU) ^u4-xii2 ' С учетом этого, рассуждая так же, как при изучении ме- тода (4.69), устанавливаем, что (Рт+1, е}) = о (И rx+11|2), о < 7 < г, и, кроме того, (Я0А, А+1) = 0(||гх+1||2), в силу чего из (5.44) следует (Рт+1, *?) = О (||гх+1||2). Таким образом, (Рт+1, ej) = о (И rx+11|2), 0 < / < Т, что и доказывает справедливость оценок (5.39). Справед- ливость оценок (5.40) устанавливается так же, как в ме- тоде (4.48). Следовательно, для рассматриваемого метода оценки (5.10) справедливы. При изучении метода (4.48) мы отмечали, что доказа- тельство справедливости оценок (5.9), (5.10) можно про- вести, предполагая, что выполняется условие (5.24) — для этого необходимо проведенные рассуждения повто- рить лишь для соответствующих итераций. Это замечание сохраняет силу и для других рассмотренных методов, что и указывает на их сверх л инейную сходимость. На этом мы закончим изучение свойств процессов с вос- становлением Нц. Сейчас мы рассмотрим вопрос о сходи- мости некоторых из рассмотренных алгоритмов, не пред- полагая, что производится восстановление матрицы Я&. Разумеется, все свойства процессов без восстановления,
142 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. И которые будут изучаться, сохраняют силу и для процес- сов с восстановлением. 4. Сходимость процессов без восстановления. Перед тем, как доказывать теорему о сходимости процессов без восстановления Нк, рассмотрим некоторые вспомогатель- ные утверждения. Лемма 5.1. Если матрица определяется условиями ^(E+l)n^n+J = + Ц$п+;, j = 0, 1, . . ., П — 1, причем векторы удовлетворяют требованиям, предъ- являемым к векторам rk в лемме 3.1, а = о (|| r$n+j||), то при £ —> оо будет ||Я(5+1)п-(4+1)п)-1|Н0. (5.45) Лемма 5.1 обобщает результат леммы 3.1. Доказатель- ство проводится следующим образом. Обозначив = = ^(^+1)п, в(5+1)п = A (W)n — /^+1)п и рассуждая так же, как при доказательстве леммы 3.1, получим оценку В ^(£+1)п (^n+i + rl^n+j) II hj || r^n+j || + || /(£+1)п II II ^n+i ||, где hj —> 0 при | > оо. При достаточно больших g векторы + Ikn+j в силу свойств векторов г^п+; будут линейно независимы. С учетом этого, выбрав в качестве базиса век- торы j = 0, 1, . . ., n — 1, г£п+; II Г£п+; + ^5n+; II и вновь повторяя доказательство леммы 3.1 (с очевидными изменениями), устанавливаем справедливость (5.45). Лемма 5.2. Если выполняются оценки (5.12) и ll^n+i || —► 0 при % —> оо, то существуют векторы ^n+i = Т^п+г + ^£п+г, (5.46) где J^n+z || = о (Цг^п+гЦ), такие, что (Мм, ‘'hn+j) = 0, i ф i, 0 < i, / < п — 1. (5.47) Доказательство леммы проводится таким же образом, как доказывалось существование векторов fi (5.13). Раз- ница заключается в следующем. Матрица F^n = R^nfenRin-—
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 143 симметричная строго положительно определенная (при достаточно больших |), следовательно, Обозначив = Q%n, получим Qz^fznQzn = F Поскольку при | —> оо F^n —> Z, будет также F#l* Z. Следовательно, т. в. векторы-столбцы g$n+i мат- рицы Q^n представимы в виде #Еп+г “ Г gn+г 4~ ^Еп+Ь где || (З^п+г || —> 0 при | —> оо. Рассуждая далее как при доказательстве (5.13), устанавливаем, что векторы ЯЧп+i = (/&Л г0’/г qi, i = 0,1,...,П — 1, удовлетворяют условиям (5.46), (5.47). Лемма 5.3. Если Д^п — определитель, столбцами которого являются векторы ф. WT’ i = тпо f Д^п | > 8 > 0, где 8 — некоторая константа. В самом деле, пусть z — произвольный вектор единич- ной длины. Поскольку векторы *ф0, . . ., tyn-i линейно не- зависимы. можно представить вектор z в виде Л1 hiii При этом z)=a3- —1р-(Дп%, %), / = 0, 1, .... п-1, откуда | aj\ М/т. Отсюда и вытекает существование искомой константы 8. Продолжим изучение методов сопряженных направле- ний, используя установленные в этом пункте результаты и по-прежнему предполагая, что выполняется неравенст- во (5.6). Если осуществлять процессы, производя восстд-^
144 ^МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. п иовление матрицы Нк через конечное число шагов, то в силу их сходимости || rh [| —> 0 и выполняются условия (5.12). С учетом этого результат леммы 5.2 позволяет ут- верждать, что если Д^п — определитель, столбцами кото- рого являются векторы ИМ’ 1 = 0, 1, . . ., п — 1, то при достаточно больших | будет | Д^п I > > 0 (по- f скольку |Д| > 8 > 0). Таким образом, при достаточно больших | в процес- |! сах с восстановлением векторы гь i = 0, 1, . . ., п —1, < удовлетворяют требованиям, предъявляемым к векторам rk в лемме 3.1. В методах (4.48), (4.49), (4.52) матрица Н^п+i удовлет- воряет условиям (5.37), причем, как только что установ- ; | лено, векторы удовлетворяют требованиям леммы 3.1. В силу этого из леммы 5.1 следует, что при осущест- влении процессов (4.48), (4.49), (4.52) с восстановлением I Нк выполняется условие (5.45). : Заметим теперь следующее. При выборе матрицы HQ в процессах с восстановлением мы руководствовались j двумя требованиями: 1} а) необходимостью обеспечить сходимость процесса — для этого матрица Яо должна быть строго положительно I определенной, и б) гарантировать ограниченность Нк — для этого мат- рица Но должна быть ограниченной (т. е. должно выпол- няться правое из неравенств (5.4)). Но оба эти требова- ния будут выполняться, если при любом | вместо матрицы Но использовать произвольную симметричную матрицу | Н^, удовлетворяющую условиям q т0 J z J2 < (Я50з, z) < Мо || z Ц2, т0 > 0, (5.48) при всех z GE Еп. f| Следовательно, свойства процессов с восстановлением || сохраняются при замене Н0 на произвольную матрицу г удовлетворяющую (5.48). С учетом этого замечания исхо- I дя из условия (5.45), можно утверждать, что для любой ч постоянной Л^>0 найдется такое число что независимо от выбора последовательности матриц Я^о, удовлетвори-
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 145 ющих (5.48), при £ > для процессов (4.48), (4.49), (4.52) будет выполняться условие (5.49) Считая, что константа 1 достаточно мала, мы можем утверждать, что при £ = для матрицы Н^п справедливы оценки mi Iz К2 < (Я5п z, z) < Мi I z р, nti > 0, (5.50) причем можно считать, в силу произвола выбора постоян- ных тп0 и Мо, что mJ тп0, Mi MQ. Но это означает, что матрица Н^п может быть выбрана в качестве матрицы Я(5х+1)0. При этом для матрицы Н^+1)П окажутся справед- ливыми оценки (5.49), (5.50), в силу чего она может быть взята в качестве матрицы Я(^х+2)о- Продолжив далее эти рассуждения, мы убеждаемся, что при любом i = 1,2,... матрица Я(£х+г)п может быть взята в качестве матри- цы Я(^х+г+1)0. Таким образом, если предположить, что выполняется (5.6), то при В > Вх процессы (4.48), (4.49), (4.52) можно осуществлять без восстановления матрицы Яй, не нару- шая при этом свойства процессов с восстановлением. В частности, для процессов (4.48), (4.49), (4.52), осущест- вляемых без восстановления, сохраняют силу оценки (5.9), (5.10). Но, как показано в п. 2, при этом условие (5.6) выполняться не может, откуда следует, что существует бесконечная последовательность такая, что IIII || %г “““ II (5.51) (если предположить, что точек хь для которых выполняет- ся (5.51), лишь конечное число, то это будет означать, что найдется число Т такое, что при к > Т для всех точек по-прежнему выполняется неравенство (5.6), что, как мы^ убедились, невозможно). Поскольку X—произ- вольно малая константа, то из (5.51) следует, что IIхг || "^ 0, т. е. методы (4.48), (4.49), (4.52), осуществляемые при В > £х без восстановления, сходятся к решению. Проведенные рассуждения показывают, что справед- лива
146 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II Теорема 5.2. Пусть для минимизации функции / (#), удовлетворяющей (5.3), используется процесс (5.1), в котором построение матрицы Нк осуществляется по формулам (4.48), (4.49), (4.52), а параметр afe выбирается из условия (5.2). Тогда последовательность {хк} при любом выборе начальной точки х0 сходится к решению, если вос- становление Нк произвести некоторое конечное число раз, а затем осуществлять процесс без восстановления. Если точка х^ выбрана в достаточно малой окрестности мини- мума, процесс (5.1) сходится без восстановления Нк. Доказанная теорема справедлива не только для мето- дов (4.48), (4.49), (4.52), но и для других алгоритмов, мат- рица Нк которых удовлетворяет равенствам (5.37) (при выполнении (5.6)). Для метода (4.53) теорема 5.2 не сохраняет силу. Действительно, в этом случае матрица Н^+1)П удовлетво1 ряет условиям = 0 j п 1, (5.52) где |||| = о (||rz J). При I -> оо векторы ^л, . . ., ekn+n^ будут линейно независимы — это следует из линейной независимости векторов r$n+i, 0 i п — 1, и соотно- шений (5.10). С учетом этого из (5.52) вытекает, что || Н^п, || -> 0 при % -> оо, следовательно, матрица Н%п не будет удовлетворять требованиям, предъявляемым к мат- рице Яо. Теорема 5.2 оставляет открытым вопрос о скорости схо- димости процессов (4.48), (4.49), (4.52), осуществляемых без восстановления, ибо в силу того, что условие (5.6) в действительности не выполняется, доказательство спра- ведливости условия (5.45) теряет силу, а поэтому исполь- зовавшаяся в теореме 5.1 методика не позволяет выяснить свойства матрицы Нк. Достаточно просто удается исследовать вопрос о свой- ствах матрицы Нк метода (4.70) (один из вариантов обоб- щенного метода сопряженных градиентов), вследствие чего можно установить не только сходимость этого про- цесса, но и получить оценку скорости сходимости. Матрица Нк метода (4.70), осуществляемого без восстановления, ограничена: || Нк || L. Вытекает это из следующего: (/Ч-р /л-1) ~ (Рк-11 ек-1) = (/(Л-1)Л-р Рм) > т\\гЛ-1 II 1|Рл-1|(.
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 14? Учитывая еще, что || | М || |, получим = м0 + -^ и ‘ т Установив ограниченность матрицы Нк, доказательст- во справедливости оценок (5.9), (5.10) для рассматривае- мого процесса в предположении, что выполняется усло- вие (5.6) либо (5.24), можно провести так же, как это делалось для метода (4.71) при изучении процессов с вос- становлением. В силу этого оказывается справедливой Теорема 5.3. Результаты теоремы 5.1 сохраняют силу для метода (4.70), осуществляемого без восстановле- ния Нк. 5. Обсуждение результатов. Итак, мы выяснили, что все изучавшиеся в § 4 методы могут быть использованы для минимизации неквадратичных функций, причем схо- димость процессов может быть гарантирована для класса функций, минимизацию которых можно осуществлять гра- диентными методами. В случае, когда методы сопряжен- ных направлений используются для минимизации сильно выпуклых функций, скорость сходимости их оказываете л не ниже сверхлинейной — при осуществлении процессов с восстановлением. Для некоторых алгоритмов можно установить сверхлинейную сходимость и без предположе- ния о восстановлении матрицы Нк. Скорость сходимости методов сопряженных направ- лений устанавливалась нами несколько по-другому, чем это делалось при изучении методов других классов в пре- дыдущих параграфах: мы рассматривали не последова- тельность {#fc}, а последовательность {я$п}, т. е., по су- ществу, в качестве одной итерации мы рассматривали объединение п обычных итераций процесса: х^п, ^п+1, . . . ..., ^n+n-i. Вообще говоря, истинная скорость сходимости таких процессов может оказаться ниже чем у методов двой- ственных направлений (§ 3) и тем более чем у метода Нью- тона (§ 2) (т. е. убывание величины функции на каждой итерации | /ft+1 — fk | в методах рассматриваемого класса может оказаться меньше чем в методах § 2, 3, а отношение || хк+1 — х* J/||#k — х* ||, наоборот, больше). Так, если, на- пример, в каком-либо алгоритме хк+1 — хк~ — (5.53)
148 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ (ГЛ. 11 а в методе сопряженных направлений Я'(£+1)П = DZnf , причем Dk — D$n -> fa, то это означает, что п итераций метода сопряженных направлений эквивалентны в смысле сходимости одной итерации процесса (5.53). Тем не менее, скорость сходимости методов рассматриваемого класса является с практической точки зрения весьма высокой и значительно превосходит скорость сходимости градиент- ных методов. В то же время, как уже отмечалось в § 4, по трудоем- кости итерации методы сопряженных направлений незна- чительно отличаются от градиентных методов. Все сказанное позволяет сделать вывод о том, что ме- тоды сопряженных направлений являются одними из наи- более эффективных для решения задач минимизации. В настоящем параграфе мы ограничились исследова- нием лишь нескольких конкретных алгоритмов, которые были построены в § 4, хотя можно было бы изучать свойст- ва и других алгоритмов такого рода, которые могут быть построены с помощью общей схемы, рассмотренной в § 4. Однако техника исследования других алгоритмов не бу- дет сколь-нибудь существенно отличаться от использовав- шейся в § 5. В самом деле, разница в технике доказатель- ства теоремы 5.1 заключается лишь в несколько разли- чающихся приемах исследования свойств матрицы Нк. Но в любом методе рассматриваемого класса векторы ик и vk, используемые для построения Нк+1, могут являться лишь различными линейными комбинациями векторов гк и Нкек (см. (4.32)). Выбор же алгоритмов, изучавшихся в § 4, 5, был проведен таким образом, чтобы при построе- нии матриц Нк использовались различные сочетания этих элементов. Сравним теперь, используя полученные результаты, свойства различных алгоритмов при минимизации неквад- ратичных функций. Мы установили, что некоторые из рассматриваемых процессов ((4.48), (4.49), (4.52), (4.70)) можно осущест- влять либо с восстановлением матрицы Нк, либо без восстановления. Какой же из вариантов процессов пред- почтительнее?
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 149 С теоретической точки зрения процессы без восстанов- ления предпочтительнее в том случае, когда при £ оо (5.54) Действительно, если выполняется условие (5.54), то и при любом к будет (А)”1. В этом можно убедиться, рас- сматривая, например, формулы (4.48), (4.49): при выпол- нении (5.54) Н^п -> значит, Я$п+1 -> (j^n+i)"1 и т. д. Следовательно, методы сопряженных направлений в этом случае будут по скорости сходимости приближаться к ме- тоду Ньютона, в то время как в процессах с восстановле- нием, как мы выяснили выше, скорость сходимости может оказаться ниже. Строго установить выполнение условия (5.54) не удает- ся (во всяком случае, это не удалось сделать к настоящему времени) ни для одного из методов сопряженных направле- ний. Однако можно предположить, что такое условие будет выполняться, по крайней мере при решении отдель- ных задач, для методов изучаемого класса, обладающих тем свойством, что при минимизации квадратичной функции Нп = А"1. (5.55) К методам этой группы относятся алгоритмы (4.48), (4.49), (4.52). Таким образом, исходя из высказанных соображений, эти алгоритмы целесообразно осуществлять, не прибегая к восстановлению матрицы Нк. В методе (4.70) свойство (5.55) не выполняется, поэтому вариант этого метода без восстановления не будет обла- дать преимуществом (имеется в виду скорость сходимости) перед вариантом с восстановлением. То же самое можно сказать ио других алгоритмах, обладающих тем свойством, что при минимизации квадратичной функции будет Нп = = Но (например, методы (4.69), (4.71)) либо Нп близка к HQ (именно такой является матрица Нп в методе (4.70): действие ее на систему линейно независимых векторов е0, . .., еп^ такое же, как и действие матрицы Яо, за исключением действия на векторе^). Поэтому нет особого смысла рассматривать варианты таких методов без вос- становления матрицы
150 минимизация Функций вез ограничений (гл. п Заметим, что теорема 5.1 для методов (4.70), (4.71) останется в силе, если вместо фиксированной матрицы HQ брать последовательность матриц удовлетворяющих условиям (5.48). Это можно обосновать так же, как это делалось при доказательстве теоремы 5.2 для методов (4.48), (4.49), (4.52). Следовательно, сходимость методов (4.69), (4.70), (4.71) сохранится, если выбирать последо- вательность матриц (5.56) Скорость же сходимости процессов, построенных таким образом, будет увеличиваться (и приближаться к скоро- сти сходимости методов § 3), поскольку в этом случае вы- полняется условие (5.54). Практически построение матриц Я^о, удовлетворяю- щих условию (5.56), можно осуществлять по формуле (4.8), если использовать векторыр%п, p^n+i, . • • , Ae+i)n-i- Однако вновь оговоримся, что строго обосновать выпол- нение условия (5.56) в этом случае не удается; это можно было бы сделать при выполнении условий (5.12), но по- скольку условие (5.6) для методов сопряженных направ- лений в действительности не имеет места, теряет силу доказательство справедливости оценок (5.10), а поэтому и (5.12). Обсудим кратко свойства метода (4.53). Для этого алгоритма при минимизации произвольной функции бу- дет, видимо, выполняться условие Я^п->0. Следовательно, в этом методе необходимо производить восстановление матрицы, и скорость сходимости его будет, по всей веро- ятности, ниже чем у рассмотренных ранее методов. В свете высказанных соображений из класса методов сопряженных направлений наиболее эффективными при минимизации строго выпуклых функций, с точки зрения скорости сходимости, должны быть методы, обладающие свойством (5.55). При практическом решении задач могут, конечно, на- блюдаться отклонения от этого вывода — в том смысле, что, например, с помощью метода (4.70) решение задачи минимизации (с определенной точностью) будет получено за меньшее число итераций по сравнению, скажем, с ме- тодом (4.48). Дело в том что, как мы уже неоднократно подчеркивали, на скорость сходимости того или иного ме-
§ 5] МИНИМИЗАЦИЯ ПРОИЗВОЛЬНЫХ ФУНКЦИЙ 151 тода оказывают влияние многие дополнительные факторы, такие, например, как погрешности вычислений, неточный выбор значения ак и другие, а устойчивость различных методов по отношению к возмущениям различна. Кроме того, сравнение скорости сходимости имеет смысл лишь в достаточно малой окрестности минимума, вдали же от минимума сравнивать эффективность различных алгорит- мов можно, лишь осуществляя численные эксперименты. В ряде работ, опубликованных к настоящему времени (J. D. Pearson [1], J. Greenstadt [11, Б. Т. Поляк [2], Н. Y. Huang, А. V. Levy [1]), приводятся результаты численного решения различных задач, полученного с по- мощью методов сопряженных направлений. Наиболее полный сравнительный анализ эффективности различных алгоритмов проводится в последней из отмеченных работ. В целом результаты численных экспериментов подтвер- ждают вывод о том, что наиболее эффективными являются методы, для которых выполняется условие (5.55). В то же время оказывается, что метод (4.71) более эффективен в том случае, когда осуществляется восстановление мат- рицы через п итераций (по сравнению с процессом без восстановления). Практически, видимо, и метод (4.70) следует осуществлять, производя восстановление мат- рицы Нк. Наконец, остановимся на вопросах, связанных с выбо- ром длины шага в методах изучаемого класса. Как мы уже говорили, в методах сопряженных направлений выбор шага производится из условия минимума функции в на- правлении движения. Мы неоднократно подчеркивали основной недостаток такой процедуры — необходимость производить значительное количество вычислений функ- ции, ввиду чего трудоемкость ее может оказаться весьма значительной в задачах, где вычисление функции трудо- емко. В некоторых случаях рассматриваемый способ выбо- ра шага практически вообще не позволяет решить задачу, если, например значение параметра afc сильно изменяется на каждом шаге. Этот недостаток методов сопряженных направлений отмечался во многих работах (С. G. Broyden [2], Б. Н. Пшеничный [3], W. С. Davidon [2], М. J. D. Po- well [1], R. Fletcher [1] и др.). Стремление избавиться от обсуждаемого недостатка привело к тому, что в отмечен- ных работах рассматриваются методы, в которых выбор
152 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II значения ак производится таким образом, чтобы лишь гарантировать определенную степень убывания функции. Однако в остальном построение методов основывается на тех же идеях, которые излагались выше (исключая работу Б. Н. Пшеничного [3J). Исследовать свойства методов, в которых выбор шага уже не связан с отысканием минимума функции вдоль направления движения, становится гораздо труднее, и теоретическое обоснование многих из них не проведено даже для случая минимизации квадратичной функции. С точки зрения способа выбора значения ак более предпочтительными являются методы двойственных на- правлений § 3. Оценка скорости сходимости этих методов также является более высокой. Однако методы двойствен- ных направлений требуют большего объема машинной памяти (как отмечалось в § 3, требуется запоминать две матрицы п X п), поэтому с их помощью можно решать задачи минимизации меньшей размерности. Можно, прав- да, сократить требуемую машинную память, выбирая в ме- тодах двойственных направлений векторы rk вдоль коор- динатных осей, однако при этом на каждой итерации по- надобится дважды вычислять производную, что ведет к увеличению трудоемкости таких алгоритмов. § 6. Методы, не требующие вычисления производных 1. Вводные замечания. До сих пор мы рассматривали методы минимизации, в которых на каждой итерации не- обходимо было вычислять, помимо функции /(х), ее гра- диент f(x) (uerojifiL § 1, 3, 4, 5), а в методе Ньютона (§ 2) — еще и матрицу вторых производных f(x). При этом мы неоднократно подчеркивали, что вычисление вто- рых производных во многих случаях представляет наиболее сложную и трудоемкую часть построения итерационного процесса, и методы § 3—5 разрабатывались как раз с целью избежать вычисления вторых производных. Од- нако в ряде задач и вычисления градиента может оказаться значительно сложнее, чем вычисление функции (а иногда вообще невозможно получить аналитическое выражение /'(#))• В этих случаях желательно для решения задачи использовать методы, которые требуют только вычисления значений функции.
§ 61 МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 153 Вычисление градиента по аналитической формуле мож- но заменить приближенным вычислением, воспользовав- шись, например, разностной аппроксимацией частных производных. Поступая таким образом, можно построить модификации рассматривавшихся в предыдущих пара- графах методов, в которых используется лишь вычисление функции. Требуя определенную степень точности аппрок- симации и накладывая некоторые дополнительные требо- вания на построение итерационного процесса, можно до- биться того, что в большинстве случаев свойства таких модифицированных методов (сходимость, скорость схо- димости) будут приближаться к свойствам исходных алго- ритмов, в которых использовалось вычисление /' (ж), /"(я) по аналитическим выражениям. Изучение методов, не требующих вычисления градиен- та, интересно еще с той точки зрения, что, выясняя точ- ность аппроксимации производных, при которой свойства таких алгоритмов будут совпадать со свойствами соответ- ствующих исходных методов, мы фактически определяем допустимые вычислительные погрешности, которые не приводят еще к нарушению свойств алгоритмов (исполь- зующих вычисление /' (х), f"(x)). В настоящем параграфе мы изучим лишь алгоритмы, построение которых ведется на основе методов двойствен- ных направлений § 3; в связи с этим мы сохраним для них прежнее название. Помимо того, мы остановимся также на алгоритмах другого типа: в них реализуется идея построения сопряженных направлений, но без использо- вания вычисления градиента или его разностного при- ближения. 2. Построение методов двойственных направлений. В этих методах последовательные приближения к реше- нию строятся по формуле *1С+1 = ^ — (6.1) где Dk — некоторая матрица п X тг, gk — вектор. Ска- лярный множитель aft, определяющий длину шага, в отли- чие от ранее рассматривавшихся методов, может прини- мать как положительные, так и отрицательные значения в зависимости от того, какое из направлений — D~kgk или gk будет являться направлением спуска функции / (х).
154 МИНИМИЗАЦИЯ ФУНКЦИЙ БЁЗ ОГРАНИЧЕНИЙ [ГЛ. II Можно считать, по-другому, что ак 0, но тогда в ка- честве направления движения принимать либо вектор рк = — либо полагать рк — D^1 gk таким образом, чтобы выполнялось условие (4, рк) < о- (6.2) Как и в § 3, считаем, что f (ж) — дважды непрерывно дифференцируемая сильно выпуклая функция. Построение матрицы Dk и в е к т о р a Определим векторы / Нхк + Р**1) ~~ / f&K + Wn't-f&K*'] Pfc / ’ Pk ’ ’ Pk ^k = <Pk — где 0 < | | I rk В*, t > 1, yk, rk — элементы после- довательности (3.5), Vi — единичный вектор соответству- ющей оси. Лемма 6.1. Пусть {жл} — ограниченная последова- тельность, || жй+1 — хк || -> 0 при к -> оо и при любом к п — 1 матрица Dk определяется системой уравне- ний Dkrk.4 = -фл-4, i = 0, 1,. . п — 1, (6.3) где rk-i — элементы последовательности (3.5). Тогда lim I — 41| = 0. fc-*oo Доказательство леммы в существенных чер- тах совпадает с доказательством леммы 3.1. Мы рассмот- рим лишь возникающие различия. Компоненты векторов и <рл можно представить в виде = , о<0,<1, дх1 lx=-xk+»^kVj ф{ = Д.| , о<а<1, /=1,..., п.
МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 155 § 6] Учитывая это и непрерывность вторых производных функции, легко убедиться в справедливости оценок II - Г Ы || < G I | nV. < С2 II гк (6.4) йф* — /\Ук) J < СзИн/сК n'/l < <6-5) где С2, С4 < оо. Представим вектор в виде ’I’fc-i = /' (Ук-i) — /' Ы + (Ф»Ч — /' (j/k-i)) — (Pic-i — /' (*k-i)), тогда, обозначая по-прежнему ек^ —f{xk-i\ получим Dkrk-i = ek-i + (cpfc-i — /' (г/fc-i)) — ('O'fc-t — /' (xft_i)), (6.6) i=0, 1, . . n — 1. Обозначим Bk =Dk — f'(Xk)- Поступая аналогично то- му, как это делалось в лемме 3.1, получим оценку Ц Bkrk-i || < hk-i I! rk_i B +1| — f (xk-i) || +1| <Pfc_i — /' (i/k-i) ||, где hk-t —0 при fc->oo. С учетом (6.4) и (6.5) отсюда || В if к-4 II hlc-i || rk-i || 4" Ci || rk-i !|*» ^6 < °0. ИЛИ РкПм|| где hk-t = hk-i + C6|| rk_t Ц'-1 -> 0 при k-+oo. Дальнейшее доказательство повторяет рассуждения леммы 3.1. Определим теперь вектор pk ’ где |рА|< | Hkl (если рк = цк, то gk = Ofe). Ясно, что сходимость и скорость сходимости последова- тельности (6.1) зависят не только от значения матрицы Dk, но и от того, насколько хорошо вектор gk аппрокси- мирует градиент Для того чтобы гарантировать высокую скорость сходимости последовательности (6.1) к решению, потребуется, как станет ясно из дальнейшего, ), (6-7)
156 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II чтобы при любом к выполнялись неравенства о<Ы<ММ (6.8) где ^->0 произвольным образом при &->оо. Если на некоторой итерации выбранное значение pte не удовлет- воряет условиям (6.8), необходимо дробить рь вычислить новый вектор затем вычислить новый вектор рк и вновь проверить выполнение (6.8). Так как gh fk при |pJ->0 и при этом a р^ЦХ) ПРИ любом хк х* (матрица невырожденная как обрат- ная к матрице Dk; о вычислении Dkr см. п. 3, вычисление вектора pte), то при достаточно малых значениях рл усло- вия (6.8) будут выполняться. Определение направления движе- ния осуществляется следующим образом. Задавшись каким-либо значением у0 (естественно выбирать это зна- чение достаточно малым), вычисляются значения / (х) в точках хк ± Если в одной из этих точек зна- чение функции меньше f(xk), то соответствующий вектор (— Dk1gk либо Dllgk) и принимается за рк (условие (6.2) при этом выполняется в силу выпуклости / (х)). Если же оба значения функции больше f(xk), производится дроб- ление у0 до тех пор, пока какое-либо из значений функции не станет меньше / (хк); соответствующий вектор прини- маем за рк. Может, однако, оказаться, что при малых значениях у не происходит убывания функции ни по одному из на- правлений ± D‘k1gk. Это может означать, что либо еще не достигнуты значения у, при которых произойдет убыва- ние функции, либо же выполняется условие (Д, Pfc1^) = 0 (как будет следовать из дальнейшего, такой случай воз- можен лишь на начальной стадии процесса, при этом, очевидно, ни один из векторов ± Ок^к не может быть выбран в качестве pk). Для того чтобы исключить такую возможность, необходимо вычислить новый вектор gfc,x, изменив pk (но так, чтобы удовлетворялись условия (6.8)), вычислить новый вектор Dkrgkil и, начиная с некоторого вычислять функцию еще и в точках хк ± чОк^к11. Если хк Ф х*у то одно из направлений ± D^gk или
§ 6] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 157 ± заведомо является направлением спуска. Со- ответствующий вектор и принимается за Алгоритм выбора шага. Будем выбирать ак следующим образом: полагаем вначале а/; = min 1, R (6-9) 1ЫР J где 0<7?<oo, и проверяем справедливость неравенства /(*)—/ (*fc) < ea2pk(gk, pk), (6.10) где х = хк + а.рк, = — sgn (gfc, рк), 0 < 8 < х/2. Если это неравенство выполняется при a == то значение принимаем за искомое, если же при a = неравенство (6.10) не выполняется, производим дробление до тех пор, пока (6.10) не окажется справедливым, и полученное при этом значение принимаем за искомое. Описанный способ выбора предполагает, разумеет- ся, что (g/c, р/с) 7^ 0. Если же на некоторой итерации ока- жется (gfc, pfc) — 0 (это может случиться лишь на началь- ной стадии процесса), нужно произвести дробление pft и заново вычислить вектор gfc. Изучим теперь свойства последовательности (6.1) при построении матрицы Dk, вектора gk и параметра ак опи- санным выше способом. Теорема 6.1. Если f (х) — дважды непрерывно дифференцируемая функция, удовлетворяющая условиям (2.4), матрица Dk при любом к^ п — 1 определяется системой (6.3), вектор gk определяется выражением (6.7), где Pfc удовлетворяет условиям (6.8), а ак определяется описанным выше способом, то для последовательности (6.1) справедливы утверждения, аналогичные доказанным в теореме 3.1. Доказательство. Для того чтобы воспользо- ваться результатом леммы 6.1, необходимо прежде всего показать, что при условиях теоремы для последователь- ности (6.1) выполняется условие ||ял+1 — 0. Используя разложение функции / (х) в ряд Тейлора до членов второго порядка в окрестности точки хк, по- лучим А+1 — А =* (£к> Р/р) к' Pr ) at Рк) 2 Рк)
158 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II где хкс = хк + 9(%i — #л), 0 < 0 < 1. Поскольку рк) < О, то неравенство (6.10) будет выполнено, если W , а* 3k(^,Pk) + 2 ^а*8 или, что то же, 1 1 (Wk'M ак "Г 2 (6.11) В силу (6.2) и выбора (4 Р0 у 0 3k (gk, pJ Следовательно, при некотором ак >* 0 будет выполняться неравенство (6.11), а поэтому и (6.10). Это и доказывает возможность выбора ак описанным выше способом. Итак, в силу (6.10) fk+1 <.fk- Это означает, что хк €= ЕЕ S = {х: j (х) / (х0)} при любом к, и поскольку / (х) ограничена снизу, то fk — fk+1 0. В силу этого из (6.10) следует, что при к-+ оо a?|(gk, Pk) I -*0. (6.12) Так как ак afc, то из (6.9) вытекает |(gk, Pk) I II Pk II3- С учетом последнего неравенства условие (6.12) показы- вает, что Цлгл+1 — zj = ||рк||-> 0 при к оо. Следова- тельно, условия теоремы обеспечивают выполнение тре- бований леммы 6.1 и поэтому И^-/И->о. (6.13) Покажем теперь, что при условиях теоремы при к —> оо Имеем (4рк) = 1 , < 1 . n4-gjiii^ii 3k (gp Pt) 3k 3k (gk, pk) 3k + I (gr pj I (6.15)
§ 6] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 159 Для вектора g^ справедлива оценка (аналогичная (6.4)) |*-/H<C.IPd** = C7|pk|. (6.16) Поскольку I (&» Рк) I = I (^кРк, Рк) |, (6.17) то, в силу условий (6.13) и (2.4) отсюда следует, что на- чиная с некоторой итерации |(Л, Рк) I > 1| Рк г. (6.18) где 0 < тг т. Используя оценки (6.8), (6.16) и (6.18), убеждаемся, что начиная с некоторой итерации будут выполняться условия I/fc — gfcB II/У llffell < с7. п 1(^>/’*)1 "MpJI2 mi S* С учетом этого из (6.15) вытекает, что начиная с некото- рой итерации будет рк = + 1 (в силу положительности левой части (6.15)), а поэтому условие (6.14) действительно выполняется. На множестве S градиент /' (х) ограничен: Учитывая также, что и | рк | р < оо, убеждаемся, исполь- зуя (6.16), что || gk У Ьг при любом к. По аналогии с теоремой 3.1 можно установить, что при любом fc > п — 1 будет || Z?kx || М2. Следовательно |1лкт Используя эту оценку и неравенство (6.18), устанавливаем, что при достаточно больших к ltek>Pfc)l IIРК И2 4IPkll8 IIPkF (6.19) В силу этого из (6.9) следует, что начиная с некоторого к будет >а>0. (6.20) Легко убедиться также, используя условия (6.14) и (6.18), что при достаточно больших к неравенство (6.11), а по- этому и (6.10) будет выполняться при значениях а > а > 0. Эти неравенства совместно с оценкой (6.20) показывают,
160 МИНИМИЗАЦИЯ ФУНКЦИЙ БЁЗ ОГРАНИЧЕНИЙ [ГЛ. II что начиная с некоторого к оказывается В силу полученной оценки из условия ак || рК ] -> 0, о выполнимости которого шла речь выше, вытекает, что при к оо ||Ы->0. (6.21) Поскольку || gk || = || Dkpk Ц < Мх || рк ||, то при выпол- нении (6.21) Ш|->0. v (6.22) В силу условий (6.8), (6.16), (6.21) и (6.22) можно утвер- ждать, что при к -> оо II/' (^)11->о. Но это, как следует из неравенства (1.12), справедливого для сильно выпуклых функций, означает, что последова- тельность (6.1) сходится к решению. Получим оценку скорости сходимости метода. В силу условий (6.17), (6.21) и равномерной непрерыв- ности вторых производных функции на множестве S при к —оо (fkcPk> Рк) Itek>plc)l Используя это условие, а также условие (6.14), не сложно убедиться, что неравенство (6.11), а поэтому и (6.10), при достаточно больших к будет выполняться при а = 1. Из соотношений (6.19) при выполнении (6.21) следует, что Поэтому при выборе из условия (6.9) начиная с неко- торого к будет = 1. Сделанные замечания показывают, что начиная с не- которой итерации = 1, и при этом %к+1 — %к = — Dk Sk* В то же время найдется матрица такая, что — хк = — D
§ в] МЕТОДЫ ДВОЙСТВЕННЫХ НАПРАВЛЕНИЙ 161 При условиях (6.8) и (6.16) последовательность матриц Вк можно выбрать таким образом, чтобы (6.23) Для этого можно, например, полагать Dk = Dts (Жк+1 ~ Х^‘ Теперь уже нетрудно доказать сверхлинейную скорость сходимости последовательности (6.1). Для этого, рассуж- дая так же, как в теореме 2.1, устанавливаем справедли- вость неравенства || хк+1 ^* || ^ || II II ^к fkc || || хк х* ||* Далее, воспользовавшись условиями (6.13), (6.23) и непрерывностью вторых производных, убеждаемся, что при к-+оо ||^к —/кс II->0, а || есть ограниченная величина. В силу этого при к оо будет II xk+i х* II ^fcll^fc •£*11» (6.24) где А* и, чти и доказывает сверхлинейную сходимость {яй}. Теорема доказана. 3. Замечания по реализации методов двойственных направлении. Различные алгоритмы. Требо- вания, которым должны удовлетворять векторы rft, ис- пользуемые при построении матрицы Dk, такие же, как и те, которые рассматривались при построении последова- тельности (3.5). Поэтому все сказанное в п. 3 § 3 о пост- роении различных алгоритмов типа (3.4) сохраняет силу для процесса (6.1). Вычисление вектора pk. Здесь полностью применимы результаты п. 4 § 3. Так, базис sk+1, ... ...,5^+2, двойственный к базису фт» • • •»'Фк-п+г, строится по формулам (аналогичным (3.21)) - sk-n+i (sk-n+v ек+з) 1 = 1, . . ., п — 1. При этом для проверки линейной независимости векторов tpfc+i, фл, . . . ,фА-п+2 достаточно вычислить скалярное 6 Б. Н. Пшеничный, Ю. М. Данилин Фс+1-5 —(5fc+l-j? £/f+i)$fc+l»
162 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. II произведение (sfc_n+i, ip/c+i): если (sfe_n+1, ф^) ¥= 0—век- торы tpfc+i, tpfc, . . . , гр/г-п+г линейно независимы. Если же окажется ip/c+i) = 0, необходимо изменить или вектор г^+1, или какой-либо из векторов /0’/с+1, (p^i — при этом изменится вектор xpfc+i- Практически построение последовательных прибли- жений следует вести по формуле (аналог (3.25)) п-1 «k+i = «к — ak S (s*4. ёк) П-i- (6.25) i=0 Организация начала процесса. Пер- вые итерации процесса (к < п — 1) можно осуществлять по-разному. Например, можно осуществлять спуск в од- ном из направлений gk, — ±1, выбирая знак таким образом, чтобы значения / (х) убывали. Для того чтобы обеспечить единообразие итерацион- ного процесса (6.25), можно организовать начало про- цесса аналогично тому, как это предлагается в п. 5 § 3. Минимизация квадратичной формы. Пусть / (х) = у (Лх, х) + (Ь, х) 4- с, где (Лх, ж) > 0 при любом х Ф 0. В этом случае, как несложно убедиться, вектор й* = gk = /' (хк), <pk = f (ук), = ек, т. е. Dk =s Л^, и процесс (6.1) совпадает с (3.4). Следовательно (см. п. 6 § 3), процесс (6.1) позволяет отыскивать мини- мум квадратичной функции за п шагов. Щри этом тре- буется вычислить (п + I)2 значений функции. О выборе вектора gfe. В методе (6.1) помимо аппроксимации матрицы /" (х) градиент f (х) также за- меняется разностным аналогом — вектором gk. При этом, как мы отмечали, для получения сверхлинейной сходи- мости требуется выполнение условий (6.8). Если для того, чтобы эти условия выполнились, на некоторой итерации потребуется несколько раз вычислять вектор g^, трудо- емкость процесса (особенно для пространства большой размерности) будет возрастать. Заметим, что если на каждой итерации || рк\\ < || рк-г ||, можно выбирать | pfc | = || Ц2. Очень вероятно, что при таком выборе pft, по крайней мере начиная с некото- рой итерации, неравенство (правое) (6.8) будет удовлет- воряться. В самом деле, в конечном счете для скорости
§ 6] МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ 163 сходимости мы получаем оценку (6.24). Скорость сходи- мости процесса, оцениваемая таким образом, обычно мед- леннее квадратичной сходимости: И хк+1 — хк ||< || хк — Xk-i Л2, И хк — Х^ || О, т. е. при оценке (6.24) обычно || p^-i ||2 < || рк || (напомним, что начиная с некоторого к будет ак = 1, т. е. рк = Хк+1 — — хк). Поэтому, если выбирать последовательность {^} такую, что 0 достаточно медленно, можно надеять- ся, что при выборе рк = || рк-i ||2 для выполнения (6.8) не потребуется многократного вычисления gk. Если же усло- вия (6.8) сразу не выполнятся (т. е. потребуется дробле- ние рк), это будет говорить о том, что скорость сходи- мости процесса близка к квадратичной. В заключение отметим еще, что, используя резуль- таты п. 3 § 3 и настоящего параграфа, можно установить условия сходимости модификации метода Ньютона, не требующей вычисления производных. 4. Методы сопряженных направлений. Рассмотрим один способ построения сопряженных направлений, от- личный по своей идее от методов, рассматривавшихся в § 4. Пусть опять / (я) = у (Ах, х) 4- (b, X) + с, где (Ах, х) > 0 для всех х Ф 0. Допустим, что (ненуле- вые) направления рх, . . ., pm, m < п, Л-ортогональны и пусть Е™(х^ и £m(^0,m) — два различных тп-мерных под- пространства Еп, образованные векторами. . .,рт и проходящие через точки яои х^т. Тогда если хт и хт,т — точки минимума / (х) на подпространствах Е™(х0) и m), т0 №m), pt) = 0, (/' (М> Pi) = 0, 1 = 1, 2, . . ., Ш. Следовательно, (/'(#m) — /'(^m,m), Pi) = 0, или (Л (хт Pi) i = 1, 2, . . ., тп. Таким образом, если определить точки минимума f (х) на различных подпространствах, образованных Л-ор- тогональными направлениями р15 . . .,рт, то направление 6*
164 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ (ГЛ. И Pm+i = хт,т — хт окажется сопряженным к направ- лениям р1? . . .,рт. Описанный способ построения сопряженных векторов не требует вычисления градиента либо его разностной аппроксимации. Приведем теперь конкретный алгоритм минимизации квадратичной функции, в котором построе- ние сопряженных векторов осуществляется по описанной методике. Выбираем произвольную точку xQ и вектор рг (также произвольный); тп-я итерация алгоритма (т= 1,2, . . ., п) заключается в следующем. 1) Вычисляется точка хт = хт^ + атрт, (6.26) где ат определяется из условия минимума функции /(“)=/ (*m-l + «Pm)- 2) Вычисляется точка x(hm “ хт + гт> (6.27) гт — произвольный вектор, не являющийся линейной комбинацией векторов рх, .... рт (ниже мы более под- робно остановимся на вопросе о выборе rm). 3) Вычисляются точки хкчт ~ хк-ът Ч” ОЧыпРк) Ш, где множитель afc,m определяется из условия минимума функции / (а) = / (^-i,m + apfe). 4) Определяется вектор рт+1 = хт,т — хт. На этом тп-я итерация заканчивается. Вектор гт (в (6.27)) не должен принадлежать подпро- странству Ет(хц) — для того, чтобы точка xQim не при- надлежала Em(xQ). Поскольку хт есть точка минимума f (х) на подпространстве Em(xQ), то ясно, что любой век- тор х — хт. в направлении которого функция / (х) убы- вает, не принадлежит Em(xQ). Следовательно, в качестве гт может быть выбрано любое направление спуска / (х) из точки хт. В частности, удобно выбирать вектор гт вдоль одной из координатных осей; при этом, если ока- жется, что вектор гт, выбранный вдоль некоторой коор- динатной оси, не является направлением спуска, необ- ходимо выбрать гт вдоль другой оси.
МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ 165 § 6) В соответствии с результатами § 4 точка хп, вычислен- ная по формуле (6.26), будет точкой минимума / (я) ! хп = х*. Ддя нахождения точки х* потребуется решать одномерные задачи минимизации (для определения мно- жителей ат и о^,т) 1 + 2 + • • • + п = 1 п раз. Используя указанный подход к построению сопряжен- ных направлений, можно строить различные алгоритмы минимизации неквадратичных функций. Разумеется, в любом алгоритме такого рода направления . . ., рт, ап п, уже не будут сопряженными (см. по этому поводу п. 1 § 5). Однако можно ожидать, что удачно разработан- ные методы в достаточно малой окрестности минимума х* (выпуклой гладкой функции) позволят строить векторы, близкие по своим свойствам к сопряженным. Такие алго- ритмы могут оказаться эффективными при минимизации неквадратичных функций. Мы рассмотрим здесь один алгоритм, основанный на высказанных соображениях. Пусть — произвольная точка и р14, . . .,р1>п — ортонормированный координатный базис; к-я итерация алгоритма к = 1, 2, . . . заключается в следующем. 1) Для i = 1, 2, . . ., и вычисляем = хк,г-1 + ай,Л,г» где ам определяются из условия минимума функции / (а) = / + avk,t). 2) Полагаем vfc,n+i = ж*’п Хк’0 , где ук = | хк,п —хм и вычисляем точку хк,п+1 = хк,п + afc,n+1 vk,n+1, где aft)n+i определяется из условия минимума функции / (^,71 avft,n+i). 3) Пусть afe,s = max : i = 1, 2, . . ., п}, Лк — определитель, столбцами которого являются векторы а 8 > 0 — произвольно малая положитель- ная константа. Если о. тк полагаем 1^+14 = vktt для i Ф s, и vk+ljg = vk)n+i; при этом
166 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ (ГЛ. II будет = (6-28) Если же окажется -<Ч, полагаем vk¥lfi = vkii для всех i = 1,2, . . ., п\ при этом Дл+1 = Дй. 4) Полагаем #fc+1)0 = #к,п+1- На этом к-я итерация заканчивается. Равенство (6.28) нуждается в доказательстве. Одна- ко предварительно мы обсудим предложенный алго- ритм. Рассмотрим упрощенный вариант алгоритма, к-я ите- рация которого выполняется следующим образом. 1) Строятся точки xkii, i — 1,2, . . ., п, так же, как на этапе 1) основного алгоритма. 2) Вычисляется хк^п+1 = хкьП + ak,n+i vfc,n+i, где ^,п+1 = = #fe,n — a aft,n+i, минимизирует f (хк,п + avM+i). 3) Полагается vk+lyi = i = 1,2, . . ., п. 4) Полагается xfc+1,0 = Пусть к == 2. При этом будет #2,0 = #l,n+l = #l,n + а1,п+1^1,п+1» #2,п == #2,п-1 “Ь ^2,п^2,п = #2,п—1 ^2,п^1,п+1» т. е. точки я2>0 и х2>п есть точки минимума f(x) на одно- мерном подпространстве (образованном вектором vbn+1), проходящем через две различные точки хип и £2,n-i- Если / (х) — квадратичная функция, то в соответствии со сказанным выше направление р2,п+1 = #2,п — #2,о окажется сопряженным к направлению v1>n+i == i>2,n- Рассуждая дальше подобным образом, можно убедиться, что если при любом к = 1, 2, . . ., п векторы . . ., vk,n линейно независимы, то после к-я итерации окажутся сопряженными векторы vfe,n+i, vk,n, . . ., vk,n-fe+2, т. е. после п итераций процесса будут построены п сопряженных векторов. Однако при таком способе построения векторов ufe,i, • • •, Ук,п гарантировать их линейную независимость нельзя. В самом деле, если при некотором к окажется
§ 61 МЕТОДЫ СОПРЯЖЁННЫХ НАПРАВЛЕНИЙ <67 а/г>1 0, то, как нетрудно убедиться, будет п = %lctn = ^,1 ~ 2 » г=2 т. е. на (fc + 1)-й итерации система векторов yfe+1>i = = i = 1,2, . . ., п, окажется линейно зависимой. В этом случае построить систему п сопряженных векто- ров уже невозможно; это означает, что с помощью упро- щенного алгоритма нельзя гарантировать получение реше- ния даже для квадратичной функции. Усложнение эта- пов 2) и 3) в основном алгоритме имеет целью как раз избежать линейной зависимости векторов i = 1,2,... . . ., п (оказывается, что Дй > в). Заметим, однако, что при минимизации квадратичной функции с помощью основного алгоритма гарантировать получение решения задачи за конечное число итераций уже нельзя. Действительно, при переходе от системы век- торов . ..,1>к,п к системе vk+lll, . . ., vk+1,n может оказаться замененным (см. этап 3)) один из уже построен- ных сопряженных векторов, поэтому гарантировать по- лучение п сопряженных векторов за конечное число ите- раций нельзя. Кроме того, система векторов vk^ может и не меняться при переходе к (к + 1)-й итерации. Покажем теперь, что равенство (6.28) справедливо: Д/м-1== det [(tffc+1,1, • . — = det [(^£,1, . . ., vkt$-i, Ул,п+1, • • •, ^л,п)]* Но n 1 f 4 1 v ‘ ‘ fc i==1 Следовательно, A/c+i — det [(у/с,i, . • vt>n)l — z Таким образом, при любом к оказывается Дй > 8, что и гарантирует линейную независимость векторов pAjl,... • • • » Изучим некоторые свойства алгоритма.
168 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЁНИЙ [ГЛ. И Теорема 6.2. Пусть f (х) — непрерывно дифферен- цируемая строго выпуклая функция, такая, что множество S = {х : f (х) / (х1)0)} ограничено при произвольном выборе точки xlt0. Тогда последовательность frM}, i - 0, 1, . . ., п, к~ 1,2, . . ., (6.29) построенная описанным выше способом, сходится к точке минимума функции f (х). Доказательство. Существование и единствен- ность минимума х* функции / (х) при условиях теоремы вытекает из результатов лемм 1.3.1 и 1.3.4. Поэтому нам остается доказать лишь сходимость последовательно- сти Любая точка последовательности (6.29) хы е= <= S, поскольку f(xk)t) = min f(xk>i-i + avk,t) < / и / (жл+1,0) = f (*s,n+i) < / (xk,n). Множество S — огра- ниченное, т. e. (в En) компактно. Следовательно, из вся- кой бесконечной последовательности элементов этого множества можно выделить сходящуюся (к некоторому элементу из S) подпоследовательность. Если рассматри- вать последовательность {#ы} ПРИ фиксированном i = 0,1, . . ., п, то в силу сказанного существует бесконеч- ная подпоследовательность сходящаяся к некоторой точке Xi ЕЕ S. При этом в силу ограниченности / (х) снизу будет / (xkm,i+1) -> / (^т,|), откуда с учетом непрерывности / (х) вытекает справедливость равенств /(*i+i) = lim /(xfc i+1)= lim /(Xfc {) = У(Ж|).(6.3О) т т Покажем, что xi+i= xt для i = О, 1, . . п — 1. В силу построения || vkji [| = 1 при всех А: и г, следователь- но, векторы vk,i можно рассматривать как элементы единичной сферы (ограниченного множества), а поэто- му при любом фиксированном i = 1, . . ,,п существует подпоследовательность сходящаяся к некото- рому вектору vt. Поскольку s*,t+i = *м + аы+х^М+х и *»m,i+x *i+x. Vi+i, будет Xt+i = xt + ai+ii>i+i, i = 0,1, . . ., n — 1, где <Xi+i = Ига a/cm,i+i- Так как в точке xk,i+1 выполняется т
§ 61 МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ 169 условие / (xfc,i+i) = min / + ссим+1), то должно быть а также = min/(xi + (wi+i), i = 0, 1, . . n — 1, (6.31) a т. e. минимум / (x) в направлении pi+x реализуется в точке xi+1. Но из (6.30) вытекает, что / (rri+x) = / (&). В силу строгой выпуклости / (х) существует единствен- ный минимум в направлении pi+x, откуда следует, что ^г+1 = xi- Таким образом, оказывается х$ = хг = . . . == хп. Обозначив эту общую точку через Я, можно записать условия (6.31) в виде /(£) </(£ + apf), i = 1, 2, . . n, (6.32) при любом а. Эти условия для дифференцируемой функ- ции эквивалентны следующим: (/'(#), Vi) = 0, i = 1, 2, . . .,n. (6.33) Заметим теперь, что поскольку det [(pfe,x, . . -,^,п)]> > в, будет также det [(vx, . . .,v„)] > 8, откуда следует, что векторы рх, . . ., vn линейно независимы. С учетом этого из (6.33) следует, что /' (Я) = 0. Это, в силу стро- гой выпуклости / (Я), означает, что % есть точка минимума / (#). £ Итак, мы доказали, что существует подпоследователь- ность сходящаяся к точке х*. Но, поскольку при Любом фиксированном I — 0,1, . . ., П f (Zfc+X,i) / (хы)> а / (х) ограничена снизу, будут выполняться условия lim / (®w) = lim / {) = / (л:{) = / (f). fc->oo /fw-^oo W Отсюда вытекает, что при фиксированном i последова- тельность — минимизирующая, следовательно, и последовательность (6.29) также минимизирующая, а поэтому в силу единственности минимума она сходится к точке х*. Теорема доказана. Нетрудно убедиться, что при доказательстве справед- ливости условий (6.32) мы нигде не использовали диффе- ренцируемость функции f(x), т. е. эти неравенства сох- раняют силу и для строго выпуклой непрерывной функции.
170 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ (ГЛ. II Однако точка % — предельная точка последовательности (6.29) — в этом случае уже может и не быть точкой мини- мума / (х) (последовательность (6.29) при этом может иметь и не единственную предельную точку). 5. Обсуждение результатов. Прежде всего отметим, что область применения метода сопряженных направле- ний шире, чем у методов двойственных направлений — в этом легко убедиться, сравнивая требования, которые накладываются на минимизируемую функцию в теоремах 6.1 и 6.2. Свойства рассматриваемого метода сопряженных на- правлений изучены еще недостаточно. Так, пока неясно, какова скорость сходимости алгоритма. Тем не менее по- нятно, что она должна быть медленнее (при минимизации функций одного класса), чем у методов § 5 — об этом можно судить хотя бы потому, что изучаемый алгоритм не гарантирует отыскание минимума квадратичной фор- мы за п итераций (и вообще за конечное число шагов), т. е. не гарантирует построение системы п сопряженных векторов за конечное число итераций. Следовательно, с точки зрения скорости сходимости методы двойственных направлений, обладающие сверхлинейной сходимостью, имеют преимущество. Попытаемся сравнить количество вычислений на ите- рации в изучаемых алгоритмах. В методах типа (6.1) на каждой итерации требуется в зависимости от применяемого варианта (см. п. 3) вычис- лять п + 1 либо 2 (n + 1) раз значение функции для оп- ределения матрицы Of1 и n + 1 раз значение функции для построения вектора gfc; при этом на некоторых ите- рациях может оказаться, что для определения gfe вообще не нужно производить новых вычислений функции (если Р/с = Р/с)» или же количество вычислений может возрасти в несколько раз в зависимости от того, насколько хорошо gk будет аппроксимировать градиент. Кроме того, не- обходимо произвести еще несколько вычислений функции для выбора направления движения и величины шага. В методе сопряженных направлений на каждой ите- рации необходимо п + 1 раз вычислять минимум функции в направлении движения. Если считать, что для решения одномерной задачи минимизации в среднем нужно 3—4 вычислений функции, то количество вычислений функции
§ 61 МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ 171 на каждой итерации в изучаемых методах будет примерно одинаковым. Правда, какова должна быть точность вы- числения минимума вдоль направления в методе сопря- женных направлений, чтобы не нарушались свойства процесса, пока не выяснено. С точки зрения влияния на сходимость алгоритм выбора ак в процессе (6.1) более предпочтителен. В целом при условии возможности их использования методы типа (6.1) должны быть эффективнее метода со- пряженных направлений, однако, подчеркнем еще раз, область применения последнего шире. Наконец, отметим еще, что при изучении процесса (6.1) мы фактически выяснили, что погрешности в вы- числении вектора ек порядка О (|| гк ||') (см. (6.4), (6.5), (6.6)) и в вычислении вектора f'(xk) порядка О (Ц рк ||) (см. (6.16)) не нарушают свойства (сходимость, оценка скорости сходимости) процесса (3.4). Если рассматривать вариант процесса (3.4), в котором гк+1 = хк+1 — хк, то можно получить другие выражения для оценки погрешно- стей. В процессе (3.4) начиная с некоторого шага ак = 1, следовательно, будет Ы1 = II pw II = к» - II = II II > II4-1II- С учетом (1.12) будет ||гк | > x^i — х* ||. Таким образом, если гк+1 == хк+1 — хк, погрешности в вычислении векторов ек и fk порядка О (|| хк-± — х* || ) и O(£fc|| хк — х* ||) не влияют на свойства процесса (3.4). КРАТКАЯ БИБЛИОГРАФИЯ К § 1. Идея градиентного метода была высказана еще А. К о- ш и [1]. С различных точек зрения методы градиентного типа изуча- лись Л. В. Канторовичем [1], Г. Келли [1J, Б. Т. П о- ляком [1J, М. Альтманом [1], Ю. И. Лю биче м [1], Ю. И. Любичем и Г. Д.Майстровским [1J. В отме- ченных работах имеется многочисленная библиография. Рассматриваемый в параграфе вариант метода с выбором шага из условия (1.2) публикуется впервые. Изучение скорости сходимости градиентных методов, проводи- мое в параграфе, основывается на результатах работы Б. Т. По- ляка [1J. К § 2. Метод Ньютона для задач минимизации и решения урав- нений изучался в работах Л. В.Канторовича [21, Л. В. Кан- торовича и Г. П.Акилова [1J, Л.Коллатца [II и др.
172 МИНИМИЗАЦИЯ ФУНКЦИЙ БЕЗ ОГРАНИЧЕНИЙ [ГЛ. It М. Н.Яковлевым [1J доказана сверхлинейная сходимость обобщенного метода при выборе величины шага из условия мини- мума функции в направлении движения. А. Голдстейн и Дж. Прайз [1], Дж. Даниэль [1], Ю. М. Данилин [12] изучали метод Ньютона с регулировкой шага, используя выбор величины а&, не связанный с отысканием минимума функции в на- правлении движения. К § 3. Этот параграф написан на основании статьи Ю. М. Да- нилина и Б. Н. Пшеничного [1J. К § 4. Первый из методов сопряженных направлений — метод сопряженных градиентов —- был предложен для решения задач линейной алгебры М. Хестенсом и Е. Шт и ф е л е м [1]. Другой подход к построению методов сопряженных направлений применительно к минимизации квадратичной функции был пред- ложен В. Давидоном [1] и развивался Р. Флетчером и М. П а у э л л о м [1] и др. В алгоритме Б.Н. Пшеничного [3] построение сопряжен- ных направлений не связывается с отысканием минимума функ- ции в направлении движения. Многие свойства сопряженных направлений рассматриваются в книге Д. К. Фаддеева иВ.Н. Фаддеевой [1]. Исполь- зуемая в параграфе общая методика построения методов сопряжен- ных направлений разработана X. Хуангом [1J. Некоторые результаты являются новыми — формула (4.45), метод (4.63). К § 5. Р. Ф л е т ч е р и С. Р и в з [1J предложили исполь- зовать метод сопряженных градиентов для минимизации неквадра- тичных функций. Вопросы сходимости и оценки скорости сходимости метода сопряженных градиентов изучались Дж. Даниэлем [1], [2], Б. Т. Поляком [2], Г. Д. Майстровским [1J, [2J, С. А.Смоляком [1]. Сходимость метода (4.48) и оценки скорости сходимости установлены М. Пауэллом [3J (эти ре- зультаты приводятся в книгах Дж. Даниэля [1] и Е. П о- л а к а [2]). Доказательство сходимости методов сопряженных направлений, проводимое в параграфе, основывается на статье Ю.М. Данилина [41. К § 6. Методы двойственных направлений, не требующие вычисления производных функции, рассматривались в статье Ю. М. Данилина и Б. Н. Пшеничного 12]. Методы сопряженных направлений изучались Смитом [1J, М. Па- уэллом [2], В. Зангвиллом [1], Дж. Даниэлем [1]. Отмеченные работы использовались при написании параграфа. Обзор методов минимизации без вычисления производных проведеп Р. Брентом [1].
ГЛАВА lit МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ В этой главе излагаются различные методы минимиза- ции функций при наличии ограничений на переменные. В первом параграфе разрабатываются методы решения за- дачи квадратичного программирования, которая служит вспомогательной задачей в различных алгоритмах. В даль- нейшем излагаются алгоритмы решения задачи выпуклого и невыпуклого программирования. Всюду, где это воз- можно, приводятся оценки скорости сходимости. § 1. Задача квадратичного программирования Под задачей квадратичного программирования обычно понимают задачу минимизации квадратичной функции при линейных ограничениях. Таким образом, задача квадратичного программирования состоит в минимизации функции / (®)= при ограничениях (аг, х) — bf < О, i G (ahx) ~ Ъг = 0, i Е J°. (1.2) Здесь х е Еп, at е Еп, i €Е 3- (J J°, d е Еп, bt - числа, а матрица С размерности п X п — симметричная положительно определенная, т. е. (ж, Сх) 0 для всех х. к 3Q — конечные множества индексов. В основу численного метода решения этой задачи будет положен метод сопряженных градиентов. Основная идея применения этого метода к задаче (1.1) — (1.2) состоит в следующем. Пусть Xq — какая-либо точка, удовлетворяющая огра- ничениям (1.2). Выделим среди ограничений (1.2) те, ко- торые удовлетворяются как равенства. Эти ограничения
174 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОТГРАНИЧЕНИЯМИ trfl. Ш | определяют некоторую грань многогранного множест- । ва, описываемого линейными неравенствами (1.2). Най- * дем минимум / (х) на этой грани, применяя метод со- пряженных градиентов. Полученная точка либо является решением поставленной задачи, либо можно указать пе- реход на некоторую новую грань, после чего вся процеду- ра повторяется. Так как метод сопряженных градиентов минимизирует функцию / (х) за конечное число шагов и так как число граней конечно, то ясно, что подобного сорта алгоритм будет сходиться за конечное число шагов. 1. Операторы проектирования. Пусть теперь J — У" |J U ^°> а какое-либо подмножество индексного мно- жества /У. Составим матрицу Л^, строчками которой слу- j жат векторы ah i ЕЕ так что матрица A# имеет размер- ность т X и, где т — число элементов в множестве Лемма 1.1. Если векторы ai GE линейно незави- симы, то матрица Л^Л* невырождена. Доказательство. Пусть у ЕЕ Ет — нену- левой вектор такой, что I А$А*уу = 0. (1.3) Тогда у* АуАуу = (А*уу)* Ауу = {Ауу, Ауу) = | Ауу ||2 = 0, т. е. А*уу = 0. (1.4) Но А$у — это просто линейная комбинация векторов at, iEtyi с коэффициентами у1, i = 1, . . .,тп, где у* — компоненты вектора у. В силу предположения о линей- ной независимости ah i Gz она не может быть равна нулю. Поэтому (1.4), а значит, и (1.3), из которого по- лучено (1.4), невозможно. Итак, матрица АуАу может обратить в нуль только нулевой вектор, откуда следует, что она невырождена. Положим теперь Р = Л^(Л^)"1^- (1-5) Легко видеть, что оператор Р обладает следующими свой- ствами: РР = Р, (1.6) Р* = Р, (1.7) Р (/ - Р) = (/ - Р)Р = 0. (1.8)
§ 1] ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 175 Оператор Р есть оператор ортогонального проекти- рования в подпространство, натянутое на векторы аь Действительно, для любого вектора х ЕЕ Еп х = Рх + (I — Р)х. Далее, (Рх,(1 - Р)х) = (х, Р*(1 - Р)х) = О в силу (1.7), (1.8), так что Рх и (I — Р)х есть компоненты ортогонального разложения вектора х. Кроме того, Рх = А*и = 2 is? где вектор и е Е™ с компонентами и* определен по фор- муле и = (АуАуУ^Аух. Из полученного представления вектора Рх видно, что он целиком лежит в подпространстве, натянутом на век- торы at, i е #•. Заметим теперь, что А* (1-Р) = А,- (A, A*) (AyAfr1 А? = 0. (1.9) Поэтому для любого х Е= Еп вектор у = (I — Р)х удов- летворяет системе уравнений Ауу =0. 2. Минимизация квадратичной функции на подпро- странстве. Допустим теперь, что необходимо минимизи- ровать квадратичную функцию / (х), заданную выраже- нием (1.1) при ограничениях (аь Х) _ ъг =0, (1.10) Будем предполагать, что векторы ah i ЕЕ fy, линейно независимы. Пусть х^ — какая-либо точка, удовлетворяющая (1.10). Заметим, что если через by обозначить вектор с компо- нентами bi, то система уравнений (1.10) запишется в виде Аух — by = 0, так что Аух^ — by — 0. Введем теперь новую переменную у по формуле х = xQ 4- (I — Р)у (1.11) и рассмотрим квадратичную функцию <р (у) = / (*о + (I - Р)у).
176 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Градиенты функций ф (у) и / (х), как следует из правил дифференцирования сложной функции и симметричности оператора Р, связаны соотношением Ф'(г/)= (7 - P)f'(x), (1.12) где х и у связаны (1.11). Л е м м а 1.2. Пусть у — точка безусловного минимума функции ф (у). Тогда соответствующая ей точка % = xQ + (7 — Р)у есть точка минимума функции f (х) при ограничениях (1.10). Доказательство. В точке у градиент функции Ф (у) обращается в нуль: ф'(£) = 0. Поэтому в силу (1.12) (7 - P)f(x) = 0, или Положив и = — (AyAy)~xArf(%), получим Г(х) + Al и = 0. (1.13) Кроме того, используя (1.9), получаем Afl == A^Xq + А? (7— Р) у = А?хь = 6^, т. е. X удовлетворяет условиям (1.10). Итак, X — допустимая точка, и в этой точке удовлет- воряются условия (1.13), которые являются необходи- мыми и достаточными для того, чтобы X была точкой минимума / (х) при условиях (1.10). Лемма доказана. Лемма 1.2 показывает, что рассматриваемая в этом пункте задача может быть сведена к минимизации квад- ратичной функции ф (у) при отсутствии ограничений. Применим для минимизации ф (у) метод сопряженных градиентов (гл. II, § 4): Уо = 0, рх = — ф' (0), У k+i = У к “h Uk+iPk+n ,, ч . II <Р' (^) II2 Рм—+ |ф-|.й-
§ 1] ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 177 В ^этих формулах величина afc+1 вычисляется по пра- вилу *+l ~ (P^v Р) Р(с+1) ’ так как нетрудно проверить, что матрица, определяющая квадратичный член функции ср (г/), имеет вид (/ _ р) с (I - Р). Приведенные выше формулы определяют процесс по вспомогательным переменным у. Удобно, однако, перейти к исходным переменным х. Для этого предварительно покажем, что имеет место соотношение (I-P)pk=pk. (1.14) Действительно, для к = 1 имеем (Z - Р)Р1 = (0) = - (7 - Р)(7 - P)f(x0) = = - (7-Р)/'(х0) = - <р'(0) = Р„ где мы воспользовались (1.12) и тем, что (7 - Р)(7 - Р) = 7 - Р - (7 - Р)Р = 7 - Р. Пусть теперь соотношение (1.14) верно для к, и докажем его справедливость для к -J- 1: (7 - Р) = - (7 - Р) Ф' (ук) + (/ - Р) Рк = - (Г Р) (I Р) f &к) +1| ф, (Ук1) |р Рк - /т nw'/ X , - (J~P)f fe) + Ц (г/к_1)(| . Рк - Рк+1. где мы вновь использовали (1.12) и (1.14). Из (1.11) теперь следует соотношение + (I — Р) Ух+и Лк+1 = хк + (1 — Р) (ук+1 — ук) = хк + — ак+1рк+1, т. е. хк+1 = afc+iPfc+i* Воспользовавшись (1.12), преобразуем формулу для рк+1: /Г DX#/ Ч I l(/-P)f(^)IP Рш— (J P)f fe) + ||(Z — P)/'(xw) |РЛ’
178 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Формула для ал+1 приобретает вид _ ((Z-P)f(^),Pft+1) *+1 ((/ - Р) Рм, С(1-Р) ?л+1) (рт, СРш) ’ Теорема 1.1. Задача минимизации квадратичной функции f (х) при ограничениях (1.10), если известна точка я0, удовлетворяющая (1.10), решается за конечное число шагов процессом p1 = -(Z-P)/'(^0), #k+i = Х^ + Clfc+1pfc+i, /Г X I ||(/-P)f (^)IP Ри+1 (I Р) / (жк) + J (Z _ |р Pit, __ W Pfc+1) b — 0 1 ak+1"“ (pm,c?s+1) ’ Л-0’1,..- Доказательство теоремы фактически приведено было вы- ше в рассуждениях, с помощью которых выводились формулы процесса. Замечание. Как известно (гл. II, § 4), если метод сопряженных градиентов применяется к квадратичной функции с вырожденной матрицей С, то процесс сходится за число шагов, не превосходящее п — Z, где I — число нулевых собственных значений матрицы С. При мини- мизации (р (у) мы применяли метод к функции с матрицей (I — Р)С(1 — Р). Но так как А$ (I — Р) — 0, т. е. (/ — Р)А? =0, то (Z-— P)ai =0, iE^. Поэтому в рас- сматриваемом случае кратность нулевого собственного значения матрицы (Z — Р)С (I — Р) не ниже тп, где т число аь Поэтому предложенный процесс всегда либо сойдется к точке минимума, либо покажет неогра- ниченность снизу квадратичной функции / (х) при усло- виях (1.10) за число шагов не больше чем п — т. 3. Алгоритм для общей задачи квадратичного програм- мирования. Возвратимся теперь к общей задаче (1.1), (1.2). Для каждой точки х, удовлетворяющей (1.2), положим f (*) = & о, г е Мы будем предполагать в дальнейшем, что выполнено следующее условие невырожденности: при любом х век- торы а^ i ЕЕ^ (ж), линейно независимы,
§ 11 ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 1?9 Опишем теперь алгоритм решения задачи. Пусть я0 — произвольная точка, удовлетворяющая (1.2) и являющаяся начальным приближением. Возьмем множество индексов (я0) и построим оператор Р^о: р?.= Вычислим величины и0 = — (Л?Х<>) 1 AyJ’ (х0), (/ — Р?о) /' (аг0) = f (Хо) + Л*„и0. Возможны два случая. 1) (/ — P^f (я0) = 0. В этом случае Л*о) + A^uq = 0, (1.15) и точка xQ есть точка минимума / (х) на грани, определя- емой системой уравнений (а{, х) — bi = 0, i Е (см. гл. I, § 3). Если среди uj — компонент вектора и0, i е (*0) П р| нет отрицательных, то (см. гл. I, § 3) точка Xq — решение исходной задачи (1.1), (1.2), ибо в этом случае (1.15) есть необходимые и достаточные условия минимума f (х) при ограничениях (1.2). Допустим теперь, что нашелся такой индекс j е= €= Ж) П такой, что Uq < 0. Построим новое индексное множество путем отбрасывания из индекса /. При- меним метод сопряженных градиентов, описанный в п. 2, для решения задачи минимизации / (х) при ограничениях (ab х) — bt = 0, i G (1.16) Однако процесс применения метода сопряженных гра- диентов не должен выводить за допустимую область (1.2). Поэтому на каждом шагу применения алгоритма следует проводить следующую проверку. Вычислить величину . bi — W am = mm , (1.17) где минимум берется по всем I, для которых (af, р&+1) > 0. В приведенной формуле хк — очередная точка, получае- мая в процессе действия алгоритма, рк+1 — сопряженное
180 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ (ГЛ. Ш направление в этой точке. Пусть теперь aft+1 — соответ- ствующая длина шага метода сопряженных градиентов. Тогда, еслиат < am, To#fc+i = xk + ak+ipfc+1 и процесс продолжается. Если же > ак+1, то xfc+i = хк + + «ш Рк+i и процесс применения метода сопряженных градиентов окончен. Таким образом, либо будет найдена точка минимума / (х) при условиях (1.16), либо процесс оборвется, когда ajHi > Sfc+i* В обоих случаях полученную точку считаем за начальную и работаем с новой точкой так же, как с исходной точкой х0. 2) (/ -Р?о)/'(х0)^0. В этом случае методом сопряженных градиентов ре- шаем задачу минимизации / (х) при ограничениях (ah z)-bf=0, (1-18) начиная с точки xQ. При этом на каждом шаге, как и вы- ше, производится проверка допустимости получаемых точек, т. е. по формулам (1.17) каждый раз вычисляется ак+1 и применяем процесс сопряженных градиентов до тех пор, пока либо не будет найдена точка минимума / (х) при условиях (1.18), либо выполнится условие ак+1 ак+1 и будет получена точка хк+1 = xk + ak+1 рк+1. В обоих случаях полученную точку считаем за начальную и по- вторяем в ней операции, которые производились с xQ. Обоснуем сходимость метода за конечное число шагов. Для этого нам необходимо прежде всего показать, что как в случае 1), так и в случае 2) будет сделан успешный шаг, т. е. из точки xQ мы сдвинемся в некоторую новую точ- ку, в которой значение функции f (х) будет строго меньше чем / (xQ). Так как получение новых точек производится по методу сопряженных градиентов, а в этом методе на каждом шаге происходит убывание функции, то, собст- венно, единственное, что нам необходимо будет показать, что всегда а&+1 > 0, т. е. ограничения (1.2) позволяют сделать ненулевой шаг в выбранном направлении рк+1, и, кроме того, что в случае 1) точка xQ не является точкой минимума / (х) при ограничениях (1.16), так как в по- следнем случаеметод сопряженных градиентов не сдвинул бы процесс с точки xQ. Докажем несколько вспомогательных лемм.
§ 1] ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 181 Лемма 1.3. Вектор р± = — (Z — РзМ' (^о) есть решение задачи: минимизировать ф(р)=(/'^о)>р)+4-11р112 при ограничениях Ау,р=0. (1.19) Доказательство. Действительно, в силу (1.9) Pi удовлетворяет (1.19). Кроме того, ф' (р) = р + f Поэтому ф' (Р1) = Р1 + /' (*о) = — (I — Ру.) f Ы + /' Ы = = PaJ' («о) = - Ау,ий. Поэтому, ф' (Pi) + = 9. (1.20) Последнее же есть необходимое и достаточное условие того, чтобы выпуклая функция ф (р) достигала своего минимума в точке рх при ограничениях (1.19). Лемма доказана. Построим теперь задачу, двойственную к задаче ми- нимизации ф (р) при ограничениях (1.19). По правилам, изложенным в § 3 гл. I, получаем, что для этого надо най- ти минимум функции ф (р) + иМ^р. Дифференцируя по р и приравнивая производные нулю, находим р + /'(^о) + + А^и = 0, т. е. Р = — /'(*<») — А*?, и. Подставляя это выражение для р, получим, что min {<р (р) + и* Ayj>} = — 4" ||/' (*о) + Ау,и ||2. р Таким образом, двойственная задача состоит в нахож- дении минимума по всевозможным векторам и функции ф* (»)=—л2- Теперь прямым дифференцированием ф* (и) и прирав- ниванием производных нулю нетрудно проверить, что вектор uQ — — (А#0А^) 1 A#of (xQ)
Ш МЕТОДЫ РЁЙЕНЙЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ (ГЛ. Ill есть решение двойственной задачи, т. е. максимизирует Ф*(и). Напомним, что компонентами uQ служат Uq, i ЕЕ ^0- Таким образом, вектор uQ есть вектор множителей Лаг- ранжа в задаче минимизации <р (р) при ограничениях (1.19). Кроме того, мы получаем, что общее в силу теорем двойственности значение минимума ф (р) при ограниче- ниях (1.19) и максимума ф*(и) по и равно величине -4-И(жо) + 4>«0||2 и™ - -±- || (Z - Р3.) f (х0) II2. Лемма 1.4. Пусть матрица образована из А^о удалением строки с индексом j, для которого и^ < 0, и пусть (I — Рр0)/'(я0) = 0. Тогда вектор р± = — (Z — — P^)f'(xQ) отличен от нуля и (a,j, ръ) < 0. Доказательство. Вектор рх может быть пред- ставлен в виде Pl = - (/' (*о) + A*'V), v=- (АЯ'АУ)~1 Ая? W- Если Pi = 0, то f'(x0) + Л^ v = 0. Но, с другой стороны, в силу предположений (Z - Р^ Г (х0) = Г (я0) + Л *оио = 0. (1.21) Вычитая два равенства, получим — A*>v = и}оа} 4- 3 (“о — vl) аг = 0, что, так как и£ Ф 0, невозможно в силу линейной неза- висимости векторов ttj, i Е ^0. Докажем вторую часть леммы. Перепишем (1.21) в покомпонентной форме f W + 2 woai + (— wo) (— aj) = 0. (1.22) Заметим, что — u3Q > 0, ибо uj < 0. Рассмотрим задачу: минимизировать ф(р) = (р, f(xQ)) + -|- 1/21| р ||2 при ограничениях (^,р)=0, (1.23) —(и/, р) < 0.
§ 1] ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 183 Так как фЧр) = /Ч^о) + Р» то фЧ^) = /Ч^о) и поэтому (1.22) есть необходимое и достаточное условие того, чтобы точка р = 0 была решением задачи минимизации ф (р) при ограничениях (1.23). С другой стороны, р± в силу леммы 1.3 есть решение задачи минимизации ф (р) при ограничениях А >р — О, или в покомпонентной записи (аг, р) =0, JE (1.24) Допустим теперь, что (а/, рх) > 0. Тогда так как рх удов- летворяет ограничениям (1.24), то этот вектор удовлетво- ряет и всем ограничениям (1.23). Но (/' (*о), Р1) = - (/' (*о), (I - Р '} Г (*о)) = <?0 = - (Р / (Хо) + (I - P')f(x0), (Г - P JfW) = *0 *0 *0 = - ((7 - Р.) Г (*о), (/ - -Р') Г (*о)) = -1 Pi Г- Поэтому ф (ро=(/' (®о), pi)+4- и pi и4=- 4" и р < °* Последнее неравенство противоречит тому, что минималь- ное значение ф (р) при ограничениях (1.23) достигается при р = 0 и равно нулю. Это противоречие показывает, что (ау, рх) < 0. Лемма доказана. Возвратимся теперь к построенному алгоритму. Пусть имеет место случай 1) и точка х0 не является решением задачи квадратичного программирования. Тогда согласно алгоритму применяется метод сопряженных градиентов для минимизации / (х) при ограничениях (1.16). В соот- ветствии с формулами метода первый шаг делается в на- правлении вектора = - (/ - Ру)/'(ХО). Согласно лемме 1.4 рх =# 0» так что точка х0 не является решением рассматриваемой вспомогательной задачи мини- мизации. Далее покажем, что ах > 0. Действительно, вектор рх удовлетворяет условию (1.24) и (aj, рх)< 0 согласно
184 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III лемме 1.4. Поэтому t е (1.25) Для i GE по способу выбора множества Поэтому (^г» *о) ах = шш—Ц—i-r— > 0, 1 i ибо минимум берется только по тем i, для которых (аь Pi) > 0, и значит, фактически по некоторому подмноже- ству индексов i, которое не пересекается в силу (1.25) с ^0. А для таких i — (ai9 х0) 0. Тот факт, что ах > 0, показывает что все точки я0 + apt при 0 а ах удовлетворяют условиям (1.2). Дейст- вительно, для i е (а{, х0 + арх) — bi == (а4, х0) — Ьг + а (а{, рх) = / — \ f ~ 0» i GE $"о, -a(ai’Pi) — ( <^0, i=j. Для г (аь х0 4- а^) — bt = (at, х0) — bt + а(аг, pt) < 0, если (at, рх) <1 0. Если же (at, рг) >0, то а bi — (av *о) («{, Pi) и поэтому _ b. — (а.,я?о) _ (a<, xQ + apx) — bi < (ab — b{ H------------------------ (аъ pt) = 0. Заметим, что знак неравенства в последнем соотноше- bi — *о) нии строгий, если a<«i или ах <—. Согласно алгоритму возможны два случая: а х < ах и ах В первом случае получаем новую точку хг = = х0 + «хРи которая удовлетворяет соотношениям (af, ях) — bt = 0, i G ^о> (аь xi) — bi < 0, i е ^0* (1.26) Во втором случае получаем точку хх = х^ + «iPi и эта
§ lj ЗАДАЛА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 185 точка принимается за новую начальную точку, с которой алгоритм начинает работать, проверяя случаи 1) или 2). При этом точка хг помимо соотношений — bt = О, I ЕЕ удовлетворяет еще и равенствам (af, Xi) — bt = 0 ____________ ' — (а.,хо) - для всех i ЕЕ Для которых — = ах. Таким образом, (xj ^0, причем имеет место стро- гое включение. Возвратимся к случаю < cq. В этом случае про- должается процесс применения метода сопряженных гра- диентов, причем до тех пор, пока аЛ+1 < dft+i, все точки хк+1 будут удовлетворять соотношениям (1.26) так же, как Xi, так как в силу формулы (1.14) и (1.9) с Р == Р • = 4 ' (1~Р’)Рк = 0, *0 *о *0 т. е. в покомпонентной записи (аг, рк) = 0, i е У-'о. Неравенства же (af, хк) — bi С 0, i & ^о> также не будут нарушаться, ибо их нарушение означало бы, что имеет место случай аЛ+1 > afc+1. Итак, мы показали, что в случае 1) процесс итераций последовательно строит точки л:0, хи . . .,#fc, к 1, и вдоль этой последовательности значение / (х) строго убы- вает, так как она порождается методом сопряженных направлений. Конечная точка хк является либо точкой минимума / (х) при ограничениях (1.16), либо в этой точке (хк) строго содержит множество ty0. В случае 2) направление движения из точки х0 сов- падает с вектором pj. = — (7 — P^f{x^) ф 0, (af, рх) = 0, i Е '^о(^ (^ (^о))» и поэтому нетрудно показать, что cSi >* 0 и метод сопряженных направлений позволяет сделать по крайней мере один ненулевой шаг в новую точку a?i, в которой значение / (х) строго меньше. Все доказательства здесь аналогичны только что при- веденным выше. В результате получается последователь- ность точек £0, х19.. .,хк, 1, причем хк либо есть точ- ка минимума / (х) при условиях (1.18), либо (хк) ZD
4 1§6 МЁФоДЫ РЕШЕНИЯ заДач с ограничениями trji. nt I Заметим, что как в случае 1), так и в случае 2), если точка хк есть точка минимума / (х) при (1.16), то в обоих случаях хк есть точка минимума / (х) на грани, опре- деляемой соотношениями («о х) -Ь, =0, (1.27) ибо по построению (#л) в случае 1) и (хк) ZD в случае 2), а точка минимума на более широком мно- жестве является точкой минимума и на более узком. Покажем теперь, что после конечного числа шагов применения процесса, начиная с точки я0, мы обязательно придем к точке хк9 которая сама является точкой мини- мума f (х) при ограничениях (1.27). Действительно, как видно из вышеизложенного, если метод сопряженных градиентов не приводит к нахождению точки минимума, то это сразу же влечет расширение множества индексов г, для которых очередная получаемая точка удовлетворяет соотношениям (аь хк) — Ъг = 0. Так как векторы аг«, i ЕЕ (хк), линейно независимы в силу предположения, то ясно, что такое расширение должно оборваться через конечное число шагов, не большее чем л, где п — размер- ность х. Итак, предложенный алгоритм через число шагов, не большее чем п, строит очередную точку хк9 которая явля- ется точкой^минимума f (х) при ограничениях (1.27). Замет им ""теперь, что множества (хк) при различных таких хк различны, ибо значение функции f (х) вдоль построенной последовательности монотонно убывает. Дей- ствительно, пусть хт и хк, т < к, — точки минимума / (х) при ограничениях (а/, х) — 6/ == 0, i G ty (хт) и i ЕЕ У (хк) соответственно. Если (хт) = = ^(я^), то ясно, что f(xm) = / (#fc). Но по построению про- цесса / (ят) < / (а?*) при т к, так что равенства У (хт) = У (хк) быть не может. С другой стороны, все множества У (хк) представляют собой подмножества конечного множества J = j" U и поэтому число таких подмножеств конечно. Отсюда сле- дует, что предложенный процесс должен оборваться после конечного числа шагов. Но обрыв процесса может про- изойти, если только найдена точка минимума / (х) при
§ 1] ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 187 ограничениях (1.2), ибо иначе, как было показано выше, процесс может быть продолжен. Тем самым доказана сходимость процесса за конечное число шагов. Замечание. В случае вырожденности матрицы С согласно теории методов сопряженных направлений может возникнуть ситуация, когда (/'(xk), pfc+i) #= 0 в точке як, но (p/f+i, Cpk+i) = 0. В этом случае невозмож- но вычислить величину afc+1, ибо Й+1 (Рк+г СРк+1> Однако в этом случае / (хк + неограниченно убы- вает с ростом а и поэтому можно положить afe+i = + оо и производить вычисления как обычно. Если afc+1 С + оо, то процесс применения метода сопряженных градиентов закончится точкой хк+1 = хк + Pfe+i, что никак не нарушает вышеизложенных рассуждений. Если же afe+1 также не ограничено, т. е. (ah рК+1) для всех i, то движение вдоль луча хк + apft+1 приводит к неограничен- ному убыванию функции / (х). Последнее же означает, что поставленная задача квадратичного программирования не имеет решения, так как нижняя грань / (х) при огра- ничениях (1.2) равна — оо. 4. Вычислительные аспекты. Предложенный выше алгоритм включает в себя, по существу, лишь одну слож- ную вычислительную операцию: проектирование гради- ента на подпространство, т. е. вычисление величины (/ — Ру)?(х). Это вычисление может производиться двумя путями. Первый путь состоит в прямом вычислении матрицы Ру, т. е. Ру = А^(АуАу^Ау. При этом приходится все время вычислять матрицу (АуАу)"1. Если эта матрица известна, то вычисление также нужного вектора и = = —(Л у A y^Ayf^x) сводится к операции умножения мат- рицы на вектор. Для сокращения вычислений на каждом шаге, когда множество меняется, можно воспользоваться тем фак- том, что при удалении из множества индекса / в матрице АуАу вычеркивается один столбец и одна строка, после чего получается матрица Ау А*у. Точно так же,
188 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III при прибавлении к множеству fy дополнительного индекса в матрице А#А* появляется дополнительный столбец и строка. Все это позволяет использовать следующие из- вестные из линейной алгебры (см. Фаддеева, Фад- деев [1]) рекуррентные соотношения. А именно, пусть В — произвольная симметричная п х тг-матрица, кото- рую можно представить в виде (D В=Л * и\ где D — (п — 1) х (п — 1)-матрица, и — (п — ^-мер- ный вектор-столбец, и* — ему транспонированный, Ъ — число. Тогда, как легко проверить, 5"! = L . D-^uvfD"1 ' ot a ’ D-'u a 1 a a = b — u^D^u. Итак, если известна матрица Z)"1, то матрица В-1, где В получена дописыванием последнего столбца и пос- ледней строки, может быть получена простыми вычисле- ниями. Обратно, если матрица Вт1 имеет вид то для матрицы D'1 имеем ш Таким образом, если новая матрица получается из старой вычеркиванием последней строки и столбца или добавлением строки и столбца, то обратные к ним матрицы получаются простыми арифметическими операциями. Тот факт, что в приведенных формулах вычеркивался и до- бавлялся последний столбец и строка, не играет роли, ибо легко проверить, что перестановка строк в исходной матрице ведет просто к перестановке столбцов в обратной, а перестановка столбцов — к перестановке строк.
§ 11 ЗАДАЧА КВАДРАТИЧНОГО ПРОГРАММИРОВАНИЯ 189 Итак, показано, что вычисления матрицы проектиро- вания могут вестись по рекуррентным формулам. Недос- таток таких рекуррентных вычислений состоит в возмож- ности накопления большой вычислительной погрешности. Опишем другой путь вычисления. В п. 3 было показано, что вектор р0 = — (Z — есть решение задачи: минимизировать (/' (.г), р) + у|| Р II2 при ограничениях А%р =0. Удобно перейти к двой- ственной задаче, которая, как было показано, состоит в максимизации квадратичной функции --+ по вектору и без ограничений. Эта задача без труда может быть решена методом сопряженных направлений. Как показано в п. 3, ее решением является вектор uQ = = — (AyAy^Arf'fx), т. е. как раз то вектор, который ну- жен в процессе применения алгоритма решения общей за- дачи квадратичного программирования. Вектор pQ че- рез щ легко вычисляется по формуле Ро = - (I - P9)f (х) = - If (X) - Ay (AyAy)"1 Ayf (X)] = = — [/' (х) + Ауи0], т. е. Ро = — 1/'(х) + Ауи01. Таким образом, при втором пути вычислений все дело сводится к многократному применению стандартной про- цедуры метода сопряженных направлений. 5. Задача квадратичного программирования с про- стыми ограничениями. Под задачей с простыми ограни- чениями понимается задача минимизации /(х)=4-(х’Сж)+(<2’а:) при ограничениях х* >0, i Е где J — некоторое под- множество множества {1,2, . . ., п}. В этом случае алго- ритм п. 3 существенно упрощается. Вместо того, чтобы проводить эти упрощения формально, сформулируем ал- горитм, решающий эту задачу. Из его изложения будет ясно, что доказательство его сходимости за конечное число шагов совпадает с доказательством алгоритма п. 3.
190 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Итак, пусть х0 — произвольная точка, удовлетворяю- щая ограничениям х% €= 3. Положим /У (ж) = {i : xt = 0, i е J}. Опишем теперь действия на одной итерации, начиная с точки я0. Вычислим множество ^(х0). Возможны два случая. 1) (/'(^о))1 = 0, Ж), где (/'(я0))* — i-я компонента вектора f (xQ). В этом случае точка х$ является точкой минимума / (х) при ограничениях х* =0, ie ^(^о)« Если при этом (/' (^ о))* 0 для * ^(^о), то хо — решение задачи, так как в точке х^ выполнены необходимые и достаточные условия минимума (см. гл. I, § 3). Пусть теперь (/' (х^)){ < 0 для некоторых i ЕЕ (#о)« Положим F = {/ е % М: (f Ш > 0}. Применим метод сопряженных градиентов для минимиза- ции / (ж), беря в качестве переменных только я1, Е У, и оставляя все х' равными нулю для i Е У- При вычис- лениях по методу сопряженных градиентов все время вы- числяем величину а^+1: (а ----~ 4+1 где минимум берется по всем i ЕЕ. $Г,для которых 4+1< < 0, и производим сравнение а4+1 и aft+1. Если ak+1 < < aft+1, то 4+i = xt + ak+1pk+1, 4+i = 4 = 0» Если . “»+!>“»+!> то 4+1 = 4 + afc+ipLv ig= #•'. 4+i = 4 — 0» Процесс вычислений обор- вется после конечного числа шагов. При этом либо будет найдена точка хк+1 такая, что в ней / (х) достигает мини- мума при условиях х* = 0, i ЕЕ либо такая, что afe+1 > aft+1. В этом случае fy (хк) ZD причем включение таково, что существуют i ЕЕ (#k), но i ё В обоих случаях точка считается за начальную и процесс повторяется. 2) Существуют такие индексы г, что (/'(^о))* =# 0, i Е G: fy (х0). В этом случае применяется минимизация / (х)
§ 21 МЕТОД ВОЗМОЖНЫХ ЙАЙРАВЙЕЙИЙ 191 по переменным х\ i^y'(xo), методом сопряженных гра- диентов. При этом компоненты х*, г ЕЕ (х0), остаются все время равными нулю. Кроме того, как и в случае 1), вычисляется на каждом шагу величина / — , / am= mm — i \ 4+1 где минимум берется по всем i ё fy pl+1 < 0. Окон- чание процесса такое же, как и в случае 1). Нетрудно видеть, что рассуждения, аналогичные при- веденным в п. 3 этого параграфа, приводят к доказатель- ству сходимости алгоритма за конечное число шагов, либо к установлению того факта, что / (х) неограничена снизу при условиях xi > 0, i Е= У- § 2. Метод возможных направлений Метод возможных направлений является одним из пер- вых методов, предложенных для решения задачи выпук- лого программирования. Пусть требуется минимизировать функцию /0 (х) при ограничениях fi (х) < 0, i == 1, . . Ах — b = 0. (2.1) Здесь х е Еп, fi (х), i — 0,1, . . ., тп,— выпуклые непре- рывно дифференцируемые функции, А — I X тп-матри- ца, b — /-мерный вектор. Более того, мы будем предпо- лагать, что градиенты функций fi (х), i = 0,1, . . ., тп, удовлетворяют условию Липшица: Wfi U1) ~ fi (*2) IK с II X, - x2|| (2.2) и II fi (я) IK К для всех встречающихся в дальнейшем точек х. Обозначим через D допустимую область, т. е. мно- жество D = {х : fi (х) 0, i = 1, . . ., m, Ах — b = 0}. Будем в дальнейшем предполагать, что множество D компактно, так что условие ограниченности градиентов выполняется. Пусть х0 — какая-либо точка D. Найдем
192 методы решения задач с ограничениями [гл. ш направление р ЕЕ Еп такое, что при малых a (xQ + аг? , е D и, кроме того, /0 (х^ + ар) < /0 (я0). Такое нр ление называется возможным. Сдвинувшись вдоль г направления на некоторый шаг аь получим новую а . xi = Хц + а^р ЕЕ D. Эту точку принимаем за начальную, и процесс повторяется.,Задача теперь состоит в том, чтобы разработать эффективный метод нахождения возможных направлений и выбора шага а так, чтобы обеспечить схо- димость к точке минимума. Будем всюду в дальнейшем предполагать выполнение следующего условия невырожденности: существует такая точка %, что Ах —- b = 0, h (я) <0, 1 = 1, . . ., т. 1. Метод выбора возможного направления. Положим ^(*) = {i : fi (*) > — 6, i = 1, • • m} для каждой точки х ЕЕ D. Пусть 0, i = 0,1, . . ., т, — произвольные числа. Рассмотрим следующую задачу в каждой точке xeeD: min т], (Х(*), Р) i^Cfi(x) и {0}, Ар = 0, || р || < 1. (2.3) Здесь т] — число, а |(р || — произвольная норма. Чтобы задача (2.3) была задачей линейного программирования, в качестве нормы удобно взять ||р||= max ]р4|. 1<1<П Пусть рь (ж), т]8 (х) — некоторое решение задачи (2.3). Так как вектор р = 0, р = 0, удовлетворяет ограниче- ниям (2.3), то ясно, что (я) 0. Покажем, что если т|8 (х) <Z 0, то рь (х) — возможное направление. Действительно, пусть а 0. Для i = 0 имеем на осг новании формулы Тейлора /0 (я: + а ръ (х)) = /о (ж) + а (/о (9о)> Ps (ж)) = /0 (ж) + + а (/о (х), ръ (х)) + а (/0 (0О) — Д (х), ръ (х)) < < /о (*) + а (/о («). Pi (ж)) + а2С j р6 (х)|2,
§ 2] МЕТОД ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 193 п м4)о = # + Ръ (я)> О £о 1» и мы воспользовались ДИ1 ’^то ХЛ/о (0о) - ЮК С I 0О - * К Са llP8 (X) |. Далее, в силу (2.3) (/0 (х), р& (ж)) < («)• Поэтому /о (« + «Г» («)) < /о (*) + аВоЛв (*) + а2С | Pi (я) 8 2- (2.4) Аналогично для i GE Уъ (х) ft(x а ръ (ж)) < ft (х) + а|гт)8 (ж) + а2 С || ръ (ж) Ц2. _ (2.5) Далее, для i ЕЕ Щ (ж) fi (® 4- «Ре («)) = ft (х) + а (fi (0{), Ръ (х)) < </, (ж) + аК || ре (ж) |. (2.6) Выберем теперь а 0 так, чтобы выполнялись неравен- ства /о (х + api (х)) < /о (х) + -у а£оПб (ж), А (х + ар8 («)) < 0, i G Jj (ж), (2.7) Л(ж + аР8(®))<0, ;ё^(ж). Для этого достаточно, чтобы выполнялись неравенства а?0П8(Т <4-’ ^8(х) + аС8р8(ж)||2<0, is№), (2.8) - 6 + а К Вр8 (ж) J < 0, i ё (ж), так как в силу (2.4), (2.5) справедливы неравенства /о (х + ар8 (ж)) < /о (ж) + а?оП8 (ж) Г1 + Р » А (х + аръ (ж)) < (ж) + а [^8 (х) + аС J р8 (ж) ||2], i G ZX 8(ж), а так как ft (ж) — б для i е (ж), то ft (х + а ръ (х)) < — б + а К | ръ (ж) J. 7 Б. Н. Пшеничный, Ю, М. Данилин
194 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ill Из неравенств (2.8) получаем 1 5ot)s (*) С®) <. д 2 СЦр8(:г)|Р ’ С||р8(х) |р ’ (2-9) Таким образом, если а удовлетворяет неравенствам (2.9), то выполняются неравенства (2.7), откуда следует, что ръ (х) — действительно возможное направление, так как Аръ (х) = 0 и поэтому А (х + а Ръ (я)) — Ъ — Ах — — Ъ 4- а Аръ (х) = 0. Покажем теперь, что если точка х не совпадает с решением задачи х* — точкой минимума /о (х) в области Z), то T]s (я) < 0 при всех достаточно ма- лых 6. Лемма 2.1. Пусть хЕ D не является решением задачи минимизации fQ (х) при ограничениях (2.3). Тогда т\ъ(х)<С.^для всех достаточно малых б. Доказательство. Напомним, что мы предпо- лагаем выполненными условиями невырожденности, т. е. существует такая точка Ж, что Ах — 6 = 0, ft (х) о, i = 1, . . ., тп, о < 0. (2.10) Пусть х* — решение задачи. Далее, если Jo И = {i ’• fi (*) — 0, i = 1, . . ., тп}, то при б < бв — б0 = max fi{x), ie^0(x) Jg (я) = Jo (х)- Действительно, если i^Jg(rr), б < б0, то fi (х) > — б. Но для всех i Jo (х) fi (х) б0 < <— б, т. е. i е Jo (х)- Будем считать, что б < б0, так что Jg (х) = Jo (я). Положим (1 _ р) 0 < р < 1. Тогда в силу выпуклости функций /£ (я), г = 0,1, ..., тп, и того, что fi(x^ 0, i = 1, . . ., тп, получим fi (Яр) < РА (®) + (1 — р) ft (z*) < ро, i = 1........т. Далее, для i G Cfi (х) ft (ж) = 0 и поэтому для 0 < X < 1 Хрз > ХД (х₽) = ХД (ъ) + (1 - Х)А (х) (Хх₽ + (1 -X) х) = = /г (*₽ — ^)) — А (*) > (fi (®), — Я),
§ 2] МЕТОД ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 195 где мы воспользовались справедливым для любой диффе- ренцируемой выпуклой функции неравенством (гл. I, § 2) / (у) — / (®) > у — *)• Таким образом, ро > (/• (ж), хр — х), i Щ (х). (2.11) Далее, поскольку точка х не доставляет минимума / (х) в области D, то о > Y = /о (**) — /о (ж) > (А (Д X* — *)• Отсюда (/о(х), х₽ — х) = р (А(х), 2 — х) + (1 — р)(/о(х), х* — х)< < Р (/о (ж), Z — х) + (1 — р) у. (2.12) Из (2.11) и (2.12) следует, что при достаточно малых р О выполняются неравенства (Л (*), Рр) < о, (Л(^), рР) < о, I е (х), (2.13) где рР = хр — х, и учтено, что о < 0, у < 0. Положим р₽ = р₽, если || р₽ К 1, и рр = , если || рр|| > 1, так что || рр |( ^ 1. Кроме того, положим (fi (^ Рр) т]р = max --------—- . ie^s(x)U{o} j В силу (2.13) т1р<0и удовлетворяются неравенства (fi (*), Рр) < U, * е J 8 (X) и {0}, Пр < 0. (2.14) Далее, так как ср = рх 4- (1 — р) х* и имеют место ра- венства Ах — Ь = 0, Ах* — 6 = 0, то Ахр —6 = 0. Заметим, что рр = арр = а (хр — х), где 0 < а 1. Поэтому ДРр + (^ — 6) = а [Ахр — 6] 4- (1 — а) [Ах — 6] = 0. (2.15) 7*
196 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ТЛ. III Из (2.14) и (2.15) следует, что вектор рр и величина Т]Р удовлетворяют условиям (2.3). Так как т]р < 0, то и по- давно т)з (х) < 0, ибо Yis(rr) т|р по определению. Лемма доказана. 2. Алгоритм метода возможных направлений. Пусть теперь х^ ее D — произвольное начальное приближение и б0 > 0. Опишем общий шаг алгоритма. Пусть на Л-м шаге получена точка x^eD и бй^>0. Решив задачу min т], р) < i #№*) U Ар = о, |< 1, получим рЪк (хк) = рк и Л8Л (хк) = П*- Замечание. Если в качестве нормы вектора р взять величину max |pi|, то приведенная выше задача есть задача линейного программирования, и она может быть решена одним из стандартных методов. Возможны два случая. 1) -Hfc < - 4 В этом случае полагаем последовательно а — i = = 0,1, . . ., и находим первое г0 такое, для которого вы- полняются неравенства /о (х* + "^ГР*) </о(**) + 1 2-2^ £оП*. /»(«* +-А-р*)<°» = Полагаем ак — 1 2*0 И ‘z'fe+1 + З'кРк) б/c+i = 6fc, так что /о (^л+1) /о (х/с) + “у" fi Ы <0, i = 1,..., т. (2.16) 2) Пк > — Полагаем ^й+i ~ *2" Таким образом, в первом случае происходит сдвиг в новую точку, во втором — такого сдвига не происходит.
§ 21 МЕТОД ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 197 Сформулируем еще условие останова алгоритма: если на некотором шаге к 8к < б0(жл), где 6°(^) = —_тах А(^) г е<^0(хр и 7]fc = 0, то хк — решение поставленной задачи, т. е. хк есть точка минимума /0(я) при ограничениях (2.1). 3. Обоснование сходимости алгоритма. Покажем, что если последовательность хк оборвалась на некотором шаге к в результате выполнения условий останова, то хк — действительно решение задачи. В самом деле, пусть выпол- нились условия останова, т. е. (хк) = 0, и 6fc<6°(a:ft) = —jnax (2.17) Но, как было показано при доказательстве леммы 2.1, при выполнении условий (2.17) (хк) < 0, если только хк не есть решение задачи. А так как по предположению = 0, то отсюда следует, что хк есть точка минимума f0(x) при х €= D. Пусть теперь процесс итераций продол- жается неограниченно, так что мы имеем бесконечную последовательность хк, к — 0, 1, ... Пусть хк — точка, в которой гц. < — 6fc, т. е. имеет место случай 1). Тогда, если воспользоваться оценками (2.9) и тем фактом, что llPfcll = (хк) || 1, можно утверждать, что при вы- полнении неравенств ~2 с~* (2-18) 5,.' — а , i €= У к, где для сокращения записи положено Ук = ^Уз^к), будут иметь место неравенства (2.7):. /о (хк + ирК) < /о-^)> 4" а^1]ь Л (*/? + «АХ 0, i = l,...,m. Вспомним теперь, что согласно алгорйтму величина ак
198 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш совпадает с первой величиной 1/2\ i — 0,1, . . ., для ко- торой выполнятся неравенства (2.16). Отсюда следует, что после конечного числа проб неравенства выполнятся. Пусть iQ — первый такой индекс, когда эти неравен- ства выполнились, так что а = 1/24 Это означает, что для а = 1/2{о“х неравенства (2.16) не были выполнены и поэтому величина а не удовлетворяла (2.18), т. е. 1 2*0-1 min min 2 С ’ К С J Поэтому 1 . 1 . ( 6 . ._.о. = т1П—cj• <2-19) Если учесть, что в рассматриваемом случае —Sfe, то неравенство (2.19) можно усилить, заменив —-T|fc на 6;-. После такой замены получаем а*>"Ге0’ е0= (2>20> Воспользовавшись теперь неравенством (2.16), (2.20) и тем, что < 0, получаем /о (#fc+i) /о (#к) + "С /о (^) — б*. (2.21) Из этого неравенства следует, что бк —> 0 при к —» оо. В самом деле, так как последовательность бь к = = 0,1, ..., монотонно убывает, причем если <Z 6к, то 1 Sfc+i — убк, и факт, что 6fc не стремится к нулю, может оз- начать лишь, что = 6 >0 для всех достаточно больших к. Но сохранение постоянного 6к означает выполнение условия < — б& и, значит, выполнение неравенства (2.21). Таким образом, для всех достаточно больших к (к > Ао), Sfc = би выполнено неравенство Поэтому . /•(**)</•(**)-(*-ад^-6а,
§ 21 МЕТОД ВОЗМОЖНЫХ НАПРАВЛЕНИЙ 199 т. е. /о (xn) —> — °о при N —>оо. Последнее же противо- речит ограниченности непрерывной функции f0(x) в ком- пактной области D. Итак, мы показали, что бА. —» 0. Но это означает, что начальное б0 половинится бесконечное число раз, т. е* бесконечное число раз имеет место случай 2): T)fe — 6fe. Пусть ty — множество тех индексов А, для которых имел место случай 2). Тогда т]А.—>0, когда к —> оо, Это сразу следует из неравенства — бл <; 0 и того, что бА —> 0. Рассмотрим последовательность точек ЕЙ, к ЕЕ ty. Так как D — компактное множество, то без огра- ничения общности можно считать, что хк сходится к не- которой точке х*. Покажем, что х* — точка минимума /оО) В D. Допустим противное, т. е. точка х* не есть точка мини- мума fQ(x) в D. Тогда на основании леммы 2.1 можно ут- верждать, что при всех б < 6° (я*) б°(х*)= — _max fi(x*), №(#*) = Jo (я*), и величина цз^) < 0. Более того, так как ЯЦх*) = JJ(x*), то (х*) = т]0 (**) < 0. Далее, Jsfe (хк) £ Jo (х*) при достаточно больших к е ty. Дей- ствительно, пусть i (х*). Тогда Д (хф) < 0. Поэтому в силу того что б и —> 0, для достаточно больших к (х*) < < — 6fc, и так как > я*, то при большом & (хк) также меньше чем — 6fc, т. е. i ё Js^ (#&)• Таким образом, если i 6= Jo (я*), то при больших к i е= Jsk (хк), т. е. Jsfe (хк) сс №*). Так как по предположению х* — не есть точка минимума /0(я) в Z>, то существует такой вектор р (х*)9 что ар («*) = 0. ip (**) В< 1. (/i (Я-*), Р (ж»)) Bi1!» (;г*)’ I $ О (х*) U {0}> причем, как сказано выше, т]о(я#) < 0- Но тогда по не- прерывности при больших к выполняются соотношения c/i (®k)> р (**)) < 4" 1 е и {°)> Ар(х^)^о, Кр (ж#)||<1,
200 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III так как#А —> х*, УЛ УЛ (#*). Однако последние соотно- шения означают, что Пл з (&) < 4“110 < 0 при всех достаточно больших Л, что противоречит ранее доказанному факту —► 0, к —> оо, к €= $'• Получен- ное противоречие доказывает, что есть точка минимума /о(лг) в D. Теорема 2.1. Построенная методом возможных направлений последовательность точек хк обладает тем свойством, что f0(xk)1 монотонно не возрастая, стремится к fo(x^9 где х* — точка минимума /0(я) в области D. Доказательство. По построению последова- тельности {xk} fo(xk+i) < /о(як), так что последователь- ность чисел fQ(xk) монотонно не возрастает. Поскольку она ограничена снизу, то она сходится к некоторому пределу /0. Однако выше было показано, что существует подпосле- довательность {xk}, k Ezty, такая, что хк —> х*. Поэтому jfQ(xk) -+f (х*). Так как вся сходящаяся последователь- ность сходится к тому же пределу, что и подпоследователь- ность, то отсюда следует, что fo(xk) —> что и требо- валось доказать. Замечание 1. Среди ограничений f^x) 0 могут быть такие, для которых функции ft(x) линейны. Нетруд- но показать, чуть-чуть удлиняя предыдущие рассужде- ния, что для таких индексов i можно положить = 0. Кроме того, условие невырожденности в этом случае также может быть ослаблено, а именно достаточно потре- бовать, чтобы существовала такая точка х е= D, что Л(^) <С 0 только для тех индексов i, для которых f^x) нелинейны. Замечание 2. Сама последовательность хк, вообще говоря, может не сходится, однако если точка х* мини- мума /о(я) при х 6= D единственна, то легко видеть, что хк —> х*. К сожалению, скорость сходимости метода воз- можных направлений в настоящее время неизвестна. 4. Построение начального приближения. Метод воз- можных направлений требует для своего применения зна- ния начального приближения, лежащего в области D. Для получения этого начального приближения можно вос- пользоваться тем же методом возможных направлений,
§ з] МЕТОД УСЛОВНОГО ГРАДИЕНТА 201 евлй применить его к задаче минимизации числа т] при ограничениях fi(x) — Л "С 0, i = 1, . . ., m, Ах — Ь = 0. (2.22) Так как существует такая точка Ж, что /г(^) <0, i = 1, . . ап, Ах — 6 = 0, то минимальное значение ц при описанных ограничениях строго меньше нуля и поэтому после конечного числа ша- гов применения алгоритма будет получена точка х и ц та- кие, что т| < 0 и неравенства (2.22) будут выполняться. Это будет означать, что полученная точка х удовлетворяет ограничениям исходной задачи и может быть взята как начальная для применения метода возможных направ- лений. § 3. Метод условного градиента и метод Ньютона Метод условного градиента может применяться для решения задачи минимизации нелинейной функции в об- ласти, в которой задача минимизации линейной функции решается без особого труда. Пусть / (х), х е Еп, — непрерывно дифференцируемая в компактной выпуклой области Q функция. Будем также предполагать, что градиент f(x) функции / (х) в области Q удовлетворяет условию Липшица, т. е. |/'(х,) - /'(Х2) - М (3.1) для всех точек области Q. Метод условного градиента состоит в следующем. Пусть хк — приближение на fc-м шаге итерацион- ного процесса — уже построено. Вычислим f'(xk) и найдём точку минимума линейной функции (J'(xk), z) в области Q. Пусть это будет точка z (хк). Положим рк = z (хк) — xkvi xk+i == хк + где аА 0 — величина шага в на- правлении рк. Точка xk+i принимается за исходную, и про- цедура повторяется. Ниже будет показано, что при определенном правиле вычисления ак процесс сходится и будет дана оценка ско- рости сходимости. Те же вопросы будут проанализированы для метода Ньютона, который отличается от метода ус- ловного градиента тем, что минимизируемая функция
202 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III аппроксимируется на каждой итерации квадратичной фор- мой, в то время как в методе условного градиента аппрок- симация линейна. 1. Правило выбора длины шага. Пусть х — произ- вольная точка из Q. Пусть z (х) — какая-либо точка ми- нимума функции (/'(rr), z) в области й, так что (/'(*), z(x)) <(/'(*), z), (3.2) Положим р (х) = Z (х) — X, Т] (х) = min (/' (х), z — х) = (f (х), р (х)). В силу (3.2) т] (х) 0. Нас сейчас будут интересовать оцен- ки для приращения функции при сдвиге из точки х в на- правлении р (х). Воспользовавшись формулой Тейлора и (3.1), получаем / (х + ар (х)| = / (х) + a (f (0), р (х)) = / (х) 4- + “ (/'(*)» р (*)) + а (/'(9) — /'(*)> Р (*)) < / (*) + 4- at) (х) 4- a2L Ц р (х) ||2, где 0 = х 4- gap (х), 0 < g < 1. Итак, / (х 4- ар (х)) < / (х) 4- а (Т) (х) 4- aL J р (х) ||«). (3.3) Из этой формулы сразу следует, что при 1 Л ОО 2 L||p(x)||« (3-4) справедлива оценка /(х4-ар(х))</(х)4-^-. (3.5) 2. Описание алгоритма. Алгоритм начинает работу с произвольной точки х^ области Й. Опишем общий шаг. Пусть точка хк уже построена, к > 0. Решив задачу минимизации (/'(#к), 2) в области й, вычислим z (хА.), р (хк), т) (хк). Строим точку xk+i = хк +акр (хк), где величина ак полагается равной 2“Ч а i0 — тот первый индекс i = 0,1, . . ., для которого выполняется неравен- ств) / (хй 4- 2чр (X*)) < / (xfc) 4- 2Ч . (3.6) Условие останова: процесс оканчивается, если -q (хк) = 0,
5 31 МЕТОД УСЛОВНОГО ГРАДИЕНТА 203 3. Обоснование и оценка скорости сходимости алго- ритма. В силу только что приведенного правила выбора шага выполняется неравенство /м</ад+-^- (3-7) Прежде всего для обоснования сходимости алгоритма необходимо показать, что всегда возможно удовлетворить неравенства (3.6), (3.7). Действительно, в силу формулы (3.4) и (3.5) неравенство (3.6) будет удовлетворяться, как только будет выполнено неравенство 1 W 2 L|P(^)F ’ а так как г0 — это первый индекс, при котором (3.6) вы- полняется, то ' 1 П > 2 ’ откуда а . (3.8) 4L ||р(хл)|р 4 7 Из только что сказанного следует, что если т] (хк) < 0, то неравенство (3.6) удовлетворится после конечного чис- ла проб, и выбранное ак будет удовлетворять неравен- ству (3.8). Лемма 3.1. Если хк, к = 0,1, . . .,— последователь- ность точек, полученных в процессе работы алгоритма ме- тода условного градиента, то хк ЕЕ £2, / (хк) монотонно убывает и т) (х^ —> 0 при к —> + оо. Доказательство. Пусть хк ЕЕ £2 для к^т. По- кажем, что xm+i ЕЕ Й. Действительно, 0 ак 1, а z (хк) ЕЕ £2. Поэтому xm+i = хт 4“ (^т) = хт 4" ат (2 (^т) хт) ~ = (1 ат) Хт 4“ (Xmz (хт) £Е £2, ибо область £2 выпукла. Заметим теперь, что Ц р (хк) J ограничена некоторой константой С, ибо р (хк) = z (хк) — хк, z (хк) ЕЕ £2, хк е ЕЕ £2, а £2 — компактное множество. Воспользовавшись
204 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш теперь формулами (3.8), (3.7), получим / — j (хк) < —§^5- if (хк). (3.9) Сложив (3.9) по всем к = 0,1, . . ., т — 1, получаем тп—1 / (хт) - / (х0) < — 3 'П2 (*к)- ft—0 Так как область й компактна, а функция / (х) непрерыв- на, то / (ят) > /*, где /* — минимальное значение / (х) в й. Поэтому m—1 2 П2 (*k) < 8LCa [/ (х0) - f (xj] < 8LC21/ (х0) - / J. к—о Из последнего неравенства следует, что ряд 2 п2ы к—0 сходится. Последнее возможно, лишь когда ц (xk) -» 0. Лемма доказана. Из условий останова алгоритма и леммы следует, что в общем случае либо алгоритм закончит работу за конеч- ное число шагов и будет выполнено условие ц (хк) = 0, либо будет получена монотонно убывающая последова- тельность значений / (хк) функции / (х). В первом случае условие ц (хк) = 0 в силу (3.2) экви- валентно условию (/'(*к)> - (f(xk), z (xk)) < (/' (хк), z), zE Й. Но последнее соотношение есть не что иное, как необхо- димое условие того, что функция / (х) достигает своего минимума в точке хк (см. гл. I, § 3). О втором случае говорит следующая лемма. Лемм а 3.2. В любой предельной точке последователь- ности хк, к = 0,1, . . ., выполняются необходимые условия минимума / (х) на множестве й. Пусть х* — предельная точка последовательности т. е. существует такая подпоследовательность
§ з] МЕТОД УСЛОВНОГО ГРАДИЕНТА 205 j —> оо, что хк.—Справедливы соотношения Л = (f (?*.), z (хк.) — хк.), z(xk.y)<^(f (хк.), z), zeQ. Без ограничения общности можно считать, что z (хк.) -> —» z*. Так как т) (хк) —> 0 и /' (х) зависит от х непрерывно, то из приведенных соотношений следует, что (/ (^*)> я* •£*) — Отсюда (/' (ж*), z#) < (/' (х*), z), z е й. (/ (•£*)> •£*) (/ (*^*)» ^)» й, что и доказывает лемму. Теорема 3.1. Пусть функция f (х) выпукла. Тогда lim/(xfe) = /#, fc->OQ где = min / (х). Более тогоь справедлива оценка хеО где С — некоторая положительная константа. Доказательство. Так как / (х) — выпуклая функция, то справедливо неравенство > min (/' (х), z — х) = т] (аг)> zeQ Таким образом, 0 / (х) — — И (ж)- Поэтому при всех к (3.10) Из леммы 3.1 следует, что 7] (хк) 0. Поэтому последнее неравенство показывает, что / (хк) —> /* и первая часть теоремы доказана. Совмещая (3.9) и (3.10), получаем (/ (#fc+i) /♦) (/ /*) 3LC2 /*]2,
206 методы Решения Задач с оТраничёН11ями (гл. ill Обозначив <рА = / (хк) — получаем Фы Фк 8LC2 ) ИЛИ 1 Фк+1 =СФк (1 -«Фк). И = -8ХС2 • Положив теперь фА = -у-, получим, что Тщ & + 1 (л _v М h к к1 И к ) ИЛИ Тт <-л , 1 _ x(* + l)Tt ТА к № (3.11) Возможны при каждом к два случая. 1) -^-<1. т. е. Tfe+i<Tfc- Чс 2) Тогда —х-^^-7А>0, т. е. i к 1 \ х fc + 1 х ‘ Далее, из (3.11) получаем, что Tfc+i fc-|-1 ^2 для к >1. Теперь возможны лишь две ситуации. 1) Существует лишь конечное число индексов к, для которых т* < . Тогда в силу вышеизложенного для всех больших к последовательность ук монотонно не возра- стает, т. е. остается ограниченной. 2) Существует неограниченное количество индексов к, для которых • Множество таких индексов Л мы обозначим через так что Тк ’С — для к s Пусть те-
$ 3] МЕТОД УСЛОВНОГО ГРАДИЕНТА 207 перь / Gzty. Тогда найдутся два таких индекса Aj, к2 £= что ki < j < Л2 и к ty для всех к^ < к < к2. Тогда Tfei+l ~тг Г* И Yi+i < Yi для всех i = kt + 1, к2 — 1. Поэтому Tj<V’ 7е^‘ Тем самым показано, что и в этом случае последователь- ность ограничена некоторой константой С. Отсюда сле- дует, что С что завершает доказательство теоремы. Полученная оценка показывает, что алгоритм схо- дится не слишком быстро. Правда, получена верхняя оценка, так что может показаться, что на самом деле ал- горитм сходится быстрее. К сожалению, в общем случае это не так. Как показано в работе Кеннон и Каллам [1], полученная оценка является точной в случае, если ми- нимизируется выпуклая функция на многограннике. 4. Оценка сходимости для сильно выпуклой области. Пусть область Q сильно выпукла, т. е. существует такое число 6 > 0, что для любых х, у Ez Q точки + w принадлежат £2 для всех w таких, что || w j| б || х — у || 2. Тогда ц (х) = min (/' (х), z — х)^ min (f (х), —-|- ц; _ й ||w||<8|]z(x)-x||» \ / < 4" > 2 (*) —*) — 61| Z (х) — Ж ||2 || f (X) Отсюда 4- я (*х—6 и (®) и IIz (*)—х II2« или -tT7W>6H'W|. (3-12)
208 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. III Теорема 3.2. Если] (х) — выпуклая функция, а об- ласть Q сильно выпукла и || /' (х) || > 80 > 0 для всех x^Q,mo метод условного градиента сходится со скоростью геометрической прогрессии, т. е. || хк — х* || Cq*, g0 < 1- Доказательство. Из (3.7) и (3.8) получаем, что 1 Л2 (xfc) Фк — Фк+1 = / (хк) — / (хк+1) > -gj- ц?(а.р|р . Воспользовавшись (3.12) и (3.10), получим Фл - Ф*+1 > 6е0 (— т] (х)) > Г-|г фл, т. е. Поэтому Фм'ч <Рл‘ 'Фт < Зтфо» А бво <7 = 1--4Г В силу необходимых и достаточных условий минимума (/ (*-*), X X*) 0. Поэтому для всех w, fl w || 6 ] х — х* ||2, (/'(**). ^4^ + w — ж*) >°. (/' («*)>х - х*) > fi k - х* II2 II /' (ж») II- Но I /'(я*) II > ео и в силу выпуклости / (х) f(x)—f (а:*) > (/'(х#), X — Хф). Окончательно получаем j(x) — f (х#) > 26е0 J х — х^ ||2. (3.13) Отсюда -*.К Обозначая
§ 3) МЕТОД НЬЮТОНА 209 получаем II %* II что и требовалось доказать. 5. Метод Ньютона с регулировкой шага. Будем сей- час рассматривать задачу минимизации выпуклой глад- кой функции / (х) на множестве (выпуклом, компактном) й. Для решения этой задачи можно использовать итера- ционный процесс Хк+1 = xk + akpk, ak > 0, (3.14) в котором направление движения рк = %к — хк есть ре- шение задачи минимизации на множестве й квадратичной функции Ф» (*) = (/' (*й)> * ~ + -у (Г — х*)> х — а в качестве ак берется наибольшее значение параметра а, получаемое дроблением начиная с а = 1, удовлетво- ряющее неравенству / + арк) — / (хк) < (хк), 0 < 8 < 1. (3.15) Можно выбирать ак и другими способами — аналогично тому, как это описано в § 2 гл. II (способы (II.2.2), (II.2.3)). Ниже мы убедимся, что скорость сходимости метода Ньютона при определенных условиях будет либо сверх- линейной, либо квадратичной. Следовательно, если за- дача минимизации функции фЛ(х), х ЕЕ й, решается доста- точно просто, метод Ньютона оказывается весьма эффек- тивным. 6. Свойства метода Ньютона. Теорема 3.3. Если для минимизации выпуклой дважды^непрерывно дифференцируемой функции f (х) на выпуклом замкнутом ограниченном множестве^! исполь- зуется метод (3.14). в котором^оск и рк определяются опи- санным выше образом, то (независимо от выбора началь- ного приближения х0 €= й): 1) / (хк) монотонно убывает!*, 2) lim / (xfc) = / (x#) = min f (x). fc-*oo xeQ Доказательство. Точка минимума Xk (воз- можно, не единственная) непрерывной функции ф/с(^) на
210 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III компактном множестве Й существует (теорема Вейерштрас- са). При любом к точка xfc+1 е й, поскольку = хк + + (Як — хк) = + (1 — ак) хк, а ак G= [0, 1]. В силу выпуклости функции фк(г) будет (хк+1) = = Ф»(аЛ + (1 — ак) хк) < акфк (гк) + (1 — а.к)$к(хк). Но tyk(xk) = 0, поэтому (346) Теперь, воспользовавшись формулой Тейлора и учиты- вая (3.16), получим а2 /(^fc+l) -/(«*) = (*к+1) + -£-(FkPk, РкХ <МН^1 + тг-ЦпП^")’ (ЗЛ7) ГДе Fk = / (якс) / (.Гк)> %кс = ^к Ч- 3 (л'&+1 .Г|с)» О [0, 1]. Отсюда следует, что если фк ($к) =# 0 (в этом случае фк(гк) < фк (хк) = 0), то при некотором ак>0 будет выполняться неравенство (3.18) z п \^к) Но при этом выполняется также неравенство (3.15), что и доказывает возможность выбора ак описанным спо- собом. Из (3.15), следует, что / (хк+1) f (хк). Покажем те- перь, что фй(%) 0 при к оо. На замкнутом ограни- ченном множестве й непрерывная функция f'\x) ограниче- на: Ц f"(x)\ М. Следовательно, 11 Fk || 2М. Вектор рк также ограничен: || рк | шах || х — у || = d. Предпо- х, ложим, что при любом к будет ф& ($к) — Р < 0. Тогда 4 , «к l^liPkF „ Md? 1+^~ W“> откуда следует, что неравенство (3.18) (а поэтому и (3.15)) (1 — е) 3 г А заведомо выполняется уже при ал = - = С 0. Но при этом из (3.15) вытекает, что f (хк+1) —f(xk) — sCp при любом к, что противоречит ограниченности f(x) снизу на компакте й.
§ з! Метод йЬюТойА 211 Таким образом, условие (£fc) — |3 при любом к выполняться не может, т. е. во всяком случае при к -> оо должно выполняться условие фй(^) ->0. Это означает, что в любой предельной точке последовательности (3.14) выполняется необходимое (и достаточное в силу выпук- лости / (ж)) условие минимума функции f{x) на множестве £2 (см. гл. I, § 4). С учетом этого доказательство заклю- чительного утверждения теоремы можно провести так же, как в теореме 3.1. Доказанная теорема показывает, что в отличие от за- дач минимизации без ограничений, где метод Ньютона применим лишь для минимизации сильно выпуклых функ- ций, в изучаемой задаче в силу ограниченности множества £2 возможно применение метода Ньютона и для минимиза- ции выпуклой функции. Однако наибольший интерес представляет использование метода Ньютона для мини- мизации сильно выпуклых функций, ибо именно в этом случае метод будет сходиться к решению с высокой ско- ростью. Теорема 3.4. Если, в дополнение к условиям теоре- мы 3.3, функция / (х) сильно выпукла, т. е. т | У F < (/"(*) У1 у) < М J у II2, т > 0, х е Q, у е Е\ (3.19) то последовательность (3.14) сходится к решению со сверх- линейной скоростью {т. е. справедлива оценка (II.2.5)). Доказательство. Существование и един- ственность решения рассматриваемой задачи вытекает из общих результатов § 3 гл. I. В точке %к выполняется не- обходимое условие минимума функции ф^(^) на множестве £2 (§ 4 гл. I): (Ф& (^fc)» %k) О» т. е. (/' М, %* - хк) + (/" (^) {хк — х*), %к — < О, откуда (/'Ы, Рк) < “ (Г(^) Рк. Рк)- (3.20) С учетом этого и левой из оценок (3.19) оказывается ФЛ^)<-^1Ы2- (3.21)
212 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Используя эту оценку в (3.17), получим / Ы - / (л) < «Л (*к) (1 - • (3-22) Так как ф/с(^/с) ->• 0 (теорема 3.3), из (3.21) следует, что У рк || -> 0 при к-+ оо. Отсюда ввиду равномерной непре- рывности второй производной f\x) на множестве й вы- текает, что || Fft|| -> 0. Но при этом, как следует из (3.22), начиная с некоторого к = (е) неравенство (3.15) будет выполняться при ак = 1, т. е. метод (3.14) перейдет в обычный метод Ньютона с единичным шагом. При к > N1(&) с учетом выпуклости \|)fc(z) будет Фк (% к) = Ф& (я к+1) > (/ (#fc)> % к+1 %к) ~ == (/' (*fc-l), Хк+1 — Хк) + (/' М — /' М Хк+1 — Хк). Преобразовав последнее скалярное произведение с по- мощью формулы Лагранжа для операторов (гл. I, § 5), получим после некоторых преобразований Ф& (%к) = (/' + /" (^-1) (хк — хк^, хм — хк) + + (Ф^ (хк — хк^), хк+1 — хк), (3.23) где Ф/f = f {хк^ + 0i (хк — Хк^)) — /" (^fc-i), 0 ЕЕ [0, 1]. Заметим, что (/' (хк_х) + /" (хк^) (хк — хк_^ хк+1 — хк) == = (Ф^1(*Д хк+1 — хк). Поскольку (хк) = min ф^ (ж), хеп при любом хЕЙ будет ($£_!.(жк), х — (необходи- мое условие минимума). Следовательно, справедливо (i|4-i (хк), хк+1 — хк) > 0 и поэтому из (3.23) вытекает — ’f* (®k) < II Фй II kfc — IIII хк — ^fe+i II = II фк IIII Рк-1 IIII Рк И- (3.24) Сопоставляя оценки (3.21) и (3.24), получаем II Хк+1 — tffcll^ —— xk-i ||. (3.25) В силу равномерной непрерывности f\x) на множестве й будет ||ФЛ~>0. Следовательно, найдется число N (s) i 2»ФЛ /Л такое, что при к N (в) окажется лк = ------------------ <<1.
§ 3] МЕТОД НЬЮТОНА 213 Положим || xN — Ц = Сх, 1 — Xjv = у 0. Тогда г—1 11^—xw+I||< 2 Ihs+i— k=N+l CAtAn+I . . . A/jv+l (1 + ^N+l+1 + ^N+l+1 + • • • + т — Xjv ... 'kn+i = CKn ... Kn+i . 1 ~ЛЛГ Следовательно, при i, I -> oo || xt — xn+i J -> 0, т. e. по- следовательность {xk} фундаментальна и в силу полноты пространства Еп имеет предел х* с= Q, причем || %n+i — #♦ IK CKn^n+i ... Хдг+z. (3.26) В силу теоремы 3.3 lim / (хк) —f(x^) = min/(#). fc->oo Таким образом, последовательность (3.14) сходится к решению, причем скорость сходимости, как показывает оценка (3.26), сверхлинейная. Теорема доказана. Если вторая производная f"(x) на множестве £2 удов- летворяет условию Липшица с константой 2?, то неравен- ство (3.25) принимает вид ||^+l~^IK“^*||^“"^-ill2- (3.27) Обозначим 1| хк+1 — хк Ц. Так как (| хк+1 — хк || -> 0, то найдется число L (в) такое, что при к L будет pfc < 1. С учетом (3.27) при к^> L P,<PU<..KPl“l. Следовательно, для любого Z > L + Z, Z = 0, 1, ..., i-l i-l ||Х{—- ^l+z IK 2 II— ^fclK'g’S" ₽1 == /f=L4~Z fc=L-f-Z 8»! Поскольку xk —> x^, ||xl+i — x* || = lim || xl+i — хг ||, t. e. i—и» oo || ^L+l Ж» II ~2R S Pt • s=*l
214 Методы реШёний задач с ограничениями [гл. ш Эту оценку можно представить в виде (учитывая, что ряд со 2 31 сходящийся) s=l ||;гг+1 — zJKCPl, С<оо. Полученная оценка означает, что справедлива Теорема 3.5. Если выполняются условия теоремы 3.4 и, кроме того, матрица /" (х) на множестве Q удовлет- воряет условию Липшица с константой R, то последова- тельность (3.14) (в которой и рк выбираются описан- ным выше способом) сходится к решению с квадратичной скоростью. Изучим теперь свойства метода Ньютона при выборе величины из условия минимума / (х) в направлении движения. Рассуждения, которые мы использовали для оценки скорости сходимости метода Ньютона в задачах без огра- ничений (§2 гл. II), в данном случае не годятся (по- скольку не сохраняет силу правая из оценок (II.1.11)). Лемма 3.3. Если минимизируется функция f (х), для которой выполняются условия (3.19), и в методе (3.14) afe выбирается из условия / = min / + apt), (3.28) 0<а<1 то хк х*, причем -> 1 при к -+ оо. Доказательство. По формуле Тейлора а2 / (#fc+i) / (#fc) = (/ (^fc)» Рк) Н 2~ (/ (%кс) Рк' Рк)9 При значении afc, удовлетворяющем (3.28), правая часть полученного равенства, рассматриваемая как функ- ция переменного а, должна достигать минимума. По- этому нетрудно убедиться, учитывая оценки (3.19) и (3.20), что . (И**). Pj _ т Таким образом, > С > 0, поэтому так же, как в теореме 3.3, показывается, что (^) 0. т. е. последо-
§ з] МЕТОД НЬЮТОНА 215 вательность (3.14), в которой ак выбирается из условия (3.28), сходится к решению. При этом 0 и || Fk | —> 0 (теорема 3.4). Покажем, что ак 1: а? 1 (*fc+i) = Ф|с (*»+1) + ~2 (FkPk> Рк) = (хк) + 4“ (Ч’й (%к)> #k+i — ®fc) 4" ~ (Ф» (%к) (хк+1 — ®к), хк+1 — % к) 4" Яь. г, + ~2~ №крк, рк). Учитывая, что хк+1 — $к = (ак — 1) рк, получаем / (хк+1) == Фй (^й) + (Фй (^й)» Я/С4-1 — ^й) + (а. —. 1)2 „ а? 4-----2-----Рк) 4" ~2~ (FkPk, Рк)' Заметим, что (фк (хк), хк+1 — хк) > 0, а ($к(як) рк, рк) — = (Г(хк) Рк, Рк) > т I Рк И2, в то же время (Fkpk, рк) = о (jpk ||2) (поскольку || Fk |] -> 0 при ||pft||0). Следовательно, ми- нимум разности / (xk+i) — ф& (®fc) может достигаться только при ак -* 1; в противном случае при любом к было бы 1 — ак>р>0 и при этом / (жк+1) — ($к) = = О(||рл |2)^>0, в товремя какпри а = 1 разность/(гк) — — Ф/с (%к) = -^(Fkpk, рк) =o(|pfc|a), т. е. при достаточно большом к заведомо было бы / (%к) < / (хк+1), что проти- воречит условию выбора ак. Лемма доказана. Теорема 3.6. Если функция f (х) удовлетворяет требованиям теоремы 3.4 и в методе (3.14) параметр ак выбирается из условия (3.28), то хк-^~х# со сверхлиней- ной скоростью. Доказательство. В силу оценок (3.16) и (3.21) Фл (^fc+i) < Mfc (гк) < «л Ф/с (гл) < — -у т II Рк II2> т. е. Ф/с (^fc+1) —2” И a'ft+1 — хк И2, (3.29) С другой стороны, фк (хк+1) > (/' (хк), хк+1 — хк) = = (f (xk), Хк+1 — хк-1) 4- (/' (®fc), Як-1 — хк)' Поскольку в точ- ке хк достигается минимум / (х) в направлении
216 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. III то(/' (хк\ хк^ — хк) > 0. С учетом этого Ф/r (хк+1) > (f Хк+1 — = = (/ fak-i), хк+1 — %к-1) + (/ (хк) — / (Яй-1)> #л+1 — W Выражая последнее слагаемое в правой части с помощью формулы Лагранжа для операторов и проделав некоторые преобразования, получим ^к Ы > (Г (Хк-i) + /" (*&-i) (Л — хк-1), хк+1 — %k-i) + + (ф (хк — Хк+1 — tffc-i)» где Фй = /"(хк—г + 0 (хк — х^)) — f' (xw), 0 ejO, 1]. С уче- том того, что хк — хк_г = Як-! (хк_г — оказывается (*ui) > (/' + Г (*fc-i) (^-i — *fc-i), xk+i — $k-l) + + ((afc-l — 1) f (#fc-l) {Xk-1 — xk-l) + Фй (xk —Xk-]),Xk+1—^fc-1). Так как Фл-i (Хк-i) = min ipfc-x (я), xsO to (i|)fc-i (^fc-i)» xk-i — x) 0 для BCex # €= Q (необхо- димое условие минимума). Следовательно, (Фк-1 xk-i — xk+i) == “ (/ + f (^/c-l) (^fc-1 — £fc-i), -#fc+l) 0. Учитывая это, устанавливаем справедливость оценки > ( (“ПГ------f “b Ф*) (хк — хк-1)> хк+1 — хк-1) Отсюда, обозначив || [ай_х — + ф/с II = получим — 'Фк (хк+1) < ък II хк — хк^ || ||xfc+1 — Sfc-11| < < Ьк || Xk — Хк^ || ( || Хк+1 — Хк || + J Jfc-i — хк ||). Учитывая теперь, что хк-1 хк = (хк хк-1)» afc-l и обозначая [(1 — afc-J/afc-J bk = ск, получаем — (Я/с+1) < h || хк — Хц-j, || || ХКН — хк || + Ск || хк — ||2.
§ 4] МЕТОД ОТСЕКАЮЩЕЙ ГИПЕРПЛОСКОСТИ 217 Поскольку ал->1, || рк || 0 (лемма 3.3), то ск -> 0. Сопоставляя полученную оценку с (3.29), уста- навливаем: || хк+1 хк 112 Bfc II хк хк-11| || хк+1 хк || Р/с [ хк хк-11|2» где t = 2Ьк = 2ск щ ’ т Наконец, решая полученное квадратное неравенство относительно [ xfc+1 — хк ||, находим II хк+1 хк И Hfc 0 хк хк~11, где ________ = 4 + l/^r + p* ~*° ПРИ к-*00- Дальнейшее доказательство проводится так же, как в теореме 3.4. § 4. Метод отсекающей гиперплоскости Метод отсекающей гиперплоскости предназначен для решения задач выпуклого программирования. Основная идея метода состоит в том, что допустимая область аппрок- симируется некоторым многогранником, который умень- шается от одного итерационного шага к другому, все лучше аппроксимируя допустимую область в окрестности ре- шения. Метод применяется к задаче выпуклого программи- рования в форме: минимизировать fQ(x) = (с, х) при ог- раничении (4.1) где / (х) — непрерывная выпуклая функция. Тот факт, что минимизируемая функция /0(х) линейна, а ограничение (4.1) состоит лишь из одного неравенства, не играет большой роли, так как если область задана не- сколькими неравенствами /t (ж) 0, i = (4.2) с выпуклыми функциями ft (х), то эту систему неравенств
218 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ (ГЛ. Ill можно переписать в виде (4.1), положив f(z) = max fa(x). Если же выпуклая функция /0 (х) нелинейна, то> введя дополнительную координату хп+1 и добавив неравенство /т+1 (х, Хп+1) = /о (х) — Хп+1 < О к системе (4.2), можно свести задачу к минимизации ли- нейной функции хп+1 при ограничениях (4.2). Поэтому будем исследовать задачу в форме (4.1). Прежде чем пере- ходить к изложению алгоритма, напомним, что вектор а является опорным к f (х) в точке xQ, если f (х) f {х^ + + (а, х — я0) для всех х. Как следует из результатов § 2 гл. I, для непрерывной выпуклой функции множество та- ких векторов непусто в любой точке пространства. 1. Алгоритм. Пусть Q = {х : / (х) < 0} — непустая допустимая область. Предположим также, что £2 компактна и известны такие векторы к = — Z, — (Z — 1), . . ., —1, 0, и числа что область S = {х: (ак, х) — Ьк^0, к = —I, . . ., 0} компактна и содержит Q. Теперь для fc > 0 последовательные приближения оп- ределяются по следующему правилу. Полагаем 50 =5. Если Sk уже построено, то хк есть любое решение задачи линейного программирования: минимизировать /0(х) = = (с, х) при х ЕЕ Sk. Следующая область строится по правилу *$к+1 = {&' (ак+1> х) — frfc+i < 0} П (^*3) где ак+1 опорный вектор к f (х) в точке хк, а bi+1 = (ак+1, хк) — / (хк). (4.4) Из формул (4.3) следует, что Sk+1 CZ Sk и для к > 1 Sk = {х: (a.j, х) — bj 0, j = — I, .... —1, 0, . . ., к — 1}. Лемма 4.1. Для всех к 1 £2 С Sk.
§ 4] МЕТОД ОТСЕКАЮЩЕЙ ГИПЕРПЛОСКОСТИ 219 Доказательство. Пусть х £2, т. е. / (х) 0. Тогда / (ж) > / + (а}, х — = (а;, X) — Ъ} и, значит, (а), х) — bj 0, j = 1, . . ., /с. При / ^0 по- следние неравенства выполняются в силу выбора aj и bj для у 0. Лемма доказана. Из леммы 4.1 сразу следует, что /о (*о) /о (#1) /о (*fc) /о (^fc+l) • • • G другой стороны, если х* — точка минимума /0 (х) в Й, то /о (хк) < /0 (х*), поскольку Sk ZD Й. Теорема 4.1. Пусть f (х) — непрерывная выпуклая функция, область й компактна и существует такое число К, что при каждом XES вектор а, являющийся опорным к / (х) в точке х, удовлетворяет неравенству || а || К. Тогда любая предельная точка х* последовательности хк, к = 0,1, . . ., является решением задачи (4.1) и / (хк) -> -^0. Доказательство. Поскольку 50 = S, Sk ZD ZD Sk+li то вся последовательность хк принадлежит ком- пактному множеству S. Поэтому предельные точки этой последовательности всегда существуют. Заметим теперь, что если / (хк) 0 для некоторого к, то хк 6= й и, значит, /0 (хк) > /0 (х#). Однако ранее было показано, что /0 (хк) /0 (х*). Таким образом, /о (хк) =/о(я*), т. е. хк — решение исходной задачи. Пусть теперь последовательность хк бесконечна и f (хь) > 0 для всех Докажем, что / (хк) ->• 0. Допустим противное. Тогда найдется такое число г > 0 и такая под- последовательность индексов к, которую мы обозначим через CJ, что / (rrfc) > г, к ЕЕ 3. Не ограничивая общности, можно считать, что хк -> £, к ЕЕ О, так как последователь- ность хк принадлежит компактному множеству. Пусть теперь /си/ принадлежат О и к > j. Тогда точка хк по построению удовлетворяет неравенству («}+ь ®k) — Ь} = (а;+1, хк — Xj} + / {Xj) < 0, откуда / < («/+1. х} — хк) < К J х} — хк |. Но последовательность хк, к ЕЕ У сходится к Z и поэтому 1
220 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III D х} — хк | г/ (2К) для всех достаточно больших к и /, так что / (xj) г/2 для больших /, что противоречит / (xj) г, ]<=У. Итак, показано, что / (xfc) 0. Пусть теперь х — лю- бая предельная точка, т. е. хк Я, к е= //, где У — неко- торая подпоследовательность индексов. Тогда в силу неп- рерывности / (х) /(£) = 1ппЖ) = 0, т. е. Е Q. С другой стороны, /0 (хк) /0 (х*) и по- этому /0 (X) < /0 (я#), откуда сразу следует, что /0 (^) = = /о (ж*) и я — также решение задачи (4.1). Теорема до- казана. 2. Вычислительные аспекты. Алгоритм отсекающей гиперплоскости требует на каждом шаге решения задачи линейного программирования: минимизировать /0 (х) = = (с, х) при ограничениях (af, х) — 0, i = — Z, . . ., к. (4.6) Таким образом, с каждым шагом объем решаемой задачи увеличивается. Увеличивается также и память, необхо- димая для хранения векторов ак. Для упрощения решения задачи (4.6) удобно вместо нее решать двойственную за- дачу, которая в данном случае имеет вид: максймизиро- к вать — 2 ui^i при ограничениях i=-l к 2 и1&1 + с = 0, и* > 0, i = — Z, . . ., к. i=-i При решении этой задачи симплекс-методом решение предыдущей задачи служит допустимым решением для.по- следующей. Оно также служит хорошим приближением, так что решение новой задачи будет получаться после не- большого числа итераций. На каждом шаге алгоритма также требуется вычис- лять вектор flfc+i, опорный к f (х) в точке хк. Напомним (см. гл. I), что если / (х) — дифференцируемая функ- ция, то ак+г = f (хк). Если же / (х) есть максимум из дифференцируемых^ функций, т. е. /*(х)>—niax А (ж), то в:качестве. можно взять любой - дектор вида
§ 5] МЕТОД ЛИНЕАРИЗАЦИИ 221 3 где ^>о, 2 М =1> # (*л) = ie^(xfe) ie4/(xfe) « {i : fi (xk) = / (xk), 1 i m}\ в частности, можно положить afe+1 = fi (^),где i — любой индекс из 3 (хк). Указанные только что правила следуют из изложенного в § 2 гл. I. 3. Заключительные замечания. При изложении ме- тода отсекающей гиперплоскости мы следовали статье Келли [1]. В настоящее время имеется целый ряд мо- дификаций этого метода. Их можно найти в статье Е. С. Левитина и Б. Т. Поляка [1]. Однако все эти модификации, по-видимому, не улучшают главного, что нас интересует в данный момент,-— скорости сходи- мости, которая непосредственно для изложенного выше метода не оценена точно, однако результаты, полученные в указанной статье, позволяют судить о том, что эта ско- рость не будет даже геометрической. § 5. Метод линеаризации В этом параграфе мы рассмотрим метод решения общей задачи математического программирования, не делая ка- ких-либо допущений о выпуклости встречающихся функ- ций. Существенной особенностью метода является воз- можность учета нелинейных ограничений типа равенства, что является камнем преткновения для большинства дру- гих методов. Пусть требуется минимизировать функцию /0 (ж), хЕ ЕЕ Еп, при ограничениях Л(*)<0, feJ-, iEJ0,' (5.1) где У" и — конечные множества индексов. Предполо- жим, что все функции fi (х) непрерывно дифференцируемы. (Более полно ограничения, при которых исследуется за- дача, будут оговорены ниже). Заменим в точке х0 все ограничения (5.1) и /0 (х) на линейные, линеаризовав fi (х) в точке х. В результате получится некоторая задача линейного программирования. Естественно было бы ре- шение линеаризованной задачи взять в качестве следую- щего приближения, как это делается в методе Ньютона для решения систем нелинейных уравнений. К сожалению,
222 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III прямо этот путь не приводит к цели, так как, как правило, вспомогательная задача линейного програм- мирования не имеет решения. Поэтому необходимо нало- жить некоторые ограничения на приращение вектора х в точке Xq, чтобы решение линеаризованной задачи в точ- ке х0 не уходило слишком далеко от xQ, оставаясь в такой окрестности я0, в которой линеаризация еще справедлива. Это и будет проделано ниже путем добавления квадратич- ного члена к линеаризованной целевой функции. Заметим, что каждое равенство f£ (х) = 0 эквива- лентно двум неравенствам ft (х) < О, - f£ (х) < 0. Поэтому можно ограничиться рассмотрением лишь слу- чая наличия только ограничений типа неравенства. Такое ограничение удобно по крайней мере при теоретическом обосновании алгоритма, хотя удвоение числа неравенств может быть неудобным при вычислениях. Ниже будет из- ложено теоретическое обоснование алгоритма для задачи минимизации /0 (х) при ограничениях А (х) < 0, i Е /У. (5.2) О модификации алгоритма для общей задачи (5.1) будет сказано отдельно. Таким образом, не теряя общности, мы будем иссле- довать алгоритм для задачи (5.2). Ясно, что всегда можно предполагать наличие среди неравенств (5.2) тривиаль- ного: 0 0. Поэтому будет предполагаться, что среди функций ft(x), lEECf, имеется одна, равная тождествен- ному нулю: ft (х) = 0. 1. Основные предположения. Положим F (х) == шах Д (гг), (5.3) (х) = {i е У: fi (х) ^F(x)- б}, б > 0. В силу ранее сделанного предположения F (ж)>0 при всех х. Предположим, что существуют такие константы N 0, б > 0, что: а) Множество Йлг = {*: /о (*) + NF (х) < Со}, Cq = /0 (х0) + NF(x0), ограничено.
МЕТОД ЛИНЕАРИЗАЦИИ 223 § 5] б) Градиенты функций /г (ж), iG {0} (J в Фу удов- летворяют условию Липшица, т. е. II А (ж1) А (^2) II L* Л ж2 Л* в) Задача квадратичного программирования min (/о (х), р) + -у- J р ||2, (5.4) (Х(*),р) + А(*)<0, разрешима относительно р£Е“ при любом i £ йи и существуют такие множители Лагранжа u1 (ж), iGE Js (ж), что 3 и’ (ж) N. Здесь и всюду в этом параграфе J р И <е^8(х) обозначает евклидову норму вектора р. В дальнейшем решение задачи (5.4) будем обозначать через р (х), а множители Лагранжа — через и1 (ж), iGE («). 2. Формулировка алгоритма. Пусть х0 — начальное приближение и выбрано е, 0 < 8 << 1. Пусть в процессе работы алгоритма уже получена точка хк. Построение сле- дующего приближения производим в два этапа. 1) Решаем задачу (5.4) при х = хк) находим ее реше- ние — вектор рк = р (хк). 2) Находим первое значение i = 0,1, . . ., при котором будет выполнено неравенство / (^к + -£ Рк) + NF (^к + “j" Рк) "С </(жк) +М?(Хк)-4-8|Ы2- Если это неравенство впервые выполнилось при i = г0, то полагаем = 2"Ч = хк + а^рй. Таким образом, выполняется на каждом шаге следую- щее неравенство: / (*m) + NF (жк+1) < / (жк) + NF (жк) — ake || pk ||2. (5.5) 3. Сходимость алгоритма. Покажем, что выбор шага afe на каждой итерации осуществляется за конечное число дроблений единицы пополам, и обоснуем сходимость ал- горитма.
224 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Из результатов, изложенных в гл. I, § 3, следует, что р (х) есть решение задачи (5.4) тогда и только тогда, когда существуют такие и1 (х) >0, iE Л (х), что /о (я) + Р (*) + 2 = (5.6) ieiX8(x) w1 (*) ((A (*)» P (*)) + fi (*)) = 0, i e J8 (x). Поэтому (fo (x), p (ж)) = - 2 (®) (X W’ P (*)) - IIP (x) II2 = iG^s(x) » 2 “Wi(*)-||P(*)ll2- (5-7) i<=^8(x) Л e м м a 5.1. Для того чтобы точка х удовлетворяла неравенствам (5.2) и в ней выполнялись необходимые усло- вия минимума /0 (х) при ограничениях (5.2), необходимо и достаточно выполнение равенства р (х) = 0. Доказательство. Пусть точка х удовлетво- ряет (5.2) и в ней выполняются необходимые условия ми- нимума для /0 (ж). Тогда существуют такие числа и1 0, i е что /о (я) + 2 и<Х (я) = °, uifi (#) = °> (5.8) Если х удовлетворяет (5.2), toF (ж) = 0, и поэтому Уо (х) совпадает с множеством тех I, для которых /г (ж) = 0. Кроме того, в силу второго соотношения (5.8) и' = 0, если fi (ж) < 0, т. е. если i Е (х). Поэтому, учитывая, что j8 (х) = Jo (ж), (5.8) можно переписать в виде fo(x)+ 2 »*А(®) = 0, иУ{(ж) = 0, ieJs(x). iS^5(x) Но сопоставление последних соотношений с (5.6) показы- вает, что вектор р = 0 есть решение задачи (5.4), ибо при р = 0 удовлетворяются все ограничения (5.4) (ибо (5.2) удовлетворяются), а выполнение соотношений (5.6) при р = 0 есть необходимое и достаточное условие того, чтобы вектор р = 0 был решением (5.4).
§ 51 МЕТОД ЛИНЕАРИЗАЦИИ 225 Пусть теперь р (х) = 0. Это значит, что ограничения задачи (5.4) удовлетворяются при р = 0, т. е. fa (х) 0, i ЕЕ Js (х). Так как для i е (х) fi (x)^F(x) где / е Л (#У> то точка х удовлетворяет всем ограниче- ниям (5.2). Кроме того, при р = 0 соотношения (5.6) пе- реходят в (5.8), если положить i?= 0, iE Jo (я). Таким образом необходимые условия минимума /0 (#) при огра- ничениях (5.2) также удовлетворяются, что завершает доказательство. Оценим теперь изменение всех входящих в задачу функций при сдвиге из точки хк в направлении рк. Для i ЕЕ Js (^jt), используя формулу Тейлора, полу- чаем Л (*k + aps) = fi (*k) + a (pk, fi (xs)) + +а(Рк-Л(0«) —/i(*k)), где 0г = xk + a&tPk, 0 -C Так как pk — решение (5.4) при x == x^ то fi + aPk) < ft (*k) — a/i (*k) + a2 II Pk II2 L < <(1 — a)/г (a:k) + a21| pk ||2 Ь, (5-9) где при выводе мы воспользовались тем, что градиенты fi (х) удовлетворяют условию Липшица. Для i €Е Js (я\) fi (*к + «Рк) = fi fa) + a (pk, fi (0г)) < <F(xk) -6+ а^||рк||, (5.10) где К — величина, ограничивающая || f, (ж) | в Qjv. (1-a) F(xk)>F(xk) -6 + a/qiPkll для a, удовлетворяющих условию a 1, 0 < a < ’ <5Л1) то из (5.9) и (5.10) следует, что для всех i имеет место не- равенство ft (^к + «Рк) < (1 — a) F («к) + «2Ь || рк Я2> (5.12) если только а удовлетворяет условию (5.11). 8 Б. Н. Пшеничный, Ю. М. Данилин
226 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ (ГЛ. III Аналогично предыдущим оценкам /о + “Рк) = /о (*k) + а (Рк, /о (а*)) + +«(Рь. /о (9о) — /о (а*))» 0® = % к 4~ ®&оРк» 0 1>о !•] Воспользовавшись (5.7) и условием Липшица для гради- ентов, получаем /о (а* + apfc) < /о (ж*) + а ( 2 ui (я») fi (®k)) — i(=^5(x&) -alM + tfLM. Отсюда и из (5.12) следует, что /о (Хк + apfc) 4- NF (хк + apk) < /® (xk) + NF (хк) + + a ( 2 ul (®k) fi (*k) “ NF (*k)) - a II Pk II2 + iS^(xfc) + аа(ДГ + 1)£|Ы12- (5-13) Вспомним теперь, что u’ (хк) > О, F (хк) > 0 и 2 и* (®k) < N- te^8(xk) Поэтому 2 ui (xk) fi (xk) — NF (xk)^0. iei'eCap Но тогда (5.13) перепишется в виде /о (хк + “Pk) + MF (хк + арк) < /® (хк) + NF (хк) — — а Црк|Р (1 — a (TV + 1)L) или, если ° < a < (TV +1) £ ’ (5.14) то /о (жк + «Рк) + NF (хк н- арк) < /® (хк) + NF (хк) — — “в || рк ||2. (5.15) Итак, если О < a < afe, • /л д 1 — 8 \ ak-min^i, , {N + l)L)’ то выполняется неравенство (5.15).
§ 5] МЕТОД ЛИНЕАРИЗАЦИИ 227 Но это означает, что неравенство (5.5) будет выпол- нено после конечного числа проб а = 2”1, i =0,1, . . ., и при этом будет иметь место неравенство «л >4'“*- (5Л6> Докажем теперь следующую теорему о сходимости процесса. Теорема 5.1. Если выполнены сделанные, в п. 1 предположения, то процесс обладает следующими свой- ствами: a) F (хк) 0 при к -> оо; б) в любой предельной точке х* последовательности хк, к =0,1, . . ., выполняются неравенства (5.2) и необходи- мые условия минимума /0 (х) при ограничениях (5.2). Замечание. Стремление F (xk) к нулю означает, что последовательность xk все более точно удовлетворяет ограничениям (5.2). Доказательство. Все точки хк принадлежат области Qw, так как функция /0 (х) + NF (х) в силу (5.15) убывает от шага к шагу. Далее, так как йдг — компактное множество, то /0 (х) + NF (х) ограничена на этом множе- стве, ибо эта функция непрерывна. Отсюда следует, что (5.17) при к оо, ибо в противном случае /0 (х) + NF (х) не- ограничено убывает вдоль последовательности хк. Докажем, что рк 0. Действительно, если рк не стре- мится к нулю, то из (5.17) следует, что ак 0 вдоль не- которой подпоследовательности индексов к. Но из (5.16) и выражения для ак следует, что для больших к тогда 1 - 1 б 2 ак- 2 F + К ц р* ||. Поэтому должна стремиться к нулю правая часть по- следнего неравенства. Так как F (х) — непрерывная функ- ция на компактном множестве то F (х) ограничена б сверху и выражение (ж ) _|_ х || р ||может стремиться к ну- лю, лишь если + оо. Но из (5.6) мы получаем,
228 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. III ЧТО ||p(^)ll = ||/ofe)+ S u4^)A(xfc)|<£(7V4-l). ie4/5(xfc) Таким образом, мы пришли к противоречию, предпо- ложив, что pk не стремится к нулю. По определению pk выполняются соотношения (А Рк) + fi Ы) <0, i е J8 (хк). Поэтому fi (*к) < — (fi (*»). Рк) < К II Рк Я. i G ^8 (хк). Но fj(xk) < ft (хк), j s J8 (хк), i e J8 (хк). Отсюда F (xk) = max Д(xk) < К || pk ||. is./ Значит F (xk)-> 0 при k-*-oo, ибо F (xk) > 0. Далее, положим и1 (x) = 0, iG^s (x). Тогда вдоль последователь- ности xk (5.6) можно переписать в виде /о (хк) + Рк + 2 и1 (хк) fi (хк) = 0, (5.18) W’ (Хк) ((А (Хк)> Рк) + fi (Хк)) = 0, i е X Пусть теперь х* — предельная точка последователь- ности хк. Так как хк £- йдг и Qyv компактно, то такие точки всегда существуют. Без ограничения общности мы можем считать, что хк -> я*. Кроме того, так как и1 (х) > 0, i G и их сумма ограничена, то можно считать, что и1 (хк) ui при к оо. Переходя к пределу в (5.18), получаем /о (х*) + 3 uifi(x*) =°> uifi (х*) = °, ieX Кроме того, и1 0, ибо и1 (хк) > 0, а точка х* удовлет- воряет всем ограничениям (5.2), ибо ft (хк) < F (хк) и Р (хн) 0» откуда с помощью предельного перехода по- лучаем fi (х^) 0. Тем самым мы убедились, что необхо- димые условия минимума в точке х* выполняются. Теоре- ма доказана. Следствие. Если единственной точкой, в которой выполняются необходимые условия минимума, является
МЕТОД ЛИНЕАРИЗАЦИИ 229 § 5] точка минимума, то порождаемая алгоритмом последо- вательность сходится к точке минимума /0 (х) при огра- ничениях (5.2). Действительно, в этом случае в силу теоремы 5.1 един- ственной предельной точкой последовательности xk мо- жет быть только точка минимума. 4. Вычислительные аспекты. Основной операцией, тре- бующей значительных вычислений при реализации ал- горитма на каждом шаге, является решение задачи (5.4). Это задача квадратичного программирования. При вы- боре метода решения этой задачи необходимо учитывать, что поскольку задача (5.4) является вспомогательной, ее решение необходимо получить за конечное число шагов. Кроме того, поскольку константа N заранее, вообще говоря, не известна, для контроля правильности выбора N при решении задачи (5.4) удобно получить и соответ- ствующие множители Лагранжа и* (х). Исходя из этих позиций, представляется целесообразным при решении (5.4) перейти к двойственной задаче, а последнюю решать методом сопряженных градиентов, изложенным в п. 5 § 1 этой главы. Построим двойственную задачу для задачи (5.4). Со- гласно гл. I, § 3, целевая функция двойственной задачи имеет вид ф(и) = = min|(/o (ж), р) +-|~Цр||а + 2 “Ч(Х(*). ?)+А (*))!• Р L ге«У§(х) (5.19) Приравнивая нулю производные по р от правой части по- следнего равенства, находим, что минимум достигается при р = — /о (*) — 2 “У* (*)• (5-2°) ie^g(x) Таким образом, точка р однозначно определяется век- тором и с компонентами i ЕЕ (х). Подставив (5.20) в правую часть (5.19), получаем Ф(и) = —j-|/o(^)+ 2 “*А(*)|*+ S (5-21) i£^S(x) г&^(х) Итак, мы вычислили целевую функцию двойственной
230 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш задачи. Сама двойственная задача состоит теперь в макси- мизации <р (и) при ограничениях и* > О, ?' Е (х). Таким образом, получилась задача максимизации квадратичной формы при простых ограничениях, которую удобно решать методом сопряженных градиентов (п. 5, § 1, гл. III). В результате решения мы получим множители Лаг- ранжа и1 (х) — решение двойственной задачи, а согласно изложенному в § 3 гл. I подстановка (х) в (5.20) даст вектор р (х) — решение исходной задачи. Другая проблема — это выбор констант N и б. Вели- чина JV, вообще говоря, не известна. Выбирать ее слишком большой не выгодно, так как в силу формулы (5.14) это может повести к значительному дроблению шага. По- этому целесообразно оценивать ее по ходу работы алго- ритма. Например, если на каком-то шаге оказалось, что ie^5(xk) то N следует изменить, заменив на N = 2 2 (**)• (5.22) Практический опыт показывает, что такая коррекция при- водит к успеху. Кроме того, ясно из теоретических сообра- жений, что если хк достаточно близко к предельной точке, то в регулярном случае и1 (хк) будут близки к множи- телям Лагранжа в точке х*, являющейся решением за- дачи, и поэтому формула (5.22) приведет к успеху. По- дробнее о поведении множителей и*(хк) будет сказано ниже. Что касается величины б, то ее следует уменьшать в случае, если вспомогательная задача (5.4) окажется не- разрешимой на каком-то шаге. Опишем теперь гарантированные условия, при которых константы N и б существуют. На самом деле они суще- ствуют в существенно более широком классе задач. Теорема 5.2. Пусть все функции /0 (ж), Д (х), i Е являются выпуклыми, и существует такая точка %, что
J 5l МЕТОД ЛЙНЁАРЙЗАЙЙЙ 231 Кроме того, пусть fQ (х) стремится к 4~оо при х +оо и точка я0 удовлетворяет ограничениям (5.2). Тогда при любом б О множители и1 (х), Z GE Js (х) ограничены сверху на множестве Й# при достаточно больших N, a Qn компактно. Доказательство. Напомним, что Qn = {%• /о (*) + NF (х) < /0 (я0) + NF (я0)). Отсюда и из непрерывности /0 (я) и F (я) следует, что йдг замкнуто. С другой стороны, й# ограничено, так как по условиям теоремы /0 (я) + °° при я + оо и по- этому /0 (х) + NF (х) > /0 (х0) + NF (х0) при всех х, достаточно больших по норме. Далее, так как х0 удовлетворяет (5.2), то F (х0) = 0. Поэтому при всех N Qn CZ й0- Действительно, из х €= Qu следует, что /о (*) < /о (*) + NF (я) < /0 (я0) + NF (я0) = /0 (я0), т. е. /0 (я) ^/0 (я0). Множество й0, очевидно, также ком- пактно в силу предположений теоремы. Далее, поскольку все fi (я) выпуклы, то fi (*) + (А (*), * - я) < fi (я) < 0. (5.23) Поэтому система ограничений задачи (5.4) совместна при любом б 0, так как ей удовлетворяет вектор р ~ х — х. Пусть теперь и1 (я) — множители Лагранжа задачи (5.4). Тогда согласно теореме Куна — Таккера 4-ир(а;)11а+(/о(х)!р(х))< <4-иа+(/л*)>р)+ s ieeZg(x) для всех р. В частности, при р = р ~ X — х в силу (5.23) й Р (х) И2 + (/о (ж), р (х)) < <4i^ii2+(/o(x),?)+ з иЧх)((/;(х),?)+/{(х))< *=^8(х) <4-и^na+tfo (*>’₽)+ з + ui
232 МеТоДы 4>ё1пйнйЯ задай с огйаничеййямй [гл. Ш Отсюда (Д (х) О!) г? (я) [4- II р w ii2+(/о <*>> р (*»] - [41| р ii2+*4 W) (5.24) причем в числителе правой части (5.24) стоит неположи- тельная величина, так как р (х) — решение задачи (5.4), а р удовлетворяет ограничениям (5.4). Покажем, что правая часть (5.24) ограничена в Qo. Действительно, в силу непрерывной дифференцируемости функций ft (х) величина 4-i р в2+(/о с®)» р)=4иж—я~х) ограничена в компактной области Qo. Поэтому меньшая величина 4ир<а:и2+(/о(*)> pw) ограничена сверху. Что же касается оценки ее снизу, то 4-lPWI’ + (/• W. WF-IIA WHIP Wl> >- 4-i/«wi’. т. e. при x E Qq исследуемая величина также ограничена снизу. Итак, мы показали, что в Йо правые части (5.24) огра- ничены сверху, т. е. и1 (х) М, х ЕЕ Йо- Отсюда сразу следует утверждение теоремы. Таким образом, если исходная задача была задачей выпуклого программирования, то для алгоритма годится любое б > 0, если только допустимая область содержит внутреннюю точку. 5. Некоторые обобщения. В начале этого параграфа уже говорилось о том, что в случае наличия ограничений типа равенства, т. е. когда ограничения имеют вид (5.1), задача сводится к виду (5.2) путем замены каждого равен- ства двумя неравенствами. Таким образом, алгоритм применим и к общей задаче (5.1). При этом надо только учитывать, что если при
§ 51 МЕТОД ЛИНЕАРИЗАЦИИ 233 некотором х ft (x)>F(x)-6 и - fi (х) >F (х) - 6, где i €Е Jo> то в систему (5.4) входят два неравенства (fi (*)> Р) + fi (?) < 0, - (/: (х), р) - fi (х) < 0, (5.25) которые эквивалентны одному равенству (fi (?), р) + ft (х) = 0. (5.26) Поэтому целесообразно при решении вспомогательной задачи этот факт учитывать и заменять в (5.4) пары нера- венств вида (5.25) на одно равенство (5.26). При переходе к двойственной задаче это поведет к тому, что соответст- вующий множитель и1 будет иметь произвольный знак, что, однако, не нарушает возможности применения алгоритма сопряженных градиентов (п. 5, § 1). Допустим теперь, что в исходной задаче кроме ограни- чений (5.2) имеется ограничение, заданное условием, что точка х принадлежит некоторому множеству X, имеющему простую структуру. В этом случае целесообразно, чтобы получаемые приближения лежали в множестве X. Ука- жем, как в этом случае модифицируется алгоритм. Как и ранее, без ограничения общности рассмотрим только слу- чай наличия неравенств в ограничениях. Итак, пусть требуется минимизировать /0 (ж), х е Е”, при ограничениях ‘ fEJ, хЕЕХ, (5.27) где У — конечное множество индексов, а X — выпуклое замкнутое множество. Предполагается, что существует такой индекс i, что Д (х) == 0. Предположим, что существуют такие константы N 0 и 6 > 0, что выполнены следующие условия: а) Множество &N ~ /о (#) + (^) ^0» # GEz X}, Со = /о (хо) + NF (ж0), ограничено, и начальное приближение xQ принадлежит X. б) Градиенты функций (я), i G {0} [J J, в Q/v удовлетворяют условию Липшица, т. е. || A (^i) А (^з) II -С j хч ||-
234 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III в) Задача min (/; (х), р) + -i- IIРII2. (5.28) (/i (*)» Р) +/г (*)< 0. ieJ8(x), х+р^Х, разрешима относительно р при любых Е и сущест- вуют такие множители Лагранжа и1 (ж), i е Уъ (я), что 3 й<(х)<АГ. iSeXg(x) Замечание. Напомним, что множители Лагранжа для задачи (5.28) — это такие неотрицательные числа, что выполняются условия (/о (*)» Р (®)) + (р (х), Р (х)) + + 2 ul(x)[(fi(x), Р (х)) +/{ (х)] < te^s(x) < (/о (*), р) + (Р (х), р) + 2 р) 4- fi (х)] (5.29) для всех р, удовлетворяющих условию х -|* р ЕЕ X. (5.30) Кроме того, и1 (х) [(/i (х), р (х)) + fi (х)] = 0, i е <Уа (х). (5.31) Таким образом, условие в) предполагает не только разрешимость вспомогательной задачи (5.28), но и то, что в точке минимума р = р (х) выполняются необходимые и достаточные условия, требуемые теоремой Куна — Так- кера. Алгоритм решения задачи (5.27) теперь строится точно так же, как это изложено в п. 2 настоящего параграфа. Только теперь в качестве рк берут вектор р (хк), являю- щийся решением новой вспомогательной задачи (5.28). Покажем сходимость алгоритма, т. е. справедливость выводов теоремы 5.1, а также, что xk G= X при всех к. Из последнего утверждения, в частности, будет следовать, что всякая предельная точка последовательности xk ле- жит в X. Поскольку доказательство сходимости лишь
S 5] МЕТОД ЛИНЕАРИЗАЦИЙ № некоторыми деталями отличается от доказательства теоре- мы 5.1, то нет нужды приводить это доказательство по- дробно. Отметим лишь основные отличительные детали. Во-первых, так как хк + рк €= X, X выпукло, то хк + аРк €= X при всех а, лежащих между 0 и 1. Поэтому если хк GE X, то и xk+i ЕЕ X. А так как х0 ЕЕ X по пред- положению, то вся последовательность {^}S=o лежит в X. Во-вторых, из (5.29) — (5.31) при р = 0 полу- чается, что (/о (я), р (я;)) +1| Р (*) ||2 < 2 ui fi (*)» (х) т. е. (/о (?), р (х)) < 2 ui CO fi СО — IIР (Х) II2- (5 -32) g (х) Это неравенство заменяет соотношение (5.7), использован- ное при получении оценки (5.13). Все остальные выклад- ки при получении оценок остаются без изменения. Наконец, если в точке х* р(х*) = 0, то из (5.29) — (5.31) следует, что выполняются условия (/о ы р) + 2 ui м р) > °> ге<^5(х) Кроме того, из (5.28) в этом случае следует, что fi (•£*) i ЕЕ ^8 (•£*)» х* X) и, кроме того, очевидно, что fi (р*) < ^3 Таким образом, точка х* удовлетворяет всем ограниче- ниям (5.27), а условия (5.33) показывают, что в этой точке выполнены необходимые условия экстремума. Итак, как и ранее, мы показали, что если р (х*) = О, то в точке х* выполняются необходимые условия экстре- мума. Нетрудно показать и обратное, так что условие р ^х) ~ 0 является необходимым и достаточным условием того, чтобы точка х была подозрительной на экстремум. Доказательство того, что каждая предельная точка х* последовательности хк, к = 0, 1, . . ., удовлетворяет
£з6 методы Решений задач £ оГ’райййёййймй (гл. ш необходимым условиям экстремума, проводится точно так же, как при доказательстве теоремы 5.1, путем пре- дельного перехода от соотношений (5.29) — (5.31), удов- летворяющихся в точках хк, к соотношениям (5.33) в предельной точке. 6. Задача линейного программирования. Пусть теперь в задаче (5.2) все функции /0 (ж), (х), i ЕЕ линейны. Таким образом получается задача линейного програм- мирования. Хотя изложенный выше алгоритм имеет наибольшее значение для нелинейного случая, однако его применение для задачи линейного программирования также не лишено смысла. В частности, если множество У содержит большое число индексов, то получается задача линейного программирования с большим числом ограни- чений. В то же время при малом б вспомогательная зада- ча (5.4) будет иметь лишь небольшое число ограничений, так что общая задача сводится к решению серии более простых задач. Кроме того, в отличие от симплекс-метода, предлагаемый метод не будет накапливать вычислительную погрешность, так как не преобразует исходной матрицы ограничений от шага к шагу. Для задачи линейного программирования условия а), в) (условие б) удовлетворяется автоматически) основ- ного предположения являются излишне жесткими для сходимости алгоритма. Мы не будем здесь останавливаться на условиях сходимости для задачи линейного програм- мирования, поскольку основная цель — получение ал- горитма для нелинейного случая. Ниже будет показано, что по крайней мере при выполнении сделанных предпо- ложений а), в) для задачи линейного программирования ал- горитм будет сходиться за конечное число шагов. Этот факт в определенной степени будет характеризовать нам ско- рость сходимости алгоритма. Теорема 5.3. Пусть выполнены предположения а), в) п. 1, и все функции fQ (ж), fi (х), определяющие задачу (5.2), имеют вид fi (*) = (^, х) — Тогда алгоритм, п. 2 сходится за конечное число шагов. Доказательство. Заметим сразу, что в рас- сматриваемом случае шаг равен 1 для достаточно боль- ших к. Действительно, поскольку все ft (х) линейны, то
§ 5] МЕТОД ЛИНЕАРИЗАЦИИ 237 константа Липшица L просто равна нулю. Поэтому из формулы п. 3 для ccfc следует, что - _ . /л d 1 —8 \ * тпЧ ’ + ’ (ЛГ + 1)Ь/~ = т1П (*’ W+W) (5,34) Но выше было доказано, что F (х) -> 0, || pk || -> 0. Поэтому для достаточно больших к ^^Х"у~х\\р |j > и ак — 1. Но ак построено так, что неравенство (5.15) выполняется при а = ак. Так как выбор ак на каждой итерации начинается путем половиненья а = 1, то отсюда следует, что неравенство (5.5), определяющее выбор afc, будет сразу же удовлетворено без дополнительных поло- винений, и шаг ак будет просто равен 1. Пусть теперь х* — какая-либо предельная точка после- довательности хк1 полученной в результате работы алго- ритма. Как уже известно, эта точка является решением задачи (5.2), ибо она удовлетворяет всем ограничениям задачи, а, кроме того, в ней согласно теореме 5.1 выпол- няются необходимые условия минимума, которые в рас- сматриваемом случае задачи линейного программирования оказываются и достаточными. Положим ^0 (**) = {i е J: fi (X*) = 0}. (5.35) Тогда ft (ж#) 0 для i е У о (ж*), так что е0= max Д(^)<0. г&гУоф*) (5.36) Для упрощения дальнейших обозначений без ограничения общности будем считать, что вся последовательность хк сходится к х*. Рассмотрим вспомогательную задачу (5.4) в точках последовательности хк: min(/0(^), р) + 4-ЦРГ (5.37) (fi (*»), р) + ft (хк) < °> i е ^8 (^);
238 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш рк = р (хк) — ее решение. Обозначим соответствующие множители Лагранжа через ик, к е= Уъ (#&), так что *4 [(/; Рк) + Л G₽fc>] = 0. (5.38) Покажем теперь, что Jo (х*) (Z Уь (хк) для всех достаточ- но больших к. Действительно, если i е= Уъ (я^), то ft (*к) < F (*s) — 6. и переходя к пределу по к с учетом того, что F (хк) 0, получаем, что Д (х*) — б, что противоречило бы при- надлежности i е У о (х*). Далее, обозначим У (хк) ~ {£ Уъ (хк): ик 0}. Следующее утверждение состоит в том, что для больших индексов к SI(xk)C^M (5.39) Действительно, если i ее У к (х*), то Д (х*) 80. Так как рк -> 0, a fi (хк) ограничены, и хк -> х*, то при больших к и поэтому (/Ц^).рк) + А(^Х-т<о. Поэтому, если ик 0, то 4 [(X fe), Рк) + fi ^к)] < о, что противоречит (5.38). Замечание. Все проведенные рассуждения не использовали линейность ft (х) и поэтому утверждения, что Jo (**) С Js (хк) и У (хк) Q Jo (я*), верны в общем случае нелинейной задачи. Они будут использованы в дальнейшем. Как было показано в п. 4. этого параграфа, задача, двойственная к вспомогательной задаче (5.37), состоит в максимизации функции (5.21) при ограничениях и1 0, i ее Js При этом множители Лагранжа игк являются решением двойственной задачи, и имеет место равенство
§ 5] МЕТОД ЛИНЕАРИЗАЦИИ 239 между оптимальными значениями в прямой и двойствен- ной задаче, т. е. (/ofe), Рк) 4--§-W2 = =------2” Л S wfc/i (хк) ||2 + 2 ukfi (хк)- iG=«X$ (х^) Так как pk 0, то левая часть последнего соотношения стремится к нулю, а значит, -4-l/o(^)+ 2 4XU)||2+ 3 uU(^)->0.(5.40) Заметим теперь, что игк^> 0 только если i ЕЕ (хк). Кроме того, fi (х) - (ai9 х) - bh i G {0} [J J, так что fi (х) = и не зависит от х. Поэтому (5.40) может быть переписано в виде ----2~ II а° 2 Г 2 U^fi (хи) 0* isF(xfc) ie^(xfe) Но J (xk) CZ CfQ (х*), как было показано выше, и поэтому ft (*fe) -+fi (**) = 0, ибо fi (я*) = 0 для i е Jo (х*) по определению. Поэтому —jrla° + 2 ufcai|j о* Но ----II а° + 2 ukai Г 'С i^eX(X^.) max^ — 4-|а°+ 2 МЧГ< °- (5.41) u^>0, ге^(х^) Положим ю (#•) = max —1| а0 + 2 ui(li If 5 u’>0, tei* iG7 <в (^) есть функция, определенная на множестве индексов
240 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. Ш ty CZ О. Так как CZ J, то эта функция может прини- мать лишь конечное число значений. Из (5.41) следует, что о (3 (^)) -> 0. Но это означает, что о (J (хА.)) — 0 для всех достаточно больших А, ибо, как только что было сказано, со ($) при- нимает лишь конечное число значений. Итак, для больших к 0>(№)) = 0. (5.42) Выберем теперь к настолько большим, что ак — 1, выполняется условие (5.42) и J(^fc) CZ Jo (^*)- Так как afc = 1, то xk+i = хк + рк. Так как хк -> х*, рк -► 0, то можно считать, что A(*m)<-y<0, *ё^о(**). (5.43) Рассмотрим снова вспомогательную задачу (5.37). Так как рк удовлетворяет ограничениям (5.37), a fa (х) линейны, то ft (*»+i) = (fi Ы> Pk) + fi M < 0 (5.44) для i EE Js Grfe), а значит, и для i EE Jo (я*), ибо Jo (x#) CZ CZ J& (xk). Тем самым показано, что xk+i удовлетворяет всем ограничениям задачи (5.2). Покажем, что на самом деле xk+i — решение задачи (5.2). Действительно, из (5.38) и определения множества J (хк) следует, что fi (*к+1) = о, I е 3 (хк). (5.45) Но (5.42) означает, что найдутся такие числа и* > 0, ie J(xk), что + 2 wo®i = 0. (5.46) геУ(*р Положив теперь иог = 0, i Е J (хк), мы получим, что наш- лись такие числа и© > 0, что выполнены условия Яо + 2 ~ 0»
МЕТОД ЛИНЕАРИЗАЦИИ 241 § 5] Но последние соотношения (см. гл. I, § 3) являются необходимыми и достаточными условиями того, чтобы точка была решением задачи линейного программи- рования. Таким образом алгоритм действительно приводит к решению за конечное число шагов, что и требовалось до- казать. 7. Локальная оценка скорости сходимости. В преды- дущем пункте было показано, что предложенный алгоритм сходится за конечное число шагов в линейном случае. В этом пункте будет показано, что при естественных усло- виях в общем нелинейном случае алгоритм имеет геомет- рическую скорость сходимости, а при некоторых благо- приятных обстоятельствах даже квадратичную. Теорема 5.4. Пусть х* — решение задачи 5.2 и выполнены следующие условия: а) Для любого достаточно малого 8 О вспомогатель- ная задача (5.4) разрешима. б) Функции ft (х) дважды непрерывно дифференцируемы и градиенты f\ (х*), i е Jo (#*), где Ш = {K/i(^) = 0, iEj}, линейно независимы. в) В точке х* выполняется необходимое условие миниму- ма в форме /о (*£*) 2 4А (*£*) = О о(х«) и 4 i €— q (х*)* г) Выполняется достаточное условие локального мини- мума, т. е. (р, L" (х*, и0) р) > О для всех р ф 0 и удовлетворяющих условию (Р, А (**)) •= °> i е Jo где L (х, и) = /0 (г) + У, ulfi (х), (х*) a L" означает матрицу вторых производных L (х, и) относительно х. Тогда существует такая окрестность Q
242 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш точки х*, 60 > 0 и такое а О, что процесс %k+i ~ %к + аРк (5.47) сходится к точке х* с любого начального приближения с геометрической скоростью, т. е. существует такое число 0 q 1, что || х* — xk || Cq1* для всех достаточно больших к. Доказательство. Основная идея доказатель- ства будет состоять в следующем. Как показано выше, в точке х* удовлетворяется уравнение Р (**) = О- Процесс (5.47) есть процесс простой итерации для решения этого последнего уравнения. Поэтому можно воспользоваться для оценки скорости сходимости теоре- мой Островского, которая будет сформулирована ниже. Эта теорема требует оценки собственных чисел матрицы первых производных от р (х) в точке х*. Поэтому наша основная задача как раз и будет состоять в вычислении этой матрицы и ее собственных значений. Доказательство теоремы разобьем на несколько частей. Положим ^0 (**) = {I е X fi (х*) = 0}, е0 = max Д (х*) < 0. Лемма 5.2. Пусть выполнены условия теоремы и 6 <----у-. Тогда существует такая окрестность точки х*, что Уъ (х) = (х*) и р (х) непрерывно дифференци- руемо по х в этой окрестности. Более того, множество = (х): (f'i (х), р (х)) + ft (х) = 0} также совпадает с множеством (я*). Доказательство. Так как все функции ft (х) непрерывны, то существует такая окрестность точки х*, что - 6/2 < (х) < 6/2, i е Jo (*Д (5.48) fi (я) < е0/2, i S Jo (*#)• (5.49)
§ 5] МЕТОД ЛИНЕАРИЗАЦИИ 243 Напомним теперь, что F (х) = max {0, max ft (я)} и i (= J8 (ж), если fi (х) > F (ж) - 6. Из (5.48), (5.49) следует, что О < F (х) < 6/2, (5.50) и если i ё Jo (ж*), то F(a:)-6>-6>eo/2>/j(x), т. е. г ё Js (ж). С другой стороны, если i GE Jo (х*), то из (5.50) следует, что F (х) — 6 < — 6/2 и, значит, ft (х) > - 6/2 >F (х) - 6, т. е. i G J8 (ж). Итак, мы показали, что Js (х) = Jo (х#) в некоторой окрестности х*. Вспомним теперь, что если р (х) — решение задачи (5.4), то выполняются условия (5.6), которые можно пе- реписать в эквивалентном виде р(*) + Х(*) + 2 «*Ш(*) = 0> (5.51.1) (А(*),.Р (*)) + /<(*) = О» ieJ(x), (5.51.2) (X (я)» Р (*)) + А (я) < 0. i (= 3(х), i е Js (х), (5.51.3) где и' (х) 0. Введем обозначения. Пусть С (х) (= Jo (я*)). Через /? (х) обозначим матрицу со строками Д (х), i ЕЕ ЕЕ 3^, через /? (х) — вектор-столбец с компонентами ft (х), i Ezty, а через и$ — вектор-столбец с компонен- тами i EEty. Тогда уравнения (5.51), (5.52) перепишут- ся в виде Р (*) + f'o (*) + /7 (х) Uy (х) = 0, 5 52 . 4(я) р(я) +/Н^) = 0. ^=3(х). Последние соотношения можно рассматривать как ли- нейную систему уравнений относительно р (х) и (х). Нетрудно видеть, что в некоторой окрестности х* система (5.52) однозначно разрешима и решение дается
244 МЕТОДЫ РЕШЕНИЯ ЗАДАН С ОГРАНИЧЕНИЯМИ [ГЛ. Ill формулами f f f u9{x) = \f3 (x) f3 (x)f1 \f3 (x) — f3 (x) fo (x)], (5 53) />(*)=- f’o (x) — /9 (x) и (x). Из этих формул следует, что если множество зафик- сировано, то и% (х) и р (х) непрерывно зависят от х. Пусть теперь хк-+х*. Покажем, что для всех боль- ших к 3 (хк) = Jo (#не- допустим, что наше предположение не выполняется и существуют как угодно большие номера к такие, что J (хк) есть собственное подмножество Jo(#*)- Поскольку различных множеств J (х) может быть лишь конечное число, то без ограничения общности можно считать, что выбрана такая последовательность хк -> х*, что J (хк) = = CZ Jo (**)- Подставляя теперь хк вместо х в (5.51) и переходя к пределу (р (хк) р, и1 (хк) й\ i ЕЕ ty), получим, что р + /о (**) + 2 wf'i = °, (/И^)>Р) + ЛЫ = О- (А (#*)> Р) 4“ А (•£*) i ЕЕ 2^, i S J^о (#*) “ Js (•£*)» причем й* > 0, ибо и1 (хк) 0. Но последние соотноше- ния показывают, что р — решение вспомогательной за- дачи (5.4) для точки х*, т. е. р = р (х^). Но точка х* — решение задачи (5.2) и поэтому р (х*) = 0. Значит, /о(^) + S«Vi(^) = O- Воспользовавшись теперь условием в) теоремы, из последнего соотношения получим 2 (и'о — й{) fi (я#) 4- 2 “о/i (ж.) = °. что противоречит условию б) теоремы. Итак, в некоторой окрестности точки х* множество J (х) совпадает с Jo (х*). Из этого постоянства J (х) и формул (5.53) сразу же еле-
§ 51 МЕТОД ЛИНЕАРИЗАЦИИ 245 дует непрерывно дифференцируемая зависимость и# (х) и р (х), ty — Jo (#*) от я, так как в силу условия б) fi (х) дважды непрерывно дифференцируемы. Замечание. Итак, в малой окрестности х* р (х) и и? (х) есть решение системы уравнений (5.52) при пос- тоянном множестве = Jo (я*). Поэтому индекс при и? (х) мы будем опускать. Лемма 5.3. Матрица р' (х) производных вектора р (х), т. е. матрица с элементами дрх{х)!дх\ i, j = 1,. . п, где р{ (х) — i-я компонента вектора р (х), в точке х* имеет вид р' (?*) = — [Р +(I — Р) L" и0)], где Р s /^о(хф) С1*) Лхо(я*) (•£*)) 1 А?о(х*) (#*)> а и0 — и (х*). Доказательство. Прямое дифференцирова- ние первой из формул (5.52) дает р’ (®*) = — L" (х*, и0) — 2 h (**) (“’” (**))*> (5 54) Je^o(x*) где Из формулы (5.51.2) получаем путем дифференцирования (Р (®#) = 0) /'* (ж*) Р' (**) +/'* (**) = °> i s Jo («*)• (5.55) Заметим теперь, что оператор Р, определенный при фор- мулировке леммы, есть оператор проектирования на под- пространство, натянутое на векторы (х#), 1Е5о (х#). Действительно, это видно (см. также § 1 этой главы, п. 1) из легко проверяемых соотношений: 1) Pf'ff^-) (^*) =4о(хф)(^), или Pfi (ж#) =/• (х#), is Jo (я*); 2) р* = р, pz = Р; 3) (Z - Р) Р = 0.
246 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Если теперь (5.55) переписать в виде /кси 0е*) р' (**) + А.(х.) (*») = О» то, учитывая выражение для Р, получим Рр' (**) = - Р- (5-56) Далее, как следует из соотношения 1) для Р, (/— Р) fi (х*) — = 0. Поэтому, применяя (Z — Р) к обеим частям (5.54), получим, что (Z - Р) р' (х*) = — (I — Р) L" (х„ и0). (5.57) Складывая (5.56) и (5.57), получаем требуемую формулу для р' (х*). Лемма 5.4. Собственные числа матрицы р' (х*) могут быть охарактеризованы следующим образом: уу = = —1 для / = 1,2, . . ., т, где т — число индек- сов в множестве (я*). У; — — . . ., п, где kj, j = 1, . . ., п — т,— собственные числа матрицы (I — Р) L" (х*, и0) (I — Р), причем 0, / — 1, . . ., п — т. Доказательство. Пусть о — собственное чис- ло, а у — собственный вектор матрицы р' (х^). Тогда согласно лемме 5.3 — Ру — (Z — Р) L" (х*, Uq) у = оу = оРу -J- о (Z — Р) у. Воспользуемся соотношением Р (Z — Р) — 0 и, умножив последнее равенство поочередно на Р и на Z — Р, полу- ЧИМ — Ру — <уРу, (5.58) — (Z — Р) L" (ж*, и0) у = о (/ — Р) у. (5.59) Возможны два случая: 1) Ру ф 0. Тогда из (5.58) следует, что а = —1. 2) Ру — 0. В этом случае (/ — Р) у = у и (5.59) может быть переписано в виде (I - Р) L" (х#, н0) (/ - Р) у = - оу, (5.60) т. е. о — собственное число матрицы (/ — Р) L" (I — Р). Эта матрица симметрична, так как Р — Р*, a L" = = (£")* как матрица вторых производных функции L. Более того, рассматриваемая матрица неотрицательно
$ 5] МЕТОД ЛИНЕАРИЗАЦИИ 247 определена. Действительно, для любого w (w, (I - Р) L" (I -P)w) = (z, L"z), rjifi z — (I — P)w. Ho (ж*) z = (ж*) (Z — P) w = 0 и поэтому (z, L"z) > 0 в силу условия г) теоремы 5.4, причем равенство нулю возможно, лишь если z — (I — Р) w — 0. Из симметрии матрицы (Z — Р) L" (I — Р) сле- дует, что ее собственные числа и собственные векторы действительны. Так как у 0 и у = Ру 4- (Z — Р) у, то из Ру = 0 следует, что (Z — Р) у =£ 0 и поэтому из (5.60) - а (у, у) = (у, (Z - Р) L" (Z - Р) у) = (у, L"y) >0. Таким образом, — с =/= 0 и, значит, а = — Ху, где Ху > 0 — собственное число матрицы (Z — Р) L" (Z — Р). Итак, мы доказали, что собственные числа матрицы р (#*) действительны и равны либо —1, либо — Ху, Ху 0. Осталось только установить число собствен- ных чисел, равных —1. В силу условия (*£*) = /г г ^0 (#*)» оператор (Z — Р) имеет иг собственных векторов f\ (ж*), соответствующих нулевому собственному значению. По- этому и матрица (Z — Р) L" (Z —• Р) имеет т нулевых собственных значений. С другой стороны, матрица р' (х), как мы убедились, имеет все п собственных чисел, отлич- ных от нуля, причем каждое такое собственное число ли- бо равно —1, либо есть собственное число матрицы (Z — Р) L" (I — Р), отличное от нуля. Ясно, что это может быть лишь тогда, когда справедливо утверждение леммы 5.4. Теперь все готово, чтобы завершить доказательство теоремы 5.4. Из теоремы Островского ([1], стр. 130) сле- дует, что если х* — решение уравнения р (х) = 0 и собст- венные числа матрицы I -|- ар' (х^) меньше по модулю единицы, то метод простой итерации = хк + ар (хк) сходится из всех точек некоторой окрестности точки х*, причем справедлива оценка: для каждого 8 > 0 най- дется такое число С (в), что | х* — II < С (в) (gr0 + в)*,
248 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III где q0 — наибольший из модулей собственных чисел матрицы I + up' (#*)• Рассмотрим теперь собственные числа матрицы I + + ар' (х*). Они равны 1 — а или 1 — аХ7«. Выберем те- перь а так, чтобы были выполнены все неравенства 1 — а > — 1, 1— аХ; > —1, / = 1, . . п — тп, т. е. О < а < min {2, 2/Х0}, где Хо — max Ху, / = 1, ... . . п — т. Тогда все собственные числа матрицы I + ар' (х*) будут по модулю меньше единицы, откуда со ссылкой на упомянутый результат Островского следует теорема 5.4. Теорема 5.5. Пусть выполнены условия предыду- щей теоремы, и кроме того, т — число индексов в мно- жестве (х*) — равно п (размерности пространства). В этом случае процесс (ЬА1) сходится из некоторой ок- рестности точки х* при а = 1 с квадратичной скоростью. Доказательство. Из леммы 5.4 для рассмат- риваемого случая следует, что все собственные значения матрицы р' (х*) равны —1, а поэтому собственные значе- ния матрицы I + ар' (х*) равны 1 — а. Если а = 1, то все собственные числа равны нулю и q0 = 0. Поэтому из теоремы Островского получаем || х* — хк || С (в) 8fe, что означает, что процесс сходится быстрее любой геомет- рической прогрессии. На самом деле в этом случае про- цесс (5.47) превращается в метод Ньютона решения сис- темы уравнений /г- (х) =0, i е У о (я#), который, как. из- вестно и как будет показано в § 6, сходится квадратично. Замечание. Все рассмотрения в этом пункте мы проводили для случая задачи, в которой имеются огра- ничения только типа неравенств. Однако очевидным об- разом все результаты переносятся на случдй наличия равенств в ограничениях. § 6. Метод линеаризации: решение систем равенств и неравенств и нахождение минимакса В этом параграфе метод линеаризации будет применен для двух задач, тесно связанных с обычными задачами ма- тематического программирования. Оказывается, что при этом удается построить эффективные алгоритмы, обладаю- щие хорошей скоростью сходимости.
рёшёниё систем равенств й неравенств 249 1. Системы равенств и неравенств. Пусть заданы два конечных набора индексов и и функции /4 (х), z е G= Еп. Требуется найти решение системы ft (х) <0, ie У~, h (х) = о, ie Т. (6.1) Относительно функций (х) мы будем предполагать, что они имеют непрерывные градиенты /• (х) и, более того, эти градиенты удовлетворяют условию Липшица с кон- стантой L: II fi (*i) — fi (хг) II < L || х± — ж21|. Норма векторов везде евклидова. Обозначим F (х) = max (max Д (х), max | Д (х) |) Тъ (х) = {i: i е ,Г, fi (х) (х) - б}, - {r. i е J°, I fi (х) I > F (х) - 6}. Пусть выбрана начальная точка х0 и предположим, что для всех х, удовлетворяющих неравенству F (х) (я0), градиенты fi(x) ограничены по норме констан- той К. Основное предположение. Существуют такие числа 6 > 0 и С > 0, что для всех х, для которых F (х) 0, F (х) F (xQ), система (A U), Р) + fi (*) < о, i е Уъ (х), (6.2) (AU),?) +fi W = о, разрешима относительно р. Пусть р (х) — решение (6.2), обладающее минимальной нормой. Тогда для х таких, что F (х) > 0: \\p(x)\\^CF(x). (6.3) Неравенство (6.3) характеризует в какой-то степени регулярную разрешимость системы (6.2). В частности, если система (6.2) переходит в п уравнений с п неизвест- ными, то условие (6.3) эквивалентно предположению о невырожденности матрицы соответствующей системы. Как будет показано в дальнейшем, (6.3) выполнено, если
250 МЕТОДЫ РЕШЕНИЙ ЗАДАЙ G ОГРАЙЙЧЕНЙЯМЙ (ГЛ. Ш градиенты i GE Jg(#)U^s (ж)> линейно независимы для всех х, F (х) 0. Перейдем к построению алгоритма. Последовательные приближения строятся по формуле + акР^ Рк = Р (®к)> (6.4) где параметр ah выбирается путем половиненья единицы до первого выполнения неравенства F + aftpk) < (1 — eak) F (хк), (6.5) где 8 — любое ншеред выбранное число, 0 < 8 < 1. Ясно, что формула (6.4) применяется, если F (х) > 0. В противном случае процесс останавливается и хк — ре- шение (6.1). 2. Сходимость алгоритма. Процесс работы предлагае- мого алгоритма характеризуется следующей теоремой. Теорема 6.1. Пусть выполнены все сделанные в | п. 1 предположения. Тогда последовательность хк, к — । = 0, 1, . . ., порождаемая алгоритмом по формуле (6.4), } сходится к X — решению системы (6.1) — и при этом: а) для достаточно больших к ак = 1; J б) для достаточно больших к | F(xk+1)^LC^(xky, I в) для любого q, 0<^д<^1, найдется такой номер к (?)> что и и /Д дч И —LC(i—q) ( ’ для всех к > к (у). Доказательство. Очевидно, что если F 0 на некотором шаге, то все доказано. Поэтому | будем предполагать, что F (хк) 0 для всех к. Покажем в первую очередь, что выбор afe из условия (6.5) всегда возможен. Для i GE Зъ (хк) имеем, используя формулу Тейлора: fi &к 4- арк) = fi (хк) + a (fi (хк + 0^арй), рк) = fi(xk) + + а (X («s).Pfc) + а (Л (*ь + 0iaPfc) — fi (хкУРкУ где 0 1. Но в силу того, что рк удовлетворяет
§ 6] РЕШЕНИЕ СИСТЕМ РАВЕНСТВ И НЕРАВЕНСТВ 251 (6.2), будет (А (*к), Рк) < — ft (**•)• Далее, if- (хк + - /• (хк), рк) < < II Рк IIII А (Рк + QiO-Pk) — fi (*к) II < < II Рк IIII ®РРк II L < a L (I рк |2. Поэтому, используя (6.3), получаем fi (хк + арк) < ft (хк) — aft (хк) + asL | рк |2 < < (1 - a) F (хк) + а2Лс2Р2 (хк). (6.7) Для i €= i (= Зъ (хк) fi (хк) < F (хк) — 6 и поэтому fi (хк + арк) = ft (хк) + а (/• (хк + О.арк), рк) < F (хк) — - б + аК || Рк || < F (хк) - б + aKCF (хк). (6.8) Совершенно аналогично для i G= Js (®к) IA (*к + «Рк) I < (1 - «) P M + aWF2 (xk) (6.9) И для i ё= Js (xk) I ft (*» + «Рк) I < P (*k) — 6 + aKCF (xk). (6.10) Заметим теперь, что (1 — a) F (xx) > F (xk) — 6 + aCKF (xk), если a где i _ 5 а*~- (l+CK)F(Xl!) • Поэтому для a ak из (6.7) — (6.10) следует, что P (*k + “Pk) < (1 - a) P (xk) + a2ZC2F2 (xk) P (xk + apk) < F (xk) — aF (xk) [1 — aLC2F (xfc)]. (6.11) Если теперь a a|, где 2 _ 1 — 8 “Л - LC^F (xk) ’ to 1 — aLC2F (xk) > 8, и поэтому (6.11) можно перепи- сать в виде Р + «Рк) < F (хк) — as F (хк), • f 1 21 (о.12) a min {a£, ак}.
252 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Теперь уже ясно, что если половинить а, начиная с а = = 1, то неравенство (6.12) выполнится после конечного числа проб и при этом выбранное будет удовлетворять неравенству ak>minfl, 4-al, 4- aU . (6.13) I & Ы \ Тем самым мы доказали, что возможен выбор ал из усло- вия (6.5) и этот выбор осуществляется за конечное число операций. Покажем, что F (хк) -> 0. Действительно, из (6.5) следует, что F (хк) монотонно убывает. Поэтому из фор- мул для aj и а£ можно сделать вывод, что эти величины растут с ростом к. Значит, формула (6.13) позволяет за- ключить, что ак > а 0, так что F < (1 — eak) F (хК) < (1 — ea) F (хк). Поэтому F (хк) (1 — F (я0), откуда и следует, что F (хк) 0. Но тогда + оо, + оо, как это сразу видно из формул для этих величин. Поэтому (6.13) позволяет сделать вывод, что ак = 1 для достаточно больших к. Но для всех таких к (6.11) показывает, если в нее подставить a — 1, что F (xfc+1) < LC2F2 (xfc). Итак, утверждения а) и б) теоремы доказаны. Мы теперь можем утверждать, что существует такое Ао, что ак — 1 для к к0 и выполняется (6.14). Поэтому в силу (6.3) J %к+1 % к | “ || Рк || CF (%к)* Положим vk = LC2F (хк). Тогда ^->0 и (см. (6.14)) vk+i vk. Пусть q таково, что 0 < q < 1. Тогда найдет- ся такое к (7), что vk < q для к к (q). Поэтому vk+i <]vki к к (7). Отсюда 2,k-k(q) 2к-к(а) »к < % Ч vm < т > к к (д).
§ 6] РЕШЕНИЕ СИСТЕМ РАВЕНСТВ И НЕРАВЕНСТВ 253 Это позволяет получить оценку т— 1 т—1 3=к j=k m—1— к , ., ч ^Z/T я LC (1 — q) LC (1 — ?) (6‘15) Из этой оценки следует (по известному критерию Коши), что последовательность xk сходится к некоторой точке X, Поскольку F (хк) -> О, то F (х) — 0, т. е. х — решение системы (6.1). Более того, переходя при тпоо к пре- делу в (6.15), получаем лк-к^ k—zc(i_?) » что и требовалось доказать. 3. Замечания. Замечание 1. Пусть решается система п уравне- ний fi (х) — 0, i = 1, . . ., тг, где х ЕЕ Еп. Тогда fi (х) > F (я) — 6, г = 1,.. ., п, Г(ж)= тах|/{(л;)| Ki<n для произвольного 6, если только х достаточно близко к решению Поэтому (х) = {1, 2, . . ., п} и система (6.2) приобретает вид (/i («)» Р) +/« (*) = °> i = 1, • • п. (6.16) Поэтому предложенный метод просто совпадает с мето- дом Ньютона, в котором итерации проводятся по форму- ле хк+1 — %к + Р (я\), где Р — решение системы (6.16). Условием сходимости метода Ньютона является не- вырожденность в точке X матрицы f (%), где /' (х) — мат- рица тг X тг, в качестве строк которой взяты Д (х). В этом случае р (х) = — (/' (х))-1 / (х), где / (х) — вектор-стол- бец с компонентами /г (ж). Но из последней формулы сле- дует, что IР WK I (/' (я))-1 II / WK Со II (/' (я))-1 В Р (*)4 где Со — некоторая константа. Из этого неравенства вид- но, что (6.3) выполняется в некоторой окрестности точки х.
254 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. Ш Таким образом, из доказанной теоремы следует ло- кальная сходимость обычного метода Ньютона при ре- шении системы п уравнений с п неизвестными. Замечание 2. Если решается одно уравнение / (х) =0 сп неизвестными, то система (6.2) приобретает вид (/'(Д Р) +/(*) = 0. (6.17) и требуется найти решение этого уравнения с минималь- ной нормой, т. е. найти минимум ЦрЦ2 при ограничении (6.17). Используя правило множителей Лагранжа, не- трудно получить, что в этом случае pw = у/'(4 ip откуда Ясно, что формула (6.3) будет выполняться, если|/' (х) |> > у для всех х. Замечание 3. Нахождение на каждом шаге век- тора р (х) связано с решением задачи минимизации ||р||2 при ограничениях (6.2). Это задача квадратичного программирования. Относительно способов ее решения можно сделать все те же указания, которые были сделаны в § 5 относительно решения вспомогательной задачи квад- ратичного программирования, возникающей в методе ли- неаризации. 4. Достаточные условия сходимости. Основное усло- вие (6.3), обеспечивающее сходимость алгоритма, плохо проверяемо. В этом пункте даются более эффективно про- веряемые условия. В частности, для выпуклого случая при наличии внутренней точки у области, определяемой соотношениями (6.1), сходимость алгоритма гарантируется. Пусть система содержит только ограничения типа не- равенства, т. е. имеет вид Л (*)<(), . (6.18) Тогда вспомогательная система (6.2) приобретает вид (Л (*), р) + ft (*) <0, i G Ji (х). (6.19) Ясно, что эта система разрешима при F (х) ^>0, если
$ 6] РЕШЕНИЕ СИСТЕМ РАВЕНСТВ И НЕРАВЕНСТВ 255 разрешима система (/;(ж), р) +F (х) < О, iG Js (х). (6.20) Лемма 6.1. Если F (х) > 0, то система (6.20) разрешима тогда и только тогда, когда Lb (ж) = min | 2 Wi (*) I > °, _ 1 iei'sW где минимум берется по всем > 0 таким, что При этом решение р (х) системы (6.20) с минимальной нормой удовлетворяет равенству Доказательство. Пусть > 0 таковы, что их сумма по i G= (х) равна единице. Если р — какое- либо решение (6.20), то - 3 Witf),P)>F(x), или (- 3 hfi^p}>F(x). <e^s(x) Воспользовавшись неравенством (х, I/XMIIУII» полу- 11 s iSX8(x) Но последнее неравенство справедливо при любом ука- занном выше выборе и поэтому Lb (х) I р I > F (х), т. е. Ьъ (ж) > 0 и 1₽1>-Вг (в.21)
256 МЕТОДЫ РЕШЕНИЯ ЗАДАН С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Таким образом, необходимость условий леммы до- казана. Допустим теперь, что Lg (х) >0. Рассмотрим задачу: найти минимум р при ограниче- (А (*), />) +F (х) - р < 0, i е Л &), (6.22) Н<го,го = ^>О. Это задача выпуклого программирования, и все условия теоремы Куна — Таккера, в частности условие Слейтера, для нее очевидным образом выполняются. Пусть р0, р0 — решение. Применяя теорему Куна — Таккера, получаем, что найдутся такие > 0, что Ро + 2 ((А (#)> Ро) + (х) ~ Ро) Р + + 2 M(mp)+^)-p) (6-23) ie^8(x) для всех р, || р || г0, и всех р. Кроме того, ((/; (х), Ро) +F (х) - Ро) = 0, i Е (х). (6.24) Из (6.23) в силу произвольности р сразу следует, что S = ге^?(х) Кроме того, (6.23) в силу (6.24) можно переписать в виде Ро<( S Wi№,p) + F(z). Беря минимум по р, || р || г0, в правой части послед- него неравенства, получаем Ро<—Го|| S WU*)||+^(*)< —го£б(х)+^(х)=О. ге^8(х) Итак, р0 0, т. е. вектор р0 удовлетворяет системе
4 61 РЕШЕНИЕ СИСТЕМ равенств и НЕРАВЕНСТВ 257 неравенств (см. (6.22)) (Л (ж), Ро) + F (*) < Ро < О, причем || ро ||< Го = Р (х). Но i e Js (x), из (6.21) следует, что Поэтому 1Ы1> F&) М*) ’ Il Poll F(x) (x) и вектор pQ есть решение системы (6.20). Более того, (6.21) показывает, что это решение с минимальной нор- мой. Итак, ро — Р (х) и лемма доказана. Теорема 6.2. Пусть выполнены все сделанные в п. 1 предположения, за исключением условия основного предположения. Пусть, кроме того, Ьъ (х) > у 0 для всех х таких, что 0 <ZF (х) (xk). Тогда выполняют- ся и условия основного предположения и верны все выводы теоремы 6.1 для задачи (6.18). Доказательство. Поскольку всякое решение системы (6.20) есть и решение системы (6.19), то I р (я) II < II р (я) II- Поэтому в силу леммы 6.1 это показывает, что все условия теоремы 6.1 выполня- ются. Заметим, что условие (х) у 0 достаточно есте- ственное, ибо оно требует линейной независимости век- торов /• (х), i Е Ji (х). Теорема 6.3. Пусть fa (х) в задаче (6.18) выпуклы и непрерывно дифференцируемы. Кроме того, область, определяемая неравенством F (х) ^F (х0), компактна, градиенты fa (х) в этой области удовлетворяют условию Липшица и существует такая точка X, что / (^) = у < 0. Тогда при S < — у выполнены все условия теоремы 6.1. 9 Б. Н. Пшеничный, Ю. М. Данилин
258 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ £ГЛ. Ш Доказательство. Так как ft(x) выпуклы, то /i С») > /i (*) + (fi («)» х — х), i е Для i ЕЕ Js (^) при р = х — х ft (®) + 6 > fi (х) + 6 + (/• (х), р). Но ft (г) f 6 < F (ж) f б = у + б < 0, a ft (х) + б > (х), ieJs(x). Поэтому О > у + б > F (х) + (fi (х), р), i е ^8 (х). Положив, у -}- 6 == — 8, получим, что (f\(х), Р) + (F (х) + е) < 0, i £ К, (х). Но это означает в силу леммы 6.1, что для всех х таких, что F (х) (я0), F (х) 8 > О система (6.20) разре- шима и Z/5 (х) > 0 для таких х. Теперь уже в силу ком- пактности области F (х) F (х0) и соображений непре- рывности, нетрудно убедиться, что (х) у > 0 ^ля всех гг, таких, что 0 (х) <^F (х0). Таким образом выполняются все условия теоремы 6.2, что завершает доказательство теоремы 6.3. 5. Решение задачи о нахождении минимакса. Пусть заданы функции /f (х), i = 1,..., т. Составим функцию F(#)= max fi(x). 1<г<тп (6.25) Задача теперь состоит в нахождении точки х ЕЕ Еп, ко- торая минимизирует F (х). Нетрудно видеть, что поставленная задача сводится к решению следующей задачи путем введения дополнитель- ной переменной хп+1: минимизировать /0 (х, xn+1) = хп+1 при ограничениях fi (х) — яп+1 0, i = 1, . . . , т. Поэтому применимы методы, изложенные в предыдущих параграфах, в частности метод линеаризации. Заметим также, что таким способом может быть решена и зада- ча о нахождении минимума F (х), если х меняется в не- которой области Й, описываемой системой равенств или неравенств.
§ 6] РЕШЕНИЕ СИСТЕМ РАВЕНСТВ И НЕРАВЕНСТВ 259 В этом пункте мы рассмотрим метод минимизации F (х), когда х ЕЕЕп. Этот метод основан на небольшом видо- изменении метода линеаризации. Свяжем с каждой точкой х вспомогательную задачу: min (р+ 4"k II2) ’ (6.26) (Л (®), р) + ft (х) — 0 < 0, I е (я), где 6 > 0, а Js (х) = {i: 1 г тп, (х) > F (я) — б}. Заметим, что задача (6.26) есть задача выпуклого програм- мирования, причем условие Слейтера для нее выполня- ется, ибо, выбрав р достаточно большим, ограничения (6.26) всегда можно удовлетворить строго. Прямое при- менение теоремы Куна — Таккера в дифференциальной форме теперь дает, что р (х) и р (ж) есть решение задачи (6.26) тогда и только тогда, когда найдутся такие нА О, i е ^8 (я), что 2 ui = i> iG^8(x) „ , (6.27) ?(«) + 2 uifi(x) = Q, ((/<(*)> Р (ж)) + fi (ж) — 0(х)) = 0, iG^(4 Далее, точка р — 0, р = F (х), очевидно, удовлетво- ряет ограничениям (6.26). Поэтому Р(х)+4-||Р(*)112<*’(*)- (6-28) Сформулируем теперь алгоритм решения задачи. Пусть Хц — некоторое начальное приближение. Пусть точки / = 0,1,. . . , Л, уже построены. Тогда *k+i = Ч + (6-29) где рк = р (хк). Величина ак выбирается равной 2-^, где f0 — первый из индексов i = 0, 1, . . ., для которого выполнится неравенство Р(Ъ +^Pk)^F(xk)-2-^pkr, |<б<1. 9*
260 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Таким образом, выполняется условие Р fo+i) < F (xfc) — але |pkЦ2. (6.30) Сформулируем условия сходимости алгоритма. Лемма 6.2. р (х) = 0 тогда и только тогда, когда в точке х удовлетворяются необходимые условия минимума F(x). Для доказательства надо вспомнить необходимые ус- ловия минимума F (х) и провести рассуждения, аналогич- ные изложенным, при доказательстве леммы 5.1. Теорема 6.4. Пусть fa (х) непрерывно дифферен- цируемы, область Q = {х: F (х) F (я0)} ограничена и fa (х) удовлетворяют в Q условию Липшица с константой L. Тогда любая предельная точка х* после- довательности хк, к = 0,1,. . ., удовлетворяет необхо- димым условиям минимума F (х) при х ЕЕ Еп. Если fa (х) выпуклы, то х* — решение задачи. Доказательство. Так же, как при доказа- тельстве теоремы 5.1, нетрудно получить оценки fi (як 4-аРк) М +a(/i(^)» Pt) + a*L || pk ||2, i e Уъ (xk), ft {xk 4- apk) < F (xk) — 6 + aK ЦрД i £ (xk), где К = max ||X(x)[. Если теперь воспользоваться условием (см. (6.26)) (A (#fc)» Pk) Pfc fi Pfc = P O'/с)» а также (6.28), то первая оценка примет вид fi (*» + apfc) < (1 — a) (xk) + + o?L | pk ||2 < < F (xk) - a (F (xk) — pk) + a2L | pk J2 < <л*а-4Нр*11а+аа£1М- Далее, так как для 0 a ak, ak =-------—-—7-------г- , ИМ И + -2-0рл|) > FM - 6 + a^Jpd.
$ 6] РЕШЕНИЕ СИСТЕМ РАВЕНСТВ И НЕРАВЕНСТВ 261 ТО fi (хк + арк) <F(xk) — -J- |M2 + a2L|| рА||2 О а ак. Поэтому (6.31) при F (хк + арк) < F (хк\— а Л ||214- Если теперь (6.32) afe, afe = min 1, a^, 1 8~ 2 L (6.33) то F (хк + арк) < F (хк) — а Цр^2 е. Отсюда сразу следует, что неравенство (6.30) выполнит- ся, когда (6-34) после конечного числа половинений единицы. Из (6.30) сразу следует, что ак ||pj|2 -> 0. Но это озна- чает, что ||pfc||->0. Действительно, > у > 0, ибо в силу (6.27) ||р (я) || ограничена сверху в Q. Но из (6.33), (6.34) следует, что и ак ограничено снизу некоторой по- ложительной константой. Итак, рк -> 0. Пусть теперь х* — предельная точ- ка последовательности. Не ограничивая общности, мож- но считать, что хк-+х*. Более того, так как ик, f’E ЕЕ Уъ (як), положительны и в сумме равны 1, то, положив ик = 0, ie Уъ (#&), можно считать, что причем > 0 и w 2 = 1. (6.35) i=l Перепишем теперь (6.27) и (6.26) для точек хк в виде m , . Рк + S (жй) =о, 2=1 4 ((/i рк) +ft (хк) — ₽к)) = 0, г = 1,.. ., т, (6.36), (А (*»)> Рк) + fi М < ₽»> i У* (**)•
262 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. III Из последнего неравенства (6.36) следует, если выбрать i е Jg (жй) так, что ft (хк) = F (хк): Р/С > ft (*k) - К И/М = F (хк) - К II/M- Но (6.28) показывает, что F (л:к)-----2~||pfc||2. Поэтому P/t F (х*)- Переходя к пределу в (6.36), получим т 2 (^*)=о» г=1 ш (Л (^) - F (х*)) = О, i = 1,. . т, (6.37) 2 = i, й* >о. г=1 Но это и есть необходимые условия того, что бы F (я) дости- гала своего минимума в точке х* (см. гл. I). Если ft (х) выпуклы, то эти условия являются одновременно доста- точными, что доказывает теорему. Дадим теперь локальную оценку сходимости алго- ритма. Теорема 6.5. Пусть х* — точка минимума F (х), функции fi (х) дважды непрерывно дифференцируемы. Кроме того, пусть градиенты Д (я*), i GE Jo (я*), где Jo (^*) ~ /? (#*) = F 0е*)} таковы, что разности /?0 (#*)» i Cfо (##)> линейно независимы и множители й1 строго больше нуля для i GE Jo (#*)> (у> L" (х*, й) у) 0 для всех у ^0- Здесь т L (х, и) = 2 ui fi (х), а 1!' (х, и) 2=1 — матрица вторых производных относительно х. Тогда при достаточно малом б^>0 и а^>0 существует та- кая окрестность точки что процесс хЛ+1 = xk + ар (xk), к = 0,1, . . ., сходится с любого начального приближения xQ из этой окрестностии Ця* — хк Ц CqK, где 0 <; q < 1.
J 61 РЕШЕНИЕ СИСТЕМ РАВЁНСТВ И НЕРАВЕНСТВ 263 Док азательство. Мы дадим только общую схе- му доказательства, поскольку полное доказательство со- вершенно аналогично доказательству теоремы 5.4 и, по существу, к нему сводится. Если положить J (ж) = {г G J8 (ж): (А (ж), р (я)) +/г (ж) — 0 (ж) = 0), то можно показать (см. лемму 5.2), что при малом 6 Уъ (#)= — ^Уо (#*) == 3 (х) для всех ж, близких к х*. Поэтому из (6.26) и (6.27) следует, что вектор р (х) и соответствующие множители Лагранжа и1 удовлетворяют системе уравне- ний Р(ж) + S uifi(x) = Q, ie^x.) (fi И, Р (ж)) +/г (ж) = р (х), i е Jo (**), (6.38) 3 и*=1. Пусть 10 — какой-либо индекс из Jo (ж#), а / i (®) = А (х) — А, (ж), Jо (ж) = fia (х). Тогда система (6.38) эквивалентна системе Р (ж) + Io (х) 4- 2 uiII = °» (fi (ж)» Р (ХУ) + fi (х) = 0, jE (#*)> (6.39) ^0 (#*) ” <Уо (•£*) \ Оо}- Но эта система совершенно эквивалентна системам (5.51.1), (5.51.2). Так как доказательство теоремы 5.4 сводилось к изучению свойств р (х) — решения системы (5.51.1), (5.51.2), то отсюда следует, что дальнейшее доказательство теоремы 6.5 просто сводится к проверке условий теоремы 5.4. Но сделанные в теореме 6.5 предположения, как не- трудно проверить, полностью обеспечивают выполнение условий теоремы 5.4 для функций что завершает до- казательство теоремы. Следующая теорема совершенно аналогична теоре- ме 5.5. Теорема 6.6. Пусть выполнены условия теоремы 6.5, и, кроме того, число индексов в множестве ^У0(я*)
264 МЕТОДЫ РЁЙЁНЙЯ ЗАДАЙ С ОЁЁАЙИЙЁЙЙЙМЙ [ГЛ. Ш равно п + 1. В этом случае при малом 6 процесс #fc+l = хк + Р (хк) (6.40) сходится с квадратичной скоростью к точке х*. Доказательство. В рассматриваемом случае вектор р (х) однозначно определяется системой уравне- ний ~ (/• (х), р (х)) +А (х) = 0, i Jo (**), ибо векторы /• (х), i е Jo (х*), линейно независимы для х, близких к х* в силу предположений. Но тогда процесс (6.40) есть просто метод Ньютона решения системы урав- нений 7 (х) -о, i е Jo (**), (6.41) который в силу теоремы 6.1 и замечания 1 п. 3 этого пара- графа сходится квадратично в окрестности точки х*. За- метим, что точка х* удовлетворяет (6.41), ибо ft (х^) = = F (ж*), i ЕЕ Jo (#*)> и поэтому fi (х*) = fi (*£*) fio (#*) = 0, £ (EE Jo (•£*)• § 7. Локальное ускорение сходимости Как было показано в § 5, метод линеаризации сходит- ся, вообще говоря, со скоростью геометрической про- грессии. В ряде задач такая скорость может оказаться не- достаточной и возникает проблема убыстрения сходимо- сти процесса. В этом параграфе мы изложим методы, которые позво- ляют это сделать, если только уже найдено приближение, достаточно близкое к решению. Последнее обстоятельство является недостатком процесса, однако, к сожалению, в настоящее время еще не существует методов, позволяю- щих строить процесс с любого начального приближения, обладающий асимптотически сверхлинейной скоростью сходимости, как это удается сделать в задаче минимиза- ции функций без ограничений. Излагаемые ниже методы основаны на следующей идее. Задача минимизации сводится к некоторой системе нели- нейных уравнений, после чего применяется метод Нью- тона для решения этой системы либо какая-то его модифи- кация. В конце этого параграфа будет изложен метод,
§ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 265 прямо использующий эту идею, т. е. будут выписаны необходимые условия минимума, и к полученным урав- нениям будет применен метод Ньютона. Такой способ об- ладает рядом недостатков, главный из которых — необ- ходимость вычислять вторые производные от исходных функций. Поэтому метод может быть применен лишь в за- дачах, где эти производные легко вычисляются. Второй метод основан на том факте, что точка х* есть решение задачи минимизации (5.1) только тогда, когда она удовлетворяет уравнению р (х*) = 0, где вектор Р (я) — решение вспомогательной задачи (5.4). Будет из- ложен метод, позволяющий решить систему нелинейных уравнений и при этом не вычислять производные. Как уже говорилось, метод будет сходиться лишь с достаточ- но хорошего начального приближения. 1. Постановка задачи. Основные формулы. Пусть требуется решить систему уравнений Р («) = о, (7.1) где р (х) — вектор с компонентами р* (я), i = 1,. . . ..., п, х Е\ Заметим, что р (х) — произвольная век- тор-функция, пока что никак не связанная с задачей мате- матического программирования. Пусть х* — решение системы (7.1)." Будем всюду в дальнейшем предполагать, что р (ж) — дифференцируемая вектор-функция в окрестности точки х*, причэм матрица производных удовлетворяет условию Липшица, т. е. Яр' (*) — р' (у)|<ь|®~ Н где1 все нормы евклидовы. Далее, без ограничения общности можно считать, что х* = 0. Обозначим Р'(0) = А, (О (ж) = р (ж) — Ах, ® (ж> У) = IP (ж) — Р (У) — А (ж — у)]. Будем предполагать, что матрица А невырождена, так
266 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш что справедливы оценки mjx||<M®K^kt С7-3) где М > т > 0. Лемма 7.1. Справедливы оценки Ц® (х)|| < Ci И2, ||® (х, у)Ц < С2 max {ЦхЦ. М)- Доказательство. Пусть р* (х) — градиент функции р' (х). Тогда по формуле Тейлора pi (х) = pi (0) + (pi' (0), х) + (pV (z) — pi' (0), x), где z = 0x, 0 0 1. Используя то, что p* (0) = 0, и условие Липшица для р (х), получаем сразу ||pi (х) — (pi (0), X) |1 < L||X||2, 1=1,..., П. Откуда и следует формула II® (х)|| = |[р(х)-р'(0)х||< ви- далое, Р* (у) = р1 И + (Pr (*)> У~х) + (pv (z) — Р1' (х), у — х), где z = 0х + (1 — 0) у, 0 0 1. Поэтому Р1 (у) — Р{ («) — (Рг (0)» У — х) = = (Р« (*) — Pi (0). У — х) + (Pr (z) - Рг (ж), у — х), откуда после простых преобразований, используя условие Липшица, получаем IP1 (?) — Р* (*) — (РГ (0), У — х) | < <£И1|У-хГ+Чг-х||||у-х|| = = - х||(И +(1 - 0) ||y-xj)< <L ||р-х|| ((2-0)||х|Ц-(1-0) М)< < 3Z |]у - х|| max {Jr||, Jy||}. Из последнего неравенства сразу следует второе утвер- ждение леммы. Пусть’ теперь точки я2,. . . , хп уже построены, р (хк) 0, k = 1, . . . , п, ек — единичные орты в на- правлении Л-й координатной оси.
§ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 267 Положим У к = *к + |р (^fc)ll **, гк = Ук — хк = ||р (xfe)|| ек, Zk = Р (Ук) — Р (хк), к = 1,. . п. Введем меру линейной независимости произвольного на- бора векторов Ьк, к = 1, . . ., п. Положим п Ь Д(blt ...,bn) = "inin |2 Oijqf I • 1=1 г i=l Нетрудно видеть, что Д (6Ь . . . , > О тогда и только тогда, когда векторы . . ., Ьп линейно независимы. Заметим также, что Д (^1, • • • 9 ^п) ,/• — • У п Лемма 7.2. Существует такая окрестность точки х* = 0, что д (Z1, . . zn) > 7 > О, если только х19 . . ., хп лежат в этой окрестности. Доказательство. В силу определения со (ж, у) Zfc = Ark + со (yk, xk) |rj = ||p (®s)| (Aek + <b (yk, xk)). Поэтому Aek + ®(Vk,xk) IMek + <0 Если xk—>0, to zk Aek Однако нетрудно видеть, что Д (zb . . zj непрерывно зависит от zk ijzj-1. Поэтому для хк, достаточно близких к нулю, д (Z1, • • • , Zn) > -g- A tAel’ • • • > Aen)- Но. Д (Aelt . . ., Леп) > 0, ибо векторы Aek, к — 1,. . ., n, есть просто столбцы матрицы А, а так как матрица А
268 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ 1ГЛ. Ш невырождена, то ее столбцы линейно независимы. Итак, Д (Zi,..., 2n) A (Aei,.. •, Аеп) О для всех хк из некоторой окрестности х* = 0, что и тре- бовалось доказать. Пусть 6 > 0 — радиус окрестности нуля, в которой справедливы леммы 7.1 и 7.2. Пусть точки xi9. . . , хп выбраны из этой окрестности. Найдем величины рг, i = 1, . . ., п, из системы уравнений • п — Р(®п)=ЗРл. (7.4) fc=l В силу леммы (7.2) эта система разрешима. Положим п *п+1 = Хп + 2 Рл- (7-5) fc=l Оценим норму яп+1. Поскольку Р (хп) = Ахп + © (хп), (7.6) zfc = Агк 4- © (ук, хк) IrJ, из (7.4) получаем п п — Ахп — ©(«„) = 2 + 2 М (у хк) к» И» Л=1 fc==l или п Ахп+1 = (О (#п) 2 (Ук’ %k) || rk I- к—1 Из последнего равенства следует п ^kn+i|K|l^n+i||<||o)(a:n)||+ 3 |Mllrfcllll0)fe^)ll- (7-7) fc=i Но в силу леммы 7.1 11<0 (ук’ *fc)ll < С’г max {||yj, ||^J|} = C2max {||(arfc + + \\P (^)l *кП, Ы) < C2 (Ы + IIP (^) II).
$ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 269 В рассматриваемой окрестности |р («»)1 = ® (®fc)ll < м М + ci ЫГ- К® (Ук> хк) || ^2 (1 М 4~ ll^fcll = ^8 Ы1- Используя это неравенство, оценку (7.7) можно перепи- сать в виде п ^К^кЫ’ + СзтахЫЗ |МЫ] . (7.8) L l<fc<n k=1 J Заметим теперь, что о 4 и 1(Д Учитывая (7.4), получаем ||p(*n)l> A(Z1, • Далее, п »^п) (21 III ч=1 (7-9) || м = II (Агк + со (ук, хк) || rk DII > к Ark || — II rk IIII со (ук, хк) || > >1Ы(те-С3Ы)>|Ы(/п-С8 шах ||жл||). Поэтому п п 2 1МЫ1> ( 2 I (МЫ) max Ы|). fc=l Ч=! 7 1<*<п Неравенство (7.9), если тах||^Ц<т/С3, (7.10) теперь дает Ж|Ы< ....................... <7-“)
270 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Учитывая теперь, что / к (*«) II = M^n+® (^n) II < м IM + Ci ||^n||2 < ММ (7.8) с учетом (7.11) и леммы 7.2 можно окончательно пе- реписать в виде г Сз max II хк [| С4 -<7.12) Сформулируем полученный результат в виде леммы. Лемма 7.3. Если точки xk, к — 1,. . ., тг, выбраны в такой окрестности точки х* = 0, что выполняются условия лемм 7.1 и 7.2 и неравенство (7.10), то справедлива оценка (7.12). 2. Алгоритм. Сформулируем теперь алгоритм решения системы уравнений (7.1). Выбираем начальные точки х^ я2, . . ., хп. Пусть точки #!,..., яп,. .., уже построены. Тогда точка хм строится по следующей формуле: п ^/£+1 = хк н- 2 к-п+ь (7.13) 1=1 где rJ = IIP (*/)|| У> = Xj + rh Zj = р (yj) — р (Xj), а величины i = 1,. . ., тг, определяются из системы уравнений п — Р^к)^ 2 Pisfc-n+i- (7*14) г=1 Индекс т (/) вычисляется по следующему правилу: если / = In -f- />, 1 О — 1, где Целое, то т (j) = р. Если же / = In, то т (/) = п. Таким образом, векторы гА, г2,. . ., rk пропорциональ- ны единичным ортам координатных осей, которые берут- ся в циклическом порядке. Как видно из приведенных формул, схема алгоритма достаточно проста. На каждом шаге она включает вычис- ление р (х) в точках хк и ук и решение системы уравне- ний (7.14).
§ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 271 Теорема 7.1. Пусть б0 > 0 таково, что для х, удовлетворяющих неравенству ||х|| б0, выполняются усло- вия лемм 7.1 и 7.2 и, кроме того, неравенства (7.15 — [G + т L 2С3С41 ту J (7Л6) Пусть xi9 ... 9 хп выбраны так, что ||xj| 60, к = = 1, . . ., п. Тогда описанный выше алгоритм сходится к решению х* уравнений (7.1) и скорость сходимости сверх- линейная. Доказательство. Покажем, во-первых, что б0 для всех точек х*, построенных в процессе ал- горитма. В самом деле, если xt, ... , xk лежат в бо-окрестности точки х*9 то для точек xK-n+i, х^п+2,. . ., х^ выполняются условия леммы 7.3 и поэтому справедливо неравенство, аналогичное неравенству (7.12): W4maxpfc_n+j T(zn — <7з max || ajfe_n+i ||) l^i<n из которого следует с учетом (7.15), что IkmIKkd max l<i<n (7.17) где Ho ||^+|||<б0 по предположению. Поэтому ll^/f+lll IIВ S0C5 ||#к|| что и требовалось доказать. Более того, йз последнего не- равенства следует, если обозначить qQ — 60С5, что (7.18) Так как в силу (7.16) gQ < 1, то отсюда следует оценка l^fcl < 7o~n ИМ т- е. xfe->0, так что первое утвержде- ние теоремы доказано.
272 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Далее, из (7.17) получаем, что II х II / тахЦх^Ц. (7.19) II к II ICKn Так как хк -> 0, то последняя оценка означает, что ll^fc+ill q IM Последнее соотношение показывает, что хк 0 быстрее любой геометрической прогрессии. Теорема доказана. Произведем более точную оценку скорости сходимо- сти. Положим vk = С5 ||#J|. Тогда (7.17) может быть пе- реписано в виде 1 < vk max vk~n+i. (7.20) l^i<n Положим теперь Vj = max / — 1, . . . , тг, и определим l<i<n к тг, по рекуррентной формуле « vk max Vfc-n+i- (7.21) 1<г<п Тогда легко видеть, что vk для всех к. Далее, по- скольку Vt = С5Ы < Cs60 = д0 < 1, i = 1, . . . , n, то vt q0 < 1, i = 1,. . ., n, и поэтому последователь- ность vk монотонно убывает. Этот факт элементарно доказывается индукцией по к. Отсюда следует, что max vk_n+}= vk_n+i> и (7.21) переписывается в виде Ki<n Vjc+i = PfcVfc_n+i. (7.22) Положим wk = In vk. Тогда u>k+i = Wk 4- u>fc-n+i, к > n, (7.23) wk — In vk, к = 1,..., n. Из результатов Островского ([1], теоремы 12.1 и 12.2), следует, что (7.24)
§ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 273 где Хо — наибольший положительный корень уравнения ф (X) = Г - Г-1 -1=0. (7.25) Так как ф (1) — — 1 <; 0, а для больших X ф (X) 0, то Хо > 1. Из (7.24) следует, что для любого 8^>0, Хо — 8>1, найдется такой номер к (в), что--------- > Хо — е, или ~ Wk In vk., ~ ~ , _ > Хо — е. Так как In vk <" 0 (ук < q0 < 1), то для In »к k^k(e) ~ ~ ~ In y/c+1 (Xo — e) In vic = In i4x’~€, или Pfc+i^v(fcX’ e\ k^»k(E). Из последней формулы следу- ет, что . Но последовательность vk моно- тонно убывает и Поэтому < q^k~k&\ к>к (е). (7.26) Теорема 7.2. Если выполнены условия теоремы 7.1, то для каждого 8 0, Хо — 8 1, где Хо — наиболь- ший корень уравнения Кп — %п-1 — 1 = 0, найдется та- кой номер к (е), что для всех к к (в) справедливо неравен- ство Qo<l- (7.27) Доказательство. Напомним, что vk = |, Из этих неравенств и (7.26) сразу следует требу- емый результат. 3. Вычислительные аспекты. Применение к задаче ма- тематического программирования. Изложенный в пре- дыдущем пункте алгоритм достаточно прост. На каждом шаге он требует вычисления вектора р (ж) в точках хк л ук и решения системы линейных уравнений (7.14). Если обозначить через Zk матрицу со столбцами zk_n+v i — 1,. . ., п, то уравнения (7.14) можно переписать в ви- де Z$k = — р (як), где 0й — вектор-столбец с компО’ центами 0*, i = 1, . . п,
274 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. ПТ Из алгоритма следует, что матрицы Z* и Z^i отли- чаются только одним столбцом: столбец ^Меняетсяна стол- бец zfc+1, a Zfc-.n+b i п — 1, меняются на з&-пИ+1> * п ~~ 1 • Поэтому для вычисления pf+1 можно использовать при- емы, изложенные в гл. II, § 3, п. 4, 5. Следует также за- метить, что эти приемы ведут к накоплению вычислитель- ной погрешности. Поэтому, если вычисление р (yk) тре- бует существенно больше операций, чем решение системы (7.14), то следует применять стандартную программу ре- шения системы линейных уравнений для вычисления Pfc, не используя рекуррентные формулы. Возвратимся теперь к задаче (5.1) — (5.2), изложен- ной в § 5. В силу леммы 5.1 для нахождения локального минимума достаточно решить уравнение р (х) — 0, где р (х) есть решение задачи (5.4). Если выполнены предпо- ложения теоремы 5.4, которые достаточно естественны, то в силу лемм 5.2, 5.4 в достаточно малой окрестности ре- шения х* выполнены и условия теоремы 7.1. Поэтому при- менение изложенного в этом параграфе алгоритма позво- ляет ускорить сходимость метода линеаризации. При этом в качестве р (х) следует брать вектор р (х), который являет- ся решением задачи (5.4). 4. Задача минимизации с ограничениями типа равен- ства. Рассмотрим задачу минимизации функции /0 (х) при ограничениях /. (X) = 0, i = 1,. . т. (7.28) Пусть х* — решение задачи и выполнены следующие пред- положения. а) Функции fi (х) дважды непрерывно дифференцируе- мы и их вторые производные удовлетворяют условию Липшица. б) В точке х* градиенты /{(х*), i = 1, . . ., иг, линей- но независимы, так что необходимые условия минимума в х* выполняются в регулярной форм) (см. гл. I, § 4). Та- ким образом, существуют множители Лагранжа и\ г = 1, . . ., иг, такие, что тп /о (**) + S uifi (**) = °’ (7 29) fi (я*) = 0, I = 1». • •'»
§ 7] ЛОКАЛЬНОЕ УСКОРЕНИЕ СХОДИМОСТИ 275 в) Выполняются достаточные условия локального ми- нимума, т. е. 17 и) у) > 0, если у =/=0 и (/1 (х*), т у) = 0, i = 1,. . т. Здесь L (х, и) = fQ (х) -|- 2 i=i a L" (х, и) — матрица вторых производных от L (х, и) относительно х. Т е о р е м а 7.3. Пусть выполнены приведенные выше условия а) — в). Тогда последовательности xki и\, i = = 1,. . . , т, к = 0, 1, . . ., вычисленные из рекуррентных соотношений т L" {хк, ик) рк + 2 (**) + L' ик) = О, i=l (/.oU) (/i(a:k)«Pfc) + /i(a:k) = 0> i = ‘f'k+l xk "I" Pkt iq on i i . a i • Л {l-OL) Ufc+i = Uk + i = 1,..., m, сходятся к x* и и* соответственно с квадратичной скоро- стью с любого начального приближения xQ,u^ i~-[, , . достаточно близкого к решению х*, и\ i — 1, . . . , т. Доказательство. Процесс, определяемый формулами (7.30), (7.31) есть просто процесс, порождае- мый методом Ньютона, при применении его к системе (7.29). Поэтому для доказательства теоремы достаточно проверить на основании замечания 1, п. 3, § 6, что матри- ца первых производных от левых частей (7.29) относи- тельно всех аргументов х и и1 невырождена в решении. Если обозначить через f (х) матрицу со строками /4 (х) тп, то нетрудно видеть, что матрица первых производных от левых частей (7.29) имеет следующий блочный вид: £"(##, и) /'*(#*) И I’M о n-f-m Для того чтобы убедиться в ее невырожденности, до- статочно показать, что однородная система уравнений L (ж*, и) у и = 0, ' (**) У = о
276 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш имеет только нулевое решение. Здесь у е= Еп, й — вектор с компонентами й1, i — 1, . . ., т. Итак, пусть у, й — решение системы (7.32). Умножая первое из уравнений (7.32) скалярно на у, получаем в силу второго уравнения, что (у, L" (х#, и) у) 4- (у, Г *(«„) й) = = {у, L" (х*,и)у) + (х*)у,й) = (у, L" (х*, и) у) = 0. Но в силу предположения в) последнее соотношение по- казывает, что у = 0. Поэтому первое из соотношений (7.32) перепишется в виде т р* (^*)«=2 (**) = °. г—1 что возможно только если й1 — 0, i — 1, . . . , т, так как векторы (х*) линейно независимы по предположе- нию б). Итак, показано, что условия сходимости метода Нью- тона выполнены, а тем самым доказана и теорема. § 8. Метод штрафных функции Метод штрафных функций является одним из наиболее простых и широко известных методов решения задачи ма- тематического программирования. Основная идея метода состоит в приближенном сведении задачи минимизации при ограничениях к задаче минимизации некоторой функ- ции без ограничений. При этом вспомогательная функция подбирается так, чтобы она совпадала с заданной миними- зируемой функцией внутри допустимой области и быстро возрастала вне ее. Допустим, что исследуется задача минимизации функ- ции /0 (х), х ЕЕ Еп, при ограничениях fi 0, i — 1,. . . , т. (8.1) Все функции fi (х), i = 0, 1, . . . , т, непрерывны. Пусть р2, £>0, (t, фо^ = |о, £<0; = £<0. (8’2)
$ 81 Метод штрафных функций 277 Составим функцию т ф (х, г) = Г 3 Фо (/г («))• (8-3) г=1 Тогда легко видеть, что ф (х, г) = 0, х ЕЕ Й, где Q = {х: fi (х) 0, i = 1, . . . , т}. Если же я ЕЁ й, то ф (х, г) > 0 и ф (я, г) -> + оо при г -+ + оо. Вспомогательная задача теперь состоит в минимизации функции F (х, г) =/0 (х) +Ф (х, г). (8.4 Естественно ожидать, что решение этой задачи х (г) будет близким к решению исходной задачи. Ниже будут сфор- мулированы точные условия, при которых этот факт бу- дет иметь место. Заметим, что выбор функции ф (гг, г) не обязательно было делать так, как это было сделано выше. Будет до- статочно, чтобы эта функция обладала некоторыми об- щими свойствами, которые обеспечат сходимость метода. В зависимости от способа выбора функций ф (ж, г) метод обладает различными свойствами. В частности, если по- ложить ф (х, г) = г max Фх (Л (о:)), l<i<r то метод линеаризации, изложенный в § 5, можно рассмат ривать как метод минимизации функции (8.4). Причем как показано в § 5, в этом случае нет необходимости уст ремлять г к бесконечности. Однако F (х, г) будет неглад- кой функцией. В общем случае F (х, г) строится так, чтобы она была гладкой и была возможность применять один из быстро сходящихся методов гл. II. К сожалению, при этом г надо устремлять к бесконечности, что влечет за собой ряд неявных трудностей, которые, на взгляд авторов, зна- чительно снижают ценность метода штрафных функций. Ниже мы обсудим эти трудности, а также бегло изложим еще один метод, близкий по идее к методу штрафных функций.
278 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш 1. Обоснование] метода [ штрафных функции. [Пусть некоторая непрерывная функция ф (ж, г) обладает сле- дующими свойствами: 1) Ф (#, г) = 0, если я Е £2, ф (я, г) > О, х Ё £2, и Ф (#ь Гс) -> + оо, если хл -> я0, х0 ё £2, Гц -> + оо; 2) ф (х, г) монотонно возрастает с ростом г. Теорема 8.1. Пусть множество йс{г) = {х-. F (х, г)^С}, F (х, г) = /0 (х) + Ф (х, г), компактно. Тогда функция F (х, г) достигает своего ми- нимума т (г) по всем х в некоторой точке х(г), и при этом т (г) т, где т = min /0 (ж), т (г) —> т и т(г) монотонно возрастает с ростом г. Более того, если х (гц) -> х0, к -> оо, г к: оо, то Xq — решение исходной задачи (8.1). Доказательство. Пусть х — какая-либо точ- ка из £2, С = /0 (х). Тогда множество £2 тех же £2, для которых есть замкнутое подмножество ком- пактного множества £2^ (г). Действительно, для х Е О в силу свойств ф (х, г) /о (*) + Ф (*» г) = /0 (х) < с, т. е. х Е Ц; (г). Но ясно, что минимум /0 (х) на £2 должен лежать в подмножестве £2. Поэтому следует искать минимум непрерывной функции /0 (ж) на компактном мно- жестве £2. Так как непрерывная функция достигает свое- го минимума на компактном множестве, то отсюда следует, что задача (8.1) разрешима. Аналогичные рас- суждения показывают, что функция F (х, г) достигает своего минимума т (г) в некоторой точке х (г). Пусть х* — некоторая точка минимума /0 (х) в £2. Тогда F (я*, г) = /0 (ж*) + i|) (х*, г) = /о (ж#), ибо ж* Е (2, а ф (х, г) = 0 при ж Е £2. Поэтому min F (х, г) — т (г) т, т. е. х (г) е йт (г).
$ 8] МЕТОД ШТРАФНЫХ ФУНКЦИЙ 279 Рассмотрим теперь множества Йт (г) = {я: /о (я) + Ф (я, г) < /0 (я-*)}. Эти множества компактны по предположению и в силу возрастания г|) (х, г) с ростом г: (7*2) С (гх), Г1<^Г2. Пусть теперь г&, к -> оо, — возрастающая последователь- ность г, причем гц -> + оо. Тогда Qm (rte) с= Qm (п). Так как, как было показано выше, х (г) е йт (г), то все точки х (гк) принадлежат компактному множеству йт (rj. Поэтому без ограничения общности можно считать, что последовательность х (гц) сходится к некоторой точке гг0. Покажем, _что х$ ЕЕ Q и /0 (я0) = т. Действитель- но, если £0 ЕЕ Q, то гр (х (гД Гц) + оо и, значит, F (®(гД гк) -> + оо, иэо /o(^(rk))> min /0 (ж). Но это противоречит тому, что F (х (rfc), гк) = т (гк) т. Итак, х<|£ 2. Далее, т (гй) = F (х (rfc), rfc) = /0 (х (гк)) + ч|) (х (гк), гк) < < /о (хо) + Ф (*о» гк) = /0 (х0). Отсюда lim т (гк) = lim (f0(x (гк)) + ф (х (гк), гк)) < /0 (х0). К-^со к-*С0 (8.5) Но /0 (х (гк)) -> /0 (х0), поэтому lim ip (х (гк), Гк) < /о (^о) — Ит /0 (х (rfc)) = 0. fc->oo к-^00 Так как ф (х, г) 0, то отсюда следует, что lim х|> (® (гЛ), Гк) = 0. Итак, lim т (rk) = lim /0 (х (гк)) + lim Ф (rs), ги) — fo (жо) > fc->OQ /f->OO
280 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. II I С другой стороны, т (гк) т. Поэтому lim т (rk) = = /о (*о) < т- Сопоставление последнего неравенства с предыдущим показывает, что lim т (rfe) = /0 (х0) — т, к-*<х> что завершает доказательство теоремы. Доказанная теорема показывает, что замена решения задачи (8.1) минимизацией фукции F (х, г) при больших г позволяет приблизиться к решению исходной задачи. Оценим характер этой сходимости в невыпуклом случае. Задача выпуклого программирования будет исследована в следующем пункте. Теорема 8.2. Пусть функции ft (я), i = 0, 1,. . . . . ., тп, непрерывно дифференцируемы, и выполнены условия теоремы 8.1. Кроме того, пусть: 1) задача (8.1) имеет единственное решение*, 2) функция ф (х, г) выбрана в форме (8.3) и минимум F (х, г) достигается в единственной точке х (г) при боль- ших г; 3) в решении х* задачи (8.1) градиенты Д(^), (#*), линейно независимы, а (**) = {i- fM = °> i = 1, . . •» т}- Тогда lim х (г) = х* и Г->оо lim r<px (/j (х (г))) = -g- и’, i = 1,..., т, где и1 — множители Лагранжа задачи (8.1). Замечание. Напомним, что согласно теореме 4.1 (§ 4 гл. I) в точке х* выполняются необходимые условия минимума в форме т fo (**) 4- 3 (я*) = 0, 2=1 P-Ь) и1 > 0, м*/г(я*) = 0, £ = !,.. ., т. Доказательство. Покажем сначала, что х (г) х*. Допустим противное. Тогда найдется такая последовательность rk что ||я (гй) — х* (> б0 > 0. Так как при доказательстве теоремы 8.1 было показано, что х (rfc) GE (гх), а множество (гх) компактно,
МёТоД тШ’РаФйых ФУйкЦйй 281 S al то, не ограничивая общности (если надо — можно взять подпоследовательность), можно считать, что х (rh) -> х**, причем ясно, что Цх*# — х* || > So > 0. Однако из тео- ремы 8.1 следует, что х** — решение задачи (8.1). Таким образом, получено два различных решения задачи (8.1), что противоречит предположению. Итак, показано, что х (г) х*. Докажем второе ут- верждение теоремы. Так как х (г) — точка минимума функции F (х, г), то в этой точке градиент функции т F (х, г) = /о (х) + г 2 фо (А (*)) i=l должен быть равен нулю. Простые вычисления показы- вают, что это приводит к равенству т Р' (г).г) = /о (х (г)) + 2 (2гфх (Ji (х (г)))) Л (х (г)) = 0, i=l или, если обозначить и1 (г) = 2г фх (fi (х (г))), т , (8.7) f'o (* (г)) + 2ui (И л (,х (г)) = °- 1—1 Заметим теперь, что так как х(г)-^х*, то Д (х (г)) <0 для i е? Z70 (я*), ибо fi (я*) <0, i (#*)• Поэтому при больших г и1(г) = 2гфх (ft (х (г))) = 0, (**)• Но и1 ft (х*) = 0, и поэтому для i Уо (х#) и1 = 0. Тем самым с учетом выражения для и1(г) утверждение теоремы доказано для i ёЁ Jo (^*). В силу только что сказанного (8.7) и (8.6) можно пере- писать в виде /о (х (г)) + 2 ui (r) h (х (г)) = °» iS<^o(x*) , (8.8) fo(.x*)+ 2 «*л(^») = о.
282 МЕТОДЫ РЕШЕНИЙ ЗАДАЧ С ОГРАНИЧЕНИЯМИ (ГЛ. Ш Если теперь учесть, что х (г) х*, fa (х) непрерывны по х и fi (х*), i ЕЕ Jo (я*), линейно независимы, то из (8.8) уже нетрудно сделать вывод о том, что и1 (г) -> что с учетом выражения для и1 (г) завершает доказательство теоремы. Замечание. Из теоремы 8.2 следует, что’если I? > 0, то при больших г fi (х (г)) тоже строго больше нуля и при этом fi (х (г)) стремится к нулю с такой же скоростью, как величина и1 г'1. Таким образом прибли- женное решение всегда будет нарушать ограничение ft (х) О, если и1 0. 2. Выпуклое программирование. В случае^задачи вы- пуклого программирования оценки приближения х (г) к искомому решению х* могут быть сделаны^более точными. Теорема 8.3. Пусть все функции ft(x), i = 0, 1,... . . ., т, выпуклы, выполнены условия теоремы 8.1 для функции i|) (х, г), взятой в форме (8.3), и, кроме того, в точке х*, являющейся решением задачи 8.1, выполнены необходимые условия в форме теоремы Куна — Таккера, т. е. существуют такие числа и1 > 0, что h (**) < S (я) + /о (х), Ух, (8.9) (х*) — °» 1 = 1, Тогда fi (х (г)) < у-, если (х (г)) > 0, (8.10) /о(^(г))>/о(^)-4-?-’ (8-и) где Г т й = ]/ 2 (и*)2 • i=l Доказательство. Введем обозначение Jo (#)== = v* fi (х) > 0, i — 1,. . . , иг}. Так как m F (х (г), г) = fa (х (г)) + Г 2 <Ро (/г (* (г))) < /о (ж*),
$ 81 МЕТОД ШТРАФНЫХ ФУНКЦИЙ 283 то из (8.9) следует, что /о (* (г)) + Г 2 фо (fi (х (г))) < /о (х (г)) + 2 “Vi (х (г)), г=1 г=1 ИЛИ Г 2 Фо (/i (X (Г))) < 2 “Vi (Х (Г))- г=1 г=1 Но для ie3o(^(H) Фо (ft (х (г))) = 0, ft (х (г)) < О, а Фо (fi (х (г))) = fi (х (г)) для г е (х (г)). Поэтому по- лученное неравенство можно усилить: Г 2 /i(*V))< 2 “Vi(®0X“l/ 2 fi(x(r))- геУо(х(г)) ?е?о(х(г)) V При выводе последнего неравенства использовано извест- ное неравенство Коши — Буняковского. Таким образом, Ж))<|/ 2 fi (х V)) <-у- , (8.12) • геЭ0(х(г)) откуда и следует (8.10). Далее, для всех х fo (X*) < /о (х) + 2 “Vi (х) < /о (х) + 2 “Vi (х) = i=1 гей(х) =/о(^) + г 2 f(x)— 2 (Vrfi(x)—_+ i m + 2 -V-</0(®)+rS ф»(/|И)+4-= ieS^x) i=1 = F(a;,r) + ^-. При этом учтено, что 2 Фо (/;(*))= 2 fi(x^ (8-13) г—1
284 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш как это следует из определения <р0 (х) и (х). Итак, т fo (х*) < /о (х (г)) + г 2 Фо (А (х (г))) 4- . г=1 Но из (8.12) и (8.13) следует, что m 2 фо (/i (х (Г))) г=1 Поэтому fo (х (г)) > f0 (Хф) - у-» что и требовалось доказать. 3. Вычислительные аспекты. Изложенная выше мето- дика сводит задачу (8.1) к минимизации функции F (х, г). Теперь для получения приближенного решения можно воспользоваться одним из методов, изложенных в гл. II. Однако надо учесть следующие особенности. Если функ- ции fi (х) невыпуклы, то F (х, г) также не будет выпук- лой по х. Поэтому она может обладать локальными ми- нимумами, в то время как во всем предыдущем изложении предполагалось, что находится глобальный минимум х(г). Так как все методы гл. II предназначены для нахож- дения локального минимума, если минимизируемая функ- ция невыпукла, то при плохом начальном приближении будет найден локальный минимум х (г). Это нарушает сходимость и является существенным недостатком метода штрафных функций в применении к невыпуклым задачам. В случае, если рассматривается задача выпуклого про- граммирования при использовании в качестве ф (х, г) функции (8.3), F (х, г), как нетрудно проверить, также будет выпуклой. Поэтому указанная выше трудность снимается. Однако возникает другая трудность. Дело в том, что для получения хорошего приближения следует г брать достаточно большим, как это следует из получен- ных выше оценок. При этом все производные от F (ж, г) по х также будут большими, ибо они пропорциональны г. Но при анализе всех методов, имеющих сверхлинейную сходимость и изложенных в гл. II, было установлено, что размер окрестности, в которой сходимость становится
§ 8] МЕТОД ШТРАФНЫХ ФУНКЦИЙ 285 сверхлинейной, обратно пропорционален константе Лип- шица вторых производных, т. е. в рассматриваемом слу- чае эта окрестность будет также мала, и даже теоретичес- ки хорошо в пределе сходящийся метод может стать неэф- фективным. Более того, так как функция <р0 (t) при t = О не имеет второй производной, то и F (х, г), вычисленная с использованием ф (ж, г) из формулы (8.3), также не бу- дет иметь вторых производных в точках х, для которых (х) = 0 для некоторого i. Но если решение х* лежит на границе области, то именно этот случай будет иметь место. С другой стороны, все быстросходящиеся методы требуют наличия у минимизируемой функции вторых производных по крайней мере в некоторой окрестности искомой точки. Все указанные трудности, как правило, проявляют се- бя в практических расчетах, что снижает эффективность метода. 4. Метод Фиакко и Мак-Кормика. Этот метод также практически применим только к задачам выпуклого про- граммирования. Он основан на идее, близкой к методу штрафных функций, однако в нем приближения подходят к решению изнутри области, а не извне, как это было в методе штрафных функций. Опять рассмотрим задачу (8.1) и будем предполагать, что все функции (х) выпуклы и существует такая точка £, что fi (х) <0, г = 1, . . тп, так что внутренность допустимого множества Q непуста. Составим функцию т Р(х,г) = г>°> определенную внутри множества Q. Нетрудно проверить, что Р (х, г) выпукла по х внутри Q. Если обозначить через х (г) точку минимума Р(ж, г) в 2, то при достаточно об- щих предположениях, аналогичных предположениям тео- рем 8.1 и 8.2, можно показать, что lim х(г) = х*> г-Н-0 lim —— ---- = z?, i = 1,..., т. r-0 J
286 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш Таким образом, приближенное решение задачи (8.1) снова свелось к задаче нахождения минимума функции Р (х, г) без ограничений. Об особенностях этой вспомогательной задачи можно сказать тоже, что было сказано в п. 3 о методе штрафных функций. Чтобы проиллюстрировать эти особенности и показать, почему даже эффективные методы минимизации F (х, г) или Р (х, г) могут не обеспечить высокой скорости сходимости, приведем простой пример. Пусть /0 (х) = — х, Д (х) = х, хЕ Е1. То есть ре- шается задача минимизации — х при ограничении х 0. Очевидное решение х* = 0: Р (х, г) — — х--г—. Приравнивая производную от Р (х, г) по х нулю, полу- чаем 1+^ = 0, (8.14) откуда х (г) = — Yг- Применим теперь для решения (8.14) метод с квадратичной скоростью сходимости — ме- тод Ньютона, т. е. будем получать приближения по фор- муле г) Подставляя выражения для Р' (х, г) и Р" (х, г), после про- стых преобразований получим формулу 2 Y г — хк 2 . Vk+1 =----27----vk = Xk + V г - (8.15) Из формулы (8.15) ясно, что уклонение Хк от решения х (г) = — ]/Т будет монотонно стремиться к нулю лишь для тех начальных точек, для которых Так как Хк <0 (приближение ищется в области х <0), то
9 91 МЕТОДЫ ПРОЕКТИРОВАНИЙ 287 Таким образом последняя формула показывает, что квадратичная сходимость метода Ньютона будет гаранти- рована только в такой области, в которой х^ уклоняется от решения не более чем на У г, т. е. область сходимости метода Ньютона стремится к нулю с уменьшением г, и размеры этой области по порядку величины равны ве- личине уклонения х (г) от истинного решения исходной задачи х*. Это показывает, что главная вычислительная работа будет затрачена на попадание в окрестность схо- димости метода Ньютона, в то время как там, где метод Ньютона хорошо сходится, в нем уже нет необходимо- сти, так как получено приближение на столько же укло- няющееся от х*, на сколько уклоняется х (г). § 9. Методы проектирования с восстановлением связей 1. Схема построения методов. Рассмотрим задачу ми- нимизации функции /0 (х) при условиях ft (х) = 0, i = 1, . . ., т, т<_п. (9.1) Обозначим g = (Д, . . . , fm), Sg= {x:g (х) = 0}. Бу- дем считать, что все функции /0 (х), /х (я),. . .,/т(я) непрерывно дифференцируемы, a Sg — гладкое многооб- разие ((п — тп)-мерное), т. е. в любой точке х G= Sg ранг матрицы g' (х) равен т (gf (х) = { i = 1, • • • > I дх3 J 7 = 1,..., n, I — индекс строки). Следовательно, в любой точке % е Sg можно построить касательную ги- перплоскость к Sg: g’ (£) (х — £) = 0. (9.2) В дальнейшем эту гиперплоскость (т. е. множество точек, удовлетворяющих уравненению (9.2)) будем обозначать через Т (Я). Один из возможных подходов к построению итера- ционных процессов решения сформулированной задачи основывается на следующих соображениях. Пусть Хц — произвольная точка Sg такая, что гради- ент /0 (я0) не ортогонален гиперплоскости Т (я0) (т. е. в точке х0 не выполняется необходимое условие экстре- мума функции /0 (х) на многообразии Sg). Тогда в плоско-
288 Методы Гейтёнйя 8аДаЧ d ограничениями £гл. ftf ? сти Т (х0) существует бесконечно много направлений j спуска /0 (х) (т. е. существует бесконечно много направле- ' ний х — Xq, принадлежащих Т (xQ) и таких, что I (/о (#о), х — хо) <0). Предположим, что мы определили одно из таких направлений v0 = х0 — х0 и построили точку $о (а) = хо + о^о таким образом, чтобы оказалось /о(^о (а)) </о (*о)« Точка z0 уже не удовлетворяет уравне- ниям связей (9.1). Однако если значение параметра а до- статочно мало (мала величина ||я0 — Xq (а)||), то, используя точку xQ (а), можно различными способами построить та- кую точку xt ЕЕ Sg, что окажется /о (xi) < /о (*о). (9.3) Это утверждение основывается на том, что на гладком мно- гообразии Sg можно выбирать точку х± (а) (притом не един- ственную) таким образом, чтобы выполнялось условие | xr (а) — xQ = Хо (а) —• xQ + (о0 (а), где II «о (<*)// = ki (а) — (а) II = о (р0 (а) — х0||). (9.4) (Строго это можно доказать, используя теорему об ото- бражении друг в друга окрестности точки xQ в многообра- зии Sg и в касательном многообразии Т (я0), справедли- вую в пространстве Еп*, см. Л. А. Л ю с т е р н и к, В. И. Соболев [1], стр. 481.) При выполнении (9.4) в силу дифференцируемости /0 (х) имеем /о Hi) = /о Ио) + (/о Ио), — £0) + о (||а^ — £0||) = = /о, Ио) + (/о Ио), io — *о) + о (Ио — *о||) + + (/о Ио), Ъ. — $о) + о (Hi — М = /о Ио) + + (/о Ио), io — *о) + 01 (II io — ^oll)- Отсюда и следует, что если параметр а достаточно мал, то будет выполняться неравенство (9.3). Построив точку ЕЕ Sg, в которой выполняется усло- вие (9.3), мы тем самым, по существу, выполнили итера- цию некоторого процесса спуска для построения после- довательных приближений к решению. Таким образом, к-я итерация процесса описываемого типа заключается в следующем.
МЕТОДЫ ПРОЕКТИРОВАНИЯ 289 § 9] 1. Определяется направление спуска = хк — хк функции /о (#) в касательной гиперлоскости Т (хк). 2. Делается шаг определенной длины в направлении vk: хк (а)Г = хк + avk (так, чтобы оказалось /0 (хк) < < /о (^/с))* 3. С использованием точки хк (а) определяется точка в которой выполняется условие fQ (хк+1Х <fo Ы- Из предыдущего изложения ясно, что для движения из точки хк можно выбирать различные направления спус- ка в плоскости Т (хк). Выбор величины ак и заключи- тельная часть итерации — построение точки хк+1 — так- же определяются неоднозначно. Осуществляя различ- ными способами каждый из трех этапов итерации, можно построить целый класс процессов спуска описанного типа. Рассмотрим сейчас некоторые возможные способы вы- бора вектора vk. В качестве вектора vk можно выбирать проекцию антиградиента — /0 (хк) на плоскость Т (хк). Построение такого вектора экивалентно решению задачи минимизации функции Fk(x) = (/0(xk), X — xk) + -|-||a: — xJI2 (9.5) при условии х ЕЕ Т (хк). Используя для решения этой за- дачи метод множителей Лагранжа, устанавливаем, что »» = —(/ — g'* (g'g'*)-1g')/o(^), (9.6) где g' = g' (xfc). Более эффективные методы проектирования с восста- новлением связей можно построить, выбирая в качестве vk вектор, минимизирующий функцию Fk (*) = (/о х — хк) + (/о (х — хк), х - хк) (9.7) на плоскости Т (хк) (такой вектор существует, если Fk — выпуклая функция). Поскольку здесь для построения направления движения используется фактически квад- ратичная аппроксимация минимизируемой функции, мы будем называть методы, в которых ик строится описан- ным способом, методами второго порядка. Рассмотрим теперь способ восстановления связей (третий этап итерации), который будет использоваться в дальнейшем. 10 Б. Н. Пшеничный, Ю. М. Данилин
290 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ, III Пусть система уравнений (9.1) в некоторой окрестно- сти любой точки х ее Sg определяет функцию у = у (z), где у — некоторый тп-мерный вектор координат, a z — (п —- тп)-мерный вектор. Не ограничивая общности, мож- но полагать у = (я1,. . . , хт), z = (xm+1 ,. . . , хп). По теоремам о неявных функциях для того, чтобы функция у (z) и ее производные существовали, необходимо, чтобы в любой точке х е Sg определитель I &/(*)! = {• i, j = 1,..., т. (9.8) В этом случае точку хк+1 = (zft+1, ук+1) можно строить по формулам Zfc+1 = zk + акрк, ук+1 = у (zfe+1), (9.9) где рк = Ч — Яц — соответствующая часть вектора vk. Для построения последовательности (9.9) нет необходи- мости находить явное выражение функции у (z); достаточ- но уметь лишь вычислять ее значение (т. е. решать систе- му (9.1)) при фиксированном векторе z. Построение последовательности (9.9) можно рассмат- ривать (помимо того, что таким образом реализуется один из возможных способов восстановления связей) еще с од- ной точки зрения — как итерационный процесс минимизации функции <p(z)=/o(z» Очевидно, что при выполнении условия (9.8) минимизация <p(z) эквивалента решению ис- ходной задачи. Вектор р^ (являющийся направлением спуска функции ф (z)) при этом можно рассматривать как реше- ние задачи минимизации функции (z) = Рц (z, ул (я)), где функция Fk (z, у) определяется по одной из формул (9.5) или (9.7), а вектор-функция ул (z) определяется из линеаризованного уравнения связей (т. е. из урав- нения касательной плоскости Т(^)) gv (*») (.У — Ук) + gz (хк) (z — zfe) = 0. Отсюда Ул (z) = ук — gy1 (хк) gz (хк) (z — zfc). Тот факт, что вектор рк, определяемый описываемыми способами, является направлением спуска <р (z), следует
$ 9] МЕТОДЫ ПРОЕКТИРОВАНИЯ 291 из того, что (zft) = ф' (zt), где производная ф' (zk) = /oz (*к) + у'* (zk) /оу / __( d/о dfo \ . __ / dfo dfo \ ,q /ог~\дхт+1 ’''’ дхпГ 1ау~ (ули) у’(а)= — g^^g^Xt). Поскольку процесс типа (9.9) можно рассматривать как ме- тод минимизации функции <p(z), то понятно, что в качестве Р/t можно выбирать вектор — <р' (z^); при этом последо- вательность (9.9) будет представлять собой градиент- ный метод минимизации (р (z). Заметим, что вектор pfc, доставляющий минимум функ- ции Fk (z, ул (z)), где Fjg (z, у) определяется выражением (9.5), вычисляется по формуле Рк = — U + у''М У' (zk))~V (zfc). (9.11) Следовательно, последовательность (9.9), в которой pft определяется по формуле (9.11), также представляет собой метод градиентного типа для минимизации ср (z). Методы градиентного типа мы будем называть методами первого порядка. Для минимизации функции ср (z), при выполнении не- обходимых требований, в принципе можно использовать метод Ньютона и его модификации. Однако следует от- метить, что вычисление второй производной <p"(z) являет- ся, как правило, весьма трудоемким, ибо требует вычис- ления второй производной вектор-функции у (z), т. е., по существу, вычисления вторых производных функций /1 (*), • • • , /т (*)• Предположим теперь, что условие (9.8) не имеет места, а выполняется более слабое требование: в любой точке х е Sg по крайней мере один определитель порядка т отличен от нуля ( df. 1 ТТ =И> (9.12) I дх' ) j = /1, /2). • • > im, h е [1, . • • , га], i = 1,. . . , т. Ослабление требований к функциям Д здесь заключается в том, что в различных точках множества Sg могут быть отличны от нуля различные определители. В этом случае 10*
292 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. III координаты точки х ЕЕ Sg, образующие вектор z и век- тор-функцию у (z), будут, вообще говоря, различными в различных точках многообразия Sg : z = (^w+1,...,a:in), у = (ж?1, ... , xjm). Учитывая это, можно, как и пре- жде, для восстановления связей использовать фор- мулы (9.9). Каждый шаг процесса (9.9) при этом можно трактовать как шаг процесса минимизации некоторой функции ф (r?rn+1, . . . , х?п), для которой соответствую- щий вектор рк является направлением спуска. Методы типа (9.9) мы и будем изучать ниже. При этом любую вектор-функцию (х^,. . . , х?т) нам будет удобно обозначать через у, а вектор независимых переменных — через z (как это делалось при выполнении условия (9.8)). Соответственно этому любой из определителей | {dfjdxi} | порядка т будем обозначать через | gy |, а функцию /о (г, у (z)) — через ф (z). Абсолютную величину функции | gy (х) | обозначим через | gy (х) |д. В следующих двух пунктах мы изучим свойства мето- дов первого и второго порядков. В п. 4 будут рассматри- ваться методы двойственных и сопряженных направлений для минимизации ф (z) (или же алгоритмы, базирующиеся на методах такого типа). С точки зрения практических вычислений именно алгоритмы, изучаемые в п. 4, пред- ставляют наибольший интерес. 2. Методы первого порядка. Изучим свойства методов, основанных на линеаризации функции /0 (х) и связей Д, i = l,..., т. • Рассмотрим алгоритм, каждый шаг которого представ- ляет шаг градиентного метода минимизации некоторой функции ф (z): zm = zk — ад' (zk), j/k+1 = у (z^i), (9.13) где zk — вектор, соответствующий определителю |gy (х) |, имеющему в точке хк ЕЕ Sg максимальное значение по абсолютной величине среди всех определителей |§Ч/|, градиент ф' (z^) вычисляется по формуле (9.10), а параметр может определяться одним из способов, описанных при изучении градиентных методов (§ 1 гл. II). Мы будем вы- бирать вТкачестве наибольшее значение параметра, которое получается дроблением, начиная с некоторой
§ 9] МЕТОДЫ ПРОЕКТИРОВАНИЯ 293 положительной константы, удовлетворяющее неравенству /o(z, J/(z)) — f0(zk, ук) < — ва Цф'(гА)Ц2, 0 <8 <1, (9.14) где z = — аср' (z&) (аналог способа выбора из усло- вия (II.1.2)). Теорема 9.1. Если функции fQ(x) и fi(x), i = = 1, . . . , тп, дважды непрерывно дифференцируемы и, кроме того, функции Д таковы, что выполняется условие (9.12), а множество S = Sg Q 50 (So = {х: /0 (х) /0 (я0)}) ограничено при произвольном выборе точки х0, то на последовательности (9.13) /0 (хм) /0 {хк) и || ф' (z/J || -> 0 при к -> оо. Доказательство. Возможность построения по- следовательности (9.13) вытекает из условия (9.12): при достаточно малых значениях параметра а точка z^ попадает в окрестность точки z^, определена функция у (z). В этой окрестности в силу условий теоремы функция ф (2) = / (z, у (z)) дважды непрерывно дифференцируема. G учетом этого справедлива оценка (а. \ — 1+—|1ч>'(2с)||). (9.15) где <р" (zc) = ф' (zfe + 0 (z/c+i — zk)), 0 е 10, 11, откуда следует, что если значение достаточно мало, неравен- ство (9.14) будет выполняться. В свою очередь это озна- чает, что на элементах последовательности (9.13) функ- ция /0 (х) монотонно убывает. Докажем, что || <р' (zfe) |) -> 0. На замкнутом ограничен- ном множестве S непрерывная функция |gy (х) |Л дости- гает своего минимального значения у (теорема Вейерш- трасса), причем в силу (9.12) у > 0 (функция |gy (.г)|а не- прерывна как максимум непрерывных функций \gy (я)|а)* Различных функциональных определителей \gy | конечное число и все они в силу дифференцируемости функций fi на множестве S являются равномерно непрерывными функциями. Поэтому для любой постоянной 0 < Ух < t найдется постоянная р 0 такая, что в любой точке мно- жества S, принадлежащей сфере радиуса р с центром в произвольной точке 4 ЕЕ S, абсолютное значение опре- делителя |gv(#)|, принимающего в точке О’ значение |gy (О’)J, будет не меньше Кроме того, в силу ограни-
294 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш ченности множества 5 и непрерывности первых и вторых | частных производных функций fi9 при любом выборе *i точки ft ЕЕ S в сфере 5а радиуса р эти производные огра- | ничены (некоторой константой М). Учитывая сказанное, в соответствии с теоремами о неявных функциях можно утверждать, что в некотором параллелепипеде [«*±60*], i = 1, . . . , п, , принадлежащем сфере S&, система (9.1) определяет по крайней мере одну дважды непрерывно дифференцируемую > векторфункцию у (z), причем в этом параллелепипеде ' производные любой такой функции ограничены: ll/(z)K^. (9.16) Ввиду ограниченности производных y'(z), у” (z), а так же ограниченности первых и вторых производных функ ции /0 (х) на множестве 5, производные функции <р (z) в параллелепипеде [<Н + также ограничены: |<р' (z) II <ЛГ2)|Ф'(^)1<^. 1 С учетом сделанных замечаний можно убедиться, что * существует постоянная б > О такая, что если as б, то точка попадает в сферу SXk радиуса р. Действи- тельно, предположим, что |] хк+1 — ж&||2 — ||zs+1 — zk ||2 + + КУл+i — УлЦ2 = р2. Поскольку эти равенства означают, что xfe+1 GE SX/e, то эта точка принадлежит и параллеле- j пипеду [а4 + бж»], I = 1, . . . , п, в котором для произ- водных функции у (z) выполняются оценки (9.16). Сле- ! довательно, J ук+1 — ук J < АГ3 || zfc+1 — zk [, поэтому из । предыдущих равенств вытекает, 4to(2V|4-1) ||zte+1 —ZnJ2— I = a2 Nl j q>' (zfc) ||2 > p2, откуда I ak> Ыеа оценка показывает, что равенство [|^+1 — #k[==p выполняется при значениях параметра afe р / т. ё. в качестве S может быть выбрана любая постоянная, не превосходящая p/(JVJV2). Теперь, воспользовавшись неравенством (9.15) (и учи- тывая ограниченность производной ф" (z)), легко убедить- ся, ч¥о неравенство (9 4) будет заведомо выполняться
МЕТОДЫ ПРОЕКТИРОВАНИЯ 295 § 91 . Гл 2(1— 8)1 „ при значении ал = пнп jo, — z Но это означает в силу ограниченности /0 (х) снизу (на множестве 5), что при оо необходимо || <р' (zk) || -> 0. Теорема доказана. Условие || ф' (zfc) || -> 0 означает в общем случае, что последовательность (9.13) (или некоторая ее подпоследо- вательность) сходится к точке в которой выполняет- ся необходимое условие экстремума функции /0 (х) на многообразии Sg (в точке х* градиент fQ (х*) ортогонален касательной гиперплоскости gf (х*) (х — х*) = 0) — гл. I, § 4. Поскольку функция/0 (х) непрерывная, минимум ее на множестве 5 существует. Если последовательность (9.13) сходится к решению и функция ф (z), к минимизации которой сводится решение исходной задачи в некоторой окрестности минимума, удовлетворяет условиям ти0 ||у||2 (ф" (z) р, р) М ||р||2 для любого 1>е£пчп,то ско- рость сходимости будет не медленнее сходимости некотои рой геометрической прогрессии — это вытекает из общих результатов о сходимости градиентных методов (теоре- ма II.1.2). Остановимся на некоторых вопросах, связанных с практической реализацией метода. В доказанной теореме для определения векторов и у л использовался определитель |£у (х/с)|. Для нахожде- ния такого определителя на каждой итерации нужно вы- числять все определители | gv|. Однако практически в этом нет необходимости (в теореме определитель исполь- зуется лишь для упрощения доказательства). Сходимость метода сохраняется, если выбирать векторы zfe и ул, соот- ветствующие любому из определителей | gy |, абсолютное значение которого в точке хл не меньше произвольно малой положительной постоянной р, (одной и той же для всех к). При условиях теоремы такая постоянная существует, поскольку существует постоянная 7. Поэтому при практи- ческом использовании алгоритма нужно выбирать векторы z и у, соответствующие одному и тому же определителю до тех пор, пока в некоторой точке этот определитель не станет по абсолютной величине меньше р; лишь в этом случае необходимо переходить к другим векторам zh у, т. е. вычислять другой определитель (gj. Постоянная р выбирается произвольно. Может оказаться, что в некото- рой точке Хл все определители |gv| будут по абсолютной величине меньше р. Тогда нужно выбирать новую
296 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III константу < р,. При каждом дроблении параметра а, необходимом для того, чтобы выполнилось неравенство (9.14), требуется заново вычислять функцию у (z) (для вычисления функции /0 (ж) =/о(2> У (z))), т- е- решать систему нелинейных уравнений (9.1) при фиксированном значении вектора z. Для сокращения количества вычис- лений определение требуемого значения параметра сле- дует производить, проверяя выполнение неравенства /о(2, Ул(г)) —/0(^, Ун) < — 8а||(р'(^)||2, 0 < 8< 1. (9.17) Как только это неравенство выполнится, проверить при полученном а неравенство (9.14); если (9.14) не выпол- няется, продолжить дробление а, в противном случае ос- тавить полученное значение параметра либо попытаться увеличить его, проверяя выполнение (9.14). Заметим, что У (z) =уь + у' (zk) (z — zfe) 4- О (fl z — zkj2) = = Ул (z) + О (|| z — Z/сЦ2). При достаточно малом zfe+1 — zk будет /0 (zUx, Ул (zfc+x)) *^/o(z/c+i> У (zm))> поэтому при выполнении (9.17) неравенство (9.14) также будет выполняться, т. е. не по- надобится дополнительных дроблений шага. Замечание. В теореме 9.1 можно несколько ос- лабить требования к гладкости функций /0 (х) и fi (х)> однако при этом усложнится доказательство. Коротко остановимся еще на методе типа (9.9), в ко- тором вектор рк выбирается по формуле (9.11) (векторы z^, у и определяются так же, как в предыдущем методе), а ак —максимальное значение параметра (получаемое дроблением), при котором выполняется неравенство fo(z, y(z)) — fQ(zk, ук) < sa(q/(Zfc), рк), z = zk + apk. Для такого алгоритма теорема 9.1 сохраняет силу. Дока- зательство будет отличаться лишь в некоторых деталях (аналогично тому, как отличается доказательство теорем о свойствах методов градиентного типа от теорем о методе наискорейшего спуска в § 1 гл. II). Отметим, что трудоемкость итерации такого алгоритма выше чем в методе (9.13).
S 9] МЕТОДЫ ПРОЕКТИРОВАНИЯ 297 3. Метод второго порядка. Предположим, что /0 (х) — сильно выпуклая функция. Тогда квадратичная функция Ffc(x) (9.7) — строго выпуклая, и, поскольку функция Ул (я) —линейная, функция фк(г) = (z, Ул (z)) также будет строго выпуклой. Точнее говоря, в силу сильной выпуклости /0 (х) для любой функции фк (z) при любом векторе v ЕЕ Еп~т выполняются условия та» IIv Й2 < v) < мо IV ||2, 7П0>0, (9.18) где матрица = fOzz + у'* foyy у' + 2y'*fozy (все про- изводные вычисляются в точке хк). В этом случае вектор Рк, минимизирующий фк (z), вычисляется по формуле Рк '= — СФл)-1 (zk). (9.19) В методе второго порядка точка хк+1, & =0,1, ... , строится следующим образом: Z/c+i = —ак(11’к)_1'Ф,(2/с), У к+1 = У (Zk+1). (9.20) где векторы zk и ук определяются так же, как при пост- роении метода (9.13), а в качестве ак берется наибольшее значение параметра (получаемое дроблением), удовлет- воряющее неравенству /о (*) — /о (^)<еа (q/ (zft), pk), 0<8<у. (9.21) Здесь х = (z, у (z)), z = zft 4- apft. Теорема 9.2. Пусть /0 (х) — дважды непрерывно дифференцируемая функция, причем т [Iсо ||2 (/о (х) со, о) М ||со |{2, т > 0, для любого вектора ®еЕп, а функции fi(x), i = 1,..., т, удовлетворяют требованиям теоремы 9.1. Тогда не- зависимо от выбора точки х0 результаты теоремы 9.1 сохраняют силу для метода (9.20). Доказательство теоремы осуществляется по той же схе- ме, как проводилось доказательство теоремы 9.1. Поэтому мы остановимся лишь на изменениях в доказательстве, возникающих, по сравнению с теоремой 9.1, из-за раз- личных способов выбора вектора рк. В силу строгой выпуклости /0 (х) множество 80 огра- ничено. Следовательно, множество S = Sg Q 80 ограни- чено и замкнуто (поскольку замкнуты множества 80 и
298 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III Sg). С учетом этого так же, как в теореме 9.1, доказывает- j ся справедливость оценок (9.16) и устанавливается огра- ниченность в параллелепипеде [<Н ± бФ*], i = 1, . . ., п, производных <р' (z), ф" (z). Далее, в силу (9.18) || (^ )“х|| следовательно, llPfc I = IIbh)-1 Ф» (z0 II = II (Фк)-1ф' (z0 II < NJm0 и по- этому, если (N% 4- 1) |zin — z*||2 = al ЛЦ|Р*112 > Рг, будет <9-22) 1 Отсюда следует, что в качестве константы 6 может быть выбрана любая постоянная, не превосходящая рт0 / (А^). Используя разложение функции <р (z) в ряд Тейлора, устанавливаем, что в сфере SX1C радиуса р at Ф (zni) — ф (z0 «= «й (Ф (z0> Рк) + -у (ф’ (zfcc) Pfc, Рк) < < afe (Ф (z0> Pk) + 2 (<p' (Zjc), pk) ) • Из (9.19) с учетом (9.18) вытекает, что i (фк Pk, Pk) = — (ф' (z0, Pk) > mQ flpfc И2. В силу этого Ф (Zfc+1) — ф (z0 < ak (ф' (z0, pk) (1 — -у- ) • j Учитывая эту оценку и неравенства (9.22), устанавливаем, ’ что неравенство (9.21) будет заведомо выполняться при . (* 2п?о (1 — 8) ] ak = min |6,-----—i-J. ( Это означает в силу ограниченности /0 (х) снизу, что । (ф' (20, Рк) -> о. (9.23) j Поскольку — (ф' (Z0, Рк) = ((ф0 -1ф'(20> ф' (Zk)) > . > т01| ф' (Z0J2, из (9.23) следует, что |ф' (z0 ] -> 0. Этим * доказательство теоремы завершается.
§ 91 МЕТОДЫ ПРОЕКТИРОВАНИЯ 299 При практическом использовании алгоритма (9.20) следует учитывать замечания относительно выбора век- торов Zfc, у^ и параметра о^, сделанные при изучении ме- тода (9.13). Если последовательность (9.20) сходится к решению и для функции ф (z), к минимизации которой сводится ре- шение исходной задачи в конечном счете, выполняется условие (9-24) то скорость сходимости метода будет сверхлинейной. Для того чтобы установить это, следует учесть, что при выполнении (9.24) (с учетом того, что (фк Рк,Рк) ** = —(q>'(zk), рц)) Ф (2fc+i) - Ф (zJ = а» (Ф (zk), Рк) (1 - -Т-"У '- ' z (IWPP _ W'^kJ-^kVPk'Pk) \ ? 2 (ФЛ> Рк> ' ... „Ла ак ак «ФЧ^-фЧ^./’Р -МШл)---------------------------------------------) и при этом функция ф (z) будет в силу (9.18) и (9.24) силь- но выпуклой в некоторой окрестности минимума. Учиты- вая эти замечания, доказательство сверхлинейной сходи- мости можно провести так же, как это делалось, например, при изучении метода Ньютона (§ 2 гл. II). Таким образом, скорость сходимости метода (9.20) в ряде задач будет более высокой, по сравнению со ско- ростью сходимости методов первого порядка. Однако и трудоемкость итерации метода (9.20) может оказаться зна- чительно выше за счет необходимости вычисления вторых производных функции /в(х). 4. Методы минимизации с повышенной эффектив- ностью. Методы проектирования, рассмотренные в преды- дущих пунктах, являются в каком-то смысле аналогами градиентных методов и метода Ньютона для решения за- дач на безусловный экстремум и им присущи недостатки соответствующих методов: либо медленная сходимость (методы первого порядка), либо высокая трудоемкость итерации (методы второго порядка). Однако тот факт, что
300 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. Ш в изучаемых алгоритмах решение исходной задачи сводится к минимизации функции без ограничений (одной или не- скольких в зависимости от того, выполняется ли условие (9.8) или (9.12)), позволяет использовать для решения задачи такие эффективные алгоритмы минимизации, как методы двойственных и сопряженных направлений (§ 3 — 5 гл. II)). Так, если функции fi (ж), i = 1, . . . , тп, та- ковы, что выполняется условие (9.8) и при любом фикси- рованном z система (9.1) имеет единственное решение у — = y(z), то в случае, когда ф (z) —f(z, у (z)) — дважды непрерывно дифференцируемая сильно выпуклая функ- ция, любой из методов двойственных или сопряженных направлений (минимизации ф (z)) будет сходиться к ре- шению со сверхлинейной скоростью. При этом, если ис- пользовать варианты методов с восстановлением матриц и Як через конечное число шагов (см. п. 2 § 5 гл. II), то сходимость методов двойственных и сопряженных на- правлений будет гарантирована при тех же предположе- ниях о функции ф (z), которые используются в градиент- ных методах. Рассмотрим в качестве примера задачу минимизации квадратичной функции /0 (х) при линейных ограничениях: g (х) = Ах + Ъ = 0, где А — (ац) — матрица т X п, b = (Ь1,. . . , Ьт). Пусть определитель \(ац)| Ф 0, i, I =1,..., т, тогда можно положить у = (х1, . . . , хт), z = (xm+1, . . . , хп). Поскольку у (z) — линейная функция, то ф (z) — квадратичная функция переменного z, причем она будет строго выпуклой, если таковой является исходная функ- ция /0 (ж). Применение любого из методов двойственных или сопряженных направлений позволит найти минимум функции ф (z) за п — т шагов. Если функции /о (я) и fi (я), * = 1, . . w, удовлет- воряют требованиям теоремы 9.2 (при этом условие (9.8) заменяется более слабым требованием (9.12)), то методы двойственных или сопряженных направлений можно ис- пользовать для минимизации каждой из функций ф (z), с которыми приходится иметь дело в процессе решения задачи. Другими словами, в алгоритмах типа (9.9) можно вектор рк и параметр ац определять так, как это делалось в методах двойственных или сопряженных направлений, а векторы z& и уц выбирать таким же образом, как это
§ 91 МЕТОДЫ ПРОЕКТИРОВАНИЯ 301 описано при изучении метода (9.13). Алгоритмы, пост- роенные таким образом (осуществляемые с восстановле- нием матрицы А к1 или Нк), будут сходиться при тех же условиях, что и методы проектирования первого и второго порядков. В то же время эффективность их по сравнению с изученными методами проектирования будет выше; в частности, при сравнительно небольшом увеличении трудоемкости итерации, по сравнению с методами перво- го порядка, может быть достигнута сверхлинейная ско- рость сходимости. Практически для решения изучаемой задачи следует использовать именно алгоритмы описываемого в этом пунк- те вида. Отметим еще, что можно уменьшить трудоемкость ите- рации (метода (9.20)), если вместо матрицы /о (я/с) ис- пользовать матрицу Die, определяемую системой уравнений D k (xk-i xk-i-l) ~ fo /о (^fc*-i-l)> i = 0, 1, . . . , ft 1 (аналог системы (II.3.6), используемой при построении методов двойственных направлений), и строить вектор рк = — Гкгч' (zk), где Fk = Dkzz + У'*Окууу' + + 2г/'* а матрицы Dkzz, D^yy, D^zy являются частя- ми матрицы Р/с, соответствующими матрицам /Ozz, /oi/у, fozy 5. О решении общей задачи математического програм- мирования. Пусть требуется минимизировать функцию /о (х) при ограничениях ft (я) 0, * = 1, . . . , тп. (9.25) Такие ограничения могут быть сведены различными пу- тями к ограничениям типа равенств. Например, если вве- сти дополнительные переменные xn+1, ...» хп+т, то ог- раничения (9.25) будут выполняться при тех же значе- ниях переменных я1, . . . , хп, которые удовлетворяют равенствам (zn+i)2 + ft (х) =0, i = 1,. . . , (9.26) Следовательно, минимум функции /0 (х) при ограничениях (9.25) будет совпадать с минимумом /0 (х) при условиях (9.26). Для минимизации /0 (х) при ограничениях (9.26) можно использовать методы первого порядка, рассмот- ренные в п. 2.
302 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ G ОГРАНИЧЕНИЯМИ [ГЛ. Ill Метод (9JJQ) для минимизации /0 (х) при условиях (9.26) не применим, так как в пространстве Еп+т функция /0 (я) не будет строго выпуклой: матрица fi(x), как не- трудно убедиться, вырождена в Z?n+m. В силу этой же причины теряет смысл и применение методов двойствен- ных и сопряженных направлений. 6. Заключительные замечания. Из всего класса мето- дов проектирования с восстановлением связей мы рас- смотрели лишь алгоритмы, в которых для восстановления связей используются формулы (9.9). В ряде задач такой способ осуществления заключительного (третьего) этапа итерации может оказаться неудобным, тогда есть смысл осу- ществлять этот этап по-другому. Например, можно опре- делять точку x^i Е= Sg таким образом, чтобы величина II («) — Ж/с (а) || минимизировала расстояние от точки &t(a) до множества Sg. Трудоемкость итерации методов проектирования умень- шается по мере приближений к решению (либо к стацио- нарной точке функции /0 (х) на Sg), поскольку упрощает- ся задача определения точки х^+1 (с использованием точ- ки £к). Так, например, трудоемкость решения системы (9.1) при фиксированном векторе z^+1 (т. е. вычисление функции у (zfe+1)) уменьшается по мере приближения к ре- шению задачи за счет того, что точка ул (zfc+i) с ростом к является все более лучшим приближением к решению y(zM). В этом смысле методы проектирования выгодно отли- чаются от методов штрафных функций, в которых для получения более точного приближения к решению при- ходится решать задачи все возрастающей сложности. КРАТКАЯ БИБЛИОГРАФИЯ К § 1. Изложенный в этой главе метод решения задач квадра- тичного программирования основан на применении метода сопря- женных градиентов. Он наиболее прост и удобен в случае простых ограничений на переменные. Существует большое количество других методов решения задачи квадратичного программирования, как сходящихся за конечное число шагов, так и бесконечношаговых. Эти методы описаны в монографиях Г. Кюнц и, В. Крелле [1J, С. И. Зуховицкого иАвдеевой Л. И. [1], Г. 3 о й- тендейка [1], В. Ф. Демьянова и В.Н. Малозе- м о в a [2J. В работах В. В. И в ан о в a [2J, [3], В. В. Иванова и В.Е.Трутень [1J анализируются вопросы эффективности и точности различных алгоритмов.
КРАТКАЯ БИБЛИОГРАФИЯ 303 К § 2. При изложении метода возможных направлений мы следовали в основном работам С. И. Зуховицкого, Р. А. П о л яка, М. Е. П р има к а [1], [2]. Отличие изложенно- го в § 2 метода от традиционного состоит в правиле выбора длины шага на каждой итерации. Различные варианты метода возмож- ных направлений подробно изучены и обоснованы в книге Г. 3 о й- тендейка [1J, а также в статьях Г. Зойтендейка [2J и Д.М.Топкиса и А. Ф. Вейнота [1J. К § 3. Метод условного градиента первоначально был изло- жен в работе М. Франка и Ф. Вулфа [1J. В дальнейшем он исследовался в работах В. Ф. Демьянова и А. М. Руби- но в а [1J, Е. С. Левитина и Б. Т. Поляка [1J, где приведены оценки скорости сходимости. Доказательство того, что эти оценки точные, дано в статье М. Д. Кеннона и С. Д. К а л л а м [1J. Обобщение метода Ньютона для решения задач с ограничения- ми проведено Е. С. Л е в и т и н ы м и Б. Т. Поляком [1J. Метод Ньютона с регулировкой шага при наличии ограничений изучался Ю.М. Данилиным [1J, [2 J. К § 4. Метод отсекающей гиперплоскости изложен здесь в соот- ветствии с работой Дж. Келли [1J. Различные его обобщения, а также оценка скорости сходимости (|/(я&)—f (х*)| < С/п) для сильно выпуклой функции f(x) приведены в статье Е. С. Л е - витина и Б. Т. Поляка [1]. К §§ 5—6. Изложение метода линеаризации в этой главе сле- дует работе Б. Н. Пшеничного [4J, где доказана сходимость метода. Более тонкие результаты такие, как конечная сходимость для линейного программирования, локальная оценка скорости сходи- мости, а также квадратичная сходимость в специальных случаях ранее не публиковались. То же можно сказать о применении этого метода к задаче нахождения минимакса. Эта последняя задача изучена в книге В. Ф. Демьянова и В. Н. Малоземова 2] и в их статье [1J. В этих работах построен ряд алгоритмов спуска [ля ее решения. Отметим также, что задача о минимаксе может быть решена алгоритмом обобщенного градиентного спуска и его вариантами, развитыми в статьях Н. 3. Шор a [1J—[4J. К § 7. Методика ускорения сходимости, изложенная в пн. 1—3 § 7 ранее не публиковалась, однако в своей основе она тесно идейно примыкает к работам Ю. М. Данилина и Б. Н. Пшенич- ного [1], [2]. Методы решения систем уравнений, не использующие производные от левых частей, рассматривались в многочисленных работах, из которых мы здесь упомянем лишь работы Ф. Дж. 3 е- лезника [1], Дж. Барнеса [1], С. Г. Бройдена [1] и В. Е. Шаманского [1J. В п. 4 § 7 изложено применение метода Ньютона решения систем уравнений для решения уравнений, возникающих при фор- мулировке необходимых условий экстремума. Более подробно связанные с этим вопросы рассматриваются в статье Б. Т. П о- л я к а [3]. К § 8. Весьма популярному методу штрафных функций посвя- щена большая литература. Различные свойства этого метода можно
304 МЕТОДЫ РЕШЕНИЯ ЗАДАЧ С ОГРАНИЧЕНИЯМИ [ГЛ. III найти в монографиях Ж. С е а [1], А. Ф и а к к о и Г. М а к -К о р- м и к а [1 j, Е. Поляка [2], в статьях В. Зангвила [2J, Е. С. Левитина и Б. Т. Поляка [1], А. Ф и а к к о [1]. Оценки скорости сходимости исследованы в работе И. И. Ере- мина [1J и Д. Лаенбергера [1J. Тесно связанный с методом штрафных функций метод центров предложен П. Гюардом [1]. Новый, мало исследованный вариант метода штрафных функций имеется в работе М. Хестенса [1J. К § 9. Одним из первых начал использовать методы проек- тирования для решения задач с ограничениями Дж. Розен [1]. В статье А. М и е л е, X. X у а н г а, Дж. Хейдемана [1J рассматриваются алгоритмы проектирования с восстановлением связей, в которых для определения направления движения исполь- зуется градиентный метод либо метод сопряженных градиентов, а на заключительном этапе решается задача минимизации расстоя- ния от точки до связей. Алгоритмы проектирования, изложенные в параграфе, рассмат- ривались Ю. М. Данилиным [3]. Наконец, из не описанных в данной книге методов отметим метод фейеровских приближений, развитый в работах И.И.Еремина [21, [3J, а также метод обобщенного градиента Н. 3. Ш о р а [1J— [4]. Комбинированные методы поиска экстремума рассматривались В.В.Ивановым [1]. Многие интересные результаты о сходи- мости алгоритмов минимизации получены В. Г. Кармановым [1]. Из статей обзорного характера, посвященных численным ме- тодам, укажем на статьи Ю. М. Ермольева [1], Г. 3 о й т е н- дейка [2], а также книги Г. Кюнци и В. Оеттли [1], Ф.П.Васильева[1],в которой приведена обширная библиография по рассматриваемому вопросу.
ПРИЛОЖЕНИЕ ВЫЧИСЛИТЕЛЬНЫЕ СХЕМЫ ОСНОВНЫХ АЛГОРИТМОВ I. Метод двойственных направлении (гл. II, § 3) Метод предназначен для минимизации выпуклой функции / (х), х^Еп. Схема итерации. Пусть х0 — произвольная точка, $0>0, $0_г . . *0_п+1 — произвольная линейно независимая система векторов. При 0 < Л < п — 1 итерация заключается в следующем: 1) Строится точка = —О) где ctfc выбирается любым из способов, описанных в § 1 гл. II. 2) Полагаем ек+1 = ? 1'(хк) • 3) Вычисляем к-п+г ек+1)- Если k-n+v fc-n+lH llefc+i„» P) где у > 0 — произвольно малая постоянная, то переход к 5). Если fc-n+1’ efc+])l < Т к-п+11111«ш1|. (4) то переход к 4). 4) Полагаем гк+1 ~ Pfc+ill5к, fc-n+JI’ (5) где величина pfe+1 > 0 выбирается таким образом, чтобы выпол- нялось условие j rk+11] < || г/с I! • Вычисляем градиент /' (хк + гк+1) и строим вектор efc+1 = = /' (хк + ~ /' (х*)- Далее переход к 5). 5) Строится система векторов: е _ sk, fc-n+i fc+i, fc+i — —г;---;—г*» ^к, k-n+v ek+V (6) S&+1, fc-j sky k-j (sk, 5Лн-1, fc+v j = 0,1, . . . , n — 2. На этом итерация заканчивается.
306 ПРИЛОЖЕНИЕ При к п: 1) Строится вектор п—1 Рк — ~ Чм)гН- i=o 2) Вычисляется величина (/' (xfe), р^). Если (f (a?fc), рк) § 0, строится точка хк+1 по одной из формул хк+1 ~ хкi где aJt выбирается из условия (2.2) гл. II. Если (/' (хк), рх) = 0, строится точка по градиентному методу (см. пункт 1) итерации при к < п — 1 (дальнейшее построе- ние итерации осуществляется так же, как при к п — 1 (эта- пы 2) — 5))). Замечания. 1. Мы привели лишь одну из возможных вычислительных схем методов двойственных направлений. В рассмотренной схеме первые итерации (к < п — 1) осуществляются по градиентному методу. Поскольку обычно на начальных шагах итерационного процесса градиентный метод обеспечивает достаточно быстрое убывание функции, такая организация начала процесса при реше- нии многих задач оказывается целесообразной. 2. Здесь мы для удобства изменили обозначения векторов двойственного базиса (ср. (6) и (II.3.21)). 3. Если вектор выбирается в виде (5), а функция / (х) — гладкая сильно выпуклая (т. е. справедливы условия (II.2.4)), то неравенство 3) будет автоматически выполняться при условии, что постоянная у выбрана достаточно малой. В самом деле, если функция / (х) удовлетворяет сформулированным требованиям, то |]е^|| и справедлива оценка (II.5.18). В силу этого оказывается fc-n+v (г/с+1’ II7*к+1И2 т т > ’ЗкМ’ ~ м *-n+i Ч Че»+1И- т Таким образом, если у < то неравенство (3) выполняется. 4. Как показывает опыт вычислений, величину у можно выби- рать весьма малой: у = 10-6 ч- 10—*5. Если условие (3) даже при выборе вектора rft+1 в виде (5) не будет выполняться, это говорит о том, что матрица f (х) при х —♦ х* становится все более плохо обусловленной, т. е. минимизируемая функция не является сильно выпуклой. В частности, поверхности уровня такой функции могут иметь резко выраженный овражный характер. В этом случае полу- чить весьма точное приближение к решению по аргументу не удает- ся. Однако, как показала вычислительная практика, получать значения функции, достаточно близкие к минимальному, удается и при минимизации даже невыпуклых функций с овражными по- верхностями.
ВЫЧИСЛИТЕЛЬНЫЕ СХЕМЫ ОСНОВНЫХ АЛГОРИТМОВ 307 II. Метод сопряженных градиентов (гл. II, § 4) Метод предназначен для минимизации выпуклой функции / (х), х G Еп. Схема итерации. Пусть xQ — произвольная точка, р0 = — /' (х0). .. [0 < к < п — 1, переход к 2), 1) Если J [А = и, переход к 5). 2) Строится точка хк+1 — хк + где множитель ак определяется из условия / (хк + <*кРк) = min / (хк 4- а,рк). а>0 3) Вычисляется вектор Рк+1 ~ f (xk+i) “Ь Р/с+1^/с+1’ где О _ _ (f'(xk+i)> f'(xk+i) ~~ f' (xfc)) k+1 if (*/c), Pk) 4) Переход к 1). 5) Полагаем xn = x0, pQ = — f (xn), и повторяем процесс (переход к 1)). За мечание. Коэффициент Pft+1 может определяться по любой из формул (II.4.73). III. Метод возможных направлений (гл. III, § 2) Метод предназначен для решения задачи выпуклого програм- мирования: минимизировать /0 (х) при ограничениях fi (х)< 0, г=1,..., т, Ах — Ь = 0, где х Gz £n, fi (х), i = 0, . . ., тп — выпуклые непрерывно диффе- ренцируемые функции, А — I X n-матрица, Ь — Z-мерный вектор. Обозначения: W = i==1...... И = max |/>^|, где р ЕЕ Еп, pi — компоненты вектора р. Исходные данные: х0 — начальное приближение, удовлетво- ряющее всем ограничениям; б0 > 0, > 0, i = 0, . . ., тп — по- ложительные числа, вообще говоря, произвольные. Общий шаг алгоритма. Точка хк и число 6^ > 0 вычислены.
308 ПРИЛОЖЕНИЕ 1) Решить задачу линейного программирования mint) (fi Р) < i е W и {0}, к Ар — о, — 1 < р* < + 1, / = 1, . . , п. Ее решение — т)^, pfe. 2) Если < —- d/f, то xk+i ~ хк + akPk> $к+1 где ак = —, a qQ — первое целое число q = 0, 1, ...» для кото- рого выполняются неравенства ( 1 \ 11 /о 4- 2Q Pk) < /о (*fc) + fi {^k+^Pk) <0, i-1, . . . ,/n. 1 3) Если d/f, to = x^, “”2 ^k* 4) Возвращаемся к 1). Замечание. Выбор чисел д0, может влиять на ход процесса, однако он должен осуществляться на основе анализа конкретной задачи. Алгоритм может применяться и к невыпуклым задачам. IV. Метод линеаризации (гл. III, §5) Метод предназначен для решения задачи: минимизировать /0 (х) при ограничениях: i = l, . . . , m, /|(х) = 0, i = m-|-l, . . . ,тп~Н» где /i (х) — непрерывно дифференцируемые функции. Обозначения: F (х) = max {0, /1 (х), . . fm (х), | /m4.i (х) | , ..|/т+г (х) |}, Ц (*) = {i- fi (®) (х> — й> « = !> • • • » т}> = {’! I А («) I > ~ в, I = 7» + 1, . . 7П + 0» Фл W + ЛР’ цр|р= 2<^)2- Ml
вычислительные схемы основных алгоритмов 309 Исходные данные: начальное приближение xQ — произвольно, 7У0 — достаточно большое, 60 > О, 0 < е < 1. Общий шаг алго- ритма. Точка и числа JVk и &к ~~ построены. 1) Решаем задачу: min (/' (хк), р) + у ||р||2, (fi М, р) + h (*») < 0, i е /г (хк), К (fi(xk),P)+fiM-=O, K=ll(xk). К Ее решение р^ Если задача несовместна, то полагаем Xk+i = х^ 1 6л+1 = 2Vfc+i = Nk и возвращаемся к 1). 2) Если задача совместна и рк найдено, то полагаем — хк 'Ь а/сР/С’ S/C+1 = 1 где afc выбирается равным —, a q0 — первое из целых чисел q = = 0, 1, . . для которого выполняется соотношение ^Nk \ 29 2^ 4 * * * 8IWI2- 3) Пусть числа i (хк) U (хк), являются мно- к м к м жителями Лагранжа вспомогательной задачи, решенной на первом этапе. Тогда, если 2 4+ 2 i“U ’еГЧ(Л:*) 1е18л(ж») то Nk+1=Nic. В противном случае ^+1 = 2 2 4+2 i4il- ieiSfc(xk) J 4) Возвращаемся к 1). Замечание. Числа 6 и N к начиная с некоторого шага перестают меняться. Алгоритм требует эффективно работающей стандартной программы решения задачи квадратичного програм- мирования.
310 Приложений V. Алгоритм решения системы уравнении без вычисления производных (гл. Ш, § 6) Алгоритм предназначен для решения системы уравнений Р (*) = О, где х 6= р (х) — n-мерная вектор-функция с дифференцируе- мыми компонентами pi' (х), j — 1, . . п. Исходные данные: начальные приближения х^ . . .» вы- бранные произвольно в достаточно малой окрестности решения. В частности, все х^, к = 1, . . и, могут совпадать. п Обозначения: || р (х) || 2 = 3 ф W Рав=° 1. 2,.. п — 1, i=i если к при делении на п дает в остатке 1, 2, . . ., п — 1 соответ- ственно, <р(&) = и, если к делится на п. Общий шаг алгоритма хи . . хк уже построены. 1) Решаем относительно неизвестных (3., i = 1, . . и, сис- тему уравнений п S Zfc-n+iPi = Р (хк)> г=1 ГДе 1 г} = IFtof[р (ж’+,|р (ж,‘)й W “ р (ж;)1, ei — вектор с нулевыми компонентами, за исключением i-й, которая равна 1. 2) Полагаем п хк+1 — хк~^ 2 & e<p(fc-n+i)- i=l 3) Возвращаемся к 1).
ЛИТЕРАТУРА Альтман М. (Altman М.) 1. Generalized gradient methods of minimizing a functional, Bull. Acad. Polon. Sci. 14, № 6 (1966), 313—318. Ауслендер A. (Auslender A) 1. Methodes et theoremes de dualite, C. R. Acad. Sci. Paris Ser. A 267 (1968), 114—117. Балакришн^ан А. В., Нейштадт Л. В., редакторы (Balakrishnan А. V., Neustadt L. W.) 1. Computing Method in Optimization Problems Academic Press, New York and London, 1964. Браун К., Деннис Дж. (Brown К. М., Dennis J. Е.) 1. On Newton-like iteration functions: general convergence theorems and a specific algorithm, Numer. Math. 12 (1968). Барнес Дж. (Barnes J.) 1. An algoritm for solving nonlinear equations based on the secant method, Computer J., 8 (1965), 66—72. Берщанский Я. M. 1. Об одном методе решения задач линейного и выпуклого про- граммирования, ЖВМ и МФ, 10, № 3 (1970), 621—629. Брент Р. (Brent R. Р.) 1. Algorithms for finding zeros and extrema of functions without calculating derivatives. STAN—CS, 71—198, February, 1971. Бройден C. (Broyden C. G.) 1. A class of methods for solving nonlinear simultaneaus equations, Math. Comp. v. 19 (1965), 577-593. 2. Quasi-Newton Methods and Their Application to Function Minimization, Math. Comp. 21, № 99 (1967), 368—381. 3. The convergence of single-rank quasi-Newton methods, Math. Comp., 24, 1970. Будак Б. M., Гольдман H. Л. 1. О применении метода Ньютона к решению нелинейных краевых задач, Сб. «Вычислительные методы и программирование», вып. VI, изд-во МГУ (1967), 17—33. Бурбаки Н. 1. Топологические векторные пространства, Изд-во ИЛ, М., 1959. Варга Дж. (Warga J.) 1. A convergent procedure for convex programming, J. of the Society for Ind. and Appl. Math, 11, № 3 (1963), 579—587. Васильев Ф. П. 1. Лекции по методам решения экстремальных задач, изд-во МГУ (1974). Вайнберг М. М. 1. Вариационные методы исследования нелинейных операторов, Гостехиздат, 1956.
312 ЛИТЕРАТУРА 2. Вариационный метод и метод монотонных операторов, «Наука» 1972. Гейл Д. 1. Теория линейных экономических моделей, ИЛ., М., 1963. Гилберт Е. (Gilbert Е. G.) 1. An iterative procedure for computing the minimum of a quad- ratic form on a convex set, SIAM Journal on Control, 4, № 1 (1966), 61—80. Гл азман И. M. 1. Релаксационные методы. В сб. «Труды 1-й зимней школы по матем. прогр.» (Дрогобыч, 1968), т. I, М., 1969. Голдстейн A. (Goldstein А. А.) 1. On steepest descent, J. SIAM Control, 3, 1965, 147—151. 2. Minimizing Functionals on Normed Linear Spaces, SIAM Journ. on Control, 4, № 1 (1966), 81—89. Голдстейн А., П p а ё з Дж. (Goldstein A. A., Price J. F.) 1. An effective algorithm for minimization, Numer. Math., 10, 3 (1967), 184—189. Гольштейн Е.Г. 1. Двойственные задачи выпуклого и частично-выпуклого про- граммирования в функциональных пространствах. В сборнике «Исследования по математическому программи- рованию», Изд-во «Наука», М., 1968. 2. Выпуклое программирование. Элементы теории. Изд-во «Нау- ка», М., 1970. Голдфарб Д. (Goldfarb D.) 1. A family of variable — metric methods derived by variational means. Math. Comput. 24, № 109 (1970), 23—26. Гринштад Дж. (Greenstadt J.) 1. Variations on variable — metric methods. Math. Comput. 24, № 109 (1970), 1-22. Г ю a p д П. (Huard P.) 1. Rezolution of mathematical programming with nonlinear con- straints by the method ofcenters. In «Nonlinear Programming», Abadie ed. North Holland Publ., 1967, p. 208—219. Давидов В. (Davidon W. C.) 1. Variable metric method for minimization, Argonne Nation. Labor., Rep. NANL-5990, 1959. 2. Variance algorithm for minimization. Comput J., 10, № 4 (1968), 406—410. Данилин Ю. M. 1. Об одном подходе к задачам] минимизации. ДАН СССР, 188, № 6, 1969, 1221—1222. 2. Методы минимизации, основанные на аппроксимации исходного функционала выпуклым. Журн. выч. матем. и матем. физ., 10, № 5 (1970), 1067—1080. 3. О минимизации функций в задачах ограничениями типа ра- венств, Кибернетики, № 2 (1971), 88—95. 4. Методы сопряженных направлений для решения задач мини- мизации, Кибернетика, № 5 (1971), 122—136. Данилин Ю. М., Пшеничный Б. Н. 1. О методах минимизации с ускоренной сходимостью. Журн. вычисл, матем, и мат. физ., 10, № 6 (1970), 1341—1354.
ЛИТЕРАТУРА 313 2. Метод минимизации без вычисления производных. Журя, вычисл. матем. и мат. физ., 11, № 1 (1971), Даниэль Дж. (Daniel James W.) 1. The approximate minimization of functionals. PRENTICE- HALL, INC., 1971. 2. Convergence of the conjugate gradient method with computa- tionally convinient modifications, Numer. Math, 10, № 2 (1967), 125—131. 3. The conjugate gradient method for linear and nonlinear operator equations. SIAM J. Numer. Anal., 4, 1967, 10—26. Данфорд H., Шварц Дж. I. 1. Линейные операторы. Общая теория, ИЛ., 1962. Дан ц и г Дж. (Dantzig G. В.) 1. Linear programming and extensions, Princeton University Press, Princeton, 1963. 2. Linear control processes and mathematical programming. SIAM J. on Control, 4, № 1 (1966), 56—60. Демьянов В. Ф., M а л о з e м о в В. Н. 1. К теории нелинейных минимаксных задач. Успехи мат. наук., XXVI, № 3 (1971), 53—104. 2. Введение в минимакс. Изд-во «Наука», М., 1972. Демьянов В. Ф., Рубинов А. М. 1. Приближенные методы решения экстремальных задач. Изд. ЛГУ, 1968. Денис И. Е. (Dennis I. Е.) 1. On Newton like methods, Numerische Mathematic, Band 11, Heft 4, 1968. Дубовицкий А. Я., Милютин A. A. 1. Задачи на экстремум при наличии ограничений. ЖВМ, 5, № 3 (1965), 395-453. Еремин И. И. 1. Метод штрафов в выпуклом программировании. Кибернетика, № 4 (1967), 63-67. 2. Метод Фейеровских приближений в выпуклом программиро- вании. Мат. заметки 3, (1968), 217—234. 3. Скорость сходимости метода Фейеровских приближений Мат. заметки, 4 (1968), 53—61. Ермольев Ю. М. 1. Методы решения нелинейных экстремальных задач. Кибер- нетика, № 4 (1966), 1—17. Зангвил В. (Zangwill W. I.) 1. Minimizing a function without calculating derivatives. Comput J., 10 № 3 (1967), 293—296. 2. Nonlinear programming via penalty functions. Management Sci, № 13 (1967), 344-368. 3 ел e з ник Ф. (Zeleznik F. J.) 1. Quasi — Newton methods for nonlinear equations. J. Assoc. Comput. Mach., 15, № 2 (1968), 265-271. Зойтендейк Г., 1. Методы возможных направлений, ИЛ, 1963. 2. Nonlinear programming: a numerical survey, SIAM Journal on Control, 4, № 1 (1966), 194—210.
314 ЛИТЕРАТУРА Зуховицкий С. И., Авдеева Л. И. 1. Линейное и выпуклое программирование, Изд-во «Наука», М., 1967. Зуховицкий С. И., Поляк Р. А., П римак М. Е. 1. Алгорифм для решения задачи выпуклого чебышевского при- ближения, ДАН СССР 151, № 1 (1963), 27—30. 2. Алгорифм для решения задачи выпуклого программирования, ДАН СССР 153, № 5 (1963), 991—994. Иванов В. В. 1. Теория приближенных методов и ее применение к численному решению сингулярных интегральных уравнений. Наукова Думка, К., 1968. 2. Вопросы точности и эффективности вычислительных алгорит- мов. Изд-во ИК АН УССР, Киев, 1969. 3. Об оптимальных алгоритмах минимизации функций некоторых классов. Кибернетика, № 4 (1972), 81—94. Иванов В. В., Трутень В. Е. 1. Анализ точности квадратичных программ. Кибернетика, № 4 (1969), 94-105. Исаев В. К., Сонин В. В. 1. Об одной модификации метода Ньютона численного решения краевых задач. Журн. вычисл. матем. и мат. физ., 3, № 6 (1963), 1114-1116. Канторович Л. В. 1. О методе наискорейшего спуска. ДАН СССР 56, (1947), 233— 236. 2. О методе Ньютона для функциональных уравнений. ДАН СССР, 60, 7 (1948). Канторович Л. В., Акилов Г. П. 1. Функциональный анализ в нормированных пространствах. Физматгиз, 1959. Карлин С. 1. Математические методы в теории игр, программировании и экономике. Изд-во «Мир», М., 1964. Карманов В. Г. 1. Оценки скорости сходимости итерационных методов миними- зации. Журн. вычисл. матем. и мат. физ., 14, № 1 (1974). Келли Генри Дж. 1. Метод градиентов. В сб. «Методы оптимизации» под ред. Дж. Лейтмана, Изд-во «Наука», 1965. Келли Дж. (Kelley J. Е.) 1. The cutting plane method for solving convex programs. J. Soc. Ind. Appl. Math., 8, № 4 (1960), 703-712. Кеннон M., Итон Дж. (Cannon M. D., Eaton J. H.) 1. A new algorithm for a class of quadratic programming problems with application to control. SIAM Journal on Control, 4, № 1 (1966), 34-45. Кеннон M., Каллам C. (Cannon M. D., Cullum C. D.) 1. A tight upper bound on the rate of convergence of the Frank- Wolfe algorithm. SIAM J. on Control, 6 (1968), 509—516. Коллатц Л. 1. Функциональный анализ и вычислительная математика. Изд-во «Мир», 1969.
ЛИТЕРАТУРА 315 Колмогоров А. Й., Фомин С. В. 1. Элементы теории функций и функционального анализа. Изд-во «Наука», 1968. Коши О. (Cauchy A. L). 1. Methode generale pour la resolution des systemes d’equations simultanees. Compt. rend Acad. Set, 25, 1847. Кюнци Г., Крелле В. 1. Нелинейное программирование. М. «Сов. радио», 1965. Кюнци Г., Оеттли В. (Kiinzi Н. Р., Oettli W.) 1. Nichtlineare optimierung: neuere verfahren bibliographie. Springer — Verlag, Berlin — Heidelberg — New-York, 1969. Лавров С. C. 1. Применение барицентрических координат для решения не- которых вычислительных задач. Журн. вычисл. матем. и ма- тем. физ., 4, № 5 (1964), 905—911. Лаенбергер Д. Г. (Laenberger D.) 1. Convergence rate of penalty — function scheme, J. of opt. theory and appl. 7, № 1 (1971), 39—51. Левитин E. С., П о л я к Б. Т. 1. Методы минимизации при наличии ограничений. ЖВМ и МФ., 6, № 5 (1966), 787-823. Л ю б и ч Ю. И. 1. Наискорейший спуск. Труды второй зимн. школы по ма- тем. прогр. и смежн. вопр. Выпуск 1, Москва, 1969, 113-151. Л ю бич Ю. И. иМайстровский Г. Д. 1. Общая теория релаксационных процессов для выпуклых функционалов. УМН, 25, вып. 1, 1970. Люстерник Л. А., Соболев В. И. 1. Элементы функционального анализа, Изд-во «Наука», 1965. Майстровский Г. Д. 1. О сходимости метода сопряженных градиентов. ЖВМ и МФ, И, № 5 (1971), 1291—1294. 2. Доказательство квадратичной сходимости метода сопряженных градиентов. Вычисл. матем. и выч. техника, Физ.-техн. инет, низких температур, Харьков, вып. 2 (1971), 3—5. Маккормик Г., Пирсон Дж. (McCormick G. Р., Pear- son J. D.) 1. Variable metric methods and unconstrained optimization. Confer, on Optimal., Keele Hall, England, March 1968. Миеле А., Хуанг X., Хейдеман Дж. (Miele A., Hu- ang H. Y., Heideman J. C.) 1. Sequential gradient — restoration algorithm for the minimi- zation of constrained function — ordinary and conjugate gra- dient versions. J. Optim. Theory Applic., 4, № 4 (1969). Моисеев H. H. 1. Численные методы в теории оптимальных систем. Изд-во «Наука», М. 1971 Муртаг В., Саргент Р. (Murtagh В. A., Sargent R. W. Н.) 1. Computational experience with quadratically convergent mini- mization methods. Comput. J., 13, № 2 (1970), 185—194.
316 ЛИТЕРАТУРА Нейштадт Л. (Neustadt L. W.) 1. An abstract variational theory with applications to broad class of optimization problems I. General theory. SIAM Jornal on Control, 4, № 3 (1966), 505-527. Обломская Л. Я. 1. Сравнение быстроты сходимости методов сопряженных гради- ентов и градиентного для квадратичных функционалов. В сборн. «Вопросы точности и эффективн. вычисл. алгор.», 4, Киев, 1968, 94—103. Островский А. М. 1. Решение уравнений и систем уравнений, Изд. ИЛ. М., 1963. Пауэлл М. (Powell М. J. D.) 1. A survey of numerical methods for unconstrained optimization. SIAM Rev., 2, № 1, 1970, 79—97. 2. An efficient method for finding the minimum of a function of several variables without calculating derivatives. Comput. J., 7, № 2 (1964), 155—162. 3. On the convergence of the variable metric algorithm. Report T. P. 382, AERE, Harwell, England, 1970. Пирсон Дж. (Pearson J. D.) 1. Variable metric methods of minimization. Comput. J., 12, № 2 (1969), 171-178. Полак E. (Polak E.) 1. On primal and dual methods of solving discrete optimal control problems. In «Computing methods in optimization problems. 2», Academic Press, New-York—London, 1969. 2. Computational methods in optimization: a unifed approach. Academic Press, New-York, 1971. Поляк Б. T. 1. Градиентные методы минимизации функционалов. Журн. вычисл. матем. и матем. физ., 3, № 4 (1963), 643—654. 5. Метод сопряженных градиентов. Труды второй школы по математическому программированию и смежным вопросам, Вып. 1, Москва, 1969, 152—201. 3. Итерационные методы, использующие множители Лагранжа, для решения экстремальных задач с ограничениями типа равенств. Журн. вычисл. матем. и матем. физ., 10, № 5 (1970), 1098—1106. 4. О скорости сходимости метода штрафных функций. Журн. вычисл. матем. и мат. физ., 11, № 1 (1971), 3—И. Пшеничный Б. Н. 1. Необходимые условия экстремума, Изд-во «Наука», М., 1969. 2. Принцип двойственности в задачах выпуклого программиро- вания, ЖВМ и МФ., 5, № 1 (1965), 98—106. 3. Об одном алгоритме спуска. ЖВМ и МФ, 8, № 3 (1968), 649-652. 4. Алгоритмы для общей задачи математического программирова- ния, Кибернетика, № 5 (1970), 120—125. 5. On the acceleration of convergence of algorithms for solving optimal control. In «Computing methods in optimization prob- lems. 2», Acad. Press., 1969.
ЛИТЕРАТУРА 317 Пшеничный Б.Н., Ганжела И. Ф. 1, Алгоритм для решения задачи выпуклого программирования при линейных ограничениях. Кибернетика, № 3 (1970), 81—85. розен Дж. (Rosen I. В.) 1. The gradient projection method for nonlinear programming. Part I: Linear constraints, Part II: Nonlinear constraints. SIAM J. on Appl. math., 8, 1960; p. 181—217 9, 1961, 514—532. Рокафеллар P. T. (Rockafellar R. T.) 1. Convex analysis, Princeton Univ. Press, 1970. Cea Ж. (Cea J.) 1. Optimization theorie et algorithmes. Dunod. Paris, 1971. Смит C. (Smith C. S.) 1. The automatic computation of maximum likelihood estimates. N. С. B. Sci Dept. Report SC 846 (MR) 40. С м о л я к C. A. 1. Квадратичная сходимость метода сопряженных градиентов. Труды III зимней школы по математическому программи- рованию, МИСИ, М., 1970. Соренсен X. (Sorensen Н. W.) 1. Comparison of some conjugate direction procedures for function minimization. J. Franklin Institute, 288, 421 (1969). Тихонов A. H. 1. О регуляризации некорректно поставленных задач. ДАН СССР, 153, 1 (1963), 49—52. 2. Об устойчивости алгоритмов для решения вырожденных систем линейных алгебраических уравнений. Журн. вычисл. матем. и мат. физ., 5, № 4 (1965). Токумару X., Адачи Н., Гото К. (Tokumaru Н., Ada- chi N., Goto К.) 1. Davidon’s method for minimization problems in Hilbert space with an application to control problems. SIAM J. Control, 8, № 2 (1970). Топкие Д. M., Вейн от А. Ф. (Topkis D. M., Vei- nott A. F.) 1. On the eon vergence «of? somes feasible ; direction algorithms for г nonlinear programming. * SIAM i laurnal ? on Control 5, № 2 (1967), '268—279. Фаддеев Д. К. и Фаддеева В.Н. 1. Вычислительные методы линейной алгебры. Физматгиз, 1960. Ф и а к к о A. (Fiacco А. V.) 1. Penalty method for mathematical programming in En with general constraint sets. J. of opt. theory and appl., 6, № 3 (1970), 252-268. Фиакко А., Мак-Кормик Г. 1. Нелинейное программирование. Методы последовательной безусловной минимизации. Изд-во «Мир», М., 1972. Фихтенгольц Г. М. 1. Курс дифференциального и интегрального исчисления. 2, Физматгиз, 1959. Флетчер Р. (Fletcher R.) 1. A new approach to variable metric algorithms. Comput. J., 13, № 3 (1970), 317—322.
318 ЛИТЕРАТУРА 2. Function minimization without evaluating derivatives. A re- view. Comput. J., 8, № 1 (1965), 33—41. Флетчер P., Пауэлл M. (Fletcher R., Powell M. I. D.) 1. A rapidly convergent descent method for minimization. Com- put. J., 6, № 2 (1963), 163-168. Флетчер P., Ривз C. (Fletcher R., Reeves С. M.) 1. Function minimization by conjugate gradients. Comput. J., 7, № 2 (1964), 149-154. Франк M., Вульф Ф. (Frank M., Wolfe P.) 1. An algorithm for quadratic programming. Naval Res. Log. Quart., 3 (1956), 95-110. Фридман B.M. 1. О сходимости методов типа наискорейшего спуска. Успехи матем. наук, 17, 3, 1962. Хайес Р. (Hayes R. М.) 1. Iterative methods of solving linear problems in Hilbert space. In «Contributions to the solution of systems of linear equations and determination of eigenvalues». Ed 0. Taussky, Nat. Bur. Stand Appl. Math. 39, (1954), 71—104. Халкин Г., Нейштадт Л. (Halkin Н., Neustadt L. W.) 1. General necessary conditions for optimization problems. Proc. Nat. Acad. Sciences, 56 (1956) 1066—1071. X e стене M. (Hestenes M. R.) 1. Multiplier and gradient methods. J. Optim. Theory Applic., 4, № 5 (1969). 2. Calculus of variations and optimal control theory. Wiley and Sons, Inc., 1966. 3. The conjugate gradient method for solving linear systems. Proc. Symp. Appl. Math., 6, 1956, 86—102. Хе стене M., Штифе ль E. (Hestenes M. R., Stiefel E.) 1. Methods of conjugate gradients for solving linear systems, J. Res. Nation. Bureau Stand, 49, № 6 (1952), 409—436. X о p витц Л., Сарачик Ф. (Horwitz L. B., Sarachik P. E.) 1. Davidon's method in Hilbert space. SIAM J. Applied Math., 16, 4 (1968). Хуанг X. (Huang H. Y.) 1. Unifed approach to quadratically convergent algorithms for function minimization. J. Optim. Theory Applic., 5, № 6 (1970). Хуанг X., Л e в и A. (Huang H. Y., Levy A. V.) 1. Numerical experiments on quadratically convergent algorithms for function minimization. J. Optim. Theory Applic., 6, № 3 (1970), 269—282. Шаманский В. E. 1. Методы численного решения краевых задач на ЭЦВМ. Часть II. «Наукова думка», Киев, 1966. 2. О некоторых вычислительных схемах итерацирниых процес- сов. УМН, 14, № 1 (1962), 100—109. Шор Н. 3. 1. Обобщенный градиентный спуск. Труды первой зимней школы по математическому программированию, г. Дрогобыч, М., 1969, 578—585.
ЛИТЕРАТУРА 319 2. О скорости сходимости обобщенного градиентного спуска Кибернетика, № 3 (1968), 98-99. У 3. Использование операции растяжения пространства в задачах минимизации выпуклых функций. Кибернетика № 1 (1970), 6—12. 4. О скорости сходимости обобщенного градиентного метода с растяжением пространства. Кибернетика, № 2 (1970), 80—85. Эрроу К. Дж., Гурвиц Л., Удзава X. 1. Исследования по линейному и нелинейному программиро- ванию, ИЛ, М., 1962. Яковлев М. Н. 1. О некоторых методах решения нелинейных уравнений. Труды Матем. ин-та АН СССР, 84 (£965), 8—40.
Борис Николаевич Пшеничный^ Юрий Михайлович Данилин ЧИСЛЕННЫЕ МЕТОДЫ В ЭКСТРЕМАЛЬНЫХ ЗАДАЧАХ М., 1975 г., 320 стр. Редактор В. В. Абгарян Технический редактор Н. В. Кошелева Корректор Н. Д. Дорохова Сдано в набор 11/IX 1974 г. Подписано к печати 6/II 1975 г. Бумага ЗйхЮЗ1/#, тип. № 1. Физ. печ. л. 10. Условн. печ. л. 16,8. Уч.-изд. л. 15,8. Тираж 18 000 экз. Т-03269. Цена книги 1 р. 26 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 2-я типография издательства «Наука» Москва, Шубинский пер., 10