Текст
                    

32.81 П 64 УДК 62-50 Введение в оптимизацию. Поляк Б. Т.— М.: Наука. Главная редак- ция физико-математической литературы, 1983.—384 с. Книга является систематическим введением в современную теорию и методы оптимизации для конечномерных задач. Основное внимание уделя- ется идейным осиовагл методов, их сравнительному анализу и примерам использования. Охвачен широкий круг задач — от линейного программирова- ния и безусловной минимизации до стохастического программирования. Об- суждается методика постановки и решения прикладных проблем оптимиза- ции. Приводятся условия экстремума, теоремы существования, единственности и устойчивости решения для основных классов задач. Исследуется влияние помех, негладкости функций, вырожденности минимума. Книга предназначена для инженеров, экономистов, статистиков, вычислителей, сталкивающихся с задачами оптимизации. По своему математическому аппарату книга доступ- на студентам технических и экономических вузов. Табл. 6, илл. 44, библ. 247. Борис Теодорович Поляк ВВЕДЕНИЕ В ОПТИМИЗАЦИЮ Редактор Т. И. Кузнецова Технический редактор В. Н. Кондакова Корректоры О. А. Сигал, Л. С. Сомова ИВ № 11436 Сдано в набор 22.04.82. Подписано к печати 06.04.83. Т-08902. Формат 60х907ю. Вумага № 2. Литературная гарнитура. Высокая печать. Условн. печ. л. 24. Уч.-изд. л. 26,32. Тираж 8500 экз. Заказ № 179. Цена 2 р. 40 к. Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 Ленинградская типография A's 2 головное предприятие ордена Трудового Красного Знамени Ленинградского объединения «Техническая книга» им. Евгении Соколовой Союз- иолиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 198052, г. Ленинград, Л-52, Измайловский проспект, 29 1502000000—074 П 053(02)-83 153-82 © Издательство «Наука». Главная редакция физико-математической литературы, 1983
ОГЛАВЛЕНИЕ Предисловие........................................................ 5 Список обозначений ................................................ 7 Введение .......................................................... 9 ЧАСТЬ I. БЕЗУСЛОВНАЯ МИНИМИЗАЦИЯ....................................15 Глава 1. Основы теории и методов безусловной минимизации . ... 15 § 1. Сведения из математического анализа .... 15 § 2. Условия экстремума.........................................22 § 3. Существование, единственность, устойчивость минимума ... 25 § 4. Градиентный метод....................................... 29 § 5. Метод Ньютона.............................................36 § 6. Роль теорем сходимости....................................39 Глава 2. Общие схемы исследования итеративных методов..............44 § 1. Первый метод Ляпунова.....................................44 § 2. Второй метод Ляпунова.....................................49 § 3. Другие схемы..............................................59 Глава 3. Методы минимизации........................................63 § 1. Модификации градиентного метода и метода Ньютона ... 63 § 2. Многошаговые методы...................................... 68 § 3. Другие методы первого порядка.............................77 § 4. Прямые методы.............................................87 Глава 4. Влияние помех.............................................94 § 1. Источники и типы помех....................................94 § 2. Градиентный метод при наличии помех.......................97 § 3. Другие методы минимизации при наличии помех..............100 § 4. Прямые методы............................................103 § 5. Оптимальные методы при наличии помех..................... 107 Глава 5. Минимизация недифференцируемых функций...................114 § 1. Сведения из выпуклого анализа.............................114 § 2. Условия экстремума, существование, единственность и устойчи- вость решения..................................................124 § 3. Субградиентпый метод......................................128 § 4. Другие методы.............................................134 § 5. Влияние помех.............................................144 § 6. Поисковые методы......................................... 146 Глава 6. Вырожденность, миогоэкстремальность, нестационарность . . 150 § 1. Вырожденный минимум...................................... 150 § 2. Миогоэкстремальность......................................166 § 3. Нестационарность..........................................175
4 ОГЛАВЛЕНИЕ ЧАСТЬ И. УСЛОВНАЯ МИНИМИЗАЦИЯ....................................179 Глава 7. Минимизация на простых множествах.......................179 § 1. Основы теории............................................179 § 2. Основные методы..........................................185 § 3. Другие методы............................................192 § 4. Влияние помех............................................196 Глава 8. Задачи с ограничениями типа равенств....................199 § 1. Основы теории............................................199 § 2. Методы минимизации...................................... 210 § 3. Учет возможных осложнений................................220 Глава 9. Общая задача математического программирования .... 225 § 1. Выпуклое программирование (теория)......................225 § 2. Нелинейное программирование (теория)....................240 § 3. Методы выпуклого программирования.......................247 § 4. Методы нелинейного программирования.....................263 Глава 10. Линейное и квадратичное программирование.............. . 268 § 1. Линейное программирование (теория)......................268 § 2. Конечные методы линейного программирования..............281 § 3. Итерационные методы линейного программирования..........288 § 4. Квадратичное программирование...........................296 ЧАСТЬ III. ПРИКЛАДНОЙ АСПЕКТ............ . , ..................301 Глава 11. Примеры задач оптимизации..............................301 § 1. Задачи идентификации....................................301 § 2. Оптимизационные задачи в технике и экономике............317 § 3. Задачи оптимизации в математике и физике................330 Глава 12. Практическое решение задач оптимизации.................336 § 1. Процесс решения.........................................336 § 2. Программы оптимизации...................................340 § 3. Тестовые задачи и результаты вычислений.................343 Библиографические указания и комментарии.........................361 Литература.......................................................372 Предметный указатель.............................................383
ПРЕДИСЛОВИЕ Чрезвычайно широкое распространение задач оптимизации в технике, экономике, управлении привело к необходимости ознакомления широкого круга практиков с методами решения подобных задач. Однако инженеру или вычислителю трудно ориентироваться в литературе по оптимизации (большинство имеющихся книг написано «математиками для математиков»), нелегко разобраться в многообразии задач и алгоритмов. В этой книге делается попытка систематического изложения основ со- временной теории и методов оптимизации в форме, доступной инженеру. Используемый математический аппарат минима- лен—достаточно знания начал математического анализа, ли- нейной алгебры и теории вероятностей. Изложение построено на последовательном усложнении рассматриваемых задач. Вна- чале описываются наиболее простые задачи безусловной мини- мизации гладких функций, затем исследуется влияние различ- ных осложняющих факторов — помех, негладкое™ функций, вырожденности минимума, наличия ограничений. Анализ каж- дого класса задач проводится единообразно — вводится требуе- мый математический аппарат, затем обосновываются условия экстремума, результаты о существовании, единственности и устойчивости решения, и, наконец, описываются основные ме- тоды решения и исследуются их свойства. Главное внимание уделяется идейным основам методов, их сравнительному ана- лизу; показано, как теоретические результаты служат фунда- ментом при построении и изучении методов. На примерах при- кладных задач оптимизации обсуждается взаимоотношение общих и специальных методов решения. Дана обширная ком- ментированная библиография, позволяющая читателю в случае надобности обратиться к более подробным работам на интере- сующую его тему. Включенный в книгу материал во многом отличается от тра- диционного. Нередко учебники по математическому программи- рованию сводятся к описанию техники симплекс-метода линей- ного программирования. Мне этот круг вопросов нс кажется центральным; ему посвящен лишь один параграф. В то же время большое внимание уделено задаче безусловной миними- зации, которая дает богатый материал для обсуждения основ- ных идей теории и методов оптимизации. Среди нестандартных разделов книги —задачи негладкой оптимизации, вырожденные
6 ПРЕДИСЛОВИЕ и нестационарные задачи, задачи с ограничениями типа ра- венств, условия устойчивости экстремума, влияние помех на ме- тоды оптимизации, анализ общих схем исследования сходимости итеративных методов и т. д. Систематически обсуждаются «наивные» вопросы, которые не принято задавать в математи- ческой литературе. Например: зачем нужны условия экстре- мума? Какова польза от теоретических результатов о сходимо- сти методов? Можно ли реально решать неустойчивые задачи оптимизации? и т. п. Книга целиком посвящена конечномерным задачам. Это обу- словлено как ограничениями на объем работы, так и предпола- гаемым уровнем математических знаний. Поэтому не рассма- триваются такие важнейшие вопросы, как современная теория условий оптимальности в общих экстремальных задачах, за- дачи вариационного исчисления и оптимального управления и т. д. Вместе с тем мне кажется, что конечномерный случай очень богат идеями и результатами; он может служить прекрас- ной «моделью» более общих задач оптимизации. Знакомый с функциональным анализом читатель без труда заметит, что многие утверждения автоматически переносятся на задачи в гильбертовом или банаховом пространстве, однако в тексте по- добные обобщения не приводятся. В книгу не включены также дискретные задачи оптимизации. Они требуют совсем иных ме- тодов исследования, чем непрерывные, и примыкают к комби- наторике и математической логике. Мне неоднократно приходилось читать лекции по теории и методам оптимизации, в частности в Московском государствен- ном университете и Институте проблем управления. На их при- мере я убедился, сколь различен подход к предмету у матема- тиков, вычислителей и практиков. Предлагаемая книга пред- ставляет собой попытку некоторого компромиссного решения, рассчитанного на все эти категории читателей. Обращаясь к математикам, я хотел бы подчеркнуть, что данная книга —не учебник, она не связана с имеющимися вузовскими програм- мами по курсу «методы оптимизации», не все приводимые тео- ремы доказаны, много материала вынесено для самостоятель- ной работы в упражнения и т. д. С другой стороны, вычислитель не найдет окончательных формулировок алгоритмов или гото- вых текстов программ оптимизации; в работе нет обсуждения важных деталей вычислительной «технологии»; ряд приводимых результатов представляет лишь теоретический интерес. Иными словами, книга не может служить сборником готовых рецептов решения конкретных задач. Наконец, инженеру или экономисту придется примириться с несколько абстрактным характером изложения (примеры и приложения даны лишь в заключитель- ных главах).
7 СПИСОК ОБОЗНАЧЕНИЙ Большое значение для меня имела продолжительная совмест- ная работа с Я- 3. Цыпкиным, который является инициатором написания этой книги. Постоянная творческая активность я. 3. Цыпкина, его эрудиция и интерес к задачам оптимизации оказали серьезное влияние па формирование моих взглядов на предмет и методологию данной области науки. Я многому научился у своих учеников; в частности, вычислительный опыт Е. Н. Белова и В. А. Скокова существенно помог мне при напи- сании книги. Большой труд по редактированию взял на себя Ю. Е. Нестеров. Неоценимую помощь в работе над книгой мне оказала Г. М. Корпелевич. Высокий профессионализм Г. Н. Ар- хиповой позволил избежать многих трудностей при оформле- нии рукописи. Всем названным лицам я выражаю глубокую признательность. Апрель, 1980 г. Б. Т. Поляк СПИСОК ОБОЗНАЧЕНИЙ R" — п-мерное вещественное евклидово пространство. {хь ..., хп} — компоненты вектора х е R". || • II — норма в R": ЩИ2 = *? + + х2. (•, •) — скалярное произведение в R": (х, у) = хгу{ + ... +х„уп. I — единичная матрица. Ат— матрица, транспонированная к А. А+ — псевдообратная матрица к А (§ 1 гл. 6). А В — матрицы А и В симметричны и А—В неотрицательно опреде- лена. А > В — матрицы А и В симметричны и А—В положительно определена. ||А|| — норма матрицы А: ||А||= шах ||Ах||. ||х|| = 1 р(А) —спектральный радиус матрицы А (§ 1 гл. 2). х у — все компоненты вектора х е R" не меньше соответствующих компонент вектора у @ R": Xi Jg yi, i = 1.п. RlJ. — неотрицательный ортант в R": R" = {х е R": х>о}. х L — положительная часть вектора х е R": (х+); = max {0, Xi}, i = 1, ... ..., п. х* = argmin f (x) — любая точка глобального минимума f (х) иа Q: х @ Q /(х*) = тЦЦх). v* хё<2 = Argmin / (х) — множество точек глобального минимума f (х) па Q: = {х* = argmin f (х)}. х esQ W(4. Г(х) — градиент скалярной функции [(х) (§ 1 гл. 1). Vg(x), g'(x)—производная векторной функции g(x), матрица Якоби (§ 1 гл. 1). f"(x)—матрица вторых производных, гессиан (§ 1 гл. 1). ^х (х> У)> Lxx(x, у) — градиент и матрица вторых производных В(х, у) по переменной х. ВНх) — субградиент выпуклой функции (§ 1 гл. 5 и § 1 гл 9). ОеГ(х) — е-субградиент выпуклой функции (§ 1 гл. 5).
8 СПИСОК ОБОЗНАЧЕНИЙ ['(х; у) —производная функции f (х) в точке х по направлению у (§ 1 гл. 1 п § 1 гл. 5). £)(/) —область определения функции [(х) (§ 1 гл. 5). Conv Q — выпуклая оболочка множества Q (§ 1 гл. 5). Q0 - - внутренность множества Q. 0 — пустое множество. Рр(х) —проекция точки х иа множество Q (§ 1 гл. 5). р(х, Q) —расстояние от точки х до множества Q:p(x, Q) = inf ||х — у\\. о(й(х)) — если g: Л: R"->RS н llg(x) ||/||/i (х) ||-> 0 при ||х||->0, то g(x) = o(h(x)). O(h(x))—если g: R"Rm, h: R"-*R’ и найдутся e > 0, а такие, что ||g (x) || gc a:’|/i (x) || при ||xil < e, to g (x) О (Л(х)). о (и*) — если последовательности ut е R", vk e Rm, k = 1, 2 .... таковы, ЧТО ||U*ll/||£ZjtII 0 при k-+ ос, то vh = O(Mft)—если для последовательностей lit e R", V/, e Rm, k = 1, 2 ..., найдутся a > 0, ka такие, что |1щ<|| сД alludl при k kQ, то vk = 0{ик)- Mg — математическое ожидание случайной величины g. М (g|x)—условное математическое ожидание случайной величины g, за- висящей от х, при фиксированном значении х. V—квантор общности: V.veO--«для всех = А—знак, ставящийся в конце доказательства (или в конце утвержде- ния, если последнее приводится без доказательства). Обычно буквы х, у, а, Ь, .. . используются для обозначения векторов, а, р, ... — скаляров, А, В, ... — матриц, I. j, k, ... — целых чисел, Q, S,... — множеств. Итеративная последовательность векторов обозначается х°, х1, ... . .., хк, . .. ; X; — компоненты вектора х. Нумерация лемм, теорем и формул в каждом параграфе независимая. При ссылках в пределах параграфа указывается только помер формулы, в пределах главы — помер формулы п параграфа, в остальных случаях приво- дится номер формулы, параграфа и главы.
ВВЕДЕНИЕ Обычно наши действия в условиях неоднозначности выбора определяются некоторой целью, которую мы стремимся достичь наилучшим образом. Тем самым человеческая деятельность свя- зана с постоянным (сознательным или бессознательным) реше- нием оптимизационных задач. Более того, многие законы при- роды носят вариационный характер, хотя здесь и неуместно говорить о наличии цели. Можно было бы думать, что подобная распространенность задач оптимизации должна была найти свое отражение в мате- матике. Однако в действительности до середины нынешнего столетия задачи на экстремум рассматривались в математике лишь эпизодически, развитая теория и методы решения подоб- ных задач были созданы совсем недавно. Наиболее простая задача безусловной минимизации функции многих переменных привлекла внимание математиков во вре- мена, когда закладывались основы математического анализа. Она во многом стимулировала создание дифференциального исчисления, а необходимое условие экстремума (равенство гра- диента нулю), полученное Ферма в 1629 г., явилось одним из первых крупных результатов анализа. Позже в работах Нью- тона и Лейбница были по существу сформулированы условия экстремума II порядка (т. е. в терминах вторых производных) для этой задачи. Другой класс задач на экстремум, традиционно рассматри- вавшийся в математике, — это задачи вариационного исчисле- ния. Следы интереса к ним можно найти и в античной мате- матике (разного рода изопериметрические проблемы), однако подлинное рождение вариационного исчисления произошло в конце XVIII века, когда И. Бернулли сформулировал знамени- тую задачу о брахистохроне. На современном языке классиче- ская задача вариационного исчисления представляет собой бес- конечномерную задачу безусловной оптимизации с минимизи- руемым функционалом специального (интегрального) вида. Условия экстремума I порядка в вариационном исчислении были получены Эйлером (уравнение Эйлера), а II порядка — Лежандром и Якоби. Важный вопрос о существовании решения в вариационном исчислении был впервые поставлен Вейер- штрассом во второй половине XIX века. Обе задачи, о которых говорилось выше (конечномерная и бесконечномерная), являются примерами задач безусловной
10 ВВЕДЕНИЕ минимизации. Задачи на условный экстремум рассматривались в классической математике лишь для ограничений типа равенств. Знаменитое правило множителей Лагранжа (сформулированное в XVIII веке) представляет собой необходимое условие экстре- мума I порядка в подобных задачах (и в конечномерных, и в задачах вариационного исчисления). Поразительно, что такие же условия для задач с ограничениями типа неравенств были получены лишь недавно. Сами по себе системы неравенств (вне связи с задачами минимизации) изучали Фурье, Минковский, Вейль и другие ученые; созданный ими аппарат позволял без труда получить условия экстремума в задачах с ограниче- ниями— неравенствами. Первые работы по экстремальным задачам при наличии ограничений общего вида относятся к концу 30-х — началу 40-х годов нашего века. Корни этих работ были различны. Специалистов по вариационному исчислению, принадлежавших к Чикагской школе (Блисс, Больца, Макшейн, Грейвс, Хестенс и др.), стимулировал интерес возможно более широкой поста- новки вариационных задач. Здесь в 1937 г. появилась работа Валентайна, посвященная условиям экстремума для задач ва- риационного исчисления при наличии разного рода ограничений типа неравенств. Позже были созданы (Макшейн, Кокс) общие схемы анализа абстрактных экстремальных задач. Одному из аспирантов Чикагского университета, Карушу, было поручено исследовать в качестве упражнения конечномерные задачи ми- нимизации с общими ограничениями. Каруш получил в 1939 г. условия экстремума первого и второго порядков для гладкого случая; к 'его работе не отнеслись серьезно, и она не была опу- бликована. К тем же по существу условиям экстремума не- сколько позже пришел американский математик Фриц Джон, занимавшийся экстремальными проблемами в геометрии (типа отыскания эллипсоида наименьшего объема, описанного вокруг заданного выпуклого тела). Работа Джона была отвергнута одним серьезным математическим журналом и была напечатана лишь в 1949 г. Независимо от американских исследований оптимизацион- ная тематика развивалась и в СССР. Пионером в этой области был Л. В. Канторович, опубликовавший в 1939 г. книгу, содер- жавшую математические постановки ряда экономических задач. Последние не укладывались в рамки стандартного математи- ческого аппарата, а именно, являлись задачами минимизации линейной функции на множестве, задаваемом линейными огра- ничениями типа равенств и неравенств. Л. В. Канторович раз- работал теорию подобных задач и предложил некоторые (не полностью алгоритмизованные) методы их решения. В 1940 г. появилась заметка того же автора, содержавшая общую форму- лировку условий экстремума при наличии ограничений в беско-
ВВЕДЕНИЕ 11 нечномерном пространстве. Работы Л. В. Канторовича в то время не привлекли внимания математиков и остались, по су- ществу, незамеченными. Как видит читатель, судьба не благо- приятствовала первым исследованиям по пеклассическим за- дачам оптимизации. Время для них созрело несколько позже, в конце 40-х годов. Под влиянием прикладной тематики, которой ему приходилось заниматься в годы войны, Данциг в США стал изучать задачи минимизации линейной функции при линейных ограничениях, получившие название задач линейного программирования. Он сформулировал условия оптимальности решений в линейном программировании. Под влиянием работ фон Неймана по тео- рии игр, Данциг, Гейл, Кун и Таккер создали теорию двойствен- ности в линейном программировании — специфическую форму- лировку условий экстремума. Вскоре после разработки теории линейного программирова- ния возникает ее естественное обобщение на нелинейный слу- чай. Задача минимизации нелинейной функции при нелинейных ограничениях была названа задачей математического програм- мирования (что вряд ли можно признать удачным, учитывая перегруженность обоих терминов). Если и минимизируемая функция, и ограничения выпуклы, то говорят о задаче выпук- лого программирования. Условия экстремума для задач мате- матического программирования стали широко известны после работы Куна и Таккера 1950 г.; по существу, это были те же условия Каруша — Джона. Для выпуклого случая Кун и Так- кер сформулировали условия экстремума в терминах седловой точки; эта формулировка пригодна и для негладких задач. Существенный прогресс в теории оптимизации был достигнут при изучении так называемых задач оптимального управления, являющихся непосредственным обобщением классической за- дачи вариационного исчисления и заключающихся в оптимиза- ции функционалов от решений обыкновенных дифференциаль- ных уравнений, правые части которых включают подлежащие выбору функции («управления»). Необходимые условия опти- мальности для этих задач были сформулированы и доказаны Л. С. Понтрягиным, В. Г. Болтянским и Р. В. Гамкрелидзе в 1956—1958 гг. в форме так называемого принципа максимума. В иной форме условия оптимальности для подобных задач были получены Веллманом на основе идей динамического програм- мирования. Эти результаты были столь связаны со специфиче- ской формой задач оптимального управления, что не сразу было осознано их родство с условиями экстремума для задач математического программирования. л Р годы появился цикл работ (А. Я. Дубовицкого и А. А. Милютина, Б. Н. Пшеничного, Нейштадта, Халкина, Варги
12 ВВЕДЕНИЕ и других авторов), в которых были предложены общие схемы получения условий экстремума для абстрактных задач оптими- зации с ограничениями, позволившие охватить как теорему Куна — Таккера, так и принцип максимума. Это дало возмож- ность по-новому взглянуть на известные результаты и, в част- ности, выделить в них стандартную часть, которую можно полу- чить с помощью общих схем, и нестандартную, связанную со спецификой задачи. Удобным аппаратом для исследования экстремальных задач оказался выпуклый анализ — сравни- тельно новый раздел математики, получивший завершенную форму в работах Р. Рокафеллара. В настоящее время тех- ника вывода условий оптимальности развита в совершен- стве. Выше в основнохм говорилось о той части теории оптимиза- ции, которая связана с условиями экстремума. Однако найти с помощью условий экстремума явное решение задачи удается лишь в редких случаях. Сложность или невозможность отыска- ния аналитического решения обнаружилась и в других разделах математики; постепенно стало ясно, что любая задача может считаться решенной, если указан алгоритм, позволяющий чис- ленно построить приближенное решение с требуемой точностью. Этот принципиально новый подход, подкрепленный появлением ЭВМ и приведший к возникновению вычислительной матема- тики, существенно затронул и проблематику оптимизации. Од- ним из центральных направлений здесь стала разработка и обо- снование численных методов решения. Математиков прошлого относительно мало интересовали вы- числительные проблемы, и хотя некоторые методы решения не- линейных уравнений и безусловной минимизации связывают с именами Ньютона, Гаусса, Коши, эти результаты оставались изолированными в творчестве упомянутых ученых и их после- дователей. Пожалуй, первыми нужду в численных методах минимиза- ции испытали статистики. В задачах оценки параметров при- менение метода максимального правдоподобия или метода наи- меньших квадратов приводило к необходимости отыскания экстремума функции многих переменных (вообще говоря, неква- дратичной). Статистикам (Карри, Левенбергу, Крокету, Чер- нову и другим) принадлежат первые исследования по числен- ным методам безусловной минимизации, выполненные в 40-х— 50-х годах. В связи с проблемами планирования эксперимента и решения уравнений регрессии в работах Бокса, Роббинса и Монро, Кифера и Вольфовица в начале 50-х годов были пред- ложены методы минимизации функций при наличии случайных помех. Другим разделом математики, где происходило зарождение методов оптимизации, была линейная алгебра. Необходимость
ВВЕДЕНИЕ 13 решения больших систем линейных уравнений, возникающих при конечно-разностной аппроксимации уравнений с частными производными, привела к развитию итеративных методов линей- ной алгебры. Но задача решения системы линейных уравнений эквивалентна минимизации квадратичной функции, и многие итеративные методы удобно строить и обосновывать, опираясь на этот факт. Таковы методы покоординатного спуска, наиско- рейшего спуска, сопряженных градиентов и ряд других методов, которые были созданы в линейной алгебре к началу 50-х годов. Естественным шагом было перенесение подобных методов на неквадратичный случай. С необходимостью решения задач оптимизации столкнулись и специалисты по теории автоматического регулирования. Тру- дами В. В. Казакевича, А. А. Фельдбаума, А. А. Первозванского в 50-х годах была создана теория экстремального регулирова- ния и предложены специальные методы оптимизации действую- щих объектов в реальном масштабе времени. Первый численный метод нелинейного программирования — метод штрафных функций — был введен Курантом в 1943 г. из соображений, связанных с физической природой рассматри- вавшейся задачи. Наконец, мощный импульс для развития методов оптимиза- ции дал предложенный Данцигом в конце 40-х годов симплекс- метод для решения задач линейного программирования. Оби- лие приложений и наличие хороших программ для ЭВМ при- вели к широкой популярности симплекс-метода прежде всего среди экономистов. До какого-то времени такого рода исследования были спора- дическими и не объединялись ни единым подходом, ни аппара- том. Однако к середине 60-х годов в рамках вычислительной математики сложилось самостоятельное направление, связан- ное с численными методами оптимизации. С тех пор непрерывно шло интенсивное развитие этого направления как вширь (раз- работка новых методов, исследование новых классов задач), так и вглубь (выработка единого аппарата для анализа сходимости и скорости сходимости, классификация и унификация методов). В настоящее время эта область вычислительной математики может считаться окончательно сформировавшейся. Разработано множество численных методов для всех основных классов за- дач оптимизации — безусловной минимизации гладких и неглад- ких функций в конечномерных и бесконечномерных пространст- вах, условной минимизации при ограничениях типа равенств и (или) неравенств в выпуклом или невыпуклом случае и т. д. Для большинства методов имеется строгое обоснование, выяс- нена скорость сходимости, установлена область применимости. Конечно, многие проблемы еще не решены до копца (построение
14 ВВЕДЕНИЕ эффективных методов для некоторых специальных типов задач, проблема оптимальных методов, подробная численная проверка имеющихся алгоритмов, создание доступных и отработанных машинных программ и т. п.). Однако, по-видимому, период наи- большей активности в области численных методов оптимизации остался позади. В предлагаемой вниманию читателя книге делается попытка систематического изложения современного состояния основ оптимизации.
ЧАСТЬ I БЕЗУСЛОВНАЯ МИНИМИЗАЦИЯ Глава 1 ОСНОВЫ ТЕОРИИ И МЕТОДОВ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Мы начинаем изучение проблем оптимизации с классической задачи безусловной минимизации гладкой функции: min f (х), х е Rra. Этой задаче будет уделено большое внимание не только из-за ее важности, но и потому, что в силу ее простоты для нее наибо- лее четко видна схема математического исследования общих оптимизационных задач и идейные основы методов оптимизации. § 1. Сведения из математического анализа 1. Дифференцирование скалярных функций. Скалярная функция f(x) «-мерного аргумента х (кратко это записывается f: R«->R> ) называется дифференцируемой в точке х, если най- дется вектор а е R" такой, что для всех i/eR" f(x + f/) = f(x) + (a, у) + о(у). (1) Вектор а в (1) называется производной или градиентом функции f(x) в точке х и обозначается f'(x) или Vf(x). Итак, градиент определяется равенством f (х + у) = f (х) + (Vf (х), у) + о (у). (2) Иначе можно сказать, что функция дифференцируема в точке х, если она допускает линейную аппроксимацию первого порядка в этой точке, т. е. найдется линейная функция f(^) = /(x) + + (Vf(x), у) такая, что |f(x-]-z/)— f (у) \ — о(у). Ясно, что гра- диент определяется однозначно, при этом Vf(x) — вектор с ком- понентами (df(x)/dxi, ..., df(x)/dxn). Вычислять градиент можно, во-первых, непосредственно из определения, во-вторых, с помощью его координатной записи и, в-третьих, с помощью правила дифференцирования сложной функции (см. ниже (12)). Пусть, например, f(x)—квадратичная функция f(x) = (Ax, х)/2 —(6, х), где А — симметричная «X «-матрица, b е R". Тогда f(x + ^) = == (Д(х+г/), х + у)/2-(Ь, (х + у)) = (Ах, х)/2- (Ь, х) + -НАх-б, у) + (Ау, y)/2 = f(x) + (Ax-b, у) + (Ау, у)/2. Но I Иг/, У) | X НАШИ2, поэтому (Ау, у)/2 = о(у). Итак, f(x) диф- ференцируема в любой точке х и Vf(x) = Ax — b. (3)
16 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Функция f(x) называется дифференцируемой на множестве QczRn, если она дифференцируема во всех точках Q. Если f(x) дифференцируема на всем пространстве R", то говорят просто, что она дифференцируема. Пусть f(x) дифференцируема на отрезке [х, х + у] (т. е. для точек вида х -ф ту, 0 кф т 1). Рассмотрим функцию одного пе- ременного ф(т) = f(x + ту) и вычислим ее производную для Оцфтгф 1: Ф (т + Ат) — ф (г) f (х + (г + Аг) у) — + ту) = Ат Ат __(W (* + ту), Ату) + о (Ату) Ат ’ ф' (т) = lim ф (т + \v~ '-Т) = (vf (х + т>У), У). Ат-»0 Таким образом, ф(т) дифференцируема на [0, 1] и ф/(т) = (УНх + тг/), у). (4) Величина № У) = Нт (5) е-»+0 8 называется производной по направлению (или вариацией) функ- ции f(x) в точке х по направлению у. Производная по направ- лению может существовать и для негладких функций. Напри- мер, для f(x)=||x|| имеем f(0; у) = \\у\\. Если f(x) имеет в точке х производную по всем направлениям, линейную по у. f'(х; у) — (а, у), то говорят, что f(x) дифференцируема по Гато в точке х. Такая функция имеет частные производные, причем f'(x; ei) = df(x)/dxi (et — координатные орты), a — (df/dxit ... .... df/dXn). Из формулы (4) следует, что если f(x) дифферен- цируема в точке х, то она дифференцируема и по Гато, причем f' (х; у) = ф' (0) = (Vf (х), у). (6) Обратное, вообще говоря, неверно. Например, функция f- R1, /7 фг 2, вида fl, если || х — а || = || а ||, х ф= 0, f (х) = S п (7) (.0 в остальных точках, где а <= R", а 0, дифференцируема в точке 0 по любому на- правлению и f(0; у) — 0 для всех у, т. е. она дифференцируема по Гато в нуле, однако она не дифференцируема (и даже не непрерывна) в этой точке. Отметим еще, что иногда (чтобы под- черкнуть отличие от дифференцируемости по Гато) употреб- ляют термин «дифференцируемость по Фреше» вместо «диффе- ренцируемость».
§ I. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА 17 Если функция f(x) дифференцируема на [х, х + у], то, поль- зуясь (4) и формулой Ньютона —Лейбница ф(1) = <р(0)4- । ^ф'(т)г/т, получаем запись остаточного члена в (2) в инте- О тральной форме: 1 f (X + у) = f W + J (V/ (х + ту), у) ах = О 1 = / (х) + (V/ (х), у) + J (Vf (у + ту) — V/ (х), у) dx. (8) о Другой полезный результат — теорема о среднем — следует из формулы конечных приращений <р(1) = <р(0) + <р'(6), 0 кф 0 < 1, и (4): Цх + У) = f W + (V) (х + 0у)> У), (9) где 0 0 1 — некоторое число. Упражнения. 1. Докажите, что: a) Т||х|| = х/||х|| при х 0; при х = 0 функция |Д|! недифференцируема; б) Vii-Т-Д!3 = 2х+. 2. Докажите, что из непрерывности по х производной Гато следует диф- ференцируемость. 2. Дифференцирование векторных функций. До сих пор речь шла о дифференцируемости скалярных функций. Совершенно аналогично определяется дифференцируемость векторных функ- ций. Функция g: называется дифференцируемой в точке х, если найдется матрица А размерности m X а такая, что для всех у е R" g^ + y) = g(x)A-Ау + о(у'). (10) Матрица А называется производной или матрицей Якоби ото- бражения g'(x), и для нее применяется то же обозначение g'(х) или Vg(x), что и в скалярном случае. Итак, g-(x + y) = y(x) + y'(x)y + o(y), (Ц) т. е. дифференцируемая в точке х функция допускает в этой точке линейную аппроксимацию первого порядка. Очевидно, что для дифференцируемой векторной функции g (х) — (o-t (х), ... g'm(x)) элементы матрицы Якоби определяются формулой g'W<7 = dgi(x)/dxj. Пусть g: R"-> — дифференцируемая в точке х функция, a h: Rm->RS дифференцируема в точке g(x). Тогда спра- ведливо правило дифференцирования сложных функций [Л (g (*))]' —/г' / (х), (12) где в правой части стоит произведение матриц ф л g\
18 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Теорема о среднем для векторных функций неверна, т. е., во- обще говоря, не существует такого О сф О 1, что g (х + у) = g (х) + g' (х + 9г/) У для дифференцируемой на [х, х -ф у] функции g: R'!->Rm, т>1. Однако справедлива формула, аналогичная (8): если g(x) дифференцируема на [х, х + у] > то 1 g (х + У) = g (х) + (* + ху) у dr = О 1 = g(x) + g'(x)y + 5 (g' (х + ту) — g' (х)) у dr. (13) о Из формулы (13), в частности, получаем следующие полез- ные оценки. Если ||/У(х + ху) || L при О т 1, то ||g(x + У) — g(x)||<L|| 1/||, (14) а если g'(x) удовлетворяет условию Липшица на [х, х-^-'у]: llg'(u) — £Г'О) II vll, и, V (=[х, х + у], то II g (X + у) — g (х) — g' (х) у II < LII у 1172. (15) Как и в скалярном случае, функция g: R"->Rm, дифферен- цируемая во всех точках R", называется дифференцируемой. Упражнение. 3. Используя (12) и результат упражнения 1, покажите, что VI! (Ах — — &)+И2 — 24z(Ах— &)+, где А — матрица хрХ п. 3. Вторые производные. Скалярная функция f(x) на R" на- зывается дважды дифференцируемой в точке х, если она диф- ференцируема в этой точке и найдется симметричная п X «-ма- трица Н такая, что для всех у R" f (х + У) = f (х) + (Vf (х), у) + (Ну, у)/2 + о(\\у ||2). (16) Эта матрица называется матрицей вторых производных, матри- цей Гессе или гессианом и обозначается /’"(х) или V2f(x). Иначе говоря, функция дважды дифференцируема в точке х, если она допускает квадратичную аппроксимацию второго порядка в окрестности этой точки, т. е. существует квадратичная функция f(y) = f<x) + (yf(x), z/) + (V2f(x)z/, у)/2 такая, что | f (х + у) -- — 1(У) I = о(Й112). Уточним полученные ранее оценки для дважды дифференци- руемых функций. Рассмотрим вновь скалярную функцию ф(т) = = f(x + ту) в предположении, что f дважды дифференцируема
§ 1. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА ' 19 на [х, х + у]. Так же, как и выше, показывается, что эта функ- ция дважды дифференцируема и qp"(r)==(V2f (х + ту)у, у). (17) Тогда из формулы Тейлора с остаточным членом в инте- 1 t гральной форме ср (1) == Ф (0) + q/ (0) + q>" (х) dx dt следует о о 1 t f(x + t/) = f(x) + (Vf(x), у) + J + y)d%dt. (18) о о В частности, если |[V2f(x ту) || Е для 0 т 1, то отсюда получаем \f(x + y)-f(x)-(Vf(x), y)\^(L/2)\\y\\2, (19) а если || V2/ (х + ту) — (х) || < Lt || у ||, то I f (х + у) - f (х) - (V/ (х), у) - (>/2) (V2/ (х) у, у) К (А/6) IIУII3. (20) Если же пользоваться формулой Тейлора с остаточным членом в форме Лагранжа Ф(1) = Ф(0) + ф'(0) + ф"(0)/2, О<0<Я, то получаем, что найдется 0 0 1, для которого f (х + у\) = f (х) + (vf (х), у) + (V2/' (х + 0у) у, у)/2. (21) Упражнения. 4. Покажите, что V3)(x)—матрица с элементами d2f(x)ldxidx/. 5, Докажите, что-, a) V2[(Ax, х)/2—(Ь, а)] = А, где А — симметричная «X «-матрица, b eR"; б) V'2Wi = /IWI-1 — ххт || х|| -3 для a=/=0; в) V2(c, а)2= = 2ссг, с е R’’. 6. Проверьте, что f"(x) = (f'(x))', т. е. производная векторной функции f'(x) совпадает со второй производной f(x). 4. Выпуклые функции. Понятие выпуклости играет огромную роль в теории экстремальных задач, и мы будем многократно обращаться к нему. Числовая функция f(x) на R" называется выпуклой, если f (Ах + (1 - X) у) < If (х) + (1 - Л) f (у) (22) Для любых х, у е R", 0 А 1- Это определение имеет нагляд- ный геометрический смысл — график функции на отрезке [х, у] лежит ниже хорды, соединяющей точки (х, f(x)) и (У, Ну)) (рис. 1). В определении выпуклости фигурируют две точки х, у и их выпуклые комбинации. Совершенно аналогичное неравенство справедливо для любого числа точек и их выпук- лых комбинаций.
20 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Лемма 1 (неравенство Йенсена). Пусть f{х) — выпуклая функция на R”. Тогда для любых х1, ..., хл стл R" и ф? 0, k k, У О = 1, г-1 Жх!+ ... WKWH ••• + W(A А (23) Функция f(x), для которой —f(x) является выпуклой, на- зывается вогнутой Очевидно, что аффинная функция /(х) = х Ах+Ю-Кд у Рис. 1. Выпуклая функция. ции. Функция f(x) на R" любых х у, 0 < /. < 1, = (а, х) + [J является и выпук- лой и вогнутой. Из определения очевидно, что если )i(x) выпуклы, t=l,..., tn, то ГП И f(x)= Е Vifdx), уz>0, и г = 1 f (х) ~~ max fi(x) также будут I < г < m выпуклы. Важным частным случаем выпуклых функций являются строго и сильно выпуклые функ- называется строго выпуклой, если для f (%х + (1 - %) у) < U (х) + (!-%)/ (г/), (24) и сильно выпуклой с константой I 0, если при 0 А щ 1 ИХх + (1 - %) г/)< V (х) + (1 ~ 'М f (У) ~ & (1 - X) О х - у ||2/2. (25) Ясно, что сильно выпуклая функция строго выпукла. Важно иметь аналитические критерии, по которым можно судить о выпуклости функций. Такие критерии существуют и очень просты для случая дифференцируемых функций. Они основываются на следующем элементарном результате. Лемма 2. Пусть ф(т)— дифференцируемая функция на R!. Тогда выпуклость ф(т) эквивалентна монотонности произ- водной (4>'(ti) ф'Стг) при тц^тг), строгая выпуклость — строгой монотонности (ф'(т1) > Ф'Ч'Гг) при ti>t2), а сильная выпуклость — сильной монотонности (ф(Т1)—Ф(Т2)^/(Т1 — та), Т1 > т2). ▲ Лемма 3. Для дифференцируемой функции f(x) на R" вы- пуклость эквивалентна неравенству fix + у) > f (х) + (Vf (х), у), строгая выпуклость — неравенству f (х + у) > f(x) + (vf (х), у), у 0, (26) (27)
§ 1. СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА 21 а сильная выпуклость — неравенству f (х + У) > f W + (V/ (х), у) + III У 1г/2 (28) для любых х, у Rr‘. ▲ Иначе говоря, график (строго) выпуклой функции лежит (строго) выше касательной гиперплоскости, а для сильно вы- пуклой функции график лежит выше некоторою параболоида (рис. 2). Рис. 2. Типы выпуклости: а) выпуклая функция; б) строго выпуклая функ- ция; е) сильно выпуклая функция. Из (26) получаем полезное неравенство (vf (х) - Vf (у), X - у) > 0, (29) являющееся обобщением условия монотонности производной выпуклой функции на многомерный случай. Для строго выпук- лой функции справедливо условие строгой монотонности (Vf(x)-V/(H х-г/)> 0, х^у, (30) а для сильно выпуклой — условие сильной монотонности (yf (х) - vf (у), х - у) > /1| х - у ||2. (31) Наиболее просто критерий выпуклости формулируется для дважды дифференцируемых функций f(x): выпуклость эквива- лентна выполнению условия V2f (х) > 0, (32) а сильная выпуклость — выполнению условия V2/(x)>Z/ (33) для всех х. Если же v2f (х) > 0 (34) для всех х, то f(x) строго выпукла. Последнее условие является лишь достаточным (например, для строго выпуклой функции Дх) = ||х||4 будет V2/(0)= 0) Пусть х* точка „минимума дифференцируемой сильно вы- пуклой (с константой /) функции /(х). Такая точка заведомо
22 ГЛ. 1. ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ существуем единственна и V/(x*) —О (см. ниже §§ 2, 3). По- этому из неравенств (28), (31) получаем f(x)>f(x-) + /||x-x*||2/2, (35) (Vf (х), х - xs) > 11| х - х* ||2, (36) 1П(х)||^/||Х-Х*||. (37) Упражнение. 7, Убедитесь в справедливости следующих утверждений: а) функция (Ах, х)/2— (Ь х), А > 0 сильно выпукла; б) функция (Ах, х)/2 — (Ь, х) с вырожденной матрицей А 2г 0 (в част- ности, линейная функция) выпукла, но не строго выпукла; в) функция ||х|| “ выпукла при а 2^ 1, строго-выпукла при а > 1, сильно выпукла только при а = 2. § 2. Условия экстремума Условия экстремума гладких функций на всем пространстве хорошо известны. Мы рассмотрим их, однако, достаточно по- дробно, так как они служат моделью, по которой строятся ана- логичные условия в более сложных случаях. 1. Необходимое условие 1 порядка. Точка х* назы- вается локальным- минимумом f(x) на R", если найдется е > О такое, что f(x)^f(x*) для всех х из е-окрестности х* (т. е. при ||х— х*|| ^е). Иногда в таком случае говорят просто о точке минимума, отбрасывая слово «локальный». Нужно, однако, иметь в виду разницу между локальным и глобальным мини- мумом (т. е. точкой х* такой, что )(х)Дг f(х*) для всех х). В не- обходимых условиях экстремума можно говорить просто о точке минимума, поскольку если некоторое условие выполняется для локального минимума, то оно же справедливо для глобального. При формулировке достаточных условий нужно различать, ка- кой из типов минимума подразумевается. Теорема 1 (Ферма). Пусть х* — точка минимума f(х) на R” и f(x) дифференцируема в х*. Тогда Vf(x*) = 0. (1) Доказательство. Пусть Vf(х*) =0= 0. Тогда f (х* - xVf (х*)) = f (х*) - т || Vf (х*) ||2 + о (Wf (х*)) = = f (х*) - т (|| Vf (х*) ||2 + х-~'-о (т)) < f (х*) для достаточно малых т > 0 по определению о(т). Но это про- тиворечит тому, что х* — точка локального минимума. А Приведенное доказательство весьма поучительно. В предпо- ложении, что условие экстремума не выполняется, показано, как построить точку с меньшим значением /(х). Таким обра- зом, это доказательство указывает путь для построения метода
§ 2. УСЛОВИЯ ЭКСТРЕМУМА 23 минимизации. Такой метод (он называется градиентным) будет подробно изучаться в § 4. 2. Достаточное условие I порядка. Разумеется, если какая- либо точка является стационарной (т. е. градиент в ней обра- щается в 0), то она не обязана быть точкой минимума (рис. 3) — например, она может быть точкой максимума или седло- вой точкой. Для выпуклых функций, однако, такая ситуа- ция невозможна. Теорема 2. Пусть f(x)— выпуклая функция, дифферен- цируемая в точке х*, и Vf(x*) = 0. Тогда х* точка рис 3 Стационарные точки: а — точ- глобального минимума f(x) ка минимума, Ь — точка перегиба, на R\ с — точка максимума. Доказательство следует сразу из формулы (26) § 1, так как f (х) f(x*) -ф (Vf (х*), х — х*) = f (х*) для любого х g R". А Таким образом, для выпуклых функций необходимое усло- вие экстремума является и достаточным. Впоследствии мы уви- дим, что эта ситуация является общей и для других типов вы- пуклых экстремальных задач. 3. Необходимое условие П порядка. Для невыпуклых задач можно продолжить исследование условий экстремума с по- мощью старших производных. Теорема 3. Пусть х*— точка минимума f(x) на R” и f(x) дважды дифференцируема в х*. Тогда . V2/ (х‘) > 0. (2) Доказательство. По теореме 1 Vf(x*) = 0, поэтому для произвольного у и достаточно малых т t (**) С Их* + ху) = f (X*) + т2 (V2/ (х*) у, у)/2 + о (т2), (W)!/, г/)>о(т2)/т2. Переходя к пределу при т->0, получаем (V2f(x*)y, у) Д 0. В силу произвольности у это означает, что V2f(x*)J=: 0- А 4. Достаточное условие II порядка. Теорема 4. Пусть в точке х* )(х*) дважды дифференци- руема, выполнено необходимое условие I гооядка (т. е. = 0) и Ш>о. (3) Тогда х" точка локального минимума.
24 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Доказательство. Пусть у — произвольный вектор с еди- ничной нормой. Тогда f (х* + ту) = f (х*) + т2 (V2/' (х*) у, у)/2 + о (т21| у ||2) > > f (х*) + т2//2 + о (т2), где I > 0 — наименьшее собственное значение V2f(x*), а функ- ция о(т2) не зависит от у. Поэтому найдется то такое, что при О т т0 будет т2//2 о (т2), т. е. f (х* + ту) f (х*). А Если в точке х* выполняются необходимые условия I и II порядков (т. е. Vf(x*) = O, V2f (х*) 0), но не выполняется достаточное условие II порядка (матрица V2f(x*) не является положительно определенной), то х* может и не являться точкой минимума (например, )(х) = х3, xsR’l и в принципе анализ можно продолжить с помощью старших производных. Для одно- мерного случая правило действий хорошо известно (нужно найти первую отличную от 0 производную), для многомерного случая техника вычислений сложна. 5. Зачем нужны условия экстремума? Обычно в книгах по математическому анализу предлагается следующий рецепт для отыскания точек экстремума. Нужно найти все точки, удовле- творяющие необходимому условию I порядка, а затем получен- ные точки исследовать с помощью условий II порядка, отобрав из них точки минимума. Таким образом, создается впечатление, что условия экстремума — эффективный инструмент для реше- ния задач оптимизации. Нужно со всей определенностью подчеркнуть, что это со- вершенно не так. Отыскать в явной форме точку минимума с помощью условий экстремума удается лишь в редких случаях, для специально построенных примеров (они обычно и приво- дятся в учебниках). Дело в том, что решение системы уравне- ний Vf(x) = 0 — задача ничуть не более простая, чем исходная, и явный вид ответа в пей найти, как правило, нельзя. Зачем же в таком случае нужны условия экстремума и по- чему им уделяется столь большое внимание в теории экстре- мальных задач? Отчасти такое внимание является данью тра- диции, когда численные методы оптимизации не изучались, а решением задачи считалось лишь некоторое аналитическое вы- ражение. Нередко при этом вывод условий экстремума для раз- личных типов экстремальных задач превращается в чисто ма- тематическую игру, где целью является получение изощренных формулировок для разного рода вырожденных ситуаций без всякой заботы о том, как пользоваться этими условиями экстре- мума. При чтении некоторых монографий создается впечатле- ние, что формулировка условий оптимальности является глав- ным (пли даже единственным) объектом исследования в обла- сти экстремальных задач.
§ 3. СУЩЕСТВОВАНИЕ, ЕДИНСТВЕННОСТЬ, УСТОЙЧИВОСТЬ 25 На наш взгляд условия экстремума являются той основой, на которой строятся методы решения оптимизационных задач,— с этой точки зрения и нужно рассматривать вопрос о их полез- ности. В дальнейшем мы увидим, что, во-первых, в ряде случаев условия экстремума хотя и не дают возможности явно найти решение, но сообщают много информации о его свойствах. Во- вторых, доказательство условий экстремума или вид этих усло- вий часто указывают путь построения методов оптимизации. Мы уже видели выше, что доказательство условия yf(x*) = 0 есте- ственно приводит к градиентному методу минимизации. В-третьих, при обосновании методов приходится делать ряд предположений. Обычно при этом требуется, чтобы в точке х* выполнялось достаточное условие экстремума. Таким образом, условия экстремума фигурируют в теоремах о сходимости ме- тодов. Наконец, сами доказательства сходимости обычно стро- ятся на том, что показывается, как «невязка» в условии экстре- мума стремится к нулю. У читателя будет в дальнейшем много поводов убедиться в полезности условий экстремума. § 3. Существование, единственность, устойчивость минимума Важной частью математической теории экстремальных задач (и в частности, задач безусловной оптимизации) являются проб- лемы существования, единственности и устойчивости решения. 1. Существование решения. Вопрос о существовании точки минимума обычно решается совсем просто с помощью следую- щей теоремы. Теорема 1 (Вейерштрасс). Пусть f(x) непрерывна на R" и множество Qa= {х: f(x)^a} для некоторого а непусто и ограничено. Тогда существует точка глобального минимума f(x) на Rn. < Доказательство. Пусть f(xft)->inf f(х) > а, тогда хк е хе Rra е Qa Для достаточно больших k. Множество Qa замкнуто (в силу непрерывности f(x)) и ограничено, т. е. компактно, а потому у последовательности хк существует предельная точка х* е Qa. Из непрерывности f(x) следует, что f(x*)~ inf f(x), т. e. x* = argmin f(x). A Предположение об ограниченности Qa существенно (напри- мер, функции х и 1/(1 -ф х2) непрерывны на R1, но не имеют точки минимума). В некоторых случаях можно доказать су- ществование решения и в ситуациях, не охватываемых теоре- мой 1 (см. ниже упр. 2). Упражнения. стиг^т^™аЖИТе’ Д° диФФеРенциРУемая сильно выпуклая функция на R"’ до- стигает минимума (воспользуйтесь неравенством (28) § 1 и теоремой 1).
26 ГЛ. 1, ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ 2. Пусть f(x) —г(Ах, х) — (&, %), А>0 и f(x) ограничена снизу (напри- мер, Щх) =- \\Вх — d||2). Докажите, что f(x) достигает минимума на R,!, хотя условия теоремы 1, вообще говоря, не выполняются (множество Qa не обя- зательно ограничено). 2. Единственность решения. Будем называть точку минимума локально единственной, если в некоторой ее окрестности нет других локальных минимумов. Будем говорить, что х* — невы- рожденная тонка минимума, если в ней выполнено достаточное условие экстремума II порядка, т. е. у/(х*) = 0, V2f(x*)> 0. Теорема 2. Невырожденная точка минимума локально единственна. Доказательство. В соответствии с упражнением 6 § 1 Vf(x) — Vf(x*)+ V2f(x*) (х— х*) + о (х — х*), поэтому ||Vf(x)|| — — ilV2f(x*) (х —X*) II + о(||х—- х*||) 1\\х-- Х*|| 4-0 (||х — х*||) >0 для достаточно малых ||х — х*|1, поскольку при V2/(х*) = А > О имеем ||4х|| /||х|| для всех х, где /> 0 — наименьшее соб- ственное значение А. Таким образом, в некоторой окрестности х* нет стационарных точек f(x), а значит, и точек минимума. А Для выпуклых функций ответ на вопрос об единственности минимума часто может быть получен совсем просто. Теорема 3. Точка минимума строго выпуклой функции (глобально) единственна. Доказательство следует непосредственно из определения строгой выпуклости. А 3. Устойчивость решения. При практическом решении задач оптимизации постоянно приходится сталкиваться со следую- щими проблемами. Пусть метод оптимизации приводит к по- строению минимизирующей последовательности, следует ли от- сюда ее сходимость к решению? Если вместо исходной задачи минимизации решается задача, близкая к ней, можно ли утверждать близость их решений? Такого типа проблемы отно- сятся к области теории экстремальных задач, связанной с по- нятиями устойчивости и корректности. Мы будем пользоваться термином «устойчивость» задач оптимизации, оставляя термин «корректность» для задач, не связанных с оптимизацией (ре- шение алгебраических, интегральных, операторных уравнений и т. п.). Точка х* локального минимума f(x) называется локально устойчивой, если к ней сходится любая локальная минимизи- рующая последовательность, т. е. если найдется 6 > 0 такое, что из f(xfe)->f(х*), \\xk— х*[| гС б следует хй->х*. Теорема 4. Точка локального минимума непрерывной функции f(x) локально устойчива тогда и только тогда, когда она локально единственна. Доказательство. Пусть х* локально единственна. Возь- мем произвольную локальную минимизирующую последова- тельность xk, ||xfe —x*||C6, f(xk)-^f(x*). В силу компактности
§ 3 СУЩЕСТВОВАНИЕ, ЕДИНСТВЕННОСТЬ, УСТОЙЧИВОСТЬ 27 щара в R" из нее можно выбрать сходящуюся подпоследователь- ность xki~>x, ||х — х*|| С 5- Из непрерывности f (х) следует, что = litnf(xfe<) = f(x*), но тогда х = х* (так как х* локально единственная точка минимума). Поскольку это же верно для любой другой подпоследовательности, то и вся последователь- ность хк сходится к х*. Таким образом, к* локально устойчива. Обратно, пусть х* локально устойчива, но существует другая точка минимума х] =г= х, || х\ — х* || 6. Тогда f (xi) = f (х*). Возь- мем последовательность точек х1, х2, ..., поочередно совпадаю- щих то с х*. то с xt Она является минимизирующей, но не схо- дится, что противоречит локальной устойчивости х*. А Аналогично доказывается следующий результат. Теорема 5. Пусть х* — локально устойчивая точка мини- мума непрерывной функции f (х), a g(x) — непрерывная функ- ция. Тогда для достаточно малых е>0 функция f(x)-|-eg(x) имеет локально единственную точку минимума хв в окрестности х* и хе->х* при е->0. Д Таким образом, из устойчивости следует близость точек ми- нимума исходной и «возмущенной» функции. Невырожденная точка минимума, как следует из теорем 2 и 4, является локально устойчивой. В этом случае результат теоремы 5 можно уточнить. Теорема 6. Пусть х*—-невырожденная точка минимума f(x), а функция g(x) непрерывно дифференцируема в окрест- ности х*. Тогда для достаточно малых s > 0 существует хЕ— локальная точка минимума функции f (х) -|- eg(x) в окрестности х*, причем xe = x*-e[V2f(x*)]“1V^(x*) + o(e). А (1) Можно ввести и глобальное понятие устойчивости точек ми- нимума. Для этого нужно в определении слово «локальный» заменить на «глобальный». Именно, точка глобального мини- мума называется глобально устойчивой, если к ней сходится любая минимизирующая последовательность. Будем в этом слу- чае говорить о глобальной устойчивости задачи минимизации. Повторяя почти дословно доказательство теоремы 4, получаем, что если ^х*— единственная точка глобального минимума не- прерывной функции f(x) и множество Qa = {х: /(x)s^a} не- пусто и ограничено для некоторого a>f(x*), то х* глобально устойчива. Требование ограниченности существенно. Напри- мер, у функции Дх) =: х2/(1 ф-х4), xeR1, точка глобального минимума х* = 0 единственна, но не глобально устойчива (так как минимизирующая последовательность xfe—>оо не сходится к X*). Можно было бы ввести следующее более широкое опреде- ление устойчивости, которое не предполагает единственности минимума. Множество А* точек глобального минимума f(x),
28 ГЛ. t. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ назовем слабо устойчивым, если все предельные точки любой минимизирующей последовательности принадлежат X*. Крите- рий слабой устойчивости указан в упражнении 5. Помимо качественной характеристики (устойчива или нет точка минимума), важно иметь количественные оценки устой- чивости. Такие оценки, позволяющие судить о близости точки х к решению х*, если f(x) близко к f(x*), уже были получены ранее для сильно выпуклых функций. Именно, из (35) § 1 по- лучаем || х - х* ||2 < 2Г1 (f (х) - f (х*)), (2) где I — константа сильной выпуклости. Аналогичная локальная оценка справедлива для невырожденной точки минимума: II х - х* |р < 2Г1 (f (х) - f (х*)) + о (f(x) - f (х*)), (3) где I — наименьшее собственное значение матрицы V2/(x*). Таким образом, число I характеризует «запас устойчивости» точки минимума. Оно, однако, не всегда удобно как мера устой- чивости— например, оно меняется при умножении f(x) па кон- станту. Поэтому часто используют следующий «нормирован- ный» показатель. Назовем обусловленностью точки минимума х* число р, = lim ( sup || х — х* ||2/ inf || х — х* ||2), «->0 xelj (4) —{х: f(x) = f(x*) + 6}. Иначе говоря, it характеризует степень вытянутости линий уровня /(х) в окрестности х*. Ясно, что всегда ц 1. Если ц велико, то линии уровня сильно вытянуты—функция имеет овражный характер, т. е. резко возрастает по одним направле- ниям и слабо меняется по другим. В таких случаях говорят о плохо обусловленных задачах минимизации. Если же ц близко к 1, то линии уровня /(х) близки к сферам; это соответствует хорошо обусловленным задачам. В дальнейшем мы увидим, что число обусловленности ц возникает во многих проблемах, свя- занных с безусловной минимизацией, и может служить одним из показателей сложности задачи. Для квадратичной функции f (х) ==- (Ах, х)/2 - (Ь, х), А > 0 (5) имеем А6 — {х: (А(х-—х*), х — х*)=26}, поэтому максимум ||х— х*|| по достигается на векторе xi = x* + yi/i, где ?! — нормированный собственный вектор, отвечающий наимень- шему собственному значению Zi матрицы А, а множитель р определяется из условия xi ез L&, т. е. = у! = (26/%^. Аналогично минимум ||х—-х*|| по хе£а достигается на векторе
§ 4. ГРАДИЕНТНЫЙ МЕТОД 29 хп = х* +'ynln, In — собственный вектор, отвечающий наиболь- шему собственному значению кп, уп — (26/Л.„)/2 (рис. 4). Таким образом, отношение ц (6) == I] лд — ** ||2/|| хп “ х* If = Vi/Y^ = фактически не зависит от 6 и Заметим, что отношение наибольшего к наименьшему собствен- ному значению называется в линейной алгебре числом обуслов- ленности матрицы. Для случая неквад- ратичной функции обу- словленность задачи ее минимизации рав- на числу обусловлен- ности гессиана в точ- ке минимума. Именно, если х*— невырожден- Рис. 4. Обусловленность квадратичной функ- ции. ная точка минимума, то L [Л z , (7) где L — наибольшее, а I — наименьшее собственное значение матрицы V2f(x*). Мы увидим в дальнейшем, что в практических приложениях часто возникают неустойчивые или плохо обусловленные задачи оптимизации. Обсуждение методов их решения будет дано в § 1 гл. 6. Упражнения. 3. Покажите, что точка минимума строго выпуклой непрерывной функции глобально устойчива. 4. Проверьте, что в условиях упражнения 2 множество точек минимума слабо устойчиво. 5. Докажите, что если /(х) непрерывна и = {х-. f(x) а} непусто и ограничено для некоторого а > inf f(x), то множество точек минимума f(x) слабо устойчиво. 6. Покажите, что обусловленность задачи не меняется при монотонных преобразованиях функции и ортогональных преобразованиях переменных, т. е. обусловленность f(x) и f (х) = одинакова, если <р: R’ -> R1 моно- тонно возрастающая непрерывная функция, a U — ортогональная матрица. 7. Убедитесь, что для функции f (х) = Х[ -{- х? в R обусловленность точки минимума равна бесконечности. 8. Докажите, что для дифференцируемой функции f(x) не может выпол- няться неравенство f(x) — а||х~ х*||. сг'> О § 4. Градиентный метод 1. Эвристические соображения. Мы переходим к анализу наи- олее важных в идейном отношении методов безусловной ми- нимизации градиентного и Ньютона. Эти методы, редко
30 ГЛ. 1 ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ применяемые на практике в «чистом виде», служат моделью для построения более реалистических алгоритмов. На примере дан- ных методов будет подробно разобран вопрос о сходимости — будут даны различные доказательства сходимости, описана общая техника построения доказательств, обсуждены соотно- шения между теоретическими результатами о сходимости и практическим использованием методов. Предположим, что в любой точке х можно вычислить гра- диент функции Vf(x). В такой ситуации наиболее простым ме- тодом минимизации f(x) является градиентный, в котором, на- чиная с некоторого начального приближения х°, строится ите- рационная последовательность xfe+‘ = xk — ykVf(xk), (1) где параметр у* 0 задает длину шага. К методу (1) можно прийти из разных соображений. Во-первых, при доказательстве необходимых условий экстре- мума (теорема 1 § 2) мы использовали то обстоятельство, что если в точке х условие экстремума не выполняется (Vf(x)=H= 0), то значение функции можно уменьшить, перейдя к точке х — xVf(x) при достаточно малом т > 0. Итеративно применяя этот прием, приходим к методу (1). Во-вторых, в точке хк дифференцируемая функция f(x) при- ближается линейной fk(x) — f(xk) + (Vf(xfe), x — xk) с точно- стью до членов порядка о(х — xk). Поэтому можно искать ми- нимум аппроксимации /Т(х) в окрестности хк. Например, можно задаться некоторым е* и решить вспомогательную задачу min fk (х). (2) || x-xk II < ей Ее решение естественно принять за новое приближение xft+‘. Можно остаться в окрестности хк и иначе, добавив к fk(x) «штраф» за отклонение от хк. Например, можно решить вспомо- гательную задачу min [fk(x) + afe||x — xft ||2] (3) и ее решение взять в качестве xft+1. Читателю предоставляется убедиться в том, что решение задач (2), (3) задается форму- лой (1). В-третьих, можно в точке хк выбрать направление локаль- ного наискорейшего спуска, т. е. то направление yk, ||yfe|| = 1, для которого достигается минимум f(xA; у). Используя фор- мулу (6) из § 1 для производной по направлению, получаем / = argrnin (V/ (Xй), у) = — Vf (xfe)/|| Vf (xfe) ||. (4) nii=i Таким образом, направление наискорейшего спуска проти- воположно направлению градиента.
§ 4. ГРАДИЕНТНЫЙ МЕТОД 31 Мы привели здесь столь подробно эти соображения, по- скольку они же будут использоваться при построении методов оптимизации в более сложных ситуациях (например, при нали- чии ограничений). Однако в этих ситуациях они могут привести к различным методам. 2. Сходимость. Рассмотрим простейший вариант градиентно- го метода, в котором yk s у: xk+i = xk — yvf(xk'). (5) Нас будет интересовать поведение этого метода при различных предположениях относительно f(x) и у. Теорема 1. Пусть f(x) дифференцируема на R", градиент f(x) удовлетворяет условию Липшица-. || xjf (х) - Vf (</) II < L || х - у ||, (6) f(x) ограничена снизу: f (х) > f > — оо (7) и у удовлетворяет условию О < у < ЦЬ. (8) Тогда в методе (5) градиент стремится к 0: lim V/ (xft) = 0, fe->oo а функция f(x) монотонно убывает: f (х^1) f (х^). Доказательство. Подставим в формулу (8) § 1 х = xk, У——y^fix11) и воспользуемся (6): f (xft+1) = f (xk) — у II Vf (xk) II2 — V (Vf (xk ” M’Vf (xk)) — - Vf (xk), (xfe)) dx < f (x*) — Y II Vf (xft) ||2 + + Ay2 II Vf (xfe) ||2 J т dx = f (xfe) - у (1 - | Ay) II Vf (xfe) ||2. 0 Суммируя неравенства f(xfe+1)<f(x^)— a||vf (xfe) If2, а = у(1-Ау/2) (9) no k от 0 до s, получаем f(xs+1)<Hxn)-af || Vf (xfe)||2. fe=0
32 ГЛ. 1. ТЕОРИЯ И .МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Поскольку а>0 в силу (8), то I II Vf (хй) ||2 Д а-> (f (,Д) - f (V+1)) <a"1 (f ('Л ~ П k- Н) при всех s, т. е. Е II Vf (х':) j)2 < сю. Отсюда || V/ (хк) || -> 0. ▲ k=- о Покажем, что все условия этой теоремы существенны. Нару- шения условия (6) могут быть двух типов. Во-первых, функция f(x) может быть недостаточно гладкой в какой-либо точке. Пусть, например, )(х) = ||х||!+“, 0<а<1. Эта функция диф- ференцируема, но ее градиент не удовлетворяет условию Лип- шица, так как l|V/r(x) — Vf(O)||/j|x—0|| = (ос -f- 1) ЦхЦ01-1 —оо при ||х|| -> 0. В этом случае будет у||V/(xft) || > ||xft — х*|| = ||х*|| при малых ||х&||, т. е. шаг в методе (5) получается большим и моно тонкость убывания f(x) нарушается. Во-вторых, (6) не выпол- няется для функций, растущих быстрее квадратичной. Пусть, например, Дх) = ||х||2+а, ос > 0, тогда ||V/(x) — Vf(O) ||/||х — 0|| = = (2 -4- ос) ||х||а—> оо при |1х|| -->оо. При этом для всякого у>0 можно указать такое х°, что метод (5), примененный к функции ||х||2+«, а > 0, с начальным приближением х°, расходится, по- скольку будет ||х&+!|| > ||х&||, k = 0, 1, ... Если не выполнено условие (7), то функция f(x) не дости- гает минимума и градиент в методе (5) не обязан стремиться к 0 (например, если Дх) линейна: f(x) = (c, х), то ||Vf(x)||s= = 1И1> 0). Наконец, выбирать у, нарушая условие (8), вообще говоря, также нельзя, что видно на примере функции Дх) = Lx2/2, х е R1. Действительно, если у ^з 2/L, то в методе (5) для этой функции будет Дх/с+!) Дз f (xft), k = 0, 1, ..., при лю- бом х°. С другой стороны, при сделанных в теореме 1 предположе- ниях нельзя доказать ничего большего, например, сходимость последовательности xk. Примером может служить Дх) = 1/(1 4- 4-||х||2). Эта функция удовлетгюряет условиям теоремы и при любом х° 0 будет ||хй||—>-оо. Если потребовать, чтобы множество {х: Дх)^Дх0)} быль ограничено, то из xft можно выбрать подпоследовательность, сходящуюся к некоторой стационарной точке х*. Однако точка х* не обязана быть точкой локального или глобального мини- мума. В частности, градиентный метод (5) (или даже (1) с про- извольным выбором у.Д, начатый из некоторой стационарной точки х°, останется в этой точке: хк — х° для всех /г. Иными словами, градиентный метод «застревает» в любой стационар- ной точке — точке максимума, минимума или седловой. Что же касается поиска глобального минимума, то градиентный метод «не отличает» точед локального минимума от глобального и
§ 4. ГРАДИЕНТНЫЙ метод 83 никакой гарантии сходимости к глобальному минимуму он не дает. Наконец, в условиях теоремы 1 скорость сходимости Vf(xk) к 0 может быть очень медленной. Например, для f(x) = 1/х при х^ 1 (вид f(x) при х< 1 безразличен) метод (5) при у = 1, х° = 1 принимает вид хк^ = xk (xft)-2, при этом можно показать (используя лемму 6 § 2 гл. 2), что |Г(?)|=0(Н/з). Рассмотрим поведение градиентного метода для более уз- кого класса• функций— сильно выпуклых. Естественно, здесь удается доказать более сильные результаты, чем в теореме 1 — именно, сходимость итераций хк к точке глобального минимума со скоростью геометрической прогрессии. Нам понадобится несколько неравенств, относящихся к диф- ференцируемым, выпуклым и сильно выпуклым функциям. Лемма 1. Пусть f(x) дифференцируема, \ф(х) удовлетво- ряет условию Липшица с константой hu f(x)^ f* для всех х. Тогда || Vf (х) ||2 2L (f (х) —- Г). (Ю) Доказательство. Сделаем из точки х шаг градиентного метода с у = 1/L. Тогда (см. (9)) f‘ < f (х - L-’vf (х)) < f (х) - (2L)-‘ || Vf (х) ||2. А Лемма 2. Пусть f(x) выпукла и дифференцируема, a Vf(x) удовлетворяет условию Липшица с константой L. Тогда W(х) - Vf (у), x-y)^L-l\\^f (х) - Vf (У) II2. (Н) Доказательство. Докажем (11) лишь для дважды диф- ференцируемых функций. Тогда (см. (13) § 1) 1 Vf (У) = Vf (х) + J V2f (х -ф т (у - х)) (у - х) dx = Vf (х) 4- А (у - х), о 1 где матрица А — (х + т {у -- х)) dr симметрична и неотри- о цательно определена в силу (32) § 1, т. е. Л^О. Кроме того, ||Л|| L, так как ||V2f(x)|| L для всех х в силу условия Лип- шица на градиент. Поэтому (Vf (х) — Vf (у), х — у) — ' = (Д (х - у), х - //)>|| А |Г' || А (х - z/)|f^ || Vf (х) - vf М-
34 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Лемма 3. Пусть f(x) — дифференцируемая сильно выпук- лая (с константой I) функция, х* — ее точка минимума (она существует, см. упр. 1 § 3). Тогда ||Vf(x)||2>2Z(f(x)-f(x*)). А Теорема 2. Пусть Цх) дифференцируема на Rn, ее гра- диент удовлетворяет условию Липшица с константой L и f(x) является сильно выпуклой функцией с константой I. Тогда при О < у < 2/L метод (5) сходится к единственной точке глобаль- ного минимума х* со скоростью геометрической прогрессии: || х* - х* || < с?, 0<<7<1. (12) Доказательство. Выполнены все условия теоремы 1, по- этому справедливо неравенство (9): f (х*+>) < f (х*) - у (1 - Ly/2) !J Vf (xft) ||2. Используем лемму 3: f (х*+>) < f (Д) - ly (2 - Ly) (f (?) ~ f (/)). f (xk+ Ч-f (x*) < (1 - ly (2 - Ly)) (f (x*) - f (x*)) = q{ (f (xk) - f (x*)), f (?) ~ f (?) < q\ (f (?) - f (?)), 91 = 1 - 2Zy 4- LZy2. Поскольку 0 < у < 2/L, то 0 < qx < 1, и следовательно, f(xk)-+ -+f(x*). Из неравенства (35) § 1 следует ||x^~?||2<(2/Z)^(f(?)-f(?)). A Рассмотрим еще более узкий класс функций — сильно вы- пуклых дважды дифференцируемых. Теорема 3. Пусть f(x) дважды дифференцируема и H^f(x)^LI, Z > О, (13) для всех х. Тогда при 0 < у < 2/L ||х'-х*1К||х°~- ?||?, <? = max {11 — yZ |, | 1 — уТ |) < 1. (14) Величина q минимальна и равна <7* = (LZ)/(L 4-Z) при y = y* = 2/(L4-Z). (15) Доказательство. По формуле (13) § 1 1 Vf (?) = Vf (х*) 4- J V2/ (х* 4- т (xk - х*)) (xk - х’) dx = Ah (xk - x‘), oJ
§ 4, ГРАДИЕНТНЫЙ МЕТОД 33 где в силу (13) lI<Ak^LI. Поэтому II ^+> - х* || = II xk - X* - Wf Ю II = = II (Z -yAk) (xft - x*) ||< || I - yAk || || xk - x* II. Для всякой симметричной матрицы А имеем || / — Л || = = шах {11 — Ат I, I 1 — I }> гДе и — наименьшее и наи- большее собственные значения А. Поэтому ||xfe+1 —х*||< < q || х-1 — х* ||, q = max {11 — yZ |, | 1 — yL |}. Поскольку 0 < у < < 2/L, 0 < Z <L, то | 1 — у/1 < 1, | 1 — yL | < 1, т. е. q < 1. Ми- нимизируя q по у, получаем (15). ▲ Покажем, что оценка скорости сходимости, даваемая теоре- мой 3, точная, она достигается для любой квадратичной функ- ции. Пусть f (х) = (Ах, х)/2 — (Ь, х), А > О, О <Z I — М дД %2 • • .jT = L, где Хг — собственные числа матрицы А. Возьмем произвольное 0 < у < 2/L. Предположим, что |1—у/|>|1 — — yL|. Выберем х° = х* е1, где е1 — собственный вектор, от- вечающий Xi, 11641 = 1. Тогда х* —-х* — (Z —уЛ)*(х° —х*) = = (1 — уМ)М, IK— х*|| = | (1 — yZ) Р = 7&||х° — х*||. Анало- гичным образом, если |1—yL | Дд 11—yZ|, то выберем х° — == х* еп, еп — собственный вектор, отвечающий Ln, ||ел||= 1, и получим также |lxft — х*|| = | (1 — yL) |k = gj|x° — х*||. Таким образом, для всякого 0 < у < 2/L найдется х° такое, что ||х* — — х*|| — <?41х° — х*||, <7 = max{| 1 —yZ|, | 1 —yL|}. Оценку ||х*— х*|| дД(о*)ЯЛ— х*||, q*—(L—Z)/(L Z) нель- зя улучшить, даже если выбирать у оптимальным образом для каждого х°. Действительно, возьмем х° = х* -|- е1 еп (обозна- чения те же, что и выше). Тогда при любом 0 < у < 2/L хк - х' = (1- уД)к (хо _ (j _ Y/)fe ei _|_ (! _ yL)k || х* - х* || =4(1 - ylf 4- (1 - yL)2T1| х° - х* ||/V2. Поэтому, если либо |1—yl\^> q*, либо |1—yL|> q*, то IK— х*|| убывает медленнее, чем (q*)k. Но q — max {11—yZ|, |1—yL|} еД q* лишь при у = у*, при этом |1—у*1\ --~ = |1 — y*L\ — q* и ||х*— х*|| = (^*)*||х° — х*||. Аналогичное рас- суждение справедливо для любой точки х° такой, что (х° —х*, е’)^0, (х° —х% en)^Q. ф Локальный аналог теоремы 3 справедлив и для невыпуклых Теорема 4. Пусть х* — невырожденная точка локального минимума f(x). Тогда при 0 < у < 2/||V2f (х*) || метод (5) ло- кально сходится к х* со скоростью геометрической прогрессии, т.е. ля всякого 6 > 0 найдется е > 0 такое, что при ||х°—х*|К Дае будет II**-ЛК1|х°-х*||(<7 4-6)\ ?==тах{|1 — у/|, | 1 — Y£|j < о < ZZ <V2f Ю <TZ.
36 ГЛ. I. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ Величина q минимальна и равна q* = (L — /)/(£ + /) при у* -2/(1 + /). А Другие теоремы о сходимости градиентных методов при не- сколько иных предположениях будут приведены в следующих главах. Упражнения. 1. Подробно разберите поведение градиентного метода (5) для следующих функций на R1: а) |х|'+ а, 0 < а < 1; б) |х|2+ч, а > 0; в) х2; г) (1 + х2)~’. При каких х° и у метод сходится, при каких расходится? Ответы, а) Схо- димости нет при любом у > 0 и х° 0, при этом | хк | -> [*/2 (1 + а) у]1 ~а', а знаки х'1 и х,<41 чередуются при k k0. б) Метод сходится, если у(2 + а)|х°|“ <2, н расходится в противоположном случае, причем |х*| s jxOj при у(2 а) |х°|“ = 2 и |х4|-^оо при у(2 + а) |х°| а > 2. в) МетоД Сходится при 0 < у < 2 и расходится при у 2 и любом х° =^= 0, при этом |х4| ав |х°|, если у = 2 и |х4|->оо при у > 2. г) |х*|->оо при любом х° + 0. 00 2. Используя неравенство IIV/ (х*) ||2 < <х>, полученное при доказа- ло тельстве теоремы 1, покажите, что в ее условиях (х4)||2 — 0. &->оо § 5. Метод Ньютона 1. Эвристические соображения. В градиентном методе осно- вой является идея локальной линейной аппроксимации миними- зируемой функции f(x). Если же функция дважды дифферен- цируема, то естественно попытаться использовать ее квадра- тичную аппроксимацию в точке хк, т. е. функцию fk U) - f (хк) + (Vf (хк), х - хк) + (V2f (хк) (х - хк), х - хк)/2. (1) В градиентном методе следующее приближение xfe+1 искалось из условия минимума линейной аппроксимации при дополни- тельных ограничениях на близость к хк (так как линейная функ- ция не достигает минимума на всем пространстве) — см. (2), (3) и (4) в § 4. Для квадратичной аппроксимации можно по- пытаться не накладывать таких ограничений, так как при У2/(+)>-0 функция Д(х) достигает безусловного минимума. Выберем точку минимума Д(х) в качестве нового приближения: ++> ~ argmin ЬДх). х <& Rn Таким образом, мы получаем метод ++1 ===.+ -• [V2f(^)]-!Vf(xft). (2) К этому методу можно прийти и из несколько иных соображе- ний. Точка минимума должна быть решением системы п урав- нений с п переменными Vf(x) — O. (3)
§ 5. МЕТОД НЬЮТОНА 87 Одним из основных методов решения таких систем является метод Ньютона, заключающийся в линеаризации уравнений в точке хк и решении линеаризованной системы (см. ниже п. 3). Эта линеаризованная система в данном случае имеет вид Vf(xfe) + V2f(xfe)(x-xft) = O (4) и ее решение xft+1 дается формулой (2). 2. Сходимость. Теорема 1. Пусть f(x) дважды дифференцируема, V2f(x) удовлетворяет условию Липшица с константой L, f(x) сильно выпукла с константой I и начальное приближение удовлетво- ряет условию <7 = (Л/“72) |] V/(х°) || < 1. (5) Тогда метод (2) сходится к точке глобального минимума х* с квадратичной скоростью: ||xfe-x*||<(2//L)/. (6) Доказательство. Из условий Липшица на V2f(x) сле- дует (см. (15) § 1) II Vf (х + у) - Vf (%) - V2f (%) у II < (L/2) || у II2. Возьмем здесь x~xk, у--—[V2f(xz')]-1Vf(x*), тогда х-\-у = — xk+' и || Vf (х^1) II <(L/2) || [V2f (xfc)] -1 Vf (xfe) ||2 < (L/2) || [V2f (x*)J ’' ||21| Vf (x*) II2. Но поскольку V2f(x*)^/Z (условие сильной выпуклости, см. (33) §1), то [V2f(xfe)]~‘ < l-Ч и ||[V2f(x*)]-1||<Z-1, т. е. ||Vf (xfe+1) || щ: (LZ“2/2) ||Vf (xk) I,2. Итерируя это неравенство, по- лучаем II Vf (хй) i| < А (А1| vf (х°) ||)? = -А Применение (37) § 1 завершает доказательство. А Покажем, что все условия теоремы существенны, а усилить ее утверждение, вообще говоря, нельзя. Ясно, что существова- ние второй производной требуется в самой формулировке ме- Тг0^?! 3 условие сильной выпуклости гарантирует существование jV f(x )]-!. Меньшие требования к гладкости (отказ от условия Липшица на V2f(x)) могут привести к уменьшению скорости сходимости метода. Пусть, например, f(x) — |х|5/2, хе/?1. Тогда при х>0 f'(x) == (5/2)х3/2, f"(x) = (15/4)х1/2 и f"(х) не удов- летворяет условию Липшица. Метод принимает вид (при х°>0) Lfl щЛ “(4/15)(x^)-1/2.(5/2)(x^)3/2 L(i/3)^, Т1 е. хь = (уЗ) х и метод сходится к х* = 0 со скоростью геометриче- ской прогрессии (а не с квадратичной скоростью). Наконец,
$ 6. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 89 летвоояет условию Липшица в этой окрестности. Пусть матрица невырождена. Тогда найдется е > 0 такое, что при fxo_x*||^e метод (8) сходится к х* с квадратичной ско- ростью. „ г, Очевидно, что теорема 2 есть частный случаи теоремы 3 при p-(x) = Vf(x); доказательство остается прежним. А Подчеркнем, что для сходимости (8) не нужно ни симметрич- ности, ни положительной определенности g'(x). В частности, метод Ньютона годится для отыскания стационарных точек функции f(x), отличных от точек минимума. § 6. Роль теорем сходимости 1. Две крайние точки зрения. Возьмем какую-нибудь книгу по методам оптимизации, написанную «математиком для мате- матиков» (типичным примером может служить монография Сеа [0.17]). Основную ее часть составляют теоремы о сходимости методов и их доказательства. Их формулировки максимально общи и абстрактны, используется аппарат современного функ- ционального анализа. Критерии оценки результатов те же, что и в «чистой» математике — глубина, красота и простота утверж- дений и доказательств. Комментарии и примеры- почти отсут- ствуют; сравнительный анализ методов не производится; важ- ность или эффективность методов не обсуждается; численных примеров нет. Читателю, который, интересуется использованием методов, приходится самому догадываться о связи математи- ческих результатов с практикой вычислений, и зачастую такур связь установить не просто. При этом нередко (особенно в жур« нальной литературе) такому же формальному исследованию подвергаются методы малоинтересные, а иногда и заведомо неэффективные. Это дало повод для появления остроумной ijgr родии на «наукообразные» работы по методам оптимизации, написанной Вульфом [1.11]. Увы, эта пародия не исправила положения (более того, многие читатели восприняли статью всерьез, не поняв ее нарочитой нелепости). Такая ситуация породила другой крайний взгляд, по су- ществу отвергающий роль теории в разработке и изучении ме- тодов оптимизации. Его сторонники считают, что при создании метода достаточно эвристических соображений. Строгое доказа- тельство сходимости излишне, так как условия теорем трудно- проверяемы в конкретных задачах, сам факт сходимости мало что дает, а оценки скорости сходимости неточны и неэффек- тивны. Кроме того, при реализации метода возникает масса обстоятельств, строгий учет которых невозможен (ошибки округления, приближенное решение различных вспомогатель- ных задач и т. д.) и которые могут сильно повлиять на ход про-
38 ГЛ. I. ТЕОРИЯ и МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ нельзя утверждать сходимость метода при любом начальном приближении (не удовлетворяющем условию (5)). Пусть за- дача заключается в минимизации одномерной функции, произ- водная которой изображена на рис. 5. Эта функция дважды дифференцируема, сильно выпукла (так Kai£ f"(x) 1/2 > 0 для всех х), f"(x) удовлетворяет Однако если начать итерационный Рис. 5. Расходимость метода Ньютона. (так как f" (х) условию Липшица, х* — 0. процесс из любой точки х° с |х°|>1, то метод не сходится: |х* | ss= 1 для всех k 1. Условия теоремы 1 можно несколько осла- бить лишь в одном на- правлении — можно гло- бальные требования на f(x) заменить на локаль- ные. Теорема 2. Пусть f(x) дважды дифферен- цируема в окрестности U точки невырожденного минимума х*, и V2f(x) удовлетворяет условию Липшица на U. Тогда х*|| 8 метод (2) сходится задач минимизации, но и для реше- найдется е > 0 такое, что при ||х° к х* с квадратичной скоростью. А Для квадратичной функции f(x) = (Ах, х)/2 — (Ь, х) с Л > 0 метод Ньютона сходится за 1 шаг, т. е. х1 = х* при любом х°. Это очевидно, так как аппроксимирующая функция f0(x) сов- падает с f(x). Чем ближе f(x) к квадратичной, тем быстрее сходится метод Ньютона. Формально — чем меньше L, тем в соответствии с теоремой больше область сходимости, опреде- ляемая (5), и тем быстрее скорость сходимости, определяемая величиной q. 3. Метод Ньютона для уравнений. Метод Ньютона может применяться не только для ния произвольных нелинейных уравнений g(x) = 0, g-. R"->R\ (7) Ок основан на той же идее линейной аппроксимации — на k-n итерации решается линеаризованное уравнение g (Хк) + g' (Xk) (х — xk) = О, откуда xft+1 = xft — g'(xk\'1 g (xk). (8) Теорема 3. Пусть уравнение (7) имеет решение х*, функ- ция g: R” дифференцируема в окрестности х* и g' (х) удов-
40 ГЛ. 1. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ цесса. Поэтому единственным критерием оценки метода яв- ляется практика его применения. Не будем обсуждать эти точки зрения на абстрактном уровне, так как это потребовало бы решения общих проблем о предмете и стиле вычислительной математики. Вместо этого попытаемся на примере приведенных выше результатов о сходимости двух методов безусловной минимизации выяснить, в какой мере мо- гут быть полезны теоремы о сходимости и почему они требуют к себе достаточно осторожного отношения. 2. Зачем нужны теоремы о сходимости? Ответ на этот «на- ивный» вопрос не так прост. Конечно, для математика, зани- мающегося теоретическим обоснованием методов, теоремы пред- ставляют самостоятельный интерес с точки зрения используемой в них техники, полноты исследования методов и т. д. Однако чем могут быть полезны такие теоремы человеку, собирающе- муся решать практическую задачу? Прежде всего, условия теорем выделяют класс задач, для которых можно рассчитывать на применимость метода. Эта ин- формация нередко носит отрицательный характер — если усло- вия теоремы не выполняются, то метод может (но разумеется не обязан) оказаться неработоспособным. Так, наименее жест- кие предположения, при которых можно обосновать сходимость градиентного метода в форме (5) § 4, заключаются в достаточ- ной гладкости минимизируемой функции (теорема 1 § 4). При обсуждении теоремы мы видели, что нарушение этих предполо- жений действительно может привести к расходимости процесса. Аналогичным образом более сильные условия гладкости функ- ции для применимости метода Ньютона (теорема 1 § 5), как мы видели из примеров, также существенны. Удобно, когда подобные требования носят качественный характер (гладкость, выпуклость и т. п.) — это позволяет их проверять даже в слож- ных задачах. Важно также, чтобы требования в теоремах не были завышенными. Например, если судить по теореме 3 § 4, то для применимости градиентного метода нужно существова- ние второй производной. Однако в действительности это требо- вание излишне (см. теорему 1 § 4); оно нужно лишь для полу- чения оценок скорости сходимости. Поэтому полезно иметь не- сколько теорем, в которых даются утверждения об одном методе при различных предположениях (таковы теоремы 1—4 § 4 для градиентного метода). Теоремы о сходимости дают также важную информацию о качественном поведении метода: сходится ли он для любого начального приближения или только для достаточно хорошего, в каком смысле сходится (по функции, по аргументу или в пре- деле удовлетворяется условие экстремума и т. д.). Так, теоре- ма 1 § 4 гарантирует применимость градиентного метода из любой начальной точки, в то же время утверждается-лишь, что
§ 6. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 41 (а сходимость по функции или аргументу может от- сутствовать, что подтверждают рассмотренные там же приме- ры). В теореме 1 § 5 наоборот обосновывается сходимость ме- тода Ньютона (по аргументу к глобальному минимуму) лишь для хорошего начального приближения, и как мы видели выше, это требование является существенным. Поэтому при практи- ческом использовании метода Ньютона нужно иметь хорошее начальное приближение, в противном случае возможна расхо- димость метода. Полезная информация нередко содержится и в самом дока- зательстве теорем о сходимости. Чаще всего они построены на той идее, что некоторая скалярная величина монотонно убы- вает в процессе итераций (подробно этот вопрос будет обсуж- даться в гл. 2). В теоремах 1, 2 § 4 такой величиной является сама минимизируемая функция, в теоремах 3, 4 § 4 — расстоя- ние до точки минимума, в теореме 1 § 5 — норма градиента. Часто эта величина доступна (f(x), IIV/(х)||) и по ее фактиче- скому поведению в процессе вычислений можно судить о схо- димости или расходимости метода — при нормальном течении процесса она должна убывать. Если же доказательство осно« вано, например, на монотонном убывании ||х*— х*||, то нера- зумно требовать монотонного убывания f(x) на каждом шаге. Особенно важные сведения о методе дает оценка скорости сходимости. Эти сведения могут быть как положительного, так и отрицательного характера. Например, оценка скорости схо- димости метода Ньютона, содержащаяся в теореме 1 § 5, пока- зывает, что метод сходится чрезвычайно быстро. Действительно, если начальное приближение достаточно близко к решению (?< 1), то в соответствии с (6) § 5 ||хк — х* ||'Д 2q2k (так как l^L). Поэтому для q — 0,5 будет || хк — х* || гД 2~2 +1 ’ так что Их5 — х*|| < 10~9, а для <7 = 0,1 имеем ||х* — х*|| :Д 2-так что ||х4 — х*|| < 10~16. Иными словами, если метод Ньютона применим, то обычно требуется не более 4—5 итераций для получения решения с очень высокой точностью. С другой сто- роны, градиентный метод при оптимальном выборе у в соот- ветствии с теоремой 3 § 4 сходится со скоростью геометриче- ской прогрессии со знаменателем q — (L — /)/(/.-}-/), причем мы видели, что эта оценка является точной для случая квадра- тичной функции. Для больших чисел обусловленности ц = L/1 знаменатель прогрессии q « 1 — 2/ц. близок к 1. Как мы уви- дим в дальнейшем, нередко для самых простых задач средне- квадратического приближения полиномами величина ц дости- гает значений 108 и выше. Ясно, что при ц= 108 нужно сделать порядка 2-Ю8 итераций, чтобы уменьшить ||х° — х*|| в е раз. Иными словами, градиентный метод в такой ситуации нерабо- тоспособен. Этот отрицательный результат о поведении гр а-
§ б. РОЛЬ ТЕОРЕМ СХОДИМОСТИ 43 входящие в них параметры неизвестны, оценки носят асимпто- тический характер и т. п. Такие обвинения во многом обосно- ваны. Нередко теоремы о сходимости чрезвычайно громоздки, и проверить их для какой-либо реальной задачи невозможно. Еще хуже, когда формулировки носят апостериорный характер («...пусть в процессе итераций выполняется такое-то соотноше- ние...») Почему бы тогда просто не предположить, что Однако не всегда ситуация столь мрачная. Как видно из теорем §§ 4 и 5, предположения в них просты и носят общий характер (требуются гладкость, выпуклость, сильная выпуклость, невы- рожденность и тому подобные естественные и часто легко про- веряемые условия). Константы L, I и q, входящие в формули- ровки теорем, обычно действительно неизвестны, поэтому кон- структивный выбор у в градиентном методе или явные оценки скорости сходимости невозможны. Однако существуют более сложные способы выбора в градиентном методе (гл. 3), для которых теоремы § 4 служат основой. Что же касается скоро- сти сходимости, то хотя ее количественная оценка не всегда доступна, ее качественный характер не вызывает сомнений. На- конец, оценки скорости сходимости совсем не обязательно носят асимптотический характер — так, в теоремах 2, 3 § 4 и тео- реме 1 § 5 они верны для всех конечных k. Еще один упрек теоремам о сходимости заключается в том, что они-рассматривают идеализированную ситуацию, отвлекаясь от наличия помех, ошибок округления, невозможности точного решения вспомогательных задач и т. п., а все эти факторы сильно влияют на поведение метода в реальных условиях. Дей- ствительно, в приведенных выше теоремах предполагалось, что градиент вычисляется точно, что обращение матрицы в методе Ньютона делается без погрешностей и т. д. В гл. 4 мы рассмо- трим те же методы при наличии разного рода помех. Оказы- вается, их влияние заметно сказывается на эффективности ме- тодов. Поэтому оценки качества методов нужно делать с учетом более общих теорем о сходимости, рассчитанных на наличие помех. Подводя итог, можно сказать, что теоретические исследова- ния методов оптимизации могут дать много информации вы- числителю-практику. Нужно лишь при этом проявлять разум- ную осторожность и здравый смысл.
42 ГЛ. I. ТЕОРИЯ И МЕТОДЫ БЕЗУСЛОВНОЙ МИНИМИЗАЦИИ диентного метода удается получить чисто теоретически, не при- бегая ни к каким численным экспериментам. Применительно к другим задачам минимизации он дает основания для насторо- женного отношения к градиентному методу — вряд ли -можно рассчитывать на этот метод как эффективное средство решения сложных задач. Теоретическая оценка скорости сходимости показывает так- же, от каких факторов зависит поведение метода. Так, для гра- диентного метода «трудны» задачи плохо обусловленные, а выбор начального приближения не влияет на скорость сходи- мости, тогда как для метода Ньютона скорость определяется качеством начального приближения и близостью функции к ква- дратической, но не обусловленностью задачи. Для метода со- пряженных градиентов, как мы увидим в дальнейшем, основ- ную роль играет размерность задачи, тогда как в полученных выше оценках для методов градиентного и Ньютона размер- ность явно не входит. На основе этих соображений можно де- лать ориентировочные выводы о целесообразности применения различных методов в той или иной конкретной ситуации. Наконец, при достаточно полной информации о задаче можно с помощью результатов о скорости сходимости заранее выбрать (или оценить) требуемое число итераций для дости- жения необходимой точности. Так, если мы находимся в усло- виях теоремы 3 § 4 и известны оценки для I, L и ||х° — х*||, то можно указать число шагов k, гарантирующее точность (|х* — сС 8 в градиентном методе с оптимальным у~ ^2/(L + l): 3. Необходима осторожность. Прислушаемся к другой точке зрения, критикующей теоретическое исследование методов как излишнюю, а иногда и вредную роскошь. Сторонники этой точки зрения указывают, что сам факт схо- димости метода ровно ничего не говорит об эффективности Последнего. Безусловно, это так. Ошибочно считать, что данный Метод можно применять на практике, если его сходимость до- казана — ведь скорость сходимости может быть безнадежно медленной. Однако мы уже отмечали, что теоремы сходимости (даже не содержащие оценок скорости сходимости) дают важ- ную информацию об области применимости метода, его каче- ственном поведении и т. п. Разумеется, вся эта информация недостаточна для окончательных выводов о целесообразности и возможности применения метода для решения конкретной задачи. Далее, результаты, о сходимости часто критикуют за некон- структивный характер. Их предположения трудно проверить,
Глава 2 ОБЩИЕ СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Результаты о сходимости и скорости сходимости алгоритмов минимизации в гл. 1 были получены непосредственно, без при- влечения каких-либо общих теорем. Такой подход был есте- ствен, поскольку доказательства очень просты. Однако по мере усложнения задач и методов их обоснование становится более громоздким и трудоемким. Внимательный анализ применяемых доказательств показывает, что лежащие в их основе идеи про- сты и единообразны. Разумно выделить эти идеи «в явном виде», получить с их помощью ряд общих результатов о сходи- мости, а затем систематически использовать их при обоснова- нии конкретных алгоритмов. Такого рода общие результаты и приводятся в данной главе. § 1. Первый метод Ляпунова Идея этого подхода заключается в линеаризации итератив- ной процедуры, после чего вывод о сходимости удается сделать на основе анализа линеаризованного процесса. Предварительно приведем необходимые сведения из линейной алгебры. 1. Сведения из линейной алгебры. Пусть А — квадратная матрица «Хщ Xi, ..., — ее собственные значения. Спек- тральным радиусом А называется число р(Л) = max (1) Другой важной характеристикой матрицы (не обязательно ква- дратной) является ее норма || А || = max || Ах ||. (2) IIX 11=1 Используя тот фцкт, что у симметричной матрицы все собст- венные значения вещественны и существует полная ортогональ- ная система собственных векторов, нетрудно доказать, что для симметричной матрицы р(Д) = ||Д||. Для несимметричной ма- трицы р(Д)^ ||Л|| и, вообще говоря, р(Л) =# [|Л||. Например, /О 1А для матрицы Л = 1 1 оба собственных значения равны 0, по-
§ 1. ПЕРВЫЙ МЕТОД ЛЯПУНОВА 45 этому р(Л) = 0, однако ||Л|| = 1. Важная связь между ||Л|! и р(Л) устанавливается равенством р(Л) = lim ||W/ft. (3) Из (3) вытекает следующий фундаментальный факт. Лемма 1. Чтобы lim Ak — Q, необходимо и достаточно выполнение условия р(Л) < 1, при этом для всякого е > 0 най- дется о = с(&) такое, что ||Л*|| < с(р(Л) + е)* для всех нату- ральных k. А Следствие. Для того чтобы итерационная последователь- ность векторов xk+1 — Axk сходилась к 0 при при любом х°, необходимо и достаточно выполнение условия р(Л)< 1. А Лемма 2. Пусть р(Л)< 1. Тогда матричное уравнение ATUA = U — C (4) имеет решение U, которое симметрично, если матрица С сим- метрична, uU'^C при С 0. Доказательство. Поскольку ||Л*|| cqk, q <. 1 (лем- оэ ма 1), тр ряд У, (Ar)kCAk сходится к некоторой матрице U. й = 0 Эта матрица симметрична при симметричной С, U 0 при С>0, ATUA = X (Ar)kCAk = U —С, U^C+ ArUA>C при ft=l С>0. А Назовем квадратную матрицу Л с собственными значениями М. Кп устойчивой (гурвицевой), если Re < 0, i — 1, ..., п. (5) Лемма 3. Для того чтобы lim eAt = 0, необходимо и до- i->oo статочно, чтобы А была устойчива. При этом для всякого е > 0 найдется с = с(е) такое, что |)еи!1=С c(s)e<v+E)< для всех t 0, №maxReX,. t Действительно, е г, поэтому р (В) = щах в' только тогда, когда у < собственными значениями В — еА являются = Поскольку еу <Z 1 тогда и ... , 0, то условие р(В)< 1 эквивалентно условию у < 0. Теперь остается воспользоваться леммой 1 (точ- нее, ее обобщением из упражнения 3). А Лемма 4 (Ляпунов). Пусть матрица А устойчива, а матри- ца С симметрична. Тогда уравнение AU + UAT^-C (6) имеет решение, причем U > 0 (£7^=0), если С>0 (С^О).
48 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Доказательство. В соответствии с леммой 3 матрица оо U = eAtCeATt dt определена. Матрица Z (t) = eAtCeATt является о решением дифференциального уравнения Z(f) = AZ ф ZAT, 00 оо Z(O)=C, т. е. (7=^ Z(t)dti поэтому AU + UAT — (AZ + о о со со ф ZAT) dt=\ Z(f)dt = -Z (0) = - С. Отсюда U = J eAtCeATt dt о о является искомым решением, и из этой же формулы следует, что и > 0 (В^О) при О О (С>0). А Связь между устойчивыми матрицами и матрицами с р(А)< < 1 устанавливается следующей леммой. Лемма 5. Пусть матрица А устойчива, В = 1 ф у А, 0 < у < < min (-- 2 Re ф-1 ф-1~2 *). Тогда р (В) < 1. t Действительно, если ф-— собственные значения А, щ — соб- ственные значения В, то цг = 1-фуЛг, |щ|2 = (1ф'уКе%г)24- ф у2(1т %,)2 = 1 ф 2у Re X/ф у2|Хг|2 < 1, т. е. р(В)<1. ▲ Упражнения. 1. Покажите, что если матрица А симметрична или имеет попарно раз- личные собственные значения, то в лемме 1 можно взять е == 0, с(е) = 1. 2. Приведите пример матрицы А с р(Д) Гэ 1 и некоторого х° 0, для которых Д4х°->0 при й->оо. 3. Покажите, что лемма 1 справедлива и для нецелых показателей, т. е. ||Д(|| С" с(е) (р(Д) + е)‘ для всех вещественных t Jr 0. 2. Теоремы о линейной сходимости. Мы будем часто употреб- лять термин линейная сходимость как синоним сходимости со скоростью геометрической прогрессии. Аналогично сверхлиней- ная сходимость означает сходимость более быструю, чем опре- деляемую любой геометрической прогрессией. Наконец, термин квадратичная сходимость используется для процессов, в кото- рых справедлива оценка вида uk+i^cuk, где uk— некоторая мера близости к решению на &-й итерации. Рассмотрим итерационный процесс вида xft+I = g(xft), (7) где g — некоторое отображение из R" в R". Точку х* будем на- зывать неподвижной точкой (7), если х* = g(x*). В этом случае при хк ~ х* будет Xs х* для всех s фг k. Теорема 1. Пусть х*— неподвижная точка (7), g(x) диф- ференцируема в х* и спектральный радиус матрицы Якоби
J !. ПЕРВЫЙ МЕТОД ЛЯПУНОВА 47 g'(x*) удовлетворяет условию р = p(g'(x*)) < 1. Тогда про- цесс (7) локально линейно сходится к х*, а именно, для всякого О < е <; 1 — р найдутся б > 0 и с такие, что для всех k О будет ||?-x*||<c(p + 8)fe (8) при Цх° — X* II < 6. Дадим краткую схему доказательства. Обозначим А = = тогДа в соответствии с определением производной g(x) = g(x*) + А (х— х*)4-о(х— х*). Поэтому процесс (7) мо- жет быть записан в виде zt+i — Azk + yk, zk = xk — x*, yk == o(zk). Отсюда fe z^-A^+^A^y1, i = 0 k l^1|kl|Aft+1llk°ll + SIItMIMI. 0) Из леммы 1 ||Xfe|| Cc(e)(p + fjfe, подставляя эту оценку в (9) и используя то! факт, что ||t/feH — о (zk), можно получить утверждение теоремы. ▲ Теорема 1 гарантирует локальную сходимость метода (7). В некоторых случаях можно утверждать и глобальную сходи- мость. Один из таких случаев очевиден — это случай линейной функции g(x). Приведем результат о глобальной сходимости и для нелинейных функций. При этом нам удобнее будет рас- сматривать итерационный процесс, заданный в виде xft+1 == xfe —у (Axft+$(xft)). (10) Теорема 2. Пусть матрица —А устойчива, а ср: Rre->Rre удовлетворяет условию I!<pU)IKL||x||. Тогда, если 2||С/|| ’ и Y (L + ||A||)2 - ПО где U — решение матричного уравнения UA + ATU = I, (12) То процесс (10) сходится к 0 со скоростью геометрической про- грессии при любом х°: ч = 1 - (7г) VIIV1Г1 + 4L + ('/,) ч2 (II ЛII + ц’.
48 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Для доказательства достаточно ввести Uk~(Uxk, Х&) и по- лучить соотношение и^\ qiik- А Полученные выше результаты можно применить для иссле- дования уравнения в конечных разностях Ук^ #2^-2 + ••• + апУк-п + ф(1//г-1, •••> Ук-пФ (14) где yt <= R1. Для этого введем векторы xk — (уь-\........#*-«)<= sR'1, xk+l=(yk, ..., Rn, тогда xk+i = Axk + + /i(xfe), где й] a2 ... an 1 0 ... 0 0 ...10 /г(х) = (15) Таким образом, итерационный процесс приведен к форме (7), Описанный прием типичен при исследовании многошаговых итеративных процессов, в которых каждое приближение зави- сит от нескольких предыдущих. Тогда увеличение размерности задачи позволяет свести ее к одношаговому процессу. Упражнение. 4. Докажите, что если все корни характеристического уравнения Л" = = арЛ~1 + ... + а.п по модулю меньше 1, то для матрицы А вида (15) будет р(Д) < 1. 3. Теорема о сверхлинейной сходимости. В случае, когда g'(x*) — 0, из теоремы 1 следует, что метод (7) сходится, быст- рее любой геометрической прогрессии. Этот результат можно уточнить. Теорема 3. Пусть х* — неподвижная точка (7), g(x) диф- ференцируема в S — {х: ||х — х*|| йД ||х°—х*||), g'(x) удовле- творяет в S условию Липшица и g'(x*) = 0. Тогда, если g — (L/2) ||х° — х* || < 1, то ||х^~х*||<(2Д)/. (16) (17) Доказательство. Очевидно, х° е S. В силу формулы (15) § 1 гл. l||x,-x*||-||g(x0)-g(x‘)-g'(x‘)(x0-r)||<(L/2)||x0- — х* II2 С У II х° — х* ||, поэтому ,t;lsS. Аналогичным образом xk s 5 для всех k. Поэтому мы имеем право пользоваться той же оценкой: || XW _ у = |[ g (Xk) _ g (x-*} _ g' (дЛ) (xk „ ЛЛ) || (£/2) || xk _ ||2> Отсюда следует требуемый результат. ▲
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 49 Упражнение. 5. Пусть х*— невырожденная точка минимума f(x), V2/ (х) удовлетворяет условию Липшица в окрестности х*. Тогда метод ^+'CT/-[V2/(x‘)]-1V/(xfe) (18) локально сходится к х* с квадратичной скоростью. Докажите этот результат с помощью теоремы 3. § 2. Второй метод Ляпунова Этот метод является наиболее распространенным при обо- сновании сходимости итерационных процессов. Его идея заклю- чается в том, что вводится некоторая скалярная неотрицатель- ная функция V(x) (функция Ляпунова) и рассматриваются ее значения на последовательных итерациях xk. Если они моно- тонно убывают и ограничены снизу, то V(xk)—Е(х*+1)->0. От- сюда при некоторых дополнительных предположениях следует сходимость метода. Если посмотреть с этой точки зрения на приведенные выше результаты о сходимости, то окажется, что большинство из них получено именно по такой схеме. Так, при обосновании гра- диентного метода в гл. 1 в качестве функции Ляпунова в теоре- мах 1, 2 § 4 выступала сама минимизируемая функция f(x)— f*. В теоремах 3, 4 § 4 такую роль играло расстояние до точки ми- нимума. При обосновании метода Ньютона (теорема 1 § 5) ис- пользовалось монотонное убывание нормы градиента (т. е. не- вязки в выполнении условия экстремума). Наконец, в теореме 2 § 1 данной главы в доказательстве была построена специаль- ная квадратичная функция Ляпунова. Эти же приемы выбора функции Ляпунова обычно применяются и для других, более сложных задач. 1. Леммы о числовых последовательностях. Для значений функции Ляпунова Uk=V(xk) на &-м шаге процесса обычно получается итерационное соотношение вида “fe+i<qp*(uft). (1) Отсюда делается вывод, что «^->0 и дается оценка скорости сходимости Uk. Поэтому важно исследовать поведение последо- вательностей вида (1) для нескольких «типовых» функций <р&. С некоторыми простейшими соотношениями (1) мы уже сталки- вались. Так, при доказательстве сходимости градиентного ме- тода (§ 4 гл. 1) мы получали неравенство uk+i<quk, 0<7<1 (2) (где Uk = f(xk) — f*, либо Uk—\\xk — х*||2, либо Uk ~ ||Vf (хк) ||). Из (2) следует оценка Uk Uoqk. При обосновании метода
50 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Ньютона (§ 5 гл. 1) было получено соотношение для Uk =* = HV/(xA) |{: uk+\ < cul> с > °- (3) Отсюда с-’(си0)2^ и, если си0 < 1, то w*->0. В других задачах, однако, соотношение (1)' имеет более сложный вид, и его анализ не столь тривиален. Начнем с линейных неравенств вида «4+1 + а4> <74^0" (4) Отсюда «4 ^Qk-i4k-2 • • • 7о«о + 7a-i • • • 7iao + • • • + 74-ia4-2 + a4-n (5) Рассмотрим несколько частных случаев. Лемма 1. Пусть «4+i^7«ft + a» а > 0. (6) Тогда uk^a/(l — <?) + («о — а/( 1 — 7)) qk. (7) Доказательство. Обозначая Vk — uk— a/(l— 7), из неравенства (6) получаем u*+i Vkq, что и дает (7), ▲ Таким образом, uk сходится в область w^a/(l — 7) со ско- ростью геометрической прогрессии со знаменателем 7. Л е м м а 2. Пусть иь 0 и Uk+i ^(1 + ak)ukJr^k> V (8) L «4 < 00> ₽4 < °°- 4=0 4^0 Тогда uk-+u~^ 0. Доказательство совпадает с приводимым ниже доказатель- ством более общей леммы 9. ▲ Лемма 3. Пусть Ч&+1 74«4 ~Ь «4> 0 74 1» «4 00 (9) Е(1—74) = °о» «4/(1-74)-* 0. 4=0 Тогда Urn uk 0. В частности, если uk > 0, то Uk~*Q. ▲ &->оо Следствие. Если в (9) </* = ^<1, ссА->0, ик 5= 0, то Uk~^-Q- А В условиях леммы 3 можно для ряда случаев оценить и ско- рость сходимости.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 51 Лемма 4 (Чжун). Пусть иц^Ои 1 с \ । d «л-n^V1 “7fs+ f+1 ’ d> 0, p > 0, С' > 0. (Ю) Тогда uk<d(c-p)~l k"p + o(k p) при c>p, (H) Uh = 0 (k In при p = c, (12) «A=o(^c) при P>C. (13) Доказательство. При любом соотношении сир мы находимся в условиях применения леммы 3, так как 1—= оо = c/k, £ (1 — <7/0 = °°. аД1 — Qk)~l = dc~lk~p —>0, поэтому fe==0 «fe->0. Пусть с > р. Введем vk — kpuk — d (с — р)~ . Тогда + 1Г ^<^'(1 +т)'((1 Применяя лемму 3, получаем lim vk^0, что и доказывает (11). Пусть теперь р^с. Введем Vh~ukkc. Тогда ®*+i= uk+l (k 4* 1)с — /1 с2 , у 1 V ))ик 4М1 + 0 (?)) Vk + 7^ Для достаточно больших k. Суммируя по k, получаем, что vk / оо \ ограничено при р> с (так как ряд V-^-сходится при а> 1 I \ ы k ' / k \ а о^= О (In k) при р = cl так как у = О (In k) I. Это дока- зывает (12) и (13). A <I=1
62 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Лемма 5 (Чжун). Пусть > О и uk+1<(l 0<s<l, s<t. (14) Тогда uk^^-~^ + o^~y Д Перейдем к исследованию рекуррентных неравенств, зада- ваемых нелинейными соотношениями. Лемма 6. Пусть tik> 0 и uk+i<uk~akuk+p’ Р>0- (15) Тогда В частности, если аь = а, р = \, то Uk «о/(1 + aku0). (17) Докажем (16) лишь для случая р 1. Разделим обе части (15) на upkuk+l: ukP^uk Puk+i akUkUk+V Поскольку uk+l^uk, u^p^u1^ при р>1, то получаем UkP^ukPi~ ak- Суммируя неравенства, приходим к (16). Д 2. Леммы о случайных последовательностях. При исследова- нии итеративных методов, включающих элементы случайности (методы случайного поиска, задачи с помехами), обычно при- меняется та же техника, основанная на функциях Ляпунова. Од- нако здесь значения функции Ляпунова оказываются случайной величиной, поэтому нужно получить аналоги приведенных выше лемм для случайных последовательностей. Напомним различные виды сходимости случайных величин. Пусть v1, ..., vk, ....— последовательность n-мерных случайных векторов. Мы обычно не будем выписывать то вероятностное пространство (Q, £?, Р), на котором заданы эти величины (т. е, не будем писать у1 (со), .... vk(со), со е Q, Q— пространство элементарных событий, 5 — заданная на нем о-алгебра изме- римых множеств, Р — вероятностная мера на S). Говорят, что последовательность vk сходится к случайному вектору v: а) почти наверное (с вероятностью 1), еслиР(Нш yft = c)= 1 (здесь и далее Р(Л) обозначает вероятность события Л), при этом пишут vk-+v (п. н.). б) по вероятности, если для каждого е>0 lim P(\\vk— 4-»ОО — о||>е)==0, что обозначается —> у.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 53 ВУ в среднем квадратичном, если lim М || vk — v ||2 — 0 (здесь ' fe->oo и далее Ма обозначает математическое ожидание случайной ве- личины а). Основным инструментом при изучении сходимости случай- ных величин является теория полумартингалов. Последователь- ность скалярных случайных величин v0, ..., vk ... называется полу мартингалом, если M(tWi | fi, • • •, М Moo < °°. Здесь M(ffe+i|oo, •••, Vk)— условное математическое ожидание ик+\ при данных и0, • • •, Vk- Часто в данном случае употребляют также термин супермартингал, для неравенства противополож- ного знака говорят о субмартингале, а для равенства — о мар- тингале. Полумартингал является обобщением на стохастический случай понятия монотонно убывающей последовательности. Ключевой результат о сходимости числовых последователь- ностей (ограниченная снизу монотонно убывающая последова- тельность имеет предел) для случайных величин приобретает следующий вид. Лемма 7. Пусть и0, ..., vk ... — полумартингал, причем Vk 0 для всех k. Тогда существует случайная величина и О, Vk^»-v (п. н.). А Известное неравенство Чебышева (если v 0, е > 0, Му < <оо, то Р(о>е)^е-1Мо) для полумартингалов может быть усилено. Лемма 8 (неравенство Колмогорова). Пусть vo.....vk... — полума'ртингал, vk 0, е > 0. Тогда Р(^>е V£)<Ze !Мо0. А (18) Используя эти результаты, получим стохастические аналоги лемм 2 и 3. Лемма 9 (Гладышев). Пусть имеется последовательность случайных величин v0, ..., vk^0, Мо0<°° и М^+1 bo..+ + со §оа&<0°> а/г>0, Рй>0. (19) У < °°, Тогда vk~>v (п. н), где v 0 — некоторая случайная величина. Доказательство. Введем ик — Ц(1 + a,) vk + У, рг X 00 оо i=fe (1 + а,). Тогда ик^ О, М«о < 00 (так как П (1 + ад < оо, w‘+1 \ м 450Pi<°O, Mv0<ooj. При этом
54 гл. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ М(«й+1 |и0, «й) = оо оо оо = П (1 + ai) м (f*+i к,..., Vk) + У ₽/ П (14“а/)^ j~&+l /‘М-Н ОО ОО оо di u +ai) vk + S ₽i II (i+«/) = «а, i=*k l-“к /”i + l т. e. Uk — полумартингал, и по лемме 7 uk-^v{n. и.), у>0. / оо ч / оо Поэтому и vk = \uk — X ₽/ /п.(1 + «2)->у (п. н.). Д Лемма 10. Пусть у0, ..., vk —- последовательность случай- ных величин, vk^0, Mv0 < оо и M{vk+l\v0, »fe)<(l -afeK + pb (20) ОО ОО 0<aft<l, pft>0, £afe = c«, £pfe<~, Ь-->0. (21) 6=0 А=0 к Тогда vk->0 (п. н), Му£->0, причем для всякого е > 0, /г > О Р (у, < е для всех j > k) > 1 — е-11 Му* + У. рг). (22) \ 1 = Й у Доказательство. Беря безусловное математическое ожидание от обеих частей (20), получаем Muh-i^U — о^)МуН + Рь Отсюда по лемме 3 Муй->0. С другой стороны, ик~ оо = vk + У Р2 — полумартингал (ср. с доказательством леммы 9). i-k Используя леммы 8 и 9, получаем требуемый результат. Д 3. Основные теоремы. Рассматривается итеративный процесс вида хй+1 _. xk „ (23) где k — номер итерации, xk, sk — векторы в R”, Уй 0 — ска- лярный множитель, характеризующий длину шага. Мы объеди- ним детерминированный и стохастический случаи — будет рас- сматриваться общая ситуация, когда хк и sk случайны, а детер- минированный процесс включается в нее как частный случай. Основные предположения о процессе заключаются в следующем. А. Процесс носит марковский характер — распределение s’{ зависит только от xk и k, sk — sk{xk), величины sk, sk~l, ... взаимно независимы. Б. Существует скалярная функция {функция Ляпунова) V(x)^5 0, inf V(x) = 0, V (х) дифференцируема и VV(x) удо- xsRn влетворяет условию Липшица с константой L.
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА Бб В Процесс (23) является псевдоградиентным по отношению к V(x): (W(xs), M(ss |xs))>0, (24) т е ___5® в среднем является направлением убывания V(x) в точке хк. Г. Выполняется следующее условие роста на М (|| sk II2| х*)< а2 + т (W (xk), М (sk | хк)). (25) Величина а2 обычно характеризует уровень аддитивных помех. Случай о = 0 типичен для детерминированных задач. Д. Начальное приближение удовлетворяет условию MV(x°)<o°. (26) Разумеется, это условие выполняется, если х° — детерминиро- ванный вектор. Е. Длина шага такова, что ОО Ууй=оо, limy* Су-. (27) X-U £->оо fe«=0 Приведем основные теоремы о сходимости. При условиях А—Е нельзя, вообще говоря, утверждать, что V(xs)->-0 для процесса (23) в каком-либо вероятностном смысле. Например, если sk = 0, то все условия выполняются, но xk х°. Однако некоторые утверждения о сходимости справедливы даже при этих минимальных предположениях. Теорема 1. Пусть выполнены условия, А — Ей либо а2 = О, оо либо У, у? < оо. Тогда при любом Xй в алгоритме (23) V (xk) -» V (п. н.), lim (W (xk), M(sk\xk)) = 0(n.H.). (28) fe->oo Доказательство. Используя условие Б и формулу (15) § 1 гл. 1, получаем ' V (хк+')< V (хк) - уй (vP (xs), ss) + Ly21| sk ||2/2. Возьмем условное математическое ожидание обеих частей этого неравенства и применим условие Г: М (V (xs+1) |xs) < V (xk) - yft (VV (xs), M (ss | xs)) + Ly2M (|| sk ||21 xs)/2 < V (xk) - уД1 - C/2) Lxyft) (VJ7 (xs), M (sk | xs)) + Ly>2/2. (29)
ва ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ В силу условий В и Г М (V (л-&+!) | xft)< V (хк) + Lyf(Jz/2. (30) Применяя лемму 9, получаем, что V(xk)-+V (п. н.). Перейдем в (29) к безусловным математическим ожиданиям: МУ (х^1) < МV (х*) - (1 - (>/2) Lryfe) ик + Ау2а2/2, Ufe==M(v7(xft), M(s*|xft)). Для достаточно больших k, в силу условия Е, 1 — (’/2) Lvyk е > 0, т. е. МV (xft+I) МУ (xft) — ук&ик + Lyjcr2/2. ОО Поскольку МУ (х°) < оо (условие Д) и а2 У, у? < оо, то отсюда ьо со со следует, что У, укик < оо. Но так как У у&~оо, то это озна- ft=0 k=t) чает, что lim.Mj.~0. Из свойств сходимости в среднем еле- fe->oo дует, что если для случайных величин zk^Q, Msfe->0, то най- дется подпоследовательность z&z->0 (п. н.). Поэтому lim(vy(xft), М (зк |х*)) = 0 (п. н.). А fe->cb Заменим условие В на условие В' сильной псевдоградиент- ности: В'. (?У(х*), М(з*|х*))>/У(х*), />0. Теорема 2. Пусть выполнены условия А — Е и В' и либо оо а2 = 0, либо У у2 < оо. Тогда при любом х° в алгоритме (23) k=0 У(х*)->0 (и. н.), / °° \ Р(У(х9<8 1 -8-4 МУ(xfe)+4La2У у2). (31) ' i — k ' Доказательство. Из (29) и условия В' получаем м (У (х&+‘)\хк) < (1 —Zy&(l — (*/2) Ату,)) У (xfe) + Lyja2/2. (32) Из леммы 10 и условия Е следует требуемый результат. А Перейдем к условиям сходимости в среднем. Теорема 3. Пусть выполнены условия А — Е, В' и либо а2 — о, либо у,->0. Тогда в алгоритме (23) МУ(х*)~>0. (33)
§ 2. ВТОРОЙ МЕТОД ЛЯПУНОВА 57 Доказательство. Беря безусловное математическое ожидание в (32), имеем MV(xft+IX(l “Ы1 -(72)^))MV(xft) + Ly^/2. (34) Поскольку 1 — (l/2)Lry* е > 0 для достаточно больших k, то MV (хй+!) < (1 — l^k) МУ (**) + ^^72. По лемме 3 MV(xfe)-*0. А Из неравенства (34) можно получать и другие результаты, в том числе оценки скорости сходимости. Приведем несколько примеров. Теорема 4. Пусть выполнены условия А — Е, В' и у к ~ у, О <у <2/ (Аг). Тогда (з5) <7 = 1 — Zy(l — (’/2)Ату). Этот результат следует из (34) и леммы 1. А Таким образом, если о2 > 0, то lim MV (xft)^Tycr2/[Z(2—Ату)], &->со если же а2 —0, то MV (х6) стремится к 0 со скоростью геомет- рической прогрессии. Теорема 5. Пусть выполнены условия А —Е, В', а2 > О и у* = y/k. Тогда и (О (1/6) при ly > 1, МУ xfe) = < _ Р ’ (36) (.0(1/6^) при ly < 1. v 7 Этот результат легко можно получить из (34) и леммы 4. А Упражнения. 1. В качестве следствия теоремы 1 получите теорему 1 § 4 гл. 1, взяв V(x) = {(x^—f*. 2. Примените теорему 4 для доказательства теорем 2, 3 § 4 гл. 1, беря VW = f(x) — f*, или V(x) = ||х —х*||2. 4. Возможные модификации. Приведенные теоремы о схо- димости отнюдь не являются самыми общими и охватываю- щими все случаи. Они могут быть видоизменены в различных направлениях. Во-первых, условия В, В' и Г могут быть обобщены следую- щим образом: (VV(xft), M(s4xft))>AV(xft)~0ft, (37) м (II sfe II21 xk) a2 + xk (VV (xft), M (? 1 xk)) + (xk). (38) При определенных условиях на lk, pfe, crft, xk и можно с по- мощью лемм данного параграфа доказать аналоги теорем 1—3.
68 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ Такого рода ситуации, когда выполняются условия (37) и (38), встретятся нам далее при изучении конечно-разностных ва- риантов градиентного метода, методов регуляризации и т. д. Во-вторых, все приведенные до сих пор результаты носили глобальный характер — предполагалось, что условия на. V(x), sk(x) и т. д. выполняются для всех х, а начальное приближе- ние х° могло быть любым. Однако нередко такого рода пред- положения выполняются лишь локально, в окрестности реше- ния. Естественно, что при этом и утверждения о сходимости должны носить локальный характер. Примерами могут служить теоремы 4 § 4 и 1 § 5 гл. 1 о локальной сходимости градиент- ного метода и метода Ньютона. Наличие случайных помех вно- сит некоторые осложнения — возникает ненулевая вероятность выхода из области, в которой выполнены предположения. По- этому локальные утверждения о сходимости могут выполняться лишь с некоторой вероятностью 1 — б, б > 0. Приведем соответ- ствующий аналог теоремы 2. Пусть Q = {x: V (х)<е), где s > 0 — некоторое число. Теорема 6. Пусть условия А — Е, В' выполнены для всех х, xkG^Q. Тогда для метода (23): а) если х° детерминировано, х° е Q, о2 — 0, sk детерминировано, то V (х&) —0; оо б) если Y1 < °°> то P(?gQVA)>1 -б, Р(7(х*)->0)>1 -б, ! * (39) б —s-1M7(x°)+^-La2e_12J y1. ± fe=0 Далее, можно рассматривать непрерывные аналоги итера- тивных методов — процессы, описываемые обыкновенными диф- ференциальными уравнениями dxjdt — s(x, t), x(0) = x°. (40) Для них можно применить ту же технику, основанную на функ- ции Ляпунова. При этом формулировки многих теорем о сходи- мости упрощаются и приобретают более наглядный смысл. Исторически метод функций Ляпунова и возник применительно к подобным задачам. Мы, однако, не будем приводить соответ- ствующие результаты и рассматривать непрерывные методы. Дело в том, что развитие цифровой техники привело к тому, что теперь ЭВМ являются основными средствами решения вычис- лительных задач. Но при реализации процесса (40) на ЭВМ
§ 3. ДРУГИЕ СХЕМЫ 69 нужно переходить к его дискретной аппроксимации, т. е. вновь вернуться к итеративным методам. В то же время нужно иметь в виду, что переход к «предельной» форме дискретной траекто- рии может быть целесообразен с методической точки зрения для упрощения формулировок и «угадывания» различных методов. Для обоснования сходимости подобный подход систематически используется в монографии В. 3. Беленького, В. А. Волконского и др- [2.1]. Наконец, часто итерационный процесс рассматривается в форме xft+ic=7’(xft), Т- R"->R", (41) а не в виде (23). Постулируется существование функции V (х), обладающей свойством V (Т (х)) < V (х), хфТ (х), (42) при этом ни дифференцируемости, ни гладкости V(x) и Т(х) не требуется. Достаточно предположить, например, полунепрерыв- ность снизу функции ф(х)= V(T(x)) и ограниченность множе- ства {х: V(x)^V(x0)}. При этих условиях удается доказать, что у последовательности (41) есть предельные точки, и каждая из них является неподвижной точкой Т(х). Схемы такого типа предложены и исследованы в [0.6, 0.13, 1.6, 2.9]. Перспективной в круге данных идей представляется схема Е. А. Нурминского [2.9]; в ней не требуется монотонного убывания V (х) на каж- дом шаге и она пригодна для стохастического случая. К сожа- лению, подобные подходы не дают никакой информации о ско- рости сходимости процесса. § 3. Другие схемы Не нужно думать, что первый и второй методы Ляпунова исчерпывают все многообразие схем исследования сходимости итерационных процедур. Иногда эти схемы основываются на несколько иных соображениях. Упомянем кратко некоторые из них. 1. Принцип сжимающих отображений. Пусть g-. R”->Rra-i— некоторое отображение. Оно называется сжимающим, если Ог(х) —g(z/)IK^||x — yil, q<\, (1) Для всех х, у е R'!, т. е. если оно удовлетворяет условию Лип- шица с константой, меньшей 1. Рассмотрим итеративный про- цесс **+1 = g(xft). (2) Теорема 1 (принцип сжимающих отображений). Если S сжимающее отображение, то оно имеет единственную
60 ГЛ, 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ неподвижную точку х*, к которой сходится процесс (2) при лю- бом х° со скоростью геометрической прогрессии lkfe ~ X || < qk (1 - q)-1 II g (Х°) - Х° ||. (3) Доказательство. II xk+1 — Xk II —1| g (xk) ~ g(xfe-1) ||<?|| Xk — Xй-1 II, ||хй+1 -xftIK<7fe||x’~ х°||, k+s-1 i=k ,,k + ... + ^)||x1-x0||<-T4jl|x1-x0||. (4) Следовательно, ||xft+s— хй|| -> 0 при /г->оо и любом s, т. e. xk — последовательность Коши в R”. В силу полноты R” хк имеет предел х*. Так как g(x) непрерывна в силу -(1), то из xk-+x* следует g(xk)->-g(x*), но g(xk) = xk+1 ->х*. Поэтому x*=g(x*). Переходя в (4) к пределу при s->oo, получаем ||х*— хй|| ^(дй/(1— ^))||х1— х°||. Единственность неподвижной точки сразу следует из (1). ▲ Принцип сжимающих отображенией удобен тем, что он не только утверждает сходимость итеративного процесса, но и га- рантирует существование неподвижной точки. Поэтому он тра- диционно применялся в математике для получения разнообраз- ных теорем существования. Принцип сжимающих отображений допускает различные обобщения и модификации. Однако, как показывают приво- димые ниже упражнения 1—3, существенно расширить его нельзя. Отметим еще, что попытка непосредственно применить прин- цип сжимающих отображений к задачам, рассмотренным в § 1, не дает результатов. В самом деле, там было показано, что если спектральный радиус р(Л) матрицы А меньше 1, то итерации = Ахк сходятся. Однако в этих условиях линейное отобра- жение g(x) — Ах не является, вообще говоря, сжимающим, так как не обязательно ||Л|| < 1, см. § 1. Упражнения. 1. Постройте пример отображения g(x), обладающего свойством: ||g(x) — — g(g)ll < IIх — Для любых х Ф у, но не имеющего неподвижной точки. 2. Постройте пример нерастягивающего отображения: llg(x)—sT ||х — у\\, имеющего неподвижную точку, для которого итерации xft+1 = = не сходятся. 3. Постройте пример сжимающих отображений gk с общей константой сжатия <7 < 1, для которых итерации х*+> = g*(x*) не сходятся.
5 8. ДРУГИЕ СХЕМЫ 61 2. Теорема о неявной функции. Удобным инструментом при исследовании итеративных методов, не разрешенных относи- тельно xk+1, является хорошо известная из анализа теорема о неявной функции. Пусть F(x, у)—отображение из R^XR” в R«. Будем обозначать Fx (х, у), F'y (х, у) производные F по соот- ветствующим переменным. Теорема 2 (о неявной функции). Пусть F(x*, у*)—О, F(x, у) непрерывна по {х, у} в окрестности х*, у*, дифференци- руема по х в окрестности х*, у*, F'x(x, у) непрерывна в х*, у* и матрица F'x(x*, у*) невырождена. Тогда существует единствен- ная непрерывная в окрестности у* функция x — q>(y) такая, что Х*==ф(«/*), F(<p(y), у) = 0. Если, кроме того, Е'у(х*,у*) су- ществует, то ф(г/) дифференцируема в у* и ф'(/) = ~ [П(х*. У*)}'F'y(x*, у*). А (5) Иными словами, уравнение F(x, у) — 0 может быть разре- шено относительно х в окрестности у*. Применим этот резуль- тат прежде всего для исследования существования и устойчи- вости решений уравнений. Теорема 3. Пусть уравнение g(х) = 0, g: R^-^-R”, имеет решение х*, причем g(x) дифференцируема в окрестности х*, g'(x) непрерывна в х* и матрица g'(x*) невырождена. Тогда уравнение g(x) = y (6) имеет решение х(у) при достаточно малых у, причем х(у) = х* — g'у + о(у). ▲ (7) Приведенные результаты позволяют исследовать итерацион- ные процессы, в которых новое приближение xk+1 задается неяв- ным выражением, например оно является решением некоторой вспомогательной задачи безусловной минимизации. Именно так обстоит дело в методе регуляризации и многих методах реше- ния задач с ограничениями (например, методах штрафных Функций). 3. О роли общих схем исследования сходимости. Общие теоремы типа приведенных в этой главе берут на себя стандарт- ную, рутинную часть доказательств сходимости и тем самым упрощают процесс обоснования алгоритмов. Однако не нужно преувеличивать их роль и считать, что они делают анализ схо- димости элементарным. Во-первых, во многих случаях провер- ка их условий представляет самостоятельную нетривиальную проблему. Во-вторых, для простых задач непосредственное, <В лоб», доказательство ничуть не сложнее обращения к общим
62 ГЛ. 2. СХЕМЫ ИССЛЕДОВАНИЯ ИТЕРАТИВНЫХ МЕТОДОВ теоремам. Примеры этому мы видели в гл. 1. Конечно, можно было бы ее результаты доказать с помощью схем настоящей главы. Однако такой подход лишен наглядности и поучитель- ности прямых доказательств. Наконец, в ряде задач целесооб- разно применить тот или иной специальный прием, использую- щий особенности задачи. Таким образом, анализ сходимости остается творческим про- цессом, требующим искусства и здравого смысла. Попытки уло- жить его в прокрустово ложе некоторой единой схемы (что свойственно, в частности, некоторым монографиям), произво- дят впечатление неестественности.
Глава 3 МЕТОДЫ МИНИМИЗАЦИИ В гл. 1 были рассмотрены два алгоритма минимизации, наи- более простые в идейном отношении — градиентный метод и ме- тод Ньютона. В настоящее время известны десятки (если не сотни) других методов безусловной минимизации дифференци- руемых функций. Ниже будут описаны некоторые из них — наи- более интересные либо в теоретическом, либо в вычислитель- ном отношении. На протяжении всей главы речь идет о задаче min f (х), х е Rre, где f(x)— дифференцируемая функция. § 1. Модификации градиентного метода и метода Ньютона 1. Недостатки и достоинства исходных методов. В гл. 1 были подробно исследованы градиентный метод xk+1 = xk — (хк) (1) и метод Ньютона xk+1 = xk — [^2f(xk)]~1^f(xk). (2) Этот анализ позволяет составить следующую таблицу сравни- тельных достоинств и недостатков каждого из методов. Таблица 1 Метод Достоинства Недостатки Градиентный Глобальная сходимость. Слабые требования к / (х). Простота вычислений Медленная сходимость. Необходимость выбора у Ньютона Быстрая сходимость Локальная сходимость. Жесткие требования к / (х). Большой объем вычислений Точный смысл этих терминов был разъяснен в гл. 1. Как Видно из таблицы, достоинства и недостатки данных методов
64 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ являются взаимно дополнительными, и хотелось бы разработать метод, объединяющий достоинства каждого из них и в то же время свободный от их недостатков. Хотя такого идеального решения нет, в данной главе будут описаны возможные шаги по направлению к нему. Прежде всего, оказывается, что некоторые из недостатков (необходимость выбора у для градиентного метода, локаль- ность метода Ньютона) могут быть устранены за счет простой модификации методов. К этому мы и перейдем. 2. Модификации градиентного метода. Рассмотрим общий градиентный метод Xk+l = х& — уk yf (xk) (3) при различных способах выбора длины шага у*. На первый взгляд кажется, что можно значительно повысить эффектив- ность градиентного метода, если идти до минимума по направ- лению антиградиента: yft = argmin Фй (у), фИу) == f (xk -- yVf (xk)). (4) Y >0 При этом мы получаем так называемый метод скорейшего спуска. Теорема 1. Пусть f(x)— непрерывно дифференцируемая функция и {х\ f(x)^f(xa)} ограничено. Тогда в методе (3), (4) Vf(x*)->0 и у последовательности хк существуют предельные точки, каждая из которых стационарна, т. е. найдется подпосле- довательность xkl-+x*, и Vf(x*) = 0. Этот результат нетрудно доказать с использованием техники гл. 2. ▲ По сравнению с теоремой 1 § 4 гл. 1 здесь условие Липшица на градиент удается заменить более слабым требованием не- прерывности градиента. Это естественно, поскольку способ вы- бора длины шага (4) является более гибким, чем выбор yft == у. /Метод (3), (4) сходится для тех примеров, на которых в § 4 гл. 1 демонстрировалась расходимость градиентного метода с постоянным шагом при невыполнении условия Липшица. Выясним вопрос о скорости сходимости метода. Рассмотрим пример квадратичной функции f (х) = (Ах, х)/2 - (Ь, х), А > 0. (5) В данном случае у* из (4) может быть выписано явно: „ _ IlwUW (AVf(xk). Vf(xk)) ' Метод (3), (6) выгодно отличается от (1) тем, что в него не входит подлежащий выбору параметр у.
§ I. ГРАДИЕНТНЫЕ МЕТОДЫ И МЕТОД НЬЮТОНА 65 Теорема 2. Для метода (3), (6) для функции (5) справед- лива оценка f(xk) - Ж)) (тТтГ ’ (7) где I — наименьшее, a L — наибольшее собственное значение матрицы А, х* — А~}Ь — точка минимума f(x). Доказательство. Используя вид фДу) и имеем f (xfe+!) = f (х*) - уft(Vf (xfe), Vf (х*)) + (AVf (x*)> Vf (x*))/2 = M ’ 2 Ж(хЖЖ)) ‘ Так как 2 (f (xk) — f (x*)) = (Л (xk — x*)> xk — x*) = (A~\f (/), ?/(/)), TO f (xk+l) — f (x*) __ . _____II W (xk) il4_____ f (xft) - f (X*) (Л- !w (xfe), Vf (x*)) (ЛVf (xft), Vf (x*)) Используя неравенство Канторовича (Лх, х)(Л’х, x)<(4U)-1(L + /)2||x|)4 VxeR", (8) получаем f(xfe+1)-f (х*) / z, — Z \2 Ж)-Г(х*) + ’ что и дает требуемую оценку (7). ▲ Поскольку 2 (f (х) — f (х*)) = (Л (х — х*), х — х*) ./> 11| х — х* ||2, то из (7) следует 11 xk - х*|! < V2/"1 (f (х°) -7tf))qk, q = {L — l)/(L1). (9) Оценка (7) точная, так как нетрудно построить двумерный пример, для которого неравенство в (7) превращается в равен- ство. Сопоставляя (7) и (9) с теоремой 3 § 4 гл. 1, приходим к несколько неожиданному выводу—метод скорейшего спуска для квадратичной функции сходится, вообще говоря, не быст- рее, чем простой градиентный метод (1) при соответствующем выборе у. Этот же вывод справедлив и для общего неквадра- тичного случая. Итак, добиться выигрыша в скорости сходи- мости за счет более полной одномерной минимизации (т. е. вы- бора шага в соответствии с (4)) в градиентном методе нельзя. Отсюда не следует делать вывод, что в принципе нельзя ускорить сходимость градиентного метода путем выбора длины шага. Например, если для минимизации квадратичной функции (5) применить градиентный метод (3) с у* = 1/Жь k — 0, ... ..., п—1, где 'Ki — собственные значения Л, то такой метод
66 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ будет конечен, т. е. хп = х* (проверьте!). Конечно, этот резуль- тат вряд ли представляет практический интерес, так как соб- ственные значения А обычно неизвестны, а их нахождение — задача более трудная, чем решение системы Ах = Ь. Перейдем к другому способу выбора у*. Простейший выбор у* ss у, 0 < у < 2/L (теорема 1 § 4 гл. 1), неконструктивен, так как константа L обычно неизвестна. Можно предложить следующую процедуру подбора у. Задаются 0<8<1,0<а< < 1 и некоторое у. На каждой итерации вычисляется f(x*— yVf(xfe)) и проверяется неравенство f (xk — yVf (xk)) < f (xk) — sy || Vf (xk) II2. (10) Если оно выполняется, то xk+1 — xk — yVf(xk), если же нет, то у заменяется на уа и проверка повторяется. Можно показать, что в условиях теорем 1 и 2 § 4 гл. 1 та- кая процедура требует конечного числа дроблений у на каждой итерации и остаются в силе утверждения этих теорем. Таким образом, правило выбора длины шага нетрудно сделать кон- структивным. Однако главный недостаток градиентного мето- да — его медленную сходимость для плохо обусловленных за- дач— простыми средствами устранить не удается. 3. Модификации метода Ньютона. Придать методу Ньютона свойство глобальной сходимости можно различными способами. Один из них связан с регулировкой длины шага: xk+i = xk — yk [V2f (л?)]"' vf (xk). (11) Его часто называют демпфированным методом Ньютона. Параметр у* может выбираться по-разному, например у/е = argmin f (х'г — у [V2f (х*)Г ‘ Vf (**)) (12) Y 0 или у дробится (умножается на 0<а< 1), начиная с у = 1, до выполнения условия f^+’XfW-v^QvV^-’vfC?), Vf(xfe)), 0 <<?<!, (13) или условия IlVf^+OlP^d-Y9)llVf(xft)||2, 0<7<1. (14) Для гладких сильно выпуклых функций демпфированный ме- тод Ньютона глобально сходится (упр. 1). Что касается скоро- сти сходимости, то на начальных итерациях можно утверждать лишь сходимость со скоростью геометрической прогрессии. При попадании же в окрестность х*, в которой выполняются условия теоремы 1 § 5 гл. 1, будет иметь место квадратичная сходи- мость (упр. 2). Возможна и другая модификация (называемая методом Ле- венберга — Марквардта), в которой само направление движения
« 1. ГРАДИЕНТНЫЕ МЕТОДЫ И МЕТОД НЬЮТОНА 07 отличается от задаваемого методом Ньютона. Поступим так же, как при одном из обоснований градиентного метода (см. (3) § 4 гл. 1) —добавим к аппроксимирующей функции квадра- тичный штраф за отклонение от точки хк, т. е. будем искать xft+1 из условия минимума ffe(x) + (a&/2) ||х —xfe||2, fA(x) = f(x*) + (Vf(x*), x-xk) + ^f(xk)(x-xk), х — х'1)/2. 05) Тогда приходим к методу xk+l = _ (ytf (xfe) 1 yf (16) При ak — 0 метод переходит в метод Ньютона, при а*->оо направление движения стремится к антиградиенту. Таким обра- зом, (16) представляет собой компромисс между этими двумя методами. За счет выбора а!г можно добиться глобальной схо- димости метода (упр. 3). Метод (16) обладает перед (11) тем преимуществом, что он (как и градиентный метод) пригоден не только для выпук- лых функций (см. упр. 3), тогда как в методе (11) требуется положительная определенность матрицы V2}(x) (упр. 4). Есть специальные модификации метода Ньютона, в которых матрица V2f(A:fe) заменяется на некоторую положительно опре- деленную, если сама V2f(xft) таковой не является. Однако во всех описанных модификациях метода Ньютона каждая итерация (как и в основном методе Ньютона) требует очень большой вычислительной работы (вычисление V2f(x), ре- шение систем линейных уравнений), а скорость сходимости вдали от минимума, вообще говоря, не высока. Таким образом, попытки «слегка подправить» градиентный метод и метод Ньютона хотя и позволяют устранить некоторые их недостатки, но не меняют положение с наиболее серьезными их дефектами — медленной сходимостью градиентного метода и трудоемкостью метода Ньютона. Упражнения. I. Пусть f(x)—дважды дифференцируемая сильно выпуклая функция, IIV2/(.x)|| Д -б- Тогда в процедурах (13), (14) число дроблений у па каждой итерации конечно, а метод (И) с любым правилом (12) — (14) выбора у* и при любом сходится к точке минимума х* со скоростью геометрической прогрессии. Докажите, воспользовавшись теоремами § 2 гл. 2 с V (а:) = = f (х) — fix'*) или V (х) = IIVf(х)112. 2. Покажите, что в условиях теоремы 1 § 5 гл. 1 в достаточно малой окрестности х* в методах (13) и (14) будет у* = 1. 3. Пусть f(x) —дважды дифференцируемая функция, ||V2f(x)|f < L, множество {x:f(x) -Д ffxf3)} ограничено, а точка х*, в которой Vf(x*) = О, единственна. Покажите, что можно указать такие у и у, что при у_г< а* у в методе (16) будет xkх* (воспользуйтесь теоремами § 2 гл. 2 с i/(.Y) — •» fix) — f(x*)).
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 69 ческой прогрессии: || ? — Z Ж с (6) (7 + 6)\ 0<?<1, 0 <6 <1-7. (5) Величина q минимальна и равна * д/а — д/7 * 4 7 — —------при а =7-7=-----------==г, 4 4L + -y/i r (Vl + VT)2 Схема доказательства. В данном случае непосред- ственно применить приемы исследования сходимости, описан- ные в гл. 2, нельзя, так как все они рассчитаны на одношаго- вые процессы. Можно, однако, использовать способ увеличения Рис. 6. Метод тяжелого шарика (а) я градиентный метод (б). размерности пространства, позволяющий свести многошаговый процесс к одношаговому (см. (15) § 1 гл. 2). Введем 2/г-мерный вектор zk — {х'Л— .г*, х^ — х*}. Тогда итерационный процесс (2) может быть записан в форме zk+1 = Azk + о (zs), (7) где квадратная матрица А размерности 2«Х2п имеет вид А ==( (1 + р) / — о.В 1 (8) О в = ?7(О- Пусть I = М X 7,2 С ... X — L — собственные значения матрицы В. Тогда собственные значения р/, / = 1, ..., 2п, ма- трицы А совпадают с собственными значениями матриц 2X2 вида 1 Т Р — aXj 1 -рх О ) ' Следовательно, они являются корнями уравнений р (1 4- (3 — ct%^) -j- (3 = 0, i 1, .. •, п. (9) Можно показать, что если 0 < Z X/ L, 0 с; |3 < 1, 0 •< а •< <. 2(1 4- p)/L, то |р| < 1, где р —любой корень уравнения (9).
68 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ 4. Приведите примеры, показывающие, что если матрица V2f(xi) не яв- ляется положительно определенной, то метод (11) может потерять смысл ([V2/'(х4)]-1 не существует), а в методе (11), (12) может оказаться ул = О в точке, где Vf(x*) ^=0. § 2. Многошаговые методы В градиентном методе на каждом шаге никак не исполь- зуется информация, полученная на предыдущих итерациях. Естественно попытаться учесть «предысторию» процесса для ускорения сходимости. Такого рода методы, в которых новое приближение зависит от s предыдущих: xft+I = <р,г(xk, xft~s+1), (1) называются s-шаговыми. Градиентный метод и метод Ньютона были одношаговыми, теперь рассмотрим многошаговые (s > 1) методы. 1. Метод тяжелого шарика. Одним из простейших многоша- говых методов является двухшаговый метод тяжелого шарика д.а+1 __ xk — aVf (xfe) + P(xfe — xfe_1), (2) где a > 0, P 2s 0 — некоторые параметры. Ясно, что при р — 0 метод (2) переходит в градиентный. Свое название метод полу- чил из-за следующей физической аналогии. Движение тела («тяжёлого шарика») в потенциальном поле при наличии силы трения (или вязкости) описывается дифференциальным урав- нением второго порядка d2X (/) г-, t I 11\\ ... dX (t) /г>\ (3) Ясно, что из-за потери энергии на трение тело в конце концов окажется в точке минимума потенциала f(x). Таким образом, тяжелый шарик «решает» соответствующую задачу минимиза- ции. Если рассмотреть разностный аналог уравнения (3), то придем к итерационному методу (2). Введение инерции движения (член р(х*— хА~’)) в итера- ционный процесс может привести к ускорению сходимости. Это видно, например, из рис. 6 — вместо зигзагообразного движения в градиентном методе в данном случае получается более плав- ная траектория по «дну оврага». Эти эвристические соображе- ния подкрепляются следующей теоремой. Теорема 1. Пусть х*— невырожденная точка минимума f{x), xeRn. Тогда при 0<₽<1, 0<а<2(1 +₽)//., //<V2f(x*)<Z,7 (4) найдется е 3> 0 такое, что при любых х°, х\ ||х°— х*|| е, Ух1—х*[| 8 метод (2) сходится к х* со скоростью геометра--
70 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Теперь мы можем воспользоваться теоремой 1 § 1 гл. 2 о ло- кальной сходимости итерационных процессов вида (7), что дает возможность получить оценку (5). Вычисляя min max | р/|, а, В 1 < 2га находим приведенные в теореме оптимальные значения а*, р* и соответствующее им </*. А Сравним скорость сходимости, даваемую одношаговым и двухшаговым методами при оптимальном выборе параметров. И в том, и в другом случаях имеем сходимость со скоростью геометрической прогрессии, но знаменатель прогрессии для одношагового метода равен <7, = (/,-/)/(/, + /), (10) а для двухшагового <h = (VI - VT)/(л/L + VT). (11) Для больших значений числа обусловленности р, = L/1 q^\—2lv., q2 I — 2/V?'• (12) Поэтому, чтобы приблизиться к решению в е — 2,7 ... раз, в одношаговом методе требуется порядка ц/2 итераций, в двух- шаговом— порядка д/ц/2. Иными словами, для плохо обуслов- ленных задач метод тяжелого шарика дает выигрыш в раз по сравнению с градиентным. Для больших ц эта разница весьма значительна. С вычислительной же точки зрения метод (2) немногим сложнее одношагового. Правда, подбор оптимальных значений аир в (2) не прост — формулами (6) непосредственно воспользоваться не удается, так как границы спектра V2f(x*) (числа I и L) обычно неизвестны. Упражнение. 1. Докажите глобальную сходимость метода (2) для квадратичной f(x). 2. Метод сопряженных градиентов. Рассмотрим другой вари- ант двухшагового метода — метод сопряженных градиентов, в котором параметры находятся из решения двумерной задачи оптимизации: — xk — akVf (xk) 4- $k(xk — x4-1), (13) {«&> = argmin f (^--aVf^) 4-p(xft — xft-1)). (14) {«. SI Для случая квадратичной функции Цх) = (Ах, x)/2~(b, х), Л > 0, (15)
72 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Если rk обращается в 0, то xk — точка минимума f(x). Но в R" не может существовать более п ортогональных ненулевых векторов, поэтому для некоторого k гД п будет rk = 0. Итак, мы доказали следующий результат. Теорема 2. Метод (13), (16), (17) дает точку минимума квадратичной функции f(x) вида (15) за число итераций, не превосходящее п. ▲ Мы установим в дальнейшем (см. гл. 7), что если L — не- которое подпространство в R", f(x)— выпуклая дифференци- руемая функция, то условие (Vf (х*), а) — 0 для всех а е L необходимо и достаточно для того, чтобы х* было минимумом f(x) на L. Отсюда и из леммы 1 следует, что xk — точка мини- мума квадратичной функции f(x) вида (5) на подпространстве, проходящем через х° и порожденном г°, ..., rk~x. Этот несколь- ко неожиданный факт (мы ищем минимум k раз последова- тельно на 2-мерных подпространствах, а он оказывается мини- мумом на всем ^-мерном подпространстве) является важнейшей особенностью метода сопряженных градиентов и объясняет его конечность. Последовательные направления движения pk в методе со- пряженных градиентов удовлетворяют соотношению (Ар1, pl)—0, (19) Действительно, р‘ = х‘ — х'-1, поэтому Ар': = Ах':— Ах':~1 = = г‘— г‘-х. С другой стороны, мы уже отмечали, что pk есть k -1 линейная комбинация г°, ..., г*-1, р'! — У, ц.Д. Поэтому для /=о / k~l \ i > k имеем (Ар1, pk) = I г1 — Д-1, У, I = 0 в силу леммы 1. \ i=o/ Векторы р‘, связанные соотношением (19), называются со- пряженными или А-ортогональными (они ортогональны в ме- трике, задаваемой матрицей Л). Это объясняет название ме- тода— в нем строятся линейные комбинации последовательных градиентов, являющиеся сопряженными. Отметим, что знание произвольных сопряженных направле- ний s', 1=1, ..., п, (As', s1) = 0, i^=j, позволяет без труда решить систему Ах = 6, А > 0. (20) п Действительно, будем искать решение в виде х— У atsl. Тогда, 1=1 “ подставляя это в (20), умножая скалярно на s' и используя
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 71 эта задача может быть решена явно: «а __ II rk IF (Арк, рк) — (rk, pk) (Ark, pk) ~ (Ar*,rftW,pft)-(X?V)2 rk — Vf (xft) = Axk — b, ||rfeIIW, p*)-(A Р»)(лА rk) (Агк, гк) (Apk, pk) - (Лг\ pk)2 pk = xk — Xk~l. (18) Могло бы показаться, что соотношение методов (13), (14) и (2) такое же, как методов (3), (4) и (1) в § 1, — если метод скорейшего спуска не дает, как мы видели, выигрыша в скоро- сти сходимости по сравнению с градиентным методом с постоян- ным оптимальным у, то и от двухшагового варианта скорей- шего спуска (13), (14) трудно ждать существенного ускорения по сравнению с. методом тяжелого шарика (2). Оказывается, ситуация здесь иная: так, в квадратичном случае метод (13), (14) (при специальном выборе р1) является конечным, т. е. дает точный минимум функции (15) за конечное число итераций. Пусть начальное приближение х°. произвольно, а х1 полу- чено из него методом скорейшего спуска: x1 = x°--^5-r°, r0 = V/(x°) = /4x°-6. (17) > г ) Лемма 1. Градиенты г°, г1, ... в методе (13), (16), (17) попарно ортогональны: (rl,rk) = 0, i < k. (18) Доказательство. Воспользуемся индукцией по k. Пусть (г1', гк) — 0 при 0 i < k, k^2, и г‘ ф 0, i ~ 0, ..., k. Орто- гональность г°, г1, г2 следует непосредственно из определения метода. Тогда, умножая (13) слева на А, получаем r*+1 __ rk _ _ pS-i). Из rl ф 0 для i k следует, что a* =/= 0. Поэтому Ark есть ли- нейная комбинация rft+1, гк и гк~\ аналогично Ar‘, i < k, есть линейная комбинация ri+1, rl, г‘~1 и в силу предположения ин- дукции (Ar1, rl") = Q, |г — j|> 1, i < k, j^ k. Следовательно, (rk+l, rl) = (rk — UkArk + P*(rk — rk~x), rl) — 0 при i — Q, ..k — 2. Далее, непосредственно из формул (13), (16) следует, что (,-s+i, rS) __ 0, (rft+1, рк) = 0. Наконец, из (13), заменяя k на k—1, имеем рк — —аь-1Гк~1 + + Pfc-ip*-1. Применяя это соотношение последовательно, полу- чаем, что рк есть линейная комбинация г°, г1, ..., гк~\ причем гк~1 входит с коэффициентом —aft_i 0. Поэтому из (г*4-1, рк) = =* 0, (г*+*, г‘) = 0, i^k — 2, следует, что (rft+1, rk~l) = Q. Итак, для всех i k будет (rft+1, г‘) = 0. А
§ 2. МНОГОШАГОВЫЕ МЕТОДЫ 73 А-ортогональность, имеем а<==(^> 5г)/(Лх', s‘). (21) Этому решению можно придать рекуррентную форму: зададимся произвольным х° и построим xk+i = х* ф- где а* задаются (21). Тогда хп = х* — решение (20). Поскольку а* в (21) мож- но определить иначе:. аА = argmin f (хк ф- ask), то мы получаем, а что знание системы сопряженных направлений позволяет найти минимум квадратичной функции с помощью п одномерных минимизаций. Этот важный факт будет неоднократно использо- ваться в дальнейшем при построении других методов минимиза- ции. В методе сопряженных градиентов сопряженные направ- ления не выбираются заранее, а строятся по рекуррентным фор- мулам. Если применять метод (13), (14) для неквадратичных функ- ций, то, сопоставляя его с методом скорейшего спуска, нетрудно доказать его глобальную сходимость, а сопоставляя с методом тяжелого шарика, — оценить скорость сходимости (упр. 3 и 4). Методу сопряженных градиентов можно придать и иную форму. Рассмотрим итерационный процесс хй+’ = хк + akpk, ak — argmin f (xk + арй), а = (22) ? = Vf(?), Po = O. Лемма 2. Для случая квадратичной функции (15) методы (13), (16), (17) и (22) при одинаковом х° определяют одну и ту же последовательность точек xk. А Поскольку рк в (22) и (16) отличаются лишь скалярными (ненулевыми) множителями, a гк в (22) и (16) совпадают, то процесс (22) обладает теми же свойствами, что и (13), (16): векторы р‘ являются сопряженными, а градиенты г1— взаимно ортогональны. Из леммы 2 и теоремы 1 следует, что метод (22) дает точку минимума квадратичной функции (15) в Rn за число итераций, не превосходящее п. Для неквадратичных задач ме- тод (22) проще, чем (13), (14), так как требует решения лишь одномерной (а не двумерной) вспомогательной задачи миними- зации. Разумеется, в неквадратичном случае теряется свойство конечности метода и (22) превращается в, вообще говоря, бес- конечный итерационный двухшаговый метод. Результат о его сходимости приведен в упражнении 5. Обычно для неквадратичных задач метод сопряженных гра- диентов применяется в несколько иной форме. В него вводится процедура обновления — время от времени шаг делается не по формуле (22), а как в начальной точке, т. е. по градиенту.
74 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Наиболее естественно производить обновление через число итераций, равное размерности пространства: д-fe+i _ xk _|_ akSk, aft = argminf(xfe + asft), a>0 + rk — vf(xk), (23) JO, k = 0, n, 2n, ... = t 11 rk ||2/|| г*-1 II2, k 0, n, 2n, ... Нетрудно доказать, что метод сопряженных градиентов с обновлением обладает свойством глобальной сходимости (упр. 6). Оказывается, что в то же время в окрестности мини- мума он сходится с квадратичной скоростью. Теорема 3. Пусть х* — невырожденная точка минимума, и в ее окрестности V2f(x) удовлетворяет условию Липшица. Тогда для метода (23) в окрестности х* справедлива оценка || х(т+1) п __ || с || xmn _ x* ||2# Иначе говоря, по скорости сходимости п шагов метода со- пряженных градиентов эквивалентны одному шагу метода Нью- тона. Мы не приводим доказательства теоремы, так как оно до- вольно громоздко. В его основе лежит идея квадратичной ап- проксимации f(x) и факт конечности метода для квадратичных функций (см. теорему 2). А Возможны иные вычислительные схемы метода сопряжен- ных градиентов для неквадратичных функций. С одной из них, требующей решения двумерной задачи минимизации на каждом шаге, мы начали анализ этого метода — см. (13), (14). Другие, подобно (22), обычно включают лишь одномерные вспомога- тельные задачи, но отличаются от (22) правилом выбора Примером может служить схема — xk + aksk, afe = argminf (xk — ask), a>0 = + (24) ffe = V/ (Xk), ₽0 = 0. Как и для (22), здесь возможны варианты либо с обновле- нием, либо без него. Для квадратичной функции последователь- ности xk, порождаемые методами (22) и (24), совпадают. Как показывает опыт вычислений, для неквадратичного слу- чая несколько более быструю сходимость обычно дает схе- ма (24). , Представляет интерес поведение метода для задач большой размерности (когда число итераций меньше размерности). Ока- зывается, здесь можно гарантировать лишь сходимость со ско-
s 2. МНОГОШАГОВЫЕ МЕТОДЫ 70 ростью геометрической прогрессии даже для квадратичного слу- чая. Пусть А — матрица «Х«, Z/<A<ZJ, Z > О, (25) и f(x)—соответствующая ей квадратичная функция на R": f (х) = (Ах, х)/2 - (Ь, х), b е Rn. (26) Точка xft может быть представлена в виде xft-x, = Pfe(A)(x0-x*), (27) где Pk(A)—матричный полином й-й степени вида Pk(A) = 1 + а^А + ••• (28) Поэтому II хй - х* II2 с 2 (f (xk) - П/l = (API (A) (x° - X*), x° - x*)// c <(L/0l|x0-x*||2 max Pl(K), где Pt(X)=l + alkKA~ ••• + cikkbk — обычный полином. В силу свойств метода оценка для f(xk)—f* справедлива для всех РДЛ), Рд. (0)= 1, в частности, для где Tk (П = [(Л + У^=й)k + U - У^Т? ]/2, Ц | > 1; Tk (Л) = cos (k arccos Л), | % | =< 1. Поэтому I x> _ z 2 ([(^±£)‘ + ($=$)']'' IU° - «• II« <2(|)Vl|x°-x*||, <7 = (VZ-V7)/(VZ + VT). (30) Можно показать на примерах, что оценка (80) неулучшаема. Итак, при k < п для метода сопряженных градиентов, при- мененного для минимизации квадратичной функции, можно га- рантировать сходимость со скоростью геометрической прогрес- сии со знаменателем = (VZ — д//)/(д/1 + д/Z)1 — 2/д/ц, ц=== ЬЦ, т. е. такую же, как для метода тяжелого щарика при оптимальном выборе его параметров. По сравнению с послед- ним в методе сопряженных градиентов нет проблемы выбора
76 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ параметров — они определяются автоматически, хотя это и требует дополнительных вычислений для решения одномерной задачи минимизации. Мы видим, что в методе сопряженных градиентов xk яв- ляется точкой минимума квадратичной функции f(x) на под- пространстве, порожденном первыми k градиентами. Отсюда следует, что никакой метод, использующий только градиенты функции (точнее, в котором шаг делается по линейной ком- бинации предыдущих градиентов), не может сходиться быстрее. Иными словами, метод сопряженных градиентов яв- ляется оптимальным по скорости сходимости в классе методов первого порядка. Из полученного выше результата вытекает, что для задач большой размерности с квадратичными функ- циями f(x), удовлетворяющими условию (25), для всех методов первого порядка нельзя ждать сходимости более высокой, чем скорость геометрической прогрессии со знаменателем ^г== (д/Л—VD/(V^-+V0- Естественно, большая скорость схо- димости не может достигаться и в более широком классе сильно выпуклых с константой I функций, градиент которых удовле- творяет условию Липшица с константой L. Факт квадратичной сходимости (теорема 3) имеет место только при числе итера- ций, существенно большем размерности пространства. Упражнения. 2. Проверьте, что если х1 выбирается произвольно (а не по формуле (17)), то метод (13), (16) сходится к точке минимума (15) со скоростью гео- метрической прогрессии, но, вообще говоря, не является конечным. Для дока- зательства можно воспользоваться, например, тем фактом, что по определе- нию метода (13), (14) f(xft+') f(xft+!), где хк+х—точка, полученная из х\ х6-1 методом тяжелого шарика. 3. Пусть f(x)—непрерывно дифференцируемая функция, множество {х: f(x) )(х°)} ограничено. Докажите, что тогда при любых х°, х1 в методе (13), (14) будет Vf(x*)-*O (используйте теорему 1 § 1). 4. Пусть х*—невырожденная точка минимума f(x). Используя то же соображение, что и в упражнении 2, докажите локальную сходимость метода (13), (14) со скоростью геометрической прогрессии. 5. Докажите следующий результат о сходимости метода сопряженных градиентов. Пусть f(x)—дифференцируемая сильно выпуклая функция, гра- диент которой удовлетворяет условию Липшица. Тогда метод (22) сходится при любом х° к точке минимума f(x). Используйте при этом следующие свой- ства метода: (г*, pft~’) = О, (г*, рк) =—||г*||2 и лемму Абеля —Дини (ряды ОО оо £ «й- Z ей/(ео+ ••• +®й) сходятся или расходятся одиовремеиио), при- й=0 й=0 меиив ее к efe = || rk iP/pf ... Попытайтесь оценить скорость сходимости. 6. Пусть f(x) непрерывно дифференцируема, а множество {х: f(x) sj •С Цх°)} ограничено. Докажите, что тогда в методе (23) V)(x6) ->0. Это же справедливо для любого правила выбора моментов обновления, если их число бесконечно. 7. Докажите, что Tt(Л), определяемое (29), действительно является по- линомом /г-й степени.
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 77 § 3. Другие методы первого порядка В основе всех методов, описываемых в этом параграфе, ле- жит идея восстановления квадратичной аппроксимации функ- ции по значениям ее градиентов в ряде точек. Тем самым ме- тоды объединяют достоинства градиентного метода (не тре- буется вычисление матрицы вторых производных) и метода Ньютона (быстрая сходимость вследствие использования ква- дратичной аппроксимации). 1. Квазиньютоновские методы. Эти методы имеют общую структуру: ^+1 = ^_уйад(^), (1) где матрица Нк пересчитывается рекуррентным способом на основе информации, полученной на k-й итерации, так что Hk — [V2/ (xft) ]-I -> 0. Таким образом, методы в пределе пере- ходят в ньютоновский, что и объясняет их название. Отметим некоторые общие свойства методов такого типа. Доказатель- ство приводимых ниже лемм может быть без труда получено с использованием описанной ранее техники. Лемма 1. Пусть f(x)^f*, f(x) дифференцируема, Vf(x) удовлетворяет условию Липшица и m>0. (2) Тогда в методе (1) с yk = y, где у> 0 достаточно мало, будет Vf(xk)-+Q. А Лемма 2. Пусть х* — невырожденная точка минимума f(x), f(x) дважды непрерывно дифференцируема в окрестности л* и к-[ШГ'1->о. (3) Тогда метод (1) с = 1 локально сходится к х* быстрее лю- бой геометрической прогрессии. А Таким образом, при любых равномерно положительно опре- деленных Hk метод (1) обладает глобальной сходимостью, а при условии (3) в окрестности минимума метод сходится со сверхлинейной скоростью. Перейдем к вопросу о способах построения матриц Hk, ап- проксимирующих [V2f (х*)]-1. В принципе их можно формиро- вать с помощью конечно-разностной аппроксимации. Именно, из точки xk можно сделать п «пробных шагов» длины а* по ко- ординатным осям и вычислить в этих точках градиенты. Соот- ветствующая разностная аппроксимация будет искомой, если а*->0 (см. упр. 1). Однако такой прямолинейный способ аппроксимации неэко- номен— в нем делается п пробных вычислений градиента на каждой итерации и никак не используются градиенты,
Т8 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ найденные на предыдущих итерациях. Кроме того, в нем тре- буется обращать матрицу. Основная идея квазиньютоновских методов заключается; во-первых, в том, чтобы не делать спе- циальных пробных шагов, а использовать найденные градиенты в предыдущих точках (поскольку они близки к хк), а во-вто- рых, в том, чтобы строить аппроксимацию непосредственно для обратной матрицы [V2f(xft)]_1. Обозначим pR = — HkVf (xk), yk = V/ (x*+1) — V/ (xk). (4) Тогда для квадратичной функции f(x) = (Ax, x)/2 — (b, х), А > 0, имеем yk — A (xk+l — xk) = ykApk, т. е. Y*P*== A'lyk. (5) Поэтому для нового приближения Hk+i к [V2f (хй+1)]-1 есте- ственно потребовать выполнения так называемого квазиньюто- новского условия Hk+i yk = VkPk- (6) Кроме того, удобно получать Нк+\ как поправку к Нк с по- мощью матриц первого или второго ранга. Наконец, эти по- правки должны быть такими, чтобы для квадратичного случая оказалось = А-1. Основным техническим инструментом анализа подобных ме- тодов является следующая лемма об обращении матриц. Лемма 3. Пусть В — матрица п\п, для которой В~х су- ществует, а, b — векторы из R", (В-1а, &)=/=—1, А == В 4- abT, Тогда А-1 = В-1 —(1 + (В’1а, b))^ В~1а(в~'‘ь)г. (7) Лемма доказывается прямой проверкой. ▲ Таким образом, если известна матрица, обратная к В, а матрица А получена из В добавлением матрицы ранга 1, то обратная к А находится без труда. Приведем примеры формул пересчета матриц Нк: а) метод Давидона—Флетчера—Пауэлла (ДФП)г гг И Нкук(ук)т Нк , pk(pkY и f), б) метод Бройдена'. нк+1-нк hkPk - яУг) (ykpk - (УкрЬ - Hkyk, yk) Но> 0; (9)
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 79 в) метод Бройдена— Флетчера — Шенно (БФШ);. п fe + 1 — nk -|---------------------------------------------------------------------------------------------------------------------------------- (yk, pk) . {Hkyk, yk) „ . n ₽‘“’* + '(7щГ’ H°>0- (10) Оказывается, для всех формул (8) —(10) выполнено квази- ньютоновское условие (6). А если > 0 — произвольные числа, pk — произвольные, линейно независимые векторы, yk удовле- творяют соотношению (5) с А-1 > 0, то при любом Яо > 0 бу- дет Нп = А-1. Отсюда следует Теорема 1. При любых х°, Но > 0 .метод (1), (4) с любой из формул пересчета (8), (9), (10) и yk = argmin f (xk 4- ypk) для f(x) = (Ax, x)/2 — (b, x), A > 0, будет конечным: xn — = x* — A~xb. ▲ Более того, можно показать, что, несмотря на различие формул пересчета, последовательности xk, генерируемые каж- дым вариантом метода, для квадратичной функции f(x) сов- падают. Для неквадратичных функций квазиньютоновские методы в записанной выше форме применимы, по они, естественно, пере- стают быть конечными. В связи с этим при k > п можно либо продолжать счет по этим же формулам, либо ввести процедуру обновления (заменять матрицу Н,, на Яо через каждые п ите- раций) . В настоящее время доказана сверхлинейная (или квадратич- ная) скорость сходимости многих вариантов квазиныотоновских методов в окрестности невырожденной точки минимума. Эти результаты выглядят естественными в свете утвержде- ний лемм 1 и 2 и теоремы 1, однако их полное доказательство весьма громоздко. Квазиньютоновские методы чрезвычайно популярны, им по- свящён огромный поток работ. Такое внимание объясняется упоминавшимися выше достоинствами методов — они требуют лишь одного вычисления градиента на каждом шаге, в них не нужно обращать матрицу или решать систему линейных урав- нений, они обладают глобальной сходимостью, в окрестности решения скорость сходимости высока (часто квадратична) и т. п. Однако они имеют и дефекты по сравнению, например, с методом сопряженных градиентов. Главный из них заключается в необходимости хранить и пересчитывать матрицу Hk размер- ности п )(п, что для больших п требует значительного объема памяти ЭВМ. При численной проверке методов обычно наилучшие резуль- таты дает вариант (10).
80 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Упражнение. 1. Пусть ei, еп—координатные орты в R'1, f(x) дифференцируема в окрестности точки х и дважды дифференцируема в х. Пусть Я(а)—мат- рица, т’-й строкой которой является a-1 (V/'(x + ае1) — V7(xj )> Докажите, что Я(а)-> V2f(x) при а-*0. 2. Методы переменной метрики и методы сопряженных на- правлений. Выше квазиньютоповские методы были получены как приближения к методу Ньютона. Однако на них можно посмотреть и с другой точки зрения. Выясним прежде всего, как влияет выбор метрики на вид и свойства градиентного метода. Пусть в пространстве Rn наряду с исходным скалярным произведением (х, у) задано с помощью матрицы А > 0 другое скалярное произведение (х, y)j = (Лх, у). (11) В этом случае А задает новую метрику в Rra: ||х —у||* = (Л(х — у), х — у). (12) Выпишем градиент дифференцируемой функции f (х) в но- вой метрике: Кх + y)=/(x) + (V/(x), у) + о(||у||) = - f(x)+(ZA '!V/'(x), у) + о (|| у ||) = f (х) + (а, у), + о (|| у Ц,), а = Д-'V/ (х). В соответствии с определением вектор а есть градиент f(x) в пространстве со скалярным произведением (11). Итак, (х)== Л-1?/(х). (13) В новой метрике градиентный метод приобретает вид xft+1 = xk - VkVif (У) = xk - ykA (xfe) (14) и отличается от исходного градиентного метода наличием ма- трицы А-1. Иными словами, градиентный метод не инвариантен к выбору метрики пространства. Естественно попытаться вы- брать метрику так, чтобы ускорить сходимость метода. Для ква- дратичной функции f(x) = (Bx, x)/2 — (b, х) — (у2)(Л”‘Вх, х)] — (Л~Ч x)j (15) скорость сходимости (14) определяется знаменателем прогрес- сии q — (L — /)/(/. + /), где L, I — наибольшее и наименьшее собственные значения матрицы А~-В. Чем ближе эта матрица к единичной, тем меньше q. Наилучший способ — выбрать А — В, тогда А~'В = I, у = 0, т. е. если задать метрику с помощью матрицы В, то градиентный метод (с у* = 1) даст точное реше- ние за 1 шаг. Это не удивительно, так как в этой метрике f(x) —
5 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 81 — (1/2) (х, x)i — (А-16, х)ь т. е. линии уровня f(x)—сферы, а обусловленность р равна единице. Для неквадратичной функции метод ^+1 = ^-уЛМ(^)> Hk>0, (16) может рассматриваться как градиентный в метрике (к, у)1 = (Н^х, у), (17) и «оптимальным» выбором метрики является И* = [V2/(xft)]-1. Иными словами, квазиныотоновские методы могут трактоваться как градиентные, в которых на каждом шаге выбирается новая метрика, по возможности близкая к наилучшей. В связи с этим часто употребляют термин методы переменной метрики как си- ноним квазиньютоновских методов. Такая интерпретация полезна и как эвристический способ построения новых вариантов квазиньютоновских методов. На- пример, можно получить новую метрику путем «растяжения» пространства в направлении последнего градиента или в на- правлении разности двух последовательных градиентов и т. п. Мы остановимся на таких методах подробнее в гл. 5. Другой подход к построению эффективных методов первого порядка связан с использованием понятия сопряженных направ- лений. уже отмечали в § 2, что, зная набор сопряженных направлений р1, ..., рп: (V, Я = 0, /=#/, (18) можно найти минимум квадратичной функции /(х) = — (Дх, х)/2 — (Ь, х) за п одномерных минимизаций: xk+l — xk — akpk, ak = argmin f (xk — apk). (19) a Тогда при любом x° будет xn — x* = A~'b. Один способ построе- ния сопряженных направлений использовался в методе сопря- женных градиентов — в нем процессу 4-ортогонализации под- вергались последовательно вычисляемые градиенты. Однако возможны и другие способы. Пусть р}, ..., рк, k < п,— уже построенные сопряженные векторы, (Ар1, pl) — 0, l<z, i =/= i, (20) a xk — соответствующие им точки в методе (19). Следующий вектор pk+l должен удовлетворять соотношению (рк+\ Ар‘) — 0, i~l, ..., k. Поскольку р1 — ar1 (xz+I — х1), Ар’—а~х (у[ (xi+l)—Vf (х;)) = а~'у{, то это эквивалентно условию Р'-'1, /)==0, (=1,..., k, (21)
82 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Итак, новое сопряженное направление /Д+1 должно удовлетво- рять условиям ортогональности (21). Подвергая такому про- цессу ортогонализации любой набор линейно независимых век- торов, получим различные наборы сопряженных направлений. Этот же процесс может быть применен к неквадратичной функции: x*+I _ xk _ ak = argniin f (xk — apk), a > 0 (/?+1, yl) = 0, yl = \7f (xi+l)— Vf (x‘). (22) Обычно при этом ищут pk+i в виде pk+i = Н k+iVf (xk+i), Нк+1 = Нк + ЬНк (23) и вместо непосредственного запоминания векторов у‘, i— 1, ... k, запоминают матрицу Нк. Таким образом, методы прини- мают ту же форму (1), что и квазиньютоновские. Разница лишь в том, что при этом не обязательно Hfc->[V2f(xA)]-1; в некото- рых вариантах метода оказывается (для квадратичной функ- ции) Нп = 0. Поэтому в таких методах обязательно должно осуществляться обновление. Выпишем алгоритм одного из простейших методов данного класса: xk+1 = xkakpk, ak = argmin f (xk 4- apk), pk = -HkVf(xk), yk = 'yf(xk+i) — 'yf(xk), , н.ук (yky Hk я0=я„-я2„= ... =/. Оказывается, что для квадратичной функции в методе (24) рк являются сопряженными направлениями, Нк 0 для всех k п, Нп — 0. Для неквадратичных функций доказана квадра- тичная локальная сходимость методов данного класса в окрест- ности невырожденного минимума. 3. Метод секущих. Одним из простейших и наиболее распро- страненных методов решения одномерного уравнения g (х) = 0 (25) является метод секущих, сущность которого видна из рис. 7. Его можно обобщить на многомерный случай —если g: Rn->R'!, то можно вычислить g в п 4- 1 точках, построить линейную ап- проксимацию и найти ее корень, который является очередным приближением к решению (25). Применительно к задаче минимизации [(х) в Rra, т. е. к за- даче решения уравнения Vf(x) = O, метод принимает следую- щий вид. Пусть х\ хк~’, ..., хк~"— п 4- 1 точек в Rn, V/(x*),..,
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 83 .Vf(xk~n)— вычисленные в них градиенты. Решим систему п-\- 1 линейных уравнений с га4- 1 переменными Хо, М, •••> п п = £^-1 (26) М i-0 и построим точку **+* = £ iiXk-i, (27) i®=0 Далее процесс повторяется для «4-1 последних точек л4+’, хк, ..., и т, д. Нетрудно проверить, что для га — 1 такой метод совпадает с методом секущих для решения уравнения Vf(x) = 0. Ш Теорема 2. Если векторы лл — х°, 1 х2— х°, .... хп — х° линейно незави- /п\ симы, a f(x) квадратична с V2f(x)^ //7/1 = Л > 0, то хп+1 — точка минимума /// | f W • хг /з?/// I В системе линейных уравнений —г----------/ /^4----- (26) на каждой итерации меняется { / //х* х х лишь один столбец, поэтому нет необ- i / ходимости решать ее каждый раз за- I / у' ново, а можно воспользоваться еле- дующим результатом. " Лемма 4. Пусть В — квадратная Рис. 7. Метод секущих. матрица п\п со столбцами Ь',..., Ьп, а В отличается от нее первым столбцом (Ь1 заменено на 51). Тогда с‘ = с1 — 1 / (б1-/, с1) (28) где с1 — строки В~1, с1 — строки В-1. Для доказательства достаточно представить В в виде В = = В4-(5‘ — Ь1)ет, где е = (1, 0...0), и воспользоваться лем- мой 3. ▲ Однако в описанной выше форме метод секущих не является удовлетворительным. Так, он не обладает свойством глобальной сходимости. Для устранения этого недостатка можно применять стандартные средства, например регулировку длины шага (из хк делается шаг по направлению У, Вторым дефектом i метода является его склонность к вырождению — в процессе счета последовательные приближения оказываются лежащими (приближенно) в подпространстве пространства Rra. Соответ- ствующая система линейных уравнений (26) плохо обусловлена и ее решение неустойчиво. Для преодоления этого недостатка
84 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ можно модифицировать метод с тем, чтобы система базисных точек была заведомо невырожденной. Например, можно до- бавлять на каждой итерации точку, делая шаг по координат- ным осям (в циклическом порядке). Для модифицирован- ных подобным образом методов можно доказать сверхлинейную сходимость. 4. Другие идеи построения методов первого порядка. При всем разнообразии описанных выше алгоритмов первого порядка идея их оставалась одинаковой — использовать квадратичную аппроксимацию функции вблизи минимума. Как правило, эти алгоритмы конечны для квадратичных функций, а в общем слу- чае их эффективность тем выше, чем ближе функция к квадра- тичной. Однако квадратичная модель может считаться есте- ственной лишь в окрестности экстремума; вдали от него пове- дение минимизируемой функции может быть совсем иным. По- этому для всех описанных выше методов отнюдь не гаранти- руется даже разумность стратегии оптимизации на начальных этапах поиска. В связи с этим целесообразно использовать другие модели функции, отличные от квадратичной. На первый взгляд есте- ственно попытаться строить полиномиальные модели на основе старших производных — следующих членов ряда Тейлора. Такие попытки делались, однако они вряд ли перспективны. Во-пер- вых, прямое вычисление старших производных в многомерных задачах обычно требует слишком громоздких вычислений и большого объема памяти, а их восстановление по младшим производным предполагает вычисление последних в огромном числе точек. Во-вторых, решение .вспомогательных задач мини- мизации полиномиальных функций, за редкими исключениями, не может быть осуществлено в аналитической форме. Простой и важный класс представляют модели, основанные на аппроксимации функции однородной. Функция f(x), xeR", называется однородной относительно точки х* с показателем у > О, если fix* + А (х - Z)) - f (х‘) =V if (х) - f (х*)) (29) для всех xeR'1 и % 0. Примеры однородных функций при- ведены в упражнениях 2—4 и 6. Дифференцируемая однородная функция удовлетворяет важ- ному соотношению f (х) - f (X*) = V"1 (Vf (X), х - х*). (30) Чтобы доказать (30), возьмем в (29) %=14~е: f (х + 8 (х - х*)) - f (х*) = (1 + e)v if (х) - f (х*)), еу if (х) — f (х*)) = е (V/ (х), х — х*) 4- о (в). Устремляя е к 0, получаем (30).
§ 3. ДРУГИЕ МЕТОДЫ ПЕРВОГО ПОРЯДКА 85 Точка х* не обязательно является минимумом f(x) (см. при- меры в упр. 2 и 3). Однако если f(x) достигает минимума, то х* — точка глобального минимума f(x). Действительно, пусть f(x) = f* — min f(x), тогда Vf(x) = O. Подставляя x вместо x в (30), получаем, что f(x*) = f(x) = f*, т. е. х* — точка глобаль- ного минимума. Именно этот случай и будет рассматриваться далее. С помощью (30) можно найти точку минимума х*, вычислив f(x) и Vf(x) в конечном числе точек. Действительно, если у из- вестно, то, взяв п + 1 точек х°, ..., хп, мы получаем систему — a + (vf(x{), x*) = (Vf(xi), xl\ i = 0, .... п, (31) линейную относительно «+1 переменных х*, a (a = yf(x*)). Исключая переменную а, получаем п линейных уравнений для определения х* е Rra: (vfU9-vf(x°), х*) = = (Vf(xz)> -V) — (Vf (х°), x°)-y(f(x9-f(x0)), i=l, (32) Если же у неизвестно, то можно взять п-|-2 точек х°, ..., хп+1 и определить п + 1 переменных у, х* из линейной системы (32), в которой следует взять п -j- 1 уравнений. Аналогичный подход можно применить для минимизации функций общего вида подобно тому, как это делалось в методе секущих. В самом деле, пусть уже построены приближения х°, ..., xk, k> п. Взяв последние п + 1 из них (или п + 2, если у неизвестно), решим систему (относительно х, а, у, либо х, а) (V/(x!')> х) — а + yf (x!') = (Vf (х1'), х!), i = k, k— 1. (33) а решение х выберем в качестве xft+I. Для у = 2 получаем ме- тод, близкий к методу секущих, но отличающийся от него (в нем, в отличие от метода секущих, используются не только Vf(x;)> н° и значения функции Цх‘)). Такой процесс следует модифицировать с помощью тех же приемов, что и метод секущих (бороться с вырождением точек xk путем добавления новых точек, линейно независимых от предыдущих; регулировать длину шага и т. д.). Полезно также сравнивать фактическое значение f(xk+l) с «предсказанным» (равным a/у). Это может служить проверкой предположения о близости функции к однородной. При решении систем линей- ных уравнений целесообразно использовать близость этих урав- нений на соседних итерациях (см.лемму 4). Для минимизации однородных и близких к ним функций можно применять и другие методы. Так, в градиентном методе можно применять специальные способы выбора длины шага. Пусть функция f(x) удовлетворяет условию (30), причем вели-
88 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ чины f* = f(x*) и у известны. Рассмотрим градиентный метод Д.&+1 _ xk _ (34) Выбор шага yk — - jj 3Десь сделан так, чтобы для Xft+I __ xk __ (xfe) удовлетворялось равенство f(xfe)— f = == у-1 (vf (xk), хк — xft+1) — ср. с (30). Тогда || _ Z ||2 = || Xk _ ||2 __ (V/ Xk _ x*) + + v2(/(^)-r)2 _ * ,|2 _ y2№)-D2 II Vf (xk) II2 11 x " II W)ll2 Отсюда следует, что если ||Vf(x)|| ограничена на множестве {х: ||х— х*|| ||х°— х*||}, то f(xk)-+f*. Нетрудно видеть, что этот же результат остается справедливым, если в (30) равен- ство заменить на неравенство fW-r^Y-'WGv), х-х*). (35) Несколько иной класс (по сравнению с однородными) за- дается формулой (х) = У7 (<р (х)), <р(х) — (Ах, х)/2 —- (Ь, х), Л > 0, (36) где F: R1-> R1 — монотонная на [ср*, оо) функция, <р* = <р(х*) = = min<p(x). Очевидно, что х* является точкой минимума f(x). Если задан явный вид F и <р, то в соответствии с последним замечанием вместо минимизации f(x) можно решать более про- стую задачу минимизации <р(х). Однако часто доступна меньшая информация о задаче. Тогда можно применить следующий ва- риант метода сопряженных градиентов: = хк + akpk, ak — argm'mf(xkA-apk), а>° (37) p*==-Vf(x*) + ₽^->, R F'(v(xk~l)\i ^f(xk) II2 И?(^»11т/(^-1)112 ’ Po — O' Нетрудно проверить, что метод (37) порождает ту же после- довательность точек, что и метод сопряженных градиентов для минимизации <р (х), а потому является конечным. Величину p* = Р(ср(х*))//:’/((р(х*'"1)), входящую в формулу для рй, можно оценивать приближенно, аппроксимируя F(z) квадратичной или степенной функцией. При этом метод (37) можно применять и для минимизации функций, не обязательно имеющих вид (36).
§ 4. ПРЯМЫЕ МЕТОДЫ 87 В целом методы, основанные на однородных и близких к ним аппроксимациях функций, пока мало исследованы. Упражнения. 2. Покажите, что аффинная функция f (х) = (а, х) — ($ однородна с у = 1 для любого х*. 3. Проверьте, что квадратичная функция /(х) = (Лх, х)/2—(&, х), где Л-1 существует, однородна относительно х* — Л-16 с у = 2. 4. Пусть существует решение х* системы (а1, х) = ф, i = 1, ..., т, хе. т е R". Докажите, что функция f(x) = У | (о/, х) — у > 0, однородна от- i=i носнтельно х* с показателем у. 5. Докажите, что для дважды дифференцируемой однородной функции справедливо соотношение V2f(x)(x — х*) = (у— 1)У/(х). 6. Покажите, что если ср* = 0, /7(2) = |г|«, а > 0, то /(х) вида (36) — однородная относительно х* с показателем 2а. § 4. Прямые методы 1. Общая характеристика. Во многих задачах минимизируе- мая функция задается с помощью некоторого алгоритма вычис- ления ее значении в произвольной точке. Вид алгоритма может быть неизвестен (например, вычисление значений функции про- изводится либо с помощью модели, либо на реальном объекте) или он может быть столь сложен, что аналитическое вычисление градиента слишком громоздко. Во всех этих случаях единствен- ная информация, которой мы располагаем, — значения f(x). Методы, использующие только эту информацию, называются методами нулевого порядка (часто говорят также о прямых методах, методах поиска или о методах без вычисления произ- водных). Наиболее прямолинейная стратегия в такой ситуации заклю- чается в использовании значений функции для конечно-разност- ной аппроксимации производных — градиента или гессиана. Более экономный способ связан с учетом значений функции в предыдущих точках. Наконец, известен ряд специфических ме- тодов нулевого порядка, не имеющих аналогов среди методов первого или второго порядков. 2. Методы линейной аппроксимации. Для оценки градиента функции f: Rra->RI в точке х составим конечно-разностные отно- шения Д1 = a-1 [f U + ay) — f (х)], Д2 = (2а)~' [f (х + ay) — f (х — аг/)], (1) где г/eR"— произвольный вектор. Лемма 1. а) Если f дифференцируема в х, то I Д1 ~ (Vf (х), у) | 0 при а -> 0. (2)
88 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ б) Если Vf удовлетворяет условию Липшица с константой L в окрестности х, то при достаточно малых а |Ai-(Vf(x), г/)|<£а||И72. (3) в) Если f дважды дифференцируема и \Pf удовлетворяет условию Липшица в окрестности х, то при достаточно малых а |Д2 —(V/(x), y)|<Z.a2||y||3/6. (4) г) Если f(x) квадратична, то при любом а A2 = (Vf(x), у). (5) Лемма 1 легко доказывается с использованием формул (2), (15), (20) § 1 гл. 1. А Таким образом, разностные отношения Ai и Az могут слу- жить приближением для линейной аппроксимации f(x). Рассмо- трим методы вида xk+x = xk — yksk, (6) где длина шага, a sk вычисляется по одной из двух формул + (7) Sk = Е (2aft)-1 [f (хк + akhl) — f(xk — akh1)} hl. (8) i=l Здесь hl, i— 1, ..., tn, — векторы, задающие направления проб- ных шагов, ak — длина пробного шага. Выбирая различные h‘ и т, получим те или иные алгоритмы. а) Разностный аналог градиентного метода: m== п, h‘ = е,, i=l, ..., п, где е, — координатные орты. Иначе говоря, проб- ные шаги делаются по координатным осям, так что метод (6), (7) в координатной записи имеет вид х;+1 = ~ (Yft/aft) [f (xk + aket) ~ f (**)]• (9) В соответствии с леммой 1 sk = £ (Vf (х'а), ег) + e* = V/ (xk) + &k, (10) i = l где остаточный член е'г может быть оценен для каждой из фор- мул (7), (8) в зависимости от гладкости f(x). б) Метод покоординатного спуска: m—l, h — в/, j = = &(modn). Шаги делаются по координатным осям, выбирае- мым в циклическом порядке: ( lxk + ал) ~ f (**)]> * == k (mod ")> X*+1 = ! k (11) 1 [ xf в противном случае. При этом sk = Vf (xk)j ej + eft.
§ 4. ПРЯМЫЕ МЕТОДЫ 89 в) Метод случайного покоординатного спуска: m — 1, h = = ej, где j принимает значения 1, .... п с равной вероятностью. Шаг делается, как и выше, по координатным осям, но они вы- бираются в случайном порядке. г) Метод случайного поиска: tn=l, h — случайный вектор, равномерно распределенный на единичной сфере. Здесь движе- ние производится по случайному направлению, а знак и вели- чина шага определяются разностным отношением: х'г+1 = xk — (yfe/ct*) [f (xfe + akh) — f (x*)] h. (12) Сходимость всех методов гарантируется условием (см. упр. 1). Скорость.сходимости зависит от гладкости f(x) и способа выбора ak. С точки зрения погрешностей вычисления выгодно брать ak большим. Так как чем меньше а*, тем больше влияние ошибок округления при вычислении разностных отношений (в (1) приходится вычислять разность двух близких чисел и де- лить на малое число; это всегда связано с потерей точности). Однако для больших ак ухудшается точность аппроксимации (лемма 1). Можно показать, что в условиях теоремы 3 § 4 гл. 1 можно обеспечить в описанных выше методах сходимость со скоростью геометрической прогрессии, если ak cqk, где q < 1 — некоторое число. Вопрос о соотношении скоростей сходимости различных ва- риантов метода довольно сложен. Рассмотрим важный частный случай, который может служить моделью более реалистических ситуаций. Пусть f(x) квадратична: f(x) = G4x, х)/2-(6, х), Л>0, (13) а уй выбирается из условия скорейшего спуска: xfe+1 = xfe — Vj,s\ ''k — argrnin f (x*— ysk). (14) у 5s 0 Сравним три способа выбора sk: симметричная разностная аппроксимация градиента sk = Е (2а)-1 [f № + aet) — — a<?z)] = Vf (15) (последнее равенство в силу (5)); покоординатный спуск sk х= (2а)~* [f (xk + aez) — f (xk — ae;)] et Vf (xk){ et, i = k (mod n) (16) и случайный поиск sk^(2a)~1[f(xk + ahk)-f(xk-a/v)]hk^^f(xk\ hh}h\ (174 где hh — равномерно распределенный на единичной сфере век- тор. Таким образом, (14), (15) совпадает с методом наискорей-
90 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ шего спуска ((4) § 1), а (14), (16) хорошо известен в линейной алгебре как метод Гаусса — Зейделя. Соотношение скоростей сходимости методов зависит от раз- личных причин; приведем несколько крайних случаев. Если А = I, то (14), (15) и (14), (16) приводят к решению за 1 шаг, тогда как метод случайного поиска сходится в среднеквадратич- ном не быстрее некоторой геометрической прогрессии. Если п (Ах, х) = У, Л.(х?, Xi > 0, то метод (14), (16) конечен, тогда как (14), (15)—нет. Наконец, если задача плохо обусловлена (ц 1), то можно показать, что метод случайного поиска схо- дится быстрее градиентного (с учетом разницы в числе вычис- лений f(x) на одной итерации методов). Грубо говоря, для таких задач случайное направление в среднем- лучше указывает на решение, чем антиградиент. Метод Гаусса — Зейделя имеет еще один резерв ускорения сходимости — если заменить в нем у к на ayk, 1 < а < 2 (так называемая сверхрелаксация), то оказы- вается, что в ряде случаев сходимость резко улучшается. В целом можно рекомендовать в классе поисковых методов описанного типа метод покоординатного спуска как по его про- стоте, так и по скорости сходимости. Упражнения. 1. Докажите, что в условиях теоремы 1 § 4 гл. 1 при а*-> 0, у* = у, где у достаточно мало, для всех методов а) — г) можно утверждать, что ->0 п. н. Используйте технику доказательства теоремы 1 § 2 гл. 2. 2. Предложите по аналогии с (10) § 1 конструктивный способ регули- ровки as, обеспечивающий линейную скорость сходимости. 3. Нелокальная линейная аппроксимация. В конечно-раз- ностном градиентном методе (9) пробные и рабочие шаги были разделены — точки xk 4- a^et служили только для оценки гра- диента в xk\ в лМ1 вся работа проводится заново. Можно посту- пить и иначе, и строить линейную аппроксимацию по набору то- чек, расположенных достаточно далеко. Типичным примером служит так называемый симплексный метод (не путать с симплекс-методом в линейном программиро- вании!). Пусть выбраны п-}- 1 точек х°, х1, ..., хп, образующие вершины правильного симплекса. Вычислим значения f(x) в вершинах и найдем ту, для которой f(x) максимальна: / = argmax f (х!). Построим новый симплекс, отличающийся от 0 < i -С п старого лишь одной вершиной; х! заменяется на х"+1: хп+1 = 2п-1 (х° 4- ... 4- х!~1 4- xl+l ... 4-х") — х1 (18) (т. е. х"+1 симметрично с х1 относительно грани, противолежа- щей х1). Если окажется, что в новом симплексе максимум дости- гается в х"+1, то возвращаемся к исходному симплексу, заменив х1 на вершину, в которой значение f(x) максимально среди
§ 4. ПРЯМЫЕ МЕТОДЫ 91 оставшихся вершин и т. д. Если какая-либо точка сохраняется в п + 1 последовательном симплексе, то последний симплекс сокращается вдвое подобным преобразованием с центром в этой вершине (рис. 8). Рис. 8. Симплексный метод. Мы описали лишь простейший вариант метода. Существует много его модификаций, в которых симплекс не обязательно правильный, а величина шага и условия дробления могут быть иными. С теоретической точки зрения подобные методы слабо исследованы. Практика показывает их работоспособность для не слишком плохо обусловленных задач. 4. Квадратичная аппроксимация. Вычислив значения f(x) в достаточном числе точек, можно построить квадратичную ап- проксимацию f(x). Удобно это сделать, например, следующим образом (метод барицентрических координат). Выбирается (как и в симплексном методе) п + 1 базисных точек х°, ..., хп. Вы- числяются значения функции во всех этих точках и серединах соединяющих их отрезков (обозначим f ((xl-)-x/)/2) =ftj, f(xl) = = fn, i, j~0, n). После этого решается система линейных (относительно X, Хо, .... %„) уравнений 4 X — fa, i — (19) Е Л, = 1 /=*0 и строится точка Хл+1 = Е <-8 (20)
02 ГЛ. 3. МЕТОДЫ МИНИМИЗАЦИИ Нетрудно проверить, что если / квадратична, то хп+1 = х* ~ — А~{Ь при любых х°, .... хп таких, что хп — х°.....х1—х° линейно независимы. Далее (для неквадратичной Дх)) точка хп+1 включается в число базисных, а одна из прежних базисных точек (точка х° или та, в которой Дх) максимальна) удаляется. На следующей итерации достаточно вычислить Дх) в «4-1 точках (в хп+1 и серединах отрезков, соединяющих xn+I с остальными базисными точками). Новая система уравнений для Д будет отличаться от (19) лишь одной строкой, так что можно использовать резуль- тат леммы 4 § 3 для построения решения. Аналогичным образом процесс продолжается дальше. Удобство метода в том, что сама квадратичная аппроксима- ция функции не выписывается явно, строится лишь точка мини- мума этой аппроксимации. По сравнению с конечно-разностным аналогом метода Ньютона здесь существенно меньше вычисле- ний Дх) на каждом шаге («4-1 вместо п(«4-1)/2). Для при- дания устойчивости процессу в нем нужно ввести регулировку длины шага, принять меры для предотвращения вырождения системы базисных точек, проверять условие выпуклости fi, <(М + Л/)/2 и т. п. Другая группа методов прямого поиска использует идеи ме- тода сопряженных направлений и сводит исходную задачу к последовательности одномер- ных минимизаций. В отличие от метода покоординатного спуска, где система направле- ний спуска жестко фиксиру- ется (этой системой являются координатные орты), в данных методах направления спуска Рис/ 9. Метод сопряженных направ- строятся в процессе минимиза- лений. ции. Принцип их построения — сделать их (для задачи ми- нимизации квадратичной функции) сопряженными; тогда, как мы знаем (см. § 2) процесс минимизации конечен в квадра- тичном случае. Основная идея методов этой группы иллю- стрируется рис. 9 — три последовательные одномерные мини- мизации приводят в точку минимума. В многомерном простран- стве верен аналогичный результат. Лемма 2. Пусть f(x) = (Ax, х)/2 — (Ь, х), А > 0, xeRn, р1, ..., рк — сопряженные векторы-. (Ар1, р/) = 0, / #=/, k < «, Ьй = 5 х: х = х° 4- X ^iPl (> х1 s L°, L1 = s x: x = x14- X ^iP‘ f > k i = i ) k i — 1) y° == argmin f (x), = argmin f(x). Тогда вектор pk+1 = у1 — y° Х<^1Л xeL' является сопряженным с pl, p .
§ 4. ПРЯМЫЕ МЕТОДЫ 93 Этот результат следует из условия минимума [(х) на под- пространстве (см. замечание после теоремы 2 § 2). ▲ На этой основе можно построить метод минимизации, напри- мер, следующим образом. Пусть хк— полученное на k-й итера- ции приближение к решению, р°, ..., рк — найденные направ- ления (,г° и р° произвольны). Построим xh — xk-\rhk, где hk — произвольный вектор, не являющийся линейной комбинацией р°, ..., рк. Проведем цикл последовательных одномерных мини- мизаций по направлениям р°, ..., рк, начиная из точки хк; обо- значим полученную в результате точку хк+1. В качестве возьмем минимум f(x) на прямой, соединяющей хк+1 с хк, а в качестве рк+1— вектор хк+'— хк. Для квадратичной функции в R" такой метод Пауэлла приводит к минимуму не более чем за п шагов. Существует и много других модификаций, основанных на по- добной идее. Всего для отыскания минимума в квадратичном случае требуется /г(«+1)/2 одномерных минимизаций. Если считать, что каждая из них включает три вычисления функции, то видно, что метод менее экономен, чем (19), (20) (где нужно «(« + 1)/2 вычислений для той же цели). Однако в неквадра- тичном случае метод работоспособен даже для плохого началь- ного приближения (если принять меры против вырождения системы р‘)> тогда как метод барицентрических координат по- добно методу Ньютона требует хорошего начального прибли- жения.
Глава 4 ВЛИЯНИЕ ПОМЕХ Цель этой главы — выяснять поведение методов безусловной минимизации дифференцируемых функций при наличии помех. Оказывается, что чувствительность методов к помехам различна. Грубо говоря, чем эффективнее метод в идеальном случае (без помех), тем более чувствителен он к разного рода ошибкам. Можно модифицировать методы, сделав их работоспособными в условиях помех. При этом априорная информация о помехах (их уровень, закон распределения и т. д.) может быть эффек- тивно использована. § 1. Источники и типы помех 1. Источники помех. В реальных задачах применить методы гл. 1 и 3 «в чистом виде» нельзя — ситуация неизбежно ослож- няется наличием разного рода ошибок и погрешностей. Пере- числим некоторые из причин их возникновения. В простейшем случае, когда минимизируемая функция и ее градиент заданы формулами, ошибки возникают вследствие по- грешностей вычисления, связанных с округлением при выполне- нии арифметических действий на ЭВМ. В результате Цх*), Vf(xft) и т. д. вычисляются с некоторой ошибкой, т. е. вместо вектора Vf(xft) мы получаем вектор sk — V/(x*) + гк. Здесь по- меха гк является детерминированной (ошибки округления в ЭВМ не носят случайного характера) и можно оценить ее уро- вень ||г*|| е, так как законы образования погрешностей округ- ления хорошо изучены. Величину е обычно можно считать по- стоянной (не зависящей от хк) и, как правило, не слишком боль- шой. В случае необходимости е можно уменьшить, производя вычисления с двойной точностью. В ряде задач значения )(х&) и Vf(xft) получаются не с по- мощью вычислений, а в результате измерений. Такова ситуа- ция при оптимизации на реальном объекте (экстремальное ре- гулирование, планирование эксперимента). Тогда помехи носят случайный характер, свойственный погрешностям измерений. При этом обычно бывает доступна информация об уровне и статистической природе помехи. Нередко (особенно в задачах адаптации, обучения, распозна- вания и т. д.) проблема оптимизации ставится следующим обра- зом, Нужно минимизировать детерминированную функцию f(x)
§ I. ИСТОЧНИКИ и ТИПЫ ПОМЕХ 95 типа среднего риска'. f (х) = MQ (х, ®) = J Q (х, ®) dP (®), (1) где функция Q(x, ®) известна, однако распределение Р(и) не задано. Дана лишь выборка ®i, и* из этого распределения. Тогда точное вычисление f(x) и Vf(x) в принципе невозможно. В качестве приближенного значения этих величин можно взять k k Q (х, ®z) и ~ £ VXQ (х, и,), (2) z=i i=i или более просто Q (х, ®fe) и VXQ (х, ®ft). (3) В этом случае значения функции и градиента содержат случай- ную помеху. Если брать в качестве приближений для f(x*) и V/(xft) величины Q(xft, о*) и V*Q(x\ и*), то помехи будут не- зависимы в различных точках. Аналогичная ситуация возникает в методе Монте-Карло, когда задача заключается в минимизации /(х) вида (1) и рас- пределение Р(и) известно, однако вычисление интеграла (1) слишком трудоемко. Тогда можно точные значения )(х) и Vf(x) заменить выборочными значениями, как и выше. В ряде задач ошибки возникают из-за того, что значения функции и градиента вычисляются по упрощенным или при- ближенным формулам. Нередко точное вычисление требует громоздкого расчета функций влияния, решения сложных вспо- могательных задач, учета взаимодействия всех параметров и т. д. Все эти вычисления нецелесообразно (а иногда и невоз- можно) проводить полностью. Их упрощение и огрубление при- водят к погрешностям в определении функции и градиента. Это так называемые неустранимые погрешности. Наконец, во многих методах ошибки возникают не из-за при- ближенного вычисления функции или градиента, а из-за необ- ходимости решения вспомогательных задач, которое не может быть осуществлено точно. Например, в методе Ньютона на каж- дом шаге нужно решать систему линейных уравнений, что не- избежно сопряжено с ошибками; в методе сопряженных гради- ентов требуется проводить одномерную минимизацию, что также может быть сделано лишь приближенно и т. д. В таком случае говорят о погрешностях метода. 2. Типы помех. Как мы видели выше, ошибки при вычисле- нии функции и градиента могут иметь различное происхождение и различную природу. Несколько упрощая реальную ситуацию, можно выделить следующие основные типы помех. Всюду ниже
96 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ речь идет о вычислении градиента, когда вместо точного значе- ния Vf(xA) нам доступен вектор sk = Vf (хк) + rk, (4) где rk — помехи. Случай приближенного вычисления f(x) иссле- дуется аналогично (см. § 4). а) Абсолютные детерминированные помехи удовлетворяют условию II II <8, (5) т. е. градиент вычисляется с заданной абсолютной ошибкой. Предполагается, что про помехи не известно ничего, кроме этого условия. В частности, вектор гк может не являться случайным, либо он может быть коррелирован с предыдущими помехами и т. д. Такая ситуация характерна для погрешностей вычисле- ний и систематических ошибок измерений. б) Относительные детерминированные помехи удовлетво- ряют условию II rk ||< 81| V/ (xk) If. (6) Иначе говоря, градиент вычисляется с относительной ошибкой. В остальном, как и выше, о природе гк ничего не известно. Та- кие помехи возникают, например, при использовании прибли- женных формул, дающих фиксированную относительную ошибку. в) Абсолютные случайные помехи. Предположим, что по- мехи гк случайны, независимы при различных х, центрированы и имеют ограниченную дисперсию: Mr" = 0, М || гк ||2 < о2. (7) Помехи такого типа характерны для задач, в которых градиент отыскивается в результате измерений на реальном объекте (экстремальное регулирование, планирование эксперимента), а также для задач с функцией типа среднего риска (1). г) Относительные случайные помехи обладают теми же свойствами, что и в п. в), однако их дисперсия убывает по мере приближения к точке минимума: Mrfe = 0, М || г*II2 II WK) II2- (8) Разумеется, на практике часто встречаются и другие типы помех например случайные помехи с систематической ошибкой (‘ II С 8) или случайные ограниченные помехи (Мг^ = 0, || ik О)- Однако их можно рассматривать как комбинацию основных типов, описанных выше. Поэтому мы ограничимся этими наиболее важными классами помех. Иногда (особенно в теоретических работах) предполагают, что уровень помех 8* зависит от номера итерации и 8>;->-0 при k-^oo, Такое предпо-
§ 2. ГРАДИЕНТНЫЙ МЕТОД ПРИ НАЛИЧИИ ПОМЕХ Й? ложение представляется не очень реалистическим. Впрочем, в некоторых случаях можно добиться его выполнения путем по- вышения точности вычислений и уменьшения погрешности ме- тода. § 2. Градиентный метод при наличии помех 1. Постановка задачи. Рассмотрим градиентный метод мини- мизации дифференцируемой функции f(x) на R" в ситуации, ко- гда градиент вычисляется с ошибкой: хк+1 = xk ~VkSk, sk = yf (хк) + rk. (1) Относительно помех rk будут делаться предположения об их принадлежности одному из классов, описанных в § 1. Функция /(х) будет предполагаться сильно выпуклой (с константой Z) и с градиентом, удовлетворяющим условию Липшица (с кон- стантой L) — этот класс функций наиболее важен (см. гл. 1 и 3). Нас будет интересовать поведение обычного градиентного ме- тода с у к s у при наличии помех, а также вопрос о целесообраз- ном выборе длины шага в условиях помех. Обоснование мето- дов будет вестись с помощью общих теорем § 2 гл. 2. 2. Абсолютные детерминированные помехи. Теорема 1. Пусть ||r*|| s, yk ss у. Тогда найдется у>0 такое, что при 0 < у < у в методе (1) будет Их*-х1<р + <7*Цх0-х*||, (2) где 0^<7< 1, р = р (е) —> О при s —> О, х* — точка минимума f(х). Доказательство. Введем функцию Ляпунова V(x) = 1(||х-х*||-1в)2+. (3) Используя результат упражнения 1, получаем (VV М, s') - (I х- - X- II - X в)+ > > (|| Xk ~ X* (I - у s) (/ II xk - х* II - 8) = 21V (х4), IIS* II2 = IIVf (х4) + Гк II2 С (А II Хк - х* II + 8)2 С < а + bV (xk) < а + (/7/(2/)) (VK (х4), s4), где а, b — некоторые константы, причем а->0 при е->0. Приме- няя теорему 4 § 2 гл. 2, получаем требуемый результат. ▲ Как нетрудно проверить на примерах (упр. 2), оценка (2) не является завышенной. Таким образом, наличие аддитивных помех приводит к тому, что градиентный метод с постоян- ным у перестает сходиться к точке минимума. Он дает лишь
98 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ возможность попасть в некоторую окрестность минимума, разме- ры которой тем меньше, чем меньше уровень помех. Сходимость к этой окрестности происходит со скоростью геометрической прогрессии. Мы не выписывали выше точных значений констант (величин р, у, q), интересуясь лишь качественной картиной процесса. В упражнении 2 эти значения указаны для случая квадратич- ной функции. Упражнения. 1. Докажите, что V (х) вида (3) дифференцируема, VV (х) = (||х — х*||— — e/Z) || х — х* Г1 (х — х*), W (х) удовлетворяет условию Липшица с кон- стантой 1. Нарисуйте график V (х) для xeR’. 2. Пусть f (х) — (Ах, х)/2 — (b, х), II А LI, Z > 0, || гк || е, 0 < у < < 2/Д. Покажите, что тогда в методе (1) будет || xs+1 — х* || q || xk — х* || + + ye, q = max {11 — у/1, | 1 — уД |}. Используя лемму 1 § 2 гл. 2, получите оценку || xk — х* || ^ уе/( 1 — q) + qk (|| х° — х* || — уе/( 1 — q)). В частности, при у = 2/(Д + /) отсюда следует ||xk — х*||<~ + (||х° — х*|| — у) ( j . Проверьте на примере, что эта оценка не является завышенной. Исследуйте предельный случай е = 0. 3. Относительные детерминированные помехи. Теорема 2. Пусть ||rft|| allVf(xs)||, a < 1, Тогда найдется у>0 такое, что при 0 < у < у метод (1) сходится к х* со скоростью геометрической прогрессии. Доказательство. Возьмем в качестве функции Ляпу- нова V(x) = f(x) — Тогда (см. леммы 1 и 3 § 4 гл. 1) (W (xs), ss) = (V/ (xk), Vf (xs) + rs) >(1 - a)|| Vf (xs)II2> >(1 -a)2Z]Z (xs), II sk ||2 < || Vf (xs) II2 (1 + a)2 < 2 (1 + a)2 LV (xs). Остается применить теорему 4 § 2 гл. 2. A Таким образом, градиентный метод устойчив к относитель- ным ошибкам, если их уровень менее 100%. Причина этого оче- видна— всякое направление, составляющее с антиградиентом острый угол, является направлением убывания f (х) и может быть использовано в качестве направления движения вместо градиента. 4. Абсолютные случайные помехи. Пусть помехи rk случайны, независимы, Mrs — 0 и М[|г&||2 d о2. Теорема 3. Найдется у> 0 такое, что при ук ~ у, 0 < у < у в методе (1) м (f (Xs) - Г) < Р (v) + м (f (х°) - П q\ (4) где q < 1, р(у)-*0 при у->0. Если оо Ys-*0> Eya = °o, ьо
§ 2. ГРАДИЕНТНЫЙ МЕТОД ПРИ НАЛИЧИИ ПОМЕХ 99 то М || хк — х* ||2 —> 0. Если же оо оо SYfe=o°. (6) fe=»0 k^O то хк—>х* п. н. Наконец, если yh — y/k, у > (2Z)-1, то MCfM-nCjf^T+od). Р) Доказательство. Возьмем V (х) = f (х) — f*. Тогда (W (хк), Ms*) — (Vf (хк), Vf (x*)) > 2/V (xk), M || sk ||2 = || Vf (xk) ||2 + M || г* Ц2 C o2 + (W (xk), Ms*). Теперь остается воспользоваться теоремами 2—5 § 2 гл. 2. А Мы увидим далее (теорема 4), что вышеприведенные оценки не завышены, поэтому теорема 3 дает основания для следую- щих выводов. Во-первых, обычный вариант градиентного ме- тода (с yk = у) при наличии аддитивных случайных помех не сходится к точке минимума, а приводит лишь в окрестность ми- нимума. Размеры этой области тем меньше, чем меньше у. Во- вторых, выбирая убывающие у*, можно сделать метод сходя- щимся в том или ином вероятностном смысле (в среднем при оо ys->0 и почти наверное при У у^ < оо). В-третьих, скорость сходимости при этом довольно медленна (порядка 0(1/6)). Как мы увидим в дальнейшем, более высокой скорости сходимости нельзя добиться ни при каком выборе -у*. Уточним теорему 3 для квадратичной функции и помех по- стоянного уровня. Итак, пусть f(x) = (Ax, x)/2-(b, х), H^A^LI, Z > 0, Mr* = 0, Mr* (гк)т = о2/. (8) Будем считать, что начальное приближение х° случайно и сим- метрично распределено вокруг х*: М(х°— х*) (х°— х*)т — al. Теорема 4. При любом 0 < у < 2/L, у* = у в методе (1) при условиях (8) для величины /4 = М(х* - х*)(х* - х*)т (9) справедливы соотношения ^-^{/оо = уо2Л-1(2/-уЛ)-1, (10) II || <|| Uo - U„ || qk, «у = max {(1 - у/)2, (1 - у/.)2} <1.(11) Если yk~y/k, у > (2/)-1, то ^-|в(у) + о(|), В(у)=уа2(2Л-|/)'‘. (12)
100 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ Величина || В (у) || минимальна при у = 1/1, fl Uk II = у -уг + о (-0. ▲ (13) 5. Относительные случайные помехи. Пусть помехи rk такие же, как в предыдущем пункте, но их дисперсия удовлетворяет условию М || rk II2 < а II Vf (х) ||2. (14) Теорема 5. При любом а существует у такое, что при yfe==y, 0<у<ув методе (1) будет М || xk — х* ||2 < cqk, q < 1. ▲ (15) Мы видим, что наличие случайных относительных помех лю- бого уровня не приводит к нарушению сходимости.. Итак, в зависимости от типа помех их присутствие может либо сохранять, либо нарушать сходимость градиентного ме- тода. Иногда сходимость можно восстановить за счет регули- ровки длины шага. § 3. Другие методы минимизации при наличии помех 1. Метод Ньютона. Вопрос о поведении метода Ньютона при наличии помех значительно более сложен, чем тот же во- прос для градиентного метода. Дело в том, что в этом методе может быть несколько источников помех (вычисление Vf(x), V2f(x), обращение V2/(x)) и их природа может быть различна (например, случайные ошибки в вычислении градиента и си- стематические в обращении матрицы). Мы не будем стараться рассмотреть все возможные ситуации, а остановимся на не- скольких характерных примерах, интересуясь лишь качествен- ным анализом процесса. Пусть в результате всех вычислений (градиента, гессиана, решения системы линейных уравнений) получается вектор, от- личающийся от истинного: ?=[VW‘vf(xW, (1) где rk — помеха, и делается шаг xw = xk— git. (2) Предположим, что помеха может содержать систематическую ошибку: || Гк || < 8. (3) Как мы знаем, метод Ньютона сходится локально в некоторой области U. Ясно, что если 8 больше диаметра U, то сходимости заведомо нет — при любом х°, сколь угодно близком к х*, про-
$ 3. ДРУГИЕ МЕТОДЫ МИНИМИЗАЦИИ ПРИ НАЛИЧИИ ПОМЕХ 101 цесс выходит из U. Таким образом, возникает ситуация, кото- рой не было в градиентном методе: при достаточно высоком уровне абсолютных помех метод Ньютона может вести себя бессмысленным образом (например, ||xfe — х*|| может возра- стать) при любом х°. Возникновение систематических ошибок в методе Ньютона неизбежно, даже если Vf(x) и V2/(x) вычисляются точно. Дело в том, что если число обусловленности ц точки минимума (§ 3 гл. 1) велико (а именно тогда применение метода Ньютона наи- более целесообразно), то матрица \72/(л?) оказывается плохо обусловленной. Поэтому результат решения системы линейных уравнений V2f(x*)z — Vf(xfe) для определения шага метода от- личается от точного решения вследствие ошибок округления в ЭВМ. Это отличие (для плохо обусловленных систем) может быть значительным и приводит к развалу метода Ньютона. Присутствие случайных или относительных ошибок не столь катастрофично, но может повлечь существенное замедление метода Ньютона. Пусть, например, требуется минимизировать квадратичную функцию f (х) = (Ах, х)/2 — (Ь, х), А > 0, (4) причем матрицы А и А-1 вычисляются точно, а градиент содер- жит случайную ошибку: sk — Vf (xk) + rk — Axk — b + r\ Mr1' = 0, M || rk1|2 — a2. (5) Рассмотрим метод xk+x = хч ~-ykA~xsk, (6) являющийся обобщением метода Ньютона за счет введения па- раметра Как мы увидим в дальнейшем (теорема 1 § 5), этот метод ни при каком способе выбора ук не может сходиться быстрее чем 0(1/6). Но скорость сходимости такого же по- рядка может обеспечить гораздо более простой градиентный метод. Таким образом, здесь теряется основное преимущество метода Ньютона —его высокая скорость сходимости. Аналогич- ная ситуация возникает при наличии относительной ошибки. Если, например, градиент вычисляется с относительной ошиб- кой, то метод Ньютона может сходиться лишь со скоростью геометрической прогрессии. Лишь при высокой точности вычислений метод Ньютона со- храняет свои преимущества (см. упр. 1). Упражнение. 1. Докажите следующий результат. Пусть г* в (1) удовлетворяет усло- вию II II < с || V? (xk) р, - (7) а к f(x) применима теорема 1 § 5 гл. 1. Тогда при достаточно малом с ме« тод (2) локально сходится с квадратичной скоростью
102 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ 2. Многошаговые методы. Ограничимся вновь анализом неко- торых характерных частных случаев. Начнем с метода тяжелого шарика. Можно показать, что при наличии абсолютных детер- минированных помех в определении градиента он сходится в область вокруг минимума. Громоздкая выкладка показывает, что для квадратичной функции размер этой области, вообще говоря, больше, чем для градиентного метода. Приведем анало- гичный результат, относящийся к абсолютным случайным поме- хам. Пусть / (х) == (Лх, х)/2 — (6, х), П А LI, Z > 0, sk — yf (xk) + rk = Axk — bA~rk, Mr'; = 0, (rk)r = u2I, причем помехи rk взаимно независимы. Как можно показать, метод тяжелого шарика с постоянными коэффицентами xs+1 = xk— asft + P(xfe — х^”1) (9) в такой ситуации не сходится к ? = А~ХЬ, а приводит лишь в область вокруг х*. Поэтому рассмотрим метод с переменными коэффициентами, который удобно записать в форме хк+1 = xk — akyk, yk+i = yk — {Н (yk — sk). (10) Наряду с ним рассмотрим градиентный метод xk+i = xk — yksk. (11) Ограничимся коэффициентами вида ak = ^a, = Y* = TY- (12) Теорема 1. При любом выборе а, |3 метод (10), (12) схо- дится асимптотически не быстрее (в смысле величины || М (xk — х*) (xk — х*)т ||), чем метод (11) с yk = А Таким образом, метод тяжелого шарика, превосходящий гра- диентный метод по скорости сходимости для задач без помех, является относительно менее эффективным при наличии помех. Этот вывод относится только к асимптотическому поведению метода. На начальных итерациях, когда относительная величина помех мала, двухшаговый метод может превосходить одношаго- вый, как и для задач без помех. Примерно такова же ситуация с методом сопряженных гра- диентов. Полный анализ его поведения при наличии помех очень сложен. При этом разные его 'варианты по-разному реагируют на ошибки. По-видимому, наиболее устойчивы к погрешностям формулы (13), (14) из § 2 гл. 3, несколько менее — формулы (23) и (24) § 2 гл. 3. Можно показать, что при абсолютных и относительных помехах метод сопряженных градиентов вблизи минимума теряет преимущества перед градиентным. Лишь если
§ 4, ПРЯМЫЕ МЕТОДЫ 103 помехи удовлетворяют условию типа (7), то метод сопряженных градиентов сохраняет свои достоинства. 3. Другие методы. Квазиныотоновские методы очень чувстви- тельны к ошибкам вычисления градиента. Действительно, в них восстанавливается матрица А — V2f(x) по измерениям гра- диента: Ар1 — у1, р1 = xi+l — х1, у1 — Vf (xi+1) — V/ (х!), i = 0, ..., k — 1. (13) Если шаги малы (х‘+1 близко к х1), а измерения Vf(x!') содер- жат ошибки, то матрица восстанавливается плохо. Для задач со случайными аддитивными помехами с этим эффектом можно бороться путем увеличения числа измерений — нужно восстанав- ливать не по п значениям V/(x), как в детерминированном слу- чае, а по N > п замерам. При этом можно выписать рекуррент- ные формулы, аналогичные приведенным в § 3 гл. 3. Для не- случайных помех такой прием, вообще говоря, не приводит к повышению точности. Совершенно аналогичные замечания относятся и к методу секущих — чтобы сделать его работоспособным при наличии случайных помех, нужно брать число базисных точек заметно большее, чем размерность пространства. Однако нужно помнить, что возможности всех методов, осно- ванных на квадратичной аппроксимации, весьма ограничены в задачах с помехами — даже знание точной матрицы вторых про- изводных не спасает положения (см. анализ для метода Ньюто- на в § 2). § 4. Прямые методы 1. Постановка задачи. Пусть в произвольной точке xk изме- ряется значение f(xk) с ошибкой т)*. По-прежнему будем гово- рить об абсолютной (относительной) детерминированной ошиб- ке, если |л/г|^е (|ти| a.(f(xk)— f(x*))), и об абсолютной (относительной) случайной ошибке, если т|й случайны, незави- симы, Мт],г = 0 и (Mnl (f (xk) — f (х Задача за- ключается в изучении влияния разного рода ошибок на прямые методы минимизации (§ 4 гл. 3) и в модификации этих методов для преодоления влияния помех. 2. Разностные методы при случайных помехах. Рассмотрим методы типа приведенных в § 4 гл. 3 в ситуации со случайными помехами. Начнем с наиболее типичного примера — метода Ки- фера— Вольфовица (метода разностной аппроксимации гра- диента) : п xk+' = xk — yksk, sk=YJ~^~(f + akei) ~f(xk~ akei))e{, (I)
104 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ е, -- координатные орты. Здесь и далее- f (х) = /(д) -Ь л, (2) причем случайные, ошибки ц независимы в различных точках и Mi] — 0, Мгу ст2. (3) Обсудим вопрос о выборе пробных и рабочих шагов а/е, у/(. Обозначим sk-\f (xfe) = gft + ^, где gk — систематическая, а — случайная ошибки. Если f(x) дважды дифференцируема, a V2f(x) удовлетворяет условию Липшица, то в соответствии с леммой 1 § 4 гл. 3 || g* || < са2. (4) Для случайной составляющей погрешности оценки градиента имеем М^ = 0, М ||^fe II2 < ст2/(2а2). (5) Таким образом, при уменьшении а* убывает систематическая погрешность, но растет случайная. Покажем, прежде всего, что можно так регулировать ak, yk, чтобы обеспечить сходимость. Теорема 1. Пусть f(x) сильно выпукла и дважды диффе- ренцируема, V2/(x) удовлетворяет условию Липшица, выпол- нено (3) и для ук, ak справедливы соотношения >2ya=°°, Sy1«2<oo, Еу2а-2<оо. (6) k -0 &«=0 fe=«0 Тогда в методе (1) хк-^х* п. н. и М || xk — х* ||2 0. Если при этом \k = Y/&, ak ~ ct^ '1/8 и у достаточно велико, то М || xk — х’||2-— = О(^2/3). А Можно получить аналогичный результат для несимметрич- ной разностной аппроксимации градиента при менее жестких предположениях о гладкости f(x) (см. упр. 2). Таким образом, при наличии аддитивных случайных помех в измерении функции для сходимости следует и пробные, и ра- бочие шаги стремить к 0, причем пробные шаги следует умень- шать медленнее. Асимптотическая скорость сходимости зависит от выбора ай, уь, гладкости f(x) и вида разностной аппроксима- ции, однако она не превосходит O(k~s), s< 1. Эти же выводы справедливы и для более общих алгоритмов из § 4 гл. 3. Приведем более точные оценки скорости сходимости для квадратичной функции при постоянных аддитивных помехах: f (х) = (Ах, х)/2 - (Ь, х), А^И>0, хе R", f (*) ==/(*)+ л, Мп = 0, Мп2 “О'2,
§ 4. ПРЯМЫЕ МЕТОДЫ 105 где помехи т] независимы в различных точках. Сопоставим ме- тод Кифера — Волъфовица (градиентный) хй+' = хк — sk = У U (х& + ~ F (хк — ойе;)] е.: и метод случайного поиска xk+\ = xk — yksk, sk = (2a4)-1 [f (xk -j- afe/i'1) — f (xk — akhk)] h\ где hk — случайный вектор, равномерно распределенный на еди- ничной сфере (и не зависящий от р). Поскольку для квадра- тичной функции систематическая ошибка в разностной аппрок- симации градиента равна 0 при любом ak (лемма 1 § 4 гл. 3), здесь не нужно стремить к 0. Будем считать, что в (8) и (9) ср, == с. > 0. Используя теорему 4 § 2, нетрудно доказать, что в методе (8) при ук — y/k, у > 1 / (21) М (хк - х*) (хк - хУ = 1 (2Л - 1 /)~‘ + о (|) , (10) а в методе (9) при у*=-у/й, у > п/(2/) М(^-^)^-.гТ = 1.^(2Л-^/)-1+ о(|). (11) Отсюда следует, что если брать yk в (8) в п раз большим, чем в (9), то п шагов метода (9) будут асимптотически экви- валентны одному шагу метода (8). Учитывая, что трудоемкость мотода (8) в п раз больше, чем метода (9), получаем, что в данной ситуации методы (8) и (9) эквивалентны по их асимпто- тической эффективности. Любопытно, что этот вывод не зависит от обусловленности или каких-либо других свойств А (ср. с иной ситуацией в задачах без помех в § 4 гл. 3). Отметим в заключение, что к асимптотическим оценкам типа приведенных в теореме 1, следует относиться с большой осто- рожностью. Например, выбор а* = означает, что нужно сделать миллион итераций, чтобы уменьшить пробный шаг в 10 раз. Поэтому практически счет будет происходить при по- стоянном (Xfe. Упражнения.. 1. Покажите, что среди ал, вида ал = akP, yk = ykr в условиях тео- ремы 1 наилучшим в смысле асимптотических оценок скорости сходимости выбором является приведенный в теореме: г — —1, р = —’/з- 2. Сформулируйте аналог теоремы 1 для несимметричной разностной аппроксимации градиента и в предположении, что Vf(.v) удовлетворяет усло- вию Липшица. Покажите, что в этом случае наилучшпй выбор параметров таков: yk = y/k, os При атом М Их4 — х*||2 — О(1/.%1/2).
106 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ 3. Другие методы. Для задач с помехами перестают быть работоспособными все методы, построенные на одномерных ми- нимизациях (например, методы сопряженных направлений § 4 гл. 3), поскольку такую минимизацию нельзя осуществить. Бо- лее перспективными являются методы, ,в которых строится не- локальная аппроксимация функции по ее значениям в ряде то- чек (типа симплексного поиска или метода барицентрических координат, см. § 4 гл. 3). Влияние помех сказывается в том, что эти методы перестают работать в окрестности минимума, где уровень помех сравним с приращениями функции. Если помехи случайны и центрированы, то методы можно модифицировать так, что они останутся работоспособными и в указанной обла- сти. Общая идея такой модификации — использовать большее число точек для построения аппроксимации функции, чем в де- терминированном случае. Это позволяет усреднять помехи и по- лучать все более точную аппроксимацию. Например, в симп- лексном методе можно многократно проводить вычисления функции в каждой вершине симплекса, сопоставляя точность оценки значений функции с их разностью в различных вер- шинах. Более экономный способ заключается в пересчете аппрокси- мации после каждого нового измерения. Опишем лишь схему подобных методов на упрощенной модели. Пусть можно предпо- лагать, что функция f(x), хе R", аффинна в некоторой области: f(x)»(a, х)+₽, и уже вычислены ее значения с помехой в k (k 2г п + 1) точках: у, — (а, х') + ₽ + гр, г" — 1, • • •, к, где гр — случайные независимые помехи, МЛг = О, Мл2 — ff2- Рассмотрим («+ 1)-мерные векторы zl — {хг, 1}, с* = {а, р} и запишем из- мерения в виде yt = (с*, г‘) + тр. Найдем оценку для с* методом наименьших квадратов, т. е. ck = argmin X (У; ~ (c> z'))2 = X z' (zf)r ) ( X zlyt) = c i — 1 \ i = 1 / \ i — 1 / k / k ч"1 = rfe = (Sz'(zy) . (12) ;=i \i=i / Этому методу можно придать рекуррентную форму — новое измерение в точке хА+1: z/ft+i = (c*, гА+’) + т1*+ь гА+1 = {xA+1, 1}, может быть учтено с помощью следующей формулы: смл = — rfe+1zfe+1 ((с\ г*+1) — ук+1), Г zfe+I (Г Tfe+1 “Г/. (rfezft+1, zs+1) 1 п > (13) /п+1
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 107 Таким образом, на каждом шаге не нужно заново вычислять оценку для аппроксимирующей функции, решая систему линей- ных уравнений (12), а достаточно использовать простую рекур- рентную формулу (13). Оценка ск может быть использована для реализации шага спуска: xA+1 = xk — ykak, ck — {aft, (3/J, и npo- верки согласованности линейной модели функции с измере- ниями. Разумеется, в реальных задачах линейная модель функ- ции правомерна лишь локально, и метод минимизации должен включать «забывание» информации, полученной на ранних ите- рациях. Совершенно аналогичные способы могут быть применены для восстановления квадратичной аппроксимации функции по ре- зультатам измерений, содержащих случайную ошибку. § 5. Оптимальные методы при наличии помех 1. Потенциальные возможности итеративных методов при на- личии помех. Для детерминированных «невозмущенных» задач, как мы видели, существует множество методов, каждому из которых присуща своя скорость сходимости. Так, для гладких сильно выпуклых функций метод тяжелого шарика сходится быстрее градиентного, метод сопряженных градиентов — быст- рее метода тяжелого шарика, метод Ньютона — еще более быстро и т. д. Вопрос об оптимальном в смысле скорости схо- димости методе здесь весьма сложен. Оказывается, наличие по- мех в определенном смысле упрощает ситуацию — оно ограничи- вает возможности любых методов минимизации. В этом случае существует некая предельная скорость сходимости, которая не может быть превзойдена. Тот метод, для которого эта предель- ная скорость достигается, естест§енно считать оптимальным. Начнем с результатов, устанавливающих потенциальные возможности по скорости сходимости произвольных итератив- ных алгоритмов (не обязательно связанных с минимизацией) при наличии случайных помех. Рассмотрим итерационный про- цесс в R": xk+l — хк ~ yksk, sk = Я (xk) + |/г, (1) где yk -~Э- 0 — детерминированные скалярные множители, Р(х)— некоторая функция, а — случайные помехи, предполагаю- щиеся независимыми и центрированными (M£s = 0). Начальное приближение х° может быть либо детерминированным, либо случайным, в последнем случае предполагается, что М||х°||2 < оо и х°, независимы. Предположим, что существует единственная точка х* такая, что /?(х*)=0 и /?(х) удовлетворяет условию линейного роста: IIR (х) || < L || х - х* ||. (2)
$ 8. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 100 (обратите внимание, что здесь знак неравенства для дисперсии помех изменен на обратный по сравнению с § 2). Предположим, что f(x) имеет точку минимума х*, а градиент Vf(x) удовлетво- ряет условию Липшица с константой L. Тогда мы находимся в условиях применимости теоремы 1, и из нее следует, что при любом выборе yk для метода (5) справедлива оценка МIIxk - х*II2 >(1/М || х° - х*II2 + ЬЬ2/<У2у\ (7) Иначе говоря, никакой вариант градиентного метода при наличии абсолютных случайных помех не может сходиться быстрее О (1/&) (точнее, М || xk — х* ||2 a2/(L2k) 4- о (1//?)). Заме- тим, что для градиентного метода с yk — y/k было М ||xs—-х*||2 = = О(1/&), т. е. он асимптотически оптимален по порядку ско- рости сходимости. Более точно вопрос об оптимальности гра- диентного метода будет исследован далее. Рассмотрим теперь метод Ньютона при наличии помех. Бу- дем считать, что матрица [V2f(xs)]-1 вычисляется точно, а гра- диент содержит аддитивную случайную помеху В этом слу- чае метод Ньютона (модифицированный за счет введения пара- метра, задающего длину шага) принимает вид xfe+i = xs - yk [V2f (xs)f‘ (V/ (xs) + gs). (8) Относительно помех gs будем считать, что они независимы и М^ = 0, (9) Можно показать, что в условиях теоремы 1 § 5 гл. 1 о сходимо- сти «невозмущенного» метода Ньютона детерминированная часть процесса (8) (т. е. /?(хА) = [V2f (xs) ]-1Vf (xs)) в окрестно- сти решения удовлетворяет условию Липшица, а случайная часть имеет дисперсию, ограниченную снизу. Таким образом, ме- тод (8) также не может сходиться быстрее, чем со скоростью Иначе говоря, наличие случайных помех уничтожает преимущества быстро сходящихся методов минимизации. Приведем результат, аналогичный теореме 1, но примени- тельно к относительным помехам. Теорема 2. Пусть выполнены предположения, сформули- рованные в начале параграфа, и для всех k M||^||2>t||xs-x*||2. (10) Тогда для любого метода (1) М || Xs - х* ||2 > МII х° - х* ||2 qk, q^=x/(L2 + x). ▲ (11) В качестве первого примера использования теоремы 2 рас- смотрим градиентный метод при случайных относительных по- мехах. Пусть f(x) дифференцируема, существует точка мини- мума х*, Vf(x) удовлетворяет условию Липшица с константой L, а помеха в определении градиента независима при различных k
108 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ Теорема 1. Пусть для всех k а2- (3) Тогда при сделанных выше предположениях для, любого ме- тода (1) М||х*-х*||2> 1/(а + ^), а == 1/M ||х° — х*||2, b = L2ja2. (4) Подчеркнем, что в этой теореме, в отличие от любых теорем сходимости, приводившихся ранее, даются оценки скорости схо- димости не сверху, а снизу. Теорема относится к любому спо- собу выбора ук — в частности, и такому, для которого сходи- мость не имеет места. Доказательство. Оценим условное математическое ожи- дание M(||xs+1 —х* II2 |х*): М (|| xk+l - х’ ||21 xk) = || xs - х’ - ykR (х*) ||2 + у2М || ||2, II xk - х* - ykR (xs) II >( II Xs - х* II - yft ||/? (xs) II)+ > XI|xs-xe||-Y^||xs-x*||)+, М (||xs+‘ - х*1|21 x*)>(1 - ykLf+ ||xfe - x*||2 + yK Отсюда M || xs+] - x‘ ||2 >( 1 - У/Л)+М IIxk ~ ГII2 + Yfe°2- Стоящая справа кусочно-квадратичная функция достигает ми- нимума по yk при yj = LM || xs -- x*||2/(L2M || Xs — х*||2 + ст2). От- сюда получаем М || х*+> - х* ||2 > (1 - у;Т)2+ М || Xs - х* ||2 + (yj)2 ст2 = = ст2М || Xs - х* ||2/(L2М || Xs - х* ||2 + ст2), или, обозначая ик = 1/(М ||xs — х*||2), uk+i < Т?/ст2 + ик. Таким образом, ик иа + kL2la2, т. е М || xk - х* ||2 > [ 1 / М || х° - х* ||2 + Ш/ст2] ~1. А Из теоремы 1 следует, что любой метод вида (1) при сделан- ных выше предположениях не может сходиться быстрее 1/ (а + bk), или асимптотически — быстрее O(\/k). Приведем некоторые примеры использования этого резуль- тата. Вновь, как и в § 2, рассмотрим градиентный метод мини- мизации f (х): xk+i = xk — yksk, sk = Vf (xfe) +14 (5) при абсолютных случайных помехах; М^ = 0, М||^||2>ст2 (6)
но ГЛ. 4. ВЛИЯНИЕ ПОМЕХ и удовлетворяет условиям = О, М || ||2 X т || хк — х* ||2. Тогда в методе (5) при любых у/, выполняется неравенство (11). Иными словами, градиентный метод при случайных относитель- ных помехах не может сходиться быстрее, чем со скоростью гео- метрической прогрессии. Вторым примером может служить метод случайного поиска. Пусть f(x)—квадратичная функция: f (х) = (Ах, х)/2 - (Ь, х), II^A^LI, / > 0. (12) Рассмотрим метод xk+1 — xk — (уй/(2а)) (f (xk + ahk) — f(xk — ahk)) hk, (13) где hk — случайный равномерно распределенный на единичной сфере вектор, с-: > О— фиксированная длина пробного шага. Метод может быть записан в виде (см. § 4 гл. 3) хк+} = xk — ykhk(hk)T Vf (xk) = xk — sk = hk (hk)T vf (xk). Используя результат упражнения 1, получаем 7?(xs) = Msfe = -^-Vf (xk), MII ¥ II2 = MII sk - R (xk) ||2 = 1| Vf (xk} ||2 > P || xk - x* II2. Из теоремы 2 следует, что при любом способе выбора ук метод случайного поиска не может сходиться быстрее, чем геометри- ческая прогрессия со знаменателем q = (n- 1)P/(L2 + (п- Щ2). (14) В частности, для f(x) = ||х||2/2, хе R", метод случайного поиска сходится не быстрее прогрессии со знаменателем (п— 1)/п. Теорему 2 можно несколько уточнить для случая, когда R(x) линейна, а для помехи известна оценка снизу не только для дисперсии, но и для матрицы ковариаций. Итак, расматривается метод х*+‘ = xk - (A (xk - х*) + lk), (15) где независимы, х° случайный вектор, Л-1 существует и М^ = 0, MW)r>B>0, М (х° — х*) (х° — х*)г > О, (16) а — детерминированные матрицы пХ«- Теорема 3. В методе (15) при любых Гй справедлива оценка М (хк ~ х*) (xk - х*)г > [(М (х° - х*) (х° - х*)г)’1+ЫгВ’1л]'1 = -4-Л-'вЫТ' + <>(4). А (17)
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 111 В качестве приложения рассмотрим обобщение градиентного метода минимизации квадратичной функции f (х) = (Ах, х)/2 - (Ь, х), А > // > О при наличии помех: xft+1 = ris-rft(Vf(ris) + ^), М^ = 0, М^(^)г = о2/- (18) Применяя теорему 3, получаем, что при любых М (? - .*) (/ - > О1 + ± Л2) = 4 а-2 + о (1), (19) [/0==MU°-x*)(x0-xT, || М (xk -V) (х* - х*У И > 4 + о (1) , (20) причем равенство в (19), (20) достигается (см. упр. 2) при 1Д = (kA + = k~xA~l + о (1/k). (21) Сопоставляя (20) с оценкой (13) § 2 для градиентного метода, получаем, что при данных условиях выбор у* = 1/(^/) в гра- диентном методе является асимптотически оптимальным. Упражнения. 1. Пусть ft — случайный вектор, равномерно распределенный на единич- ной сфере в R’1. Докажите, что MhhT = п 11, и если а — произвольный век- тор, то М || hhTa — п~'а ||2 = (я-1 — я-2) ||а||2. 2. Покажите, что если (£k)T = В, то неравенство в (17) переходит в равенство при Г», задаваемом (21). 2. Оптимальные алгоритмы. До сих пор мы ограничивались весьма узким классом алгоритмов — линейными рекуррентными; Однако вопрос об оптимальности можно решать для гораздо бо- лее общего класса процедур. Оказывается, что в ряде случаев можно установить потенциальные возможности любых (не обя- зательно рекуррентных или линейных) методов минимизации при наличии случайных помех. Основным инструментом здесь является известное в статистике неравенство Крамера—-Рао (информационное неравенство). Пусть функция f(x) квадратична: f (х) = (Ах, х)/2 - (Ь, х), Л > 0, (22) а ее градиент вычисляется со случайной помехой £. Предполо- жим, что помехи | независимы и одинаково распределены (рань- ше мы такого предположения не делали). Пусть уже вычислены значения г1 = \lf(xl) + g1, ..., rk — ^f(xk)Jr в некоторых точ- ках x', ..., xk. Наконец, пусть матрицы А и A~! известны. Тогда xl— х* = А-'г1 — A-1V, i — 1> •••> Обозначим z‘ — х‘ — A~lr‘, ту = —А-1^. Тогда z‘ = х* -f- ту. Величины z‘ известны (так как
112 ГЛ. 4. ВЛИЯНИЕ ПОМЕХ х‘, г1 и А-1 известны), а величины гр независимы и одинаково распределены (ибо такими являются £*)• Таким образом, за- дача свелась к следующей. Заданы векторы z‘ = х* + ц1’, где — реализации независимой, одинаково распределенной слу- чайной величины. Требуется по ним оценить х*. Это — классическая задача оценки параметров, рассматри- ваемая в статистике. Для нее справедливо неравенство Краме- ра— Рао, утверждающее, что если гр имеют плотность pn(z), эта плотность регулярна (т. е. справедливо равенство \ VPr] (z) dz — 0) и существует фишеровская информационная матрица С Vpn (2) (2) J = \----!---------dz J (*) 0 < J < ОО, (23) то для любой несмещенной оценки xk вектора х* по измерениям zl, i — 1, ..., k, имеет место неравенство М(?-х*)(?-х*)г^й-17-1. (24) Иными словами, существует нижняя граница точности произ- вольных несмещенных оценок. Используя (24) и результат упражнения 4, приходим к следующему результату. Теорема 4. Пусть помехи Q имеют плотность р (z), причем p(z) регулярна и 7 = \^—----dz существует, 0 < 7 < оо. Тогда для любой несмещенной оценки № точки минимума х* функции (22), построенной по измерениям гг = Vf (хг) + |г, г = 1> •••> k, в k точках, справедливо неравенство М (^ - х‘) (? - х‘)г ^k~'A~xJA~\ ▲ (25) Важно, что сюда не входят точки измерения х1, ..., xk. Та- ким образом, при любом способе выбора /г точек измерения гра- диента нельзя найти минимум с точностью, большей чем зада- ваемая неравенством (25). Остается построить метод, для которого указанная нижняя граница достигается. Если ограничиться линейными алгорит- мами xs+1 — xk — (Nf (xft) + |й), (26) где H > 0 — некоторая матрица, то получаем, что асимптоти- чески оптимальный выбор и Н таков: уй=1/й, Н = А~\ (27) при этом М(/-х*)(х%-х‘)7’</г-’А^ВА^ + о(й“’), В = (28)
§ 5. ОПТИМАЛЬНЫЕ МЕТОДЫ ПРИ НАЛИЧИИ ПОМЕХ 113 С учетом упражнения 3 отсюда получаем, что если распре- делены нормально, то правая часть (25) совпадает с правой частью (28). Таким образом, для случая нормальных помех алгоритм (26), (27) является асимптота чески оптимальным (не только среди линейных или рекуррентных алгоритмов). Для других распределений помехи алгоритм (26), (27), вообще го- воря, не оптимален. Более того, можно показать, что правая часть (25) строго меньше правой части (28) для любого распре- деления, отличного от нормального. В этом случае оптимальный алгоритм можно получить, введя нелинейность в итерационный процесс = xk — yferp (Vf (xfe) + £fe), (29) где функция ср: R”->Rn и у* выбираются следующим образом: ср (z) = /'‘A-‘v In р (z), yk=\/k. (30) Для нормальных помех метод (29), (30) переходит в (26), (27). Можно показать, что при. определенных условиях на p(z) распределение величины -yjk (хк — х*) для метода (29), (30) стремится к нормальному со средним 0 и матрицей ковариаций A~lJA~l. Сопоставляя это с правой частью (25), получаем, что метод (29), (30) является асимптотически оптимальным. Практическая реализация метода (29), (30) затруднительна, так как в нем нужно знать матрицу А-1, а также плотность рас- пределения помехи. Мы не будем останавливаться на способах преодоления этих трудностей. Здесь более важен принципиаль- ный факт — возможность построения асимптотически оптималь- ного алгоритма решения задачи минимизации при наличии слу- чайных помех, причем этот алгоритм оказывается рекуррентным. Подчеркнем еще, что все выводы здесь носили асимптотиче- ский характер. Оптимальный алгоритм для конечных k в случае нормальных помех дается выражением (21). Видно, что на на- чальных шагах (k С о2А-2£/о’’) Г* примерно постоянно: as та <j-2U0A, а для больших k убывает как £-*: Г;, — ф- + o(ZH). Отметим также, что оптимальные алгоритмы предполагают точное знание закона распределения помехи и неустойчивы к отклонению истинного распределения от предполагаемого. Су- ществуют способы преодоления этой трудности (так называемые робастные алгоритмы минимизации). Упражнения. 3. Пусть случайный вектор т] распределен нормально со средним 0 и ко- вариационной матрицей S. Покажите, что в этом случае информационная матрица (23) определяется формулой J *= S-*. 4. Пусть случайные векторы ?, и г| связаны зависимостью ц = Bg, где В — некоторая матрица. Докажите, что для соответствующих информацией- ВЫХ матриц справедливо соотношение BJ ^Вт,
Глава 5 МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Во многих случаях функции, которые нужно минимизиро- вать, оказываются недифференцируемыми. Примеры такого типа, связанные с декомпозицией, штрафными функциями, ис- пользованием теорем двойственности и т. д., будут неоднократ- но встречаться в дальнейшем. Негладкие функции возникают также в задачах наилучшего приближения, в статистике при оценке параметров по методу наименьших модулей, в задаче Штейнера и родственных ей. В приложениях типичны ситуации, когда оптимизируемый показатель — технический или экономи- ческий— недифференцируемым образом зависит от параметров (например, эта зависимость часто бывает кусочно-линейной). По указанным причинам при анализе задач оптимизации нельзя ограничиваться случаем гладких функций. Разумеется, в общем виде задача минимизации недифферен- цируемых функций чрезвычайно сложна. Эти функции могут быть столь «плохо устроены», что значения функции в любом конечном множестве точек не несут информации об ее пове- дении в других точках. Ясно, что такие функции минимизиро- вать безнадежно. Поэтому мы в основном ограничимся важ- ным частным случаем негладких функций — выпуклыми функ- циями. § 1. Сведения из выпуклого анализа Сравнительно недавно (в основном в 60-е годы нашего века) был создан простой и удобный аппарат для работы с выпуклыми функциями и множествами, получивший название выпуклого анализа. Мы неоднократно будем обращаться к технике выпук- лого анализа. Пока потребуются лишь простейшие результаты из этой области. 1. Выпуклые множества и проектирование. Напомним,' что множество Q в R" называется выпуклым, если оно содержит всякий отрезок, концы которого принадлежат Q, т. е. если для любых х , у sQ, 0 Л, ДО 1 X.V-4-(1 — X) г/Q. (1) Отсюда следует (по индукции), что в Q содержится и любая
§ I. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 115 выпуклая комбинация его точек, т. е. x'gQ, Е^ = 1, ^>0, 1=1,..., (2) i ®= 1 i — 1 Непосредственно из определения видно, что такие множе- ства, как шар, параллелепипед, линейное многообразие, много- гранное множество выпуклы, а сфера или конечный набор точек невыпуклы (рис. 10), Рис. 10. Примеры выпуклых (/—3) и невыпуклых {4—6) множеств. Для выпуклой функции f(x) множество Q — {х: f(x)^a}, очевидно, выпукло при любом а. Обратное, вообще говоря, не- верно— функция f (х) — д/ll х || не выпукла, но множества {х: f(x)^a} выпуклы (такие функции называются квазивыпук- лыми). Если множество Q невыпукло, то его можно «овыпуклить». Выпуклой оболочкой ConvQ множества Q называется наимень- шее выпуклое множество, содержащее Q, т. е. пересечение всех выпуклых множеств, содержащих Q. Такое множество сущест- вует и непусто для всех непустых Q. Например, выпуклой обо- лочкой сферы является шар, выпуклой оболочкой двух точек — соединяющий их отрезок. Нетрудно проверить, что выпуклую оболочку можно определить и иначе—как выпуклую комбина- цию конечного числа точек из Q, т. е. Conv Q = f т т ч = ) х = X АаХ1, х1 eQ, Л, > 0, 1 = 1,..., т, £ = 1 > (3) I 1=1 /=! J Лемма 1 (Каратеодори). Для Q с: R" в (3) можно взять т п -ф 1. А
116 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Для замкнутого Q множество Conv Q не обязательно зашс нуто (например, для Q = p;sP<: х2 = х}/2, х, 0} будет Conv Q = {х е R2: 0 < х2 х{12, х, > 0} (J {0, 0}). Лемма 2. Если Q замкнуто и ограничено, то таковым же будет и Conv Q. ▲ В дальнейшем нам часто будет нужна операция проектиро- вания. Проекцией точки х е R" на множество Q cz R" называ- ется точка из Q (обозначаемая Pq(x)), находящаяся на крат- чайшем расстоянии от х, т. е. Pq (х) = argmin || х — у\\. (4) yeQ Ясно, что если xeQ, то PQ(x)—х. Ис- пользуя теорему Вейерштрасса (§ 3 гл. 1) получаем, что для замкнутого Q проекция существует. Если Q выпукло, то проекция единственна, так как PQ (х) — — argmin <р (у), ср (у) ~ ||х — у||2 — строго У е Q выпуклая функция (теорема 3 § 3 гл. 1). Наконец, для выпуклого замкнутого Q проекция обладает следующими свойствами (рис. И): (х — Р^ (х), у — Pq (х)) < 0 для всех у е Q, (5) II Pq (х) — Pq (у) IK IIх — УII для любых х, у. (6) Рис. И. Проекция и ее свойства. Упражнения. 1. Докажите, что если Q выпукло, то множества aQ = {х = а.у, у е Q), AQ = {х — Ау, у е Q) выпуклы (здесь a е R1, А — матрица m \n), а если Qi и Q2 выпуклы, то и Qi П Q2 н Qi + Qz — {х — xt + Хг, xt е Qt, х2 е Q2) выпуклы. 2. Докажите, что функция pQ(х) = ||х—•Р<г(х) || непрерывна для замкну- того Q и выпукла для выпуклого Q, а функция (х) = Pq (х)/2 выпукла и дифференцируема для выпуклого замкнутого Q, причем Vcp(x) = = (х —PQ(x))pQ(x). 3. Пусть х — внутренняя точка выпуклого множества Q, у — его гранич- ная точка. Докажите, что точки (1—К)х-\-Ху являются внутренними точ- ками Q при 0 % < 1 и не принадлежат Q при л > 1. 2. Теоремы отделимости. В основе выпуклого анализа лежат так называемые теоремы отделимости (теоремы Хана — Бана- ха). Два множества Qi и Q2 в R" называются отделимыми, если найдется разделяющая их гиперплоскость (рис. 12), иначе го- воря, если найдется число а и вектор а е R'1, а 0, такие, что (а, х)^а для всех xeQ, и (а, х) Д для всех геО,. ’Они называются строго отделимыми, если найдутся a е R" и a1 > а2 такие, что (a, х) cq для х е Qi и (а, х) sC а2 для х е Q2. Теорема 1 (теорема отделимости). Пусть Qt, Q2 — выпук- лые замкнутые непересекающиеся множества в R", причем Q2 ограничено. Тогда Qi и Q2 строго отделимы.
§ !. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 117 Доказательство. Функция р, (х) — pQi (х) = ||х — PQ< (х) 1| в соответствии с упражнением 2 непрерывна. Следовательно, на ограниченном замкнутом множестве Q2 она достигает ми- нимума. Пусть ai = PQ,(«2), ^ — argminp! (х). Тогда а2 хе= Q,„ (так как Qj и Q2 не .пересекаются), ||«1 — а2 !1 = Р (Qi, Qz)~ = min {|| х — г/1|, xeQb y^Q2} и a2 = ^Q2(ai)- Из (5) следует, что (а,— а2, х)^(а1 — а2,а1)==а1 для xsQ,, (а\ — а2, х)< (й] — а2, а2) = а2 для .rsQ,, cq — a2 = ||aj — а2||2 > 0. Таким образом, мнржества Qi и Q2 строго отделимы. ▲ Рис. 12. Теорема отделимости: а) множества отделимы, б) множества строго отделимы. 13. Опорная гипер- плоскость. Геометрически это доказательство совершенно наглядно (рис. 12,6). Требование ограниченности Q2 в теореме отдели- мости нельзя отбросить: множества Q; = {х е R2, х2 сД 0), Q2 — = {xeR2, х2^хг‘, Xj > 0} не являются строго отделимыми. Теорема отделимости позволяет дока- зать приводимый ниже результат об опорной гиперплоскости. Гиперплоскость L — {х: (а, х) = а} называется опорной к множеству Q в точке х°, если х° е L, а все множество Q лежит в полупростран- стве, задаваемом L, т. е. (а, х) а для xeQ (рис. 13). Теорема 2 (об опорной гиперпло- скости). Пусть Q — выпуклое множество, х0'—граничная точка Q. Тогда существует гиперплоскость, опор- ная к Q в х°. А Упражнения. 4. Докажите следующие варианты теоремы отделимости: а) Пусть Qi, Qz — выпуклые множества, причем Qi и Q2 имеют внутрен- ние точки, ни одна из которых ие является общей для обоих множеств. Тогда Qi и Q2 отделимы.
118 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ б) Пусть Qj, Q2 — выпуклые непересекающиеся множества. Тогда они отделимы. 5. Убедитесь, что множества Qi = {х е R2: |xi| 1, Хг = 0} и Qz— — {х е R2: Xt — 0, | Xz | 1} выпуклы, не имеют общих внутренних точек, но неотделимы (ср. с упр. 4а)). 6. Докажите, что если х — граничная точка Conv Q, то в лемме 1 можно заменить п + 1 на п. 3. Выпуклые недифференцируемые функции. Определение выпуклой функции, данное в § 1 гл. 1, остается в силе и для не- дифференцируемых функций. Именно, скалярную функцию f(x), заданную на всем пространстве R", назовем выпуклой, если для любых х, у s R’ и любых 0 сД % 1 выполняется -неравенство fUx+(l-X)y)<V(x) + (l-K)f(y) (7) (см. рис. 1). Подчеркнем, что всюду в этой главе мы рассматри- ваем лишь функции, областью определения которых является все пространство. В дальнейшем (гл. 9) мы введем более общий класс выпуклых функций, заданных на некотором множестве. Для них многие утверждения данного параграфа (например, лемма 3) будут неверны. Нетрудно проверить, что операции сложения, умножения на неотрицательное число и взятия максимума не выводят из клас- са выпуклых функций. Выпуклые функции обладают и рядом других удобных свойств. В частности, оказывается, что выпук- лые функции на R" устроены достаточно просто. Лемма 3. Всякая выпуклая функция на R" непрерывна. Доказательство. Возьмем произвольные х ед Rn, б>0 и рассмотрим точки а’ = х + 6е1, а2 — х — беь ..., = ==x4-den, а2п = х — 6еп, где еь ..., еп—координатные орты. Пусть А (6) = max | f (а1) — f (х) |. Образуем многогранник Q (6) I < i < 2п с вершинами в этих точках: ( 2п 2п X Q (6) = 1 X > о, £ щ = 1 г = \ i = l i = l ) С п = ) *4-6 X YiO, lYf К 1 (• \ i — 1 ) Докажем, что sup | f (у) — f (х) | А (б). Действительно, пусть у & Q (б) У ~ X У-1а1> Р/ Д* 0, I., Ц; = 1, тогда по неравенству Йенсена м 1=1 2п (лемма 1 § 1 гл. 1) f (у)< У pj (а’)< max f (аг)< f (х) + А (5). J=i > С другой стороны, f (y')^2f (х) — f(y'), где у' ед Q (6) — точка,
§ !. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 11 9 п симметричная с у относительно х, т. е. если у — х + 6 X Ъе1, 1 = 1 то / = х — 6 S ViSi- Поэтому f (у) > 2f (х) — f (у') — A (6), 1 = 1 так как по доказанному f (у') <; f (х) + А (6). Итак, действительно I f (у) — f W К А (6) для всех у е= Q (6). Заметим теперь, что верен следующий факт: всякая одно- мерная выпуклая функция <р(т) непрерывна. Действительно, при е>0 ср (т-|-е) = ф ((1 — е) т + е (т + 1)) (1 — е) ф(т) + + еф(т + 1) = ф (т) -ф е (ф (т -ф 1) — ф (т)); с другой стороны, ф(т) = Ф (т^(^-1) + т4т(т + 8))<ТТТФ(т-1) + тТ7Х Хф(тфе), т. е. ф(т + е) ф(т) + е (ф(т)ф(т —- 1)). Отсюда Ф (т е) —> ф (т) при е—>-|-0. Совершенно аналогично рассма- тривается случай е < 0. Отметим попутно, что отсюда же сле- дует существование левой и правой производных <р(_ (т)=ф'(т; —1) и Ф+(т) = ф'(т; +1), причем ф(т) — ф(т— 1)<ф'(т; 1)<ф(т + 1) — ф(т). (8) В силу непрерывности Аг (d) = | f (аг) — f (х) |=Д f (х ± — — f(x)| стремится к 0 при б—>0. Поэтому и А(6) = тахДг(д) I стремятся к 0 при 6->0. Итак, sup | f (у) — f (х) | ->0 при yeQ(6) 6->0, откуда и следует искомое утверждение. А Следствие. Если f (х) —- выпуклая функция, то множество Q(a) = {x: f(x)^a) выпукло и замкнуто. В частности, мно- жество X* — Argmin f(x) выпукло и замкнуто. А Лемма 4. Выпуклая функция f(x) имеет в произвольной точке х одностороннюю производную по любому направлению, равномерно ограниченную по направлениям-. Г{х. у}== lim а->+0 а < f (х + у) — f (х)< max (f (х + г) — f (х)). А (9) II 2 || = || 1/11 4. Субградиент. Разумеется, выпуклая функция не обяза- тельно является дифференцируемой (рис. 14). Однако для нее можно ввести понятие, во многих отношениях аналогичное гра- диенту. Пусть.f(x)—выпуклая функция на R'1. Вектор а е R«, для которого выполняется неравенство f(x + y)>f (х) + (а, у) (10)
120 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ для всех у е R", называется субградиентом функции /(х) в точке х и обозначается df(x). Как видно из простейших приме- ров (рис. 14), субградиент определяется, вообще говоря, неодно- значно. Мы будем применять обозначение df(x) как для всего множества субградиентов, так и ; вителя (обычно по смыслу ясно, Рис. 14. Субградиент выпуклой функции. ство f(x + i/) = f(x) + (Vf(x), 1я его произвольного предста- что именно имеется в виду). Перейдем к исследованию свойств субградиента. Лемма 5. Если f(x) дифференцируема в точке х, то субградиент определен однозначно и совпадает с градиентом'. df(x) = V/ (х). Доказат ел ь ст в о. Так как градиент удовлетво- ряет неравенству (26) § 1 гл. 1: f(x 4- у) f(x) 4- 4-(V/(x), у), то он являет- ся субградиентом. Вычитая из неравенства (10) равен- 4-о (у), получаем (<5f (х) — — Vf(x), z/)^o(y), что возможно при всех у лишь если df(x)— — Vf (х) — 0. А Можно показать, что всякая выпуклая функция почти всюду (т. е. за исключением множества меры нуль) дифференцируема. Это — известная теорема Радемахера. Лемма 6. Множество субградиентов в любой точке не- пусто, выпукло, замкнуто и ограничено. Приведем схему доказательства. Рассмотрим множество Q = {х, a: a^f(x)} в пространстве Rn+i (эт0 множество на- зывается надграфиком или эпиграфом функции /(х)) (рис. 15). Множество Q, очевидно, выпукло, а из леммы 3 следует, что оно имеет внутренние точки. Точка {х, f(x)} является граничной точкой Q. По теореме 2 существует опорная гиперплоскость к Q в этой точке, задаваемая вектором {а, -1}. Тогда а является субградиентом f(x) в точке х. Выпуклость и замкнутость мно- жества субградиентов следует непосредственно из определения, ограниченность следует из леммы 4. ▲ Для негладких функций справедливо неравенство, аналогич- ное (29) § 1 гл. 1: для любых х, у (df (х) — df (у), х — у)^0, (Н) т. е. субградиент является монотонным оператором. Знание субградиента позволяет вычислять производную по направлению (9) с помощью формулы, являющейся обобщением (6) § 1 гл. 1.
§ 1. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 121 и я x Рис. 15. К доказательству суще- ствования субградиента. Лемма 7. Для любых х, у f' (х; у) — max (а, у). (12) а е df (Х‘ Наметим доказательство (12). Поскольку f (х -f-ey) — f (х) (а, у) для всех a^df(x), то f' (х; у)^ max {а, у). Пусть a&dffx'i найдется у° такое, что f'(x;y°)> шах (a, у°). Рассмотрим аез df(x) в Rft+1 луч В = {а, z: а = f (х) -ф kf' (х; у0), z = x + Ку°, Л > 0} и надграфик А = {a, z: а > f (г)}. Поскольку f (z) > f (х) -ф -фЛД(х; у°), то множества А и L не пересекаются. Применяя теорему отделимости, получим противоречие. А Отсюда и из (6) § 1 гл. 1 сле- дует результат, обратный лем- ме 5,— если df(x) состоит из од- ного элемента, то f(x) дифферен- цируема в этой точке. Леммы 3, 4 и 7 приводят к следующему результату. Лемма 8. Субграоиенты вы- пуклой функции f(x) ограничены на всяком ограниченном мно- жестве или множестве вида {х: f (х) -С а}. А В дальнейшем нам придется иногда оперировать с суммами множеств (например, с выражением aidfi (х) -ф a2df2(x) в при- водимой ниже лемме 10). Напомним, что если А, В, С —множе- ства в R”, |3, у е R1, то А = рВ -ф уС означает, что А = — {а — р& -ф ус, Ь<=В, сеСф Мы уже знаем (упр. 1), что сумма выпуклых множеств выпукла; В-\- С = 0, если В = 0. Лемма 9. Если В и С замкнуты и ограничены, то В -ф С замкнуто и ограничено. А. Предположение об ограниченности здесь существенно: на- пример, если В — [х s R2, х2 xf', х} > 0}, С — |х <= R2: хг == 0), то В и С замкнуты, но В-фС = {хеД2: х{ > 0} незамкнуто. Приведем три леммы, дающие возможность вычислять суб- градиенты сложных функций. Лемма 10. Если А(х), f2(x) выпуклы, f (х) = (х) -ф и а1> а2 0, то df (х) = Oj df{ (х) -ф а2 df3 (х). (13) Доказательство. Операция дифференцирования по направлению очевидным образом линейна: f'(x; y)!=a,lf'1(x; у) -ф + a2f2(x; у) для всех х, у. Воспользуемся формулой (12): max (а, у)== max (b, у)+ max (с, у)= max (а, у). at=df(x) bsaidfi (х) cesaidfaW aeai dfi (xj+aidfifx)
122 ГЛ, 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Множества df (х) и щ dft (х) + а2 df2 (х) в силу лемм 6,9 и уп- ражнения 1 выпуклы, замкнуты и ограничены. Но если для всех у е Rn max (а, у) = max (b, у) для выпуклых, замкнутых ие А Ь^В ограниченных множеств А и В, то А и В совпадают (это легко показать с помощью теоремы 1). Поэтому справедливо (13). Л Разумеется, формула (13) распространяется на сумму не- скольких выпуклых функций: Ст \ т. S aifi (х) ) = £ а; dfi (х), а; > 0. (14) =1 / г=1 Следующая лемма дает правило вычисления субградиента максимума нескольких функций. Лемма 11. Пусть f(x) = max 2t(x), где ft(x) выпуклы- 1 < i <tn Тогда df(x) = Conv [J dfi^c), / (x) — {г: (x) = f (x)}. (15) /е/ (x) Доказательство. В силу лемм 6, 2 множество А — = Conv U dfi(x) выпукло, замкнуто и ограничено^ таковым i е / (X) же является и множество df (х). Нетрудно видеть, что Д(х; у) — — max Е(х; у) для всех у. Но по лемме 7 и в силу опреде- 1 S I (X) ления ConvQ max f',(x; у) — max У, (х; у) = к. >0, £ х. = !/е/(х) i <Sl(X) — max (а, у). С другой стороны, f' (х; у) — max (а, у) (лемма 7). иеЛ aedffx) Если max (а, у) = max (а, у) для всех у, то (ср. с доказа- а е А а е df (х) тельством леммы 10) А = <Э/(х). А Лемма 12. Пусть А—-матрица т\п, ср (у) — выпуклая функция на Rm, f (х) = ср (Ах), xeR". Тогда df (х) = Ат<5ср(Ах). А (16) С помощью лемм 10—12 можно вычислять субградиенты различных функций столь же просто, как и градиенты гладких функций по обычным правилам дифференцирования. Упражнение. 7. Вычислите субградиенты следующих функций: а) /’ (х) = ||х||; б) f (х) = k = У | (а\ х) — 6. |; в) f (х) = max ((af, х) - b.). 1~ 1 1 г /г ( —— х Ф 0 k Ответы, a) df (х) = < ||х|Г ’ б) df (х) — £ sign ((о/, х) — t а„ ||д||1, х = 0: k . k —bfja1; в) df (х) = £ а;аг, ai = 0 при (аг, х) — < / (х), а; > 0, а; = 1. г=1 ' (-1
§ 1. СВЕДЕНИЯ ИЗ ВЫПУКЛОГО АНАЛИЗА 123 5. е-субградиент. Понятие субградиента может быть обобще- но следующим образом. Вектор й е R'! называется е-субгра- диентом выпуклой функции f(x) в точке х, если f (х + у) f (х) + (а, у) — е (17) для всех j/e R”. Здесь е 0 — некоторое фиксированное число. Множество е-субградиентов и произвольный е-субградиент бу- дем обозначать def(x). Из определения следует, что df(x) = — dof(x), df (х) cz def (х) для всех 8 > 0 и, более того, df(x) — = П def (х). Геометрически е-субградиент соответствует гипер- Е>0 плоскостям в R"+I, разделяющим надграфик f(x) и точку {f(x)— е, х} (рис. 16). В отличие от субградиента, е-субградиент Рис. 16. е-субградиент. при е > 0 не определяется локальными свойствами f(x). Ясно, что е-субградиент не единствен даже для дифференцируемых функций; исключением является аффинная функция f(x) — = (с, х)4-а, тогда d8f(x)= с для всех е, х. Правила вычисления е-субградиентов не столь просты, как субградиентов. Мы приведем один важный частный случай, когда отыскание е-субградиента требует меньших вычислений, чем субградиента. Пусть f (х) — max ср (х, у), (18) у'.& Q где хе R”, Q — компактное множество, <р (х, у) непрерывна по у и выпукла по х. В частности, Q может состоять из конечного числа элементов (тогда получаем функцию из леммы 11). Оче- видно, что f(x) определена на R" и выпукла. Пусть у — у(х) — произвольная точка из Q такая, что ф(х, y)>f(x) — е. (19) Иначе говоря, у — произвольная точка, в которой приближенно (с точностью до е) достигается максимум <р(х, у) по у е Q.
124 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ Лемма 13. 5х<р(х, y)c:dzf(x). (20) Доказательство. Для любого г из определения субгра- диента и (18), (19) следует f (х + г) = max <р (х + z, у) > <р (х + z, £) > ф (х, у) + Q + (<Зх<р(х, у), г) > f (х)+ (<?/₽ (х, у), г) —е. А Таким образом, чтобы найти один из е-субградиентов f(x) вида (18), достаточно приближеннсг-отыскать максимум по у и взять субградиент соответствующей функции ф. Вычисление же субградиента /(х) требует точной максимизации ф по у. § 2. Условия экстремума, существование, единственность и устойчивость решения Для задачи minf(x), ,reR", (1) где /(х)—выпуклая недифференцируемая функция на R", про- ведем анализ, аналогичный осуществленному в §§ 2 и 3 гл. 1 для гладких функций. 1. Условия экстремума. Необходимые и достаточные условия минимума формулируются в терминах субградиентов чрезвы- чайно просто. Теорема 1. Условие O^df(x*) (2) необходимо и достаточно для того, чтобы точка х* являлась ре- шением (1). Доказательство. Необходимость. Пусть х* — точ- ка минимума /(х), тогда Дх* у) 4' Дх*) + (0, У) Для всех У- Это означает ((10) § 1), что 0 является субградиентом Дх) в точке х*. Достаточность. Если 0 является субградиентом в точке х*, то Дх* у) f(x*) 4- (0, y) — f(x*) при всех у, т. е. х* — ре- шение (1). А Разумеется, в точке минимума могут быть и ненулевые суб- градиенты (например, для Дх)= ||х||: 5/(0) — {а: ||а|| 1}, см. упр. 7 § 1), и этим условие (2) отличается от условия V/(x) = 0 для гладких функций. Иначе говоря, условия экстремума в не.’ гладком случае не сводятся к решению системы уравнений, В данном случае еще более отчетливым является утверждение, которое мы приводили в § 3 гл. 1,— условия экстремума вовсе не предназначены для конструктивного отыскания минимума.
S 2. УСЛОВИЯ ЭКСТРЕМУМА 125 С помощью понятия е-субградиента можно сформулировать необходимые и достаточные условия того, что точка хе является приближенным решением задачи (1), Теорема 2. Условие О €= dEf (хе) (3) выполняется тогда и только тогда, когда f(xe) zgdnf f(x) + е А. X Упражнения. 1. Убедитесь в справедливости следующих условий экстремума: m a) f М = У аг IIх ~ ai II’ at > °’ х' 0,1 е ТогДа W (х*) = °- если 1=1 б) f (х) = У, | (а1, х) — bt |. Существуют | Z* | < 1, i е= Г = {/: (а1, х*) = 1-1 = b J такие, что У + У а1 — У а1 = 0, 1+ = {/: {а1, х') > bA, isZ* i е Z_|_ i е Z_ /_ = {/: (а1, х’) < &J. в) f (х) = max f, (х), где f, (х) — выпуклые дифференцируемые функ- 1 < i < m цнн. Тогда существуют Zz>0, is! = р: f{ (x ) — f (x )}, У Z* — 1 ie/‘ такие, что У (x*) = 0. i e/* 2. Пусть f (x) ществуют та же, i s I e что и в упражнении 1в). Пусть для точки хЕ су- = {г- (fz(xe)>f(x8)-e}, £ &,= ! такие, что Z. > 0, S W(xE) = 0- fe/e § 1 и теорему 2. Тогда f (х„)< inf f (х) + е. Докажите, используя лемму 13 \ w/ v 2. Существование и единственность минимума. Теорема 3. Пусть функция f(x) выпукла на R”, а мно- жество Qa~ {х: непусто и ограничено для некото- рого а. Тогда f(x) достигает минимума на R". Действительно, по лемме 3 § 1 f(x) непрерывна, в силу чего применима теорема Вейерштрасса (§ 3 гл. 1). А Вопрос об единственности минимума просто решается для строго выпуклых функций. Напомним (§ 1 гл. 1), что функция называется строго выпуклой, если для любых х у, 0<;А.<1 f (Ух + (1 - М У) < и W + (1 - %) f (у). (4) Теорема 4. Точка минимума строго выпуклой функции единственна. Доказательство очевидно. А
126 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Упражнения. 3. Докажите, что для строго выпуклой функции выполняется при всех у ф 0 неравенство f (х + у) > f (х) + (df (х), у). (5) 4. Убедитесь, что функция f(x)=||x|| не является строго выпуклой, а т функция X az || х — a1 IL > 0, строго выпукла, если только точки а1 не i«l лежат на одной прямой. т 5. Докажите, что функция f (х) = У а; || х — а11|, а; > 0, достигает минн- >=1 мума на R’, причем единственного, если а1 не лежат на одной прямой. 3 . Устойчивость минимума. Теорема 5. Единственная точка минимума выпуклой функции глобально устойчива, т. е. к ней сходится любая мини- мизирующая последовательность. Ограниченное множество то- чек минимума X* слабо устойчиво, т. е. всякая минимизирующая последовательность имеет предельные точки и все они принадле- жат X*. А Эти утверждения немедленно следуют из непрерывности /(х) (лемма 3 § 1) и следующего легко проверяемого факта. Лемма 1. Если Qa— {х: f(x)^a} ограничено и не пусто при некотором а для выпуклой функции f (х), то Qa ограничено при всех а. А Количественные оценки устойчивости легко получить для класса сильно выпуклых функций. Напомним определение силь- ной выпуклости, данное в § 1 гл. 1 и относящееся как к глад- ким, так и негладким функциям Цх): найдется I > 0 такое, что f(U + (l -%)z/)CVW + (l— К)\\х ~ у\\2/2 (6) для любых х, у и 0 К 1. Такие функции обладают следую- щими свойствами. Лемма 2. Для сильно выпуклой функции f(x) справедливо неравенство f(y)>f(x) + (df(x), y-x) + l\\y-x\m (7) для всех х, у, при этом f(x) достигает единственного минимума х* и для всех х f(x)>f(x‘) + /||x-x*||2/2. (8) Доказательство. Из определения субградиента имеем f(Xx+ (l-^)i/) = Hx + (l-^(i/-x))>f(x) + (l-X)(^(x)I у-х).
§ 2. УСЛОВИЯ ЭКСТРЕМУМА 127 Подставляя это неравенство в (6) и сокращая на 1—к, полу- чаем (*) + (df (х), у — х) + IX || х — у Ц72. Это верно для всех А< 1; переходя к пределу при А->1, полу- чаем (7). Из (7) следует, что Q— {у: f(y)^f(x)} ограничено, и-из теорем 3 и 4 вытекает существование и единственность х*. Испольуя теорему 1 и (7), приходим к (8). А Неравенство (8) позволяет оценивать близость х к х* по бли- зости f(x) к f(x*). Частный случай оценки (8) для гладких функций мы уже приводили в § 3 гл. 1. Однако нужно отметить, что для негладких задач свой- ство сильной выпуклости, во- обще говоря, не характерно. Есть другой важный класс функций, для которого можно гарантировать устойчивость, причем, этот класс включает только негладкие функции. Бу- дем говорить, что х* — точка острого минимума f(x), если для всех х (рис. 17) f(x)>f(x*) + a||x-x*||, а > 0. Рис. 17. Острый минимум. Такое условие заведомо не может выполняться для гладких функций (упр. 8 § 3 гл. 1). Лемма 3. Следующие условия эквивалентны (9) для вы- пуклой функции f(x): a) f'(x*; у)^ а > 0 для всех у, б) 0 является внутренней точкой df(x*). А С помощью (9) можно оценивать близость х к х*, зная бли- зость f(x) к f(x*). Однако более интересно свойство «сверхустой- чивости» острого минимума,. которого нет для задач с сильно выпуклыми функциями. Оказывается, точка острого минимума не изменяется при малом возмущении функции. Теорема 6. Пусть f(x)—выпуклая функция на R", х* — точка ее острого минимума, g(x)— выпуклая функция. Тогда найдется ео > 0 такое, что при 0 Д7 е < е0 точка минимума функ- ции f(x)-ф eg'(x) единственна и совпадает с х*. Доказательство. По лемме 10 § 1 для ср8(х) = f(х)-|- + eg(x) имеем <Эср8(х) = <ЭДх)+ edg(x). Поскольку 0 — внутрен- няя точка df(x*) (лемма 3), a dg(x*) ограничено (лемма 6 § 1), то при достаточно малом е будет е dg(x*) с: — df(x*), т. е. 0 сд <=<Эфе(х*). По теореме 1 х* — точка минимума ср8(х). &
128 ГЛ. Г, МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ функций Упражнения. 6. Докажите следующее обобщение теоремы 6. Пусть / (х) — выпуклая функция, X* = Argmin j (х) 0 и выполняется условие / (х) 5s f* + ар (х, xi=r" X*), а > 0, где Д = f (х*), х* е X*, р (х, X*) == || х — Рх, (х) ||. Пусть g (х)—вы- пуклая функция, множество X = Argmin g (х) Х-- 0 и ограничено. Тогда Ха — Argmin [f (х) + eg (х)] при достаточно малых е > 0. а п JCeR" 7. Рассмотрите понятие обусловленности точки минимума (§ 3 гл. 1) при- п меиительно к негладким f(x). Чему равно ц для f (х) = ЛЛ xi |, Л/ > 0? I =» 1 § 3. Субградиентный метод 1. Идея метода. Основные алгоритмы минимизации гладких функций — градиентный и Ньютона — были построены на ис- пользовании линейной или квадратичной аппрок- симации функции, зада- ваемой первыми членами ряда Тейлора. Однако для недифференцируемой функции эта идея непри- менима— такая функция не может быть хорошо аппроксимирована ни ли- нейной, ни квадратичной функциями. Другие мето- ды минимизации гладких функций, описанные в гл. 3, также теряют рабо- тоспособность при пере- ходе к недифференцируе- мым функциям. Приведем Рис. 18. Трудности при минимизации не- несколько примеров. гладкой функции. Пусть f(x) = |xj—х2| +0,21 Xi -ф х2| — функция двух переменных. Тогда в точке {1, 1} ее значения по любой из координатных осей возрастают, однако эта точка не является точкой минимума (рис. 18). Поэтому метод покоординатного спуска неприменим для минимизации подобных недифференци- руемых функций. Можно было бы попытаться построить аналог метода ско- рейшего спуска. Назовем вектор s = s(x)e Rn, ||s|| — 1, направ- лением скорейшего спуска в точке х, если по этому направлению
§ 3. СУБГРАДИЕНТНЫЙ МЕТОД 129 функционал }(х) убывает наиболее быстро: s (х) — argmin f(x; у). (1) В силу формулы (12) § 1 для выпуклой функции направле- ние наискорейшего спуска существует и определяется формулой s = -P<5f(x)(O)/||P<5fW(O)||I (2) т. е. $ задается субградиентом с минимальной нормой. Однако можно построить пример выпуклой функции, для которой метод скорейшего спуска xfe+1 = хк + yks (xfc), = argmin f (xk -f- ys (xfe)) Y>0 «застревает», не дойдя до точки минимума. Поэтому разработка методов минимизации негладких функ- ций требует привлечения новых идей. Одна из них, принадлежа- щая Н. 3. Шору, выглядит несколько неожиданно. Пишется прямой аналог градиентного метода с заменой градиента на произвольный субградиент функции: xk+1 — xk— ykdf (хк). (3)' Рассмотрим снова функцию f(x) = |xi— хг |-f-0,21 Xj-f-хг |.. Тогда вектор {1,2; —0,8} является ее субградиентом в точке* {1; 1}, однако движение по нему приводит к возрастанию функ- ции при любом выборе длины шага ук (рис. 18). Таким образом,, значения функции в методе (3) не могут убывать монотонно.. Оказывается, однако, что при этом монотонно убывает другая: функция — расстояние до точки минимума, и в этом-то и заклю- чается основная идея субградиентного метода (3). Вторая осо- бенность метода заключается в правиле выбора длины шага. Ясно, что в (3) нельзя брать у, как в градиентном методе. Например, для функции }(х) = ||х|| имеем ||df(x)|| = 1 для всех х Ф 0, и тем самым будет ||xft+1 — х*|| у, поэтому метод не будет сходиться. С другой стороны, нельзя выбирать ук, как в методе скорейшего спуска — ведь }(х) не обязательно убывает по направлению —df(xft). В субградиентном методе можно уменьшать длину шага, либо используя близость значения функ- ции в текущей точке к минимальному, либо выбирая некоторую априори стремящуюся к 0 последовательность. Рассмотрим ниже оба эти способа. 2. Основные результаты. Пусть f (х)—выпуклая функция и в точке хк можно вычислить некоторый ее субградиент dj(xk). Рассмотрим субградиентный метод в следующей форме: оо Лип Vl~0' <“>
130 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Иначе говоря, из точки х'1 делается шаг фиксированной длины yk по направлению, противоположному субградиенту. Длина шага стремится к 0, а суммарная длина шагов бесконечна. При- мерами последовательностей у*, удовлетворяющих условиям (4), мо:ут служить Т/г = ~Г7“ ’ Y/г — - 0 < р < 1, ук = -~У-— . (5) k + с kx k In k Утверждение о сходимости в теореме 1 (и во многих случаях в дальнейшем) относится к величине Фй = min f (х‘) (6) — «рекордному» значению f(x) за k итераций. Теорема 1. В методе (4) для выпуклой f(x): <рк-+Г = — inf f (х). Подчеркнем, что здесь не требуется ни существования точки минимума, ни даже ограниченности f(x) снизу (возможно, что /*=—00). Доказательство. Предположим, что f (xk)^f для всех k и некоторого f > f*. Выберем точку х такую, что f (х) < f. В си- лу непрерывности f(x) (лемма 3 § 1) найдется р>0 такое, что f (х) < f при || х — х || < Р' В частности, для хр — х-)~ + Р df (х'г)/|| df (xk) || будет f(xp)^f. С другой стороны, f(xp)> >f(xft) + (<9f(x*), Xp-xs)>f+(df(xft), x — xk) + (df (xk), xp — ~ X) = f + (df (xft), x — xfe) + p II df (xfe) II, t. e. (df (xk), xk — - Wil df (Xй) || > p. Оценим теперь расстояние до x в процессе итераций: II 1 - XII2 = II xk - х II2 - 2V& (li-pjip ’ ? " *) + < 11 xk ~ ~ х И2 “ 2yftP + yl Поскольку yft->0, то найдется k0 такое, что Уй^Р при kf^k0. Поэтому при k kQ II xk+l - х||2 <11 xk - - х||2 - уАр. Суммируя эти неравенства по k, получаем р У, yk <||х^ — J?||2, 00 что противоречит условию У, уА = оо. Итак, неравенство f(xk)^ ^f>f* при всех k невозможно, что эквивалентно условию фй f •
§ 3. СУБГРАДИЕНТНЫЙ МЕТОД 131 Можно получить и утверждения относительно сходимости хк в случае непустоты множества точек минимума X* (упр. 1). Ясно, что метод (4) не может сходиться быстро — грубо го- воря, расстояние до точки минимума не может быть меньше длины шага а эта величина убывает медленно, так как со должно выполняться условие = В частности, можно А=0 показать, что в методе (4) заведомо не может быть сходимости со скоростью геометрической прогрессии. Кроме того, выбор у* оо из условий 2j Yfe —00 неудовлетворителен, так как су- fe=O ществует много таких последовательностей и совершенно не ясно, какую из них целесообразно выбрать. Поэтому опишем другие способы регулировки длины шага. В некоторых задачах бывает известно минимальное значение функции (обозначим его f*). Так, например, если систему сов- местных линейных уравнений (а{, x) = bt, f = .l, п, №R", свести к минимизации функции п f(x)=£|(az, х)-М или функции f(x)= max | {а1, х)— &<|, то в обоих случаях f* == 0. Значение f* позволяет построить следующий вариант субградиентного метода, не содержащий произвольных пара- метров: xk+i = xk (7) Геометрический смысл такого выбора длины шага показан на рис. 19. Теорема 2. Пусть f(x) — выпуклая функция на R'1, мно- жество точек минимума X* которой непусто. Тогда в методе (7) Оценка скорости сходимости следующая', для про- извольной функции f lim VfeW)-r)==0; (8) 66 для функции, имеющей острый минимум, можно утверждать сходимость со скоростью геометрической прогрессии.
132 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Доказательство. Пусть х — произвольная точка мини- мума. Тогда II „fe+1 г ||2 '|Г<Л _ ? 1р _ 2 ~ ~ t ) 4- ||Х -XII — ||Х XII 2 ||5f(xfe)||2 , . k |2 (f(xfe)~ Г)2 /А) + IJ^(xfe)[|2 " l|3f(xfe)||2 • ( ’ Отсюда следует, что (f (xk) — f*)/\\ df (xfe) || -> 0. Так как последо- вательность xk ограничена: || хй — х||^||х° — х||, то (лемма 8 § 1) || df (xfe)|| с. Поэтому f(xk)-+f*. Следовательно, найдется под- последовательность xfe«->x*, где х* — некоторая точка мини- мума. Заменяя в полученной г» я1 т° х Рис. 19. Способ выбора длины шага в субградиентном методе. выше оценке х на х*, получаем, что || xk — х* || монотонно убы- вает, а || xfe* — х*||—»0. Отсюда Ь ф X ->Х . Перейдем к оценке скорости сходимости. Из (9) V ~ < оо II df (xk) II2 а из ограниченности || df (xfe) || оо следует У, (f (xk) — f*)2 < оо. Если предположить, что lim д/k (f (xk) — f*) > 0, то f (xk) — f*>aj^Jk Й~>оо для достаточно больших k, что противоречит условию У (f (хк) Г)2 < оо. Итак, lim (f (хк) — f) = 0. Пусть теперь f(x) имеет острый минимум, т. е. f(x) — f* ~ х* Ц2 — (а2/с2) || xk - х* II2 = q || xfe - x* ||2, 9=1 — a2/c2, что и означает сходимость со скоростью геометрической про- грессии. А Знаменатель этой прогрессии может быть, однако, очень бли- зок к 1, если линии уровня функции /(х) сильно вытянуты (т. е. если задача минимизации плохо обусловлена). В случае, когда величина /* неизвестна, метод можно моди- фицировать. Так, можно применять итерационный процесс (10)
§ 3. СУБГРАДИЕНТНЫЙ /МЕТОД 133 где f—некоторая оценка для /*, и на основе поведения xk пере- считывать J. Ранее уже отмечалось, что итерационный процесс (7) можно применять и для минимизации гладких выпуклых функций, при- чем его скорость сходимости того же порядка, что и других «хороших» вариантов градиентного метода (см. (34) § 3 гл. 3). Упражнения. 1. Докажите следующий вариант теоремы 1. Если f (х) выпукла, X* =£= 0 ОО 9 . .. Ь * и Zu Y* < °°, то в методе (4) х -> х е X . fe=o 2. Что можно сказать о поведении следующих методов: a) xk+i = xk — — V df (rfe)/|| df (xfe) IL Y>0; 6) xk+l^xk — ykdf(xk), ^->0, £ Yfe = °°; fe=0 B) xfe+1==rfe — (xfe)/H^(rfe)IL y* = Yo^ <7 < 1: r) rfe+E == xk — — Y (f (xk) “ Г) df Ufe) II df (xk) || . Ответы, а) Метод «сходится с точно- стью до у», т. е. существует функция ф (у) > 0, ф (у) -> 0 при у -> 0, такая, что lim <pfe f* + 4 (у), фь = min f (xi)< б) если || df (х) || с для всех х, fe-»oo 1 <Z < k ' ' то справедливы утверждения теоремы 1; в) для случая острого минимума можно для данного х° так выбрать у0 и q, что метод будет сходиться со скоростью геометрической прогрессии; г) при 0<у<2 справедливы утвер- ждения теоремы 2. 3. е-субградиентный метод. Рассмотрим возможность замены субградиента на 8-субградиент в методах типа (3). Такая за- мена может быть целесообразна, так как в ряде задач вычисле- ние в-субградиента проще, чем градиента (см. лемму 13 в § 1). Наиболее прямолинейный подход связан с заменой <Э/(х) в методе (4) на произвольный 8-субградиент. Однако если е фикси- ровано, то такой метод может не сходиться — например, в соот- ветствии с теоремой 2 § 2 е-субградиент может обращаться в О в любой точке, где значение f(x) отличается от оптимума мень- ше, чем на е, поэтому метод остановится в любой такой точке. Значит, для сходимости нужно изменять е, устремляя его к О в процессе итераций. Таким образом, приходим к методу ь д f (xk) xk+i — xk — Vfe ii—k-i > K'b‘>l 00 Yfe-^O, S Yfe —°°. при k-^oo. (11) fe=o Теорема 3. В методе (11) для выпуклой функции f(х) имеем qpfe = min f (xk) -> inf f (x). i < i -r;, k Доказательство строится по той же схеме, что и в теоре- ме 1, А
134 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ § 4. Другие методы 1. Вводные замечания. Как мы видели выше, субградиентный метод чрезвычайно прост по форме и сходится при минималь- ных предположениях о функции. Однако скорость его сходи- мости может быть мала. Во-первых, для гладких функций он переходит в градиентный метод, отличаясь от его обычных ва- риантов лишь способами выбора длины шага. Но мы уже знаем, что градиентный метод неэффективен для плохо обусловленных функций. Во-вторых, субградиентный метод в форме (4) § 3, как уже отмечалось, не может сходиться быстро (даже со ско- ростью геометрической прогрессии) ни для каких функций. На- конец, вариант (7) субградиентного метода, как следует из до- казательства теоремы 2, также сходится медленно (как геоме- трическая прогрессия со знаменателем, близким к 1) для плохо обусловленных негладких функций. Итак, субградиентный метод не может считаться эффективным средством решения для вы- пуклых недифференцируемых задач, и возникает потребность в более мощных методах оптимизации. В гладком случае такие методы строились на базе метода Ньютона, т. е. на основе квадратичной аппроксимации миними- зируемой функции. Для негладких задач требуются иные идеи. Один возможный подход связан с кусочно-линейной аппрокси- мацией, являющейся естественной для недифференцируёмых функций. Однако множество негладких выпуклых функций слишком «разнообразно», чтобы его можно было хорошо при- близить довольно «бедным» классом кусочно-линейных функ- ций. Поэтому возможности такого подхода ограничены. Впрочем, оказывается, что задача минимизации произвольной выпуклой функции вообще слишком сложна, и в принципе невозможен метод, использующий только субградиенты и быстро сходя- щийся для всех функций данного класса. 2. Многошаговые методы. Простейший путь ускорения сходи- мости связан с использованием информации, полученной на пре- дыдущих итерациях. Пусть уже построены точки х°, ..., xk и в них вычислены субградиенты df(x°), ..., df(xk). В силу соот- ношений f(x*)>f(x‘) + (W), Х*-Х() можно утверждать, что точка минимума х* лежит в области, за- даваемой линейными неравенствами Qk = {х: (df (х!), х - х‘)< Г - f (хг), 1~0, (1) а в случае, если величина f* — f(x*) неизвестна, в более широ- кой области Qfc = {х: (df (хг), х — хг)<0, Z-= 0, ..., &}. (2)
§ 4. ДРУГИЕ МЕТОДЫ 135 Естественно добавить новую точку хАН так, чтобы в том или ином смысле максимально сократить эту область (рис. 20). Де- лается это различными способами. Ниже приводятся различные варианты подобных методов и результаты об их сходимости. Они, как правило, утверждают сходимость величины ср*— f* к 0 с той или иной скоростью, где f = min f (х), <₽/;= min f(x'). x s Rn о < i < k Во всех методах предполагается, что задан многогранник Qo, со- держащий х* — область априор- ной локализации минимума. Обычно в практических задачах легко указать, например, воз- можный диапазон изменения каждой переменной, и этот парал- Рис. 20. Общая схема методов от- сечения. лелепипед можно принять за Qo. В методе отсекающей гиперплоскости в качестве точки xfe+1 выбирается точка минимума кусочно-линейной аппроксимации f(x), определяемой значениями f(х‘) и df(x‘), i — 0, ..., k, на множестве Qo. Иначе гово- ря, хА+!—решение задачи ли- нейного программирования: min z, f (x‘) + (df (x1), x — x!) z, i = 0,..,,k, (3) xsQa. Здесь ге R1 — вспомога- тельная переменная — орди- ната аппроксимирующей функции (рис. 21). В этом методе мы впервые сталки- ваемся с ситуацией, когда в задаче безусловной мини- мизации на каждой итера- ции нужно решать вспомога- Рис. 21. Метод отседающей гиперпло- скости. тельную задачу линейного программирования, т. е. задачу условной минимизации. Та- кая ситуация типична именно для негладких задач, требую- щих кусочно-линейную аппроксимацию. Наоборот, для за- дач с ограничениями, как мы увидим далее, нередко приме- няются методы, основанные на сведении задачи к безусловной минимизации. В этом, вообще говоря, нет противоречия, если
136 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ получающиеся вспомогательные задачи проще исходных. Для оценки эффективности подобных подходов нужно аккуратно оценивать сложность решения вспомогательных задач. Теорема 1. Пусть f(x)—выпуклая функция на R", а мно- жество Qo ограничено и содержит точку минимума х*. Тогда в методе (3) Доказательство. Пусть zk+1, xk+1 — решение задачи (3) тогда zk+} sC max [f (x‘) + (df (x‘), x — x‘)] для всех x e Qo о < i c k - (см. рис. 21) и, в частности, zk+l -Д max^ [/(x‘) + (df (x‘), x* — xJ)]. В силу выпуклости f(x) имеем f (x*) f (x‘) 4- (df (x*), x* — x‘), t. e. f*f^ max [f (x'f 4- (df (xl), x* — хг)]. Сопоставляя полученные неравенства, получаем Zk+i^f*. С другой стороны, f(xft + 1)^r> т. е- 2k+i Г f (xfe+1). Предположим, что f(x®+1)— — zfe+1^e> 0 для всех k Д' k0. Тогда f (xf) f (xk+l) + (df (xft+1), xl — xk+x) f^zk+i + e 4- 4- (df (xk+l), xl — л4+‘) f (xl) 4- (df (xl(, xk+x — xf) 4" e + 4- (df (xk+v), x‘ — xft+1) 43 f (xl) 4- e — 2Л || x‘ — xk+x ||, где L = max || df (x) || (эта величина ограничена по лемме 8 § 1). Отсюда || xk+l — xl ||Дг e/2L для всех i = 0.k и всех k k0. Это противоречит компактности Qa. Поэтому lim (f (xk) — zk) = О, а так как О -Д f (xk) — Г ;Д f (xk) — zk, то lim f(xk) = f*. ▲ fe->OO Вопрос о скорости сходимости метода исследован мало. Для некоторых классов задач (например, задач с острым миниму- мом) он, по-видимому, сходится быстро. Так, для кусочно-ли- нейных задач этот метод конечен. В общем же случае он может сходиться очень медленно. Рассмотрим одномерную задачу minp~1xp, О Д х Д 1, х0 —О, %i — 1. Каждая вспомогательная задача (3) имеет неединственное решение; предполагается, что в качестве x*+i берется наиболь- шее из решений. Тогда Xk+i — xk — р~ххь = qxk, xk — qk~l, q = = 1 — p-1, и для больших p знаменатель прогрессии q близок к 1. Для многомерных задач, по-видимому, нельзя обеспечить линейной скорости сходимости даже для гладких сильно вы- пуклых функций. Недостатком метода является необходимость решать задачу линейного программирования, в которой число ограничений воз- растает. Можно модифицировать метод, устранив этот дефект — грубо говоря, нужно оставлять лишь те ограничения, которые удовлетворяются как равенства. Можно также при решении каждой новой задачи использовать решение предыдущей как
§ 4. ДРУГИЕ МЕТОДЫ 137 начальное приближение — для этого следует перейти к двойст- венной задаче. Другой способ выбора точки xft+1 применяется в методе че- бышевских центров. Здесь предлагается в качестве xk+1 брать чебышевский центр многогранника Q-,, вида (1) или (2), т. е. точку, максимум расстояния которой от граней многогранника минимален. Иными словами, xft+1 — решение либо задачи (4) .....k, x<=Qa, max z, x-x*)+z<0, i = 0 либо, если Г известно, задачи maxz, (пТТГДТ’ + z —0, x^Q0. 4 (5) Можно показать, что для (4) и (5) справедлив аналог теоре- мы 1. Относительно скорости сходимости метода отметим сле- дующее. Нетрудно видеть, что для одномерного случая метод Рис. 22. /Метод чебышевских центров: а) одномерный случай; б) двумерный случай. (4) превращается в метод дихотомии: в качестве xk+1 берется середина наименьшего отрезка с концами в точках х‘, для кото- рого df(x') имеет разные знаки на концах отрезка (рис. 22, а). Отсюда следует, что метод (4), в отличие от (3), не является конечным для кусочно-линейных f(x). Для многомерного слу- чая, как видно из рис. 22, б, скорость сходимости может быть достаточно медленной. Можно точку xk+I строить иначе. Выберем произвольное мно- жество индексов I из набора 0, ..., k. Например, может быть
138 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИИ / = {0, ..., k} или I = {&} или I = {k, k — 1} и т. п. В ка- честве xft+1 возьмем точку, ближайшую к хк и удовлетворяющую ограничениям вида (1) для набора I. Иначе говоря, лМ1— реше- ние задачи min 1| х — xft||2, , . f (х1) Ц- (df (x‘), x — x') Г, is/ (предполагается, что величина f* известна). Вспомогательная задача (6) является задачей квадратичного программирования с минимизируемой функцией вида ||х— а||2. Таким образом, она сводится к проектированию точки хк на многогранник, задавае- мый линейными ограничениями (6). От этой задачи удобно пе- рейти к двойственной — именно, искать решение в виде (см. § 4 гл. 10): ?+1 = ?- (П I / где лг — решение задачи min ГII X df (х() |12 - 4 £ Xj (df (х‘), xk — хг) — И its I i e I -4 £ Mf(x')-D]. (8) Эта задача минимизации квадратичной функции на неотрица- тельном ортанте решается достаточно просто (см. § 3 гл. 7). Ясно, что если 1 — {&}, то метод совпадает с субградиентным методом (7) § 2. Достоинством метода (6) по сравнению с ранее рассматри- вавшимися (3), (4) и (5) является то, что в нем множество / может содержать не все предыдущие индексы, так что вспомо- гательные задачи, решаемые на каждом шаге, могут быть не- большой размерности. К недостаткам его относится необходи- мость знания f*. Наконец, оригинальный подход к выбору xk+i предлагается в методе центров тяжести. Пусть Q,e = {х е= Qo; (df (xl), х — хг)< 0, z=l,...,/z}, (9) xfe+1— центр тяжести Qk. Такой выбор объясняется следующим результатом, относя- щимся к теории выпуклых тел. Лемма 1. Пусть Q — выпуклое тело (т. е. множество с не- пустой внутренностью) в R", а — его центр тяжести, L — гипер- плоскость, проходящая через a, щ и иг — объемы частей, на ко- торые L делит Q (рис. 23). Тогда V / п 1 С I - —гт ) 1----. г = 1, 2, v = V, + а», (10)
§ 4. ДРУГИЕ МЕТОДЫ 189 Для точек, отличных от а, правая часть в (10) может лишь уве- личиться. ▲ Иными словами, объем части, «отрезаемой» от Q гипер- плоскостью, проходящей через центр тяжести, составляет всегда не менее чем е-1 часть от объема Q. Для других точек объем «отрезаемой» части может оказаться меньше. Это и объясняет причину выбора центра тяжести Qk в качестве xk+\ Теорема 2. Пусть f(x)—выпуклая функция на R", Qo — ограниченное, замкнутое выпуклое множество. Тогда в мето- де (9) Ф.-Г < (1ЧГ = > Ч+Ч) с = max (/’ (х) — Г). (11) X е= Q3 Доказательство. В соответствии с леммой 1 объем Vk многогранника Qk удовлетворяет неравенству щр, р = = 1 ~ i J > т. е. vk Д иор*-Возьмем произвольную точку ми- нимума х*е Qi и построим множество S, получающееся из Qk подобным преобразо- ванием с центром в х* и коэффициентом растяжения а = p"i/n, т. е. S — {х: х* -ф ау, x*+yeQj. Тогда его объем v(S) — anVk^ anwopA = Vo- Поэтому множество Qo не может помещаться строго внутри, S и, сле- довательно, найдется г е= Qo, ге S0. Отсю- да следует, что и = (1 — а-1) х* + аЧ ё= Q& (так как г получается из и указанным выше растяжением). Но если то Рис. 23. Лемма о цен- тре тяжести. (в силу определения Qk) найдется I, 1 Д i -С k, такое, что (<ЭДх‘), и — x‘))2s0. Поэтому f (и) Д f(x‘) -ф (df (х‘), и — х‘)^ ^f(xl)^cpk- Используя выпуклость f(x), находим дд -Д f(u)= f((l — а-*)х* -ф а-1г) < (1 - а-1))* + a~lf(z) < f* -ф с/а, с — max (f (х) —• f*), причем с< оо в силу непрерыв- X е Qo ности f(x) и ограниченности Qo. Итак, Для п = 1 множество Qk — отрезок, и xk+x — его середина. Поэтому метод центра тяжести переходит в метод дихотомии. Для п = 2 можно построить способ отыскания центра тяжести, основываясь на том, что центром тяжести треугольника является точка пересечения его медиан, а центр тяжести объединения двух фигур вычисляется по формуле x = axi+(l — a)x2, где х, Xi, х2— центры тяжести И, Аг, А2 (причем А = At IM2), a — = s2/(si+s2), Si, s2 — площади Ль A2. Производя триангуляцию
140 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ Qu для п — 2, можно таким образом найти х*+1. Для п > 2 отыскание центра тяжести многогранника превращается в чрез- вычайно громоздкую задачу, и метод вряд ли может быть реали- зован. Однако метод центров тяжести представляет большой теоре- тический интерес. Во-первых, для него удается получить оценку скорости сходимости, зависящую только от размерности пространства и «начальной неопределенности» — величины max f (х) — min f (х), но не от индивидуальных характеристик х г Qo х е Qo функции типа ее обусловленности. Все ранее приводившиеся оценки такими свойствами не обладали. При этом для задач небольшой размерности скорость сходимости достаточно велика. Действительно, из (11) видно, что за пе итераций можно увели- чить точность решения приблизительно в е раз. Таким образом, при п — 10, чтобы получить решение с точностью до 0,1% (т. е. добиться соотношения cpfe — f* С- max (f (х) — f*) 10-3) нужно x s Qo сделать порядка Hlnl03~190 итераций — сравнительно не- большое число. Во-вторых, как мы увидим далее, этот метод является в определенном смысле оптимальным. Упражнения. 1. Покажите, что если Дх)—кусочно-линейная функция, I = {k, ... ..., k — т), а т достаточно велико, то метод (6) конечен. 2. Покажите, что для любой функции Дх) метод центров тяжести не может сходиться слишком быстро — именно, vk е~‘4>о, где vk — объем Qi... 3. Оптимальные методы. Для задачи безусловной минимиза- ции выпуклой функции можно установить потенциальные воз- можности любого метода, использующего лишь субградиенты и значения функции. Имеет место следующий результат, который мы приведем в не совсем четкой, но наглядной формулировке. Теорема 3 (Немировский — Юдин). Для любого метода минимизации функции f(x), xeR”, использующего значения f(x) и df(x), найдется такая выпуклая функция, для которой данный метод сходится (по функции) не быстрее, чем геометри- ческая прогрессия со знаменателем 1 — с/п, или не быстрее чем O(\/^k) равномерно по размерности (здесь с — некоторая абсолютная константа). ▲ Мы не приводим доказательства этого утверждения, так как оно потребовало бы строгого (и достаточно громоздкого) опре- деления понятия «любой метод, использующий значения f(x) и д((х)», уточнения имеющейся априорной информации о функции (начальное приближение, область локализации минимума, гра- ницы для f(x) и df(x) и т. п.). Идея доказательства состоит в том, что при заданных х°, ..., xk, f(x°), ..., f(xk), df(x°), ... ..., dj(xk) строится кусочно-линейная выпуклая функция с ука- занными значениями функции и субградиента в данных точках,
§ 4. ДРУГИЕ МЕТОДЫ 141 йо у которой минимум по возможности сильно отличается от величин f(x‘). Сопоставляя этот результат с полученными выше оценками скорости сходимости, приходим к важному выводу: скорость сходимости метода центров тяжести не может быть по порядку превзойдена ни для какого метода оптимизации, использующего ту же информацию (т. е. значения f(x) и df(x)). Иными сло- вами, этот метод является в (определенном смысле оптимальным, и попытки создать более быстро сходящиеся методы заведомо безнадежны. Однако к этому выводу нужно относиться с осторожностью. Во-первых, он относится к широкому классу «всех выпуклых функций». В действительности редко приходится иметь дело с «произвольными» выпуклыми функциями. Обычно минимизируе- мая функция принадлежит к более узкому классу (например, сильно выпукла, или имеет острый минимум, или имеет вид max ft (х), где ft(x)—гладкие функции и т. д.). Для более узких классов могут существовать и более эффективные методы. Во-вторых, вывод имеет минимаксный характер — найдется функция, «плохая» для данного метода. Однако при минимиза- ции конкретной функции метод может сходиться и значительно более быстро, чем для «наихудшего» случая. В то же время ме- тод центра тяжести сходится одинаково как для «хороших», так и для «плохих» функций. Наконец, при оценке скорости сходи- мости в теореме Немировского — Юдина учитывается лишь чис- ло вычислений f(x‘) и Объем же вычислительной работы по решению возникающих вспомогательных задач не принима- ется во внимание. Поэтому, скажем, трудность отыскания центра тяжести многогранника не учитывается, так как она не связана с дополнительными вычислениями функции и субградиента. В действительности, конечно, метод центра тяжести не может быть рекомендован не только как оптимальный, но и как разум- ный метод оптимизации при п > 2. Все это показывает, что во- прос о выборе метода минимизации, даже при наличии теорети- ческих выводов об «оптимальном» в определенном смысле ме- тоде, остается весьма сложным. 4. Методы с растяжением пространства. Естественна попытка модифицировать метод центров тяжести, устранив его основные недостатки — трудоемкую операцию отыскания центра тяжести и необходимость запоминания df(x‘), полученных на всех пре- дыдущих итерациях, но сохранив скорость сходимости. Это можно сделать следующим образом (рис. 24). Если поместить многогранник Qk внутрь шара, то центр тяжести последнего, ко- нечно, найти легко — он совпадает с центром шара. Выбирая эту точку в качестве xk+i и вычисляя <Э/(х*+1), «отсекаем» поло- вину шара. Оставшуюся половину шара можно вписать в
142 ГЛ. Б. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ эллипсоид минимального объема. Делая линейное преобразова- пне пространства, превращаем этот эллипсоид в шар, после чего процедура повторяется. При таком подходе нет нужды запо- минать сам многогранник О/. и задающие его'ограничения, т. е. величины <Д(Д), г = 0, ..., k. Достаточно на А-м шаге помнить точку хк и линейное преобразование пространства, задаваемое матрицей Hk. При этом приходим к методу эллипсоидов-. x^ = xk — \’kHkdf(x!t), = —£—Г—7=^== Х + 1 \ л/п2 — 1 Yfe== 2 Hk д UK) д (хяГ Hk (12) Здесь р — радиус исходного шара с центром в х°, в котором ло- кализуется точка минимума. Теорема 4. Для метода (12) в пространстве R" справед- лива оценка — с~ max (f (х) — Д), НСр П-1 и+1 q — п (п — 1) 2,1 (п +1) 2п . (13) Рис. 24. /Метод эллипсоидов. Мы не будем приводить подробное доказательство теоремы. Оно основано на том легко проверяемом факте, что объем эл- липсоида минимального объ- ема, описанного вокруг полу- шара (рис. 24), в 2q'/n раз больше объема этого полуша- ра. Поэтому на каждом шаге объем области локализации минимума уменьшается в ql/n раз. Дальнейшая часть доказа- тельства строится так же, как и в теореме 1. ▲ Таким образом, поведение метода (12) сохраняет черты метода центра тяжести (сходи- мость со скоростью геометри- ческой прогрессии со знамена- телем, не зависящим от свойств минимизируемой функции, а лишь от размерности пространства). Однако знаменатель прогрессии здесь ближе к 1, именно, q ~ ~ 1 — 1/ (2п2) вместо q ~ 1 — 1/(еп) в методе (9). Для больших размерностей проигрыш в скорости сходимости значителен, и метод (12) становится малоэффективным. Например, при п — 10 нужно порядка 200 итераций, чтобы увеличить точность (по функции) в е раз, при п = 30— порядка 2000 итераций.
§ 4. ДРУГИЕ МЕТОДЫ 143 В своих работах Н. 3. Шор пришел к методам вида (12) из других соображений. Он предложил объединять субградиент- ный метод с процедурой растяжения пространства. Последняя проводится либо в направлении последнего субградиента, либо в направлении разности двух последних субградиентов. Вели- чина растяжения задается некоторым параметром, выбираемым эвристически. Таким образом (см. упр. 3 и 4) получаются ме- тоды вида xft+1 = xft — ykHk df (xk), С 1 A Hk+l = I 1 2" I Hksk(s!l)T ' ("/• T=) Яо = /, (И) где a*— коэффициент растяжения пространства на й-й итера- ции, определяет длину шага, sk — направление растяжения. Все эти величины могут выбираться различными способами. Например: = V.—a,= (15) (16) s* — df (xk) — df (x&_|), yk = argmin f (xk — yHk df (xh)), v aft = a, (17) где величина f* — minf(x) предполагается известной. Очевидна их связь с методами переменной метрики для ми- нимизации гладких функций, описанными в § 3 гл. 3. Методы пригодны как для гладкой, так и для негладкой оптимизации. Их сходимость для квадратичного случая утверждается следую- щей теоремой. Теорема 5. Пусть f(x) — (Ах, х)/2— (Ь, х), А > 0. Тогда методы (14), (15) и (14), (17) с а — оо конечны: хп = х* = = А-'Ь. А Относительно сходимости и скорости сходимости методов (14) в общем случае известно немного. На основе теоремы Не- мировского— Юдина можно утверждать, что для произвольной выпуклой функции эти методы не могут сходиться быстрее, чем геометрическая прогрессия со знаменателем 1 — 1/(си). Н. 3. Шор рассматривает иной класс функций, удовлетворяю- щих условию N (f (х) - Г) < ^f (х), х - х*) < М (f (х) - Г). (18) Такие функции естественно назвать приближенно-однородными (ср. с. (30) § 3 гл. 3). Для них можно доказать, что если aA^a = (M + M)/(M-M), Л = 2Л4М/(М + М (19)
144 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ то метод (14), (16) сходится со скоростью геометрической про- грессии со знаменателем а1/л: Ф& — /* «С с V ka~k'n. (20) Поэтому, чем ближе М к N (т. е. чем ближе функция к одно- родной), тем больше а и тем более быстро сходится метод, В пределе для однородной функции (М — А) можно взять а = — оо, и метод оказывается конечным — этот факт для квадра- тичной функции (Af = N = 2) уже отмечался в теореме 5. Упражнения. 3. Пусть для некоторого а>0 и seR", ||s|| = 1, Ra(s) —- линейный оператор в R", действующий по формуле Ra (s)x = х -f- (а — l)ssTx. Про- верьте, что Ra (s) — оператор растяжения в а раз в направлении з, т. е. Ra(s)s — as, Ra(s)x = х для (х, s) = 0 4. Покажите, что Hk в (14)—результат последовательного применения операторов растяжения, именно, Hk = PkP^, Pn — I, Р;+1 = PlRa~l(sl). 5. Убедитесь, что при а — 1 (т. е. когда растяжение не производится) метод (14), (16) с л = 1 переходит в субградиентный метод (7) из § 3. 6. Докажите теорему 5 и сопоставьте ее с результатами § 3 гл. 3. Что означает выбор ах, = оо? § 5. Влияние помех 1. Постановка задачи. Рассмотрим поведение субградиентного метода минимизации выпуклой функции f(x) на R” при наличии помех. Пусть xk+l — xk — yksk, sk — df (x!-) -f- rk. (1) Здесь rk — помехи, наложенные на субградиент. Их природа может быть различна — погрешности вычисления, ошибки изме- рений, приближенные формулы и т. д. С формальной точки зрения помехи могут быть абсолютными или относительными, де- терминированными или случайными. Проанализируем различ- ные типичные случаи. Нас будут интересовать вопросы сходи- мости, оценки скорости сходимости, а также разумные способы выбора т. е. те же задачи, которые в гл. 4 решались для гладкого случая. 2. Абсолютные детерминированные помехи. Пусть ошибки вычисления субградиента удовлетворяют условию (2) где е — абсолютный уровень помех. Как мы видели, в гладких задачах такие помехи приводили к нарушению сходимости — градиентный метод сходился лишь в некоторую окрестность ми- нимума, размеры которой зависели от е и от обусловленности задачи. Для негладких задач ситуация может оказаться иной — при низком уровне помех в случае острого минимума сходимость
§ 5. ВЛИЯНИЕ ПОМЕХ 145 может сохраниться при специальном способе выбора Это является следствием того, что df(x) не стремится к 0 при при- ближении к острому минимуму. Теорема 1. Пусть f(x)— выпуклая функция на R", х* — ее точка острого минимума, т. е. f(x)— f(x*) ос||х — х*||, а > 0. Пусть в (2) 8 < а. Тогда для всякого х° найдутся числа уо > 0, q < 1, такие, что в методе (1) при = yoqk будет || xk - х* II < II х° - х* II qk. ▲ (3) Чтобы воспользоваться приведенным в теореме 1 способом выбора длины шага, нужно располагать подробной информа- цией о задаче (иметь оценки для L, а, в, ]|х° — х*||). При отсут- ствии таковой неправильное назначение уо и q может привести к остановке метода не в точке минимума. Мы не будем обсуж- дать более реалистические способы регулировки длины шага — для нас важнее принципиальная возможность сходимости суб- градиентного метода для негладких задач при наличии абсолют- ных помех со скоростью геометрической прогрессии. 3. Относительные детерминированные помехи. Пусть задан относительный уровень помех: ||rft||<a||5f(xft)||. (4) В гладких задачах сходимость имеет место при любом a < 1 (теорема 2 § 2 гл. 4). Негладкие функции вновь вносят свои особенности. Приведем вкратце анализ сходимости. Условие псевдоградиентности алгоритма (1) относительно функции Ля- пунова V (х) = || х - х* ||2/2 (5) имеет вид (sft, xk — х*)^0. Но (sk, xk — х*) — (df (х/е) + rft, xfe — x*) (cos (fk — a) || df (xk) |||| xk — x* ||, где ср* — угол между df (xk) и xft — x‘, 0 л/2. Поэтому, если 0 ф < л/2, a cos <p, (6) то условие псевдоградиентности выполняется. Условие (6) су- щественно более ограничительно, чем условие a< 1. Чем хуже обусловленность функции, тем меньше cos <р и тем чувствитель- нее метод к относительным помехам. На рис. 18 видно, что даже малая ошибка в определении направления субградиента приводит к тому, что это направление не приближает к точке минимума. По этой причине кажущееся естественным обобще- ние субградиентного метода xk+} = xk — yhHdf (xk), (7) где Я>0—некоторая матрица, вообще говоря, может и не сходиться.
146 ГЛ. 5. МИНИМИЗАЦИЯ НЕДИФФЕРЕНЦИРУЕМЫХ ФУНКЦИЙ 4. Абсолютные стохастические помехи. Пусть помехи rk слу- чайны, взаимно независимы, центрированы и имеют ограничен- ную дисперсию: Mrft = 0, М || rk ||2 < <т2. (8) Теорема 2. Пусть f(x) —выпуклая функция, ||df(x)||^c для всех х, существует точка минимума х*, выполняется усло- вие (8) и оо оо (9) fe=0 k=0 Тогда в методе (1) min f(x')^/U*) («• я.). А О I << k Таким образом, здесь, как и для гладкого случая, при аддитив- ных случайных помехах любого уровня имеет место сходимость, если уь удовлетворяет условию (9). Различие гладкого и не- гладкого случаев заключается в том, что в первом наличие по- мех приводит к необходимости изменения способа регулировки длины шага (приходится выбирать у^->-0 вместо yft==y), во втором же нет столь сильной разницы между ситуациями с по- мехой и без помех (и в той, и в другой ситуациях следует брать уь~>0). Относительно скорости сходимости в условиях (8) не все ясно. Если f(x) сильно выпукла, то, выбирая — y/k при достаточно большом у, можно добиться сходимости порядка О(1/й); это доказывается по стандартной схеме. Однако в более типичной для негладких задач ситуации с острым минимумом скорость сходимости недостаточно исследована. Упражнение. 1. Покажите, что если f(x) имеет острый минимум с константой I, то для всех х из области S = {х: j| х — х* ||sgp} справедливо неравенство (df(x), х — х*) Щ (IIL) || <?f(x) || || х — х* ||, где Л—-max || df (х), т. е. выполняется (6) с cos <р = 1/L. § 6. Поисковые методы Рассмотрим задачу минимизации выпуклой функции f(x) в ситуации, когда единственной доступной информацией о f(x) являются ее значения в произвольной точке. 1. Одномерный случай. Поиск минимума одномерной выпук- лой функции f(x) на отрезке [a, fcjczR1 легко организовать на основе следующего геометрически очевидного соображения (рис. 25, а)). Если вычислены значения f(x) в двух точках xi, Хч, a х\ < х2 < Ь, то точка минимума х* не может находиться на отрезке [a, xj, если f(xi)> f(x2), и на отрезке [х2, Ь\, если f(x2)>f(xi) (если f(х,) = f(х2), то одна из точек минимума принадлежит (xi, х2]). Поэтому после вычисления двух значе-
§ 6. ПОИСКОВЫЕ МЕТОДЫ 147 ний функции область локализации минимума может быть сокра- щена. Простейший алгоритм, реализующий эту идею, расстав- ляет точки на каждом отрезке симметрично относительно его центра (рис. 25, б)): а0 = а, b0 = b, ek — a(bk — ak)/2, 0<а<1, П) _ Г ак, если f ((ak + bk)/2 — ek)<f ((ak + b^/2 + ek), G/i+1 ( (ak + bk)/2 — ek в противном случае, ( bk, если f ((ak + bk)/2 — ek) > f ((ak + bk)/2 + ek), ft+1 1 (flk + bk)/2 + в/i в противном случае, ak+i~(ak + bk)/2~ek, | 6t+i = fe + M/2 + 84, J еСЛИ ^^ + b^2' — f (tak + bk)/2 + Bfe). Очевидно, 0 h/,+! — aft+1 (1 + a) (bk— ak)/2, так что длина отрезка, на котором локализуется минимум, сокращается на а) Рис. 25. Одномерный поиск. каждой итерации примерно в 2 раза, если <х мало. Ясно, что (1) при а <С 1 есть просто разностный аналог метода дихото- мии (§ 3). Можно поступить более экономно, если использовать вычис- ленные ранее значения функции (одно из них на [as+i, b?e+i] за- ведомо найдено на предыдущей итерации). При этом, если вы- брать а из соотношения (1 + а)/2==₽, р2=1- ₽, p = (V5-l)/2 (2) (уравнение «золотого сечения» отрезка), то одна из точек (aft+i + bk+i)/2 ± efe+i будет совпадать со старой (ak + Ьк)/2 Ф Ък, т. е. каждая итерация будет требовать лишь одного вычис- ления функции. При этом в методе деления пополам ((1) с а< 1) за одно вычисление функции отрезок сокращается в
148 гл. s. Минимизация недифФеренцируёмых Функций д/2 1,41 раза, а в методе золотого сечения (1), (2) в 2/(1 + «) = (д/5 + 0/2 ~ 1,62 раза, что несколько лучше. Можно выиграть и чуть больше, если сделать а зависящим от k. Именно так поступают в методе Фибоначчи, подробно опи- сываемом во многих книгах (например, [0.2, 0.8, 0.18]). Не- трудно видеть, что все описанные выше методы отыскивают ми- нимум не только выпуклой, но и любой унимодальной функции (т. е. такой, для которой локальный минимум совпадает с гло- бальным). Про метод Фибоначчи можно показать, что он со- кращает длину отрезка локализации в расчете на одно вычис- ление функции наиболее быстро, именно, он является оптималь- ным в минимаксном смысле в классе унимодальных функций. Тем не менее методом Фибоначчи редко пользуются на практике по следующим причинам. Во-первых, он дает совсем небольшой выигрыш по сравнению с методом золотого сечения. В то же время он связан с дополнительными вычислениями для построе- ния новых точек. Во-вторых, в нем требуется заранее выбрать число итераций, которые будут осуществлены. Поскольку есте- ственным критерием окончания процесса одномерной минимиза- ции является близость полученного значения функции к мини- мальному, а не размер области локализации минимума, то за- ранее определить нужное число шагов затруднительно. В-тре- тьих, он оптимален лишь в минимаксном смысле, т. е. в расчете на «наихудшую» унимодальную функцию. Для конкретных функций более быструю сходимость могут дать другие методы. Все это лишний раз показывает, сколь осторожно нужно от- носиться к теоретическим выводам об оптимальности методов (ср. выше п. 3 § 4). 2. Многомерный случай. Большинство идей, лежащих в ос- нове поисковых методов минимизации гладких функций (§ 4 гл. 3), не переносятся на негладкий случай. Так, методы после- довательной одномерной минимизации типа покоординатного спуска, как мы уже видели (см. рис. 18), могут не сходиться для недифференцируемых функций. Идеи локальной линейной или квадратичной аппроксимации минимизируемой функции также не работоспособны. С другой стороны, субградиентный метод (§ 2) и его обобщения (§ 3) нельзя применять, если за- менить субградиент на его конечно-разностную аппроксима- цию— мы уже отмечали (§ 4), что субградиентный метод, во- обще говоря, неустойчив по отношению к детерминированным погрешностям. Наконец, описанный выше одномерный поиско- вый метод не просто перенести на многомерный случай. Дело в том, что, вычислив функцию в нескольких точках, трудно ло- кализовать область минимума в многомерном случае. В силу указанных выше трудностей в настоящее время известно срав- нительно мало теоретически исследованных и обоснованных поисковых методов минимизации негладких функций.
§ 6. ПОИСКОВЫЕ МЕТОДЫ 149 Опишем один из них, идея которого весьма проста и перспек- тивна. Для задачи минимизации выпуклой функции f(x) на R" он имеет вид х&+1 = xk — Л гк sk=bk' [f (У + akgk + dA/ife) — f (xk + ctfe^)] hk, где gk, hk — независимые случайные векторы, равномерно рас- пределенные на кубе Q = {х: |х/| '' 1, i — 1, ..., п}, ак, б&, уй — некоторые числовые последовательности. Иначе говоря, делается шаг случайного поиска (по направлению hk), но не из точки xk, а из «рандомизированной» точки xk -ф a,kgk. Благодаря введению такой рандомизации происходит как бы сглаживание исходной функции. Можно показать, что М (sk | xk) = cVf (xk, ak) + || || < Cj (4) где f(x, a) — сглаженная функция, f(x, a) = 5 f(x + dlJ’ Q причем f(x, <x) является выпуклой дифференцируемой функцией, градиент которой удовлетворяет условию Липшица с константой сл/п!ак. Таким образом, (3) может рассматриваться как гра- диентный метод минимизации сглаженной функции (5) при на- личии помех. Регулируя коэффициент сглаживания aft, длину пробного шага и рабочего шага у,л, можно добиться сходимо- сти метода. Именно, если оо оо (6) a*->0, |a* — aA+I |/ys->0, то метод сходится с вероятностью 1 к множеству точек мини- мума (если последнее непусто). Аналогичным образом про- цедура сглаживания путем рандомизации может быть приме- нена для построения других методов. Разумеется, скорость сходимости метода (3) очень мала. За- дача построения эффективных поисковых методов минимизации негладких выпуклых функций в многомерном случае остается открытой.
Глава б ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ, НЕСТАЦИОНАРНОСТЬ В практических задачах редко приходится иметь дело с той идеализированной ситуацией, которая рассматривалась в гл'. 1 и 3. С двумя возможными осложнениями (наличие помех и от- сутствие дифференцируемости) мы уже познакомились в пре- дыдущих главах. Перейдем к анализу других причин, затруд- няющих решение задач безусловной оптимизации — вырожден- ности минимума, многоэкстремальности и нестационарности. Нас будет интересовать как поведение стандартных методов в подобных ситуациях, так и специальные приемы преодоления упомянутых трудностей. § 1. Вырожденный минимум В гл. 1 и 3 мы исследовали методы оптимизации, в основном для случая невырожденного минимума (т. е. в предположении, что в точке минимума х* Xzf (х*) > 0). Откажемся от этого пред- положения. 1. Поведение стандартных методов. Изучим поведение прос- тейшего градиентного метода безусловной минимизации диффе- ренцируемой функции f(x): xk+' — xk — yXf (xk) (1) в ситуации, когда невырожденность точки минимума не предпо- лагается, но зато f(x) выпукла. Мы уже знаем (теорема 1 § 4 гл. 1), что при минимальных предположениях Vf(xft)->0 для (1). Оказывается, для выпуклых функций справедлив более сильный результат. Теорема 1. Пусть f(x)—выпуклая дифференцируемая функция в R", градиент которой удовлетворяет условию Лип- шица с константой L, а множество точек минимума X* = = Arg min f (х) непусто. Тогда метод (1) с 0 < у < 2/L сходится х е Rn к некоторой точке х е Г, f (х) = /*, причем f(xk)_r==om (2) Доказательство. Используем неравенство (лемма 2 § 4 гл. 1) (Vf(x) — Xf(y), х — £/)> L_1||Vf(x) — Vf(i/)||2, справедли- вое для выпуклых функций, у которых градиент удовлетворяет условию Липшица с константой L. Отсюда (Vf(x), х — х);>
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 151 L_,||Vf(х) II2, где х — произвольная точка минимума. Поэтому || xft+1 — х ||2 = || xk — St ||2 — 2у (Vf (xfe), хк — + у21| Vf (xft) ||2 =C|| xfe — ||2 — у (2/A — y)|| Vf (x4) ||2. (3) Суммируя no k, получаем, что при 0 < у < 2/Л Е II Vf (х4) ||2 < оо, (4) fe=0 т. е. Vf(x4)->0. Последовательность хк ограничена, так как ||xft— х||^||х°— х||, поэтому можно выбрать сходящуюся под- последовательность xk‘ —>х. В силу непрерывности Vf(x) при этом Vf (х) = 0, т. е. х е X*. Заменяя в (3) х на St, получаем, что х4—>х. Оценим теперь скооость сходимости по функции. Имеем (см. (9) § 4 гл. 1) f(x4+’)<f(x4)- <z||V/(xfe)||2, а = у(1 — Ly/2) > 0. В силу выпуклости f(x): f(xk)—f* ^(Vf (xft), xft — x) <1 IIW (xk) ||||x* — x||. Поэтому для uk = f(xk)— f* получаем Uk+\ uk — a||x4— x ||~2ц2, и применение леммы 6 § 2 гл. 2 дает / k~l \-1 ku^\~^k+a/k~х'I~2) • Поскольку по доказанному ||х*— х||->0 при г->оо, то k—1 ||хг — X ||-2->ОО и k~ Е||хг-х|Г2->0° при k-^OO, поэтому i-0 правая часть последнего неравенства стремится к 0 при k-^oo. Это и означает, что ик = о(1/£). А Отметим, что точка хеХ*, к которой сходится xk, не может быть указана заранее. Так, она может быть различна для раз- ных у (при фиксированных х°) и не обязательно совпадает с х* — точкой из X*, ближайшей к х°. Однако х не может быть слишком далека от х*. Действительно, заменяя в (3) х на х*, получаем ||х& — х*|| ||х° — х*||, т. е. || х - х* || < || х° - х || = р (х°, X*). (5) Из теоремы 1 следует, что градиентный метод сходится (в выпуклом случае) без всяких предположений о невырожден- ности минимума. При этом по функции гарантируется скорость сходимости порядка о(1/£). Однако скорость сходимости по пе- ременным может быть существенно меньше. Пусть, например, f (х) = р-1 |х|р при |х|^1, f(x) = |x| при |х|> 1, р > 2, X S R1. Тогда f(x) удовлетворяет условиям теоремы 1, х‘ = 0и
152 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ из (1) имеем |х*+1| = |х*— у(х*)р-1| при |х°|^1. Используя результат упражнения 3 § 2 гл. 2, находим, что при 0 < у < 2 будет |х&| = О(/г~|/(Р-2)). Таким образом, выбирая достаточно большое р, получаем, что для любого а > 0 существует такая функция f(x), для которой градиентный метод сходится мед- леннее, чем k~a. Отметим, что для этого же примера f(xk) = = О (й-рАр-2)) , что согласуется с оценкой (2) и демонстрирует невозможность ее существенного улучшения. Рассмотрим более подробно вопрос о поведении градиент- ного метода для квадратичной функции: f (х) = (Ах, х)/2 — (Ь, х), Л > 0. (6) Хотя задача минимизации f(x) невырожденная (так как А > 0, то точка минимума х* существует, единственна, глобально устой- чива, a f(x) сильно выпукла), нас будет интересовать случай плохо обусловленной задачи, который в определенном смысле близок к вырожденному. Пусть L и I-— наибольшее и наимень- шее собственные значения А, p = 1. Как мы знаем (тео- рема 3 § 4 гл. 1), при выборе у = 2/(Л-|-/) (такой выбор яв- ляется наилучшим) для градиентного метода (1) справедлива оценка ||х* — х*|| ||х°— х*||^, q = (L— I)[(L + I) — (ц—1)/ /(ц + 1), и эта оценка неулучшаема (см. примеры после упомя- нутой теоремы). Поскольку 2(f(xk)— f*) — (A(xk—х*), хк—х*) ||Л||||х*— х*||2^Л||х°— x*\\2q2k, то можно гарантировать схо- димость по функции со скоростью геометрической прогрессии со знаменателем q\ == q2. Однако для плохо обусловленных задач 1, и Qi « 1—4/ц очень близко к 1. Оказывается, можно получить оценку скорости сходимости по функции, не зависящую от обусловленности. Теорема 2. Метод (1) для минимизации (6) при 0 < у < < 2/L сходится к х*, причем для достаточно больших k f _г< ii*0-**и2 (1__________!_УЙ< II*0-**II2 I (х ) I ^2у(2А+1)\1 2k+lJ 4уей ‘ у' Доказательство. xk — X* = (I — уЛ)й (х° — X*), 2 (f (xk) - П = (A(I — у Л)2* (х° - х*), х° - х‘) < < II х° - х* ||21| А (I - уЛ)2й || < || х° - х* ||2 max IА (1 - уЛ)ж | < ^||х° — х* II2 max <р (А,), где <р(А)= А(1—yZ)2ft. Поскольку корнями <р'(%) являются М — 1 /т и Х2 — 1/(у (2k + 1)) и <p(%i) = 0, ф(0) = 0, то макси- мум <р(Х) на [0, Л] может достигаться либо при Л, = %2, либо
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 153 при 1 = L. Так как ф(М= y(2*+ 1) С1 — 2Й+ 1 ) 2yek ’ <p(L) = L(l — yL)2k, а |1—yL|<l, то для достаточно больших k будет max <р(Л) = <р(Л2), что 0<А,<Ь и дает (7). ▲ Таким образом, можно гарантировать оценку типа f(xft)— — f*^.c/k, где константа с не зависит от обусловленности. Что же касается скорости сходимости по аргументу, то здесь нельзя получить никакой «равномерной по обусловленности» оценки. Именно, для любого 0 < а < 1 и любого k можно по- строить такую квадратичную функцию вида (6) и такое началь- ное приближение х°, что будет ||х* — х*|| > а||х°— х*|| для ме- тода (1) при любом у. Более того, здесь достаточно брать п=2, а множество таких х° достаточно «обширно». Перейдем к анализу другого стандартного метода миними- зации— метода сопряженных градиентов (§ 2 гл. 3). Вопрос о его поведении для случая вырожденного минимума в общей си- туации не исследован; по-видимому, основное достоинство ме- тода— его быстрая сходимость — здесь теряется. Рассмотрим лишь случай квадратичной функции (6), причем будем предпо- лагать, что размерность задачи велика (так что мы не можем воспользоваться результатом о конечности метода). В (30) § 2 гл. 3 была найдена оценка скорости сходимости метода: 11^-%Ч<2(л/№°-Л1<А ? = (Vh- i)/(Vh+ 1). Здесь знаменатель прогрессии q зависит от обусловленности и близок к 1 для плохо обусловленных задач. Как и выше, полу- чим оценку скорости сходимости по функции, не зависящую от обусловленности. Теорема 3. В методе сопряженных градиентов для функ- ции (6) справедлива оценка Доказательство. В соответствии с (27) § 2 гл. 3 xk _ х* = pk (Д) (Хо _ х*); где РДХ)—полином /?-й степени, обладающий свойством 2 (f (хк) - П = (APk (Л)2 (х° - х), х* - х’) = = min (AR (А)2 (х° - х*), х° - х‘), (9)
104 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ где 5? — множество полиномов R(k) k-й степени, удовлетворяю- щих условию R (0) = 1. Возьмем (2* +1) (Vx/VD ’ (Ю) где Тк (х) — cos (k arccosx) — полином Чебышева. Поскольку ^2й+1(х) содержит только нечетные степени х, то R0(x) = — (Vx)/Vx является полиномом /г-й степени от х, Ra(0) — = Т'2к+1 (0) = 4k + 1. В соответствии с этим Итак, 2 (/ (xk) - Г) < (Л/?* (Л)2 (х° - х*), х° - х*) < ^||х° —х*||2 max | KR* (Л)21 = £||х° —х*||2 т ( L || х° — х* II2 1-1 ' шах л ob_Li I - I ) (2Й+1)2 0<ь<£, 2й+1\717 (2Й + 1)2 поскольку max | Тк (х) | = 1. ▲ 0<х<1 Мы видим, что независимо от обусловленности задачи метод сопряженных градиентов гарантирует достаточно высокую ско- рость сходимости по функции типа О (/г-2) вместо О (/г-1), как в градиентном методе. Оценку (8) усилить нельзя. Так, для вся- кого k можно построить такую квадратичную функцию в прост- ранстве Rn, п — k -ф 1, и указать такое х°, что f (хй) - f* = L ||х° - х* Ц2/(2 (2* + I)2). Более того, можно показать, что любой метод минимизации ква- дратичных функций, использующий лишь информацию о гра- диентах, не может дать скорости сходимости более высокой, чем в (8), равномерно по размерности п и по всему классу квадра- тичных функций f(x). Что же касается скорости сходимости по аргументу метода сопряженных градиентов, то здесь нельзя получить никаких оце- нок, не зависящих от обусловленности и размерности. Любопытно сопоставить с полученными результатами те оценки скорости сходимости по функции, которые мы имели ра- нее для негладкого случая. Для субградиентного метода в фор- ме (7) § 3 гл. 5 справедлив результат о сходимости (теорема 2 § 3 гл. 5), аналогичной теореме 1. Скорость сходимости, од- нако, более медленна, чем в гладком случае — в соответствии с (8) § 3 гл. 5 f(xk} — f* убывает как о(£~1/2). Для метода эл- липсоидов (12) § 4 гл. 5 была доказана линейная сходимость по функции (теорема 4 § 4 гл. 5). Знаменатель прогрессии при этом зависел от размерности, но не зависел от каких-либо
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 156 характеристик функции типа обусловленности. Поскольку для гладкого вырожденного случая мы нигде не имели ли- нейной скорости сходимости, то можно ожидать, что в зада- чах небольшой размерности целесообразно применять метод эллипсоидов и при минимизации гладких плохо обусловленных функций. В заключение этого пункта — несколько слов о поведении метода Ньютона в вырожденном, случае. Прежде всего, этот метод не всегда будет корректно определен, так как матрица Tf(xk) может оказаться вырожденной в сколь угодно малой ^йрестности х*. Поэтому метод неприменим для решения вы- рожденных задач. Существует более узкий класс задач, в кото- рых эта трудность отсутствует. Именно, пусть V2f(x)>0 для Всех точек % х* из окрестности х*, а в самой точке х* матрица (х*) О не имеет обратной. Тогда при некоторых дополни- тельных предположениях метод Ньютона будет сходиться. Од- йако скорость сходимости будет существенно ниже, чем в не- вырожденном случае. Пусть, например, f(x) = |x|p, р > 2, xeR1. Тогда f'(x) = p|x|p-‘ signx, f"(x) = p(p — 1) |x|p-2, f"(x)>0 при x =й= 0 и f"(x*) = f"(0) — 0. Метод Ньютона при Хо > 0 принимает вид x*+i = хк — (р — 1)-’хА = qxk, q — =г(р — 2)/(р — 1)< 1. Отсюда Хк == qkXo, т. е. в данном случае метод Ньютона сходится со скоростью геометрической прогрес- сии, знаменатель которой близок к 1 при больших р. Конечно, STO гораздо хуже, чем квадратичная сходимость, которая имела место в невырожденном случае. В других примерах (см. упр. 4) скорость сходимости может быть еще меньше. Подводя итог, можно сказать, что в основном стандартные методы минимизации остаются сходящимися при поиске вы- рожденного минимума гладкой выпуклой функции. Однако ско- рость сходимости падает, иногда существенно. Упражнения. 1. Для фиксированного числа шагов k укажите наилучшнй способ выбора параметра у в методе (1) для минимизации (6), исходя из оценок, получен- ных при доказательстве теоремы 2. Указание. Выберите у так, чтобы 'минимизировать- max Л (1 — уЛ)2Ьпри известных k, L. 0<X<L 2. Рассмотрите градиентный метод вида х‘+1 = хк — у/г V /(х‘) для мини- мизаций (6) и выберите (при фиксированном числе шагов k и известной кон- станте L) у/, —1, так, чтобы выполнялись те же оценки для /(х*)—jF», что и в методе сопряженных градиентов. Указание. Решите задачу минимизации по у/, 0 < i < k— 1, величины max 0 <?, < L 8. Рассмотрите случай квадратичной ((х) с Л >0 и непустым множе- ством точек мййимума. Покажите, что для нёго справедливы все: результаты б сходимости и скорости сходимости, полученные в ЗТОм параграфе для Л > 0. 4. Исследуйте скорость сходимости метода Ньютона для функции f(*) = exp (—х_|), х as R1, в окрестности точкй мйнимума х* «= 0. fe-1 ЛП(1-У/Л)2.
156 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ 2. Специальные методы решения вырожденных задач. 1°. Метод регуляризации. Пусть задача минимиза- ции выпуклой гладкой функции f(x)—«плохая», например имеет вырожденный минимум. Тогда можно немножко изменить задачу, добавив к7(х) «хорошую» функцию g(x) с малым «ве- сом». Найдя точку минимума «улучшенной» функции f(x)-f- -f-8g(x), можно устремить параметр 8 к 0. Естественно на- деяться, что последовательность найденных при этом точек ми- нимума будет сходиться к решению исходной задачи. В этом заключается идея метода регуляризации. Величина 8 называ- ется параметром регуляризации, функция g(x)— регулярную- щей функцией. Сначала рассмотрим метод регуляризации в «идеализирован- ном» варианте, когда минимум вспомогательной задачи отыски- вается точно. Теорема 4. Пусть f(x)'—выпуклая непрерывная функция в R", имеющая непустое множество точек минимума X*, a g(x)— сильно выпуклая непрерывная функция. Пусть х8 = argmin Ф8(х), Ф8 (х) = f (х) + eg (х), е > 0. (11) Тогда х8-*х* при s->-f-O, где х* — та из точек минимума f(x), для которой g(x) минимальна, т. е. х* = argmin g(x). х е X* Доказательство. Функция f -f- eg сильно выпуклая, по- этому точка х8 существует и единственна. Далее, из определе- ния х8 для произвольной точки х е X* получаем /(х8) + sg(x8) + f(x)^f(xs), т. е. g(xe)^g(x), а потому и g(xe) g(x*). Так как g(x) сильно выпукла, то множество {х: g(x)^a) ограничено, т. е. совокупность х8 ограничена. Вы- берем подпоследовательность хе., сходящуюся к некоторой точ- ке х. Так как f(x) и g(x) непрерывны, то lim g (хе.) — g (х), т. е. g (х) g (х*)> а переходя к пределу в неравенстве f (x8;) + + ezg(x8/)<f (х*) + eg (х*), получаем f(x)^f(x*). Таким обра- зом, хеХ*, и из неравенства g(x)^g(x*) и определения х* следует, что х = х*. Итак, х8. -» х*. Но Ze|]xe — х*||2 s(g(x*)— — g(x8)), т. е. вся последовательность х8 сходится к х*. ▲ Конечно, воспользоваться методом регуляризации в описан- ном выше виде, как правило, не удается из-за невозможности точного решения вспомогательной задачи. Один из немногих случаев, когда такое решение в принципе можно найти, связан с квадратичными функциями. Пусть f(x) = (Ax, x)/2 — (b, х), где А 5г 0, и пусть f(x) достигает минимума на R" на непустом множестве X*. Пусть g(x) = (Д(х— а\, х— а)/2, где Д>0. (12)
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 157 Тогда в методе регуляризации на каждом шаге минимизируется квадратичная функция, и поэтому хе = (Л+ еВ)'’(6 + еВа). (13) В силу (12) матрица А-\-еВ имеет обратную при любом е > 0. Из теоремы 4 следует, что хЁ-> х* еХ*, где х* — argrnin g (х). х <= X* В частности, когда 'В — 1, а = 0 (т. е. когда регуляризатор имеет вид g(x) = ||х]]2/2), то х* — точка минимума f(x) с наи- меньшей нормой (она называется нормальным решением за- дачи). В этом случае хе = (А + г1)'1Ь. (14) Метод регуляризации для квадратичной задачи тесно связан с понятием так называемой псевдообратной матрицы. Пусть С — произвольная матрица размерности т'Х.п (не обязательно квадратная). Тогда функция f(x) = ||Cx-af||2, хеГ, (15) достигает минимума на Rn (см. упр. 2 § 3 гл. 1). Точка мини- мума f(x) с наименьшей нормой (нормальное решение, обозна- чим его х*) единственна. Можно показать, что х* линейно зави- сит от d: x* = C+d, (16) где С+—некоторая матрица размерности п%т, называемая псевдообратной к С. Из теоремы 4 и равенства (14) следует, что С+ = lim (CrC + eZ)-,Cr. (17) s-»+ 0 Другие свойства операции псевдообращения приведены в упр. 6. Вернемся к методу регуляризации. Ясно, что чем меньше е, тем ближе хЁ к решению, так что, казалось бы, выгодно брать очень малые е. Однако мы увидим в дальнейшем, что из-за влияния погрешностей в вычислении функции и градиента, а также из-за ошибок округления при решении вспомогательной задачи выбирать слишком малые е нельзя. Поэтому возникает вопрос о точности решения, даваемого методом регуляризации, при конечных е. Приведем примеры, показывающие, что ||хЁ— х*|| может быть велика даже для малых е. Пусть f(х) = p~lxp, .reR1, р > 2, g(x) = (x—1)2/2. Тогда х*= 0, и нетрудно оценить, что |хе— х*| = |хЁ| « е'Лр"1). Поэто- му, если р велико, то |хЁ— х*| сравнительно велико даже для маленьких 8, Так, при р==7, е = 10~6 получаем |хЁ— х*|« « ю-1.
158 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ 2°. Проке-метод. Метод регуляризации для регуляризую- щей функции g(x)~ ||х— аЦ2/2 записывается в форме Xй = x8fe = argmin (f (х) + (eft/2) || х — а ||2), zk -> 0. Можно попытаться поступить иначе — на каждом шаге менять не параметр регуляризации ek, а точку а, заменяя ее на хк. Та- ким образом приходим к методу хй+1 = argmin (f (х) + -i-в[| х — Xй ||2) , е > 0. (18) Этот метод называется проксимационным (или прокс-методом), поскольку он тесно связан с так называемым проксимационным отображением. Пусть f(x)— выпуклая функция на R", &>0— некоторый параметр. Тогда оператор Prox а = argmin Q (х) + у в [| х — а ||2) называется проксимационным. Его свойства и явный вид для ряда примеров приведены в упражнениях 7 и 8. Во введенных обозначениях метод записывается таю хй+1 = Ргох хй. (19) Теорема 5. Пусть f(x) — выпуклая функция на R", имею- щая непустое множество точек^ минимума X*, в > 0. Тогда ме- тод (13) сходится к некоторой точке х* е X*. Доказательство. В соответствии с упр. 7 функция ф (а) = inin [f (х) + ‘/а е || х — а||2] выпукла, дифференцируема, X 7ф(а) = е(а — Ргох а) удовлетворяет условию Липшица с кон- стантой е и X* — Argmin ф(а)=/= 0. Применим для минимиза- а ции ф(а) градиентный метод с у = 1/г: ай+1 _ ak _ 8-1улф (ak) = ak — 8-18(ай — Ргох ай)== Ргохай. Иначе говоря, прокс-метод (19) может рассматриваться как градиентный метод минимизации ф(а). Применяя теорему 1 (все ее условия выполнены), получаем требуемый результат. ▲ Преимуществом прокс-метода перед методом регуляризации является то, что обусловленность вспомогательных задач мини- мизации в нем не ухудшается (параметр 8 остается постоян- ным). Однако прокс-метод (так же как и градиентный метод) не приводит, вообще говоря, к нормальному решению. Для квадратичной функции вида (6) прокс-метод может быть записан в явной форме: хй+1 = (А в/)-1 (Ь + гхк). (20)
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 159 3°. Итеративная регуляризация. Во всех описан- ных выше методах предполагалось, что на каждом шаге ре- шается (точно или приближенно) некоторая вспомогательная задача безусловной минимизации. При этом мы никак не фик- сировали метод ее решения. Можно поступить иначе — задаться некоторым методом безусловной минимизации и делать не- сколько итераций этого метода для очередной вспомогательной задачи (число итераций может быть либо заранее определено, либо регулироваться в процессе вычислений). В простейшем ва- рианте методов такого типа делается один шаг градиентного спуска для минимизации регуляризованной функции, после чего изменяется параметр регуляризации. Таким образом, приходим к методу итеративной регуляризации: хй+,=хй — Yfe 0*7(хй) + efe Vg (хй)), (21) где g(x)— регуляризующая функция, е*— меняющийся на каж- дой итерации параметр регуляризации. Теорема 6. Пусть f(x), g(x)— дважды дифференцируе- мое выпуклые функции на R", причем || V2f (х) || L, II V2g(x) LI, 1> 0, для всех х, X* — Argmin f(x) =/= 0 и 0*С---s--->0, 0^е^~>0, ek п 2 Yft = Y, 0<У<7Г+7^Г- со Ее* = °°’ fe=0 (22) (23) Тогда в методе (21) хй->х*, где х‘еГ, х* — argmin g(x). х е х* Доказательство. Пусть ук = argmin Ф^(х), Фй(х) = хе R" = f (х) + eka (х), при сделанных предположениях ук существует, однозначно определена и ук-+х* (см. теорему 4). Функция ФА(х) сильно выпукла с константой Ze*, поэтому (см. (35) § 1 гл. 1) Фй(^й”1)5г Ф* (r/fe) Д-(Ze*/2) ||— yk~'||2. Аналогично, из сильной выпуклости Фй_1(х) получаем Ф*-1 (ук) 5г (ук~1) -ф + (Zeft—i/2) \\ук— г/й~Ч12. Складывая эти неравенства, имеем (efe - eft_,) (g(yk) -g(yk-^ + /(eft_, + eft) \\ук - yk~T/2 < 0. По- скольку {yk} ограничено, то найдется такая константа М, что llg(yft) — £(«/*-') И С М\\ук — i/MI. Поэтому , , 2Af(e. . — е.) ё, . — е, М II-yk~l II<4^-^) <N(24) Оценим теперь в методе (21) расстояние от хк+1 до ук: || х4-:-1 — ук || = || хй — ук — уУФй (хй) || = || хй — ук — у А (хй — ук) ||.
160 гл. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ' Здесь в соответствии с (13) § 1 гл, 1 и условием VO^(i/fe) = 0: 1 А = V2d>ft (yk + т (xk — yk)) dx. о В силу сделанных предположений 1гк1 < V2Ofe (х) < L (1 + efe) I < L (1 + ео) I, ПОЭТОМУ Л^Л(1 + 80) / и llx^'-^IKIIZ-yXIIIIx^-^IK < max | 1 — yA. HIxfe — yfe|| = (l — y/8ft)||xft — r/fe|l (25) (1 +e0) ДЛЯ достаточно больших k В силу условия 8ft->-0. Используя (24) и (25), получаем || Xk+} _ yk || (1 _ y/gfe) || дЛ _ yk || 0 _ у/е&) || Xk _ yk-\ || + (1 — уОг/* — yfe“'ll<(i — №ь)\\хк — + Применение леммы 3 § 2 гл. 2 для и, = ||х* — yk~41 с учетом условий (22) дает ик-+0. Но ||х* — х*|| ||х* — z/fe-Ili + 1 ~~ — х*||->0, так как ||xfe — -> 0 по доказанному выше, а ||yfe — х*|| -0 в силу теоремы 4. ▲ оо Что касается скорости сходимости, то в силуусловия Seft—°° fe=0 параметр гк нельзя устремлять к 0 слишком быстро. С дру- гой стороны, метод сходится не быстрее, чем метод регу- ляризации, а последний, как мы видели выше, может сходиться медленно. Упражнения. 5. Пусть f (х) — выпуклая функция в R", X* — Argmin / (х) 0, функ- xs=Rra ция g (х) строго выпукла и множество {х: g(x)^a} ограничено н непусто для некоторого а. Докажите (по той же схеме, что и теорему 4) сходи- мость метода регуляризации в этом случае. . 6. Используя определение С+ и-.формулу (7), докажите следующие свой- ства псевдообратных матриц: а) если т = п и С~' существует, то С+=С-1; б) дд+д = д, Д+ДА+=Д+; в) (Д+)+—А; г) (Д^)+ = (Д+Г. 7. Докажите следующие свойства оператора Ргох: а) он однозначно определен; б) он является нерастягивающим, т. е. И Ргох а — Ргох Ь [] |] а—& II;
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 161 в) функция ф (а) = min (f (х) ф- (е/2) || х — а ||2) выпукла, дифференпиру- X ема, ее градиент удовлетворяет условию Липшица с константой е и равен уф (а) = в (а — Ргох а); г) если X* = Argmin / (х) ¥= 0, то X* = Argmin ф (а). X а 8. Вычислите Ргох а и ф (а) (упр, 7) для следующих примеров: a) f М = (Ах, х)/2 — (Ь, х), А > 0; б) f (х) 0; в) f W =||х||. Ответы, а) Ргох а = (А ф- е/)~ 1 (Ь ф- еа), ф (а) = (1 /2) [в || а ||2 — ((А ф- ф-8/)~ 1 (& + еа), (& ф- еа))]; б) Ргох а = а, ф (а) = а; в) Ргоха = [1~ — 2/(е И а ||)]+. а, ф (а) = е || а ||2/2 при |[а|К2/е, ф(а) = ||а|| при ||а||>2/в. 3. Методы при наличии помех. Анализ методов отыскания вы- рожденного минимума производился выше в идеализированной ситуации, когда значения градиента минимизируемой функции известны точно (в методах: градиентном, сопряженных градиен- тов, итеративной регуляризации) или когда вспомогательная задача минимизации на каждой итерации решается точно (в методах регуляризации и проксимационном). Рассмотрим влияние помех на поведение упомянутых методов, ограничи- ваясь наиболее характерными случаями. Г. Градиентный метод. Пусть имеются абсолютные детерминированные погрешности в определении градиента, т. е. в точке хк доступен вектор xk = yf(xk) + rk, ||? ||< 8. (26) В этой ситуации градиентный метод (1) принимает вид ?+' = хк - у?. (27) Как мы знаем (из теоремы Г § 2 гл. 4), для невырожденного, минимума можно гарантировать сходимость в некоторую об- ласть вокруг точки минимума х*. Радиус этой области (см. упр. 2 § 2 гл. 4) зависит от константы сильной выпуклости I и стремится к бесконечности при /->0. Поэтому из этих резуль- татов нельзя сделать выводы о поведении метода в вырожден- ном случае (кроме предположения о неработоспособности ме- тода). Действительно, при попадании в область малых значений градиента метод (27) начинает вести себя бессмысленным об- разом— направление движения становится практически произ- вольным. Поэтому метод (27) следует видоизменить — нужно прекращать итерации, как только величина ||sft|| станет доста- точно малой. В такой форме метод оказывается в определенном смысле работоспособным. Теорема 7. Пусть f(x) — выпуклая дифференцируемая функция в R", градиент которой удовлетворяет условию Липшица
162 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ с константой L, a .Y* = Argmin f(x) =/= 0. Пусть известны величины L, е (см. (26)) и р ||х°— х*||, где х* — Рх*(х°) — точка минимума, ближайшая к х°. Пусть итерации (27) с О < у < 2/L продолжаются до выполнения условия (28) и х& — та точка х, в которой это условие впервые выполняется. Тогда процесс закончится не более чем за р/(уе) + 1 итераций, при этом II vf ЮIK (Б + д/~г~—) « IK —**II<P- Доказательство. Из (26) и (27) II Xk+1 - х* || = II xk — х* — yvf К) — yrk II < II xk — x* — yvf (xft) || +ye. Из неравенства (3) (с заменой £ на х") II хк — х* — Yvf (хк) II2 < II хк — х* II2 — у (2/L — Y) II Vf К) II2- Поскольку для произвольных а b > 0 справедливо неравен- ство д/а2 - &2 - Ь2/(2а), то ||xft - х*-yvf К)|КН^-^*11 ~ — у (2 — Ау)|| Vf K)JI2 (2jL||x* ~ ** II) ’• Таким образом, ||xft+1 -x*||<||xft-x*||- у (2 — Лу) II vf (xfe) II2 2L |K-x*|| + Ye- (29) Предположим, что xk не является точкой остановки. Тогда 8+ 2д/т=т? vf(^)H + 8- Отсюда ||Vf(xA)||2^(4eLp)/(2— Ly). Подставляя это в (29), получаем II хк+1 - х* IK II хк — х* || — Y8 (---г2р- ,,, - 11 (30) \ II Xя — х* II J Поскольку ||х° — х*|| $7 р, то отсюда Цх1 — х*Ц р — уг и вооб- ще ||хА— х*Ц р — &уе для всех k до остановки процесса. По- этому число итераций до остановки процесса не превосходит р/(уе) + 1. Поскольку в точке остановки || vf (xft) || — е < || sk |К 8 + 2 Vе£р/(2 — Ly), то || vf K)ll<(e + VeLp/(2 — Ly)). A Обсудим полученный результат. Для выбранной модифика- ции градиентного метода гарантируется, во-первых, что будет получена точка с достаточно малой нормой градиента: IIVf(xe) || ф(е), где <р(е) = О (Vе ) ->0 при е->0, во-вторых, что эта точка не слишком далека от точки минимума, ближай- шей к начальному приближению. В силу неравенства f(xe) —
§ 1. ВЫРОЖДЕННЫЙ МИНИМУМ 163 — f(x*) ||Vf(xe)||||xe —х*|| можно гарантировать, что в точке хе значение функции также близко к минимальному: f(xe)-f(x*) = o(vr). (31) В этом смысле можно считать, что точка х8 дает приближен- ное решение задачи минимизации. Разумеется, дать какую-либо явную оценку близости хе к множеству X* нельзя. Для задач со случайными абсолютными помехами можно доказать результат о сходимости почти наверное градиентного метода, в котором шаг у* стремится к 0 (см. упр. 9). Если интенсивность помех зависит от номера итерации: 00 IIгА|| ъь, то при У ek < оо градиентный метод сходится в обычном смысле. 2°. Метод регуляризации. Вследствие неизбежных погрешностей при вычислении /(х), а также из-за невозможно- сти отыскания точного минимума неквадратичной функции, вспомогательная задача безусловной минимизации (11) в ме- тоде регуляризации может быть решена лишь приближенно, с точностью до некоторой величины б. Пусть (32) где Фе(х) = /(х) + eg(x), Ф* = 1тнпФ8(х). Теорема 8. Пусть выполнены условия теоремы 4. Тогда при е—>0, б/е -> 0 (33) будет х*->х*. Доказательство проводится точно так же, как и в тео- реме 4. Л Оценку близости ||х® — х*|| в явной форме для произволь- ного функционала /(х) дать нельзя (см. примеры, относящиеся к теореме 4). 3°. Д р у г и е методы. Аналогичному исследованию могут быть подвергнуты другие методы, описанные ранее, — в частно- сти, прокс-метод и метод итеративной регуляризации. Не будем на этом останавливаться подробнее, так как и техника исследо- вания, и получающиеся результаты подобны теоремам 7 и 8. Упражнение. 9. Пусть / (х) — выпуклая дифференцируемая функция в Rra, yf (х) удов- летворяет условию Липшица, X* = Argmin f (х) =/= 0. Пусть sk = yf (xft) + g*, xeRre где случайные помехи У независимы н Mgft = O, М || ||2 «С о2, Рассматрнва- оо оо ется градиентный метод xk+i — xk — при условиях У = оо, У у/ <
164 ГЛ, 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ < оо. Докажите, используя метод доказательства теоремы 1 этого параграфа и теоремы 1 § 2 гл. 2, что X е X*, где точка х может быть разной для различных реализаций процесса. 4. Заключительное обсуждение. Теперь настало время отве- тить на основной вопрос — можно ли практически решать задачи оптимизации с вырожденным минимумом? Ответ на этот вопрос не столь прост, как кажется, и он заставляет еще раз осмыслить соотношение теоретических результатов о сходимости и прак- тики вычислений, которое мы уже обсуждали в § 6 гл. 1. Нужно сказать, что сама постановка такого вопроса в математических работах нередко считается неуместной н ее избегают, ограничи- ваясь результатами о сходимости типа вышеприведенных. Од- нако отнюдь не очевидно, какие практические выводы можно сделать, например, из теоремы 8 — предлагаем читателю самому обдумать эту проблему в качестве упражнения. Прежде всего, нужно ясно понимать, что именно требуется от приближенного решения той или иной оптимизационной за- дачи. Ответ здесь зависит от того, как будет использоваться да- лее найденное решение. В некоторых случаях для нас основной интерес представляет сама точка минимума (будем говорить тогда об аргументных задачах минимизации). Например, оценка физических констант по результатам прямых или косвенных из- мерений сводится (путем применения метода максимального правдоподобия или наименьших квадратов, см. гл. 11) к мини- мизации некоторой функции. Здесь прямой физический смысл имеют сами аргументы минимума этой функции, а найденные их значения — оценки искомых параметров — будут использо- ваться в разнообразных задачах, не связанных непосредственно с исходной задачей минимизации. Поэтому в данном случае важно возможно точнее найти точку минимума, т. е. мы имеем аргументную задачу. Аналогичным образом обстоит дело в не- которых других задачах оценивания и идентификации. Однако в большинстве случаев сами координаты точки минимума не представляют интереса, а важно лишь обеспечить минимально возможное значение критерия оптимальности. Это соответствует критериальным задачам оптимизации. Например, в задачах наи- лучшего приближения требуется аппроксимировать заданную функцию a(t) некоторым более простым выражением, напри- п + 1 мер полиномом n-й степени £ х^1"'. После выбора соответ- ствующей нормы (Li, А2, Аоо и т. п.) задача сводится к миними- II n + 1 II зации функции f(x) = «(/)— Е */“* • Однако при этом ве- [| i ss» 1 || личины коэффициентов х*, минимизирующих f(x), не представ- ляют никакого самостоятельного интереса — важна лишь ма- лость Дх). Более того, вместо алгебраических полиномов мы
§ I. ВЫРОЖДЕННЫЙ МИНИМУМ 165 могли бы выбрать тригонометрические или искать приближение по какой-либо другой системе функций. Подобная же ситуация имеет место и во многих других задачах, в которых нужно наи- лучщим образом описать объект с помощью некоторой модели, выбор которой в достаточной мере произволен, а цель заклю- чается в минимизации «рассогласования» между выходами мо- дели и объекта. Другими примерами критериальных задач мо- гут служить оптимизационные экономические задачи, задачи оптимального проектирования и т. п. Для критериальных задач вырожденность минимума не представляет особой трудности, поскольку нам достаточно по- пасть в область малых значений минимизируемой функции f(x). Формальным подтверждением этому служат оценки (2), (10), (31) точности по функции приближенных решений, даваемых разными методами. Так, оценка (10) показывает, что при ми- нимизации без помех произвольной квадратичной функции (воз- можно, с вырожденным минимумом) независимо от размерности пространства метод сопряженных градиентов гарантирует оцен- ку f(xk) — f* — 0{k~2). Это означает, что за 100 итераций мож- но уменьшить значение функции приблизительно в 10 000 раз, что обычно достаточно для практических целей. При наличии помех оценка (31) дает гарантию, что если уровень помех мал, то градиентный метод с правилом остановки (28) дает возмож- ность найти достаточно хорошее приближение по функции не- зависимо от вырожденности минимума и от размерности про- странства. В целом можно считать, что для критериальных за- дач с вырожденным минимумом удается построить удовлетвори- тельно работающие алгоритмы. Значительно сложнее положение с аргументными задачами. Заметим, что даже при отсутствии помех мы имели лишь ре- зультаты о сходимости методов (теоремы 1—6), однако ни в одном случае не была получена оценка скорости сходимости. Как уже отмечалось, теоремы о сходимости без оценок скорости сходимости не могут считаться достаточным обоснованием ра- ботоспособности метода. Более того, мы видели на примерах, что скорость сходимости всех рассматривавшихся методов могла быть очень мала. Поэтому ни один из методов не может гарантировать отыскание вырожденного минимума (с заданной точностью по аргументам) за априори определенное число ите- раций. В практических задачах вычисления осложняются неиз- бежными погрешностями. Результаты о поведении методов при наличии помех (теоремы 7, 8) не содержат никаких оценок бли- зости получаемого приближенного решения к точному (по аргу- менту) . Теорема 8 дает некоторое асимптотическое утвержде- ние— если уровень помех стремится к 0, то приближенные ре- шения сходятся к точному. Однако на практике мы решаем задачу при одном фиксированном уровне помех, и этот асимпто-
166 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ тический результат (не сопровождающийся оценками точности), по существу, не несет никакой информации о гарантируемой точности решения. Приведенные выше пессимистические соображения не озна- чают, что аргументные вырожденные задачи во всех случаях нельзя решить. Часто мы обладаем обширной априорной инфор- мацией о решении, и она может быть эффективно использована. Так, если известна близость решения к некоторой точке а, то последняя может быть выбрана в качестве начального прибли- жения для итеративных методов (например, градиентного). В соответствии с теоремой 7 в градиентном методе гаранти- руется отыскание приближенного решения хе такого, что ||хЕ—х*|| С И« — х*||, a f(xe) тем меньше, чем меньше уровень помех. Другой способ учета априорной информации в данном случае связан с выбором регуляризующей функции вида ||х—а||2. Нередко имеется априорная информация о каких-либо свойствах решения. Такая информация может быть учтена в итеративных методах путем выбора подходящей нормы в методе регуляризации путем выбора g(x). Далее, в статистических за- дачах типа оценки параметров информация о решении обычно формулируется в терминах априорного распределения. Исполь- зуя байесовский подход, удается включить эту информацию в минимизируемую функцию и тем самым облегчить отыскание решения. Подводя итог, можно сказать, что возможность решения ар- гументных задач с вырожденным минимумом обычно опреде- ляется наличием априорной информации о решении. При отсут- ствии такой информации трудно рассчитывать на получение сколько-нибудь точного решения. § 2. Многоэкстремальность До сих пор мы в основном занимались задачами минимиза- ции выпуклых функций, для которых всякий локальный мини- мум совпадает с глобальным (теорема 2 § 2 гл. 1). В случае, когда функция многоэкстремальна (т. е. имеет много локальных минимумов), проблема отыскания глобального минимума очень сложна. К ее анализу мы и переходим. Всюду в этом параграфе речь будет идти о задаче rninf(x), xeR", (1) где функция f(x) гладкая, но не выпуклая. 1. Предварительные замечания. Мы знаем (теорема 1 §2 гл. 1), что всякая точка локального минимума х* в задаче (1) является стационарной, т. е. Vf(x*) = 0. Обратно, если в стационарной точке V2f(x*)>0, то х* является точкой локального (или гло- бального) минимума (теорема 4 § 2 гл. 1). Совершенно анало-
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 167 гично можно показать, что если Vf(x*) = 0 и V2f(x*)<0, то х* — точка локального максимума. Наконец, если матрица V2f(x*) в стационарной точке х* не является знакоопределенной, то найдутся как векторы у, для которых f (х* + еу) > f(x*) для достаточно малых е>0, так и векторы, для которых f(x*~i~ey) <Z <Zf(x*). Первые называются направлениями возрастания, вто- рые— направлениями убывания, а точка х* называется седло- вой. Сведем эти результаты в следующую теорему. Теорема 1. Пусть Vf(x*) = 0, матрица \/2f(x*) невырож- дена, X] Кп — ее собственные значения, е1,... ,еп — со- ответствующие им ортонормированные собственные векторы. Тогда, если Xi > 0, то х* — точка минимума, если < 0, то х* — точка максимума, а если М < 0 < то — седловая точка, причем векторы у L_ = [ £ уге‘1, у =/= О, являются |iA.<0 J направлениями убывания, a y^L+ = i £ Yz^‘1. У =/= 0, яв- ляются направлениями возрастания. При этом Rn = L_ ф L+, т. е. R”— прямая сумма подпространств L_ и L+. А Точка х* с \f(x*) = O и невырожденным гессианом назы- вается невырожденной стационарной точкой, размерность под- пространства L- называется индексом стационарной точки, так что индекс равен 0 тогда и только тогда, когда х* — точка ми- нимума. Перейдем к анализу поведения основных методов миними- зации к окрестности различных стационарных точек. Начнем с градиентного метода вида xft+1 = xk — yVf(xs). Мы знаем (тео- рема 4 § 4 гл. 1), что в окрестности невырожденного минимума градиентный метод при 0 < у < 2/||V2/(х*) || сходится к х*, не- зависимо от того, каким минимумом является х*, локальным или глобальным. Пусть теперь х* — невырожденная стационар- ная точка с индексом, отличным от 0. Тогда xfe+1 - х* = xk - х* - Y(xk) = = (/ - YV2/ (Л) (Xk - x*) + о (xfe - x*). (2) Если x* — точка максимума, то все собственные значения, матрицы / — yV2f(x*) больше 1 при любом у>0 (они равны 1 — г=1, ..., п, но все %<• < 0, см. теорему 1). Поэтому II (/— yV2f(x*))z|| y||z||, q > 1, для всех z. Отсюда следует, что для достаточно малых ||х* — х*Ц =/= 0 будет ||xs+1 — х*|| > > ||xft— х*||. Итак, если точка х° близка к х*, но не совпадает с х*, то итерации в градиентном методе будут удаляться от х*. Иначе говоря, точка максимума — точка отталкивания для гра- диентного процесса, и траектория, попавшая в окрестности та- кой точки, заведомо выйдет из нее (за исключением особого случая, когда х° = х*).
168 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ Для случая, когда х*— седловая точка, анализ прост, если f(х) — квадратичная функция. Тогда xft+1-x* = (/-yA)(xft-x'), xk — х*— (I — уА)к (х° — х*), (3) где Д = \72/(х). В обозначениях теоремы 1 (хк — х*, ef) — (l — — yKi)k (х° — х*, е1). Если > 0, 0 < у < 2/|| А ||, то |1— уЛД< < 1, и потому (хк — х*, е1) —> 0. Если же Д < 0, то (хк — х*, е1) — = qk (х° — х*, е‘), где qt — 1 — yZ, > 1, и поэтому (xfe — х*, -> -> оо при (х° —х*, е1) =И= 0. Поскольку || хк — х' ||2 = У, (хк — х*, ____________________________________________ ' е1)2, то получаем ||xft — оо, если х° — х' е L+. Итак, если начальное приближение не принадлежит подпространству L+, то траектория градиентного метода будет удаляться от седловой точки. Для неквадратичного случая анализ более сло- жен, но приводит к аналогичным выводам, —лишь для исклю- чительного множества начальных точек градиентные итерации приводят к седловой точке. Грубо говоря, градиентный метод «почти никогда» не схо- дится к точке максимума или седловой точке. В то же время он не различает точки локального и глобального минимума и сходится к произвольной из них. Несколько иначе ведет себя метод Ньютона. Из теоремы 3 § 5 гл. 1 следует, что для его сходимости не требуется положи- тельной определенности V2f(x*)—достаточна невырожденность этой матрицы. Поэтому метод Ньютона может сходиться к лю- бой стационарной точке, так как он не отличает максимумов от минимумов или от седловых точек. Не будем подвергать исследованию другие методы миними- зации, рассмотренные в предыдущих главах. Некоторые из них существенно опираются на предположение о выпуклости функ- ции и при невыполнении этого предположения теряют работо- способность (таковы почти все методы гл. 5). Другие могут схо- диться к любой стационарной точке (некоторые варианты ква- зиньютоновских методов). Наконец, большинство методов, как правило, сходится к произвольной точке локального минимума. Важно подчеркнуть, что при этом ни один метод не дает гаран- тии попадания в глобальный минимум. 2. Точные методы. Все методы многоэкстремальной оптими- зации можно условно разделить на две группы. Для первых су- ществуют какие-либо точные утверждения об их сходимости к глобальному минимуму, для вторых приходится ограничиваться некоторыми правдоподобными рассуждениями об их разумном поведении в многоэкстремальной ситуации. Будем говорить в первом случае о точных методах, во втором — об эвристических. Придумать точные методы нетрудно, однако их ценность, как правило, невелика. Приведем характерный пример.
§ 2. МИОГОЭКСТРЕМАЛЬНОСТЬ 169 Теорема 2. Пусть f(x)—непрерывная функция на мно- жестве Q = {а С х b} cz Rre, xk — последовательность незави- симых равномерно распределенных на Q случайных векторов. Тогда min f (xz) —> minf (x). Доказательство. По теореме Вейерштрасса (§ 3 гл. 1) существует точка х* глобального минимума f(x) на Q. Пусть е>0 произвольно, в силу непрерывности f(x) найдется окрест- ность U точки х*, для которой f(x) f(x*)+ е при те U. Пусть v — объем U П Q, V — объем Q, тогда и>0в силу открытости U. Вероятность попадания точки х‘ в U f) Q равна v/V; вероят- ность, что хотя бы одна из точек х1, ..., xk попадет в J7QQ, равна pk — 1—(1 — v/V)k. Очевидно, что при &->оо, т. е. Р { min f (х‘) > f (х*) + е}—>0 при k->oo. Это и означает сходимость по вероятности. А Теорема 2 столь же проста и универсальна, сколь и бессо- держательна. Оценим число вычислений функции, требуемое для отыскания решения с небольшой точностью, для одного примера. Пусть х = (хь ..., х10) е R10, f(x)= max х{, Q = {x) 0<х,<1, j=l, ..., 10}, и зададимся точностью 8 — 10~2. Тогда х* = 0, Дх*) = 0, v = (10~2)10 = 10~20, V=l, pk « Jfe-10-20, т. е., чтобы вероятность отыскания х* с точностью до 1% была равна хотя бы 10%, потребуется ~1019 итераций. Иначе го- воря, метод случайного поиска (в описанной в теореме 2 форме) абсолютно непригоден для нахождения глобального минимума уже для размерностей порядка 10. Мы вновь столкнулись с тем фактом, что сама по себе теорема о сходимости отнюдь не га- рантирует работоспособности метода. Тем не менее регулярно появляются работы, содержащие результаты типа теоремы 2 (это дало повод для появления уже упоминавшейся пародийной статьи Вульфа [1.11], в которой с полной серьезностью обсуж- дается детерминированный вариант теоремы 2). Конечно, авто- ры подобных работ обычно не столь откровенны, и предлагае- мые ими методы выглядят более солидно, однако математиче- ское обоснование бывает столь же «глубоким», как теорема 2. В то же время читателю должно быть ясно, что для произ- вольных непрерывных или даже гладких функций невозможен метод существенно лучший, чем в теореме 2. На рис. 26 при- ведены примеры функций, для которых глобальный минимум нельзя найти иначе, чем путем перебора ее значений на доста- точно мелкой сетке.. Поэтому нужно сузить класс рассматривае- мых функций. Рассмотрим функции, удовлетворяющие условию Липшица IfW-f(y) I<L||X-у\\, (4) причем будем предполагать, что константа L известна. При
170 ГЛ, 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ минимизации такого рода функций можно руководствоваться сле- дующим соображением. Пусть уже найдено рекордное значение f(x) по k—1 предыдущим итерациям: фА._1 = min f (х)1 — и вычислено f(xA). Тогда, если f (хк) < <р*_i, то улучшается значе- ние рекорда: <pft = f(x*), если же f (хк) > то в шаре {х: ||х —х*|| <Z L~l(f(xk)— Фа-i)} заведомо не может быть точки глобального минимума, что приводит к сокращению обла- сти возможной локализации минимума. Эту идею нетрудно реа- лизовать в вычислительный алгоритм для одномерного случая. _ f(X) WVW X Рис. 26. Функции, для которых трудно найти глобальный минимум, В многомерном случае возникают серьезные трудности, связан- ные со сложностью описания области локализации минимума и реализации правила выбора новой точки. Эффективность та- кого рода методов зависит от вида функции и расстановки точек. Например, если разница между f(xl) и f(x2) велика, то удается сразу отсечь область большого объема. Если же функ- ция имеет вид, изображенный на рис. 26, то при любых прави- лах выбора хк метод будет не лучше полного перебора. Кроме того, в реальных задачах константа L в (4) редко бывает из- вестна, а ее неправильное назначение может либо резко замед- лить метод, либо привести к потере глобального минимума. Аналогичная ситуация возникает, если известны оценки про- изводных минимизируемой функции. Например, если Vf(x) удов- летворяет условию Липшица IlvfW —VfG/)ll<Mx-y|| (5) и L известно, то сокращение области можно осуществлять, ис- пользуя неравенство I f(x) - f (xft) - (vf (XA), X - xk) I < (L/2) II x - хк II2. (6) Мы не будем на этом подробнее останавливаться, так как этому методу присущи те же недостатки, что и описанные выше,
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 171 Другие классы многоэкстремальных функций, которые были бы естественны и допускали бы простое описание, пока не при- думаны. В целом можно сказать, что существующие точные ме- тоды поиска глобального экстремума не могут рассматриваться как эффективные для решения многомерных задач. 3. Детерминированные эвристические методы. Один из воз- можных подходов к решению многоэкстремальных задач заклю- чается в сочетании методов локальной оптимизации с той или иной процедурой перебора начальных точек. Например, можно произвести спуск методом сопряженных градиентов из вершин грубой равномерной сетки, покрывающей область априорной ло- кализации минимума. Исходные «пробные точки» можно рас- ставлять и иначе. Так, существуют способы «более равномерно» распределять точки в многомерном параллелепипеде, чем в вер- шинах прямоугольной сетки, примером могут служить так на- зываемые ЛП-последовательности [6.14]. При этом число проб- ных точек может быть невелико (несколько десятков). Процесс Очередной локальной минимизации следует прекращать, если мы либо попадаем в уже обследованную зону локального ми- нимума, либо если значение функции в грубо найденном локаль- ном минимуме заметно больше уже достигнутого рекорда. Более интересны методы, в которых глобальный поиск пред- ставим как единый итеративный процесс. Для этого алгоритм должен обладать способностью «выходить» из локальных ми- нимумов. Простейшим примером является метод тяжелого ша- рика (§ 2 гл. 3), в котором приближения х* связаны формулами xfe+1 = xft-avf(xft) + p(x''-^-'). (7) Ясно, что если Vf (xft) = 0, но xk ф хк~', то будет xft+1 =/= хк, т. е. Метод не «застревает» в стационарной точке. Из механической аналогии (7) (движение тяжелого шарика по неровной поверх- ности) следует, что если скорость шарика достаточно велика, то он «проскакивает» неглубокие ямки. Можно проверить на при- мерах, что метод действительно обладает свойством выходить из небольших локальных минимумов. Однако он может «ска- титься» в более глубокий минимум и уже не выйти из него. Поэтому метод тяжелого шарика (7)—ненадежный способ оты- скания глобального минимума. Более перспективным является овражный метод И. М. Гель- фанда и М. Л. Цетлина. Авторы исходят из представления об !₽вражном строении минимизируемой функции, т. е. считается, Что функция слабо меняется по некоторым направлениям (обра- зующим дно оврага) и резко —по другим (направления склонов ©врага). Примером одноэкстремальной овражиой функции мо- жет служить квадратичная функция с плохо обусловленной Матрицей. Вообще, в окрестности локального минимума овраж- ные функции характеризуются большим числом обусловленно-
172 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ сти ц (см. § 3 гл. 1). Овражный метод состоит из шагов спуска, производящихся с помощью какого-либо локального метода (обычно градиентного) и осуществляющих спуск на дно оврага, и овражных шагов вдоль дна оврага. Структура метода видна из рис. 27, на нем х° и х1— два начальных приближения, тон- кими линиями обозначены шаги спуска, жирными — овражные шаги. Траектория в овражном методе проходит в основном по дну оврага, не задерживаясь в локальных минимумах (важно подчеркнуть, что овражные шаги делаются определенной длины независимо от возрастания или убывания функции в данном на- правлении). Овражный метод предназначен для грубого про- смотра всей области определения функции. Найденные в ре- зультате точки с малыми значениями f(x) следует далее уточ- нить с помощью более мощных локальных методов. Овражный метод не свободен от ряда недостатков. Во-первых, довольно трудной проблемой является подбор длины овражного шага, так как если она велика, то метод «перепрыгивает» многие ми- нимумы, если же мала, то метод не отслеживает направления дна оврага и движение становится хаотическим. Во-вторых, на- правление овражного шага не определено однозначно и зависит от многих обстоятельств (точность локальных спусков, распо- ложение предыдущей точки и т. д.). Вообще, наличие многих «свободных параметров» в овражном методе приводит к тому, что его использование требует большого опыта и обстоятельной предварительной «отладки». Идеи овражного метода используются в методе СПП (спуск- подъем-перевал). В нем весь процесс поиска глобального ми-
§ 2. МНОГОЭКСТРЕМАЛЬНОСТЬ 173 нимума разделен на три этапа, которые повторяются цикли- чески. На этапе спуска с помощью метода сопряженных гра- диентов отыскивается локальный минимум. На этапе подъема происходит выход из зоны минимума. Движение осуществляется по направлению «наимедленнейшего подъема», которое нахо- дится следующим образом. В точке хк строится функция fk(x) — = f(x)— (Vf(xk), х). Очевидно, что V/>(xfe) = 0, и если V2f(xk)> > 0, то хк— точка локального, минимума Д(х), если же \?2f(xk) не знакоопределена, то хк — седловая точка Д(х). Из точки z° — xk-]- Rdk-} (где dk~l— направление предыдущего движе- ния, е > 0 — параметр) делается несколько шагов градиентного метода для fk(x): z‘+1 — zl— y^fk(zl). Если точки z‘ стремятся к хк, то это признак знакоопределенности V2fk(хк) = V2f(xk) (см. исследование поведения градиентного минимума в п. 1 в окрестности локального минимума и седловой точки), и направ- ление dk = (z‘ — хк)/\\z{ — берется в качестве направления подъема. Легко проверить, что оно близко к собственному век- тору V2f(x*), отвечающему наименьшему собственному значению этой матрицы. Делается шаг хк+х = хк + Ъкйк, а градиентный шаг из хк+1 приводит к новой точке хк+1, где повторяется этап подъема. Если же точки zl удаляются от хА, то делается вывод о невыпуклости f(x) в окрестности хк и происходит переход к этапу перевала. При этом вектор dk = (zl— хк)/\\z* — хк\\ за- дает направление движения на перевал, которое сочетается с градиентным спуском после каждого шага. При прохождении перевала (критерием этого является перемена знака величины (Vf(xft+1), dft)) начинается спуск в новый локальный минимум. Типичная траектория метода СПП показана на рис. 28. Разде- ление поиска на этапы представляется более целесообразным по сравнению с единообразной процедурой движения в овраж- ном методе. Известны и многие другие эвристические методы глобальной оптимизации. К сожалению, какие-либо строгие результаты об их эффективности отсутствуют, а проверка на тестовых задачах недостаточно убедительна, да пока и не производилась доста- точно обстоятельно. 4. Стохастические эвристические методы. Здесь можно выде- лить два подхода. В первом случайность вносится в процесс ми- нимизации (методы случайного поиска), во втором строится та или иная стохастическая модель минимизируемой функции. Методы случайного поиска для локальной оптимизации уже описывались в § 4 гл. 3. Для придания им глобального харак- тера нужно, чтобы в этих методах были разрешены большие шаги, выводящие из окрестности локального минимума. Опи- шем простейший вариант такого метода. Пусть ищется глобаль- ный минимум f(x), х ^=. R", на единичном кубе Q = {х: О -С х, 1}. В точке хк выбирается вектор hk с независимыми компо-
174 ГЛ. S. ВЫРОЖДЕННОСТЬ, многЬэкстремальность центами, равномерно распределенными на [—1, 1], и если хк + + hk е Q и f (хк — hk) < f (хк), то берется хк^ = хк + hk. В про- тивном случае выбирается новая реализация hk. Метод выгля- дит вполне разумно, для него можно доказать теорему о сходи- мости к глобальному минимуму и т. д. Однако легко убедиться, что он (с точностью до обозначений) совпадает с методом пере- бора из теоремы 2, т. е. является, как мы видели, совершенно неэффективным. К сожалению, эта же опасность подстерегает Рис. 28. Метод СПП для глобальной минимизации: я — этап спуска, б — этап подъема, в — этап перевала; 1 — точки минимума, 2 — седловая точка, 5 — точка максимума. нас и в других методах случайного поиска, хотя она может быть и не столь обнажена, как в приведенном «наивном» варианте метода. Поэтому трудно разделить оптимизм энтузиастов слу- чайного поиска, считающих, что они обладают эффективным средством глобальной оптимизации. Читателя, желающего озна- комиться с разнообразными модификациями методов случайного поиска, мы отсылаем к обширной литературе по этой тематике. Упоминавшийся выше второй подход использования случай- ности в глобальной оптимизации основывается на идее, что после вычисления минимизируемой функции в k точках х\ ... ,х* можно говорить о вероятностях тех или иных ее значений в дру- гих точках. Понятию «вероятность» при этом иногда придается точный смысл — считается, что имеется ансамбль функций с за- данной на нем вероятностной мерой, а минимизируемая функция f(x) есть элемент этого ансамбля; тогда можно говорить об
§ 3. НЕСТАЦИОНАРНОСТЬ 175 условных вероятностях тех или иных событий при реализации значений fix'), f(xk). Чаще же ограничиваются нестрогой вероятностной моделью. Обычно считают, что реализация зна- чения f(xk) в точке хк «повышает вероятность» близких к f(xk) значений f(x) для точек из окрестности хк и не меняет их вдали от хк. Задаваясь тем или иным априорным распределением и достаточно произвольным правилом пересчета, получают апосте- риорное распределение значений f(x) для всех х. В качестве xk+i выбирается точка, где «математическое ожидание» f(x) минимально, и после вычисления f(x*+1) пересчет вероятностей производится заново. Известно много конкретных реализаций подобной идеи. Для всех методов такого типа трудности пред- ставляют способы записи апостериорных вероятностей и про- цедуры поиска «наиболее перспективной» точки. Кроме того, произвол в исходных предпосылках при построении подобных ме- тодов оставляет ощущение неудовлетворенности. Мы постарались дать лишь общую картину положения в об- ласти глобальной оптимизации. Как видит читатель, положение здесь далеко от благополучного. Требуются интенсивные даль- нейшие теоретические и численные исследования имеющихся методов. Однако больше всего ощущается потребность в новых идеях, прежде всего в классификации многоэкстремальных за- дач и выделении сравнительно узких классов задач, допускаю- щих специальные и достаточно эффективные методы их решения. § 3. Нестационарность В некоторых практических задачах, связанных с управле- нием объектами в реальном масштабе времени, критерий опти- мальности не остается постоянным, а изменяется с течением времени (например, вследствие дрейфа характеристик объекта). Четкая постановка подобных нестационарных задач оптимиза- ции может быть различной в зависимости от целей управления и доступной информации. Опишем кратко некоторые возмож- ные ситуации. 1. Известен вид f(x, t). Пусть минимизируемая функция за- висит от скалярного параметра t (не обязательно имеющего смысл реального времени), т. е. имеет вид f(x, f),xe R", t е R1. Обозначим точку локального или глобального минимума f(x, t) при фиксированном t — t0 через Xgt = argmin f(x, tQ). (1) x e Rn Тогда, в соответствии с необходимыми условиями минимума, х* является решением уравнения V4 (х,/о) = О,
176 ГЛ. 6 ВЫРОЖДЕННОСТЬ, МИОГОЭКСТРЕМАЛЬНОСТЬ Если предположить, что выполнено достаточное условие минимума /0)>0, матрица (х, /) непрерывна в {xj, /0}, Vxf(x, t) дифференцируем по t в {хо, /о} и Vx f(x, if) непрерывен в окрестности {xj, /0), то выполнены условия теоремы о неявной функции (теорема 2 § 3 гл. 2) и потому в окрестности /0 суще- ствует дифференцируемая функция х*(/), для которой vj (х* (f), /) = 0, и она определяется уравнением = —[Vxx/(X*(O, 0]-1 (х*(0, 0» х‘(/0) = х;. (2) В силу непрерывности УххЦх, /) в окрестности t0 выполняется условие vlvf (х* (/), /) > 0, являющееся достаточным условием экстремума, т. е. х*(/) — argmin f(x, /). (3) х е Rn Иными словами, зная точку минимума при одном t — t0, можно из (2) найти точку минимума и для близких значений if. Если f(x, /) сильно выпукла по х при каждом I, то глобальный ми- нимум х* (/) — argmin f(x, t) существует и единствен для всех t X и описывается уравнением (2), которое имеет решение, продол- жаемое на всей оси. Итак, если вид функции f(x, t) известен (достаточно, чтобы были доступны ее производные Vxxf (х, f) и V/xf (х, /)), то траекторию точек минимума х* (t) можно отсле- дить, решая дифференциальное уравнение (2), если точка ми- нимума известна в какой-либо момент /о. Конечно, такой подход имеет в основном принципиальное значение, так как, во-первых, дифференциальное уравнение (2) нельзя решить точно, во-вторых, точка минимума хо в момент /0 может быть найдена лищь приближенно, и, в-третьих, вид зависимости f от t обычно неизвестен. Чтобы преодолеть первые две трудности, можно перейти к дискретному времени, т. е. за- менить дифференциальное уравнение конечно-разностным, а в качестве начального приближения выбирать не обязательно точку минимума. 2. Вид f(x, t) неизвестен. Рассмотрим несколько иную ситуа- цию, в которой отсутствует какая-либо информация о законе изменения минимизируемой функции во времени. Пусть в k-й момент времени (речь идет о дискретном варианте задачи) имеется функция fk(x), причем можно вычислять ее значения и значения производных в произвольной точке. Тогда можно сде- лать несколько итераций какого-либо метода минимизации fft(x), а полученную точку взять в качестве начального прибли- жения для минимизации ffe+i(x). В простейшем варианте можно делать лишь один шаг градиентного метода xft+‘=х* —yVM**) (4)
§ 3, НЕСТАЦИОНАРНОСТЬ 177 или метода Ньютона Xk+' = Xk _ [v2f* (5) Нас будет интересовать вопрос о поведении подобных итераций. С другой точки зрения этот вопрос заключается в исследовании градиентного метода или метода Ньютона в нестационарной си- туации. В действительности мы уже занимались близкими задачами, когда изучали влияние помех на методы оптимизации. Напри- мер, если существует предельная функция f(x) такая, что fk(x)-+-f(x), Vfk(x)-+ Vf(x), то Vfk(xk) можно записать в виде Vffe(xft) = Vf(xft) + (Vfft(xfe)— Vf(xfe)) и последний член рассма- тривать как «помеху». Тогда (4) есть не что иное, как градиент- ный метод минимизации f(x) при наличии помех, и можно при- менять результаты § 2 гл. 4. Если предельной функции не су- ществует, то методы (4), (5) нужно исследовать непосредствен- но. Ограничимся одним характерным примером. Пусть все функции fk(x) дважды дифференцируемы, причем для всех х и k lI^V2fk(x)^LI, l>0. (6) Тогда каждая функция fk(x) имеет единственную точку ми- нимума x*k- Предположим, что эти точки минимума дрейфуют с ограниченной скоростью К-<7) Теорема 1. При сделанных выше предположениях для ме- тода (4) с 0 < у < 2/L справедлива оценка Пт \\хк — , <7 —тах{| 1 —у/ I, I 1 —Y^-l} < 1- (8) Доказательство. Так же как при доказательстве тео- ремы 3 § 4 гл. 1, имеем || - Ч || = || - Wh < || <Я || х* - II- Отсюда’Цх^1 - х;+11| <||xfe+‘ - х^Ц + ||x’ft+1 - хЦ <?|| х - х^Ц + а. Используя лемму 1 § 2 гл. 2 для uk = ^xk — х^||, получаем (8). ▲ Таким образом, градиентный метод (4) отслеживает неста- ционарный минимум с точностью до величин порядка а. Учиты- вая полное отсутствие информации о законе движения мини- мума, трудно рассчитывать на большее. В ряде случаев упомянутая информация может быть до- ступна. Например, может быть известно, что траектория опти- мумов описывается разностным уравнением xk+i== Sk(xk)> (9)
178 ГЛ. 6. ВЫРОЖДЕННОСТЬ, МНОГОЭКСТРЕМАЛЬНОСТЬ где неизвестно начальное условие х*0 (ср. с описанием непре- рывной траектории х*(/) с помощью уравнения (2)). В этом случае целесообразно ввести прогнозирование, даваемое (9), в методы минимизации. В частности, градиентный метод (4) при- нимает вид хк+' gk (хк) ~ NVfk (gk (xk)). (10) 3. Заключительные замечания. При анализе методов оптими- зации мы начали с наиболее простого случая — невырожден- ного безусловного минимума гладкой функции при полной ин- формации о задаче — и постепенно учитывали возможные усложнения этой ситуации (недоступность производных, нали- чие помех, негладкость функции, вырожденность минимума, мно- гоэкстремальность, нестационарность). Однако не нужно думать, что тем самым мы полностью исчерпали тематику безусловной минимизации. Многообразие практических задач оптимизации столь велико, что они не укладываются в рамки даже наиболее общих схем. В частности, мы совершенно не рассматривали методы, пригодные для минимизации функций специального вида. Некоторые из таких методов будут описаны позже, когда в части III мы познакомимся с конкретными примерами задач оптимизации.
ЧАСТЬ И УСЛОВНАЯ МИНИМИЗАЦИЯ Глава 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Изучение задач условной минимизации начнем с наиболее простых, имеющих вид min f (х), (А) X е Q с Rn где Q — множество «простой» структуры. В принципе условия на это множество в приводимых ниже теоремах являются са- мыми общими (выпуклость, замкнутость и т. д.). Однако содер- жательный характер эти результаты приобретают, лишь если для множества Q можно достаточно просто найти фигурирую- щие в теоремах объекты (опорную гиперплоскость, проекцию и т. п.). В этом смысле и понимается термин простое множество. В качестве примеров можно привести параллелепипед Q = = {х: а sC х sC Ь}, шар Q = {х: ||х|| sC а}, линейное многообра- зие Q = {х; Ах — Ь} и т. д. Ограничения, задаваемые такими множествами, часто обусловливаются либо физической приро- дой переменных (например, требованием неотрицательности), либо априорными знаниями о решении. § 1. Основы теории 1. Условия экстремума в гладком случае. Точка x*eQ назы- вается локальной точкой минимума (или просто точкой мини- мума) в задаче (А), если f(x)^ f(x*) для всех xeQ, ||х—х*||sC е при некотором е > 0. Если f(x)^ f(x*) для всех xgQ, то будем говорить о глобальном минимуме. Теорема 1 (необходимое условие минимума I порядка). Пусть f(x) дифференцируема в точке минимума х*, a Q — вы- пуклое множество. Тогда (Vf (х*), х — х*)^0 для всех xeQ. (1) Доказательство. Пусть (Vf(x*), х° — х*)<0 для не- которого х°е Q. Тогда х(а) = х* + а(х° —х*)<= Q при Osgasgl в силу выпуклости Q и f (х (а)) = f (х*) + а (Vf (х*), х° - х*) + о (а) < f (х*) при достаточно малых а > 0, что противоречит локальной опти- мальности х*. А Вектор asR'!, удовлетворяющий условию (а, х — х*) 0 для всех х Е Q, называется опорным к Q в точке х* s Q (если
180 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ а =# 0, то он задает опорную гиперплоскость (а, х— х*) == 0, см. § 1 гл. 5). Поэтому условие (1) может быть сформулиро- вано иначе: вектор —Vf(x*) является опорным к Q в точке ло- кального минимума х*. Далее, всякий вектор вида s = x — х*, х е Q, называется допустимым направлением в точке х* относи- тельно выпуклого множества Q. Это название объясняется тем, что х* -ф as s Q при всех 0 a 1. Вспомнив формулу (6) § 1 гл. 1 для производной по направлению f' (х; s) = (Vf(x), s), мо- жем условие экстремума сформулировать и так: производная по любому допустимому направлению в точке минимума не- отрицательна. Геометрический смысл (1) очень прост (рис. 29) — множество Q и множество S= {х: (Vf(x*), х — х*)<0}, образованное на- Рис. 29. Условия экстремума на множе- жестве Q. правлениями локального убывания f(x) в точке х*, не должны пересекаться. В отличие от задач без- условной минимизации, для (А) можно сформулировать достаточное условие экстре- мума в терминах первой производной для невыпук- лой f(x). Теорема 2 (достаточ- ное условие минимума I по- рядка). Пусть f(x) диффе- ренцируема в точке х* е Q, Q выпукло и выполняется условие (Vf (х*), х - х*) > а || х - х ||, a > 0, (2) для всех x<=Q, ||х — х*|| е, е > 0. Тогда х* — точка локаль- ного минимума f(x) на Q. Доказательство. Выберем ei >0, ei е, так что If (х* + у) - f (X*) - (vf (х*), у) I < a II у 11/2 при || у || Тогда для xeQ, || х — х*||^е1, имеем f (х) > f (х*) + (Vf (х*), х - х*) - а || х - х* ||/2 > f (х*) + а || х - х* ||/2, т. е. х* — точка локального минимума. ▲ Заметим, что (2) заведомо не выполняется, если х* — вну- тренняя точка Q, поэтому в условиях теоремы 2 минимум дости- гается обязательно в граничной точке Q (рис. 30). В терминах производной по направлению (2) может быть записано так: f (х*; s)>a||s||, a>0 (3) для всех допустимых s. Заметим, что кажущееся естественным достаточное условие экстремума вида «/'(«*; s) > 0 для всех допустимых s» в действительности неверно (упр. 1),
§ 1. ОСНОВЫ ТЕОРИИ 181 Конкретизируем полученные условия экстремума для не- скольких важнейших примеров множеств Q. Пусть Q = {xeR": a^x^b}. (4) Тогда из теорем 1 и 2 для f(x), дифференцируемой в х* е Q, по- лучаем, что если х* — точка минимума f(x) на Q, то 1 = 0, а( < х* < bt, ат । >0,. * хг = а;, (5) ‘ 1 1 <0, х: = б;, а если * или, х* = 6; для всех 1<Пг и cix, | > о, <0, х;=а;, х* = Ь., (6) па Q. В частности, если ищется условие то х*— точка минимума f(x) минимум f(x), xsR1, f'(0)^0 является необходимым, a f' (0) > 0 — достаточным для минимума в 0. С помощью (5) в принципе можно искать точки минимума на параллелепипеде Q путем перебора: разбиваем мно- жество индексов 1= {1, ..., п} на три подмножества I — /0 U О- U U полагаем xt = at при i е /+, Xi — bi при 1<=1- и решаем си- стему уравнений относительно Xi, df(x)/dxt = O, i^I0. Если в найденной точке х* окажется, чтоаг < х* < b., i^Iои df{x*)/dx > 0, i е= I+, df (x*)/dxt < 0, is / , то в х* выполнены необходимые при ограничении х О, то । I Q Рйс. 30. Острый минимум в зада- че с ограничениями. условия экстремума. Ра- зумеется, такой путь не может рассматриваться как реалисти- ческий метод решения задачи. В дальнейшем мы опишем гораз- до более эффективные способы минимизации, опирающиеся на условия экстремума. В качестве второго примера рассмотрим минимизацию на линейном многообразии: Q = {xeR": Ах — Ь], (7) где b Е Rm, А — матрица т X п. Из теоремы 1 следует, что (Vf(x*)> х — х*) 0 для всех х Е Q, т. е. (Vf(x*), s) 0 для всех s Е L = {s: 71s = 0}. Если бы нашлось s°eL такое, что (Vf(x*), s°)>0, то (Vf(x*), —s°)<0, что невозможно, так как — s°eZ,. Поэтому (Vf(x*), s)=0 для всех s е L. Отсюда
182 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ следует (лемма 1 § 1 гл. 8), что найдется у* е R"1 такое, что Vf(x*) = XV- (8) Итак, (8) является необходимым условием минимума f(x) на Q вида (7). Упражнение. 1. Рассмотрите пример в R2: min (у — у2), у > 0, у = х2 — *х2. Убеди- тесь в том, что для х* = 0 f'(x*; s) > О для любого допустимого s, одиако х* не является точкой локального минимума. 2. Условия экстремума в выпуклом случае. Мы будем ис- пользовать сведения из теории выпуклых функций, приведенные в § 1 гл. 5. Теорема 3. Пусть f(x)— выпуклая функция на R”, Q — выпуклое множество в Rre, х* е Q. Тогда условие: найдется суб- градиент df(х*) такой, что для всех x<=Q (df(x‘), х-х*)>0, (6) является необходимым и достаточным для того, чтобы х* был глобальным минимумом f(x) на Q. Доказательство. Необходимость. Пусть такого субградиента нет. Тогда множества S = df(x*) и К = — {У- (У> х — xeQ} не пересекаются. По лемме 6 § 1 гл. 5 S выпукло, замкнуто и ограничено. Без труда проверяется, что множество К выпукло и замкнуто. Поэтому применима тео- рема отделимости (теорема 1 § 1 гл. 5), т. е; найдутся csR'1, с 0 и а > 0 такие, что (а, с) —а для всех а е S и (с, у) >0 для всех у е К- Пусть Г — замыкание конуса, порожденного до- пустимыми направлениями, т. е. Г = {х: х — lim Kk (xk — х*), Kk> 0, xk sQ}. Если сё= Г, то вновь применим теорему отдели-, мости (это возможно, так как множество Г выпукло и замкнуто) и найдем b такое, что (Ь, х)^0, хе Г, и (6, с)<0. Тогда из определения К и Г следует, что b К, поэтому неравенство (6,с)<0 противоречит условию (с, г/)^0 для всех у е К. Итак, с е Г, следовательно, найдутся носледовательности X* > 0 и х* е Q такие, что Kk(xk — х*)->с. Выберем k так, чтобы было ||A,fe(xfe — х*) — с IKa/(2L), L — тах||а||. Тогда в соответствии с a s S леммой 6 § 1 гл. 5 f' (х*; Kk (xk — х*)) = max (a, Kk (xk — x*)) ~ a<= S — max (a, c) 4- max (Kk (xfe — x*) — c, a) — a + ~ a = — 4- a. Поэтому xk —х*)<0и для достаточно малых у > 0 будет f(x* y(xfe — х*)) < f (х*), что невозможно, если х* — точка ми- нимума.
§ 1. ОСНОВЫ ТЕОРИИ 183 Достаточность. Пусть (df(x*), х— х*)^0 для всех хе Q и некоторого субградиента df(x*). Тогда f(x) > f (х‘) + (df (х), x-x*)^f (Z) для любого х е Q, т. е. х* — точка глобального минимума f(x) на Q. ▲ Упражнение. 2. С помощью теоремы 3 покажите, что b =,Pq(a) тогда и только тогда, когда (& — а, х — Ь) 0 для всех х е Q (ср. с (5) § 1 гл. 5). (Указание. Pq (a) есть решение задачи min il х — а ||2, х е Q). 3. Существование, единственность и устойчивость минимума. Теорема существования мало меняется по сравнению с теоре- мой 1 § 3 гл. 1— условие ограниченности множества {х: f(x)^ заменяется на условие ограниченности множества {х е Q: f(x)^a), а доказательство остается прежним. Теорема 4 (Вейерштрасс). Пусть f{x)—непрерывная функ- ция на Q cz R”, множество Q замкнуто, а множество {х е Q: f(x)^a) ограничено и непусто для некоторого а. Тогда задача (А) имеет решение. ▲ Если выполняется достаточное условие минимума (2), то минимум единственный. Теорема 5. В условиях теоремы 2 х* — локально един- ственная точка минимума. Доказательство следует из неравенства f(x)>f(O + a||x- х*||/2, || х- х‘||<8, (10) полученного при доказательстве теоремы 2. ▲ Единственность решения по-прежнему можно гарантировать для строго выпуклой f(x). Однако можно наложить и некоторые условия на Q, приводящие к единственности минимума. Назо- вем множество Q строго выпуклым, если для любых Xi е Q, x2gQ, Xi =f= Хг, 0 < X < 1 точка Xxi +(1 — Х)х2 является вну- тренней точкой Q. Теорема 6. Пусть f(x)— выпуклая функция на R”, мно- жество Q строго выпукло и ||<3f(x) || ^ е > 0 для всех субгра- диентов и всех xsQ. Тогда точка минимума f(x) на Q един- ственна. ▲ Понятие устойчивости для задачи (А) можно ввести различ- ным образом. Как и ранее, будем называть задачу минимизации (глобально) устойчивой, если всякая минимизирующая последо- вательность сходится, т. е. если из xk sQ, f (xR)-+f* = inf f (x) X e Q следует, что xfe->x*, f(x*)= f*. Можно определить понятие обоб- щенно-минимизирующей последовательности:? (xk)-+f*~ ini f (х), X s Q p(xft, Q)->0, где p(x\ Q)= inf ||xft—-x|| и называть задачу
184 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ обобщенно-устойчивой, если всякая обобщенно-минимизирую- щая последовательность сходится к точке минимума. Теорема 7. Если f(x) непрерывна на Rn, Q замкнуто и под- множество {хе Q: f(x)^a} ограничено и непусто для некото- рого а, а точка глобального минимума х* единственна, то задача минимизации устойчива и обобщенно-устойчива. ▲ Можно получить количественные оценки устойчивости для сильно выпуклых функций — эти оценки совершенно аналогичны результатам леммы 2 § 2 гл. 5 для безусловного минимума (см. упр. 6). Более интересен случай острого минимума. Назовем х* точкой (глобального) острого минимума /(х) на Q, если для всех х е Q f(x)>f(x*) + a||x-x ||, а > О, (11) (ср. с (9) § 2 гл. 5). Можно дать аналогичное определение ло- кального острого минимума, а также рассмотреть более общий случай неединственного минимума,, но мы ограничимся наиболее простой ситуацией. Для задач с ограничениями острый мини- мум может достигаться и при гладких f(x) (см. рис. 30). Лемма 1. Следующие условия эквивалентны (11) для вы- пуклой f(x) и выпуклого Q: a) s) a||sl| для всех допустимых направлений s; б) множество —д[(х*) и множество опорных к Q в точке х* векторов имеют общую внутреннюю точку. ▲ Из а) следует, что условия (2) и (11) эквивалентны для гладких выпуклых функций. Для невыпуклых функций можно показать, что в условиях теоремы 2 х* — точка локального ост- рого минимума (см. неравенство (10)). Основное свойство «сверхустойчивости» острого минимума (см. теорему 6 § 2 гл. 5) сохраняется и для задач с ограниче- ниями. Теорема 8. Пусть [(х) — выпуклая функция на R”, Q — вы- пуклое замкнутое множество, х* —точка острого минимума f(x) на Q, g(x)— выпуклая функция. Тогда найдется е0 > 0 такое, что при 0 < е < е0 точка минимума функции f(x) + eg(x) на Q единственна и совпадает с х*. ▲ Упражнения. 3. Докажите, что шар — строго выпуклое множество, а параллелепипед и подпространство — нет. 4. Докажите, что если f(x)—строго выпуклая функция иа R", то мно- жество {х: f(x) sg а} строго выпукло при любом а. 5. Приведите пример выпуклой (но не строго) функции f (х), для которой множества {х: ((х) si а} строго выпуклы. 6. Пусть f(x) —сильно выпуклая функция на R", а множество Q выпукло и замкнуто. Докажите, что решение х* задачи (А) существует и единственно, и f(x) f(x*) + (Z/2) || х — х* ||2 для всех х е Q, где / — константа сильной выпуклости.
§ 2. ОСНОВНЫЕ МЕТОДЫ 185 1. Исследуйте, при каких с е R" в задаче min II х — с Ц2, а гД х tg. Ъ, до- стигается острый минимум. Ответ. Если с/ > &( или ci < аг для всех 1 i -Д п. 8. Покажите, что при условии (6) х* — точка острого минимума. § 2. Основные методы основных методов решения за- Переходим к исследованию дачи (А). Они аналогичны градиентному методу и методу Нью- тона для безусловной минимизации. 1. Метод проекции градиента. Этот метод является непосред- ственным обобщением градиентного метода. Поскольку послед- ний, вообще говоря, выво- дит за пределы множест- ва, можно, добавить опе- рацию проектирования на Q. Таким путем получаем метод (рис. 31): xk+1 — PQ (xk — yVf (xft)), (1) где Pq — проектор на Q (см. § 1 гл. 5). Теорема 1. Пусть f (х) — выпуклая диффе- ренцируемая функция в R", градиент которой удовлетворяет на Q условию Липшица с константой L. Пусть Q выпуклое и замкнутое, X* — Agrmin /(х) =/= 0 и 0 < у < 2/L. х е Q Тогда-. a) А'*; б) если f(x) сильно выпукла, то xk-+x* со скоростью геоме- трической прогрессии; в) если f(x) дважды дифференцируема и 11 ^Х2[(х) sC L1, х ^ Q, I > 0, то знаменатель прогрессии равен <7=niax{| 1 —у/|, г) если х* — точка острого минимума, то метод конечен: xk = х* для некоторого k. Доказательство. Пусть х — произвольная точка мини- мума. Тогда (упр. Y)x = Pq(x — yVf(x)); поскольку оператор проектирования является нерастягивающим ((6) § 1 гл. 5), имеем II- £ II2 = II Pq (xk - yVf И) - Pq (X -- yXf (£)) II2 < < || xk - It - у (V/ (xfe) - Xf U)) II2 = II xfe - It ||2 - - 2y (Vf (xft) - Xf ), xk - X) + у2 II Xf (xk) - Xf (£) ||2.
186 ГЛ. 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Используя лемму 2 § 4 гл. 1, получаем ||xk+' - £ ||2< ||хк - к ||2 - у (2 - yL) (Vf (xft) - Vf (х), xk - х)< < II Xk — XII2 — у (2 — yL) (Vf (xk), xk — x) < < || xk - к ||2 - у (2 - yL) (f (xft) - f (> Здесь мы применили условие экстремума (1) § 1. Сумми- руя полученные неравенства по k и учитывая, что у (2 — yL) > О, оо находим У, (f (xfe) — f (£)) < оо. Отсюда следует, что 1'im f (xk) — k-+<x> — f* ~ f (х). Последовательность xk ограничена, так как ||xft— х|| Цх°— х||, поэтому можно выбрать сходящуюся под- последовательность хк1—>х*. В силу непрерывности f(x) при этом f (xk‘) f (х*), т. е. f(x*) = f*. Заменяя х на х* и учитывая монотонность ||xft — х*||, получаем, что ?-+х*еГ. Пусть f (х) сильно выпукла, тогда из неравенства ||х*+1_ х*||2 sC llxft — х*||2 — у (2 — yL) (Vf(xft) — Vf(x*), xk — x*) с учетом (31) § 1 гл. 1 имеем ||xft+1 — х*||2 йС (1—у/(2 — — yL))||xft — х*||2, т. е. xfe->x* со скоростью геометрической про- грессии. Если f(x) дважды дифференцируема, то из полученного выше неравенства ||хй+1 — х*|| йС [|ха— х*— y(Vf(x*)—Vf(x*))|| оценка скорости сходимости выводится так же, как и при до- казательстве теоремы 3 § 4 гл. 1. Остается доказать конечность метода для острого минимума. Для произвольного xeQ, используя (2) § 1 (с учетом лем- мы 1 § 1), имеем (х'г — yVf (xk) — х*, х — х*) = = (xfe - х* - у (Vf (xk) - Vf (x*)), x - x‘) - у (Vf (x*), x - x*) < <(1 + yL)||xft — x*||||x — x*|| — y<x||x — x*|| = = ((1 + yL) || xk - x* || - ya) || x - x* || < 0 при |]xfe — x*|| «С ya/(l + yL). Так как xft->x*, то последнее не- равенство выполняется для достаточно больших k. Применяя результат упражнения 2 § 1, получаем, что x*=PQ(xfe—yVf(xft)), т. е. точка xfe+1 совпадает с х*. Л Рассмотрим несколько примеров. Пусть Q = {х: х^О}, xeR’. Тогда Pq(x)==x+ и метод проекции градиента прини- мает вид хк+} — (хк — yVf (xfe))+. (2)
§ 2. ОСНОВНЫЕ МЕТОДЫ 187 Пусть Q = {х: a^Lx^b}, xeR". Будем обозначать для скалярных величин т, а Р т, Р, . а, а т Р, г > Р, т < а, (3) Аналогичный смысл имеет обозначение (х)£ для вектора х, а^.Ь—это вектор, i-я компонента которого равна (xz)®‘. Тогда метод проекции градиента для данного Q выглядит так: xs+! _. (xft _ (xk))ba. (4) Далее, пусть Q — шар: Q= {х: ||х|| ^ р}. Тогда xft — yVf (xft), если || xk — yVf (xfe) ||=Cp, xfe+1 = -! xk-yVf(xk) „ k (5) “л" "* -vw(x)ii>p. Наконец, пусть Q — линейное многообразие, Q={xeR'1: Cx = d}, где C — матрица m X n, R"1. 4 Тогда x*+1 == (/ - G+C) (xfe - yVf (**)) + C+d. (6) Здесь C+—псевдообратная матрица к С (§ 1 гл. 6). Если при этом х° е Q, то xft+1 — х° = Т (хк — х° — yVf (xfe)), (7) где Т = 1 — С+С, а если С — матрица ранга tn < п, то7’ = / — -СГ(ССГ)~'С. Упражнения. 1. Докажите, что условие экстремума (1) § 1 можно записать в виде:- х* = Pq(x* — yW(x*)) для любого у > 0< 2. Пусть условие острого минимума в теореме 1 заменено на более об- щее: f (х) — f (х*) > а || х — Рх. (х) ||, а > 0. Докажите, что метод (1) оста-' ется конечным. 3. Покажите, что если не требовать выпуклости f (х), то сходимости xk к точке локального или глобального минимума может и не быть, однако можно доказать, что f(x*+t) f(xk) и || xk+l — xk || ->0. 4. Предложите конструктивное правило выбора длины шага в методе проекции градиента, аналогичное (10) § 1 гл. 3. 5. Приведите пример, показывающий, что метод x4+1=Pq(x*—Y^W(x4)) не сходится при Н I, Н > 0. 2. Метод проекции субградиента. Аналогом субградиентного метода безусловной минимизации негладких функций является метод проекции субградиента xfe+i _ — у df (xfe)), (8)
188 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ где, как и ранее, df(xk)— любой из субградиентов выпуклой функции f(x) в точке xk. Правила выбора yk аналогичны рас- смотренным в § 3 гл. 5, и мы упомянем лишь два важнейших: Yfe-*0, XVfe = o°, (9) /г = 0 <10> Теорема 2. Пусть f(x)—выпуклая функция на R”, Q — выпуклое замкнутое множество, множество К* точек минимума /(х) на Q непусто. Тогда метод (8), (10) сходится к х* е X*, а если ||df (х)|| с для всех х Q, то и метод (8), (9) сходится к х* <= X*. ▲ 3. Метод условного градиента. Вспомним, что в основе гради- ентного метода лежала идея линеаризации функции. Можно попытаться применить эту же идею для задачи с ограничениями: в очередной точке xk линеаризуем функцию f(x), затем решим задачу минимизации линейной функции на Q и найденную точку используем для выбора направления движения. Из этих сообра- жений приходим к методу условного градиента: хк = argmin (Vf (xfe), х), x = q (11) XS+1 _ xk _|_ (jk _ xky При этом, во-первых, предполагается, что задача минимизации линейной функции на Q имеет решение (для чего естественно потребовать ограниченность Q), во-вторых, что это решение может быть найдено достаточно просто, лучше всего — в явной форме (см. примеры в упражнении 7) и, в-третьих, нужно ука- зать правило выбора ук, 0 yt 1. Теорема 3. Пусть f(x)—дифференцируемая функция, гра- диент которой на Q удовлетворяет условию Липшица с констан- той L, a Q выпукло, замкнуто и ограничено. Пусть ук опреде- ляется из условия скорейшего спуска: YA = argmin f(xft + Y (xfe ~xfe)). (12) 0 < Y < 1 Тогда a) (V/(xft), xk — xk)-+0 и для всякой предельной точки по- следовательности xk удовлетворяется необходимое условие экстремума (1) § 1; б) если ffx) выпукла, то предельные точки — точки мини- мума f(x) на Q и справедлива оценка f(xk)~f*=Om, f* = minf(x), (13) f (Xk) >r>f (Xk) + (Vf (?), xk - xfe);
§ 2. ОСНОВНЫЕ МЕТОДЫ 189 в) если задача имеет острый минимум, то метод (11), (12) конечен. Доказательство. Прежде всего, метод определен, так как при сделанных предположениях точка xk существует. Вве- дем V(x) = f(x)— f*, sk = xk— Тогда в силу условия Лип- шица на VV(x) (см. (15) § 1 гл. 1) y(%fe+i)__ mjn v(xk — ysk)^ min ср (у), ср (Y) = V (xft) - у (Vf (xk), ?) + y2L || ? ||2/2. Обозначим у^ — • По определению xk: (yf (xk), sfe)^0, т. e. Yfc^O. Возможны два случая: 1) у£<£ 1, 2) у£ > 1. В первом V (Х^) < ср (у0 = V (xk) - < V (**) - - (14) где R — диаметр множества Q. Во втором L || sk ||2 < (Vf (xk), sk) и V (xft+>) < ср (1) < V (xk) - (Vf (xk), ?) + (L/2) || sk II2 < < V (xk) - (Vf (A sk)/2. (15) Итак, в обоих случаях V(xk) монотонно убывает, а так как V(x)^ О, то V(xk)—l/(xfe+1)->0. В соответствии с (14) и (15) это влечет сходимость (Vf(xfe), s*)->0. Пусть теперь х* — произвольная предельная точка последо- вательности xk (она заведомо существует, так как Q ограни- чено), хй(->х*. Тогда для любого xsQ (Vf (х*), х - х*) = (vf (х*) - Vf (xft0, x - x*) + + (vf (xfe0, X - xk‘) + (vf (xft0, xki - xft0 + (vf (xft0, xki - x’)_ Первый и четвертый члены правой части стремятся к 0 при i->oo, так как xft‘—>х*> второй Неотрицателен в силу определе- ния xfe, а третий стремится к 0 по доказанному. Поэтому (Vf(x*), х — х*);> 0, т. е. выполнено условие (1) § 1. Пусть f(x) выпукла, тогда х* — точка минимума, l/(xfe)->0 и V(xk) (Vf (xfe), xfe —- x*)sC(Vf(x/e), xk~xk), т. e. V(xft)=C ^(Vf(xfe), sfe). С другой стороны, из (14) и (15) получаем (Vf (xft), sft) < max {(2LR2 (V (xk) - V (xfe+'))'/2, 2 (V (xk)-V (xft+'))}< ^.2LR2 (V (xft) — V (xfe+1))l/2 для достаточно больших k, так как V (xft) —>0. Отсюда V (xft+1) V (xk) — (2Т^2)-1 V (xk)2. Используя лемму 6 § 2 гл. 2, получаем оценку (13). Наконец, пусть f(x) имеет острый минимум на Q в точке х*. Тогда для произвольного хе Q (Vf (xk), х* - х) = (Vf (х*), х* - х) + (Vf (xft) - Vf (x*), x* - x) < — a II x — x* II + LII xk — x* IIIIX — x* IK o
190 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ для xk, достаточно близких к х*. Поэтому для таких xk будет х* = х* (в соответствии с определением xk). Поскольку х*— единственная точка минимума, то будет = 1 (см. (12)) и х'г+1 — х*. А Покажем на примере, что оценка (13) не может быть улуч- шена даже для сильно выпуклых f(x). Пусть хе R2, f(x) = x2 + (l+x2)2, Q = {x: |х,|<1, 0<х2<1} (16) (рис. 32). Тогда х* = {0, 0}, xk = {1, 0}, если xf<0 и xk = =={— 1,0], если х\ > 0. При этом для всех k (14) обращается в (1/4) || sj|2 о2, || sfe ||2 -> 1, т. е. vk = 4/6 + о(1/А), где vk=f (xk) — f* = \\xk—х*||2. Эта ситуация является типичной: если Q — мно- гогранник, а минимум гладкой функции Дх) до- стигается не в вершине Q, то скорость сходимости столь же низка. Это и не удивительно, так как в качестве хк могут высту- пать лишь вершины Q; поэтому направления дви- жения хк—хк сильно от- личаются от направления на минимум х* — xk. С другой стороны, как мы видели, если в зада- Рис, 32. Медленная сходимость метода условного градиента. че имеется острый мини- мум, то метод условного градиента конечен. Таким образом, скорость сходимости метода зависит не только от свойств Дх) и Q (гладкость, выпуклость, сильная выпуклость и т. п.), но и от структуры решения. Параметр yk в методе условного градиента можно выбирать и иначе, чем в (12) (упр. 9). Однако наиболее простой способ xfe+> = xk (т. е. = 1) не годится. Далее, метод условного градиента не обобщается на неглад- кие задачи. Дело заключается в том, что точка минимума Дх) на Q не является неподвижной точкой метода вида (11), в ко- тором градиент заменен на произвольный субградиент. Упражнения. 6. Когда, существует решение задач: a) min (с, х), х Ss 0, xeR’; б) min(c, х), Ах = b, хе R"; в) minfc, х), (Ах, х) si 0, 0 > 0, А 0? Ответ, а) Если с >-= 0; б) если Атс = 0; в) если (с, е1) =0 для всех собственных векторов е1 матрицы А, отвечающих нулевым собственным зна- чениям.
§ 2. ОСНОВНЫЕ МЕТОДЫ 191 7. Убедитесь в правильности решения следующих элементарных задач минимизации: ' если с. > О, а) х* = argmin (с, х), х* = b если с, <0, а<х<& 1 ‘ , любому между а. и Ь., если сг = 0; б) х* = argmin (с, х) = — ||х||<р ||с|| в) х*= argmin (с, х), А > 0, а > 0, х* = A~l (b — Лс), где (1/2) (Ах, х)-(Ь, х)<а А находится из уравнения (Ах*, х*)/2 — (Ь, х*) = а. 8. Пусть х* — решение задачи min (с, х), хеО. Докажите, что х* = <=? lim Р<г(Лс) при оо. 9. Докажите, что все утверждения теоремы 3 остаются в силе, если шаг выбирать из условия ук — min{l, (Vf(xft), xk —xk)IL || xk —xk ||2}. 10. Назовем множество Q сильно выпуклым, если найдется [3 > 0 такое, что если хеО, i/eQ, то и zeQ при II г — (х + у)/2 || si |3 || х — у ||2. Пока- жите, что если Дх)—сильно выпуклая функция на Rn, то множество Qa = = {х: f(x) а} сильно выпукло. Докажите, что сильно выпуклое множество, отличное от Rn, ограничено. 11. Докажите, что если f(x) выпукла и ||Vf(x)|| 2а е > 0 для xeQ, а Q сильно выпукло, то метод условного градиента в условиях теоремы 3 схо- дится со скоростью геометрической прогрессии. 12. Введем функцию ф (х) — min [/ (х) + (V/ (х), у — х)]. Покажите, u<^Q что если Дх) выпукла, то ф(х) si Дх) для всех xeQ, причем равенство достигается тогда и только тогда, когда х = argmin f (х'). Попробуйте He- x' е Q следовать свойства функции ф(х) (выпуклость, дифференцируемость и т. п.). Подумайте, как можно интерпретировать метод условного градиента в тер- минах функции ф(х). 4. Метод Ньютона. Для построения метода Ньютона в за- даче (А) можно использовать ту же идею квадратичной аппрок- симации f (х), что и для безусловного минимума. Разница лишь в том, что нужно отыскивать минимум аппроксимации не на всем пространстве, а на множестве Q. Эти соображения приво- дят к методу xft+1 — argmin ffe (х), x = q (17) h W = f (xk) + (Vf (xft), x - xft) + (V2/ (xft) (x - xfe), x - xft)/2. Теорема 4. Пусть f(x) достигает минимума на выпуклом замкнутом множестве Q в точке х*, причем в окрестности х* f(x) дважды дифференцируема на Q, V2f(x) удовлетворяет усло- вию Липшица и V2f(x*)>0. (18) Тогда метод (17) локально сходится к х* с квадратичной ско- ростью. Доказательство. В точке xft+1 удовлетворяется необхо- димое условие минимума Д(х) на Q, т. е. (Vf* (xft+1), х — xfe+’) — (Vf (xft) + V2f (xfe) (хЛ+' — xk), x — xft+1) Да 0
192 ГЛ. 7 МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ для всех хе Q, в частности для х = %*. Поэтому О < (V/ (xft) + V2/ (xft) (х%+‘ - хк), х* - хк+1) = (V/ (х*), х* - х*+’) + + (V/ (хА) — V/ (х*) + V2f (хк) (xk+i — хк), х* — х'н‘)- Первый член неположителен в силу (1) § 1. Для Vf(x*) —Vf(x*) имеем оценку Vf(xft)—Vf (х*) = V2f(xk) (хк— х*) + г, ||r|| -С (L/2) ||xft— х*||2 (см. (15) § 1 гл. 1). Поэтому О < (V2/ (хк) {хк - х*) + г + V'7 (xft) (х*+' — xft), х* - xft+‘) < < -11| xft+! - x* ||2 + (L/2) || xk - x* ||21| x*+1 - x* ||. Здесь мы воспользовались тем, что V2/(xft) //, I > 0, для всех хк, достаточно близких к х*, в силу (18) и условия Липшица на гессиан. Отсюда либо xk+l = х*, либо || хк+1 - х* || < L || хк - х* li2/(2Z). (19) Если А||х° — х*||/(2/)< 1, то из (19) следует, что и все xk оста- нутся в той же окрестности х*, а оценка (19) означает квадра- тичную скорость сходимости. ▲ Для случая острого минимума нетрудно доказать конечность метода. Однако в этой ситуации вряд ли имеет смысл использо- вать метод Ньютона, так как гораздо более простые методы (проекции градиента и условного градиента) также обладают свойством конечности. Метод Ньютона можно применить лишь в случае, если за- дача минимизации квадратичной функции на Q легко решается. Если Q — многогранник, то (17) является общей задачей ква- дратичного программирования. Как мы увидим в гл. 10, для нее существуют конечные алгоритмы решения. Для частного случая, когда Q — параллелепипед, задача (17) может быть решена с помощью модификации метода сопряженных градиентов, описы- ваемого в следующем параграфе. Наконец, в .простейших слу- чаях, когда Q — шар или линейное многообразие, (17) имеет достаточно простое решение. Упражнения. 13. Покажите, что решением задачи min[(Ax. х)/2—(Ь, х)], А > 0, II х || si р является точка (А + М)-1К где к = 0, если || A~'b || si р, и X на- ходится из уравнения II (А +/./)-’& || = р в противном случае. 14. Рассмотрите модификации метода Ньютона, аналогичные описанным в § 1 гл. 3 для безусловной минимизации, и докажите их глобальную схо- димость. § 3. Другие методы 1. Квазиньютоновские методы. Отметим, что все методы ре- шения гладких задач, описанные в предыдущем параграфе, мо- гут быть получены с помощью общей схемы. Пусть х%+' = argnun ((Vf (xfe), х — хк)+ (Hk (х — xfe), х — xfe)} , (1) где Н/г 0 — некоторая матрица.
§ 3. ДРУГИЕ МЕТОДЫ 193 Очевидно, что при Н k = ^2f (xk') метод (1) переходит в ме- тод Ньютона, а при Hk — Y~lI — в метод проекции градиен- та (так как последний может быть записан в виде хк+1 = = arg min ||х — (хк — yVf (хД) ||2). Можно еще несколько расши- х г Q рить класс методов (1), введя в них процедуру одномерной ми- нимизации: хк = argmin ((V/ (хД, х — xk) + (Hk (х — xk), х — хД) , XSQ 2 7 (2) xft+1 = хк + sk = xk — xk, = argmin f (xk + ysfe). В частности, при Hk = 0 получаем из (2) метод условного градиента. Сходимость подобных методов требует специального анализа. Нельзя, например, воспользоваться результатами о схо- димости методов безусловной минимизации типа хк+1 = хк — — YkHk'Jffxb) с произвольной Hk > 0 (лемма 1 § 3 гл. 3) по- добно тому, как это было сделано в § 2 при доказательстве теоремы 1. Дело в том, что в лемме 1 § 3 гл. 3 в качестве функ- ций Ляпунова выбирается не расстояние до минимума, а Дх) — — f(x*), поэтому нельзя утверждать релаксационность опера- тора проектирования (упр. 1). Однако можно вести доказатель- ство по той же схеме, что и для теоремы 4 § 2. Приведем ха- рактерный результат.- Теорема 1. Пусть f(x) дважды дифференцируема и I! V2f(x) LI, 1~>§, для всех x<=Q, Q выпукло, замкнуто и №-VWft)ll<e<Z/2. (3) Тогда в методе (1) хк локально сходится к х* = argmin Дх) xsQ со скоростью геометрической прогрессии, а если II#* —v2f дД||-^о, (4) то скорость сходимости сверхлинейна. Доказательство. Из определения xfe+I О (Vf ДД + Нк (xs+‘ — xk), х* — xfe+‘) < (Vf ДД - Vf (хД + Hk (xfe+‘ - xk), x* - x4+‘). Ho vf(xfe)-vf (r) = v2f ДДД'-Л + g 1ИК~А||хй-х*11Д поэтому О < ((V2f (хД - Нк) (xk - x*) + Hk (xfe+1 - x*) + r, x* - x%+‘) < < 8 || Xk - X* Illi Xfe+> - X* II - (Z - 8) II XS+> - X* II2 + 4-(Z,/2)||xft — x*||2||xfe+1 — x*||, || Xk+l - X* IK ~ • II Xk - X* ||.
194 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ Отсюда следует, что если' (L/2) ||х°— х*|| < / — 2s, то xk-+x* со скоростью геометрической прогрессии, знаменатель которой тем меньше, чем меньше 8. Аналогичным образом при условии (4) получаем ||xfe+1— х*|| qk\\xk— х*||, <7*-^-О при k-+<x>, что и означает сверхлинейную сходимость. ▲ Теорема 1 показывает, что в задачах, где вычисление матри- цы ¥2f(xk) невозможно или слишком трудоемко, желательно в качестве Hk брать аппроксимацию к гессиану. Это можно сде- лать так же, как в квазиньютоновских методах безусловной ми- нимизации, используя информацию, полученную на предыдущих итерациях. Именно, если доступны градиенты в предыдущих точках, то можно восстановить Н из приближенных равенств V/(x!'+1) — V/'(xz) Н (xz+‘ — xz), i ~ k, .. ., k — n -f- 1, (5) если только xz не лежат в одном подпространстве. Мы не будем подробно останавливаться на подобных мето- дах, так как они в основном используют ту же технику, что и для безусловной минимизации. Разница здесь лишь в том, что в задаче с ограничениями вектор ¥f(xk+l), вообще говоря, не ортогонален направлению движения xk+1 — xk. Упражнения. 1. Приведите пример функции f(x) и матрицы Н > 0, для которых метод хк+1 = хк— HVf(xk) сходится, ио || хк — х* || не убывает монотонно (х* — точка минимума f(x)). С его помощью постройте пример расходимости ме- тода (1) с Н. 2. Докажите результат о глобальной сходимости метода (1) для случая, когда матрица Hk достаточно близка к у~Ч, 0 < у < 2/Z,. 3. Покажите, что метод xft+I=Pl3(x*—(V2f(xk))~lVf(хк)), вообще го- воря, не сходится. В частности, если f(x) квадратична, то при любом х° ме- тод останавливается в точке xi (одинаковой для всех х°), вообще говоря, не являющейся решением. 2. Метод сопряженных градиентов. Начнем со случая, когда' f(x)— квадратичная функция, a Q — подпространство в R", Q — = {х: Сх = 0}, С—матрица тХ« ранга т. Как мы знаем, проекция вектора на это подпространство задается формулой PQ (Х) ===(/- с+с) х = (/ - СТ (ССГУУ с) х. Запишем метод сопряженных градиентов, в котором вектор Vf(x) заменен на его проекцию на Q: xk+l = хк + akpk, aft = argmin/:(-l(;fe + aPft)> x°sQ, a —PQV/!(xft) + ₽ftpfe-1, p° = — PQVf (x°), (6) Можно доказать (упр. 4), что если f(x)—квадратичная функция f(x) = (Ах, х)/2 — (Ь, х), причем (Ах, x)^a||x||2, a > 0, при всех xsQ, то метод (6) заканчивается не более чем за п — т шагов.
§ 3. ДРУГИЕ МЕТОДЫ 195 Таким образом, метод сопряженных градиентов остается конечным при минимизации квадратичной функции на подпро- странстве, причем число шагов тем меньше, чем больше ограни- ничений. Правда, каждая итерация метода связана с дополни- тельными вычислениями — проектированием на подпространство. Пусть теперь Q — положительный ортант в R", т. е. Q = = {х: х^О}, a f(x)—по-прежнему квадратичная функция. Тогда ее минимизацию на Q можно свести к последовательной минимизации на гранях Q. Эти грани имеют вид {х, = 0, ie/, X/> 0, is/}, где / — некоторый набор индексов из множества I, .... п. Минимизация на подпространстве L = {х: X; = 0, i е 1} проводится просто — надо проводить вычисления, как в методе сопряженных градиентов, заменяя нулевыми компоненты из множества / как у векторов xk, так и у градиентов Vf(xfe) (см. (6) и упр. 5). С учетом этих соображений приходим к ме- тоду минимизации f(x) на Q, который мы запишем в координат- ной форме: xft+1 = xk _|_ akpk^ ak _ argmjn f (xk _|_ apk), (7) a > 0 Pl I o, ie=Ik, X (WWE (vf^-1)/)2, 0, если — если k = 0 или ' {«: xf = 0, V/ (xk)t > 0}, h = < если k = 0 или V/ (xk)i = 0 для всех ie/fe_1, в остальных случаях. Иными словами, ведется процесс минимизации методом со- пряженных градиентов f(x) на множестве Lk = {х: х, = 0, X/> 0, гё/ф Он заканчивается либо когда одна из компонент (не принадлежащих Ik) вектора хк обращается в 0 (тогда в множество Ik добавляется номер этой компоненты), либо когда найден минимум на Lk (в этом случае «обновляется» множество Ik). Можно показать, что если f(x) = (Ax, х)/2 — — (Ь, х), А > 0, то описанный метод конечен. Таким образом, мы получили конечный метод решения за- дачи минимизации квадратичной функции при ограничениях х 0. Можно придумать и другие конечные варианты метода сопряженных градиентов, а также обобщить его на случай, когда ограничения имеют вид а х Ь. Для минимизации неквадратичной f(x) на ортанте или па- раллелепипеде можно использовать те же идеи. При этом нужно
196 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ регулировать точность решения задачи минимизации на грани. Разумеется, такие методы не будут конечными. Упражнения. 4. Пусть Q — подпространство в R", /(х)—дифференцируемая -функция на R'*. Рассмотрим fq(x) —ее сужение на Q. Тогда градиент VIq(x) в точке х <= Q определяется равенством fQ(x -f- у} = fo(x) + (VfQ(x),y) + о(у) для всех у е Q, где Докажите, что vfq(x) = PqVi(x). Используя этот результат, покажите, что (6) представляет собой метод сопряженных градиентов для безусловной минимизации fq(x). Отсюда следует, что если fq(x) квадратична, то .метод конечен. 5. Покажите, что если Q = {х: Xi = 0, i е /}, то Pq(x)i = 0, если i <= /, и PqWi = xi, если i ё= /. 3. Минимизация негладких функций. При описании методов безусловной минимизации выпуклых негладких функций в § 4 гл. 5 мы предполагали, что задана область локализации мини- мума. Если в качестве такой области взять множество Q, то окажется, что все эти методы пригодны и для задач с ограниче- ниями. Таким образом, методы отсекающей гиперплоскости, че- бышевских центров, центра тяжести и т. д. дословно переносятся на задачи (А). При этом в них на каждом шаге решается за- дача минимизации линейной или квадратичной функции на мно- жестве Qk, которое задается с помощью условия х е Q и неко- торых дополнительных линейных ограничений. Если Q — много- гранник, то получаем задачу линейного или квадратичного программирования, которая может быть решена стандартными методами. Все результаты о сходимости и скорости сходимости, приведенные в § 4 гл. 5, остаются справедливыми и для задач с ограничениями. Отметим, что наличие острого минимума в не- гладком случае не приводит, вообще говоря, к конечности ме- тодов. § 4. Влияние помех Не будем рассматривать здесь все ситуации столь же по- дробно, как в задачах безусловной минимизации (гл. 4). Нас будут интересовать главным образом новые эффекты, связан- ные с наличием ограничений. 1. Абсолютные детерминированные помехи. Пусть вместо гра- диента Vf(xk) (или субградиента df(xk)) известны лишь их приближенные значения Vf(xft) (df(xk)), причем llW)-W(xft)ll<e (|| df (х*) -df (xk) ||C в). (1) Пусть мы применяем методы § 2 в этой ситуации, т. е. в ме- тодах Vf(xft) и df(xk) заменены на Vf(xk) и df(xk). При этом, вообще говоря, методы проекции градиента и проекции субгра- диента перестают сходиться, а приводят к попаданию в некото- рую окрестность минимума, размеры которой зависят от е. Не- сколько иначе обстоит дело с методом условного градиента.
§ 4. ВЛИЯНИЕ ПОМЕХ 197 Прежде всего, он включает операцию одномерной минимиза- ции, которая не может быть выполнена точно.- Кроме того, точка xk может сильно измениться при замене Vf(xft) на Vf(xft). По- этому метод условного градиента вряд ли целесообразен для за- дач с помехами. Новая ситуация возникает в случае острого минимума. Теорема 1. Пусть х* — точка острого минимума диффе- ренцируемой выпуклой функции f(x) на выпуклом множестве Q. Предположим, что проектирование на Q осуществляется точно. Тогда при условиях теоремы 1 § 2 метод проекции градиента остается конечным, если в нем Vf(xk) заменен на 4f(xk), а е > 0 достаточно мало. Доказательство проводится так же, как в теореме 1 § 2. А Таким образом, задачи с гладкой f(x) и острым минимумом обладают свойством сверхустойчивости некоторых методов — последние дают точное решение даже при наличии абсолютных (но достаточно малых) помех. 2. Абсолютные случайные помехи. Пусть помехи lk = Vf(xk)-Vf(xk) = df (xft) - df (х*)) (2) случайны, независимы, центрированы и имеют ограниченную дисперсию: МГ = 0, Mll^lPCo2. (3) Теорема 2. Пусть f(x)—выпуклая функция на R", Q — ограниченное замкнутое выпуклое множество. Тогда в методе xk+i=pQ(xk — xkdf(xk)), = (4) при выполнении условий (2), (3) будет хк->х* (п. н), где х* — некоторая точка минимума f (х) на Q. Если f (х) сильно выпукла, (со условие S у? < °° можно при этом заме- 6=0 нить на Уб^-О), а если \k = yfk и у достаточно велико, то М[|х*-х*||2 = 0(1/6). ▲ Для задач с острым минимумом, по-видимому, нет необходи- мости устремлять ys к 0. Можно предположить, что при пра- вильной регулировке длины шага метод проекции градиента при наличии случайных помех будет почти наверное конечным в случае острого минимума. Однако вопрос этот не исследован. Для метода условного градиента на первый взгляд кажется естественным поступить так же, как в методе (4), т. е. заменить
198 ГЛ. 7. МИНИМИЗАЦИЯ НА ПРОСТЫХ МНОЖЕСТВАХ точное значение градиента на приближенное и устремить шаг к 0: xk = argmin (V/ (xk), х), xeQ ~ (5) Xfe+1 == — xfe), ZYfe = °°- k=0 Однако такой метод, как правило, не сходится. Пусть, напри- мер, ищется минимум гладкой функции f(x), xeR1, на отрезке Q = [—а, р], а > 0, р > 0, а минимум достигается в х* = = 0 е Q. Тогда при хк — х* будет V/(xft) = 0 и xk — —а, если >0, хк — р, если Zk > 0. Для симметрично распределенной помехи М (xfe xk) — (р — а)/2=#=0 при р =0= а. Итак, в точке ми- нимума f(x) среднее значение направления движения отлично от 0, поэтому метод не может сходиться к этой точке. Сходимости в методе условного градиента можно добиться, если ввести процедуру усреднения градиентов: хк = argmin (yk, х), xeQ ОО z/fe = z/fe-'+.ufe(vf (xfe) —Pfe-^0, = (6) fe=0 oo xfe+1 = xft + — *ft), Yfe-^0, Eya^00- k=Q Здесь yk— усредненное по предыдущим итерациям значение гра- диента. 3. Относительные помехи. Пусть помехи удовлетворяют условию ||Vf(x)-Vf(x)||<a||Vf(x)||. (7) Мы видели (теорема 2 § 2 гл. 4), что градиентный метод устойчив к таким помехам, если их уровень меньше 100% (т. е. а < 1). В задачах с ограничениями дело обстоит не так: по- скольку в точке минимума х*, вообще говоря, Vf(x*)=?^O, то величина ||V/(x)—Vf(x) || не обязана стремиться к 0 при при- ближении х к х*. Поэтому здесь ситуации с абсолютными и от- носительными помехами мало различаются, и, например, нельзя гарантировать сходимости метода проекции градиента при де- терминированных относительных помехах любого уровня. Действительным аналогом относительных ошибок для задач с ограничениями являются условия типа IIV/ (xk) - V/ (xk) || < а || xk - х* ||, (8) II Vf (xk) - V/ (xk) || < a || xfe+1 - xk ||. (9) Однако такие условия выглядят довольно искусственно, и мы не будем заниматься их анализом..
Глава 8 ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Данная глава посвящена задаче вида minf(x), xeR", (х) = О, i = 1, ..., т, где f, gi — гладкие функции. Эта задача, являющаяся частным случаем общей задачи математического программирования (см. гл. 9), будет рассмотрена отдельно и достаточно подробно, так как идеи основных подходов и методов в данном случае наибо- лее наглядны. § 1. Основы теории 1. Правило множителей Лагранжа. Пусть Q= {х: g,(x) = О, г = 1, ..., т}. Точки xeQ называются допустимыми. Точка х* называется (локальным) минимумом в задаче (А), если она до- пустима и f(x*)^f(x) для всех допустимых х, достаточно близ- ких к х*. Теорема 1 (необходимое условие минимума I порядка). Пусть х* — точка минимума в задаче (А), функции f(x), gt(x) непрерывно дифференцируемы в окрестности х*. Тогда найдутся числа у*0, у*, ..., у’т, не все равные 0, такие, что m y^f^ + Zy^St{x)^Q. (I) i = l Будем называть х* регулярной точкой минимума, если f(x), gi(x) непрерывно дифференцируемы в ее окрестности и Vgt(x*), i— I, ..., m, линейно независимы. Теорема 2 (правило множителей Лагранжа). Если х* — регулярная точка минимума, то найдутся у\, ..., у*т такие, что m Vf(x*)+S//M(x*) = 0. (2) I to I Числа y\, ..., y*m в (2) называются множителями Лагранжа. То, что правило множителей Лагранжа справедливо, вообще го- воря, лишь при условии регулярности, можно увидеть из про- стейших примеров. Так, в задаче minx, х2 = 0, xeR1 точка х* = 0 является точкой минимума (но не регулярной), и равен-
200 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ ство (2) не выполняется ни при каком у*, так как g'(x*) = 0 (см. также упр. 1). Теорема 2 немедленно следует из теоремы 1. Действительно, / т в регулярном случае у*а¥=0 (иначе У, y*lVgl (х*) = 0, у*, у'т не все равны 0, что противоречит линейной независимости Vg/(x*)^. Разделив равенство (1) на уо, получаем (с точностью до обозначений) соотношение (2). Обратно, если доказана тео- рема 2, то верна и теорема 1. Действительно, если \gi(x*) т т линейно зависимы: У, Р- ДД (х*) = О, У, ц? =£0, то равенство i=i i=i (1) справедливо при у*о — О, y* = iii, Следова- тельно, достаточно доказать теорему 2. Ниже будут рассмотре- ны три различных доказательства. Это вызвано как важностью результата, так и использованием идей этих доказательств при построении методов минимизации. Рис. 33. Касательные векторы. Составим так называемую функцию Лагранжа т L (х, у) = f (х) + (у, g (X)) = f (х) + У gigi (*), (3) определенную на R”X Rm. Здесь и далее мы используем вектор- ную запись y = (yi, ..., Ут), g(x) = (gi(x), ..., gm(x)). Тогда правило множителей Лагранжа формулируется так: = L'y (х*,у*) = 0, (4) где L'x, L'y означают производные по соответствующим пере- менным. Запись в виде (4) удобна симметрией по переменным х и у, называемым соответственно прямыми и двойственными. Доказательство, основанное на теореме Лю- стерника. Пусть Q с R"—некоторое множество, х е Q. Век- тор se R" называется касательным к Q в точке х, если для всех достаточно малых т>0 найдутся точки x(r)eQ такие, что ||х(т)— (х + те) || — о(т) (рис. 33). Если Q выпукло, то всякое
§ 1. ОСНОВЫ ТЕОРИИ 201 допустимое направление (§ 1 гл. 7) является и касательным, но не наоборот (см. упр. 3). Очевидно, что касательные векторы образуют конус Sq(x) (т. е. если seS, то и ZseS при 7. 0). Обратите внимание на то, что если х — граничная точка шара, то конус S является полупространством, а не гиперплоскостью. Так что здесь термин «касательный вектор» имеет другой смысл, чем в геометрии. Теорема 3 (Люстерник). Пусть Q={xgR": g((x) = 0, Z=l, ..., m}, где gt(x)—непрерывно дифференцируемые в окрестности x*eQ функции, причем 4gi(x*), /= 1, .... пг, ли- нейно независимы. Тогда SQ(x*) = {s^Rn: (s, ygz(x*)) = 0, z = l, ..., пг}, (5) т. e. касательные к множеству Q в точке х* векторы обра- зуют подпространство, ортогональное векторам \gi (х*), .., ..., Vgm(x*). ▲ Для доказательства правила множителей Лагранжа нам по- надобится следующий результат. Лемма 1. Пусть А — матрица my(.n, L = {х е R": Ах = 0} и (с, х) 0 для всех х s L. Тогда с — Ату, z/ е Rm и (с, х) = 0 при хе L. Доказательство. Множество L\ — {х е Rra: х = Агу, у е R"1} выпукло и замкнуто, как подпространство в R". Если с ё= L\, то по теореме отделимости точка с может быть строго отделена от L\, т. е. найдется а е R", такое, что (а, с)<0и (а, х)^0, хе L\. Но тогда 0 <7 (а, х) = (а, Ату) — (Аа, у) для всех (/eR81. Это возможно лишь, если Аа = 0, а е L, что про- тиворечит условию (а, с)<0. Итак, се£ь ▲ Доказательство теоремы 2. Пусть s — касательный вектор к множеству Q — {х: gi(x) = 0, i = 1, ..., пг} в точке х*. Тогда найдутся х(т) такие, что £р(х(т))=0, i = 1, ..., пг, IIX* 4- TS — х (т) II = о (т). Поэтому f (х (т)) = f (х* + TS + о (т)) = f (х*) + т (Vf (х*), s) 4- о (т). Поскольку f (х(т)) f (х*) для достаточно малых т, то отсюда (Vf(x*), s)i>0. По теореме Люстерника (s, VgI(x*))=0, m i— I, ..., m. Используя лемму 1, получаем Vf (x*) = X HzVg(-(x*), <=i где щ — некоторые числа. Положив z/* =— Ц(-, £ == 1, ..., пг, приходим к (2). А 2°. Доказательство, основанное на исключе- нии переменных. Если Vg/(x*) линейно независимы, то ма- трица g'(x*), строками которой являются Vgi(x*), , ¥gm(x*), имеет ранг пг. Поэтому найдутся компоненты вектора х, число которых равно пг (их множество обозначим /), такие, что ма- трица с элементами dgf(x*)/dxi, /'==1, ..., m, i се I имеет
202 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ обратную. Запишем вектор xeR" в виде х— {и, v}, где и g R” — компоненты х с индексами из /, R"-"1 — остальные компоненты. Тогда матрица g'u(u*> v*) (где g(u> v)~g(x)’ х* = {и*, и*}) имеет обратную. Рассмотрим равенство g(u, v) = = 0. Поскольку g(u*, v*)—0, g непрерывно дифференцируема в окрестности {и*, п*} и матрица g'u(u*, v*) невырождена, то по теореме о неявной функции (теорема 2 § 3 гл. 2) найдется диф- ференцируемая в окрестности у* функция u(v) такая, что u(v*)= и*, g(u(v), v) =0и u'(v)=—[g'u(u(v), г1)]’ g'v (и (и), v). Рассмотрим теперь функцию <p(v) = f(u(v), v), где f(u, v) = — Функция ф(у) достигает локального безусловного минимума в v*. Действительно, при любом v, близком к к v*, g(u(v), v) = 0, т. е. точка х = (и(и), v) является допу- стимой, а потому <p(v*) — f(u(v*), — v*) = f(x*)^. Д f(x) — f(u(t>), и) = ф(и). Следовательно, Уф(ц*) = 0. Но по правилу дифференцирования сложной функции Уф(у) = = ц'(п)г f'u (u(v), v)r + f'o (u(v), v)r. Поэтому о = УФ (у*) = - g'v (и*, [g'u (и, цу]-1 f'u (и*, + f'o (if, vy. Обозначим = (6) Тогда f'u (и*, v*)T + g'u (u\ y*=0, f'o (if, v*Y+g'v (if, v*? /==0, что эквивалентно равенству (2). ▲ Это доказательство основывается на идее сведения задачи с ограничениями к задаче на безусловный минимум путем исключения переменных. Именно, переменные xeR’ разби- ваются на две группы ueR's, v е R"-m; из равенств g(x)=0 выражаем одну группу через другую: u — u(v) и рассматри- ваем задачу безусловной минимизации для <p(v) — f(u(v), v). Необходимое условие минимума для нее (Уф (и*) — 0) порож- дает условие экстремума для исходной задачи. При этом фор- мула (6) дает явное выражение для множителей Лагранжа. 3°. Доказательство, основанное на штрафных функциях. Пусть U — {х: ||х — х*|| е}, где величина е > 0 такова, что f, gi непрерывно дифференцируемы в U и х* — точка глобального минимума f на Qf] У- Рассмотрим задачу т min fk (х), fk (х) = f(x) + j К У £2 (х) + 41| х - х‘ ||2, (7) хе= U .. i ~ 1 где К — некоторый параметр. В силу непрерывности Д(х) за-
§ 1. ОСНОВЫ ТЕОРИИ 203 дача (7) имеет решение хк. Тогда Uxft)<fft(x*), f +4 * Е & +4 и %* - %* ip < t (х*), (=1 Е £ < i (j <**) - t - 4 iixk -х* ii2) • i=i Величина в правой части стремится к 0 при 7<->-со (так как ||х& — х*|| С; в), поэтому g(x%)->0. Выберем подпоследователь- ность xki-+x<=U, тогда g(x) = 0, f(x)+ IIх — х*||2/2 С f(x*), но с другой стороны, поскольку л* — точка минимума на Q, то f(x*)^f(x). Поэтому х = х*. Так как всякая предельная точка для xk совпадает с х*, то xk-^-x* при 7(-*-оо. Поэтому для доста- точно больших К > 0 точка хк лежит внутри U. Следовательно, условие минимума для нее приобретает вид vffe (х%) = 0, т. е. т Vf (Xft) + К Е gi (Xk) VSi (xfe) + xk - r = 0. (8) i — 1 Введем величины ,.fe Ksi (xfe) У‘ /------m------ д/1 + ^Е/Их") m. Равенство (8) можно записать в виде т yfif (xk) + Е ylvgt (xk) + (xk — x*) ук = 0. (9) tn Имеем E (^z)2 == 1 Для всех поэтому существует последо- m вательность ks-+co такая, что !/*/->«/*, г=0, ... Щ, Eq (^z)2 — 1 • Переходя к пределу в (9), получаем (1). ▲ В данном доказательстве эксплуатируется та же идея, что и в предыдущем, — использование необходимого условия экстре- мума в задаче без ограничений для получения необходимого условия в задаче с ограничениями. Однако способ сведения од- ной задачи к другой здесь совсем иной — строится последова- тельность (К-±оо) задач безусловной минимизации, отличаю-
204 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ щихся все большим «штрафом» за нарушение ограничений (член т -i- в решения которых в пределе стремятся к г = 1 решениям исходной задачи условной' минимизации. Приведенное в данном пункте доказательство наиболее про- стое по используемым в нем средствам (не применяется ни тео- рема Люстерника, ни теорема о неявной функции, ни аналогич- ные им утверждения). Упражнения. 1. Рассмотрите задачу (А) в R2 с f (х) = х2, (х) = (xi — I)2 + х% — 1, g (х) = (х + I)2 + х2 — 1 (рис. 34). Покажите, что х* = {0, 0} — не регуляр- ная точка минимума, и в ней не вы- полняется (2). 2. Убедитесь, что если gi(x) — = (а‘, х) — bi, i — 1, ..., т, то (2) совпадает с (8) § 1 гл. 7. 3. Покажите, что если Q выпукло, то касательный конус S является выпуклым и совпадает с Г — замы- канием конуса, порожденного допу- стимыми направлениями (см. дока- зательство теоремы 3 § 1 гл. 7). 4. Убедитесь, что для примера из упражнения 1 теорема Люстерника неприменима для х* = 0 и (5) не- Рис. 34. Задача с нерегулярным ми- нимумом. верно. 5. Покажите, что если точка х* — локально единственный минимум, то в функцию fk(x) (см. доказательство в п. 3°) можно не включать член ||х — х*||2/2. 6. Убедитесь, что если минимум регулярный, то для величин Kgt(xk') (см. доказательство в п. 3°) существует предел при К Kgt (xfe) -> уфу^. 2. Условия минимума II порядка. Теорема 4 (необходимое условие II порядка). Пусть х* — регулярная точка минимума в задаче (Д), f(x) и gi(x) дважды- непрерывно дифференцируемы в окрестности’х*, а у*{, i ~ 1, ... ..., tn,— множители Лагранжа. Тогда 7 m \ (.L"x (х*, /) S, $) = ((V2/ (х‘) + Е y*iV2gi (х)) s, s) > 0 (Ю) \ 1«=» 1 / для всех sgS = {s: (Vgz(x*), s) = 0, i — 1, ..., m}. Иными словами, матрица А"х(х*, у*) неотрицательно опреде- лена на касательном подпространстве S (см. (5)). Доказательство. Пусть seS. В соответствии с теоре- мой Люстерника найдутся допустимые х(т) такие, что
§ 1. ОСНОВЫ ТЕОРИИ 205 ||х* Ч-ts — х (т) || = о (т). Тогда, используя (4), получаем f(x'Xf(xW) = L(xW, /) = Т(х, У*)+(Ь'х(х\ у*), х(т)-х‘)+ + (L"xx (х*. у*) (х (т) - х*), х (т) - х‘)/2 + о (т2) = = f(x*) + (T2/2)(L^(x*, у*) s, 8) + о(т2), откуда (L"x(x*, t/*)s, s)>0. А Кажущееся на первый взгляд естественным более общее не- обходимое условие экстремума L"x(x*, у*)^0 на самом деле неверно (см. упр. 8). Прежде чем переходить к достаточным условиям экстре- мума, приведем некоторые вспомогательные результаты, относя- щиеся к матрицам специального вида. Эти результаты будут си- стематически использоваться в дальнейшем. Лемма 2. Пусть А — симметричная матрица п\п, С — ма- трица тХп ранга т и (Ах, х) > 0 для всех х =# 0 таких, что Сх — 0. Тогда блочная матрица B = (c^ о» размерности (m + n)X(m + п) имеет обратную. А Лемма 3. В условиях леммы 2 найдутся такие Ко > 0, а > 0, что А КСТС X о! при К Ко- А Лемма 4. В условиях леммы 2 для достаточно больших К || (А + КСТСГlCT II < щ/К, II с (А + КСТС)-' II < аг/К, 11 z -кс (А + кстсу{ст у аз/к< где o,i — некоторые константы. А Лемма 5. В условиях леммы 2 для матрицы Bk = ( АСТ. \ (12) Vе -Н при достаточно больших К существует В'Х\ причем || Bk 11| X X- А Вернемся к формулировке условий экстремума. Теорема 5 (достаточное условие II порядка). Пусть jgr/(x*) = 0, t = l, tn, функции f(x) и gi(x) дважды непре- рывно дифференцируемы в окрестности х*, Vgi(x*), i = \,... ,m, линейно независимы, выполнено необходимое условие минимума (4) и Lxx(x*, у*) s, s) > 0 (13) при всех s таких, что (Vgi(x*), s) = 0, i— 1, ..., m. Тогда x* — точка локального минимума в задаче (А). Иначе говоря, если в х* выполнено необходимое усло- вие экстремума I порядка и матрица Lxx (х*, у*) положительно
206 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ определена на касательном подпространстве S, то х*—-точка минимума. Точку х*, в которой выполняются условия теоремы 5, будем называть невырожденным минимумом. Доказательство. Введем функцию М (х, у, К) = f (х) + (у, g (х)) + (Z</2)|| g (х) ||2 = ==Z(x, y) + (A/2)||g(x)||2, (14) где К > 0 — некоторый параметр. Тогда М'х(х*, у\ К} = = L'x (Z, у*) = 0, М"х (х*. у*) = ГД (х*, /) + Kg' UT g' (Г). Для матриц A~LxX(x*,y*) и . С = g' (х*) применима лемма 3, по- этому для достаточно больших К > 0 будет М'Ж у*, К)>0. (15) Таким образом, выполнено достаточное условие локального минимума М(х, у*, К) (теорема 4 § 2 гл. 1), т. е. А4(х, у*, А) М(х*, у*, К) для всех х, достаточно близких к х*. Но для xgQ .(t. е. для допустимых х) имеем М (х, у*, К)=?(х), т. е. f(x)^/(x*) для хериз окрестности х*. ▲ Функция А4(х, у, К) (14) называется модифицированной функцией Лагранжа. Она играет важную роль в теории услов- ной оптимизации. Остановимся на некоторых ее свойствах. Прежде всего, она отличается от обычной функции Лагранжа (3) наличием «штрафного члена» (А/2) ||g(x) ||2 и совпадает с (3) при К = 0: М(х, у, 0) = L(x, у). Далее, если /eQ, то А4(х, у, K) — L(x, y) = f(x) и М'х(х, у, К) = [/Х(х, у), а М'и(х, у, K) — L'y(x, y) = g(x). Поэтому необходимое условие мини- мума I порядка имеет вид, аналогичный (4): М'х (х*, /, К) = о, М'у (х*, у*, К) = о, (16) где множители Лагранжа у* те же, что ив (4). Однако на уровне условий II порядка начинаются различия между М(х, у, К) и L(x, у). Мы убедились при доказательстве теоремы 5, что если х* — невырожденная точка минимума в за; даче с ограничениями (А), то х* — невырожденная точка безус- ловного минимума М(х, у*, К) при достаточно больших К- Для обычной функции Лагранжа аналогичное утверждение невер- но— точка х* является стационарной точкой L(x, у*), однако не обязательно точкой минимума (см. упр. 8). Указанное свой- ство модифицированной функции Лагранжа позволяет строить эффективные методы оптимизации с ее помощью (§ 2). Упражнения. 7. Покажите, что в задаче min f (х), Лх === b необходимые условия мини- мума имеют вид: V/ (х*) + Ату* = 0, (V2/ (х*) s, s) 0 для всех s таких, что Лз = 0.
§ 1. ОСНОВЫ ТЕОРИИ 207 8. В задаче min f (х), х е R2, g (х) — 0, f (х) = х^ — х%, g (х) = х9 реше- нием является х* — {0, 0}, при этом у* — 0. Проверьте, что матрица Lxx (х , у ) незнакоопределенна. 9. Пусть A, D — симметричные матрицы га X я и m Хи, С — матрица /Д £Г\ m X «> В = I £ q J — матрица (n + m) X (« + т). Докажите, что условие В|>0 эквивалентно условиям А 0, СА+СТ — D 0, а В > 0 — условиям А > 0, СА~гСт — D > 0 (обобщение критерия Сильвестра на матричный случай). 10. Докажите, что в условиях теоремы 5 х* = argmin В(х, у*). x<=.s 3. Использование условий экстремума. В обычных курсах ма- тематического анализа изучение задач условной минимизации заканчивается выводом условий экстремума. Считается, что они дают возможность найти решение. Разумеется, это не так. Пра- вило множителей Лагранжа задает систему уравнений (4) отно- сительно х*, у*. Эти уравнения нелинейны (за исключением слу- чая квадратичной f(x) и линейных gtix)), и их решение найти в явной форме обычно невозможно. Все приводимые в учебниках примеры, демонстрирующие возможность решения задач с по- мощью множителей Лагранжа, являются специально подобран- ными исключениями из правил типа приводимых в упражне- нии 11. Подлинное значение условий экстремума заключается в дру- гом (ср. аналогичные замечания в § 2 гл. 1). Во-первых, с их помощью строятся численные методы отыскания решения. Во- вторых, они дают возможность после того, как решение найдено, судить о его единственности, устойчивости и т. д. (см. ниже). Наконец, они задают те естественные требования к задаче, при которых ее удобно анализировать (например, исследовать схо- димость методов). Многочисленные примеры подобного использования условий экстремума будут постоянно встречаться нам далее. Упражнение. 11. Найдите решения следующих задач с помощью множителей Лагран- жа и докажите оптимальность ответов с помощью достаточных условий эк- стремума: п п б) min У х(-, У х] = 1; 1=1 i=I в) min (Лх, х), || х || = 1; г) .min || х ||?, (Ах, х) = 1. Ответы, a) Xj = 1/я, i = 1, . . . , п: б) х* = —\1л/~п, 7=1,..., я; в) х* = е1—нормированный собственный вектор, отвечающий наименьшему
208 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ собственному значению матрицы А; г) х* = еп — нормированный собственный вектор, отвечающий наибольшему собственному значению матрицы А, решение существует при 'хп 3> 0. 4. Существование, единственность и устойчивость решения. Вопрос о существовании решения вновь решается с помощью теоремы 4 § 1 гл. 7, и здесь специфика задачи (А) не играет роли. Что касается единственности решения, то воспользоваться теоремой о единственности минимума строго выпуклой функции на выпуклом множестве для задачи (А) обычно не удается, так как множество Q, задаваемое нелинейными ограничениями типа равенств, невыпукло (за исключением вырожденных случаев) (см. упр. 12). Однако здесь можно привести апостериорные условия единственности.^ Теорема 6. Н евырожденная точка минимума локально единственна. Действительно, при доказательстве теоремы 5 мы получили, что невырожденное решение х* задачи (А) является невырож- денной точкой безусловного минимума М(х, у*, К), поэтому най- дется />0 такое, что М(х, у*, К) — М(х*, у*, К)^/||х— х*||2 в некоторой окрестности х* (см. (2) § 3 гл. 1). Поскольку f(x) = = А4(х, у*, К) для хе Q, то f (х) - f (х*) > III х - х* IP (17) для xeQ из окрестности х*. ▲ Совершенно очевиден следующий результат о единственно- сти множителей Лагранжа, вытекающий из определения регу- лярной точки. Теорема 7. Для регулярного минимума множители Ла- гранжа определяются однозначно. А Переходя к анализу устойчивости, начнем с вопроса об устой- чивости решения по отношению к возмущениям в ограничениях. Наряду с исходной задачей (А) введем «возмущенную» задачу min f (х), / • 1 О8') ^(х) = ег, z= 1, ..., т, где е = (ei, ..., 8т) Б R,,! — некоторый вектор. Обозначим ее ре- шение (если таковое существует) через хе, и пусть <р(е) — /(хе). Нас будет интересовать, когда хе-»-х* при е-»-0 (х* — решение (А)), а также оценки близости хе к х* и поведение ф(е) для малых е. Теорема 8. Пусть х* — невырожденное решение задачи (А). Тогда при достаточно малых ||е|| существует хе, причем ||хе-х*|1=О(е), V<p(O) = —у*.
§ 1. ОСНОВЫ ТЕОРИИ 209 Доказательство. Пусть z — {х, у} xeR", у^ Rm, ВД — оператор в Rn+m, определяемый следующим обра- зом: R (z) — {L'x (х, у), L'y(x, у}}. Тогда система уравнений (4) может быть записана в виде Я(з) = 0. (20) Очевидно, что /?(г*) = 0, где z* — {х*, у*}, х* — решение задачи (Л), у* — соответствующие множители Лагранжа. Вычислим R'(z*). Имеем «'<*’)=(с со) Л = /), (21) Из леммы 2 следует, что матрица R'(z*) невырождена. В соот- ветствии с теоремой 3 § 3 гл. 2 система R(z) = a (22) имеет решение za при достаточно малых ||а||, причем za = z*-[R'(z*)V'a + o(a). (23) Возьмем а — {0, е}, aeR'1+m, eeR'1. При этом система (22) эквивалентна следующей: Vf (х) + g' (х)ту = 0, g (х) = е, (24) и у нее существует решение za = {хе, уЕ} при достаточно малых е. Тогда точка хЕ, во-первых, удовлетворяет ограничениям за- дачи (18). Во-вторых, в силу непрерывности ¥gi(x) и регулярности х* градиенты Vgi(xe) также линейно независимы при доста- точно малых ||е||. В-третьих, в хе выполнено (в силу (24)) необ- ходимое условие минимума в задаче (18) с множителями Ла- гранжа уе. Наконец, в силу непрерывности первых и вторых про- изводных и линейной независимости Vg,(x*) выполняется усло- вие LxX(xe, ys)>® на подпространстве S8 = {s: (ygi(xe), s)~ — 0, i= 1, ..., m}. Итак, в точке xs выполняется достаточное условие экстремума II порядка, т. е. хе — решение задачи (18). Из соотношения (23) следует ||za— г*|| <х||а||, а — некоторая константа, поэтому ||хе— х*|| а||е||. Наконец, ф (е) = f (xg) = f (х*) + (Vf (х*), хе — х*) + о (|| хе — х* ||) = = f (**) — (g' (хУ у*, хе — х‘) + о (е) = = f (х*) — (g (хе) — g (х*), у*) + o(e) = f (х‘) — (/, е) + о (е). Значит, \7ф (0) = —у*. ▲ Из теоремы 8 следует устойчивость невырожденного мини- мума по отношению к возмущениям в ограничениях. В частно- сти, если для последовательности xk из окрестности невырож-
210 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ денного минимума х* будет lim gt {xk) — 0, z = l, ..., tn, ОО lim f (x4) = f (x*), то эта последовательность сходится к х*. &->ОО Устойчивость по отношению к возмущениям минимизируемой функции исследуется точно так же. Приведем характерный ре- зультат. Теорема 9. Пусть хе — решение задачи min[f(x)-|- е/г(х)], gi(x)—0, Z = 1, ..., т, где eeR1, Л(х)— дважды непрерывно дифференцируемая в окрестности х* функция, х* — невырожден- ное решение задачи (А). Тогда при малых |е| хе существует и хе->х* при е->0. А Предположение о невырожденности минимума в теоремах 8, 9 существенно. Например, если решается задача minx, g(x) = = х2 = 0, R1, то ее решение х* — 0 нерегулярно. Для возму- щенной задачи с ограничением g(x) = e при е < 0 решения не существует (допустимое множество пусто), а при е>0 хе = = Ve и оценка (19) нарушается. Упражнение. 12. Пусть g':R"->R1—строго выпуклая функция. Докажите, что если множество {х: g'(x) = 0} содержит более чем одну точку, то оно невыпукло. § 2. Методы минимизации 1. Классификация методов. Методы решения задач условной оптимизации многочисленны и разнообразны. Их можно клас- сифицировать как по формальным признакам, так и по содер- жательным. Как и ранее, можно выделить методы нулевого, первого и второго порядков в зависимости от порядка используемых про- изводных. Мы в основном будем иметь дело с методами первого порядка (в которых вычисляются градиенты Vf(x) и Vg((x)) и второго порядка (в которых требуется знание V2f(x) и V2g/(x)). Далее, методы делятся на прямые (в которых итерации ведутся в пространстве прямых переменных х) и двойственные (которые существенно используют двойственные переменные у). Во мно- гих методах на каждом шаге решается некоторая вспомогатель- ная задача, и с вычислительной точкой зрения удобно вести классификацию по ее типу. Это может быть задача безусловной минимизации, задача минимизации линейной или квадратичной функции при линейных ограничениях и т. д. Наконец, сами идеи, лежащие в основе методов, разнообразны. Это идеи исклю- чения переменных, линеаризации, штрафных функций, обычной и модифицированной функций Лагранжа и т. д. Ниже будут рас- смотрены наиболее важные в идейном или вычислительном от- ношении методы,
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 211 2. Метод линеаризации. В этом методе на каждой итерации минимизируемая функция и ограничения линеаризуются. По- скольку задача минимизации линейной функции при линейных ограничениях может не иметь решения, в функцию добавляется квадратичный член (ср. с аналогичным приемом при построении градиентного метода (3) § 4 гл. 1). Таким путем приходим к методу, где очередное приближение хк+1 является решением сле- • дующей вспомогательной задачи: min [(Vf (xfe), х — xfe) + (2y)-1||x — xfe||2], gi (xk) + (Vg£ (xfe), x — xk) = 0, i = 1, ..., m, где у > 0 — некоторый параметр. С такого рода задачей мы уже встречались неоднократно (гл. 7). С одной стороны, метод (1) может быть записан как метод проекции градиента на линеари- зованные ограничения: xfe+1 = P^(xfe-Yvf(xfe)), Qfe = {x: g (xfe) + g'(xfe) (х — xfe) = 0}. С другой стороны, решением системы линейных уравнений (1/у) (х - xk) + g' (xky y = -Vf (xfe), g' (xk) (x — xk) = — g (xk) является вектор {хк+{, yk+v} e первые компоненты кото- рого совпадают с x&+1. Таким образом, для нахождения хк+1 до- статочно решить систему линейных уравнений (3) (размерности п-\-т). Получаемый при этом вектор yk+i является, как мы увидим далее, оценкой для множителей Лагранжа у*. Теорема 1. Пусть х* — точка невырожденного минимума, a V2f(x), V2gz(x) удовлетворяют условию Липшица в окрестно- сти х*. Тогда существует у > 0 такое, что при 0 < у <; у метод (1) корректно определен и локально сходится к х* со скоростью геометрической прогрессии. Доказательство. Прежде всего, в силу линейной незави- симости Vgi(x*), i= 1, ..., tn, векторы Vgi(xk), i=l, ..., m, также линейно независимы для xk, достаточно близких к х*, и потому и метод (2) корректно определен, т. е. точка xk+l существует. В соответствии с (2) метод может быть записан в виде (см. (6) § 2 гл. 7) = (/ - C+Cfe) (х* - Vvf (xk)) + С+ (Ckxk - g (xfe)), Cfe = g'(xfe). () Поскольку Ck = C + g" (x*) (xfe — x) + о (x% — x*), где C = g' (x*), Vf (xft) = vf (x*) + v2f (x*) (xfe - x*) + о (xk - x*), vf (x*) + CPy* - 0.
212 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ а С+ = СТ(ССТ) *, то для х\ достаточно близких к х*, получаем xk+i —х* = D (хк — х*) + о (хй - х"), £) = (/ — Сг (ССТ1 С) (/ - уЛ), А = LL (х*, у*). (5) Покажем, что при достаточно малых у>0 будет р(£))< 1, где p(D)—спектральный радиус D. Действительно, рассмотрим итерации uk+l = Duk при произвольном и° е Rn. Поскольку Du— = PS(I — у А) и, S = {х: Сх=0}, то все uk принадлежат S, k~^A. Поэтому для k 1 || (/ — у Л) ик ||2 = || ик ||2 — 2у (Аик, uk) + у21| Auk ||2 || ик ||2 - 2у/1| ик ||2 + у21| А ||21| ик ||2, так как (Аи, и) /||м||2, I > 0, для ие$ в силу невырожден- ности х*. Значит, || (/ — уЛ) ufe|| </||u*||, q < 1, для малых у > 0. Но ||/—Ст (CCT)~lC\\ 1, так как I—СТ(ССТ)~}С—’Оператор проектирования, см. (6) § 1 гл. 5. Итак, ||гД+1|| <7llw*||, q 1, k^l, т. e. что эквивалентно условию p(Z))< 1 (след- ствие из леммы 1 § 1 гл. 2). Применяя теперь теорему 1 § 1 гл. 2 к (5), получаем требуемый результат. ▲ Теорема 1 является типичной в ряде отношений. Во-первых, в ней доказывается лишь локальная сходимость метода. Это естественно, так как в задачах с нелинейными ограничениями типа равенств допустимое множество, как правило, является не- выпуклым, что уже отмечалось выше. Поэтому для таких задач нельзя надеяться ни на какой глобальный результат. Во-вторых, основным аппаратом при доказательстве является теорема 1 § 1 гл. 2. Впрочем, чаще итерационный процесс рассматривается одновременно для прямых и двойственных переменных (х и у) и эта теорема применяется в пространстве R'l+m. В-третьих, де- лается предположение о невырожденности минимума. В случае вырождения можно иногда доказать факт сходимости того или иного метода первого порядка, но нельзя гарантировать сходи- мость со скоростью геометрической прогрессии. Наконец, в тео- реме 1 не приводятся явные выражения для параметров (у, зна- менателя прогрессии, размера области сходимости). В принципе такого рода оценки можно выписать, но полученные выражения были бы громоздкими и в них входили бы неизвестные априори величины (например, у*). Поэтому мы будем обычно ограни- чиваться утверждениями типа теоремы 1, дающими качествен- ную картину поведения метода. 3. Двойственные методы. В методе линеаризации не фигури- руют явно ни функция Лагранжа, ни двойственные переменные (хотя, как мы видели, он дает приближения и для множителей Лагранжа). В описываемом ниже методе (называемом также
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 213 методом Эрроу — Гурвица) прямые и двойственные переменные равноправны: = yL'x {х\ у*) = - у (yf (^) + g' (%У у^ yk+l = yk + уЦ (Л yk) -yk + Ng (xk). (6) Иначе говоря, делается шаг градиентного метода минимизации функции Лагранжа по х и одновременно—максимизации той же функции по у. На сходимость такого метода трудно рассчи- тывать в общей ситуации. Действительно, мы уже отмечали, что функция Ь(х, у*) не обязательно достигает минимума по х в х*. Но если взять у° = у*, то (6) переходит в градиентный метод для L (х, у*), который, как мы знаем (из теоремы 1 § 2 гл. 6), не сходится к стационарной точке, отличной от точки минимума. Поэтому приводимая ниже теорема 2 включает дополнительное требование положительной определенности матрицы ДД(х*, у*). Теорема 2. Пусть х* — невырожденная точка минимума, Г'хАх*, У*) > 0 и вторые производные V2f(x), V2gt(x) удовлетво- ряют условию Липшица в окрестности х*. Тогда найдется у > О такое, что при 0 < у < у метод (6) локально сходится к х*, у* со скоростью геометрической прогрессии. Доказательство. В обозначениях zk—{xk— х*, yk — у*} метод может быть записан в виде zk+1 = Dzh + o(zk), D — 1—уВ, Л = ДД(х*, /), C = g'(x‘). Покажем, что матрица —В устойчива. Это эквивалентно тому, что для системы z = — Bz будет г(/)->0 при и любом z(0) (см. лемму 3 § 1 гл. 2). В переменных х, у система принимает вид х—— Лх — Сту, у — Сх. Возьмем p(f) == (||х(/) ||2+1|г/(О II2)/2, тогда р=(х, х) + (у, у)=—(Ах, х) — {Сту, х) + (Сх, у) = = — (Лх, х) С—а||х||2, так как Л > 0. Поэтому р монотонно убывает, отсюда р->0, и потому х(/)->0 при £-><х>. Поскольку х(/) — решение линейного дифференциального уравнения, то из х(/)->0 следует и х(/)->0. Таким образом, Су — —х — Лх->0 при /->оо. Поскольку ранг С равен т, то это влечет у->0. Итак, z(/)->0. В силу леммы 5 § 1 "гл. 2 спектральный радиус D,— = I — у В меньше 1 при достаточно малых у > 0. Применяя тео- рему 1 § 1 гл. 2 для (7), получаем требуемый результат. А Можно модифицировать метод (6), осуществив полную ми- нимизацию функции Лагранжа по х вместо одного шага гра- диентного метода: xfe+1 = argmin L (х, yk), yk+1 = yk -ф yg (xft+1). (8) x e P/1
214 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Оказывается, что в предположениях теоремы 2 метод корректно определен при у°, достаточно близких к у* (т. е. xk+1 сущест- вует), и для (8) справедливы утверждения теоремы 2. Таким образом, переход к более трудоемкому методу (8) (в нем тре- буется на каждом шаге решать задачу безусловной минимиза- ции) не меняет качественной картины поведения метода (6), хотя и может привести к уменьшению знаменателя прогрессии. 4. Методы модифицированной функции Лагранжа. Значитель- но лучшими свойствами обладают методы типа (6), (8), в кото- рых обычная функция Лагранжа заменена на модифицирован- ную. Начнем с аналога метода (6): xfe+1 =,? _ ум'х (xk, yk, K) = xk-y (Vf (xk) + + g'(xk)Tyk + Kg'(xk)Tg(xk)), (9) yk+l = yk + yM'y (xk, yk, K) = yk + yg (xk). Теорема 3. Пусть x* — невырожденная точка минимума, V2f (х) и V2gi(x) удовлетворяют условию Липшица в окрестности х*. Тогда метод (9) при достаточно больших К и 0 < у <у ло- кально сходится к х*, у* со скоростью геометрической про- грессии. Доказательство. Задача (А) эквивалентна задаче min [/ (х) + (7t/2)||g(x)||2], g(x) = 0. Для последней функция Лагранжа совпадает с М(х, у, К), а метод (6) переходит в (9). Но в соответствии с (15) § 1 Мхх(х*, у*, К) > 0, поэтому применима теорема 2 о сходимости (6), а тем самым и (9). А Таким образом, метод (9) сходится для любого невырожден- ного минимума без дополнительных предположений, требовав- шихся для методов (6) и (8), основанных на функции Лагран- жа. Оказывается при этом, что за счет использования модифи- цированной функции Лагранжа можно добиться и достаточно высокой скорости сходимости. Это относится к аналогу ме- тода (8): xk+l = argminAl(x, yk, К), yk+i = yk + Kg(xk+i). (11) X Теорема 4. Пусть выполнены условия теоремы 3. Тогда для всякого уа, достаточно близкого к у*, найдется Ко такое, что при К> Ко метод (11) сходится к х*, у* со скоростью гео- метрической прогрессии, знаменатель которой q = О(\/К). Доказательство. Обозначим <р(х) — М(х, у*, К), фДх);— — (Ук — У*, g(x)), тогда М(х, yk, К) = <р(х)Д-(х). В силу (15) и (16) § 1 х* — точка невырожденного безусловного мини- мума <р(х). В силу теоремы 6 § 3 гл. 1, если \\yk — у*\\ доста-
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 215 точно мало, то существует xk+1 — точка локального минимума <р(х) +ф*(х) в окрестности х*, причем xk+l - х* = - [V2<P (х*)Г* Vih (X*) + О (yk - у*}. Поскольку V2<p(x*) = А + КСТС, g' (х*) = С, А — L"x (х*, у*), ^к(х‘) = Ст(уь-у*), то II xfe+1 - X* IIСII (Л + КСТС)-1 Ст IIII yk - у* II + о (yk - у*) < <(^/K)\\yk-y*\\+o(yk-y*) (12) в силу леммы 4 § 1. Далее вновь применим эту лемму: /+1 = yk + Kg (xfc+1) = yk + КС (xfe+1 - X*) + о (xfe+1 - X*) = = yk - КС (Л + KCTC)-X Ст (yk ~ у*) + о (yk - у*), II yk+l-у*\\^\\1-КС(А + КСТСГ1 Ст || || yk - у* 1| + о (yk - у*) < <(a3/K)\\yk~y*\\ + o(yk-y*). Таким образом, при достаточно малых у° — у* будет yk-^-y3> со скоростью геометрической прогрессии со знаменателем q = = О(\/Ю, а из (12) следует, что xk — х* с той же скоростью. А Более аккуратный учет остаточных членов в доказательстве теоремы 4 позволяет получить более сильное утверждение. Теорема 5. Результаты теоремы 4 справедливы для лю- бого у° (при этом Ко зависит от ||г/° — у*\\). А Таким образом, метод (11) обладает рядом преимуществ перед методом (8). Во-первых, он не требует хорошего началь- ного приближения по у, что важно, так как такое приближение обычно неизвестно. Во-вторых, он сходится при минимальных предположениях'—достаточно невырожденности минимума и гладкости функций. При этом он не сложнее метода (8) с вы- числительной точки зрения. Он не требует подбора длины шага у (впрочем, в нем возникает проблема выбора К). Наконец, что очень важно, его скорость сходимости может быть сделана вы- сокой за счет выбора К- Конечно, не нужно переоценивать достоинства метода (11). В формулировках теорем 4 и 5 нет слов «локально сходится», однако это не значит, что метод дает возможность находить гло- бальное решение задачи, просто трудность перенесена на вспо- могательную задачу (11). В определении xk+1 неявно предпола- гается, что это точка безусловного минимума функции М(х, yk, К), близкая к х* (такая существует); однако отыскание такой точки остается проблемой. Далее, если сделать К очень большим, то скорость сходимости итерации (11) увеличивается, однако каждая итерация становится более трудоемкой. Дело в том, что задача минимизации М(х, yk, /<) становится плохо обу- словленной,
216 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Вопрос о компромиссном выборе К с учетом указанных усло- вий довольно сложен и не решен до конца. В практических вычислениях можно менять К на каждой итерации, подбирая его в зависимости от результатов счета. 5. Метод штрафных функций. Применим для решения (А) ту же идею сведения к последовательности задач безусловной ми- нимизации, что и при доказательстве правила множителей Ла- гранжа с помощью штрафных функций (см. (7) § 1): xk = argmin fk (х), fk(x) = f (x) + (x) ||2, 7<fe->oo. (13) X e= Qo Z Здесь Qo — некоторое ограниченное множество локализации ми- нимума, введенное для того, чтобы решение задачи безусловной минимизации существовало. Докажем сходимость метода при минимальных предположениях (не будем требовать даже диф- ференцируемости f и gt). Теорема 6. Пусть задача (А) имеет решения, их множество обозначим X*. Пусть f и gi непрерывны, Qo ограничено и замк- нуто, Qon^*¥=0. Тогда всякая предельная точка метода (13) (под xk понимается глобальный минимум fk(x) на Qo) является глобальным минимумом для задачи (А). Доказательство. Метод (13) корректно определен, так как Д(х) непрерывна и Qo ограничено и замкнуто, поэтому по теореме 4 § 1 гл. 7 точки хк существуют. Поскольку xk е Qo, то существует хотя бы одна предельная точка х для последова- тельности хк. Пусть x*eQonA*, тогда по определению (13) Д(^)^ f*(x*) = f(x*). Отсюда ||g(xfe)||2 ^(2/Kk) (f(x*)-f(xk)) и, переходя к пределу при k-+<x>, получаем, что g(x) = 0, т. е. х — допустимая точка. С другой стороны, f (xk) sC f (x*)— — (\/2)Kk\\g(xk) ||2 sC f (x*), следовательно f(x)^f(x*). Поэтому x является решением (A). ▲ Для невырожденного минимума можно оценить и скорость сходимости метода (13). Теорема 7. Пусть х* — точка невырожденного минимума и X2f(x), X2gi(x) удовлетворяют условию Липшица в окрестно- сти х*. Тогда хк-+х* при 7<Д->-оо, причем Цх* — х*||== О(1/Д6), Kkg(xk)~^y*. А (14) Разумеется, из теоремы 7 не следует, что за счет выбора Кь можно добиться сколь угодно быстрой сходимости — как уже отмечалось выше, с ростом Кч ухудшается обусловленность вспомогательных задач и тем самым растет трудность их реше- ния. Однако в методе штрафных функций неизбежно нужно брать Кк~> оо (иначе он не сходится), и в этом главный недо- статок метода по сравнению с методом' модифицированной функции Лагранжа, в котором можно не увеличивать штрафной
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 217 коэффициент К. При практических расчетах Kk увеличивают та- ким образом, чтобы х*-1 могло служить начальным приближе- нием при поиске xk (при быстром росте Кь область сходимости методов безусловной минимизации для fk(x) сокращается, и xk~! может не попасть в эту область). Отметим, что метод штрафных функций совпадает с вариантом метода модифицированной функции Лагранжа, в котором не производится пересчет двой- ственных переменных (yk = 0) (см. упр. 2). Вообще, в методе штрафных функций двойственные переменные никак не исполь- зуются, хотя их можно было бы найти в соответствии с (14). По существу, метод модифицированной функции Лагранжа мо- жет рассматриваться как такое видоизменение метода штраф- ных функций, в котором систематически используется информа- ция о множителях Лагранжа. Это видоизменение оказывается существенно более эффективным, чем исходный метод. Един- ственным возможным преимуществом метода штрафных функ- ций может служить его большая универсальность — он сходится при весьма слабых требованиях (см. теорему 6). Упражнения. 1. Докажите теорему 7 по той же схеме, что и теорему 4, записав (13) в виде xk — argmin М (х, 0, Kk)- х ь 2. Рассмотрите метод хк = argmin М (х, уа, Kk) при некотором постоян- X ном у° и покажите, что для него справедливы все результаты, относящиеся к методу штрафных функций (в котором у° = 0). Докажите, что скорость сходимости тем выше, чем ближе у° к у*. 6. Метод приведенного градиента. Использование идеи исклю- чения переменных, примененной при втором способе доказа- тельства правила множителей Лагранжа (§ 1) приводит к сле- дующему методу, называемому методом приведенного (или ре- дуцированного) градиента. Пусть х— {и, v}, и е Rm, v е R"-m,— разбиение переменных на две группы, причем и можно найти через v из уравнения g(x) = g(u, v) = 0. Построим градиентный метод безусловной минимизации функции ср (и) = f (и (v), v), где f(u, v) — f(x), т. e. = yV<p(A V<P (a*) = - g' (Uk, vk)T [g'u (uk, vk)TVlf'u (u\ vk)T + f'v (uk, vk)T, (15) где uk — решение уравнения g(u, vk) — 0. Таким образом, в ме- тоде (15) не нужно находить зависимость u(v) в явном виде, достаточно решать уравнение g(u, vk) = 0 при фиксирован- ном vk. Теорема 8. Пусть х* — точка невырожденного минимума и У2}, \?gi удовлетворяют условию Липшица в окрестности х*. Тогда найдется у>0 такое, что при 0 < у < у метод (15J
218 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ локально сходится к {u*, V*} — х* со скоростью геометрической прогрессии. Доказательство сводится к проверке невырожденности точки V* безусловного минимума <p(v) и применению теоремы 4 § 4 гл. 1. А Остановимся отдельно на частном случае линейных ограни- чений. Пусть ограничения имеют вид А^и -ф- Ате = b, (16) где А[ — невырожденная матрица m X tn, Л2 — матрица тХ(«— tn), 6eRm, а минимизируемая функция сепарабельна по и и V. /(х) = Л(и) + /2(ц). (17) Тогда метод (15) принимает вид t?+1 = vk - у (Vf2 (vk) - Al (ЛГ)-1 V/, G?)), uk+x = A:\b- Л2ц*+1). Он сходится глобально, если функции f\(u) и f2(v) сильно вы- пуклые и гладкие. Можно также гарантировать глобальную схо- димость, если только f2(v) сильно выпукла, а /Ди) имеет доста- точно малую вторую производную. 7. Метод Ньютона. Для решения системы уравнений (4) § 1 можно применить метод Ньютона, т. е. новое приближение xk+1, yk+‘ искать как решение системы линеаризованных уравнений ГД(Д yk)(x-xk) + L''Axk, yk) (у — yk) ~ — L'x (xk, yk), L"y(xk, yk)(x-xk) = -L'(xk, yk), (19) (так как Lyy(x, г/)==0), или в более подробной записи: [v2/ (xk) + Е (*fe)] (x - xk) + g' (xk)T (y — yk) = = -^(xk)-g'(xkYyk g'(xk)(x-xk) = ~g(xk). Теорема 9. Пусть x* — невырожденная точка минимума и ¥2f и y2gt удовлетворяют условию Липшица в окрестности х*. Тогда метод (20) локально квадратично сходится к х*, у*. Доказательство. Как и ранее (см. доказательство тео- ремы 8 § 1), введем г= {х, у} е R'!+m, zk~ {xk, yk}, z* = — {x*, у*}- Тогда (4) § 1 можно записать в виде R (г) = 0, R (г) = {L'x (х, у), L'y (х, у)}, R" Rn+m —> Rn+m (Л*/
§ 2. МЕТОДЫ МИНИМИЗАЦИИ 219 а (20) превращается в метод Ньютона для решения этого урав- нения, т. е. zk+t является решением системы линеаризованных уравнений R' (zk) (z — zk) = — R (zk). (22) Поскольку /?(z*) = 0, R'(z) удовлетворяет условию Липшица в окрестности z* и матрица R'(z*) невырождена (см. (21) § 1 и лемму 2 § 1), то применим общий результат о сходимости метода Ньютона (теорема 3 § 5 гл. 1), что и дает требуемое утверждение. ▲ Метод Ньютона (20) обладает теми же достоинствами и не- достатками, что и для безусловной минимизации: он быстро сходится, но требует трудоемкого вычисления вторых производ- ных и хорошего начального приближения. Такое приближение особенно трудно найти для двойственных переменных. Метод Ньютона можно представить в другой форме. Соста- вим квадратичную аппроксимацию (по х) функции Лагранжа при фиксированном значении yk и будем искать минимум этой аппроксимации при линеаризованных ограничениях. В качестве yk+{ выберем yk -j- uk, где uk — множители Лагранжа для вспо- могательной задачи min [(Li (Д /), х — xk) + (L"x (xk, yk) (x — xk), x — xk)/2], g(x^ + g'(xk)(x-xk) = 0. (23) Нетрудно показать, что методы (20) и (23) эквивалентны. (Ср. различные формы записи метода линеаризации (1) — (3).) 8. Другие квадратично сходящиеся методы. Мы уже отмеча- ли (см. упр. 10 § 1), что для невырожденного минимума х* х* — argminZ. (х, у*), S = {х: g' (х*) (х — х*) = 0}. (24) .teS Поэтому естественно построить метод, в котором на k-м шаге ищется минимум L(x, yk) на подпространстве, образованном линеаризацией ограничения g(x) = O в точке xk: xk+‘ = argminL(x, ук), х е Qfe Qft = {x: g(xk) +g'(xk)(x-xk) = 0}, yk + l =yk + где uk — множители Лагранжа в задаче (25). Этот метод очень близок к (23) с той лишь разницей, что на Qk ищется минимум функции L(x, yk), а не ее квадратичной аппроксимации. По- этому в этом методе не нужно вычислять вторые производ- ные— минимизация на подпространстве может быть осущест- влена каким-либо эффективным методом первого порядка, цапример методом сопряженных градиентов (6) § 3 гл. 7,
220 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Естественно, что свойства метода (25) те же, что и для ме- тода (23). Можно предложить и другие методы, идейно близкие к (23) и (25). Таковы, например, квазиньютоновские методы, в которых решается вспомогательная задача min \l'x (xk, yk) (x — xk) + у (Нк (x — хк), x — xfe)], (26) где матрица Hk — аппроксимация для L"xx(xk, yk), построенная по предыдущим значениям градиентов. § 3. Учет возможных осложнений В предыдущем параграфе мы рассматривали идеализирован- ную ситуацию — пренебрегали наличием помех, ограничивались локальными результатами и случаем невырожденного минимума и т. д. Попытаемся учесть, в какой мере такая идеализация опасна. 1. Глобальный минимум. Все утверждения §§ 1—2 носили ло- кальный характер, что, как уже отмечалось, связано с невыпук- лостью задачи (А) (ср. с упр. 12 § 1). Даже если исходная задача (А) не имеет локальных минимумов, то система уравне- ний (4) § 1 (т. е. запись правила множителей Лагранжа) обычно имеет не единственное решение. Например, в задаче min (Ах, х) (1) где А — симметричная матрица л X и, нет локальных миниму- мов, однако всякий собственный вектор А удовлетворяет необ- ходимым условиям экстремума, которые в данном случае при- нимают вид Ах А- ух = 0, t/eR1. Неудивительно, что и резуль- таты о сходимости методов минимизации в основном были ло- кальными, т. е. требовали хорошего начального приближения к решению. Исключением является метод штрафных функций — его сходимость носит глобальный характер (теорема 6 § 2). Конечно, в этом методе возникает проблема поиска глобального минимума во вспомогательных задачах (см. § 2 гл. 6). Можно при этом задаться одним, разумным коэффициентом штрафа, и из полученных в процессе глобальной минимизации «подозри- тельных» точек произвести спуск локальными методами § 2. В целом можно считать, что проблема поиска глобального решения задачи (А) очень сложна, и удовлетворительных уни- версальных способов ее решения нет. 2. Влияние помех. Теоремы об устойчивости, приведенные в § 2, дают основание надеяться, что малые помехи в вычислении функций и градиентов не приведут к каким-либо катастрофиче- ским последствиям в невырожденном случае. Действительно.
§ 3. УЧЕТ ВОЗМОЖНЫХ ОСЛОЖНЕНИЙ 221 можно показать, что для невырожденного минимума рассмо- тренные в § 2 методы при достаточно малых абсолютных поме- хах приводят в окрестность решения, причем размер этой окрест- ности тем меньше, чем ниже уровень помех. Приведем один типичный результат. Рассмотрим «возмущен- ный» метод линеаризации: xfe+1 — argmin ((V/ (xk), х — хк) + 1| х — хк ||2), x^k 4 V (2) Qk = {х: g (xk) + vg (xk) (x — xk) = 0}, причем для всех x из некоторой окрестности U точки х* IIVf (х) — Vf (х) || < eb ||g (х) — g (х) ||< е2, ||Vg (х) — Vg (х) || < е3. Теорема 1. В условиях теоремы 1 § 2 существует такое е0 > 0, что для всякого е > 0 найдутся >0, i = 1, 2, 3, для которых в методе (2) будет ||х*— х*|| е для всех достаточно больших k, если ||х° — х*|| е0, е/ < 6«, i — 1, 2, 3. Приведем схему доказательства. Так же как в § 2, можно показать, что xft+1 — х*=£)(хА:— x*) + o(xft — x*)-[-rk, где ||rfe|| = = O(ei + ег + ез), р(£>)<1. Пусть U>I — решение матричного уравнения DrUD = U — I (лемма 2 § 1 гл. 2), иь = (U(xk — х*), xk — х*). Тогда (ср. с доказательством теоремы 2 § 1 гл. 2) для достаточно малых v0 будет Vk±i qvk + &k, где ^<1, <%k — = О (sj + ег + бз), что и приводит к требуемому результату. ▲ Совершенно аналогичные утверждения относятся и к другим методам § 2. Однако если помехи не слишком малы, то может произойти полный «развал» методов. Пусть, например, при вычислении gi(x) допускается систематическая ошибка ег, i— 1, ..., tn. Это приводит к тому, что решается задача с ограничениями вида g1(x) = ei, i— 1, ..., tn. При этом может случиться, что такая система не имеет решения, даже если в исходной задаче сущест- вует невырожденное решение х*. В такой ситуации любые ме- тоды могут привести к бессмысленному ответу (см. ниже п. 4). Подчеркнем, что этот эффект отсутствовал в задачах безуслов- ной минимизации (см. гл. 4). Не будем подробно останавливаться на задачах с относи- тельными помехами. Здесь многое зависит от того, какой смысл вкладывается в этот термин. Если предполагать, что II г(х)||<а||х — х*||, (3) где г(х)—всевозможные ошибки в вычислении градиентов и функций, то можно показать, что для невырожденного минимума при достаточно малых а сохранится сходимость методов § 2.
222 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ Если же считать, что ошибки удовлетворяют условиям типа iim)-m)ii<aim(x)ii, (4) то эта ситуация эквивалентна по существу ситуации с абсолют- ными помехами, так как Vf(x*)=#O. Наконец, своеобразное положение возникает при наличии случайных помех. Рассмотрим, например, метод типа Эрроу — Гурвица (см. (6) § 2): xk+l = xk — yk(Vf(xk) + g'(xk)Tyk) z/fe+‘ = z/fe +Yfeg-(^), где Vf (xfe) = Vf (x&) + gfe, a — независимые центрированные случайные помехи (для простоты предполагается, что gi(x) и Vg;(x) известны точно). Так как вообще говоря, не ограни- чены, то существует ненулевая вероятность «выброса» точки из области сходимости. В результате, используя теорему 6 § 2 гл. 2, удается лишь доказать следующее: если Yfe— k—0 У у2 < оо, то в условиях теоремы 2 § 2 метод (5) сходится к решению с вероятностью 1 — 6, где 6 тем меньше, чем меньше дисперсия помехи и чем точнее начальное приближение. Анало- гичные результаты справедливы и при наличии помех в вычис- лении gi(x) и Vg((x), а также для ряда других методов из § 2. 3. Вырожденный минимум. Большинство результатов § 2 бы- ло доказано в предположении невырожденности минимума. От- клонения от этого предположения могут вызываться двумя причинами. Во-первых, в точке х* может нарушиться условие линейной независимости градиентов ограничений. Для таких задач, вооб- ще говоря, неверно правило множителей Лагранжа и неприме- нима теорема о касательном подпространстве. Поэтому все ме- тоды, основанные на обычной и модифицированной функции Ла- гранжа, а также на линеаризации ограничений, могут потерять работоспособность. Рассмотрим пример в R2, с которым мы уже сталкивались (упр. 1 § 1 и рис. 34); min х2, ^(xl^-l^ + ^-l-O, (6) g2 (X) = (%! + I)2 + Xl — 1 = 0. Решением является х* = {0, 0}, при этом Vgi(x*)= {—2, 0} и VgzU*) = {2, 0} линейно зависимы. Тогда в точке х° — {е, 0} линеаризация ограничений приводит к множеству Qo = = {х- gi (х°) + (Vg-i (х°), х — х°) = 0, £2(х°). + №(х°), х — Xй) =
§ 3. УЧЕТ ВОЗМОЖНЫХ ОСЛОЖНЕНИЙ 223 = 0}, которое пусто при любом ет^О. Таким образом, метод ли- неаризации неприменим для сколь угодно близкого к х* началь- ного приближения. По этой же причине теряет смысл метод Ньютона (см. его запись (23) § 2). Наконец, все двойственные методы для данной задачи не могут сходиться, так как для нее не существует множителей Лагранжа. По-видимому, можно по- строить методы, основанные на условиях экстремума для нере- гулярного случая (теорема 1 § 1), однако этот подход пока не исследован. Во-вторых, вырожденная точка минимума может быть регу- лярной, но вместо достаточного условия экстремума (13) § 1 в ней может быть выполнено лишь более слабое необходимое условие (10) § 1. Эта ситуация во многом близка вырожден- ному минимуму для задач без ограничений (см. § 1 гл. 6). Так, для задач с линейными ограничениями и выпуклой f(x) можно доказать сходимость метода линеаризации и методов, основан- ных на модифицированной функции Лагранжа, однако сходи- мости со скоростью геометрической прогрессии при этом утверж- дать нельзя. В то же время метод, использующий обычную функцию Лагранжа, может и не сходиться. Рассмотрим простей- ший пример в R1: minf(x), g(x) — 0, где f(x) = x, g(x) — x. Тогда х* — 0 — решение, у* — —1, L{x, (/*)== 0, так что L"x (х, у*) = 0, и условия теоремы 2 § 2 не выполнены. Метод (6) § 2 принимает в данном случае вид xk+l — хк — у (yk -ф 1), yk+l — yk yXk, поэтому для pk = (хк — х*)2 -ф (ук — у*)2 полу- чаем p/г-н = ps(l + У2)л т. е. ps-> оо при любом у #= 0. Наименее чувствителен ко всем формам вырождения метод штрафных функций. В условиях его сходимости (теорема 6 § 2) нет требования невырожденности минимума (или даже его ре- гулярности). Однако вырождение приводит к замедлению схо- димости метода штрафных функций. Чтобы в этом убедиться, нет нужды строить специальные примеры — достаточно обратить внимание на его связь с методом регуляризации. Действительно, задача min[f(%)+A||g(x)||2] эквивалентна задаче min[е/(х)-ф -ф llg'(x)ll2] с 8 = \/К, а последняя может рассматриваться как задача min||g(x) ||2, регуляризованная с помощью функции f(x). Метод же регуляризации, как мы знаем (из § 1 гл. 6) может сходиться очень медленно в вырожденном случае. 4. Противоречивость ограничений. Может случиться, что за- дача (А), которую требуется решить, плохо поставлена — мно- жество допустимых точек в ней пусто. Причины подобной си- туации различны. Нередко в технических и экономических зада- чах исходные требования к объекту являются завышенными, а потому противоречивыми. Иногда дело заключается в по- грешностях имеющейся информации, ошибках в характери- стиках объектов и т. д. Наконец, если задача (А) возникает как вспомогательная при решении более сложных задач, то
224 ГЛ. 8. ЗАДАЧИ С ОГРАНИЧЕНИЯМИ ТИПА РАВЕНСТВ несовместность ограничений может возникнуть вследствие необо- снованности используемой аппроксимации. Например, если при- менять метод линеаризации (§ 2) для плохих начальных прибли- жений, то получающиеся вспомогательные задачи могут не иметь решений. Возникает вопрос —как поведут себя различные методы ми- нимизации в таких условиях? Часть из методов попросту поте- ряет смысл. Так, метод линеаризации и метод Ньютона не будут определены корректно, так как задачи, решаемые в них на каж- дой итерации, будут иметь противоречивые ограничения. Другие методы формально будут применимы, но заведомо не будут схо- диться. Так, двойственные методы (6), (8), (9), (11) § 2 расхо- дятся, так как не существует точки, в которой g(x)=0, а по- тому шаг по двойственным переменным не стремится к 0. Наи- более разумным образом будет вести себя метод штрафных функций. Пусть, например, ограничения линейны, а функция f(x) выпукла. Тогда, используя отмечавшуюся ранее связь меж- ду методом регуляризации и методом штрафных функций, можно доказать, что последний сходится к псевдорешению задачи — той из точек минимума ||g(x)||2, для которой f(x) минимальна.
Глава 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ В данной главе будет исследоваться общая задача матема- тического программирования-. min /£ (%), gi (х) < О, gi W = О, х е Q, xg Rn, z = l......г, I — г 4- 1, ..., т, (А) где QazR"— «простое» множество (ср. с гл. 7), a ge. Q—>R‘, i= 1, ..., т. Точки, в которых удовлетворяются все ограниче- ния, будем называть допустимыми. Частные случаи задачи (А) уже исследовались в гл. 7 (г = т = 0) и гл. 8 (г = 0, Q = R”). Анализ будет производиться для двух основных классов задач (А) — нелинейного программирования (f(x), gt(x) дифференци- руемы, Q — R") и выпуклого программирования gi(x), i = 1, ..., г выпуклы, г — т, Q выпукло). § 1. Выпуклое программирование (теория) 1. Сведения из выпуклого анализа. Нам потребуются некото- рые новые сведения сверх приведенных в § 1 гл. 5. Ранее рассматривались лишь выпуклые функции, определен- ные на всем пространстве R”. Целесообразно расширить класс выпуклых функций, -отказавшись от последнего условия. Пусть Q с R" — некоторое множество, а скалярная функция f(x) опре- делена на Q и не определена вне Q. Будем называть Q областью определения f (х) и обозначать D(f) (от английского domain — область). Иногда употребляют обозначение domf и термин эф- фективная область. Функция /(х) называется выпуклой на D (f), если для любых хе £>(f), yeZ)(f) 0 sC 7. -У 1 будет 7.x 4- + (1-Х)уеПЦ) и f(Xx + (l-^)y)<VU) + (l-^)f(z/). (1) Из определения следует, что D(f) для выпуклой функции f(x) — выпуклое множество. Удобно несколько иначе подойти и к самому понятию функ- ции. Будем считать, что функция может принимать не толь- ко конечные значения, но и значение -}-оо, подчиняющееся
226 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ естественным правилам для арифметических действий и нера- венств: а < оо, оо-|-а=оо, а оо = оо (2) оо sgL оо, шах {а, оо} = оо для всех aeR1. Выражения оо — оо, оо/оо не определены, но положим 0-оо = 0. С учетом этого соглашения доопределим выпуклую функцию /(х), заданную на £)(/)<= R", на все R", по- ложив f М = + оо для х ё D (f). (3) Тогда неравенство (1) остается справедливым для всех х, у е е R". Будем теперь под выпуклой понимать функцию f(x), при- нимающую на всем R" и значения из R'Uf+oo}, заданную Рис. 35. Выпуклые функции с ограниченной областью определения. удовлетворяющую неравенству (1) для всех х, y^R.n, 0 А 1. При этом D(f) = {x-. f(x)<oo}, (4) причем всегда будем предполагать, не оговаривая этого особо, что D(f) непусто (иногда в этом случае говорят о собственных выпуклых функциях). Аналогично, функцию f(x) со значениями в R1 U {—оо} будем называть вогнутой, если —/(х) выпукла, при этом будем обозначать £)(/) = {х: f(x)>- —оо}. В качестве при- меров рассмотрим следующие четыре скалярные функции (рис. 35а)—г)): ( о. f (х) = < I ОО, 0, 1, оо, (5) f (х) = < (6) 1;
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 227 1 — V 1 — X2, | X I = ч оо, 1 X | > С 1, • 1; (7) f (х) = -| fx2(l-x2)-1, |х|< 1 оо, | х 17 £ 1, & 1. (8) Очевидно, что все они являются выпуклыми в смысле данного выше определения, и для (5) — (7) D(f) = [—1, 1], для (8) D(J) = (—1, 1). Обычные свойства конечных выпуклых функций сохраняются с небольшими уточнениями. Лемма 1. Имеют место следующие утверждения: а) если f(x) выпукла, то af(x) выпукла при а > 0, D(a/) = = D (/), а множества {х: f(x) =£7 а}, {х: f (х) < а}, {х: /(х) < оо} выпуклы при ct eR1; б) если fi(x), f2(x) выпуклы и D(f2)=£ 0, то функции f(x) — f\(x)-\-f2(x) и f(x) = max{ft(x), f2(x)j выпуклы и D(J) = = О(А)ПШ ▲ Выпуклая функция, принимающая значение 4-оо в какой- либо точке, разрывна в этой точке, и потому лемма 3 § 1 гл. 5 о непрерывности конечной выпуклой функции не переносится на случай D(/)=# R". Однако справедлив следующий результат. Лемма 2. Выпуклая функция непрерывна во всякой точке D(f)° (здесь и далее D(f)° — внутренность множества ▲ Поведение выпуклой функции f(x) на границе D(f) может быть различным. Пример (6) показывает, что из условий xft->x*, xk<=D(f), x*^D(J) не обязательно следует /(xft)->f(x*). Как и ранее, вектор a eR"- будем называть субградиентом выпуклой функции f(x) в точке хе R" и обозначать <?/(х), если f (X + y)>f (х) + (а, у) (9) для всех г/Е R". Таким образом, если D(f)= R", то это опреде- ление совпадает с (10) § 1 гл. 5. Однако при Z)(/)=# Rn возни- кают некоторые новые ситуации. Прежде всего очевидно, что df(x) не существует в любой точке x=D(() (неравенство (9) не выполняется ни при каком а для х у <=е D(f) ). В гранич- ных точках D(J) субградиент может как существовать (пример (5)), так и не существовать (примеры (6) — (8)). Для внутрен- них же точек D(f) справедлив результат, аналогичный леммам 6 и 8 § 1 гл. 5. Лемма 3. Для хе D(f)° множество df(x) непусто, выпукло, замкнуто и ограничено, причем для любого ограниченного мно- жества из D(f)° субградиенты равномерно ограничены. А Основные леммы о правилах вычисления субградиентов из § 1 гл. 5 остаются справедливыми при некоторых дополнитель- ных предположениях.
228 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Лемма 4 (Моро — Рокафеллар). Пусть /Дх), /2(х)—выпук- лые функции, f(x) = fi(x)4-f2(x) и О О П D(A>)¥=0. (10) Тогда df(x) = dfl(x) + df2(x). ж (II) По индукции получаем обобщение (11) на случай m функ- ций: если /Дх)..fm(x) выпуклы и Р(Л)°П ... OD(fm-l)oOD(fm)^0, (12) то (х)+ ...+fm(x)) = dfl(x)+ ...+dfm(x). (.13) Лемма Моро — Рокафеллара является мощным инструмен- том при доказательстве разнообразных результатов выпуклого Рис. 36. Конусы и сопряженные конусы: а) подпространство, б) полупро- странство, е) многогранный конус, г) прямой круговой конус. анализа и теории экстремальных задач. Ограничимся пока од- ним важным примером. Напомним, что множество К cz Rn назы- вается конусом, если для всех х е К будет Хх е К при любом К > 0. Примерами конусов могут служить подпространство, по- лупространство, прямой круговой конус /< = {xeR'1: хп й? х] + ... + Xn-i} и многогранный конус К= {х е R": (а', х)^. 0, i = 1, ..., m} и, в частности, неотрицательный ортант К — = {х: х 0} (рис. 36). Мы уже сталкивались ранее с конусами: так, множество опорных векторов к выпуклому множеству (см. § 1 гл. 7) является конусом (называемым опорным). Для лю- бого множества Q cz R" можно рассмотреть порожденный им конус К = {х: х = Ку, К > 0, </gQ}. Таков, например, конус, порожденный допустимыми направлениями, или касательный конус (см. § 1 гл. 7 и § 1 гл. 8).
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 229 Конус К* называется сопряженным к конусу К с R”, если (рис. 36) К* = {а е Rn : (а, х) > О Vx е К}. (14) Конус —К* иногда называют полярой конуса К- Лемма 5 (Дубовицкий — Милютин). Пусть Ki......Km — выпуклые конусы в R”, К = Ki П • • • П Кт и ... [}Кт-х(\Кт^ 0. (15) Тогда Г = К’ + ... +Кт- (16) Доказательство. Введем ft (х) — (х), f (х) = 8К (х), где 6q(х)— индикаторная функция множества Q: w = {~. xtp <17> (см. упр. 5). Тогда Дх) = /)(х) + ... +Д(х), 5^(0) = К*, дД0) = К* (см. упр. 6), D(ft) = Ki, D(f)—К, поэтому из (15) следует (12), а из (13) получаем (16). ▲ Условие (15) не может быть, вообще говоря, отброшено (упр. 4). Однако в важнейшем частном случае (когда все К, — замкнутые полупространства) от него удается освобо- диться. Лемма 6 (Фаркаш). Пусть Ki — {x<=Rn\ (а‘, х)^0}, i = 1...in, К — Ki П ••• П Кт ф 0. Тогда г = к;+...+с = | £ У1а1, У1ж\. 4=1 ' Пусть А — матрица т X л, строками которой являются аг. Тогда требуемый результат может быть записан в виде: если K=={xeR": Ах>0), то К* = {х е Rn: х = АТу, у^О,' у е Rm). (18) В этих же терминах лемма 1 § 1 гл. 8 может быть записана так: если К = {х е R'! : Ах = 0), т0 = Д е R" : х = Ату, у е Rm). (19) Доказательство (18) может быть проведено по той же схеме, что и (19) (см. доказательство леммы 1 § 1 гл. 8). При этом, однако, приходится использовать замкнутость многогранного конуса вида {х --- А Гу, у 0= 0} —- этот факт требует специального доказательства.. А
230 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Из леммы Фаркаша следует, что если все конусы 7G много- гранные, то в лемме Дубовицкого — Милютина можно отбросить требование (15). Аналогичным образом может быть усилена лемма Моро — Рокафеллара. Лемма Фаркаша дает возможность выписать вид опорных векторов к многогранному множеству. Лемма 7. Пусть Q = {хе Rn: (а‘, х)^ bt, 7=1, ..., m}, х* eQ. I* — {i: (a1, x*) = b;} —множество активных ограничений в х*, К = {с: (с, х — х*) 0 Vx eQ} — конус опорных векторов к Q в точке х*. Тогда К={ У yta1, У1>0, /6=/*]. (20) i @ Z* Доказательство. Пусть Г = {z: z — Х(х.— х*), 7^0, х е Q) — конус, порожденный возможными направлениями (см. § 1 гл. 7). Тогда Г= {z: (а‘, г) 0, is/*}. На основании лем- мы Фаркаша Г* — { У ущ1, yt oj . Если с е Г*, то по опре- i е 1* делению сопряженного конуса 7 (с, х — х*)^г0 для всех х е Q, 7^0, это эквивалентно тому, что (с, х — х*) 0 для всех xeQ, т. е. Г* сд К. Обратное включение очевидно. А В заключение выпишем вид опорного конуса для множества, задаваемого с помощью выпуклой функции. Лемма 8. Пусть f (х) — выпуклая функция, х* е D (f)°, Q — {х : f (х) -С 0} и inf f (х) < 0. Тогда Q* = {с : (с, х — х*) 0 Vx е Q} = {Kdf(x*), 7 0}, если f (х*)=0, и Q* = {0}, если f (х*) < 0. Доказательство немедленно следует из определения субгра- диента и лемм 2 и 6 (при т=1). А Упражнения. 1. Докажите, что если Qa = [х: f (х) а} непусто и ограничено для не- которого aeR1 и выпуклой f (х) с D(f)°^Qa, то Qa ограничено для всех a < оо (ср. с леммой 1 § 2 гл. 5). Указание. Воспользуйтесь леммой 2. 2. Докажите лемму 4. (Указание. Включение д[(х) dfi (х) + <77 (х) очевидно; для доказательства противоположного включения рассмотрите два множества в R44-1: Q, = {a е R1, zsR": a fi(x + z)—E(x)}, Q2 = {a e R1, zeR", a < (df(x), z) — (2(x + z) + f2(x)} и примените к ним теорему от- делимости.) 3. Докажите, что ортаит и прямой круговой конус являются самосопря- женными, т. е. К = К*. 4. Пусть Д] = [х е R": (a, х) > 0}U {0}, Д2* = {х: (а, х) =0}, а Ф 0, aeR". Покажите, что равенство (Д1 Q Д2) = Ki + K2 в этом случае не- верно. 5. Покажите, что индикаторная функция выпуклого множества Q (17) является выпуклой и имеет субградиент в любой точке из Q, причем дбДх) совпадает с конусом векторов, опорных к Q в точке х. 6. Пусть Д—выпуклый конус. Покажите, что дбДО) = Д*. 2. Теорема Куна — Таккера. Прежде всего приведем признак безусловного минимума выпуклой функции, частным случаем которого является теорема 1 § 2 гл. 5.
§ I. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 231 Лемма 9. Пусть f(x)—выпуклая функция. Точка х* — точка глобального минимума f(x) на R'! тогда и только тогда, когда Ое=д/(х*). (21) Доказательство следует непосредственно из определения суб- градиента. Обратите внимание, что из (21) вытекает существо- вание субградиента в точке минимума. А Как и ранее, для выпуклых функций локальный минимум совпадает с глобальным. Лемма 10. Пусть f(x)— выпуклая функция, е > 0, х* е e£)(f) и f(x)^f(x*) для всех х таких, что ||х— х*|| е. Тогда f(x)^f(x*) для всех х. Доказательство. Пусть ||х — х*|| > е, А = е/||х — х*||< < 1, x8 = Ax-j-(l—А)х*. Тогда ||хе — х*|| = е, так что /(х8)^ >Дх*), но из (1) f(xE)< Af(x) + (1 — А)Дх*), т. е. f(x)^z > A-1 (f (xe)~f (х*)) + f (х*) f (x*). А Предположение x*eD(f) существенно (иначе в приведен- ной выше выкладке выражение Дх8)— f(x*) может быть равно оо — оо и потерять смысл). Например, для функции (5) точка х = 2 не является глобальным минимумом, хотя в ее окрестно- сти Дх) — Д2)= оо. Полезно в связи с этим обратить внимание на необходимость осторожности в выкладках, содержащих вы- ражения, которые могут обратиться в оо. Рассмотрим общую задачу выпуклого программирования вида minf(x), .vgR'1, gi (х)< 0, Z=1......m, (22) х s Q и сформулируем для нее необходимые и достаточные условия экстремума. Теорема 1 (Кун — Таккер). Пусть f(x), gi(x), i = 1, ... ..., m, — выпуклые функции, Q — выпуклое множество, Q с с D(f)°, Q ст D(gi)°, i — 1, .. •, m, и выполняется условие Слей- тера: найдется х° е Q такое, что £г(х°)<0, Z=1......пг. (23) Тогда допустимая точка X* является глобальным решением (22), если и только если найдутся уг^О, Z=l, ..., пг, такие, что У* gi (**) = 0, i = 1, ..., пг и L (х, /) > L (х‘, у*) Vx е= Q, (24) где у* = (у\, ... /т) <= Rfn, g (х) = (х), ... gm (х)) и U, У) = f (х) + (у, g (х)). (25)
232 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Функцию L(x, у), как и для задач с равенствами (см. § 1 гл. 8), будем называть функцией Лагранжа, вектор у* —множи- телями Лагранжа, х — прямыми переменными, у — двойственны- ми переменными, условие (х*) — 0, i = 1, ..., пг — усло- вием дополняющей нежесткости, набор индексов I*={i: gi(x*) = = 0} — множеством активных ограничений. Очевидно, что у* — 0 при ie=I*. Если для задачи (22) выполняются условия теоремы 1, то будем говорить о регулярной точке минимума или регулярной задаче. Теорема Куна — Таккера утверждает, что в случае регулярной точки минимума х* найдутся неотрицатель- ные множители Лагранжа у*, удовлетворяющие условию допол- няющей нежесткости, такие что функция Лагранжа при у = у* достигает минимума на Q в точке х*. Таким образом, появляется возможность свести задачу с неравенствами ТДх) <0к задаче минимизации без этих ограничений. Доказательство. Достаточность. Пусть х — про- извольная допустимая точка и выполняется (24), тогда f(x)>f(x) + (/, g(x)) = L(x, y*)^L(x*, у*) = = Ж) + (/, g(x*)) = f(x*), т. е. х*—точка глобального минимума в (22). Отметим, что при этом не используется условие Слейтера (23). Необходимость. Введем функции fo (х) = (х), ft (х) = . (х), Q/ = {x: Я;(хК0}, 4=1, т ' F(x) = f(x)+^fiM, где 6q (х) — индикаторная функция (17). Тогда Е(х) — f (х), если х допустимая точка, и Е(х)= оо в противном случае. Поэтому задача (22) эквивалентна безусловной минимизации F(x). Функ- ция Е(х) выпукла, поэтому по лемме 9 0 = dF(x*). Точка х°, фи- гурирующая в (23), такова, что х° е D (f)°, x°^.D(^giy, х° е е Q°t в силу леммы 2, и поэтому x°eD(f,)°, i— 1, ..., т. Следовательно, D (f)° f] D (f0) f| D (/i)° f| ... f| D (fm)° =£ 0, и по- тому к F(x) применима лемма Моро — Рокафеллара: 5F (х*) = df (х*) + df0 (х*) + .. . + dfm (х*). Но dfo (х*) = (х*) — конус опорных kQ в точке х* (см. упр. 5), df i (х*) = {yidgi (х*), yt > 0), i е= Г; dft (х*) = 0, I ё I* (лемма 8). Поэтому найдутся такие числа у\ 0, «е Г, что 0eaf(x*)+<36Q(x*)+ £ уЖ(х*). (27) i s Z*
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 233 Введем вектор у* = («/*, у'^, где у\ определены выше при i s Г, у] = 0 при i ё Г, и функцию Ф (х) = L (х,у*) + (х) = f (х) + (х) + £ У&(х). (28) I е !• Лемму Моро — Рокафеллара вновь можно применить, так как x*^D(f)°, x*^D(gi)°, i<= I*, x* e D(8q)), и мы получаем, что дф (х*) == df (х*) + d6Q (х*) + J1 (х*). Таким образом, (27) i ен /* имеет вид 0 е дф(х*), и по лемме 9 х* — точка безусловного ми- нимума ф(х). Это эквивалентно тому (см. (28)), что х* — точка минимума L(x, у*) на Q. А Отметим, что из (27) следует условие экстремума в субгра- диентной форме: (dxL (х*, у*), х - х*) > О Vx е= Q, dxL(x\ y*) = df(x*) + £ y*dSi(x*), i e /* что является обобщением теоремы 3 § 1 гл. 7, в которой рассма- тривалась задача без ограничений типа неравенств. Если же Q = R« то (29) принимает вид О е= dxL (х*, у*). (30) Для теоремы Куна — Таккера известно и много других дока- зательств (например, непосредственно на основе теорем отдели- мости). Приведенное простое доказательство наглядно демон- стрирует эффективность техники выпуклого анализа. Если попытаться воспользоваться условиями экстремума из гл. 7, рас- сматривая множество, задаваемое всеми ограничениями, то по- требуется выписать опорный вектор к этому множеству. Именно это и составляет нетривиальную часть теоремы Куна — Таккера. Условие Слейтера играет ту же роль, что и условие регуляр- ности в задаче с равенствами (§ 1 гл. 8). При его невыполнении допустимое множество может оказаться слишком «тощим» и теорема Куна — Таккера не будет верна. Например, если задача (22) имеет вид (см. рис. 34) min х2, х е R2, (Xj- 1)2 + х2- 1 <0, (31) (Х1+1)2 + х2-1<0, то х* — 0, I* — {1, 2} и, как нетрудно проверить, не существует таких Уь уу чтобы выполнялось условие (30).
234 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Если в задаче имеются линейные ограничения, то их удобно отнести к множеству Q. В частности, если других ограничений нет, т. е. задача имеет вид minf(x), xgR", (32) (a1, i = 1,.. . ,m, то все эти ограничения целесообразно рассматривать как за- дающие многогранное множество Q и использовать лемму 7 о виде опорных к такому множеству. Теорема 2. Если f(x) выпукла и D(J)° содержит допусти- мое множество, то необходимое и достаточное условие экстре- мума в задаче (32) имеет вид: найдутся у\ О, i s Г — {г: (al,x*) — bi} такие, что г X Ур^-д^х*}. А (33) i е= I* Подчеркнем, что в этом случае не требуется условие Слей- тера, т. е. допустимое множество в (32) может и не иметь вну- тренней точки. Теорему Куна — Таккера часто записывают в несколько ином виде, в терминах седловой точки. Введем требуемые для этого понятия. Пусть Q сд R", S с: Rm — два множества, ср: Q X S -> R1. Пара х* е Q, у* е S называется седловой точкой функции ср (х, z/) на QX*$, если Ф (х*, У} :С Ф (х*, У*} X Ф У*} Vx <д Q и Vz/ е S. (34) Иначе говоря, х* является точкой минимума ср(х, г/*) по х на Q, а у* — точкой максимума ф(х*, у} по у на S. Если нижеприве- денные выражения определены, то равенство min max ф (х, у} = max min ср (х, у) — ср (х*, у*) (35) X<=Qy<=S ц = 3 X<=Q эквивалентно (34), т. е. наличие седловой точки означает, что операции минимизации и максимизации можно переставлять. Теорема 3 (Кун — Таккер). В условиях теоремы 1 х* яв- ляется решением задачи (22) тогда и только тогда, когда пара х*, у* при некотором у* X- 0 является седловой точкой Цх, у) на Q X R+> г. е. L (х*, y)^L (х*, у*} ^Цх, у*) V.i- g Q и Vz/ > 0. (36) Доказательство. Пусть х* — решение (22), по теореме 1 найдется у* 0 такое, что (у*, g(x*)) = 0 и Е(х, у*)^Е(х*, у*) для всех х е Q. Но тогда L(x*, у*) = f(x*) f(x*) + (у, g(x*)') = = L(x*, у) для любых у X 0, поскольку ^(л'*)Х 0. Итак, пара х*, у*, где х* — решение (22), а у* — множители Лагранжа, яв- ляется седловой точкой L (х, у) на Q X R+-
§ I. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 235 Обратно, пусть х*, у* — седловая точка. Тогда L(x*, у*')^ уд L(x*, у) означает, что (у, g'(x*)) (г/*, g(x*)) для всех у уд 0. Это возможно лишь тогда, когда g(x*)^ 0, (g*, g(pf)) = 0. По- этому для любого допустимого х L (х*„ /) = f (х*) < L (х, /) = f (х) + (У*, g (х)) < f(x), что и означает, что х* — решение (22). ▲ Упражнения. 7. Получите из теоремы 2 условия (8) § 1 гл. 7. (Указание. Запи- шите ограничения (а‘, х) = bi в виде (а‘, х) ^bt, — (а‘, х) <д bt.) 8. Проверьте, что функции ср (х, у) = ху и ср(х, у) =—ху, х е R1, у е R1, обе имеют единственную седловую точку {0, 0} на R1 X R1- 9. Убедитесь на примере из упражнения 8, что из (34) не следуют ра- венства X* = Argmin ср (х, г/*), Y* = Argmax ср (х*, у), где X* XY*— мно- х е= Q у е 3 жество седловых точек. 3. Двойственность. В формулировку теоремы 3 прямые и двой- ственные переменные входят симметричным образом. Поэтому можно ожидать, что аналогичная симметрия существует и для задач оптимизации, т. е. что (36) является условием экстремума не только для исходной задачи (22), но и для другой задачи оптимизации относительно двойственных переменных. Такую за- дачу можно получить из следующих соображений. Введем cp(x)==sup L(x, у), (37) тогда очевидно, что ( f (х), если gt (х) sC 0, i — 1.т, Ф (х)==5 ( оо, в противном случае. Поэтому исходная задача может быть записана в виде min ф(х). (38) х е Q Поступим аналогичным образом, поменяв роль переменных и операций максимизации и минимизации. Именно, введем ф(г/)= inf L (х, у) (39) хе Q (возможно, что ф(у) — —оо для некоторых у) и рассмотрим за- дачу max ф (г/). (40) Задача (40) называется двойственной, а (38) или (22) — прямой. Теорема 4 (теорема двойственности). Справедливы сле- дующие соотношения двойственности:
§ 1. ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 237 дачу к другой, которая может оказаться проще. Так, если т <С п, то размерность двойственной задачи (равная т) существенно меньше размерности прямой. Во-вторых, неравенство (41) по- зволяет получить оценку снизу для минимума в (22) и тем са- мым оценить точность приближенного решения. Конечно, пло- дотворности двойственного подхода в большой мере зависит от того, насколько просто вычисляется функция ф(г/). В ряде слу- чаев (в частности, для задач линейного, квадратичного, сепара- бельного и геометрического программирования, см. гл. 10, 11), двойственный подход оказывается очень эффективным. Отметим, что двойственную задачу (40) будем иногда запи- сывать в иной форме. Во-первых, максимум ф(г/) может дости- гаться лишь в тех точках, где ф(г/)=Н=—оо, поэтому (40) равно- сильна задаче тах'ф(г/), г/^0, г/еО(ф), (46) где О(ф) = {у: ф(г/)>—оо}. Во-вторых, привычнее иметь дело с задачами минимизации, а не максимизации. Если ввести е((/) = -ф((/)> (47) то вместо (40) получим выпуклую (упр. 10) задачу min0(v), (48) либо вместо (46) — задачу min 0 (у), у^0, y^D(Q); (49) при этом соотношение двойственности (41) приобретает вид Нх) + 6(г/)>0. (50) Наконец, обратим внимание на то, что в зависимости от того, какие ограничения записаны в виде 0, а какие отнесены к множеству Q, мы получим различные двойственные задачи. Вообще, для каждой задачи оптимизации существует много раз- личных двойственных задач, но мы не будем останавливаться на общей теории их формирования. Упражнения. 10. Докажите следующие свойства ф [у}: а) множество D(ip) — {у. > —ос) выпукло, функция ф(</) вогнута на D (ф); б) если f(x), gi(x) непрерывны, Q замкнуто и ограничено, то £>(’!’) — Rm и ф (у) непрерывна; в) если f(x), gt(x) выпуклы, Q выпукло, Qc^D(gi)0, f(x)/ l\\x\\ оо при х s Q, ||x|| -*• оо, to R™ c D (ф); г) если f(x) строго выпукла, gi(x) выпуклы, Q выпукло, замкнуто и огра- ничено, то У(у) дифференцируема при у 0 и 7ф(«/) = g(x(y)), где *(</) = argmin L (х, у); X 6= Q д) если, кроме того, f(х) сильно выпукла, то 7ф(г/) удовлетворяет условию Липшица.
236 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ а) Для любых допустимых х и у (т. е. для xgQ, gi(x) О, 1—1 пг, у 0) f(x)>ip(y). (41) б) Если прямая задача регулярна, х* — ее решение, у* — мно- жители Лагранжа, то у* — решение (40) и f(x*) = ip(/). (42) в) Если для допустимых х*, у* имеет место (42), то х* — ре- шение прямой, а у* — решение двойственной задачи. Доказательство. а) Если х е Q, g (х) 0, у 0, то f (х) > f (х) + (у, g (х)) = L (х, у) inf L (х', у) = ip (г/). х' €= Q б) Пусть х* — решение (22),- у* — множители Лагранжа, тог- да по теореме 2 ip (г/*) = inf L (х, г/*) = L (х*, у*) L (х*, у) > inf L (х, у) = ip (у) is Q xt=Q для всех у^О, т. е. у* — решение (40), при этом, поскольку L(x', у') = Цх*), ТО ip(/) = f(x*). в) Пусть g(x*)>0, x’eQ, г/*>0 и f (х*) = ip (у*), тогда для произвольных допустимых х, у в силу (41) f (х) > ip (г/*) = = f (х*) ip (у), т. е. х*, у* — решения (22) и (40). Л Рассмотрим несколько примеров. Для задачи в R2 minx!, х,<0 (43) имеем L (х, у) = X] + х2г/, ip (у) = inf L (х, у) — оо. Здесь ни хе R2 прямая, ни двойственная задачи не имеют решения. Пусть f(x)== 1/х, х е R1, g(x) — — х^0. (44) Тогда L(x, у) = \/х — ху, ip(g) = —оо для у > 0, ip(0) —0. Здесь двойственная задача имеет решение у* = 0, а прямая — нет. Наконец, если задача имеет вид minx, х2<10, х е R1, (45) то L{x, у} = хД-ух2, ip(y) = —(4г/)-1, и прямая задача имеет решение х* = 0, а двойственная — нет. Все эти «патологические» примеры показывают, что в общем случае соотношение между прямой и двойственной задачами может быть достаточно произ- вольным. Однако в регулярном случае, в соответствии с теоре- мой 46), обе задачи одновременно разрешимы и их оптимальные значения равны. Полезность теоремы двойственности по сравнению с обыч- ными условиями экстремума типа теорем 1—3 определяется сле- дующими факторами. Во-первых, удается свести исходную за-
238 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ 11. Напишите двойственные к задачам: a) min (с, %), ||х|| 1; б) min (с, х), ilxii2 сГ 1. Убедитесь, что получаются разные задачи, хотя исходные задачи эквивалентны. 4. Существование, единственность и устойчивость решения. Лемма 2 и результат упражнения 1 позволяют сформулировать следующий вариант теоремы Вейерштрасса для задачи (22). Теорема 5. Пусть f(x), gt(x), i — 1, ..., m,— выпуклые функции, Q выпукло и замкнуто, для S= {xsQ: ^(х)^0, i = 1, ..., tn} имеем S c: Z) (/)°, S c: D (gi) °, i — 1, ..., tn, и множество {x e S: f (x) непусто и ограничено для некото- рого а. Тогда решение (22) существует. ▲ Единственность решения, как обычно, можно гарантировать для строго выпуклой функции f(x). Кроме того, если множество Q строго выпукло, а \\дхЬ (х, у*) || е >- 0 для всех х е Q и вы- полняются условия теоремы 1, то нетрудно получить, что ре- шение единственно. Наконец, если какая-либо из функций gt(x) строго выпукла, а отвечающий ей множитель Лагранжа поло- жителен у} > 0, то решение также единственно. Что касается двойственной задачи, то предположений регу- лярности недостаточно для единственности ее решения. Напри- мер, для задачи min х, х е R1, gl(x) = — х^.0, g2(x) = x2 —2x^0 (51) множители Лагранжа определяются неоднозначно. Грубо го- воря, это связано с тем, что первое ограничение является лиш- ним— оно не меняет допустимой области. В то же время при условиях регулярности можно утверждать ограниченность реше- ний двойственной задачи. Перейдем к анализу устойчивости. Нам понадобится следую- щий результат о непрерывной зависимости множества решений системы выпуклых неравенств от их правых частей. Лемма 11. Пусть gt(x), z=l...........tn, — выпуклые функ- ции, множество 3 = {х: £(-(х)^0, 1=1, ..., т} (52) непусто и ограничено, D(gt)° S. Тогда-. а} множество Se = {x: ^(x)<eb i=l, ...,т} (53) непусто и ограничено для любых е > 0, е = {©!.......... еот} и A(Se, S) —->0 при е—> 4 0; б) если при этом существует точка х° такая, что gt (х°) 6< 0, то S8 непусто и ограничено при любых ег g{ (х°), i = 1, . . ., m, и р (х8, S) с (шах ег)+ Vx8 е S8, с — -у шах || х — х° ||. ▲ (54) К Кт х е S
§ 1, ВЫПУКЛОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 239 Здесь A (Se, S) — хаусдорфово расстояние между множествами 8е и 8, т. е. A (8г, S) — max {maxp (х, 8е), max р(хе, 8)} х s S X& e Sg Лемма И дает возможность немедленно получить результат о слабой устойчивости (см. § 3 гл. 1) задачи выпуклого програм- мирования при возмущении ограничений. Теорема 6. Пусть X* — Argmin f (х), X*s = Argmin f (x), x e S x e Sg где 8 и 8e имеют вид (52) и (53), f(x), gi(x) выпуклы и непре- рывны на D(f)° и D(f)°TZ>S, D(gt)°ZDS, i— 1, ..., m, причем X* непусто и ограничено. Тогда: а) при всех е > 0 множество XI непусто и ограничено и A(XL Х*)~>0, при 8-> + 0, где f* = f(x*), х*<=Х*, П = Нх;), х^ЕХё; б) если существует х°: gt (х°) < 0, i = 1, ..., т,то XI непусто и ограничено при любых £г(х°), г = 1, ..., пг, и А (Хе, Х*)->0, fe*->r при 8->0. Доказательство. Множество А'* можно записать в виде X* = {х: gt(x)s^0, 1 = 0, 1, ..., m}, где go(x) = f(x) — f*. В со- ответствии с леммой 11 множество Хе — {х: £<(х)^8/, I — = 0, 1, ..., т} (где 8о — 0 в случае а) и е0 — f(x°) — f* в слу- чае б)) является ограниченным и непустым. Но минимизация f(x) на 8е эквивалентна минимизации f(x) на Хе. Множество Хе по доказанному ограничено и непусто, в силу выпуклости и непрерывности Дх) и gi(x) оно выпукло и замкнуто. Поэтому минимум f(x) на Хг достигается, т. е. Х*г непусто и ограничено. Поскольку f(x) непрерывна в окрестности X*, то получаем Записав Хе в виде XI — {х: £(-(х)^еь i = 0, 1.т}, где 8o = fe —Г и вновь применяя лемму 11, получаем, что А(х;, х*)->о. ▲ Мы не останавливаемся на других результатах об устойчиво- сти (сильная устойчивость решений, устойчивость по отношению к возмущениям минимизируемой функции, устойчивость множите- лей Лагранжа, более общие виды возмущений и т. д.). Отметим лишь, что при исследовании подобных проблем очень полезна бывает теорема двойственности. Пусть, например, вместо задачи (22) рассматривается возмущенная задача minf(x), gz(x)^8z, i=\,...,m, xeQ. (55) Составим для нее функцию Лагранжа Д (х, у) = f (х) + (у, g(x) — &) = L (х, у) — (е, у) (56) и двойственную задачу max фе (у), фе (у) = inf Д (х, у) = ф (у) — (в, у). (57)
240 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Таким образом, проблема свелась к исследованию устойчивости двойственной задачи при возмущении целевой функции. Упражнение. 12. Рассмотрите пример в R2, где исходная задача: minxi, —х: 0, воз- мущенная: min (xj 4-81X2), —X[ — 82X2^0. Убедитесь, что в исходной задаче решение существует (х| = 0, х) произвольно), а в возмущенной задаче при 81 =тй 8г решения нет. § 2. Нелинейное программирование (теория) Ниже рассматривается общая задача нелинейного програм- мирования min f (х), £г(х)<0, 1=1, ...,r, (1) gi(x) = 0, i = r + 1, . .., tn, где все функции предполагаются дифференцируемыми, но не обязательно выпуклыми. 1. Необходимые условия минимума. Для произвольной допу- стимой точки х* введем множества индексов /* = {/: = 1=1, ..., г), / = {i: §Дх‘) = 0, /=1, (2) характеризующих активные ограничения (/* относится к нера- венствам, I — ко всем ограничениям). Теорема 1 (Каруш — Джон). Пусть х* — точка локального минимума в (1), а функции f(x), gt(x), i = 1, . .., m, непрерывно дифференцируемы в окрестности х*. Тогда найдутся числа уо, y*i, i е I, не все равные 0, такие, что уо^О, у/^0, 1^.1*, и «/oVf(x*) + Z i/iVg,(x*) = 0. (3) i <= I Доказательство. Можно предположить, что Vg/(x*), 1 = г + 1, ..., т, линейно независимы, иначе утверждение тео- ремы тривиально (можно взять уо = О, yf = O, ief). По- строим два множества в R'”+!, причем будем обозначать компо- ненты ге Rm+! через {г0, Zi...zm}: A = [zs R"1*1: z0 = (Vf (x‘), s), zz = (Vgz (x*), s), iel, s e R'!}, В = {z e Rm+1: zQ < 0, zt < 0, i e Г; z( = 0, i = r + 1, .... m}. Покажем, что эти множества не пересекаются. Пусть это не так, тогда найдется se R'1 такое, что (Vf (х*), s) < 0, (Vg'z (х*), s) < 0, 1еГ, (4) (Vgi (х’)> s) = 0, 1 = г + 1, ..., пг.
§ 2. НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 241 По теореме Люстерника (теорема 3 § 1 гл. 8) найдутся точки Х\ такие, что g,(xj.) = 0, i — г 4- 1, ..., т, Х\ = х* + Xs -|- о (X). Тогда в силу (4) f (ч) = f (х*) + X (Vf (х*), s) + о (X) < f (х*) при достаточно малых X > 0. С другой стороны, по той же при- чине g((x%)<0 при i е I* и достаточно малых X >- 0. Наконец, gi(4)<0 при 1ё/и малых X в силу непрерывности g/(x) и того факта, что £«(х*)<0, 1ё=1. Итак, точка Хк при малых Х>0 удовлетворяет всем ограничениям, и для нее f(x%) < f(x*), что противоречит определению локального минимума. Следова- тельно, А и В не пересекаются. Множества А и В очевидным образом выпуклы и непусты. По теореме отделимости найдется y*eRm+1, у* =£ 0, такое, что (у*, z) 0, z е А, (у*, z) <g. 0, z В (в правой части неравенств можно взять 0, так как А и В конусы). Обозначим компоненты у* через «/о, У*..У'щ- Тогда неравенство (у*, z) 0 для всех z^A означает, что ?J(vf(4s)+ I уИШП s) + Z,уХ>о для всех sgR" и всех zt <= R’, i ё= I. Это возможно лишь тогда, когда y^f (х*) + £ y^Vgi (О = 0 и у* = 0 при i ё /. i s 1 Наконец, поскольку для всех z е В (У*, z} = у гй + Z У>г<0 i s 1* при любых Zq < 0, z; < 0, 1<^Г, то Уо^О, у*^0, 1^Г. д Другой путь доказательства теоремы указан в упражнении 2. Нас будут интересовать условия (они называются условиями регулярности), при которых можно гарантировать, что у* 0. Так как у* определены с точностью до положительного мно- жителя, то без ограничения общности можно тогда считать у‘=1. Иначе говоря, необходимое условие экстремума приоб- ретает вид ^(х‘, у*) = 0, у*>0, l-е Г, (y\g(x*)) = 0, (5) L (х, у) = f (х) + (у, g (х)), у* = (у;.ут), = .....gm(x)). (6) Функцию L(x, у) мы по-прежнему будем называть функцией Лагранжа, числа у*, /=1.......т— множителями Лагранжа. Простейшее из условий регулярности имеет следующий вид: Условие регулярности А: векторы Vgi(х*), i^.1, ли- нейно независимы.
242 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Теорема 2. Пусть выполнены условия теоремы 1 и условие регулярности А. Тогда найдется y*^Rm, для которого выпол- няется (5). Доказательство немедленно следует из (3), так как предпо- ложение z/j = 0 противоречит условию регулярности А. ▲ Условие А является довольно ограничительным и не всегда выполняется. Условие регулярности Б: векторы ¥gi(x*), i = = r-f- 1....m, линейно независимы, и найдется вектор s° е R" такой, что (Vgi (х*), s°) = О, i = г + 1, ..., пн, (Vgi (х*), $°) <0, < е Г. Иначе говоря, найдется элемент из касательного подпро- странства к ограничениям типа равенств в точке х*, который ведет строго внутрь каждого из мно- жеств §Дх)^0, / е 1* (рис. 37). В частности, если функции gi(x), i — = 1, ..., пг, выпуклы, а ограничения типа равенств отсутствуют и выполня- ется условие Слейтера (23) § 1, то, взяв $° = х° — х*, мы получаем, что выполнено и условие Б. Условие Слей- тера удобно тем, что не требует зна- ния решения х*. Теорема 3. При замене условия А на условие Б утверждение теоремы 2 остается справедливым. Доказательство. Предположим, что уо=О и умножим (3) скалярно на $°. Тогда получаем Е ^(Vgz(x‘), $°) = 0, i s/* что в сочетании с условиями (Vgz (х*), $°) > 0, у*^0, i дает у\ — 0, i е Г. Поэтому (3) переходит в У, yl Vgi (х*) = 0, у* не i=r+l все равны 0, что противоречит линейной независимости Vg\(x*), i — г + 1, ..., пг. к. Упражнения. 1. Сопоставьте доказательство теоремы 1 с первым доказательством пра- вила множителей Лагранжа (см. § 1 гл. 8). Какое утверждение использова- лось там вместо теоремы отделимости? 2. Докажите теорему 1 по схеме, использующей штрафные функции (ср. с третьим доказательством теоремы 2 § 1 гл. 8). (Указание. Введите Gr m ч gz (х)2+ + У, gt (х)2 ) + || х — х* ||2, покажи- =1 г=г+1 / те, что xk—точка минимума Д(х) на Q = {х: ]|х —х*|| С е} — для больших К. лежит внутри Q, воспользуйтесь необходимыми условиями минимума без Рис. 37. Условие регулярно- сти Б.
§ 2. НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 243 ограничений, т. е. V/>(xs) = 0, и перейдите к пределу при К->оо. Покажите, что если точка минимума х* локально единственна, то член ||х— х*||2 в f&(x) можно отбросить). 2. Достаточные условия минимума. Оказывается, в некото- рых случаях можно утверждать, что х* является решением, поль- зуясь только первыми производными и не предполагая выпукло- сти задачи. У этого результата нет аналога ни в задачах безус- ловной минимизации, ни в задачах с ограничениями типа ра- венств, но он близок к условию острого минимума (см. § 1 гл. 7). Теорема 4 (достаточные условия I порядка). Пусть х* допустимая точка, функции f(x), gi(x), t=l, ..., пг, диффе- ренцируемы в х*, число активных ограничений равно п, а их гра- диенты (т. е. Vgt(x*), i g= /) линейно независимы. Пусть най- дутся числа у], t е I, такие, что у\ >0, t е Г, и W*)+ £ (**)== 0. (7) ie) Тогда х* — точка локального минимума в задаче (1). Доказательство. Возьмем произвольную последователь- ность допустимых точек xk^-x\ и пусть seR", ||s|| = 1, — пре- дельная точка последовательности векторов (xk — х*)/^xk — х*||. Тогда из дифференцируемости g/(x), ( = г4~1, ..., tn, в точке х* следует: 0 = gi (xfe) = gi (х*) + &gi (x*), xk - x*) + о (xk - x*) - = (V^(x*), x*-x*) + o(x*-x*). Разделив на ||xft— x*|| и переходя к пределу, получаем (Vg7 (х*), «) = 0, i = г + 1, ..., m. (8) Совершенно аналогично (V^(x*), s)<0, 1^Г. (9) Умножим равенство (7) скалярно на s и используем (8): о=(Ш s) +4 (10) Величина (Vg; (х*), s) не может быть равна 0 для всех I е Г, так как тогда вектор s =^= 0 был бы ортогонален к п линейно независимым векторам в Rre. Поэтому <p(s) — min (Vg; (х*), s) < 0 в силу (9). Введем множество S={s е Rn: || s||= 1, (Vg, (х*), s) = 0, I —г + 1, ..m; (Vgz(x*), s)<0, i I*}. Тогда maxcp(s) = = — e < 0 в силу непрерывности и отрицательности <p(s) на S и компактности S. Учитывая, что у1 > 0, 1^Г, из (10) получаем (Vf(x*), s) — — S y'i^g^, s)>eminz/; = 2a>0 i e i* is/*
214 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ для любых s, являющихся предельными точками (xk— х*)/|| xk — х* || при допустимых xk, xk^>x*. Поскольку / (xk) = f (х*) + II xk - x* II (vf (x‘), (Xk - x‘)/|| xk - x*II) + 0 (xk - x‘), то справедливо неравенство f 0?)> f (x‘) + all x" - || (ID для всех допустимых xk, достаточно близких к к*. Таким обра- зом, х*— точка локального минимума. А Обратим внимание, что в действительности мы доказали (11), т. е. что х* — точка острого минимума (ср. с § 1 гл. 7). Для простейшей одномерной задачи min/(x), xeR1, х^О (12; теорема 4 утверждает, что если f (0)> 0, то х* — 0 — точка ми- нимума. Этот факт геометрически очевиден (см. рис. 30). Воспользоваться достаточными условиями первого порядка не всегда удается, так как теорема 4 применима лишь тогда, когда число активных ограничений равно размерности простран- ства. Например, она заведомо не работает, если общее число ограничений меньше п. Теорема 5 (достаточные условия II порядка). Пусть х* — допустимая точка, функции f(x), g;(x), i=l, ..., m, дважды дифференцируемы в х*. Пусть для некоторого у* е Rm выполня- ется (5) и для всякого s =/= 0, для которого (Vg/(x), s) = 0, (Vg;(x‘), s) = 0, (WA s)>0, Ie=[\ y't>0, i~r 4- 1, ..., m, ier, yt = 0, (13) выполняется неравенство (Lxx(x*, у*) s, s) > 0. (14) Тогда x* — точка локального минимума в задаче (1). А 3. Единственность и устойчивость решения. Теорема 6. Пусть выполняются условия теоремы 4 или теоремы 5. Тогда х* — локально единственное решение. Действительно, в условиях теоремы 4 было доказано нера- венство (11), из которого и следует единственность решения. Аналогичным образом можно показать, что в условиях теоремы 5 справедливо либо условие (Vf(x*), s) > 0, либо условия (Vf(x*), s) = 0, (V2f(x*)s, s)> 0, где s имеет тот же смысл, что и в теореме 4. Отсюда нетрудно получить нужное утвержде- ние. А Представляет интерес также вопрос об единственности мно- жителей Лагранжа.
§ 2. НЕЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 245 Теорема 7. Пусть выполнены условия теоремы 2. Тогда множители Лагранжа определяются однозначно. А Этот результат очевиден — предположение о неединственно- сти противоречит условию регулярности А. Как мы уже отме- чали в § 1 в связи с условием Слейтера, из условия регулярно- сти Б не следует единственность множителей Лагранжа. Исследуем устойчивость решения по отношению к разного рода возмущениям. Первый результат демонстрирует инвариант- ность решения при возмущениях целевой функции, если выпол- нено достаточное условие первого порядка. Теорема 8. Пусть выполнены условия теоремы 4. Тогда точка минимума в задаче min [f (х) + ef ] (х)], XSQ (15) Q = {x: gf(x)<0, Z=l, gf(x) = 0, г = гД-1....m} (где fi (x) дифференцируема в x*) при достаточно малых е > О совпадает с х*. Доказательство. В силу неравенства (11) х* является точкой острого минимума в задаче (1). Аналогично теоре- ме 8 § 1 гл. 7 она не меняется при малых возмущениях мини- мизируемой функции. ▲ Перейдем к изучению более общей проблемы устойчивости. Здесь и в дальнейшем понадобится следующее понятие. Назо- вем точку х* е R” невырожденным решением задачи (1), если: а) функции f(x), gi(x), i— 1, ..., m, дважды дифференци- руемы в окрестности х*; б) точка х* является допустимой, для нее множества /* и / определены в (2); в) выполнено условие регулярности А, т. е. \gi(x*f, i е 1, ли- нейно независимы; г) выполнено достаточное условие второго порядка и усло- вие строгой дополняющей нежесткости, т. е. найдется вектор у* такой, что Ь'х(х*, у*) = 0, у*>0, 1е=П-, у; = 0, 1^Г, 1<г<г, (16) а для всякого s =0= 0, для которого (Vg,(x*), s) = 0, i^I, (17) выполняется неравенство (LL(x\ /)s, s)>0. (18) Для такой точки выполнены условия теоремы 5, так что она действительно является точкой минимума. Более того, она ло- кально единственна (см. теорему 6), а множители Лагранжа у* определены однозначно (см. теорему 7).
246 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Для невырожденной точки минимума вопрос об устойчивости может быть решен в наиболее общей формулировке. Рассмотрим возмущенную задачу min (f (х) ф- 80fi (х)), l=\,...,r, (19) gf(x) = ef, z = r+ 1, ..m, где fi(x) — дважды дифференцируемая в окрестности х* функ- ция. Обозначим через е вектор в Rm+1 с компонентами е0, ..., ет. Теорема 9. Пусть х* — невырожденное решение (1). Тогда для достаточно малых е существуют хе, ys — решение задачи (19) и соответствующие ему множители Лагранжа. При этом хе—>х*, Уе->У* при е—>0, (20) причем хг, уг дифференцируемы в 0 и для <p(e) = f(xe) <3<р (0)/<?80 = 0, ^ср(0)/<9ег == z/7, (21) Наметим кратко доказательство. В силу необходимых усло- вий экстремума в точке xs (если она существует и множество активных ограничений в ней то же, что в х*) должны выпол- няться равенства Vf(xe)+ £ ysi Vgt (хе) + е0 Vfi (хе) = 0, ie/ (22) ?г(Хг) = 8ь !’е/. Эту систему уравнений относительно г — {х, yh i е 1} можно записать в виде /?(г) = Т(2)8. (23) При этом z* — {х*, у*, i е 1} удовлетворяет уравнению 7? (г*) =0. Матрица Якоби R'(z*), как легко проверяется непосредственным подсчетом, имеет вид R'W = , тГГ ( * / ^хх (х ’ I Vg (x’) (24) где Vg(x*)— матрица, строками которой являются Vg/(x*), I е /. В силу леммы 2 § 1 гл. 8 и условия г) в определении невырож- денной точки минимума матрица R'(z*) невырождена. В соот- ветствии с теоремой 3 § 3 гл. 2 система (23) имеет решение ze и ze = z* — R' (z*)-17'(z*)e + o(s). (25) Отсюда следует, что для достаточно малых е найдется решение хе, ys, i&I, системы (23), дифференцируемое по е. При этом будет уе > 0, так как yi > 0, i <= I*. Можно пока-
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 247 зать, что при этом выполняются и достаточные условия второго порядка (в силу их выполнения в х* и соображений непрерыв- ности). Точка хе — допустимая, поскольку она удовлетворяет всем ограничениям (ограничениям gi(x)— 24, — по опре- делению хе, ограничениям §,<(х)^е1-, i 7, так как §,г(х*)<0 для таких t и из соображений непрерывности). Итак, хе— реше- ние задачи (19), а уе — соответствующие множители Лагранжа. Далее, в силу дифференцируемости хе: д (е) — д (0) — f (хЕ) — tn — f (xf) = (yf (x*), Xe — x*) + o (e) = — £ (y* (x‘), x8 — x‘) 4- + o(e). Используя формулу (25) для ze — z* и проделав тре- буемые выкладки, получаем формулу (21) для Vq>(0). ▲ Выражения (21) позволяют трактовать множители Лагранжа как коэффициенты влияния ограничений. В самом деле, они по- казывают, что скорость изменения целевой функции при возму- щении какого-либо ограничения равна соответствующему мно- жителю Лагранжа. Чем -больше последний, тем больше чувстви- тельность по отношению к данному уравнению. Наоборот, для неактивных ограничений yi = 0, что соответствует факту нечув- ствительности решения к возмущению этих ограничений. Упражнения. 3. Докажите теорему 8 иначе — покажите, что уравнение (х*, у) = 0 (где Ls(x, у)—функция Лагранжа для (15)) имеет решение ув при доста- точно малых е, причем yBi >0, is 1*. Тем самым в точке х* выполняется достаточное условие экстремума для задачи (15). 4. Докажите, что если выполнены все требования в определении невы- рожденного минимума, за исключением (18), а число активных ограничений равно п, то выполняется и (18), так как из (17) следует s — 0. При этом минимум является острым, т. е. f (х)f (х*) + сс||х — х*||, а > 0, для всех допустимых х, достаточно близких к х*. § 3. Методы выпуклого программирования Рассмотрим сначала задачу выпуклого программирования вида min f (х), х <= Rn, gi (х)<0, i — 1, ..., tn, где f(x), gi(x) — выпуклые дифференцируемые на R'! функции, и остановимся лишь на методах, специфических для данного класса задач. При этом нужно иметь в виду, что к задаче (1) можно применять как методы, рассчитанные на более общие задачи (§ 4), так и методы, рассчитанные на «простые» ограни- чения (гл. 7). Относительно способов классификации методов можно повто- рить сказанное в § 2 гл. 8. В данном случае методы можно
248 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ делить и по тому принципу, дают ли они последовательность до- пустимых точек (т.е. удовлетворяющих ограничениям gt(x)^0, i — 1, т), или нет. Первые часто называют методами воз- можных направлений. 1. Методы возможных направлений. Пусть хк — некоторая допустимая точка. Определим для нее «е-активные» ограниче- ния, т. е. такие, которые с точностью до параметра е* Д? 0 обра- щаются в равенства: (2) Линеаризуем минимизируемую функцию и е-активные ограни- чения в точке xk и найдем направление sk, которое является допустимым для линеаризованной задачи и одновременно при- водит к наиболее быстрому убыванию функции. Иными словами, выберем в качестве sk решение вспомогательной задачи тахг, (Vf(х*), s)< — z, (УёЛх11), s)^ — z, z е= (3) где z e R1 — дополнительная переменная, a Sk— некоторое «простое» ограниченное множество, которое вводится для того, чтобы данная задача заведомо имела решение. Например, мож- но взять в качестве Sk некоторый шар = || s II2 < Р1} (4) или куб Sfe=={s: |з/Крь z’= 1, ..., п}. (5) Эти способы называются нормализациями Ml и М2 соответ- ственно. Далее делается шаг Д.АИ-! _ xk _|_ ykSk^ (6) где длина шага ул > 0 выбирается так, чтобы в точке хк+х все ограничения не нарушались, a принимало бы наименьшее значение. В новой точйе хк+1 процедура повторяется. Параметр е/г можно регулировать по-разному, нужно лишь, чтобы было ек > 0, е*->0. Если взять = 0 (т. е. учитывать лишь активные в точке xk ограничения), то метод «не чувствует» ограничений, которые в точке xk выполняются «почти» как ра- венства (т. е. |g<(x*) I мало), а их присутствие резко ограничи- вает длину шага из х*. Поэтому может произойти «застревание» метода в окрестности точки, не являющейся решением. Одним из первых конкретных алгоритмов типа возможных направлений был метод проекции градиента Розена. В нем де- лается шаг по проекции градиента Vf(x*) на многообразие, за- даваемое линеаризацией активных ограничений. Следует отли-
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 249 /I Рис. 38. Метод проекции градиента (точки х°, х1, Xs, ...) и метод Розена (точки 2» 2> 22 чать такой метод от описанного выше (§ 2 гл. 7) метод проекции градиента. В последнем производится движение по градиенту, а затем проектирование на допустимое множество — это не то же, что движение по проекции градиента на грань допустимого мно- жества (см. рис. 38, где показан шаг каждого из методов для случая линейных ограничений). Не будем приводить теоретические результаты, связанные с обоснованием метода возможных направлений. Во-первых, их доказательство довольно громоздко (хотя идейно и не сложно). Во-вторых, скорость схо- димости метода может быть мала даже для «хо- роших» задач,что связано с введением параметра е* и необходимостью оста- ваться внутри допустимо- го множества. В-третьих, определенные трудности представляет выбор на- чальной допустимой точ- ки. Наконец, в настоящее время известны методы, свободные от указанных выше недостатков и в то же время не более слож- ные. К описанию одного из таких методов мы и переходим. Упражнения. 1. Рассмотрите метод проекции градиента и условного градиента (§ 2 гл. 8) для задач с линейными ограничениями как конкретизации метода воз- можных направлений. 2. Покажите, что задача (3), (4) эквивалентна задаче квадратичного про- граммирования min[—z + ZfelM2], &f(xk), s)< — z, (xft), s) < — z, i<=Ik, при некотором X* 0. 2. Метод линеаризации. Линеаризуем все ограничения в точ- ке xk, решим вспомогательную задачу квадратичного програм- мирования min [(Vf (А х - xk) + (2у)-11| х - xk ||2], gi (xk) + (Vgi (xk), x — A < 0, i = 1, . .., tn, и ее решение возьмем в качестве xk+I (ср. с аналогичным подхо- дом к задаче с ограничениями типа равенств в § 2 гл. 8). Теорема 1. Пусть множество X* решений задачи (1) не- пусто, функции f(x), gt(x) выпуклы и дифференцируемы, а их градиенты удовлетворяют условию Липшица, и выполняется
250 ГЛ. 9 ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ условие Слейтера. Тогда найдется у > 0 такое, что при 0<.у<. у метод (7) сходится к точке х*(=Х*. Если при этом f(x) сильно выпукла, то ||л* — х*|| cqk, 0 q < 1. ▲ Опустим доказательство этого результата, так как оно до- вольно громоздко, а локальный вариант теоремы 1 (при не- сколько иных предположениях) будет доказан позже для более общей задачи (см. теорему 1 § 4). Отметим, что если ограниче- ния отсутствуют, то метод (7) переходит в градиентный метод безусловной минимизации f(х), а теорема 1 совпадает с теоре- мами 1 § 1 гл. 6 и 2 § 4 гл. 1. Метод (7) довольно близок к ме- тоду возможных направлений с нормализацией VI, но, вообще говоря, не совпадает с ним (ср. с упр. 2). В частности, получае- мые в (7) точки не обязаны быть допустимыми. В описанном выше варианте метода производилась линеари- зация всех ограничений. В действительности можно учитывать лишь «наиболее нарушенные» ограничения. Именно, задавшись некоторым е > 0, выберем 4 = O’: max gt(xk)+ — е) (8) 1 < i < tn и в качестве xk+i возьмем решение задачи min[(Vf(xft), х — xft) + (2y)"1||x — х*||2], gi (xk) + (Vgt (xk), x — x*)<0, ie=Ik. Для метода (8), (9) справедливы утверждения, аналогичные теореме 1. В то же время эта модификация метода более эко- номна — на каждом шаге решается задача меньшей размерно- сти, чем в варианте (7). Способ выбора постоянного параметра у в (7) и (9), конечно, не является единственно возможным. Существуют конструктив- ные приемы подбора yk, аналогичные алгоритмам регулировки длины шага в градиентном методе безусловной минимизации (10) § 1 гл. 3. Наконец, можно использовать другие вычислительные схемы метода (7) или (9). Так, преобразуя минимизируемую функцию в (7), можно записать метод (7) в виде xk+i = PQk(xk — у V/ (х%)), Qk = {*: gi (xk) + (Vg-( (Л x — x*)< 0, I = 1, ..., m}. Отсюда, в частности, видно, что для задач с линейными ограни- чениями метод линеаризации совпадает с методом проекции гра- диента (см. § 2 гл. 7). С другой стороны, если записать двой- ственную задачу к (9), то (см. (12) § 4 гл. 10) она будет иметь ВИД min Г-J Il Vf (xk) + У уг7£г(х*)Г— У у^ (xk) 1. (И)
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 251 Обозначим ее решение ук, i е Ik, и построим х4+' = х4 — у (vf (хк) + г £ У* Vgi (xk)y (12) минимума квадратичной Рис. 39. Расходимость градиент- ного метода отыскания седловых точек: а) большой шаг, б) малый шаг. (13) В соответствии с (13) § 4 гл. 10 точка хк+1 будет та же, что и в методе (9). Преимущество такого подхода в том, что вспомогательная задача (11) сводится к отыска функции на R+, который может быть найден, например, методом сопряженных градиентов за ко- нечное число шагов (см. § 3 гл. 7). 3. Двойственные методы. В схеме (11), (12) метода линеари- зации фигурируют как прямые, так и двойственные переменные. Известно много методов такого типа. По-видимому, наиболее простой в идейном смысле схе- мой пересчета прямых и двойст- венных переменных является гра- диентный метод Эрроу — Гурвица — Удзавы (ср. с (6) § 2 гл. 8): xk+i = хк — yL'x (хк, ук) — хк — у (хк) 4- £ ук (xk) yk+i = [yk + yL'v(xk, г?)] + = [yk + Yg(xft)]+. В нем для отыскания седловой точки функции L(x, у) на R"X R+ (а этому эквивалентна задача (1), см. теорему 3 § 1) делается градиентный шаг минимизации по х и шаг метода про- екции градиента по у. Однако метод (13) может и не сходиться. Рассмотрим простейший пример — одномерную задачу линейного программирования minx, xeR!, —-х<0. (14) В ней х* = 0, у* ~ 1, а метод (13) принимает вид хк+1 — хк — у (1 — ук), yk+l— (yk — yxk)+. (15) Траектория такого процесса показана на рис. 39. Видно, что и при малых у нет сходимости (даже в окрестность х*, у*). Если предположить, что f(x) сильно выпукла, то такие эф- фекты не наблюдаются. Однако вопрос о строгом обосновании метода и в этом случае не прост. Стандартная техника доказа- тельства, основанная на введении функции Ляпунова вида |]х — х*||2 Н- \\у — у*\\2, здесь не работает (см. упр. 4). Этим путем удается доказать лишь более слабое утверждение — о том,
252 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ что найдется подпоследовательность хк, сходящаяся к %*. Од- нако ценность такого результата невелика, так как остается не- ясным, как выделять упомянутую подпоследовательность. Дело в том, что соответствующая подпоследовательность ук не обя- зательно сходится к у*, так что величина L'x(xk, ук) не стремит- ся к 0 и не может служить характеристикой точности решения. Другой вариант метода предполагает, что вместо одного гра- диентного шага проводится полная минимизация L(x, ук) по х (ср. с (8) § 2 гл. 8): xfe+i = argmin L (х, yk), yk+' = [yk + yg (xfe+1)]+. (16) X Этот метод может интерпретироваться как метод проекции гра- диента для двойственной задачи. В самом деле, как мы видели (в § 1), двойственная задача имеет вид тахф(у), ф(у) = min L (x, у), при этом, если f(x) сильно выпукла, то $(у) вогнута, всюду определена и дифференцируема, причем градиент ф (у) удов- летворяет условию Липшица и равен L'y(x(y), у), гдех(у) = = argminZ.(x, у) (упр. 10 § 1). Поэтому (16) можно записать X в виде g' + 1 = [yk + VV$(yk)]+ (17) и применить теорему 1 § 2 гл. 7 о сходимости метода проекции градиента. Область применимости методов множителей Лагранжа мож- но расширить, а скорость сходимости повысить, если от обычной функции Лагранжа перейти к модифицированной. Составим функцию М (х, у, K) = f (х) 4- ~ || {у 4- Kg (х))+ ||2 -~\\У II2, (18) где К— некоторый параметр (ср. с (14) § 1 гл. 8). Приведем без доказательства основные ее свойства. Лемма 1. Пусть f(x), gi(x) выпуклы, К > 0. Тогда: а) М(х, у, К) выпукла по х и вогнута по у, ( L (х, у), если и У 0, б) lim М (х, у, К) = \ к-»о (. —- оо в противном случае', в) множества Х*Х У* седловых точек М(х,у, К.) на R^XR"1 и L(x, у) на RreXR'+ совпадают-, г) если [(х), gi(x) дифференцируемы, а Х*ХУ* непусто, то (М'х (х, у, К), х - х*) - (М'у (х, у, К), у - у*) < - К || М'у (х, у, К)||2 (19) при всех х s R”, у е Rm, х* е А’*, Р. д
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 253 Рассмотрим аналог метода (13), в котором L(x, у) заменена на М(х, у, К) (ср. с (9) § 2 (гл. 8): ++1 — хк — уМ'х(хк, ук, К), Ук+1 = ук + уМ'у (хк, ук, К)- (20) Теорема 2. Пусть f(х), gi(x) выпуклы (причем f(x) сильно выпукла), дважды дифференцируемы, их градиенты и вторые производные удовлетворяют условию Липшица. Пусть для ре- шения х* и множителей Лагранжа у* справедливы условия-. Vgi(x*) линейно независимы при i <= Г и y*i>Q при 1^.1*, где I* = {i: gi(x*) — 0}. Тогда для любых х°, у° найдется у > 0 та- кое, что при 0 < у < у метод (20) сходится к х*, у* со скоростью геометрической прогрессии. Наметим краткую схему доказательства. Введем функцию Ляпунова V(x, £/) = [|х-Л12 + 11 г/-Л12-К(М(х, У, К)-М(х\ у\ к)). (21) Используя неравенство (19), можно показать, что V (xfe+1, -yk+i) < V (xk, ук)-Ц || М'х (хк, у\ /<)||2 +1| М'у (хк, ук, К) ||2), > 0. Отсюда следует сходимость метода. Поэтому для достаточно больших k будет г/' = 0 для I ё=1*. При этом итерационный про- цесс совпадает с методом модифицированной функции Лагранжа для задачи с ограничениями в форме равенств min f (х), gi (х) = 0, / <= /*. (22) Но для последнего в теореме 3 § 2 гл. 8 была доказана локаль- ная сходимость со скоростью геометрической прогрессии. А Аналогом (16) является метод, в котором на каждом шаге ищется безусловный минимум модифицированной функции Ла- гранжа (ср. с (11) § 2 гл. 8): ++1 = argmin М (х, ук, К), yk+l = yk + Kg (xs+‘). (23) X Теорема 3. Пусть выполнены условия теоремы 2. Тогда для всякого у° JJs 0 найдется К такое, что при К > К. метод (23) сходится к решению со скоростью геометрической прогрессии со знаменателем О(1//<). Вновь ограничимся лишь набррском доказательства. В ка- честве функции Ляпунова целесообразно взять V(у) — ||«/ — z/*||2. Тогда W+‘)< W)HI^+1-^II2. (24) Отсюда следует сходимость метода. Локальное поведение метода такое же, как для соответствующего алгоритма решения задачи
254 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ (22). Используя результат о скорости сходимости последнего (теорема 4 § 2 гл. 8), получаем оценку скорости сходимости, приведенную в теореме 3. А Метод (23) может рассматриваться как один из наиболее эффективных подходов к решению задач выпуклого программи- рования. Он позволяет использовать мощные алгоритмы безус- ловной минимизации гладких функций (гл. 3). В то же время в нем нет недостатков, свойственных методу штрафных функций (см. ниже п. 4) — штрафной коэффициент К не возрастает, по- этому обусловленность вспомогательных задач не ухудшается от итерации к итерации. Наконец, по сравнению с методом (16), основанным на обычных функциях Лагранжа, метод (23) обла- дает существенно более высокой скоростью сходимости, так как знаменатель геометрической прогрессии может быть сделан ма- лым за счет выбора К. Впрочем, здесь нужно соблюдать неко- торый компромисс—ведь при слишком большом К усложня- ются задачи безусловной минимизации (они становятся плохо обусловленными). Наконец, упомянем еще об одном методе, в котором итера- ции по прямым и двойственным переменным ведутся следующим образом: Ук = argmin IIV/ (/) -ф £ (xfe) t^ik h = {i- g/(^)>~e}, Xk+l Xk__ у k (yf £ yk yg. Он называется методом одновременного решения прямой и двой- ственной задач. Его смысл достаточно прозрачен: для точки xk находятся такие приближения yk двойственных переменных, ко- торые минимизируют невязку в условиях экстремума. Это при- ближение используется для уточнения прямых переменных (именно, делается шаг градиентного метода минимизации по х функции L(x, yk)). Метод (25) близок к схеме (11), (12) метода линеаризации. С другой стороны, можно проверить, что мы по- лучим (25), если в методе возможных направлений с нормали- зацией Ml (3), (4), (6) перейдем к двойственной задаче. Упражнения. 3. Покажите, что в методе (15) для примера (14) будет (х441 —х*)2 + + (ys+1 — У*)2 > (хк — я*)2 + ('У,‘ — У*)2 при любых Xs, ук > 0 и любом у>0. 4. Выпишите метод (13) для задачи в R1: minx2, х 0, и убедитесь, что Vk — (хк— х*)2+ (ук— у*)2 не для всех хк, ук убывает монотонно при сколь угодно малых у > 0. 5. Докажите теорему 3, рассматривая (23) как метод градиента для ре- шения следующей двойственной задачи: max ф (у), где тр (у) — inf М (х, у, К). у eRm х
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 255 4. Методы штрафов и родственные им. Идеи метода штраф- ных функций, рассматривавшегося в § 2 гл. 8 для задач с огра- ничениями типа равенств, применимы и для случая ограничений в виде неравенств. При этом появляется значительно больше возможностей. 1°. Метод штрафов (ср. с (13) § 2 гл. 8): xk= argminf* М, X Ш /СН2\ = + Kk>o, xk->™. (6) «=1 Теорема 4. Пусть f(x), gi(x) выпуклы и конечны на R", множество решений X* задачи (1) непусто и ограничено. Тогда fk(x) выпукла, Xl = Argminh(x) 0, последовательность xk ограничена и все ее предельные точки принадлежат X*, причем f (xk) — f (x*), x* 6= X*. A Условие ограниченности X* существенно (см. упр. 6). При дополнительных предположениях метод (26) дает воз- можность получить и множители Лагранжа. Действительно, m о = Xfk (xk) = V/ (xk) + к Ygt (xk)+Xgt (xk). Поскольку xk —> x*, а в точке x* выполняется условие m W’) + Е^(О = 0, TO ДОЛЖНО быть Kgi (xk)+ -> у*. 2°. Метод барьеров: x4 = argmin^ (х), X ” ! (27) е*=>0’ efe">0- i = l Здесь минимум берется по х, для которых gi(x) < 0, i— 1,..., m. Этот метод называется также методом внутренних штрафов, так как, в отличие от (26) (метода внешних штрафов), штрафной член в (27) не равен 0 даже для допустимых точек и возрастает при приближении к границе изнутри. Теорема 5. Пусть f(x), gi(x) выпуклы и конечны, мно- жество решений X* задачи (1) непусто и ограничено и выпол- нено условие Слейтера. Тогда в методе (27) X*k = Argminfj,(x) =£ X Ф 0, функции fk(x) выпуклы, последовательность xk ограничена
256 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ и все ее предельные точки принадлежат X*, причем f(xk)i^ [* -- — f(x*), х* <= X*. А В методе (27) можно получить приближения и для множи- телей Лагранжа (упр. 7). Функция 1 /gt(х) в (27) может быть заменена на другие функции, например на log(—g,(x)). 3°. Метод сдвига штрафов. Регулировать штраф можно не только путем выбора штрафных коэффициентов, но и путем сдвига уровня штрафования: m Xk = argmin fk (x), fk (x) = f(x)+K £ W + ^)+> (28) где уровни Kt нужно увеличивать, если xk недопустимо, и умень- шать в противном случае. Например, можно взять = Kf + gt (х%), i = 1, . .., т. (29) Если сделать замену y^ — Kjdf, то обнаруживается, что метод (28), (29) переходит в (23). Итак, метод модифицированной функции Лагранжа (23) можно интерпретировать и как метод сдвига штрафов. 4°. Метод подбора f*. Если бы f* — min{) (х): gi(x) +5 О, i= 1, ..., пг} было известно, то задача (1) была бы эквива- лентна минимизации функции (f(x) — Г)2 + 11g (я)+112. Величину I* можно подбирать рекуррентно, решая задачи m xk = argmin fk(x), fk(x) = (f (x) — ffe)2 + X gi (x)2 (30) x i = 1 Ясно, что если />(xft)>0, то значение fk следует повысить. Одно из возможных правил пересчета fk таково: fk+l = fk + fk(xk)/(f(xk)-fk). (31) Теорема 6. Пусть f(x), gi (х) выпуклы и конечны, х* — ре- гулярная точка минимума задачи (1) и f0 < f*. Тогда в методе (30), (31) xk->x\ fk^f* и gi(xk)+/(f (xfe) ~fk) -> yl Z==l, A (32) Сравним описанные выше методы. Вид функций />(х) для каждого из них для простейшей задачи minx, xeR1, —х s+5 0 приведен на рис. 40. Метод штрафных функций (26) сходится при минимальных предположениях. Он сводится к безусловной минимизации диф- ференцируемой выпуклой функции на всем R”, в нем не тре- буется находить начальную допустимую точку. Некоторым его недостатком является то, что точки xk не удовлетворяют ограни- чениям, однако этот дефект легко устранить — если известна точка х° такая, что g/(x°)<0, i = 1, ..., m, то можно брать хй — XAx° + (1 — A*)x\ Kk — min {A: gi(Kx° + (1 — A)xft) 0, i —
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 257 == 1, т}, тогда являются допустимыми и сходятся к ре- шению. При этом f(x*):> f* f(xk), т. е. получаются двусторон- ние оценки точности решения. Более серьезен недостаток, при- сущий всем вариантам метода штрафов (ср. с. § 2 гл. 8), — пло- хая обусловленность функции fk(x) при больших К, что серьезно усложняет решение вспомогательной задачи безусловной мини- мизации в (26). Метод барьеров имеет, пожалуй, единственное преимущество перед методом штрафов — функция fk(x) в (27) более гладкая, Рис, 40. Вид вспомогательных задач безусловной минимизации: а) метод штрафов, б) метод барьеров, е) метод сдвига штрафов, г) метод подбора f*. чем в (26) (fk(x) в (26) лишь однократно дифференцируема). В то же время для сходимости (27) требуется условие Слейтера (иначе метод просто теряет смысл); нужно знать начальную точку х° такую, что gi(x°)<;0, i= 1, ..., m; при проведении процесса минимизации нужно следить за тем, чтобы точка не вышла из допустимой области. Последнее обстоятельство осо- бенно неприятно и не позволяет применять стандартные про- граммы безусловной минимизации. Впрочем, их можно модифи- цировать, изменив соответствующим образом процедуру опре- деления длины шага. Наконец, методу (27) присущи те же эффекты плохой обусловленности — функция fk(x) существенно по-разному ведет себя по разным направлениям (резко растет при приближении к границе и мало меняется при движении вдоль границы).
288 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Метод сдвига штрафов (28), (29), как мы видели, совпадает с методом модифицированных функций Лагранжа и обладает всеми его достоинствами: не требует роста штрафного коэффи- циента К и потому не приводит к плохо обусловленным зада- чам; позволяет увеличивать скорость сходимости за счет выбора К и т. д. К недостаткам можно отнести более жесткие условия, нужные для сходимости метода. Наконец, метод подбора f* (30), (31) обладает рядом привле- кательных черт — в нем нет каких-либо коэффициентов, стремя- щихся к 0 или оо, fk(x) всюду определена и т. д. Однако ему также присущ эффект плохой обусловленности даже для регу- лярных задач (см. упр. 8). Кроме того, он требует решения вспомогательных задач минимизации с большой точностью, по- скольку в нем приходится оперировать с малыми величинами f(x/t) — fk. Например, если fk > f*, то min fk (х) = 0, однако X из-за неизбежных ошибок точка хк будет найдена приближенно, и может оказаться, что f (хк) > и значение fk будет увеличено (тогда как в действительности его нужно уменьшить). Упражнения. 6. Рассмотрите задачу минимизации в R2: min xit — Xi + 1 «С 0, р2 (х, Q) й7 0, где Q = (х: х2 ^xf'.xi > О). Для нее X* — {х: х{ — 1, х2 1), функция g2(x)= р2 (х, Q) выпукла (как квадрат расстояния до выпуклого множества Q, см. упр. 2 § 1 гл. 5). Покажите, что при 0 < К 1 функция fk (х) (26) для этой задачи не имеет точки минимума. 7. Докажите, что в (27) для невырожденной точки минимума efe/g;(xfe)2-> * >Vi- 8. Рассмотрите задачу в R2: min х1(—xt < 0, (xt + 1 )2 + х| — 1 0, для нее х* = 0, f* — 0. Покажите, что функция ср (х) = (f (х) — f*)^_ + g\ (х)^_ + + g2(x)+ (возникающая в методе (30), (31) при fft = f ) имеет в точке х* вырожденный минимум (в частности, 32ср (0)/5х2 = о). 5. Методы для негладких задач. Ниже рассматривается за- дача minf(x), gt(x)^0, г=1, ..пг, x&Q, (33) где Q — выпуклое замкнутое множество в R", функции f(x), gi(x) выпуклы и конечны на R'1. При этом предполагается, что множество Q является «простым» в смысле гл. 7, a f(x) и gt(x), вообще говоря, недифференцируемы, и в произвольной точке >:eQ можно вычислить их субградиенты df(x), dgt(x). Ясно, что т ограничений gi(x)^ 0 эквивалентны одному g (х) < 0, g (х) = max gt (х), (34) 1 < i
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 259 где g(x) выпукла и в соответствии с леммой 11 § 1 гл. 5 ag-(x)=| Е ^dgi(x), л>о, X ^ = 1), I i е I (х) i е I (х) J I(x) = {i: g{ (х) = g (х)}. Рассмотрим следующее обобщение метода проекции субгра- диента: xfe+1 _ pQ (xk _ ykSky оо Yfe~*0, S Yfe = °°, k=0 ( df (xfe), если g (xfe) ‘C 0, ( dg(x'!‘), если g(xfe)>0. (35) Иначе говоря, делается шаг по проекции субградиента целевой функции, если точка xk допустимая, и по проекции субградиента нарушенных ограничений в противном случае. Теорема 7. Пусть множество Q ограничено и существует x°eQ, g7(x°)<0, t'=l, ..., m. Тогда все предельные точки последовательности xk в методе (35) являются решениями за- дачи (33). Доказательство. В силу предположений f(x), g/(x) не- прерывны на Q, допустимое множество замкнуто и ограничено, а потому решение существует. Пусть х* — любое из решений. Выберем е>0 и рассмотрим Se = {.teQ: f(x) f (х*) +е, g(x)^0}. Тогда на отрезке [х°, х*] найдется точка xeSe та- кая, что /(х) /(х*) + б, g(x) —б для некоторого 0 < б < е. Оценим расстояние от х*+1 до х. Имеем || xft+1 — х ||2 = II Pq (xk — YfeS*) — х ||2 < || xk — yksk — x ||2 = || xk — x ||2 — 2yk (sk, xk — x) + || s% II2- Поскольку субградиент непрерывной функции f(x) или g(x) ограничен на ограниченном множестве Q (лемма 8 § 1 гл. 5), то || sk ||2 ‘С с. Если xk ё Se, то либо g (хк) 0, f (xfe) ^f (х*) ф- е, либо g(xfe)>0, f (xfe) d f (x*) + e. В первом случае sk — df(xk), (s\ xk - x) = (df (xk), xk-x)^f (xk) -f(x)^ f (x*) + e - f (x*) - —• 6 = 6 — 6. Во втором случае s* = dg (xk), (s\ xk — x) = = (dg (xk), xk — x)^g (xk) — g- (x) > — g (x) > 6. Итак, если xk ё Se, то || xfe+1 — x ||2 < || xft — x ||2 — 2ayfe -ф a = min {6, e — 6} > 0. Стандартным образом (см., например, доказательство теоремы 1 § 3 гл. 5) отсюда следует, что это неравенство не может выпол- няться при всех k. Итак, для всякого е > 0 найдется х* е S£. Поскольку П56 = Х*, где X* — множество решений (42), то е>0 все предельные точки xk принадлежат X*. ▲
260 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Другой путь применения субградиентного метода к задаче (33) заключается в ее сведении к задаче безусловной миними- зации на основе следующей леммы. Лемма 2. Пусть выполняется условие Слейтера, а множе- ство решений X* задачи (33) непусто. Тогда X* совпадает с мно- жеством точек минимума функции m ф (х) = f (х) + К % gi (х)+ (36) i=i на Q при всех К> К= max yf, где у] — множители Лагранжа. Этот результат немедленно следует из теоремы Куна — Так- кера и формулы для сйр(х) (основывающейся на леммах 10 и 11 § 1 гл. 5). А Таким образом, можно выбрать достаточно большое К и при- менить метод проекции субградиента для минимизации ф(х): xft+‘ = Pq (xft — дф (xk)) = Г / m \ i PQ (xft) + К S Hu dgt (xft) j j , ( 0, g/(xft)<0, 1, gi(xk)>Q. Поскольку нижняя граница К для К обычно неизвестна, можно сделать этот параметр переменным, увеличивая его на каждом шаге [/ tn \ 1 Хк - Yfe ( df (х4) + Kk S Hu dg( (xft)) , Kfe-»OO. (38) \ j = l /J Описанные выше методы сходятся, естественно, не быстрее, чем субградиентные методы безусловной минимизации. При этом для больших К функция ф(х) (36) имеет сильно вытянутые ли- нии уровня, и ее минимизация затруднена. Поэтому трудно рас- считывать на эффективность подобных методов. Способы ускорения сходимости субградиентных методов, так же как и в задаче безусловной минимизации, связаны с исполь- зованием на k-n итерации информации, полученной на преды- дущих итерациях. Наиболее прямолинейный подход заключается в построении кусочно-линейной аппроксимации минимизируемой функции и ограничений. Пусть уже вычислены субградиенты в точках х1, ..., xk. Тогда функция f(x) может быть заменена выраже- нием max [f (xz) + (df (х1), х — xz)J, аналогично можно посту- пить с gt(x). Тогда исходная задача аппроксимируется еле-
§ 3. МЕТОДЫ ВЫПУКЛОГО ПРОГРАММИРОВАНИЯ 261 дующей: min2, f (х1)(df (х!), х — х!) ^z, j=l,...,k, (39) gt(xi) + (dgi(x’), х — ?)<0, г—1, ..., mJ =1,..., k,x <= Q, которая является задачей линейного программирования (если Q — многогранник). Ее решение может быть взято в качестве xft+1. Нетрудно убедиться, что в случае отсутствия ограничений gt(x) 0 этот метод совпадает с методом отсекающей гиперпло- скости, описанным в § 4 гл. 5. Можно сократить число ограни- чений во вспомогательной задаче (39), если все ограничения заменить одним g(x)s^0. Удобно взять g(x)~ max gt(x), 1 i т так как вычисление субградиента g(x) требует вычисления лишь одного субградиента gt(x) (именно, dg (х) = dg, (х), j = = argmax gt (х)). Есть и другие способы построения кусочно-линейных аппрок- симаций задачи выпуклого программирования. Кроме того, мно- гие методы, приведенные в § 4 гл. 5 для задач безусловной ми- нимизации (методы чебышевских центров, центра тяжести, ме- тоды с растяжением пространства и т. д.) переносятся и на за- дачи с ограничениями. Наконец, описанные выше в данном параграфе методы, ис- пользующие двойственные переменные, естественным образом обобщаются на негладкий случай — нужно лишь градиентный метод заменить на метод проекции субградиента. В частности, простейший алгоритм (13) принимает вид xfe+' = PQ [xk — ykdxL (x\ /)] = (40) ме- вы- [/ m \ 1 xk - vd df (xk) + X ytfdgt (xk) I , X i = 1 /j Ук+' = \yk + VkdyL (x\ yk)]+ = [yk + у kg (**)]+, oo Yfc-*0, £yfe==oo. fe=0 Используя тот же пример (14), нетрудно проверить, что тод (49) без дополнительных предположений типа строгой пуклости f (х) не сходится. Вопрос о сходимости метода до конца не решен. Если минимум L(x, у) похеО при всяком у <= сущест- вует и его легко найти, то можно применить аналог метода (16): == argmin L (х, yk), xeQ . оо yk+i=~[yk + ykg(yk)]+, у*->0, (41)
262 ГЛ. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Его интерпретация как субградиентного метода решения двойственной задачи max ф (z/), ф (у) — min L (х, у) (42) у > о х е= Q позволяет получить результаты о сходимости. К сожалению, в негладких задачах редко удается найти ми- нимум Е(х, у) по х в явном виде, что затрудняет применение метода (41) (а также его аналогов с заменой L(x, у) на М(х, у, /<)). Упражнения. 9. Исследуйте модификацию метода (35), в котором в качестве g(x) в (34) взято g (х) = gl (х)+. 1 = 1 10. Рассмотрите другие правила выбора длины шага в методе (35), ана- логичные описанным в § 3 гл. 5. Исследуйте их сходимость и проверьте, в каких случаях можно отбросить требование ограниченности Q. И. Проанализируйте метод типа (35), в котором sk = df (хк) при g(xk)^ —еп, sk = dg(xk) при g(x*) > —в», е» > 0, e«->0. 6. Обсуждение. В § 3 гл. 8 были указаны трудности, которые могут возникнуть при практическом решении задач с ограниче- ниями типа равенств. Посмотрим, в какой мере эти трудности присущи методам выпуклого программирования. Прежде всего, проблема многоэкстремальности, представ- лявшая основную сложность для невыпуклого случая, не возни- кает в выпуклых задачах. Действительно, все вспомогательные задачи минимизации, рассматривавшиеся в данном параграфе (для метода линеаризации, двойственных методов, методов штрафов и т. д.), являются выпуклыми, так что локальные минимумы в них совпадают с глобальными. Далее, утверждения о сходимости методов выпуклого про- граммирования носят глобальный характер. Поэтому нет необ- ходимости иметь хорошие начальные приближения или опа- саться расходимости методов. В связи с этим не представляет особой опасности наличие помех — если в задачах гл. 8 помехи могли вывести из области сходимости методов, то в выпуклом случае этого не происходит. Мы не будем останавливаться на подробном анализе влияния помех (он во многом аналогичен приведенному в гл. 4, § 5 гл. 5 и § 4 гл. 7), ограничившись этим кратким замечанием. В невыпуклых задачах может случиться, что вспомогатель- ные задачи минимизации в том или ином методе не имеют реше- ния (например, ограничения в них противоречивы), даже если в исходной задаче минимум достигается. В выпуклом програм- мировании эта ситуация невозможна. Например, задача квадра- тичного программирования (7) в методе линеаризации всегда имеет решение, поскольку ограничениям в (7) удовлетворяет
§ 4. МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 263 любая допустимая точка (1). Если окажется, что во вспомога- тельной задаче ограничения противоречивы, то это же имеет место в исходной задаче. Таким образом, в задачах выпуклого программирования от- сутствуют многие осложнения, свойственные более общим за- дачам. § 4. Методы нелинейного программирования Рассмотрим ту же задачу, что и в § 2i min f (х), х <= R", gt(x)^0, i—1......г, (1) (x) = 0, i = r -J- 1, ..., tn, где f(x), gi(x)~ дифференцируемые функции. Методы ее реше- ния и результаты о сходимости во многом близки к описанным в§2гл. 8 и в § 3 этой главы, где исследовались частные случаи задачи (1). Поэтому изложение будет сравнительно кратким. 1. Метод линеаризации. Идея этого метода, заключающаяся в линеаризации минимизируемой функции и ограничений, хоро- шо знакома нам. Для общей задачи (1) метод принимает вид min [(Vf (хй), х — хк) + (2у)~1 || х — xk ||2], Si (xk) + (Vgi(xk), х-хй)<0, isГк, gi (xfe) + (Vgi (Xй), x — Xй) =-- 0, i = r + 1, ..., tn, ' Ik={r. §((хй)> —e}, e>0. В качестве xk+1 берется решение этой задачи, и процесс повто- ряется. Обратите внимание, что линеаризуются не все ограниче- ния, а лишь «е-активные», т. е. для Вместо задачи ква- дратичного программирования (2) можно ввести двойственную ей (см. (12) § 4 гл. 10): min Г V Vf (хй) + Е yt Ngi (хй) Sfe = {z/sRm: y^O, yt = 0, Эта задача минимизации квадратичной функции при условиях неотрицательности части переменных может быть решена мето- дом сопряженных градиентов (§ 3 гл. 7) за конечное число ша- гов. Найдя ее решение ykt, можно вычислить новое приближение для прямых переменных (см. (13) § 4 гл. 10): хй+1 = xk — у f Vf (Xй) + Ё Ук Vgi (Xй) J • (4) 2 т ~ £ У1& xk) i = l
264 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Поскольку мы не делаем каких-либо предположений о вы- пуклости, то естественно, что результаты о сходимости метода носят локальный характер. Кроме того, требуется невырожден- ность решения (см. § 2). Теорема 1. Пусть х*— невырожденная точка минимума (1). Тогда, найдутся у > О, ё>0 такие, что при 0 < у < у, О < е < е, метод (2) локально сходится к решению со скоростью геометрической прогрессии. Наметим схему доказательства. Во-первых, ясно, что для до- статочно малых е > 0 и xk, достаточно близких к х*, будет lk —Г. Во-вторых, при этих же предположениях доказывается, что в задаче (2) будет g, (г() + (Vgz (xk), xk+l — xk) = 0, i e lk ~ — I*, t. e. ограничения, активные для x* в (1), будут активными и для решения (2). Таким образом, локально метод будет сов- падать с методом линеаризации для задачи с ограничениями типа равенств для активных в х* ограничений: minf(x), gi(x) = 0, i&l. (5) Но сходимость последнего со скоростью геометрической прогрес- сии доказана (теорема 1 § 2 гл. 8). А Оказывается, что для задач с острым минимумом метод ли- неаризации локально сходится с квадратичной скоростью. Теорема 2. Пусть х* — невырожденная точка минимума, а число активных ограничений равно п. Тогда метод (2) при достаточно малых у > 0, е > 0 локально сходится к решению с квадратичной скоростью. Доказательство основывается на том, что при сделанных предположениях (2) локально совпадает с методом Ньютона для решения системы §Дх)== 0, t ен/, а последний сходится ло- кально с квадратичной скоростью. А 2. Ньютоновский и квазиньютоновский методы. Если доступ- ны вторые производные всех функций f(x), gi(x) и их вычисле- ние не слишком трудоемко, то можно применить следующий аналог метода Ньютона. В точке xk ограничения линеаризуются, функция Лагранжа аппроксимируется квадратичной, и решается вспомогательная задача квадратичного программирования min [(L; (xk, yk), x-xk) + (L"x (xk, yk) (x - xk), x - xfe)/2], gt (xk) + (Vgt (xk), x — xk)^ 0, i <= I\, gi (xk) + (Ngi (xk), x — xk) = 0, z==r + 1, • • •, m, (6) I*k = {Z: 1 i < r, g. (xk) > — e}, e > 0. Ее решение выбирается в качестве xk+i, а значения множителей Лагранжа — в качестве yk+i (для is/J берется г/*+’ = 0). Для частного случая, когда присутствуют ограничения только типа равенств, этот метод рассматривался ранее (см. (19) § 2 гл. 8).
§ 4. МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 265 Теорема 3. Пусть х*— невырожденная точка минимума, а вторые производные функций f(x), gi(x) удовлетворяют усло- вию Липшица в окрестности х*. Тогда для достаточно малых е > 0 метод (6) локально сходится к х*, у* с квадратичной ско- ростью. Можно доказать эту теорему, показав сначала, что метод (6) локально совпадает с методом Ньютона для решения задачи (5), и используя результат о сходимости последнего (теорема 9 § 2 гл. 8). А Метод (6), вообще говоря, очень трудоемок — он требует вы- числения вторых производных минимизируемой функции и огра- ничений и решения задачи квадратичного программирования на каждом шаге. От первого недостатка можно избавиться, перейдя к квазиньютоновским методам подобно тому, как это делалось для безусловной минимизации (§ 3 гл. 3). Именно, вместо (6) на каждом шаге нужно решать вспомогательную задачу min[(A'(xfe, yk), х — xk} + (Hh(x — xk), x — xk)/2], gt (xk) + (yg{ (xk), x-xft)<0, iel*h, gdxk) + (Vgi(xh), x — xft) = 0, i = r + 1, ..tn, g{ (xk) > — e), e > 0, где матрица Hk является аппроксимацией для L"x(xk, yk) и имеет вид Hk = Fk+ Е yhiGkt, h = i e = г + 1, .... m}, (8) Fk, Gkt — аппроксимации для XJ2f(xk), \Fgi(xk), построенные no значениям градиентов этих функций в предыдущих точках с по- мощью рекуррентных формул (см. § 3 гл. 3). Близкий вариант метода заключается в решении на й-й ите- рации вспомогательной задачи минимизации при линейных огра- ничениях (ср. с (24) § 2 гл. 8): min L(x, yh), gi (xk) + (Vgt (xk), x — xfe)<0, i<slk, (9) gi (xh) + (Vgz (xfe), x — xfe) = 0, i = r + 1.tn. Правило пересчета yk для метода (9) остается прежним. Для (9) справедливы те же утверждения о сходимости, что и для метода Ньютона (6). Серьезный недостаток методов типа (6) заключается в возмож- ной невыпуклости вспомогательных задач. Дело в том, что ма- трица L"x(xft, yk), вообще говоря, не является положительно (неотрицательно) определенной даже для xk, yk, сколь угодно
266 гл. 9. ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ близких к х*, у*. Поэтому целевая функция может оказаться не- выпуклой, а вся вспомогательная задача (6) в целом — много- экстремальной, что существенно затрудняет решение. В связи с этим лучше использовать методы типа (7) с положительно опре- деленными матрицами Н». Например, можно начать с Но = I (что соответствует методу линеаризации) и при пересчете Hk следить за тем, чтобы знакоопределенность не нарушалась. Наконец, сходимость метода Ньютона существенно локаль- ная. С этим можно бороться, применяя «гибриды» метода ли- неаризации и Ньютона. Они имеют вид (7), где Hk — некоторая «промежуточная» между L"x(xk, yk) и уI матрица — например, их сумма — как в методе Левенберга — Марквардта (см. (16) § 1 гл. 3) для безусловной минимизации. Однако и метод ли- неаризации не обладает, вообще говоря, глобальной сходимо- стью, поэтому такой компромисс не всегда гарантирует преодо- ление указанной трудности. 3. Другие методы. Поскольку наиболее мощные методы ре- шения задачи нелинейного программирования (типа метода Ньютона) обладают, как мы видели, серьезными недостатками, то это стимулирует интерес к более простым и «грубым» мето- дам. Ограничимся качественным обсуждением наиболее важных из них. 1°. Методы штрафных функций. Один из простей- ших вариантов метода основан на учете всех ограничений с по- мощью внешних квадратичных штрафов. Иначе говоря, решается последовательность вспомогательных задач безусловной мини- мизации min fk(x), M*)=fW + X е Rre i /А 2 Д , d°) \W i=r+l / Теорема 4. Пусть х* — локально единственное решение за- дачи (1), а функции f(x), gi(x) непрерывно дифференцируемы в окрестности х*. Тогда для достаточно больших Кь найдется точка xk локального минимума fk(x) в окрестности х*, и xk-+x*. А Подчеркнем некоторые особенности метода (10) и приведен- ного результата о его сходимости. Во-первых, сходимость дока- зана при минимальных предположениях — не требуется ни усло- вий регулярности (а тем более невырожденности) минимума, ни слишком сильных предположений о гладкости. Несколько огра- ничительным является требование единственности, однако и при его отсутствии можно получить некоторые результаты о сходи-
§ 4. МЕТОДЫ НЕЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 267 мости. Важно также, что метод штрафных функций дает при- ближение не только для решения, но и для множителей Лагран- жа. Именно, если минимум невырожденный, то I<,kgi (xk)+ -+ у*, /=!, ..., г, К. kg t (xft) г/*, z = r+ 1, У* — множители Лагранжа (ср. с теоремой 7 § 2 гл. 8). Поэтому (10) можно применять в сочетании с каким-либо более мощным методом минимизации, требующим хорошего начального приближения по прямым и двойственным переменным. Разумеется, методу штрафных функций для задачи (1) при- сущ общий недостаток этой группы методов — при больших зна- чениях коэффициента штрафа задача безусловной минимизации становится плохо обусловленной, и потому сложность решения вспомогательных задач возрастает. Кроме того, эти задачи, во- обще говоря, многоэкстремальны (теорема 4 утверждает лишь, что среди локальных минимумов ^(х) найдется близкий к х*). В основном все сказанное выше о конкретном методе (10) относится и к иным близким подходам, описанным в § 3. 2°. Двойственные методы. Нетрудно скомбинировать методы, описанные ранее для частных задач (только с равен- ствами или неравенствами) так, чтобы они были пригодны для общей задачи (1). Мы предоставляем это читателю в качестве упражнения. Однако эти методы вряд ли можно отнести к раз- ряду «грубых и надежных» по причинам, обсуждавшимся выше. 3°. Метод приведенного градиента. Довольно об- щий подход к задаче (1) заключается в следующем. Пусть уже получено приближение хк, тогда можно выделить е-активные ограничения (т. е. равенства и те неравенства, для которых |gi(xft)|^e, е>0), отбросить остальные и применить для за- дачи с равенствами одну итерацию какого-либо из методов § 2 гл. 8. (Ранее в методах линеаризации и Ньютона мы поступали несколько иначе: активные ограничения — неравенства вклю- чали во вспомогательные задачи в качестве неравенств.) Часто удобно использовать в этой роли метод приведенного градиента (§ 2 гл. 8). Естественно, при этом возникает множество сложных проблем (возможность расходимости для плохих начальных приближений, выбор правил регулирования е и точности реше- ния вспомогательных задач и т. д.). Тем не менее метод приве- денного градиента является одним из наиболее употребимых в программах для решений общей задачи математического про- граммирования.
Глава 10 ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Мы уже многократно сталкивались с задачами линейного или квадратичного программирования. Они возникали как вспо- могательные при решении более общих задач выпуклого или нелинейного программирования и при безусловной минимиза- ции негладких функций. Задачи линейного и квадратичного про- граммирования представляют большой интерес и сами по себе вследствие их фундаментальной роли в экономических, техниче- ских и других прикладных проблемах. Математическая теория таких задач проста, красива и завершена. Общие методы реше- ния применительно к задачам линейного и квадратичного про- граммирования приобретают особенно наглядный вид и обла- дают многими замечательными свойствами. Эти задачи составят объект рассмотрения в данной главе. § 1. Линейное программирование (теория) 1. Типы задач. В задаче линейного программирования мини- мизируемая функция и ограничения линейны: min (с, г), х е R", (а’, х) blt i= 1......т, нли в матричной форме min (с, х), № R", Ах^Ь, где А — матрица т\п, строками которой являются а1\ с, b — фиксированные векторы из Rra, Rm. Если среди ограничений имеется условие неотрицательности переменных, то его удобно не включать в матрицу А и выделить отдельно: min (с, х), х е R", Ах < Ь, х > 0. Допустимы ограничения типа равенств, например задача мо- жет иметь вид min (с, х), х с= R", Ах = Ь, х > 0. (3)
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 269 Наконец, наиболее общими являются задачи со смешанными ограничениями-. min (с, х), xeR", AlX = b\ A?x^bz, x^Q. Каждый указанный тип задач может быть сведен к любому другому с помощью одного из следующих преобразований. Огра- ничение типа равенств (a‘, x) = bi (5) эквивалентно двум неравенствам (o', — (аг, х)< — bt. (6) Неравенство (а^х)^ (7) может быть сведено к равенству и условию неотрицательности дополнительного переменного zp (а‘, x) + Z{ = bi, гг>0. (8) Наконец, в системе равенств можно выразить одни перемен- ные через другие и исключить их. Так, если условия имеют вид Ах — b х 0, (9) где А — матрица т X п, т < п, то, представив ее в виде А — = (Л 11Л 2), где Л1 — матрица т X т, Л2 — матрица т X (п — т), и разбив переменные х на две группы х = {и, v}, u^Rm, v е Rn-m, можем записать (9) в виде A\u + A2v = b, и^О, ц^О. Исключив и из системы равенств (что возможно, если Л1 невы- рождена), получаем ограничения типа неравенств для ш. ЛГ'ЛгУСЛГ'Ь, и>0. (10) Наконец, всегда можно сделать так, чтобы минимизируемая функция зависела только от одной переменной. Действительно, в задаче min (с, х), х <= Q, (11) где Q задается линейными ограничениями, можно ввести допол- нительную переменную t =* (с, x)eR’ и получить задачу min/, (с, х) — / = 0, xsQ. (12) Описанные преобразования дают возможность распростра- нить любой результат или метод решения на задачи, записанные в произвольной форме.
270 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Несколько слов о геометрической интерпретации задачи ли- нейного программирования. Линейные ограничения выделяют многогранное множество (не обязательно ограниченное) в про- странстве переменных, и задача заключается в минимизации линейной функции на этом множестве (рис. 41, а). Для формы (3) допустимое множество образуется пересечением линейного нец, (12) представляет собой задачу об отыскании «низшей многообразия с неотрицательным ортантом (рис. 41,6). Нако- точки» многогранного множества (рис. 41, в). (с,а:)=к1 (с,х) = ---------------------------(с,х) = а4 a) а,1>а.г>а.3>а4 Рис. 41. Задача линей- ного программирования: а) в форме (1), б) в фор- ме (3), в) в форме (12). 2. Структура многогранных множеств. Нам понадобится вспо- могательный материал, относящийся к теории линейных нера- венств (а на геометрическом языке — к теории многогранных множеств). До сих пор мы определяли многогранное множество Q как множество решений системы линейных неравенств: Q = {х е= R": (а1, х)< b4, z=l, ...,т}, (13) задающих грани Q (рис. 41, а). Ниже будет показано, что мно- гогранное множество допускает и иное представление — как вы- пуклая оболочка своих вершин (если Q не ограничено, то Q — выпуклая оболочка вершин и конечного числа лучей) (рис. 42, а). Точка х <= Q называется крайней точкой множества Q cz R”, если она не является внутренней точкой какого-либо отрезка, лежащего в Q (рис. 42,6). Крайние точки многогранного мно- жества легко описать алгебраически.
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 271 Лемма 1. Крайними являются те и только те точки мно- жества (13), для которых имеется п линейно независимых ак- тивных ограничений. Доказательство. Пусть x°s=Q, т. е. (аг, x^s^bt, i — = 1, tn, IQ= {i: (a1, x^) — bi} — множество активных огра- ничений. Если среди векторов a1, i е /о, менее чем п линейно независимых, то система однородных уравнений (а':, s) — О, (-g/0> имеет ненулевое решение s°. Тогда векторы х1 = х° -f- ys°, х2 = х0— ySo ПрИ достаточно малом у > 0 также принадлежат <5, а потому точка х° — (х1 + х2) /2 не может быть крайней. Рис. 42. К теореме о представлении а) выпукла? оболочка конечного числа точек, б) крайние точки множества. Обратно, пусть среди a1, i е 10, есть п линейно независимых. Предположим, что х° = (х1-f-х2)/2, где х1, х2 ® Q, Тогда для i s /0 bt = (а1, х°) == [(</, х1) + (аг, х2)]/2 < (Д + Д)/2 = Д. Отсюда (аг, сс1) = (аг, х2) = bi. Но система уравнений (аг, х) = i е Д, не может иметь два различных решения (ее ранг равен п). Поэтому х1 = х2, т. е. х° — крайняя точка. ▲ Следствие. Число крайних точек многогранного мно- жества конечно. А Крайние точки многогранного множества называют также вершинами. Лемма 1 показывает, что эта терминология согла- суется с геометрическим определением вершины как 0-мерной грани. Многогранное множество может и не иметь крайних точек (например, если оно является подпространством, см. упр. 1). Однако для ограниченного Q крайние точки существуют, более того, они «порождают» все множество Q. Лемма 2. Непустое ограниченное многогранное множество является выпуклой оболочкой своих вершин. Доказательство. Пусть х° eQ. Д == {й. (а1, х°) = Ы}. Если х° — не крайняя точка, то найдутся z1, z2 е О, z1 Д= Д та- кие, что х° == (z1 + z2)/2. Рассмотрим прямую x° + %(z2— z1), XeR1. В силу ограниченности Q она не может великом содер- жаться в Q, поэтому в некоторой точке х1 = х° 4~ Д (z2— z!) она
272 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ выходит из Q. При этом Ц — {/: (а‘, х1) — bi} то /q, так как если г <=/съ то (a1', (z1z2)/2) = bi, (a1, (а‘, z2)^bbi, что означает (а‘, z1) = (ai, г2) ==&,-, поэтому (а1, х1) = (а‘, х°) + + М[(аг, z2) — (а‘, z‘)] = bi. Более того, включение Ц о 70— строгое, так как в точке х1 добавляется по меньшей мере одно активное ограничение. С точкой х1 повторим ту же процедуру и придем к точке х2, /2 Д и т. д. Поскольку процесс увеличения числа активных ограничений не может продолжаться бесконеч- но, то в результате придем к крайней точке. Итак, крайние точки существуют; при этом, как следует из построения, для любой точки х° найдется крайняя точка х*, Iocl* = {i: (а1, х*)= Ы}. Покажем теперь, что любая точка х° €= Q может быть пред- S S ставлена в виде х°= 0, 1£a.z==1, где — i=i t=i крайние точки. Если х° — не крайняя, то найдем вершину и1 х° (по доказанному такая найдется), возьмем соединяющий н1 и х° отрезок и продолжим его в сторону х° максимально возможно (т. е. найдем х1 = и1 + %* (х° — и1), Х* = тах{Л: и1 + Л(х° — и1) е €= Q} < оо). В точке х1 множество активных ограничений /1=7^0. Найдем крайнюю точку и2, для которой Ц с: {I: (а1, и2) = — bi}. Соединим и2 с х1 и продолжим этот отрезок в сторону х1 максимально возможно, получим х2, /2^эЛ, 72 #= Л- Продолжая этот процесс далее, найдем точки х3, х4, ..., Xs и крайние точки и3, ..., us. При этом для некоторого s окажется xs = us (так как множество активных ограничений все время расширяется). По индукции легко доказывается, что х° — выпуклая комбина- ция и1, ..., us. ▲ Переходя к неограниченным многогранным множествам, нач- нем с самого простого из них — многогранного конуса Q={xs R”: (а‘, х)<0, 1=1,..., т}, (14) и пусть А — матрица со строками а1, ..., ат. Лемма 3. Конус Q (14) можно представить в виде выпук- лой оболочки конечного числа лучей и прямых'. Q = ) х: х S г = Xzu‘ + S Yi^'. ^i > 0. / — 1 i = l (16) ul, w‘ ^Q. A Введем некоторые понятия, связанные с произвольным кону- сом К. Луч {Ху, X 0}, v е К, называется крайним для К, если он не может быть представлен как полусумма двух различных лучей из К. Крайние лучи (они называются также направляю- щими) играют для конусов ту же роль, что и крайние точки для ограниченных множеств: Конус К называется острым, если он не содержит прямых, т. е. из v е К, —V е К следует v = 0,
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 273 В этой терминологии из леммы 3 следует аналог леммы 2 для конусов. Лемма 4. Острый многогранный конус является выпуклой оболочкой своих крайних лучей, число которых конечно. ▲ Теперь мы можем получить основной результат данного раз- дела. Теорема 1 (о представлении многогранного множества). Пусть Q = (xg R": Дх<6) 0. (16) Тогда Q представимо как выпуклая оболочка конечного числа точек, лучей и прямых: ( 3 г 0 Q = ] х: х = £ КуТ + ргог + £ урсА, I * <-> i-i (17) £^i = l, Vi, А,г> e R1 >, i == I J где Av1 0, i = 1, ..., r; Aw1 = 0, i = 1, ..., p\ (wl, w>) = 0, i=£j. Если Q не содержит прямых (p = 0), то в качестве и‘ можно взять вершины Q, в качестве v‘ — крайние лучи К = = {х: Ах 0}. Доказательство является комбинацией рассуждений, прово- дившихся выше. Сначала выделяются w1, ..., wp такие, что Aw‘ = 0, г=1.......р; (w‘, w') = 0, i =£ j (если таковые име- ются). Затем рассматривается многогранное множество Qj = {х: Д(х° + х)^&, (х, wl) = 0, z = l......р}, где х° — любая точка из Q, тогда 0 е Qi, т. е. Qi =^=0, и показы- вается, что Q( представима как выпуклая оболочка своих край- них точек и направляющих конуса К = {х: Ах 0, (х, w‘) = 0, i= 1, ..., р}—это делается так же, как при доказательстве леммы 2, но с учетом того, что Qi может содержать лучи. По- следние представляются как выпуклая оболочка направляю- щих К с помощью леммы 3. ▲ Вектор ге R" такой, что луч х + Xz, X 0, х €= Q, целиком принадлежит Q, называется направлением рецессии выпуклого множества Q. Из теоремы 1 следует, что для многогранного множества все направления рецессии порождаются конечным числом векторов. Справедлив и результат, двойственный к теореме 1 — выпук- лая оболочка конечного числа точек, лучей и прямых является многогранным множеством, т. е. представима в виде (13). Упражнения. 1. Докажите следующие утверждения: а) всякая крайняя точка Q является граничной точкой Q; в частности, открытое множество не имеет крайних точек;
274 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 6) подпространство не имеет крайних точек; в) всякая точка сферы {х: ||л|! = 1} является крайней для шара Q = {х: IWI I}. 2. Покажите с помощью теоремы 1, что для Q.= {х: Ах о} 0 сле- дующие условия эквивалентны: a) Q ограничено; б) неравенства Ах И' О имеют только нулевое решение; в) уравнения Ату — с имеют решение у 0 для любого с (используйте лемму Фаркаша). 3. Условия экстремума. Теорема 1 в принципе дает возмож- ность найти решение задачи линейного программирования и пол- ностью исследовать его. Теорема 2. Решение X* задачи min (с, х), xsR’, xeQ = {x: Ax^b], b<=Rm, (18) существует в том и только в том случае, когда Q 0 и (с, v‘) 7>- 0, i — 1, .... г; (с, йу‘) == 0, i == 1, .,,, р, при этом Х* = |х*: х* = £ X нУ + £ Yz®*. 5. >е/, ,е/, t = l (jg) £^=1, И/>0, ie/i ) где li — {i: (и1, с) = f*}, /2 = {i: (с, v':') = 0}, f* = (c, х*), х* е Л’*, а и‘, vl, w‘— векторы, фигурирующие в теореме 1. Действительно, в. силу (17) для произвольного х е= Q (с, х) = £ (с, г?) + £ (с, vl) + £ Y; (с, ау1'). (20) i=l i=l t = l Минимум этого выражения по Л.г 0, £ Л.г = 1, рг^0, y« & R1, t = l очевидно, достигается лишь тогда, когда (с, ги) Д; 0, I — 1,..., г, (с, ау‘) = 0, i1, ..., р, и решением являются любые Л*, ц‘, у* такие, что = 0 при ie/p X*>0, ^£ X* = 1, ц‘>0 при i е /2, Ц- = 0 при i ё /2- А Следствие. Если допустимое множество не содержит пря- мых, а решение задачи (18) существует, то среди решений най- дется вершина Q. Если решение единственное, то оно достигается в вершине. А Разумеется, этот результат не может рассматриваться как конструктивный способ отыскания решения, так как число вер- шин огромно даже для задач небольшой размерности и полный перебор вершин—дело совершенно нереальное. Таким образом, теорема 2 отнюдь не делает тривиальной проблему поиска ре- шения задач линейного программирования, поэтому имеет смысл провести обычный анализ задачи, связанный с условиями экстре-
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) S75 мума. Задача (18) является весьма частным случаем задачи выпуклого программирования (§ 1 гл. 9)—минимизируемая функция и ограничения определены для всех х е= Rn, выпуклы, дифференцируемы, а ограничения имеют специальный вид, по- зволяющий отказаться от требования выполнения условия Слей- тера. Используя теоремы 2 и 3 § 1 гл. 9, приходим к следующим условиям экстремума. Теорема 3. Для того чтобы допустимая точка х* была ре- шением задачи (18), необходимо и достаточно существование множителей Лагранжа у* е R™ таких, что у*^0, (у*, Лх*-&) = 0, с 4-Лгу* == 0. А (21) Теорема 4. Для того чтобы х* е R" являлось решением задачи (18), необходимо и достаточно существование у* eRC у* О такого, что L (х, /) > L (х*, у*) > L (х*, у) \/х е R\ у у <= R+, (22) где L (х, у) = (с, х) + (у, Лх — Ь). А (23) Выпишем задачу, двойственную к (18), и сформулируем тео- рему двойственности. Поскольку Ф(У) = inf L(x, у) — inf [(с + Л^, х) — (Ь, у)}, х е Rn X е Rn ТО ( — оо, если Ф (У) = 1 ,, ' I — (Ь, у), если с -J- Ату =4= О, С + Ату = 0. Записывая двойственную задачу в форме (49) § 1 гл. 9, полу- чаем min (6, у), с + Лгу —0, у^О. (24) Таким образом, задачей, двойственной к (18), также оказалась задача линейного программирования. Теорема 5 (теорема двойственности). Решения х*, у* пары двойственных задач (18) и (24) существуют или не существуют одновременно, при этом у* (соответственно х*) — множители Лагранжа для (18) (соответственно для (24)). Для любых допу- стимых х, у справедливо неравенство (с, х) + (6, у)>0, (25) причем равенство в (25) достигается тогда и только тогда, когда х, у — решения задач (18) и (24). А Рекомендуем читателю доказать эту теорему непосредственно на основе теорем 3 и 4, а не обращаясь к общей теореме двой-
276 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ ственности из § 1 гл. 9. Удобно при этом использовать приводимые ниже условия экстремума для задачи вида (24) (см. теорему 6). Результаты теорем 3—5 относились к задаче в форме (18). Если исходная задача задана в иной форме, то, используя пре- образования, описанные в п. 1, ее можно привести к виду (18), записать условия экстремума, а затем вернуться к исходным переменным. Если проделать это для задачи min (с, х), х е R”, Ax = b, b^Wn, х>0 (26) (она называется канонической формой задачи линейного про- граммирования), то получим следующие результаты. Т е о р ема 6. Точка f eR" является решением задачи ли- нейного программирования (26) тогда и только тогда, когда най- дутся у* е Rm такие, что выполняется любое из условий: а) Ах* = Ь, х*>0, АГу*^с, (Агу* - с, х*) = 0, (27) б) х* > 0, L (х, у*} > L (х*, у*) > L (х\ у) \fx^Rn+, ууе=Ят. ▲ (28) Задача, двойственная к (26), имеет вид max (&, у), Ату^.с. (29) Теорема? (теорема двойственности). Решения х*, «/* пары двойственных задач (26), (29) существуют или не существуют одновременно, при этом —у* (соответственно х*)— множители Лагранжа для (26) (соответственно для (29)). Для любых допу- стимых х, у (с,х}^(Ь,у), (30) причем равенство в (30) достигается тогда и только тогда, когда х, у — решения задач (26) и (29). ▲ Теперь, когда мы умеем выписывать двойственную задачу для различных постановок исходной задачи, можно установить следующий факт, оправдывающий термин «двойственность». Теорема 8. Прямая задача (18) является двойственной к двойственной задаче (24). Это же справедливо для задач (26), (29). ▲ Таким образом, можно говорить просто о паре двойственных задач, не уточняя, какая из них является прямой. Отметим, что тот способ построения двойственной задачи, который приведен в § 1 гл. 9, не позволяет сделать такое же заключение для об- щей задачи выпуклого программирования, так как мы не знаем, как строить задачу, двойственную к двойственной задаче,
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 277 Пару двойственных задач можно записать в следующей сим- метричной форме: min (с, х), max (b, у), AxZ^b, Ату^с, (31) х^О; у О, при этом (с, х) (£, у) для допустимых х, у, а равенство дости- гается только для решений. Упражнение. 3. Получите из теоремы 2, что если Q содержит прямые, то решение задачи (18) не может быть ограниченным. Получите необходимые и доста- точные условия ограниченности решения. 4. Существование, единственность и устойчивость решения. Как уже отмечалось, теорема 2 в принципе дает полное решение проблем существования и единственности, но носит неконструк- тивный характер. Нас будут интересовать более просто прове- ряемые условия существования и единственности решения, кото- рые можно получить с ее помощью. Теорема 9. Пусть в задаче (18) допустимое множество не- пусто, а целевая функция на нем ограничена снизу. Q = {х: Ах &} =# 0, inf (с, х) > — оо. х е Q Тогда решение задачи (18) существует. Доказательство. Функция (с, х) на Q задается (20). Но это выражение ограничено снизу при любых щ 0, е R1 лишь тогда, когда (с, vl) 0, i = 1, ..., г; (с, w‘) = 0, i — 1, ... ..., р, при этом минимум (с, х) на Q достигается (теорема 2). ▲ Подчеркнем, что в теореме 9 не предполагается ограничен- ности множеств вида {х €= Q: (с, х) а}. Как следствие из теоремы 9 получаем, что задача безуслов- ной минимизации любой из следующих кусочно-линейных функ- ций m m f U) = S ((a1, x) — &()+, f (x) == S I (fl1, x) — b{\, /=1 . (32) f(x)= max ((a1, x) — b{)+, f(x)— max |(al, x) — bt\ 1 <l1 <I всегда имеет решение. Действительно, эти задачи сводятся к за- дачам линейного программирования, в которых целевая функция неотрицательна. Другим полезным следствием является следующее уточнение теоремы двойственности. Теорема 10. Если обе двойственные задачи линейного про- граммирования имеют допустимые точки, то они имеют решение. Действительно, это сразу следует из соотношения (25) (для задач (18), (24)) и теоремы 9. ▲
278 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Выяснить, является ли данное решение единственным, можно совсем просто. Теорема 11. Пусть х* — решение задачи (1), 1*— = {i: (а{, — —множество активных ограничений. Тогда, если среди векторов а', I е /*, не найдется п линейно независи- мых, то х* — не единственно, а если п таких векторов найдется и им отвечают y*t > 0, го решение единственно. Доказательство. По следствию из теоремы 2 единствен- ный минимум достигается в вершине, что вместе с леммой 1 дает первое утверждение теоремы. Пусть теперь а{, I е / с: /*, —- п линейно независимых векторов из /*, тогда уравнение {а1, х) = — bi, i е /, имеет единственное решение х*. Поэтому для любого х е Q, хф х*, найдется j е / такое, что (од, х) < Ь,. Тогда в со- ответствии с теоремой 3 (с, х) = -- (А'у, х} = — £ y’i (а1, х) > — Е УРд = i el’ i гI = - Z УЖ х*) = -(ЛЧД х*) = (с,х‘). А 1е/ Что касается устойчивости решения, то оказывается, что для задач линейного программирования всегда выполняется соотно- шение, обобщающее условие острого минимума (11) § 1 гл. 7. Лемма 5. Пусть X*— множество решений задачи (18), X* =/= 0. Тогда найдется а > 0 такое, что (с, х) — f > ар (х, Г) (33) для всех допустимых х. Здесь f*=(c, х*), х*<=Х*, р(х, X*) = — tn in II X — X* ||. х* е= X* Приведем доказательство для случая, когда Q ограничено. Тогда Q — ^х: х==У hi |>0, У = 1%*— x= У h*ul, У Z,J=11, где/1={<: (c, ul)=f*} (см. теоремы 1,2), i e Л J (C ul\_f* Введем a= min - ---L_ и покажем, что это a — искомое, is/, р(«‘, X*) Действительно, a > 0, так как (с, и‘)— f* > 0 для всех ie/i. S S Пусть zgQ произвольно, х — X Ktul, ht 0, У)Я,г = 1. При- £ — 1 i — 1 меняя к выпуклой функции р(х, X*) (см. упр. 2 § 1 гл. 5) нера- венство Йенсена (лемма 1 § 1 гл. 1), получаем р(х, Х*) = р(]>Хмг, X*)<E^p(t/f, Х*) = У Хгр(иг, Х*)< \i = l / i = l ig/, < а-1 У ((с, и1) -П = а-^ М ((с, и{) - Г) = ге/, i = l а-1 ((с, х) — Г). А,
§ 1. ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ (ТЕОРИЯ) 279 Из леммы 5, в частности, вытекает, что единственное реше- ние х* задачи линейного программирования удовлетворяет усло- вию острого минимума: (с, х) — f > а || х — х* || ух е Q. (34) Лемма 6 (Хоффман). Пусть Q={xeR": (а‘, х) bi, i = 1, ..., m} =/= 0. Тогда найдется а > 0 такое, что Е ((а\ х) - bt)+ ар (х, Q) ух е R". (35) i = l Доказательство. Рассмотрим задачу линейного про- граммирования m min У, , (36) (a, x) — bi = ti — Zi, i = l, ..., m, Zi^O, i »= 1.....m, где ti, Zi — дополнительные переменные. Для любого x s R!i век- тор {x, t, z}, где ti = ((al, x)—bi)+, Zi = {bi — (al, x))+, i — = 1, ..., tn, является допустимой точкой в этой задаче, а реше- ния (36) имеют вид {х, О, [Ь—Лх)+}, где xsQ. Применяя лемму 5 к этой задаче, получаем (35). ▲ Лемма Хоффмана утверждает, что если в какой-либо точке невязка в нарушении линейных неравенств мала, то эта точка близка к множеству допустимых точек. Отметим, что аналогич- ный результат для задач с выпуклыми неравенствами (лемма 11 § 1 гл. 9) был получен в предположении, что выполняется усло- вие Слейтера, а множество Q ограничено. Для задачи линейного программирования из леммы 6 выте- кает следующее утверждение об устойчивости. Лемма 7. Пусть X* — непустое множество решений задачи (1), f* = (с, х*), х* ® X*. Тогда найдется a > 0 такое, что для любого х m ар (х, X*) < У ((аг, х) - bt)+ + ((с, х) - f)+. (37) i=i Для доказательства достаточно записать X* в виде X* = — {х: (a1, x)^bt, 1=1, .... пг, (с, х) f*} и воспользоваться леммой 6. А Из (37) следует, что всякая обобщенно-минимизирующая по- следовательность х!г (т. е. такая, что (с, xh)-+f*, ((a‘, xft)—&/)+-> —>0) сходится к множеству решений задачи линейного програм- мирования.
280 ГЛ. 10 ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Тот факт, что в задаче линейного программирования всегда выполняется обобщенное условие острого минимума (33), при- водит к инвариантности решения при малом возмущении мини- мизируемой функции. Теорема 12. Пусть множество X* решений (18) непусто, функция g(x) выпукла, D(g)° zo X*, ||dg(x)||^L при х<=Х* и g(x) достигает минимума на X*-. X*g — Argming(x) 0. Тогда х s Л* для достаточно малых е > 0 минимум в задаче min [(с, х) 4- eg (х)] (38) х е Q достигается на множестве X*g. Доказательство. Пусть х — произвольная точка из Q, х* — проекция х на X*, xg —- точка из Xg. Тогда в силу леммы 5 (с, х) 4- eg (х) > f* 4- а || х — х* || ф- в (g (xg) 4- (dg (xg), x — xg)). Ho (dg(x*g), x —Xg) = (<5g (xg), x — x*) 4-(<5g (Xg), x* — xg), где (dg (Xg), x* — Xg) 0 в силу условий экстремума g (х) на X*. Поэтому (с, х) 4- eg (х) > Г 4- eg (4) 4- а II X — х* || 4- в (dg (xg), х — х*) > > (с, Xg) 4- eg (xg) 4- (а — eZ.) || х — х* || > (с, xg) 4- eg (xg при в < a/L. ▲ Из этого важного результата, как мы увидим в дальнейшем, вытекает конечность многих итеративных методов линейного программирования. Применяя теорему 12 к двойственной задаче, получаем, что при малых возмущениях ограничений множители Лагранжа остаются прежними (упр. 4). Отсюда следует, что теорема 9 § 1 гл. 9 для задач линейного программирования мо- жет быть уточнена (упр. 5). Упражнения. 4. Покажите, что если решения задач min (с, х), Ах •< b и min (с, х), Ах •< b + в существуют, то для достаточно малых ее R’” множители Лаг- ранжа второй задачи являются и множителями Лагранжа для первой задачи. 5. Пусть решение х* задачи min (с, х), Ах •< b и соответствующие ему множители Лагранжа у* единственны. Тогда функция <р (е) = inf (с, х), Ах Ь+г е s Rm, дифференцируема в 0 и V ср (0) = у*. 6. Пусть множества X* = Argmin (с, х), АТ = Argmin (с1, х).XI = Ах <6 хех* «= Argmin (cs, х) непусты. Докажите, что тогда решением задачи х s xk-\ min [(с, х) 4- е (с1, х) + ... + ek (ck, х)] при достаточно малых е > 0 являет- СЯ 4 7. Используя предыдущий результат, покажите, что неединственность решения устраняется малым возмущением, т. е. если решение задачи min (с, х), Ах Tg b не единственно, то найдутся такие е > 0 и с1 е R'1, что решение задачи min (с + ес!, х), Ах b будет единственно.
§ 2. КОНЕЧНЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 281 § 2. Конечные методы линейного программирования 1. Симплекс-метод. Как мы знаем (следствие из теоремы 2 § 1), решение задачи линейного программирования достигается в вершине многогранного множества. С другой стороны, лемма 1 § 1 дает простое описание вершин как решений систем линей- ных уравнений. Поскольку число вершин конечно, в принципе можно найти решение за конечное число шагов (каждый из ко- торых включает решение системы линейных уравнений, т. е. тре- бует конечного числа арифметических действий) путем пере- бора вершин. Симплекс-метод использует, по существу, ту же идею, но реализует ее не столь прямолинейно. Во-первых, просмотр вер- шин ведется таким образом, что значения целевой функции мо- нотонно убывают. При этом перебор значительно сокращается — отбрасываются те вершины, в которых значения (с, х) больше уже найденных. Во-вторых, перебор идет по соседним вершинам, поэтому система линейных уравнений, которую приходится ре- шать на очередном шаге, мало отличается от предыдущей. Ис- пользуются специальные экономные приемы решения таких систем. Симплекс-метод применяют для задач, записанных в канони- ческой форме: min (с, х), Ax — b, (1) Здесь х <= R”, А — матрица т X п, b е Rm, с е Rrt. Поскольку в § 1 мы в основном имели дело с иной формой записи допусти- мого множества, переформулируем полученные там результаты. Лемма 1. Пусть Q=={xgeR": Ax = b, х>О}^=0, (2) Тогда a) Q — многогранное множество, не содержащее прямых-, б) вершинами Q являются точки х из Q, для которых век- торы А‘, iel, являются линейно независимыми (здесь А‘ — i-й столбец А, I — {г: хг > 0}); в) Q представимо в виде выпуклой оболочки своих вершин « крайних лучей конуса К = {х 0, Лх = 0}. ▲ В соответствии с леммой 1 в вершине Q не более пг компо- нент вектора х могут быть положительны. Назовем х невырож- денной вершиной, если число положительных компонент в ней равно пг. В дальнейшем предполагается, что допустимое мно- жество в (1) непусто, а все его вершины невырождены. В симп- лекс методе используется специфическая терминология, впрочем не всегда одинаковая в различных руководствах. Допустимые точки называют планом, вершину — опорным планом или допу- стимым базисным решением, решение задачи — оптимальным
282 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ планом, столбцы А, отвечающие положительным компонентам опорного плана, — базисом. М.ы не будем злоупотреблять этой терминологией, а сохраним прежнюю (допустимая точка, вер- шина, решение и т. д.). Перейдем к описанию симплекс-метода для решения задачи (1). Пусть на ft-м шаге получена точка хк, являющаяся верши- ной (2), и /й = {г:4>0}. (3) В силу предположения невырожденности h содержит т элемен- тов. Разобьем вектор xeR'! на две группы х~ {и, и}, где и «= R'” отвечает компонентам из lk, v е Rra~"! — компонентам, не принадлежащим /*. Тогда система Ах—b может быть записана в виде А{и 4- Д2и = Ь, (4) где Ai — матрица т%т, столбцы которой являются столбцами А с индексами из Ik, Аг— матрица т%(п — т), составленная из остальных столбцов А. В силу утверждения б) леммы 1 и усло- вия невырожденности матрица Ai имеет обратную, поэтому и — ДГ1 (Ь — Д2и). (5) Целевая функция приобретает вид (с, х) = (с1, и) + (с2, и), (6) где с1 е R’r‘ — вектор с компонентами с/, i е h, с2 е R«-m — век- тор с компонентами С/, С учетом (5) целевая функция может быть выражена только через v и приобретает вид (с1, АГ1 (Ь — Д2и)) + (с2, v) = (c2 — дГ(ДГ1)гс1, и) + (с1, А[ lb). Таким образом, исходная задача эквивалентна следующей: тт(с2-Д2г(ДГ1)2’с1, И). АГ1 (Ь - Д2и)>0, и>0. (7) При этом точке хк соответствует вектор {ик, vk}, где ик > О, vk = 0. Точка vk = 0 является допустимой для задачи (7), при этом ограничение ДГ1 (ft — Д2у)^ 0 удовлетворяется как строгое неравенство, так как ДГ1 (б — Azvk) — АГ1Ь = uk > 0. Поэтому оно может быть отброшено (как неактивное) при анализе точки vk на оптимальность. Но в задаче min (d, и), у > 0 (8) минимум достигается в 0 тогда и только тогда, когда d 0. Итак, если d = c2 — Д2(ДГ1)Гс1>0, (9)
§ 2. КОНЕЧНЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 283 то точка о = 0 является решением (8) и одновременно (7), а тем самым хк является решением (1). Если же среди компонент d есть отрицательные (например, d/<;0), то и =0 не является решением (8), и, увеличивая У/, можно уменьшить значение це- левой функции в (8). Итак, сделаем шаг yfe+i _ vk yke,> j. — y.g ОрТ. (Ю) Выбор уд, производится из следующих соображений. С увеличе- нием у* целевая функция уменьшается, однако может нару- шиться ограничение ЛГ1 (6 — Л20) 0, которое в точке vk = О было неактивным. Итак, ук нужно выбрать из условия ук — max {у 0: А^' (b — yA2<?J 0}. (11) Если при этом ук = оо, то задача не имеет решения, так как inf (с, х) = — оо. Если же ук. < оо, то получаем новую точку xft+I = {ик+1, uft+1}, где uk+1 = ЛГ1 (b — ykA2e^, vk+i = vk + у кв,. Эта точка вновь является вершиной (она допустима и имеет т положительных компонент, так как /-я компонента стала поло- жительной, а одна из компонент обратилась в 0). Поэтому в ней можно повторить всю процедуру заново. Поскольку (с, х^1) < (с, xk) (так как (с, xft+1) = (d, uft+1) = (d, A-yk{d, e:;) = (c, xk)A-ykdi, yk > 0, d/<0), то метод обладает свойством монотонности целевой функции. Следовательно, воз- вращение в какую-либо из ранее пройденных вершин невоз- можно, и в силу конечности общего числа вершин метод конечен. С геометрической точки зрения симплексный метод реали- зует последовательный переход от одной вершины допустимого множества к соседней (см. упр. 1) с меньшим значением целе- вой функции. Ясно, что такой процесс конечен. Идея исключения переменных, используемая в симплекс-ме- тоде, уже встречалась нам в гл. 8 при анализе задач с ограни- чениями типа равенств. Так, второе доказательство правила множителей Лагранжа (§ 1 гл. 8) основывалось на сведении ис- ходной задачи к задаче безусловной минимизации путем (неяв- ного) выражения одних переменных через другие и использова- ния условий экстремума в задаче без ограничений. Аналогич- ный прием применялся в методе приведенного градиента для построения метода оптимизации (ср. формулу (18) § 2 гл. 8 с формулами симплекс-метода). В симплекс-методе использу- ется, по существу, тот же подход, разница лишь в том, что, кроме равенств Ах — Ь, имеются неравенства х 0, а каждая задача, получающаяся после исключения переменных, является задачей линейного программирования простой структуры (7). Кстати, условие оптимальности (9) в симплекс-методе позволяет
284 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ другим способом получить условие экстремума в исходной за- даче, правда, при более жестких предположениях (см. упр. 2). Упражнения. 1. Назовем ребром (1-мерной гранью) многогранного множества Q отре- зок L = [а, 6] ст Q такой, что любая его точка не является внутренней точ- кой другого отрезка из Q (т. е. если х е L, у s Qt г е Q и х = (у + г) /2, то это возможно лишь тогда, когда.yeL, zsL'i, Докажите, что концы ребра являются вершинами (такие вершины называются соседними) и что для лю- бой вершины существует соседняя (если число вершин больше 1). Дайте описание ребер, аналогичное описанию вершин в лемме 1 § 1 и в п. б) леммы 1. Покажите, что точки хк и хк+1 в симплекс-методе являются соседними вер- шинами. 2. Получите из (9) условия экстремума в задаче (1). Покажите, что они совпадают с условиями теоремы 6 § 1. (Указание. Докажите, что если х* — решение, то = г/*.) 2. Реализация симплекс-метода. Конечно, приведенное выше описание симплекс-метода еще далеко от полного. Чтобы пе- рейти от него к четкому алгоритму, нужно ответить на ряд во- просов. Первый связан с выбором начального приближения. Точку х°, являющуюся вершиной Q, можно найти с помощью следую- щего приема (метода искусственного базиса). Введем дополни- тельные переменные Zt, играющие роль невязок в ограничениях, и рассмотрим задачу их минимизации: m min У zz, (а1, х) + z{ — bt, x^Q, z ^0.(12) i=i В этой задаче искомым является вектор {х, г} размерности п-\-т, а точка {0, b} е R"+m является вершиной (всегда можно считать, изменив в случае необходимости знак ограничения (a1, x)=bt, что b 0; предполагаем, что среди компонент b нет нулевых). Поэтому для (12) можно применить симплекс- метод с данным начальным приближением. В результате полу- чим либо точку {.у0, 0}, где х° — вершина в исходной задаче, либо точку с z =/= 0, тогда в исходной задаче нет допустимых век- торов (ограничения противоречивы). Введения подобного дополнительного этапа в решение задач линейного программирования нередко можно избежать. Пусть, например, исходная задача имеет вид min(c, х), Ax^.b, (13) причем b > 0. Приведем ее к канонической форме, как в (8), § 1: min (с, х), Ax--\-z=--b, x>0, z>0. (14) Тогда точка {0, Ь} является вершиной, так что применять метод искусственного базиса излишне.
§ 2. КОНЕЧНЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 285 Второй вопрос связан с численной реализацией метода. Симплекс-метод имеет ряд вычислительных схем, связанных со способами вычисления, хранения и преобразования фигурирую- щих в нем матриц и векторов. В основном варианте (алгоритм с обратной матрицей) вычисляется и хранится матрица ДГ1, а выражения типа Дг (ЛГ*)Гс1 (см. (9) ) вычисляются путем умножения этой матрицы на соответствующие векторы. При вы- числении же ДГ1 используется тот факт, что матрицы Д] на последовательных итерациях получаются заменой лишь одного столбца. Поэтому можно обращать эти матрицы рекуррентно, используя соотношения типа лемм 3 и 4 § 3 гл. 3. Начальное приближение для ДГ*Ь в методе искусственного базиса (12) и в задаче (14) не требует обращения матриц, так как в этом слу- чае А\ = I. Мы не приводим подробных формул симплекс-метода. В на- стоящее время программы симплекс-метода широко доступны и достигли высокого уровня совершенства (с вычислительной и программистской точки зрения). Поэтому вряд ли многим чи- тателям придется решать задачи линейного программирования вручную или самостоятельно писать программу симплекс-метода (в этом случае можно обратиться к многочисленным руковод- ствам по линейному программированию). Последний вопрос, о котором стоит упомянуть, — это проб- лема вырождения в симплекс-методе. При изложении метода делалось предположение о невырожденности всех вершин. От- каз от этого предположения может привести к невозможности обращения матрицы Дь Однако многочисленные эксперименты с симплекс-методом показали, что в практических задачах вы- рождение встречается редко, и его опасностью можно пре- небречь. 3. Другие конечные методы. Мы уже упоминали, что сущест- вуют различные вычислительные схемы симплекс-метода и кратко описали одну из них (алгоритм с обратной матрицей). В модифицированном симплекс-методе хранится и пересчиты- вается матрица ДГ'Дг, а не ДГ1. Известны и так называемые мультипликативные формы, каждого из методов, где соответ- ствующие матрицы не хранятся в готовом виде, а вычисляются из начальной с помощью элементарных преобразований, соот- ветствующих предыдущим итерациям. Целесообразность выбора той или иной модификации опре- деляется соотношением пг и п, степенью заполненности матрицы ограничений (в большинстве задач значительной размерности в Д много нулевых элементов), объемом памяти ЭВМ, требова- ниями к точности решения и т. д. Эти вопросы разработаны весьма подробно. Однако в принципе (если отвлечься от ошибок
286 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ округления и т. д.) все модификации симплекс-метода дают одну и ту же последовательность приближений xft. В то же время существуют методы, основанные на идеях симплекс-метода, но не совпадающие с ним. Мы уже отмечали (см. упр. 2), что симплекс-метод одновременно дает решения и для двойственной задачи. Именно, величина z/= (Xfj с1 может рассматриваться как приближение к решению двойственной за- дачи (не являющееся допустимым для нее, причем (6, ук)> > (Ь, у*) до последней итерации, где ук = у* (см. упр. 3)). По- этому возможен следующий путь решения (1). Применим симп- лекс-метод к двойственной задаче. Тогда одновременно полу- чаются приближения для прямых переменных хк, причем они дают оценку снизу для целевой функции: (с, хА)<(с, х*). Мож- но организовать вычисления таким образом, что при решении двойственной задачи основным является итерационный процесс именно для прямых переменных. Такой способ решения назы- вается двойственным симплекс-методом. Применять его удобно в следующих ситуациях. Во-первых, если прямая задача имеет вид (1) § 1, тогда двойственная записывается в канонической форме, что позволяет применить к ней симплекс-метод без до- полнительных преобразований. Во-вторых, часто приходится решать последовательность задач линейного программирования, каждая из которых получается из предыдущей добавлением но- вого ограничения типа неравенств (см., например, метод отсе- кающей гиперплоскости и другие методы решения негладких задач из § 4 гл. 5). Тогда решение предыдущей задачи не яв- ляется допустимой точкой для новой задачи и потому не может быть использовано в симплекс-методе. Однако решение двой- ственной задачи оказывается вершиной для новой двойственной задачи и представляет собой хорошее начальное приближение для двойственного симплекс-метода (см. упр. 4). Известны и некоторые другие конечные методы, построенные на основе симплекс-метода. Таков, например, метод одновремен- ного решения прямой и двойственной задач. Он удобен тем, что в нем получаются оценки для целевой функции сверху и снизу, что позволяет не доводить итерации до конца, ограничиваясь получением приближения с требуемой точностью. Однако в це- лом эти методы не получили широкого распространения. Пара- доксальным образом это объясняется успехами программной реализации симплекс-метода; в результате создавалось ощуще- ние ненужности каких-либо иных методов линейного програм- мирования. Упражнения. 3. Покажите, что для величины yk = с! в симплекс-методе спра- ведливо соотношение (&, ук) > (6, у*), если только Xs не является реше- нием задачи (1).
§ 2. КОНЕЧНЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 287 4. Пусть х* — решение задачи min (с, л), Ах Ь, а у*—решение двой- ственной задачи. Запишите задачу, двойственную к min (с, х), Ах Ь, (am+1, х) <2 bm ц, и покажите, что {у*, 0}eR"l+1— вершина для этой задачи. 4. Почему симплекс-метод позволяет найти решение? Все при- веденные выше рассуждения не дают никаких оснований для вывода об эффективности симплекс-метода как средства реше- ния задач линейного программирования сколько-нибудь значи- тельной размерности. Более того, могло бы оказаться, что этот метод просто неработоспособен для подобных задач. Действи- тельно, единственное, что мы знаем о сходимости метода, — это факт его конечности. Каково же требуемое при этом число ша- гов? Априори мы можем гарантировать лишь то, что это число не превосходит числа вершин допустимого множества (обозна- чим его АД. Из леммы 1 § 1 следует, что справедлива оценка N ^Ст (речь идет об ограничениях вида (13) § 1). Если т=2п, то по формуле Стирлинга Ст ~ 21п (п/ё)п — астрономическое число даже для п порядка нескольких десятков. Конечно, это лишь оценка сверху для N, причем сильно завышенная, однако она производит мрачное впечатление. Как показывают простые примеры, число вершин многогранника действительно велико (хотя и существенно меньше, чем С„). Пусть, например, Q — — us R": О Д' х -Д а}, а> 0, тогда очевидно, что N = 2". Для п = 100 (это задача небольших размеров по масштабам линей- ного программирования) получаем N — 2100 » 1030 — число, пре- восходящее возможности любых существующих или потенци- ально возможных вычислительных машин. Эти соображения относятся лишь к числу вершин многогранника, а не непосред- ственно к числу шагов симплекс-метода. Однако построены спе- циальные примеры, в которых траектория симплекс-метода про- ходит по всем вершинам многогранника условий [10.18]. Для этих примеров число шагов экспоненциально растет с ростом размерности. Казалось бы, эти рассуждения приводят к пессимистическому выводу о возможностях симплекс-метода. Именно таково было и первоначальное мнение Дж. Данцига, создателя симплекс-ме- тода. Как он пишет в [10.5], «симплекс-метод интуитивно был отвергнут как неэффективный и лишь благодаря счастливой случайности был проверен и принят». Численная проверка по- казала поразительную эффективность метода для практических задач вопреки всем ожиданиям. Оказалось, что для подавляю- щего большинства задач число итераций бывает порядка т -Е 2т (речь идет о задаче в канонической форме (1)), и отнюдь не растет экспоненциально с ростом размерности. Лишь в очень редких случаях (а в настоящее время симплекс-методом решены многие тысячи задач) число итераций было существенно больше
288 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ чем т. Причина такого удивительного «везения» до сих пор не ясна. Упражнение. 5. Выпишите симплекс-метод для задачи min (с, х), О «J х> -.Д 1, i = 1,.., ..., п. Покажите, что он всегда заканчивается не более чем за п шагов. § 3. Итерационные методы линейного программирования 1. Актуальность итерационных методов. В § 2 говорилось о достоинствах симплекс-метода. Однако его возможности не без- граничны. Так, он чувствителен к погрешностям вычислений, и для плохо обусловленных задач их влияние может привести к значительной потере точности (впрочем, этот вопрос недоста- точно исследован ни теоретически, ни численно). Далее, в симп- лекс-методе необходимо хранить элементы обратной матрицы ХГ' или какие-либо эквивалентные величины. Хотя в развитых программах симплекс-метода приняты специальные меры по экономии записи, при больших размерах решаемых задач тре- буемый объем памяти велик. Симплекс-метод не позволяет ис- пользовать обычно имеющуюся априорную информацию о задаче типа хорошего начального приближения для прямых и (или) двойственных переменных. Наконец, большинство программ симплекс-метода не рассчитано на их использование в качестве подпрограмм, тогда как часто приходится многократно решать однотипные задачи — например, в методах нелинейного програм- мирования и негладкой оптимизации, где на каждой итерации решается задача линейного программирования. Все эти факторы делают актуальной разработку новых методов линейного про- граммирования. 2. Итерационно-конечные методы. Противопоставление ите- рационных и конечных методов в известной мере условно. Так, симплекс-метод имеет безусловно итерационную структуру, а свойство его конечности обусловлено спецификой задачи. Мы рассмотрим еще несколько итерационных методов, описанных ранее применительно к нелинейным задачам. Оказывается, для случая линейного программирования они заканчиваются за Ко- нечное число шагов. Начнем с двух методов, представляющих скорее теоретиче- ский, а не вычислительный интерес (решаемые в них на каждом шаге вспомогательные задачи не проще исходной). 1°. Метод регуляризации. Вместо исходной задачи min (с, х), Ах (1) будем решать последовательность регуляризованных задач min [(с, х) + ej| х ||2], Ax^b. (2) Решение такой задачи существует (если допустимое множество
§ 3, ИТЕРАЦИОННЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 289 непусто) и единственно, обозначим его xk. Из теоремы 12 § 1 непосредственно следует конечность метода. Теорема 1. Пусть множество решений (1) X* непусто. Тогда существует ё > О такое, что при всех 0 < е* ё будет xk = х*, где х* — нормальное решение исходной задачи (т. е. элемент X* с минимальной нормой). А Таким образом, в методе регуляризации для линейного про- граммирования, в отличие от общего случая (см. теорему 4 § 1 гл. 6), нет нужды устремлять параметр регуляризации к 0 — ре- шение перестает меняться при всех достаточно малых значе- ниях Eft. 2°. Метод проекции градиента. Построим, как в прокс-методе (см. § 1 гл. 6), вспомогательную задачу на й-й итерации вида min [(с, х) + (2у) 1II х —||2], Дх<6 (3) и ее решение возьмем в качестве х&+’. Очевидно, что этот метод может быть записан в форме метода проекции градиента х'=+1 — Pq (xk — ус), Q = {x: Ax^b}. (4) Теорема 2. Если решение х* задачи (1) существует и един- ственно, то при любом у > 0 метод (3) конечен, т. е. xk = х* для некоторого k. Действительно, в (1) достигается острый минимум (см. лем- му 5 § 1), а в соответствии с общей теоремой 1 § 2 гл. 7 метод проекции градиента для острого минимума конечен. А Л^етод (3), конечно, не эффективен — в нем вместо исходной задачи решается последовательность более трудных вспомога- тельных задач. Его можно сделать более разумным, если на каждом шаге учитывать лишь в-активные ограничения, т. е. ре- шать задачу min [(с, х) + (2у)и || х — xk Ц2], (а‘, х)<4, i^lk, Д = {г: (аг, xft)>6t-— в}. Однако более перспективным является переход к двойствен- ным методам решения вспомогательных задач, который и опи- сывается ниже. 3°. Метод штрафных функций. Вместо квадратич- ной задачи (2), фигурирующей в методе регуляризации, будем решать двойственную ей. В соответствии с (12) и (13) § 4 точка xk — решение (2)—может быть найдена по формуле xfe=-(2efe)-'(c + /lV), (6) где yk — решение задачи min[(4 У)+ 4^llc + /Wl- (7)
293 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Задача (7) сводится к минимизации квадратичной функции на неотрицательном ортанте; минимум может быть найден методом сопряженных градиентов (§ 3 гл. 7). С другой стороны, (7) есть не что иное, как метод штрафных функций для решения задачи, двойственной к (1): min (b, у), Агу — — с, у^О, (8) где в качестве штрафного коэффициента берется 1/(4е&), е*->0. Таким образом, метод регуляризации эквивалентен методу штрафных функций для двойственной задачи. Можно, наоборот, использовать метод штрафных функций для исходной задачи min (с, х), Ах — Ь, xTssO, (9) решая последовательность квадратичных задач минимизации на Иф: min [(с, x) + 4-Z<d|Ах — 6||21, (10) х > 0 L Z J Обозначая решение этой задачи через xk и используя связь с методом регуляризации и теорему 1, получаем следующий ре- зультат. Те о р е м а 3. Если решение задачи (9) существует, то для достаточно больших Kk метод (10) дает точное решение двой- ственной задачи: у* — Кк(АА — Ь). А (11) Таким образом, метод штрафных функций для задач линей- ного программирования конечен для двойственной задачи (хотя при этом не обязательно xk — решение прямой задачи). 4°. Методмодифицированной функции Лагран- жа. Выписывая задачу, двойственную к (3), мы приходим к методу yk — argminfa, у) — (Ату, х*) + 4 у II Агу + с||21, 0>О L z J (12) xk+i = хк — у (ATyk + с). Но это не что иное, как метод модифицированной функции Ла- гранжа для двойственной задачи (8) с К ~ у. Обратно, если исходная задача имеет каноническую форму (9), то метод моди- фицированной функции Лагранжа xk = argminM (х, yk, К), М (х, у, К) = (с, х) + (у, Ах - b) -F’/aKjl Ах - b ||2, (13) yk^ = ykAK(Ax!i~b)
§ 3. ИТЕРАЦИОННЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 291 эквивалентен методу проекции градиента для двойственной к (9) задачи с у = К.. С учетом теоремы 2 и упражнения 1 полу- чаем следующее утверждение. Теорема 4. Если решение задачи (9) существует, то при любом К > 0 метод (13) за конечное число шагов дает решение прямой и двойственной задач. ▲ Метод модифицированной функции Лагранжа (13) имеет много привлекательных черт. Поскольку в нем К. не обязательно должно быть слишком большим, то вспомогательные задачи в (13) не являются неизбежно плохо обусловленными. С другой стороны, при увеличении К число итераций сокращается и в принципе может быть доведено до 1 (см. упр. 4). Решение (13) может быть найдено с помощью хорошо отработанного метода сопряженных градиентов за конечное число шагов. Впрочем, нет нужды решать вспомогательные задачи (13) точно — можно получить результаты о сходимости и для случая, когда миними- зация в (13) осуществляется приближенно, с определенным образом регулируемой точностью. Наконец, как и в большинстве итерационных методов, в (13) приходится иметь дело лишь с исходной матрицей ограничений А, что позволяет использовать свойство ее слабой заполненности. Благодаря этим достоинствам метод (13) нашел широкое применение в вычислительной прак- тике и в некоторых ситуациях успешно конкурирует с симплекс- методом. Упражнения. 1. Докажите теорему 2 без предположения об единственности решения. 2. Пусть исходная задача имеет вид (1) и применяется метод штрафных функций: xk — argmin [(с, х) + (Kt/2)|| (Ах — 6) + И2]- Докажите, что для до- статочно больших Кь вектор К a (Ax'1 ~ i?)+ является решением двойственной задачи (8). 3. Докажите, что если допустимое множество в (1) ограничено, то най- дется у > 0 такое, что при всех х° е Q и всех у Y метод (3) дает реше- ние за 1 шаг, т. е. х1 = х*. 4. Используя предыдущий результат, покажите, что при достаточно боль- шом К метод (13) дает решение за 1 шаг. 3. Сведение к негладкой минимизации. Описанные выше ме- тоды, несмотря на свои достоинства, не могут считаться универ- сальным средством решения любых задач линейного програм- мирования. Дело прежде всего в том, что на каждом шаге в них требуется решать довольно сложную вспомогательную задачу и при очень большой размерности вычисления становятся тру- доемкими или даже нереализуемыми. Поэтому представляют интерес и другие итерационные методы, в которых вычисления на отдельной итерации максимально просты (возможно, за счет более медленной сходимости). Эти методы дают возможность находить (хотя бы и грубо) приближенное решение очень боль- ших задач.
292 ГЛ. 10. линейное и квадратичное программирование Первый из такого рода подходов связан с использованием простых методов негладкой оптимизации, описанных в гл. 5. Свести же исходную задачу линейного программирования к безусловной минимизации кусочно-линейной функции можно различными способами. Так, можно ввести f (х) = (с, х) + К max [(af, х) — &г]+- (14) 1 < i т Тогда для достаточно больших К. К точки минимума f(x) на Rn совпадают с множеством решений X* задачи min (с, х), (а‘, х)<4г, z = l, (15) Отметим, что аналогичный метод негладких штрафов уже об- суждался применительно к задачам выпуклого программирова- ния (лемма 2 § 3 гл. 9). Один из субградиентов (14) вычис- ляется очень просто: df (х) = с + Ка1, j — argmax [(а*, х) — &,]+, (16) 1 < I < т т. е. в точке х достаточно найти «наиболее нарушенное» ограни- чение. Недостатком такого подхода является то, что число К обычно неизвестно. Весьма простой способ трансформации задачи связан с ис- пользованием двойственной функции. Пусть в исходной задаче имеются двусторонние ограничения: min (с, х), xeR", Ax — b, b е R'”, a<x^d. Введем двойственную функцию (см. (47) § 1 гл. 9): 9(f/) = — min [(с, х) + (у, Ах — &)]. (18) х. < cl Для всякого у решение х(у) задачи минимизации по х отыски- вается чрезвычайно просто: ( а{, если (c + ATy)i>Q, Х (Uh { d{, если (с + Ary)i <0. Функция 0(z/) выпукла, кусочно-линейна, всюду определена, и в силу теоремы двойственности исходная задача эквивалентна безусловной минимизации В (у). Субградиент 0(z/) имеет вид ае(/) = -(Лх*-6), х* = х(/). (20) Такой подход особенно выгоден, если размерность двойствен- ных переменных мала: т <С п. Наконец, записав для задачи (15) условия экстремума (см. теорему 3 § 1) в виде равенств и неравенств: Ах Ь, (с, х) — (Ь, у), у >0, АТу — с = 0, (21)
§ 3. ИТЕРАЦИОННЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 293 можно свести задачу линейного программирования к минимиза- ции невязок в системе (21): <р (х, у) = || (Лх - Ь)+ || + I (с, х) - (Ь, у) | + || у+ || +1| Ату - с ||. (22) Этот способ не экономен, так как в нем размерность задачи равна п + т. Единственное его преимущество заключается в том, что минимальное значение ср известно: ср* — 0. После того как задача сведена к безусловной минимизации тем или иным способом (для определенности будем говорить о (14)), можно применить субградиентный метод: x*+1 = xk - yk df (xft). (23) При обычных условиях на у* результаты § 3 гл. 5 гарантируют сходимость. Если решение х* единственно, то /(х) имеет острый минимум и тем самым справедливы оценки скорости сходимо- сти, полученные в § 3 гл. 5 для острого минимума. Вместо субградиентного метода (23) можно использовать более мощные методы ускорения сходимости из § 4 гл. 5, на- пример, метод эллипсоидов (12) § 4 гл. 5 или метод с растяже- нием пространства (14) § 4 гл. 5. Возможности таких способов ограничены, так как в них требуется запоминать матрицу Н<> высокой размерности, а скорость сходимости не слишком велика (см. оценки в теореме 4 § 4 гл. 5). Однако на этом пути Хачия- ном [10.15] получен интересный теоретический результат. Ока- зывается, что можно найти точное решение за конечное число арифметических действий, которое полиномиально зависит от размерности задачи (мы отсылаем к [10.15] за точной формули- ровкой, см. также упр. 5 и 6). Основную роль в доказательстве этого факта играет оценка из теоремы 4 § 4 гл. 5 — для дости- жения некоторой фиксированной точности по функции нужно сделать порядка О(п2) итераций метода (12) § 4 гл. 5. С другой стороны, для симплекс-метода и других известных конечных ме- тодов получаются лишь экспоненциальные оценки числа дейст- вий (мы уже указывали в § 2, что существуют примеры, в ко- торых симплекс-метод требует числа итераций порядка ехр(О(п))). Не стоит делать из этих оценок вывод о том, что итерационный метод, основанный на сведении задачи линейного программирования к безусловной минимизации и применении метода эллипсоидов, превосходит симплекс-метод для больших размерностей. Во-первых, для конечного п нельзя сказать, что больше: Ofri'} или ехр(О)и)), — все зависит от входящих в эти формулы неизвестных констант н величины п. Во-вторых (и это главное), оценки симплекс-метода рассчитаны на «наи- худшие» задачи. В подавляющем же большинстве реальных за- дач, как уже отмечалось, для получения решения в действитель- ности требуется порядка т 4- 2т итераций. В то же время оцен- ка скорости сходимости метода эллипсоидов реализуется для
294 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ всех задач (см. § 4 гл. 5). Наконец, кроме числа действий, ра- ботоспособность методов зависит от многих факторов (устойчи- вость к погрешностям вычислений, требуемый объем памяти и т. д.). Упражнения. и 5. Пусть задана система неравенств У ai/Xj ^bi,i = 1, ..., т, где сщ, /-1 bi — целые числа; ]аг,| sr h, |&/| -Д h, н пусть L = п log2 h-у/п-^ log2(rc + 1). Докажите, что если система имеет решение, то найдется решение х* такое, что ||х*|1 гД 2Д а если система, не имеет решения, то minf(x) Js 2~л, где f(x)= max I У atjXj — bt ). 6. Используя предыдущий результат, покажите, что метод (12) § 4 гл. 5, примененный для минимизации )(х), за число итераций O(n2L) дает возмож- ность выяснить, имеет система неравенств решение или нет. 4. Использование функций Лагранжа. В § 3 гл. 9 описыва- лись двойственные методы выпуклого программирования, являю- щиеся методами отыскания седловой точки функции Лагранжа. Простейший из них — метод Эрроу—Гурвица — Удзавы — для задач линейного программирования не сходится (см. пример (14) в § 3 гл. 9). Однако если функцию Лагранжа заменить на модифицированную, то соответствующий метод (см. (20) § 3 гл. 9) является сходящимся. Именно, рассмотрим для задачи (1) метод xfe+1 __ xk — уД/f' (xk, yk, — xk _ у + AT[yk + K(Axk-b)]+), (24) yk+l = yk yM'y (xk, yk, K) = yk + у max {— ykjK., Axk — b} и соответственно для задачи (9) метод xfe+1 = {xk — уМ'х (xk, yk, K)]+ = = [xk — y(c+ ATyk + KAT (Axk — b))]+> (25) yk+l = yk + чМ'у(хк, yk, K) — yk + у (Axk — b). Теорема 5. Если решение задач (1) или (9) существует, то для всякого К > 0 найдется такое у > 0, что при 0 < у <Ду методы (24) и (25) сходятся к решению соответствующих пря- мой и двойственной задач со скоростью геометрической про- грессии. ▲ Следует обратить внимание на то, что знаменатель прогрес- сии нельзя сделать малым за счет выбора К, так что скорость сходимости может быть невелика. В методе Эрроу — Гурвица — Удзавы делается градиентный шаг минимизации по х и максимизации по у функции Лагранжа,
§ 3. ИТЕРАЦИОННЫЕ МЕТОДЫ ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ 295 Вместо этого можно поочередно находить минимум по х и мак- симум по у этой функции и сдвигаться в полученном направле- нии. Именно, пусть решается задача min (с, х), х (26) Ах^Ь, Ь^Ят, х>0, с > О, b > О, и пусть х° некоторая допустимая точка, (с, х°) — а. Тогда реше- ние задачи (26) не изменится, если добавить ограничение (с, х)sC а; аналогично в силу теоремы двойственности всякое решение двойственной задачи должно удовлетворять условию (&, у) sC а. Поэтому (26) можно свести к такой задаче о седло- вой точке: min max L (х, у) == max min L (x, у), x<=Q у eS у <= S x e Q L (x, y) = (c, x) + (y, Ax — b), (27) Q = {x>0, (c, x)<a), S = {i/>0, (b, r/)<a). Будем отыскивать седловую точку рекуррентно, минимизи- руя L(x,yk) noxeQ и максимизируя L(xk, у) по j/eS: xk+\ __ xk _|_ yk _ x&), хк = Argmin L (х, yk), (28) = + — Ук)> Ук ~ Argmax Л (xs, y). ' у e s Если b > 0, c > 0, a > 0, то точки хк, yk находятся элемен- тарно: 0, если с + ATyk 0, xft = а . (с + ATyk)i I = argmin ------— в противном случае; . (с + Л у )f а (29) ' 0, если Axs — b 0, йк = < а • (Axk — b)i « k bj"ei> / = argmax----------— в противном случае. Теорема 6. Если в задаче (26) с > 0, b > 0, а > 0, то в методе (28), (29) при оо Yft -> о, Е Yfe = 00 (30) fc-0 все предельные точки являются решением прямой и двойствен- ной задач. ▲ Метод (28), (29) первоначально был предложен в теории игр — это так называемый метод фиктивной игры или ме- тод Брауна — Робинсон. Его привлекательной чертой является
296 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ чрезвычайная простота. К сожалению, и теоретические оценки и практика вычислений свидетельствуют о его медленной сходи- мости. Многочисленные эвристические попытки ускорения схо- димости пока не дали ощутимых результатов. 4. Заключительные замечания. До недавнего времени счита- лось, что симплекс-метод является универсальным эффективным аппаратом для решения любых задач линейного программирова- ния, и нужда в каких-либо иных методах (в частности, итератив- ных) практически не возникала. Однако в настоящее время та- кая точка зрения не является общепринятой. Можно надеяться, что вскоре будут созданы вычислительные схемы итеративных методов, конкурентноспособные с симплексным алгоритмом. § 4. Квадратичное программирование Задачу минимизации квадратичной формы при линейных ограничениях min [(Сх, х)/2 — (d, х)], х е Q, Q = {х: Ax^b} (1) будем называть задачей квадратичного программирования. Здесь хе R", С — симметричная матрица п X п, b е R'”, А — ма- трица т\п. Мы знаем, что квадратичная форма (Сх, х)/2— — (d, х) является выпуклой в том и только в том случае, когда С>0. Отказ от этого условия приводит, вообще говоря, к мно- гоэкстремальности задачи. В дальнейшем будем всегда предпо- лагать, что С > 0. (2) Отметим еще, что линейные ограничения в (1) можно преобра- зовать теми же способами, что и для задач линейного програм- мирования, так что мы будем пользоваться любой удобной фор- мой их записи. 1. Условия экстремума. Конкретизируя общие условия эк- стремума для выпуклых задач (теорема 2 § 1 гл. 9), немедленно получаем следующие результаты. Теорема 1. Необходимым и достаточным условием экстре- мума для задачи (1), (2) в точке х*, Ах* X Ь, является сущест- вование у* е Rm таких, что Cx*-d + АТу* = 0, у*>0, у*(Ах* — Ь) — 0. ▲ (3) Чтобы выписать двойственную к (1) задачу, составим функ- цию Лагранжа L (х, у) = (Сх, х)/2 — (d, х) + (у, Ах — Ь) (4) и двойственную функцию Ф (у) = inf L (х, у). (5)
§ 4. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 297 Выясним вид О(ф), т. е. области, где ф(г/)=# —оо. Если ква- дратичная функция ограничена снизу на R", то она достигает минимума (см. упр. 2 § 3 гл. 1). Поэтому для всякого 1/е0(ф) найдется х = х(у) такой, что L'x(x, у)~0, т. е. Сх — d + Ату = 0. При этом Ф (У) = L (х (у), у) = (Сх, х)/2 + (Агу — d, х) — (Ь, у) = = — (Сх, х)/2 — (Ь, у). Поскольку двойственная задача имеет вид (49) § 1 гл. 8: min6(y), 6(z/) = —ф(у), у>0, yt=D(Q), то ее решение тем самым эквивалентно решению задачи min[(Cx, х)/2 + (Ь, г/)], Сх + Ату *= d. (6) В двух важных частных случаях из (6) можно исключить х: при С = 0 (задача линейного программирования) и при С > 0: х = С-1 (d — Лгу), (7) при этом О(ф)= Rm, и мы получаем двойственную задачу min ['/2 (С"1 (d - Ary), (d - Ату)~) + (Ь, у)]. (8) у>0 Итак, справедливо следующее утверждение о паре двойствен- ных задач: Теорема 2 (теорема двойственности). При С > 0 задача (8) двойственная задаче (1): их решения х*, у* существуют или не существуют одновременно, они связаны соотношением х* — С~'(d — Ату*), (9) и выполняются неравенства (Сх, х)/2 - (d, х) > (С1 (d - Ату), d - Ату)/2 + (Ь, у) (10) для всех Ах sC Ь, у Q, причем равенство возможно лишь при х = х*, у = у*. А Таким образом, при С > 0 задача квадратичного программи- рования сводится к минимизации квадратичной функции на R™. Мы неоднократно пользовались этим сведением ранее, при изу- чении различных итеративных методов, на каждом шаге которых решалась задача квадратичного программирования. Особенно просто выглядит двойственная задача, если С — у~Ч, т. е. если исходная задача имеет вид min[(d, х) + (2у)-11| х — а ||2], Лх<&. (11)
298 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ Построение двойственной к ней не требует обращения матриц: min [(у/2) || d + Ату ||2 - (у, Аа - b)], y^Q, (12) а из теоремы 2 получаем, что решения х*, у* задач (11), (12) связаны соотношением х* — а — у(Ату* + d). (13) Упражнения. 1. Проверьте, что любая вершина многогранника Q = {/eR': |х,| ST 1, i — 1, ..., п] является точкой локального минимума функции f(x) =—||х||2. 2. Убедитесь, что для задач: a) min [(Сх, х)/2—(d, х)], х Да 0; б) min [(Сх, х)/2—(d, х)], Ах=Ь; в) min ||х—all2, Ax=b; г) min [(Сх,х)/2— — (d, х)], Ах — Ь, х Дь 0, условия экстремума имеют соответственно вид: а) Сх*.—d >0, (Сх* — d,x*) = 0; б) Сх* — d + Ату* = 0 (ср. с § 1 гл. 7); в) х*—а + Ату* — 0, г) Сх* — d + Ату* Дь 0, (Сх* — d + Ату*, х*) = 0. 2. Существование, единственность и устойчивость решения. Случай положительно определенной матрицы С исследуется особенно просто. Теорема 3. Пусть Q непусто, аС>0. Тогда решение х* задачи (1) существует, единственно и выполняется оценка f (х) — f (х*) > а || х — х* ||2, a>0 (14) для всех х е Q. Действительно, в этом случае минимизируемая функция сильно выпукла, и можно применить результат упражнения 6 § 1 гл. 7. ▲ Случай С = 0 уже анализировался ранее — задача квадра- тичного программирования переходит в задачу линейного про- граммирования. Ситуация при С 0 описывается близкими ре- зультатами. Теорема 4. Пусть С 0, Q непусто, (Сх, х)/2 — (d, х) ограничена снизу на Q. Тогда решение задачи (1) существует. Этот результат доказывается по той же схеме, что и теоре- ма 9 § 1. А Следствие. Задача niinllCx — d ||2, xeQ = {x: Лх<6) (15) имеет решение, если Q непусто. ▲ Основные результаты об устойчивости решения следуют из общих утверждений, относящихся к задаче выпуклого програм- мирования (см. § 1 гл. 9). Приведем лишь один специфический для квадратичного программирования факт. Теорема 5. Пусть С 0 и множество решений X* задачи (1) непусто, [* —f(x*), х* е X*. Тогда найдутся а > 0, fl > 0 такие, что для любого x<=Q либо f (х) — f * ар2 (х, X*), /и>о f (х) —Г>₽р(х, X*). ▲ (16)
§ 4. КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 299 3. Конечные методы. Принципиальная возможность решения задачи квадратичного программирования за конечное число арифметических действий связана с тем, что минимизация квадратичной функции на линейном многообразии сводится к ре- шению системы линейных уравнений, а число граней многогран- ника конечно. Поэтому, последовательно решая задачи на раз- личных гранях многогранника ограничений, можно найти реше- ние задачи. Один из возможных путей реализации такого подхода заклю- чается в следующем. Пусть решается задача (1) при С>0 и на fe-м шаге найдена допустимая точка хк и выделено множество ограничений Ik, причем все is/» являются активными. Найдем решение задачи min[(Cx, х)/2 — (d, х)], (a1, x) = bh idlk- (17) Эта задача имеет решение в силу теоремы 3 и условия (а‘, х*) = = bi, i е Ik', оно может быть найдено из системы линейных урав- нений (см. упр. 26)) Сх —rf+ £ у^ = 0, (a1, x) = bt, idlk. (18) Если окажется, что хк, ук (решения этой задачи) таковы, что хк удовлетворяет всем ограничениям (а‘, х) bi, i — 1, ..., tn, а у^О, idlk, то xk — решение, см. теорему 1. Если точка хк не удовлетворяет ограничениям, то возьмем х/г+1 — xk Xk (хк — Хк), (19) где 0<^<1 выбирается из условия Х* = тах{Л: хк ф- ф-Л(х*— хк) sQ}, включим новые активные ограничения в Ik+i и повторим вычисления. Наконец, если точка хк допустимая, но среди г/^есть отрицательнее, то возьмем xA+1 == xk, 1k+i — {idlk, ук > 0}. Пусть описанный выше процесс начинается с точки х° е Q, /0 — {i: (а‘, }fi) = bi}. Тогда за конечное число итераций будет найдено решение. Можно использовать идеи исключения переменных подобно тому, как это делается в симплекс-методе. При этом целесооб- разно задавать задачу в канонической форме min [(Сх, х)/2 — (d, х)], Ах — b, х^гО. (20) Здесь достаточно требовать выполнения условия С 0 (а не С > 0). Наконец, путем последовательного введения искусствен- ных переменных можно сделать вычислительную схему совер- шенно аналогичной схемам симплекс-метода. Мы не будем на этом подробнее останавливаться, так как с идейной точки зре- ния эти вопросы майо интересны.
300 ГЛ. 10. ЛИНЕЙНОЕ И КВАДРАТИЧНОЕ ПРОГРАММИРОВАНИЕ 4. Итеративные методы. Двойственная задача (8) сводится к минимизации квадратичной функции на R+, что может быть сделано методом сопряженных градиентов (см. § 3 гл. 7). Таким образом, получаем итеративный метод, приводящий к решению за конечное число итераций. Впрочем, этот подход требует для вычислений градиента либо построения С-1, либо решения на каждом шаге системы линейных уравнений с матрицей С. Это целесообразно лишь тогда, когда С достаточно проста (напри- мер, единичная). Описанные в § 3 итерационно-конечные методы линейного программирования перестают быть конечными для квадратич- ных задач. Сходимость и оценки ее скорости для этих методов можно получить с помощью общих результатов, относящихся к гладким выпуклым задачам (см. § 3 гл. 9). В целом для задач квадратичного программирования общие итеративные методы выпуклого программирования не обладают какой-либо повышенной эффективностью. С другой стороны, спе- цифические итеративные алгоритмы для таких задач также мало разработаны. В частности, не очень ясно, как наиболее целесо- образно использовать идеи метода сопряженных градиентов для общей задачи квадратичного программирования. Поэтому проб- лема решения больших квадратичных задач не может считаться полностью решенной.
ЧАСТЬ III ПРИКЛАДНОЙ АСПЕКТ Глава 11 ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ Первые две части книги носили несколько абстрактный ха- рактер. Каждая глава начиналась фразой типа «рассмотрим за- дачу минимизации функции f(x) на R" в предположении, что f(x) выпукла и дифференцируема...». Однако, где возникают такого рода задачи? Насколько они распространены? Каков конкретный вид минимизируемой функции? Приводимые ниже примеры — попытка дать ответ на подобные вопросы. После формулировки задачи будет обсуждаться возможность ее ана- лиза и решения методами, описанными выше. При этом нас особенно будет интересовать проблема сочетания общих и спе- цифических методов решения. Оказывается, что для многих кон- кретных задач можно предложить специальные методы, исполь- зующие особенности данной задачи, и более эффективные, чем стандартные. Некоторые из таких приемов будут описаны ниже; разумеется, они отнюдь не исчерпывают всех возможностей. Как увидит читатель, решение всякой конкретной задачи не является рутинным процессом и требует изобретательности и опыта. Отметим еще, что в каждой из областей науки или практики, где возникают задачи оптимизации, сложилась своя терминоло- гия и система обозначений, иногда резко отличающихся от при- нятых в теории экстремальных задач. Так, в работах по иден- тификации принято обозначать неизвестные параметры через а, Ь, с, результаты измерений — через х, у, ..., так что ти- т личная задача записывается в виде min7 (с), 7(c) = X F — Мы не будем использовать подобные «локальные» обозначения, а будем придерживаться традиций, принятых в задачах опти- мизации. § 1. Задачи идентификации Пожалуй, наиболее часто необходимость оптимизации возни- кает в связи с проблемами идентификации, т. е. при построении модели по имеющимся данным об объекте. Задачи идентифика- ции отличаются большим разнообразием в зависимости от вида модели (статическая, динамическая, линейная, нелинейная) и предположений о данных (прямые, косвенные, статистические, детерминированные).
302 ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ 1. Статистические задачи оценки параметров. Пусть имеется последовательность измерений г1, zm, которая рас- сматривается как независимая выборка с плотностью распреде- ления p(z, х*). При этом вид плотности р(г, х) известен, а неиз- вестное значение параметра х* е R'! требуется определить. Например, пусть заданы т измерений скалярной величины х*, содержащие случайную ошибку: — (1) где & — независимые случайные величины, нормально распреде- ленные со средним 0 и дисперсией 1. Тогда р (z, х) — (2л)~1/2 ехр (— (z — х)2/2), (2) и задача заключается в отыскании оценки для х* по z1, ..., zm п плотности (2). С аналогичной задачей мы уже сталкивались в § 5 гл. 4. Наиболее распространенным способом оценивания в такой ситуации является метод максимального правдоподобия, в ко- тором рекомендуется выбрать оценку для х*, максимизирующую вероятность реализации z1......zm. Поскольку последняя про- порциональна p(z\ x)p(z2, х) ...p{zm, х) в силу независимости измерений, то метод сводится к максимизации p(z\x) ...p(zm,x) по х. Если взять логарифм этой функции (что не_ меняет реше- ния) и изменить знак, то мы приходим к задаче безусловной минимизации: tn min fm(x), fm(x) = —X In p(zl, х). (3) Z = 1 Вектор xln = argmin fm (x) (4) будем называть оценкой максимального правдоподобия. В част- т ности, для задачи (1), (2) fm (х) = у (zf — х)2 + — In 2л и i=i минимум fm(x) отыскивается в явном виде т т. е. оценкой максимального правдоподобия в данном случае является среднее арифметическое измерений. Метод максимального правдоподобия обладает важным свойством оптимальности, которое и оправдывает его широкое распространение. Оказывается, при некоторых предположениях
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 303 регулярности относительно p(z, х) величина л/т (х'т — х*) в пределе при т-^-оо распределена нормально со средним 0 и матрицей ковариаций S: Г Vxp (г, х*) V7p (г, х*) ----------------------------------------dz- (6) Здесь ] — фишеровская информационная матрица (ср. с (23) § 5 гл. 4). Но величина У-1 в силу неравенства Крамера — Рао (см. (24) § 5 гл. 4) — это нижняя граница для матриц ковариа- ций величин у/т(Лт — х*), где хт — произвольная несмещенная оценка. Таким образом, оценка максимального правдоподобия имеет асимптотически наилучшую характеристику точности. На языке статистики: оценка х*т является асимптотически нормаль- ной, состоятельной и асимптотически эффективной. Итак, для построения оценки максимального правдоподобия нужно найти безусловный минимум fm(x) вида (3). Конечно, явно отыскать удается лишь в редких случаях (подобных задаче (1), (2)). Обычно для минимизации fm(x) приходится прибегать к численным методам. Отметим особенности fm(x), позволяющие выбрать определенный метод минимизации. Во- первых, размерность задачи обычно невелика (число искомых параметров редко превосходит 10). Во-вторых, оптимальность оценки максимального правдоподобия доказывается при предпо- ложениях регулярности, которые включают гладкость p(z, х) по х. Поэтому для тех задач, где метод максимального правдо- подобия обоснован, функция ftn(x) является гладкой. В-третьих, fm(x) имеет специфический вид — она является суммой одинако- вых (отличающихся лишь значениями г‘) функций. Поэтому обычно нетрудно выписать ее производные, значит, вычисление 'Vfm(x) и V2f,n(x) не представляет труда. Наконец, для боль- шинства задач (хотя и не для всех) fm(x) является выпуклой, и проблема многоэкстремальности не возникает. В то же время, как показывает практика, fm(x) часто бывает плохо обуслов- ленной. На основании сказанного и анализа методов в гл. 1 и 3 мож- но сделать вывод, что для минимизации fm(x) вида (3) целесо- образно применять метод Ньютона в сочетании с приемами, гарантирующими его глобальную сходимость (§ 1 гл. 3). Упражнения. 1. Убедитесь, что метод максимального правдоподобия для оценки сред- него и дисперсии нормального распределения приводит к минимизации в R2 m E(z — Xj)2 --------5—. Исследуйте эту функцию (вы- >=1 2хг пуклость, существование и единственность минимума, область определения); выпишите ее производные.
304 ГЛ. If. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ 2. Запишите метод максимального правдоподобия для задачи отыскания минимума квадратичной функции по измерениям ее градиентов (см. п. 2 § 5 гл. 4). 2. Задачи регрессии. В рассмотренной выше задаче все изме- рения имели одинаковое распределение. Более общей является ситуация, когда измеряемая величина меняется в зависимости от значений некоторых входных переменных, предполагаемых известными. Простейшей здесь является регрессионная задача. Пусть г/г = <р(цг, х*)~Нг, z—1, ..., т, (7) где yt — результаты измерений, <р: RSXR”^-R’— известная функция, uXR’ — входные величины, х* R"— искомые пара- метры, gieR1 — случайные ошибки. Требуется, зная yi, и‘, i = = 1, ..., т, оценить х*. Такие задачи часто возникают в эко- нометрике (восстановление параметров экономических моделей по статистическим данным за прошлые годы), при моделирова- нии химических реакторов (вычисление параметров кинетиче- ских уравнений по экспериментальным данным), в кристалло- графии (оценка параметров кристаллической решетки по дан- ным рентгеноструктурного анализа) и т. д. Предположим, что & случайны, независимы и одинаково рас- пределены с известной плотностью p(z). Тогда оценка макси- мального правдоподобия имеет вид т х*т = argmin fm (х), fm (x) = — E In p (yt — <p(z?, x)). (8) xe=Rn Можно показать, что при некоторых предположениях оценка (8) по-прежнему является асимптотически нормальной, состоя- тельной и асимптотически эффективной. Наряду с (8) для решения регрессионных задач применяют и другие методы, в частности метод наименьших квадратов, в котором m Xm = argmin fm (x), fm (x) = £ (г/г — q> (u!, x))2. (9) xeRra Этот метод, во-первых, не требует знания закона распреде- ления помехи, а во-вторых, более прост. Для нормально распре- деленных помех метод максимального правдоподобия совпадает с методом наименьших квадратов. Для других законов распре- деления оценка наименьших квадратов не является, вообще го- воря, эффективной или асимптотически эффективной. Она, од- нако, обладает одним важным свойством. Пусть модель ли- нейна: У1^={и1, x‘) + gz, m, x*e=R", и1 е= R". (10)
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 305 Тогда оценка наименьших квадратов линейно зависит от изме- рений: хт = и*У, (П) где у = {уъ ..., г/т} е Rm, U— матрица т^п со строками и1, a U+ — псевдообратная к ней (§ 1 гл. 6). Известная в стати- стике теорема Гаусса — Маркова утверждает, что (11) обладает наименьшей среди всех линейных несмещенных оценок матри- цей ковариаций независимо от закона распределения помехи. Итак, наиболее распространенные методы оценивания для задач регрессии вновь приводят к задаче безусловной миними- зации (8) или (9). Функции fm(x) при этом обычно являются гладкими,, однако задачи (8) и (9), как правило, невыпуклы (для нелинейных по х функций <р(и, х)) и могут иметь доста- точно большую размерность (порядка нескольких десятков). Функции (8) и (9) являются составными — они имеют вид f(x) = F(z(x)), (12) где z(x): Rn->Rm, F(z): Rm->R1. Действительно, если взять т z(x)i — у~ <р(и‘, х) и Г (z) = — У, 1пр (г/), то получим (8), а i = l т для E(z) = E2/ получим (9). Для минимизации функций вида 1 = 1 (12) удобно применять методы первого порядка (такие, как ме- тод сопряженных градиентов и квазиньютоновские методы, см. гл. 3), поскольку градиент f(x) нетрудно выписать: V/(x) = = z/(x)rVF(z(x)). Однако вычисление V2f(x) весьма громоздко, так как оно требует знания вторых производных г(х) (т. е. зна- ния т матриц размерности гаХ«). Единственное исключение — случай линейной модели (10) и неквадратичной Е(г); тогда m т f (X) = £ Ft (у{ — (и1, х)), Vf (х) = - Е и1 (у{ — (и1, х)), г=1 (13) т V2f (х) == Z и‘ (мг)г V2F; (г/, - (и1, х)), L ~ 1 и можно применить метод Ньютона. Для нелинейных моделей существует специальный метод, использующий вид функции (12). В нем строится итерационная последовательность хк, при- чем в каждой точке z(x) линеаризуется, а Е(х) аппроксими- руется квадратично: х*+* = argmin fk (х), fk W = Fh (zk + z' (xk) (x — xfe))> zk = z(xk), Fk(z)==F(zk) + (yF(zk), z-zk)+ (14) + (V2E(zfe)(z-zfe), z—zk)/2.
ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ ЭС6 В частности, в методе наименьших квадратов Fk(z) = F(z)~ — Ilzll2, а для линейной модели (14) совпадает с методом Нью- тона. Итерационный процесс (14) называется методом Гаусса — Ньютона-, на каждом шаге в нем ищется оценка наименьших квадратов для линеаризованной модели. Можно показать ло- кальную сходимость метода (14) со скоростью геометрической прогрессии; знаменатель прогрессии тем меньше, чем меньше г(Хт) (т. е. невязки в точке минимума). Методу (14) удается придать и глобальную сходимость подобно тому, как это де- лается в методе Ньютона (см. § 1 гл. 3). Итак, для решения задач вида (8), (9) разумно применять либо общие методы типа сопряженных градиентов, либо спе- циальные методы типа Гаусса — Ньютона. Первые более просты; во вторых на каждом шаге нужно обращать матрицу, однако они могут сходиться быстрее. Численные эксперименты показали примерно равную эффективность обеих групп методов. Отметим еще, что задачи (8) и (9) не имеет смысла решать слишком точно, так как х*т все равно не совпадает с истинным значе- нием х*. 3. Робастное оценивание. Оценки максимального правдопо- добия, будучи асимптотически эффективными, не являются устойчивыми к отклонениям закона распределения помехи от предполагаемого. Покажем это на простейшем примере. Оценка (о) обладает наименьшим вторым моментом среди любых не- смещенных оценок для случая нормально распределенных по- мех. Пусть, однако, одно измерение распределено иначе — у него очень большая (или бесконечная) дисперсия. Тогда и у оценки (5) дисперсия будет велика или бесконечна. В то же время описанная ситуация часто возникает на практике — она соответствует, например, поломке измерительного прибора, гру- бой ошибке при записи данных, сбою вычислительной машины. Каждое из этих событий редко, однако их влияние на оценку (5) будет катастрофичным. Путь борьбы с такого рода осложнениями был предложен швейцарским статистиком Хубером в 1964 г. Он исходил из пред- положения, что истинная плотность помехи р неизвестна, а из- вестен лишь некоторый класс 5s; которому она принадлежит. Хубер указал оценки, которые работоспособны для всех Применительно к регрессионной задаче (10) эти оценки имеют вид т х*т == argmin fm (х), fm (х) = £ F (у{ — (и1, х)), ле»" «=-1 F(z) — — lnp*(z), р* = argminЦр), Цр)~ О? dz. (15)
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 30? Иначе говоря, нужно найти наименее благоприятное распреде- ление (обладающее наименьшей фишеровской информа- цией), а затем использовать отвечающую ему оценку максималь- ного правдоподобия. Оказывается, при естественных предполо- жениях такие оценки являются асимптотически минимаксными на &, т. е. в известном смысле оптимальными. Приведем хуберов- ские оценки для двух наиболее важных классов S>. Если д' — класс всех невырожденных распределений, то x*m = argmin fm (х), in fm(x) = —x)|, (16) 1 = 1 т. e. если о распределении ничего не известно, то нужно пользо- ваться методом наименьших модулей. Если S — класс «прибли- женно нормальных-» распределений, то Xm = argmin fm(x), x<=Rn т fm(x)= Е Р(У1.— (иi, х)), / = 1 ( z2/2, |z|^d, F(z) = { । ., ,2/Q . ' (17) (. I z \cl — 6Г/2, I z | > d, где параметр d зависит от «уровня загрязнения» основного рас- пределения. Иначе говоря, если распределение близко к нор- мальному, то нужно пользоваться методом, «промежуточным» между методом наименьших квадратов и методом наименьших модулей. Как мы видим, робастное оценивание вновь приводит к необ- ходимости решать задачи безусловной минимизации функции. Последние являются, однако, недостаточно гладкими. При минимизации (17) метод Ньютона применять нельзя. Например, если точка х такова, что \yt — (и‘, х) | > d, i — 1, ... ..., т, то V2fm(x) = 0, и метод Ньютона теряет смысл. В этой ситуации можно пользоваться либо методом Левенберга — Марквардта (§ 1 гл. 3), либо методами первого порядка типа сопряженных градиентов (см. § 2 гл. 3). Поскольку fm(x) ку- сочно-квадратична, то последний метод можно сделать конеч- ным. Существуют и специальные методы минимизации функций вида (17). Например, в методе Мудрова — Кушка функции Е(г) аппроксимируются квадратичными, вписанными в график F(z), т. е. на каждой итерации решается задача методом наименьших
308 ГЛ 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ квадратов: т xft+I = argmin У, nf (yt — (и1, х))2, x<=r" i=I г^= z/. xk)t ( 1, „ fe __ J г i i/m i^i>d- (18) Задача (16)—это задача безусловной минимизации кусочно- линейной функции. Она сводится к задаче линейного программи- рования при введении дополнительных переменных: т min Е (^ + зг), t=l (и1, х) — yi = t{ — Si, (19) ^>0, 5г > 0. Однако при этом резко возрастает число переменных (обычно в задачах регрессии т ~Э> п). Удобно применять итеративные ме- тоды минимизации негладких функций из гл. 5, в частности ме- тод с растяжением пространства (14) § 4 гл. 5. Приведем еще один способ решения. Запишем (16) для линейного случая в виде min У, I /fl, Ux — y = t i = l и составим модифицированную функцию Лагранжа: М (х, /, V, К) = Е I h I + (v, их — у — t) + к II (7X — у — 1||2/2, где i=i v е Rm играет роль двойственных переменных. Переменную t можно исключить, так как минимум М по t находится в явном виде, и метод модифицированной функции Лагранжа (23) § 3 гл. 9 приобретает вид xft+1 == argmin J' F ((и*, x) — yt + vk^ , X e r" iZl vk+' = KF' fa, x^) - Ui + у , (20) ( Ж |z|<l/K, F1/K|z|- 1/2K2, I z | > 1/K. В результате получаем метод Бертсекаса, в котором для реше- ния негладкой задачи (16) на каждой итерации нужно искать
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 309 минимум дифференцируемой функции вида (17). Иначе говоря, производится итеративное сглаживание функции (16). В силу конечности метода модифицированной функции Лагранжа для задач линейного программирования (см. теорему 4 § 3 гл. 10) метод (20) конечен. Упражнение. 3. Найдите решение задачи (16) для простейшей задачи с и‘ sl.xe R1. Ответ. хт — выборочная медиана, т. е. точка, для которой среди чисел yt найдется равное число больших и меньших ее. 4. Рекуррентное оценивание. Все описанные выше методы оценивания сводятся к довольно сложной задаче безусловной минимизации. Более того, при поступлении каждого нового измерения эту задачу приходится решать заново. Поэтому при обработке последовательно приходящих данных в реальном мас- штабе времени методы типа максимального правдоподобия не- рациональны. Опишем иной подход, удобный для оценивания в такой си- туации. Для задачи оценки параметров из п. 1 введем функцию f(x) — MQ (z, х) = Q (z, х) р (z, х*) dz, Q (z, х) = — In p(z. х). (21) Легко видеть, что х* — точка минимума f(x): f (х) = — (In р (г, х*)) р (z, X*) dz — -Ы1 + ”'г' ^rf2> J L р л f J f (х*) — [р (z, х) — р (г, х*)] dz~f (х*). Здесь мы воспользовались тем, что — 1п(1 -фа)^—а для всех а. Итак, исходная задача заключается в минимизации функции (21). Последняя нам неизвестна (так как в (21) входит неиз- вестная плотность p(z, х*)). В методе максимального правдопо- добия f(x) аппроксимировалась функцией (3): tn = Х>>’ i=s 1 и в качестве оценки х* бралась точка минимума этой аппрокси- мации. Однако можно поступить иначе. Пусть измерения г1, ... ..., zk, ... поступают последовательно, и хк— найденное после обработки k измерений приближение для х*. Тогда можно счи- тать VQ(zft+I, xk~) приближением для Vf(xk) = MVxQ(z, xk) (ср.
310 ГЛ. II. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ с (1)—(3) в § 1 гл. 4) и применить метод градиентного типа для минимизации f(x): _ xk _ %VxQ (2fe+1> ^x,~ yk . (22) P , X ) Мы получили метод иного типа, нежели рассматривавшиеся ранее. Ранее обработке подвергались одновременно т измере- ний — составлялась функция вида (3), и для ее минимизации применялся какой-либо итеративный метод. В процедуре (22) каждое измерение используется лишь однократно, не требуется ни запоминания всех предыдущих измерений, ни оперирования со всеми членами суммы в (3). В подобных случаях говорят об адаптивных или рекуррентных оценках (часто употребляют так- же термин стохастическая аппроксимация). Используя результаты § 2 гл. 4, нетрудно получить утверж- дения о сходимости (22) для А->оо при естественных предполо- жениях. Иными словами, оценки (22) являются состоятельными. Могло бы оказаться, что эти оценки сильно уступают оценкам максимального правдоподобия (4) по точности. Однако это не так. Если взять в (22) у* = y/k, то при соответствующем под- боре у скорость сходимости оказывается по порядку такой же, как для (4), т. е. порядка О(1/й). Если же рассмотреть не- сколько более общий метод, чем (22): 1 УхР(?+1, **) fe+1 p(zk+\ xk) (23) где J — фишеровская информационная матрица (6), то оценки (23) оказываются асимптотически эффективными. Иначе говоря, рекуррентные оценки, будучи гораздо проще оценок максималь- ного правдоподобия, не уступают им по асимптотическим свой- ствам. Аналогичный подход возможен и для задачи регрессии (10). Рекуррентные оценки вида xft+1 _ x? __ ((z?+1, xk) — z/ft+1) (24) используют измерения последовательно. При достаточно общих предположениях о матрицах Hk и функциях i|r. R'^-R1 они ока- зываются состоятельными, а если выбрать Н ____ 1 I — р' ^г'>1 dz k + \J & > J ) р(г) az, k В = Нт 4- У и1 (и1)т, ф (z) = - , fe-»oo К Р (25) то и асимптотически эффективными. Таким образом, здесь нет нужды решать сложные задачи типа (8), а результаты (с асимп-
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 311 •готической точки зрения) оказываются эквивалентными оцен- кам (8). В простейшем случае задачи (1), (2) оценки (23) —(25) при- нимают вид хк+1 = х* — (xk — zA+1)/(&+ 1) и в точности совпа- дают с нерекуррентной оценкой (5). В общем случае рекуррент- ные и нерекуррентные оценки, вообще говоря, различны. В ситуации, когда плотность распределения помехи р не пол- ностью известна, можно применить рекуррентный вариант робастной оценки (15). Для этого нужно в (24), (25) заменить if(z) на —р* (z) ’/р* (z), где р* — «наименее благоприятное» рас- пределение (15). При этом сохраняются те же асимптотические свойства, что и для оценки (15). Таким образом, в случае большого объема выборки рекур- рентные процедуры оценивания обладают заметными преиму- ществами перед нерекуррентными. Отметим еще, что для метода наименьших квадратов можно выписать рекуррентную схему (см. (13) § 4 гл. 4), не требую- щую решения систем линейных уравнений и дающих точно те же оценки, что и (11), для любого числа измерений. Упражнение. 4. Покажите, что 1 — V2f(x*) для Дл) вида (21). Таким образом, (23) есть метод типа Ньютона (вида (18) § 1 гл. 2) для минимизации Дх) при наличии помех, однако в нем не используются явно вторые производные. 5. Анализ данных. Выше предполагалось, что имеется неко- торая модель объекта, известная с точностью до параметров. Требовалось по «выходам» этой модели, осложненным случай- ными ошибками, восстановить неизвестные параметры. Однако такая схема нередко является слишком идеализированной. Во- первых, мы обычно не знаем точного вида модели. В некоторых ситуациях он известен лишь приближенно. Например, при ма- тематическом описании химического реактора пренебрегают по- бочными реакциями, неоднородностью процесса по объему, ста- рением катализаторов и т. д. В других случаях адекватная мо- дель объекта известна, но она слишком громоздка, чтобы ею можно было воспользоваться. Наконец, во многих задачах ана- лизируемый объект вообще не имеет точного математического описания. Таковы задачи, связанные с деятельностью человека, с описанием социальных и экономических процессов, с разного рода геологическими и космическими явлениями (прогноз зем- летрясений или солнечной активности). Во-вторых, делавшиеся выше вероятностные предположения о природе помех в реальных задачах обычно также не выполняются. Так, при обосновании метода максимального правдоподобия для задач регрессии (8) приходится предполагать, что помехи независимы, центриро- ваны, одинаково распределены с известной плотностью. Между тем на практике ошибки бывают коррелированы, содержат си- стематическую составляющую, их распределение меняется и т. д.
312 ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ Как мы видели на примере робастных оценок, все эти наруше- ния исходных предположений могут быть отнюдь не безобидны. В связи с этим возможности и области применения статисти- ческих методов идентификации ограничены. Задачи описания объектов при отсутствии каких-либо предположений об их ве- роятностной природе относят к области анализа данных. В та- ких задачах требуется описать имеющиеся данные с помощью какой-либо модели так, чтобы рассогласование между моделью и объектом было достаточно мало. При этом выбор как класса моделей, так и меры рассогласования в достаточной мере произ- волен и определяется такими факторами, как простота вычисле- ний оценок, простота получаемых формул и т. п. Конечно, такой эмпирический подход имеет и оборотную сторону — неясно, ка- кова достоверность получаемого описания объекта, насколько им можно пользоваться для целей экстраполяции и прогноза и т. п. Вопрос о выборе типа модели весьма сложен, и мы оста- новимся лишь на задачах подгонки параметров модели после того, как выбор последней уже сделан. Типичная задача имеет следующий вид. Пусть вектор и е Rs — «вход» объекта, у е R1— «выход» объекта, .veRn — подбираемые параметры, <р(и, х) — модель объекта (т. е. прогноз выхода при фиксированных зна- чениях входа и параметров), К (г)—выбранная мера для учета рассогласования модели и объекта. Имеются данные и1, yt, i = 1, ..., т, — результаты т измерений выходов при значениях входных переменных, равных и'. Требуется подобрать параметры так, чтобы минимизировать отклонение предсказываемых значе- ний выхода от фактических, т. е. нужно найти т inin /(х), f (х) = X F(у{-<р(иг, х)). (26) х<=е В качестве меры рассогласования обычно берут F(z) = |z|, (27) F(z) = z2. (28) Обратите внимание на то, что мы вновь пришли к задаче вида (12), однако из соображений, никак не связанных с математи- ческой статистикой. Критерий рассогласования не обязательно должен носить аддитивный характер, например часто выбирают минимаксный7 критерий f(x) = max | iji ~ <р(иг, x) |. (29) 1 i m Нужно сказать, что ранее в практике идентификации в ка- честве F(z) почти исключительно бралась квадратичная функ- ция (28), т. е. применялся метод наименьших квадратов. При-
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 313 чины этого были связаны как с традициями (опиравшимися на слишком расширительное применение теорем математической статистики об оптимальности метода наименьших квадратов), так и с соображениями простоты вычислений. Ныне оба эти мотива потеряли свое значение в связи с неробастностью метода наименьших квадратов при отходе от лежащих в его основе предположений и развитием численных методов минимизации, позволяющих практически одинаково просто решать задачи с различными F(z). В ряде случаев данные об объекте имеются в виде непрерыв- ных, а не дискретных измерений. Пусть, например, I <= R1 играет роль времени, и задан выход объекта y(t) при известном входе u(t), О t Т. Тогда аналоги задач (26), (27); (26), (28); (29) принимают вид т f (х) = | у (Г) — <р (и (0, х) | dt, (30) о т №)= $ (Н)-ф(«(0> xtfdt, (31) о f (х) = max | у {t) — <р (и (/), х) |. (32) Таким образом, мы вновь приходим к задаче конечномерной безусловной минимизации, однако каждое вычисление функции f(x) включает операцию интегрирования или взятия максимума, В некоторых случаях эти операции могут быть выполнены в яв- ном виде. Пусть, например, решается задача (31) для <р (и (/), х) = п = Х %;»;(/)• Она сводится к минимизации функции i = 1 п Т п Т f(x) = xtxf ^u{(t)uf(t)dt— 2^хД y(t)u{(t)dt. (33) i, j-\ 0 f = l 0 Если, например, i/i(0=^-1 (т. e. ищется среднеквадратичное приближение у (Г) полиномами), Т ~ 1, то т г 1 . и( (0 U] (0 dt = у (t)ut(t)dt =\y(t)t‘~' dt. J * 1” J * J J 0 0 0 Иначе говоря, для решения требуется вычислить моменты функ- ции у (Г) и найти минимум квадратичной формы (33) с матрицей Гильберта (ЬтЬ)):,-.- ™
314 ГЛ. 1!. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ Эта задача весьма поучительна. Оказывается, что обуслов- ленность ц матрицы Гильберта равна р. — 1,5-107 для п = 6 и ц= 1,6-1013 для п—10. Иначе говоря, даже для задач малой размерности возникают очень плохо обусловленные задачи ми- нимизации. Им соответствует низкая скорость сходимости гра- диентных методов — в соответствии с теоремой 3 § 4 гл. 1 и теоремой 2 § 1 гл. 3 при оптимальном выборе шага градиентный метод сходится со скоростью геометрической прогрессии со зна- менателем q « 1—2ц-1, т. е. q яз 1 — 10~7 для п~ 6 и q та я? 1 — 10-13 для п— 10, так что нужно сделать ~107 шагов градиентного метода при п = 6, чтобы увеличить точность при- ближения всего в е раз. Иными словами, уже для п = 6 гра- диентный метод сходится (по х) безнадежно медленно. Кроме того, задача минимизации становится практически неустойчивой (см. § 3 гл. 1). Действительно, ошибки порядка 8 при определе- нии моментов приводят к ошибкам порядка ре в определении точки минимума. Поэтому, даже если точка минимума ищется точно, но допускается малая ошибка (~10"7) при вычислении моментов, то она приведет к ошибке ~ 1 в определении коэффи- циентов полинома для п = 6 и ~ 106 для п — 10, т. е. для п — 10 найденный полином не будет иметь никакого отношения к истин- ному полиному наилучшего среднеквадратичного приближения. Однако не стоит драматизировать ситуацию. Во-первых, дан- ная задача является критериальной (см. § 1 гл. 6) — нам не важны коэффициенты теоретического полинома наилучшего при- ближения; требуется указать любой полином, хорошо прибли- жающий y(t) в среднеквадратичном смысле. Поэтому произ- вольный вектор х, соответствующий значениям f(x), близким к минимальному, является приемлемым. При этом, как уже отме- чалось в § 1 гл. 6, итеративные методы типа сопряженных гра- диентов сходятся достаточно быстро даже для вырожденных задач, позволяют учесть априорную информацию о решении и устойчивы к погрешностям. Многочисленные эксперименты [11.22] показали, что хороший вариант метода сопряженных градиентов дает практически точный минимум по функции, а для гладких y(t) получается и хорошее приближение к решению (для п Ю). Во-вторых, все трудности при решении задачи мо- гут быть сняты, если искать разложение y(t) не по обычным полиномам, а по ортогональным полиномам. Тогда т dt~ о поэтому f(x) (33) приобретает вид п т f W = (*< — 2а^<), «1 = JУ (0 МО dt <-1 о 0, I ¥= /, 1, * = /,
§ 1. ЗАДАЧИ ИДЕНТИФИКАЦИИ 315 и ее минимум может быть найден явно: х* = аг, г= 1, ..., п. Таким образом, здесь не возникает никаких проблем, связанных с плохой обусловленностью. Этот пример показывает, какую большую роль играет правильный выбор формы записи модели. Разного рода замены переменных, масштабные преобразования и т. п. могут резко улучшить свойства минимизируемой функции, уменьшить число обусловленности и существенно упростить про- цесс минимизации. Упражнения. 5. Решите явно задачи в R1 для — ... —ym_t= 0, ут = а: т т a) min У (у, — х)2; б) min У I у. — х I в) min max \у> — х|. От- £1 i = l вет. a) x* = alm; 6) x* = 0; в) x* = a/2. Сделайте отсюда выводы о влия- нии единичных выбросов при различных критериях оптимальности. 6. Требуется аппроксимировать данные yi в точках ti, i = 1, .... т, за- висимостью вида Xi exp x2t. Сопоставьте следующие способы: а) найти т т min (уг — Xj exp х2^)2 по хе R2; б) найти min У, | — х( exp xf{ : i = i i = i no x eR2; в) сделать замену at = In г/,, zi = 1пх.,г2 = x2 и найти m min (ai — Zj — z2<;)2 по ze R2; г) составить разности Ду, = y;+i — yi, m 1 д m M = ti+I — ti > 0 и взять xf == У — , xf = exP (- x^i)- i=l ‘ i-1 Какой из способов наиболее прост? Какой дает точное решение, если yt = Xj ехр х2/^ Какой более надежен (на эвристическом уровне)? 6. Другие задачи идентификации. Выше речь шла лишь о статических моделях объекта типа регрессионной (7). При идентификации динамических объектов приходится рассматри- вать модели, описываемые дифференциальными или разност- ными уравнениями и подбирать входящие в них параметры или начальные условия. Здесь возможны те же подходы, что и для статических задач, однако возникающие при этом задачи безус- ловной минимизации имеют свои особенности. Во-первых, вы- числение градиента функции требует решения вспомогательных линейных дифференциальных уравнений (уравнений чувстви- тельности) высокой размерности, а потому возможно лишь в простейших задачах. Во-вторых, даже для линейных моделей и квадратичных критериев минимизируемые функции могут ока- заться неквадратичными относительно искомых параметров. В-третьих, обычно по физическому смыслу задачи параметры не могут принимать произвольные значения (например, описываемый объект должен быть устойчивым) . Это приводит к необходимости
316 ГЛ. II. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ минимизации при наличии ограничений. Наконец, рекуррент- ные оценки (типа (24)) требуют специального (и весьма сложного) обоснования. Все это показывает, что задачи иденти- фикации динамических объектов являются существенно более сложными, чем в статическом случае. Все рассмотренные выше задачи были связаны с обработкой результатов «пассивных» экспериментов. В ряде случаев имеется возможность активного вмешательства в формирование данных (выбор входных переменных в регрессионной модели (7), выбор моментов измерения и т. п.). Подобными проблемами зани- мается теория планирования эксперимента. Здесь возникают за- дачи оптимизации трех типов. Первый связан с выбором опти- мального в том или ином смысле плана эксперимента (/.-опти- мальные, D-оптимальные и т. д. планы). Здесь характерны детерминированные задачи на экстремум при наличии ограниче- ний (последние связаны с ограничениями на входные воздей- ствия). Возникающие при этом задачи многоэкстремальны и редко допускают явное решение. Положение существенно упро- щается при переходе к так называемым непрерывным планам. В планировании эксперимента существует большой набор реше- ний подобных оптимизационных задач, и соответствующие опти- мальные (или приближенно оптимальные) планы собраны в специальные каталоги. Второй тип задач связан с обработкой результатов эксперимента при фиксированном плане, т. е. с ре- шением рассмотренной выше проблемы идентификации. Наконец, во многих случаях целью исследования является не локальное описание зависимости некоторого показателя от дру- гих переменных, а отыскание экстремума этого показателя. На- пример, пусть ищется состав многокомпонентного сплава, обла- дающего максимальной прочностью. Тогда вначале с помощью оптимального плана эксперимента строится зависимость проч- ности от состава в окрестности некоторого исходного сплава. За- тем на основе этой зависимости выбирается новая базисная точка, и процесс повторяется. Таким образом, здесь приходится решать задачу безусловной минимизации функции, значения ко- торой в каждой точке вычисляются со случайной помехой (см. § 4 гл. 4). Следует отметить, однако, что теория планирования экспериментов развивается в отрыве от теории оптимизации, и в ней практически не используются разработанные в последней методы. Этому во многом способствует специфическая термино- логия, сложившаяся в планировании эксперимента и затрудняю- щая взаимопонимание. Последний класс задач идентификации, который мы лишь упомянем, связан с восстановлением функций, входящих в опи- сание системы. Задачи такого типа возникают в геофизике (ин- терпретация данных электро- и сейсморазведки, обратные за- дачи магнито- и гравиметрии), медицине (обработка электро-
§ 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 317 кардиограмм и энцефалограмм), радиотехнике и т. д. Данный тип проблем идентификации приводит к бесконечномерным за- дачам минимизации, как правило, неустойчивым. Упражнения. 7. Рассмотрите модель yi+\ = х*у, + уь .... ук ез R1 — заданные чис- ла, &—случайные независимые помехи. Выпишите метод наименьших квад- ратов и метод максимального правдоподобия для оценки параметра х* е R1. Напишите рекуррентные версии этих методов. 8. Заданная функция у°(<) приближенно описывается уравнением dyldt= = —x*y(t) с неизвестным х* и неизвестным начальным условием. Приду- майте различные постановки задачи оценки х*. В каких случаях решение выписывается явно? Сравните с упражнением 6. § 2. Оптимизационные задачи в технике и экономике 1. Оптимальное проектирование. После того как составлена математическая модель проектируемого объекта, можно решать задачу об оптимальном выборе параметров. Предполагается, что задан некоторый показатель (целевая функция), который подле- жит оптимизации, и сформулированы ограничения на допусти- мые значения параметров и других характеристик объекта. Здесь возможны задачи, связанные с наилучшим выбором параметров отдельного изделия (например, оптимизация характеристик электрических машин, электронных приборов, строительных кон- струкций), технологического процесса (например, оптимизация химического реактора), предприятия или отрасли (например, задачи оптимального размещения производства, оптимизация трассы газопровода или электрической сети). При этом типичен случай нелинейной целевой функции и нелинейных ограничений при не слишком большой размерности (редко приходится под- бирать больше чем несколько десятков параметров). Поскольку характеристики объекта обычно описываются до- статочно сложными зависимостями, их часто аппроксимируют полиномиальными выражениями. При этом возникают задачи вида minfo(x), х е Rn, fi UX 1, 1=\, т, (1) О < at xt bh i = 1, ..., п, где Ni (2) Если а,1 0, a biji— произвольные числа, то функции (2) называют позиномами, а (1), (2) —задачей геометрического программирования. Позиномы, вообще говоря, не являются Выпуклыми функциями. Поэтому общие методы нелинейного
318 ГЛ. И. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ программирования неэффективны для задач геометрического программирования. Однако существуют специальные приемы, позволяющие свести задачу (1), (2) к выпуклой. Можно сделать преобразование zz = lnx;, (3) тогда (1) принимает вид Ni ( п \ min go (z), gi (z) = S aji exp g;(z)<l, /=1, m, ct^Zi^di, Ci = In ait di = \nbi, i=l, ..., n. Поскольку g(z)= exp (6, z)—выпуклая функция, то (4) —задача выпуклого программирования (с гладкими g;(z)). Можно свести (1) и к более простой задаче; покажем это на примере задачи без ограничений. Исходная задача N min Ё а1х\11 • • • х > °> (5) заменой (3) приводится к задаче N min Sa/exPu/> (6) (bi,z) = uj, b‘ =={&!/, ..., bn{}, где Uj — дополнительные переменные. Составим задачу, двойст- венную к (6): N L (z, и, у) = X («/ ехр «,• + ys {(J)1, z) — и,), /=i •ф (у) = inf L (z, и, у) = Z, и ' N N _ если = 0, y>Q, — оо в противном случае, т. е. двойственная задача имеет вид N N min Е (У/in У, — М1 + in «/)), Е^/==0> У > 0 (7) /=1 /=1 и оказывается задачей с выпуклой гладкой минимизируемой функцией и линейными ограничениями. Для ее решения можно
§ 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ' 319 применять методы гл. 7; найдя у*, следует вычислить и*; — = 1п(у7а/)> решить систему (bl,z} — Uj, и оты- скать оптимальные значения исходных переменных xJ = expzL Полезно обратить внимание на следующие обстоятельства. Во-первых, мы еще раз убеждаемся, как важно правильно вы- брать независимые переменные. Исходная задача (1) невыпукла и многоэкстремальна, однако замена (3) приводит к выпуклой задаче. Во-вторых, соображения двойственности оказались рабо- тоспособными в ситуации, где на первый взгляд не имеет смысла говорить о двойственности — именно, для задачи безусловной минимизации (5). Впрочем, мы уже сталкивались с подобным приемом (ср. с методом (20) § 1 для задачи безусловной мини- мизации (16) § 1). Конечно, задачи оптимального проектирования не исчерпы- ваются схемой геометрического программирования. Трудности, связанные с многоэкстремальностыо, не всегда обходятся столь, легко. Еще более сложную проблему представляет типичное для задач проектирования требование целочисленности некото- рых переменных (параметры изделий принимают лишь значения, задаваемые стандартами; количество станков должно быть це- лым; объем производства проектируемого завода должен соот- ветствовать типовым проектам; существует конечное число кон- фигураций соединительной сети или размещений электронных устройств на схеме и т. д.). В этой книге, однако, мы не касаемся подобных комбинаторных оптимизационных задач и методов их решения. 2. Оптимальное распределение ресурсов. Ряд задач поиска неисправностей, обнаружения цели, планирования эксперимента укладывается в следующую простую схему. Имеется некоторый ресурс. Как наилучшим образом распределить его по п объек- там, если эффективность использования на i-м объекте задается функцией <р,(х)? Математически: min [<Pi (xj +-..+<₽„ (*„)], Х[ -]- ... -|- х„ = 1, х^ 0, i 1, • • •, ti* Вид минимизируемой функции и ограничений здесь так прост, что решение часто удается получить в явном или «полуявном» виде. Пусть <р;(х/)—вогнутые функции (в частности, линейные), тогда минимум достигается в вершине симплекса, задающего ограничения. Но этих вершин всего п и они имеют вид {1, 0, ... ..., 0}, {0, 1, 0, ..., 0}.{0, 0, ..., 1}. Поэтому достаточно найти / = argmin <рг (1) и взять в качестве решения х) = 1, х* = 0, 1 < i < п I j. Иначе говоря, весь ресурс следует сосредоточить на од- ном объекте.
320 ГЛ. 11 ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ Пусть теперь ф((х<)— выпуклые функции. Составим функцию Лагранжа Л (х, у) = Ф, (х,) 4- ... 4- <р„ (х„) 4- у (Xj 4" ... 4- Х„ — 1), у <= R!, (9) и введем одномерные функции фД«/) = inf [ф; (х;) 4-ух;]. (10) Тогда Ф (у) = inf L (х, у) = ф! (у) 4~ • • • 4- Фп (У) — У, х > 0 (11) а теорема двойственности (см. § 1 гл. 9) гарантирует, что точка максимума ф(у) является множителем Лагранжа для исходной задачи. Итак, для решения задачи нужно построить функции фг(у) (10), найти точку максимума у* одномерной вогнутой функции ф(у) и затем найти х* = argmin [<р£ (х;) 4- У*х{]- Такую процедуру часто можно осуществить в аналитическом виде. Так, если <р,(х<) = (Хг/2) (х — а,)2, > 0, то 1 Х.-а; = - ~2Г (М/ - + ~2~ - I п ф' (у) = - «)+ — 1 > i = l (12) т. е. ф'(г/)—кусочно-линейная функция. Ее корень можно найти так: упорядочить числа "Kiai и последовательно вычислять ф'(Хщг), пока это выражение не переменит знак, после чего у* находится линейной интерполяцией. Наконец, еще один подход к задаче (8) связан с идеями ди- намического программирования. Обозначим fft(a)= min [ф! (х4 4-... 4-<pfe (xfe)]. (13) ... +xk^a >0 Тогда функции f*(a) связаны рекуррентным соотношением ffe+iCa)^ min [ffe(a —хй+1)4-фА+1(хА+1)], (14) o<xft+1<a причем fi(a)= ф1(а), а задача заключается в вычислении fn(l). Таким образом, вместо одной задачи минимизации функции п переменных мы получили последовательность из п—1 одномер- ных задач (14). Правда, каждая из этих задач требует решения одномерных задач минимизации при всех значениях параметра ае[0, 1]. В некоторых случаях построение функций fs(a) уда- ется в явном виде, в других это нужно делать приближенно,
§ 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 321 вычисляя fs(a) на некоторой сетке. Существенно, что при таком подходе не требуется никаких предположений типа выпуклости. Существует и много других, более общих постановок задач оптимального распределения ресурсов (например, относящихся к многомерным ресурсам). Однако основные идеи специальных методов их решения (использование теоремы двойственности или динамического программирования) сохраняются. 3. Оптимальное планирование. Исторически именно экономи- ческие задачи привели к возникновению и развитию линейного программирования. Это естественно, так как в экономике проб- лема оптимального планирования является центральной, а боль- шинство экономических моделей являются линейными. К линей- ному программированию сводятся многие задачи оперативного и долгосрочного планирования в рамках предприятия или от- расли, задачи оптимизации снабжения и перевозок, задачи управления запасами и т. д. В экономических задачах двойст- венные переменные могут интерпретироваться как цены на ре- сурсы и продукцию, а условия экстремума гарантируют, что существуют цены такие, что оптимальный в смысле этих цен план является оптимальным и для исходной задачи. Поэтому линейное программирование является не только инструментом отыскания решения, но и лежит в основе теории математической экономики. Характерной чертой экономических задач является очень большая размерность (нередки задачи с сотнями и тысячами пе- ременных и ограничений). Матрица ограничений обычно слабо заполнена (большинство ее элементов — нули), хотя и может содержать тысячи ненулевых элементов. В такой ситуации наи- более остро при численном решении стоит проблема памяти ЭВМ, а также вопрос о времени вычислений и их устойчивости к погрешностям. Существующие хорошо отработанные програм- мы симплекс-метода позволяют справляться с этими пробле- мами, но возможности таких программ не безграничны. Весьма перспективными являются итеративные методы (§ 3 гл. 10). На- конец, очень важным ресурсом при решении больших задач является максимально возможное использование их специфики. Остановимся на этом подробнее. Важным классом задач линейного программирования явля- ются транспортные: min £ с^хц; i, / / = 1, ..., tn, (15) /= 1, ..., n, xlt^0. п S Хц~ a[t /*=1 m £.xU = bh
322 ГЛ 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ В содержательных терминах: сц— объем производства в i-м пункте, Ь/ — объем потребления в /-м пункте, Су— стоимость перевозки единицы груза из i-ro в /-й пункт, хц — искомые объ- емы перевозок из i-ro в /-й пункт. Для многогранника ограниче- ний в транспортной задаче вершины находятся очень просто (см. упр. 1). Поэтому нет нужды во введении дополнительных пере- менных для отыскания начальной вершины (см. (12) § 2 гл. 10), существенно упрощаются и вычисления на каждой итерации симплекс-метода. Поэтому, хотя в (15) число переменных равно т X п, удается решать задачи с большими т и п (порядка 103). Многие задачи линейного программирования имеют блочную структуру: min (с', х(), s (16) Xi^Qi, ^AiXi^b. z=i Здесь xt e R% Qi — {xt: BiXt^di}, di^.Rmi, А( — матрицы m X ni, i• == 1, ..., s, b e R"!. Всего в этой задаче М = m\ -j- ... ... A-nisA-tn ограничений и N = п\ + ... + ns переменных. Задачи такого типа описывают объекты с относительно слабо связанными между собой блоками. Например, х, могут отно- ситься к i-му заводу в отрасли, а условие У, Д(-хг — bt за- дает глобальные ограничения на ресурсы и производимую про- дукцию всех заводов. Для решения подобных задач целесооб- разно применять методы декомпозиции, в которых последова- тельно решаются вспомогательные задачи для отдельных бло- ков. Существует много подобных методов. В одном из них строится функция Лагранжа (только для глобальных ограни- чений) L (х, у) = £ (с1, х^ +(у, £ AtXi — &Y у е= Rm, (17) и двойственная функция ф (у) — min L(x, г/)=У min (с1 Д- Л) у, х;) — (у, Ь). (18) x^Qi i^x^Qi i«=]..s На основании теоремы двойственности (см. § 1 гл. 10) за- дача (16) сводится к отысканию max ф (у), (19) __ Г>т
§ 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 323 т. е. к /n-мерной задаче безусловной максимизации кусочно- линейной вогнутой функции. Для ее решения можно применять методы гл. 5 (например, субградиентный метод или методы с растяжением пространства), при этом для вычисления ф(уь), <3ф(у*) нужно решить s задач линейного программирования для блоков: хк = argmin (с1 + Afyk, х(), (20) xis Qi тогда, (ср. с (20) § 3 гл. 10) (с1 + А1ук, xT) — (yk,b), (21) Z«»l S Arf-b. (22) Ряд других итерационных методов линейного программиро- вания (см. § 3 гл. 10) применительно к задаче (16) также обла- дает декомпозиционной структурой и потому позволяет решать задачи большой размерности. Отметим еще, что методы деком- позиции могут рассматриваться не только как численные про- цедуры отыскания оптимума, но и как механизмы итеративного планирования. В частности, описанный выше метод допускает интерпретацию как способ достижения оптимального плана с помощью подбора цен. Упражнение. 1. Для задачи (15) берется произвольная пара (/0, /о). Если п а1ч <- /о’ т0 строится x[da = а(а, ограничение xioj = aio вычеркивается, а / = 1 bзаменяется на b— а1а, Если же < а/о, то ограничение с вычеркивается, a <zt-o заменяется на aits — bja. Этот процесс продолжается, по- ка не будут вычеркнуты все ограничения. Докажите, что полученный в результате вектор х = {х,,} является вершиной (15) и все вершины могут быть заданы подобным образом. 4. Оптимизация в условиях неопределенности. Во всех рас- смотренных выше примерах предполагалось, что имеется полное описание объекта и условий его деятельности. Однако в ряде случаев мы не обладаем столь исчерпывающей информацией, да она и невозможна в силу наличия неизбежной неопределенности и случайных факторов. Так, при планировании сельскохозяй- ственного производства мы сталкиваемся с непредсказуемостью метеорологических условий, при оптимизации режима электро- станций— со случайным характером спроса на электроэнергию, при планировании запасов —с неопределенностью требований и т. д. Такого рода задачами, включающими случайность, за- нимается стохастическое программирование. В простейшей
324 ГЛ 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ постановке (называемой иногда задачей перспективного стоха- стического программирования) решение должно приниматься за- ранее, до производства испытаний; этим решением является n-мерный вектор; вся неопределенность носит вероятностный ха- рактер, а оптимум и ограничения должны выполняться в сред- нем. С математической точки зрения задача имеет вид minf(x), f (х) = MQo (х, <о) = Qo (х, <о) dP (<о), gi (х) < О, gz (х) == MQ< (х, ю)= jQJx, <o)dP(<o), z = l.m, xgSc Rn. Иначе говоря, задача сводится к детерминированной, в ко- торой целевая функция и ограничения имеют вид математиче- ских ожиданий. Степень информированности о задаче может быть различной. Если функции Q/(x, w) и распределение Р(со) известны, то в принципе задача эквивалентна обычной детерми- нированной задаче, но каждое вычисление [(х) и gi(x) и их градиентов требует вычисления интегралов и потому весьма тру- доемко. Поэтому даже в этом случае нередко удобно поступать так же, как при неизвестном распределении Р(со). Именно, если задана лишь выборка со1, ..., со* из этого распределения, то можно (как в методе Монте-Карло) аппроксимировать MQ(x, со) 1 k выражением y^Q(x, <о‘) и решать получающуюся детерми- i ™ 1 нированную задачу. Другой способ (который особенно естествен в ситуации, где реализации со1' поступают последовательно) осно- ван на более простой замене f(x) и Vf(x) (аналогично и gi(x), Vgi(x)) в точке х* на Qo(x*,co*) и ,VQ0(xk, со*). Такие методы можно рассматривать как методы оптимизации при наличии случайных помех (см. гл. 4), они называются методами стоха- стической аппроксимации или адаптивными методами стохасти- ческой оптимизации. Мы уже рассматривали подобный подход для задач оценки параметров (см. § 1). В стохастическом программировании имеется ряд других по- становок задач,, отличных от (23). Так, решение может выби- раться не априори, а уточняться в процессе наблюдений (много- этапные задачи стохастического программирования). В других ситуациях само решение должно носить случайный характер, т. е. искомым является не конечномерный вектор, а закон рас- пределения случайной величины. Такие постановки приводят к бесконечномерным задачам оптимизации. Наконец, неопределенность в задачах оптимизации не обяза- тельно сводится к случайным факторам. Так, оптимизируемая
§ 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 325 функция F(x, и) может зависеть от некоторого параметра и, который не является случайным, но не известен нам (известно лишь, что ueU, где U — некоторое множество в R"1). Задача оптимизации в такой ситуации допускает различные постановки. Наиболее распространенным является минимаксный подход, т. е. расчет на наихудшее значение параметра. Тогда задача сводится к следующей: min f (х), f (х) = max F (х, и) (24) и е U (для простоты предполагаем, что ограничения на zg R'! отсут- ствуют). В частности, если и может принимать лишь конечное число значений, получаем простейшую задачу на минимакс: minf(x), f(x)= max Fz(x). (25) 1 < i К решению задач на минимакс можно подойти двояко. Во-первых, (24) можно рассматривать как задачу безуслов- ной минимизации негладкой функции (/(х) вида (25), как пра- вило, недифференцируема, даже если F;(x) гладкие; так, если Е(х) аффинны: Е(х) = (аг, х) — bi, то f(x)—кусочно-линейная, т. е. заведомо негладкая функция). При этом, если Л(х) вы- пуклы по х, то, используя правило вычисления субградиента (лемма 11 § 1 гл. 5), легко найти субградиент f(x) вида (25). Тем самым для минимизации f(x) можно применять методы, описанные в гл. 5. Для функций вида (24) вычисляется е-суб- градиент (лемма 13 § 1 гл. 5), при этом нет нужды отыскивать максимум по we У точно. Поэтому применим метод е-субгра- диента (11) § 3 гл. 5. Во-вторых, задачу (25) можно свести к задаче нелинейного программирования, введя дополнительную переменную ieR1: min/, Fi(x)s^f, /=!,..., m. (26) Задача (26) имеет ряд особенностей — в ней всегда удовлетво- ряется условие Слейтера; нет проблем с выбором допустимой точки (достаточно взять произвольное х° и /°^ max (х0)); 1 < i < m переменная / исключается из вспомогательных задач для боль- шинства методов. Поясним последнее замечание на примере ме- тодов, основанных на функции Лагранжа. Введем m L(x,t,y) = t+Ylyi(Fi(x)-t). (27) / = 1 m Очевидно, что inf L(x, /, t/) = —оо, если Поэтому t е R‘
326 ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ (28) метод (16) § 3 гл. 9 приобретает вид т xk+i = argmin L (х, yk), L (x, у) = £ У ft (*)> X / m yk+l = Ps(yk+\F(xk+l)), S==\y.y^0, F (x) = {Fi (x), .... Fm (x)}. Аналогичным образом модифицируются и другие методы не- линейного программирования применительно к задаче (26). Упражнения. 2. Напишите условия экстремума для задачи (25) при выпуклых Fi(x) двумя способами: а) из условия Оед}(х*) (см. § 2 гл. 5); б) из теоремы Куна —Таккера для задачи (26). 3. Сформулируйте условия, при которых в задаче (25) достигается острый минимум (см. (9) § 2 гл. 5 и (11) § 2 гл. 9). 5. Экстремальное регулирование. Теория экстремальных си- стем выросла из классической теории автоматического регули- рования, связанной с проблемами установления равновесия. Рас- сматривается система, действие которой описывается некоторым показателем качества. Таковым может быть коэффициент полез- ного действия (для энергетических установок), производитель- ность совокупности машин (для технологических процессов), вы- ход полезного продукта (для химических реакторов) и т. д. Зна- чение показателя качества зависит от ряда параметров системы. Целью управления является выбор этих настраиваемых пара- метров, дающих экстремум показателя качества. Особенность задачи в том, что аналитическое описание зависимости показа- теля качества от параметров отсутствует. Таким образом, теория экстремального регулирования связана с оптимизацией дейст- вующих объектов, адекватная модель которых неизвестна, в ре- альном масштабе времени. В силу специфики реальных задач (наличие шумов) выход объекта является случайной величиной. С математической точки зрения эти задачи могут рассматри- ваться как задачи минимизации функции, единственной инфор- мацией о которой являются ее значения, вычисленные со слу- чайными ошибками. Методы решения подобных задач были описаны в § 4 гл. 4. Следует однако отметить, что задачи экстре- мального регулирования имеют особенности. Во-первых, по- скольку оптимизация проводится на реальном объекте, важно получать малые значения функции не только в конце вычисле- ний, но и в ходе всего итерационного процесса. Поэтому, в част- ности, нельзя делать большие шаги, которые могут Привести к возрастанию функции. Во-вторых, регулируемый объект, как правило, бывает нестационарным. В силу неизбежных колеба- ний неконтролируемых параметров и дрейфа характеристик оптимизируемая функция меняется во времени, т. е. мы нахо-
I 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 32? димся в условиях, описанных в § 3 гл. 6. Наконец, оптимизация ведется в непрерывном (а не дискретном) времени, а регули- руемый объект обладает инерционностью. Все это приводит к тому, что применяемые на практике способы экстремального ре- гулирования заметно отличаются от стандартных алгоритмов безусловной минимизации. 6. Оптимальное управление. Другой важный класс экстре- мальных задач, возникших из проблем автоматического регули- рования,— это задачи оптимального управления. В них тре- буется найти закон изменения управляющих воздействий для динамической системы так, чтобы минимизировать некоторый критерий оптимальности. При этом предполагается, что система описывается обыкновенными дифференциальными уравнениями, которые известны (равно как и критерий оптимальности). Опти- мальное управление нашло широкое применение в задачах вы- бора траекторий летательных и космических аппаратов, выбора режимов работы электрических машин и химических реакторов и т. д. Основные достижения в теории оптимального управления относятся к условиям оптимальности, формулируемым в виде принципа максимума Понтрягина или принципа оптимальности Веллмана. Большие успехи достигнуты и в развитии численных методов оптимального управления. Мы, однако, не имеем воз- можности останавливаться на этих важных результатах, так как данная книга посвящена лишь конечномерным задачам, и отсы- лаем читателя к обширной литературе по оптимальному управ- лению. Опишем лишь дискретный вариант задачи оптимального управления: — 1 -1 F M + S fi (.Xi, «;) . / «*0 J xi+1 — (fi (xh ut), Z = 0, 1, ..., M — 1, x0 — a, (29) UiSUi, /==0.........M—1,. Xi^Xi, i = Здесь Xi e R", i = 0, ..., N, — состояния процесса или фазовые переменные, щ е Rm, t = 0,..., N — 1, — управления или управ- ляющие переменные, соотношения x,+i = фДх,-, щ) называются уравнениями состояния и задают траекторию процесса {х0, х,,.., ..., xn}, Ui^Ui и Xi е Xi — ограничения на управления и со* стояния соответственно. Частными случаями задачи (29) явля- ются: задача оптимизации конечного состояния (терминальная задача) без ограничений на состояния: min F (xN), xiv: = ^i(Xi, ut), z —0, x0 — a, (30) Ui^Ui, N— 1,
828 ГЛ. it ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ дискретная аппроксимация классической задачи вариационного исчисления; N—1 min S Pi(xi> ui)> 1=0 xi+i — + -^sR1, Щ e R1, Z = 0, . .., У — 1, (31) Xo = a, xN — b, и ряд других. К анализу задачи (29) можно подходить с различ- ных точек зрения. Во-первых, можно рассматривать векторы Xi, Ui как независимые переменные, а уравнения состояния — как связывающие их ограничения типа равенств. Такой прямолиней- ный подход обычно не очень эффективен, так как получается задача с большим числом переменных и ограничений, а специ- фическая структура задачи (29) практически не используется.. Во-вторых, можно считать независимыми переменными лишь Ui, a Xi выражать через них с помощью уравнений состояния и начального условия для xq. Так, задача (30) записывается в виде min/(м), !/ = {«„..., ueU, u~uox ...xuN_lt ' где f(u) — F(xn), a xN — Хц(и) находится рекуррентно из соот- ношений = ф<(Х(, и,), i = 0, ..., N— 1, Хо == а. Пусть функции F(x/v), ф((х<, щ) дифференцируемы по своим аргументам; вычислим градиент f(u). Пусть й= {й0,..., «м-i} — приращение управления, тогда х — линейная часть приращения состояний — описывается уравнениями ^+1 = <₽х(х/> +* = 0, ..., W-1, хо = 0. Введем сопряженную систему uiYPi+i’ Pi^^’ Z = 0, ..., У — 1, pN = VF(xN). Тогда (И+1>^+1)==(Р/+1> ui)xi + Ч>'Лхь + (фЖ uiVPi+i> at). Суммируя эти равенства, получаем N-1 (VF (х„), х„) = S (ф'(*<> uiYPi + o Ъ)- Отсюда следует, что V/(и) = {<р' (х0, uoyPl, .... ф'(х„_р uN_{yPN}. (33)
5 2. ОПТИМИЗАЦИОННЫЕ ЗАДАЧИ В ТЕХНИКЕ И ЭКОНОМИКЕ 829 Используя необходимое условие минимума [(и) на U (теорема 1 § 1 гл. 7), получаем, что если (70, tGv_i выпуклы, управле- ние и* является оптимальным для (30), а х*— соответствующая ему траектория, то должно выполняться условие (локальный принцип максимума); (ч'Ахи U*Y P'+v ^sUf, (34) где p*i — решение сопряженной системы Р; = ф'(х’, u^p-+it Z==o......1, p*„ = VF(4). (35) Используя вид Vf(u) (33), нетрудно выписать и итеративные методы решения задачи (32), описанные в § 2 гл. 7. Так, в ме- тоде проекции градиента последовательность приближений uk строится следующим образом. Определяется траектория хк из уравнений состояния х?+1 = Фг(х^, п|), i = 0, ..., W-1, хк = а, рекуррентно (от N до 0) вычисляются i = N-[.......0, pk, = Vp(xkv) и затем определяются uk+i: uki+'^pUt (ui - УФ«(4 «?)М+1)- Описанный подход к задаче (30) прост и эффективно исполь- зует ее особенности. Однако существенные трудности для него представляют фазовые ограничения. При их наличии удобен сле- дующий прием. Предположим, что в задаче (29) отсутствуют ограничения на управление, а уравнение Xf+i = ф«(х(, и,) одно- значно разрешимо относительно и< е R"! при любых Xi, xt+l е Rn. Отметим, что эта ситуация нетипична, так как обычно т < п, однако в задаче (31) мы имеем именно такой случай. Тогда, исключив управления с помощью уравнений состояния, прихо- дим к задаче вида ЛГ-1 min £ Ф, (xz, xi+1), Xi e Xh i = 1, ..., N, xQ = a. Для решения последней задачи можно применять как общие методы типа проекции градиента (они упрощаются благодаря виду ограничений в (36)), так и специальные. В частности, в методе динамического программирования вводятся функции Vi(xi), связанные рекуррентным соотношением Vi+1 (Х;т i) = min [Ф/ (xi( xi+I) -|- Vj (х/)], i — 1, .., N — 1, Х,^Х.
330 ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ при этом минимум Vn(xn) по xn<=Xn дает решение (ср. с (14)). С другой стороны, для минимизации (36) удобно применять ме- тоды типа покоординатного спуска (т. е. последовательно про- водить минимизацию пог, еХ;, i — 1, ..., N, при фиксирован- ных значениях остальных переменных). Действительно, при этом вычисляются значения лишь двух функций Фг—i (хг-ц, х>) и Ф,(х(-, X(+i) в (36), а ограничения на каждую переменную задаются независимо. Такой метод называется методом локаль- ных вариаций. Упражнения. 4. Запишите задачу распределения ресурсов (8) в форме задачи опти- мального управления. 5. Покажите, что если щ) = AiXi + BiUi, F(xN) выпукла и Ui вы- пуклы, то (34) является достаточным условием экстремума. 6. Найдите явный вид решения задачи (31) с F( (х^ ы;) == а(х2 + ptu2 ttj 0, Р; 0: а) из условий экстремума, б) с помощью метода дина- мического программирования. 7. Обдумайте возможные способы решения задачи линейного динамиче- ского программирования: min (с«, xn), xi+1 = AiXi + BiUi, Xi&Xt, ui&Ui, x0 = а, где Xi, Ui — многогранные множества. § 3. Задачи оптимизации в математике и физике Задачи на экстремум издавна рассматривались в математи- ке, задолго до развития общей теории оптимизации. Аналогич- ным образом в механике, оптике и других разделах физики тра- диционно исследовались задачи, связанные с вариационными принципами. Ниже приводится несколько примеров. 1. Задачи наилучшего приближения. Пусть имеется пере- определенная система линейных уравнений (а‘, x) = bi, i—\, ..., m, х s Rn. (1) Такая система может и не иметь решения (особенно при т.> /г), поэтому естественно ставить задачу о минимизации какой-либо нормы от невязки. В частности, min S I (аг, х) — |, (2) ! = ! m min Е ((«г> х) — bjf, (3) i-I min max | (a1, x) — bt | (4) 1 < i < m являются соответственно задачами наилучшего в норме 1\, наи- лучшего среднеквадратичного и наилучшего равномерного (или чебышевского) приближения. Отметим, что такого рода задачи возникают и в прикладных проблемах идентификации (см. § 1).
§ 3. ЗАДАЧИ ОПТИМИЗАЦИИ В МАТЕМАТИКЕ И ФИЗИКЕ 331 Покажем, как общая теория может быть применена для анализа задач (2) — (4). Прежде всего, используя теорему 9 § 1 гл. 10 и теорему 4 § 4 гл. 10, получаем, что задачи (2) —(4) всегда имеют решение. Нормальное решение (см. § 1 гл. 6) задачи (3) выписывается явно: х=А+Ь, (5) где А — матрица т'Х.п со строками аг, 4+— псевдообратная к ней, b = (b\, ..., Ьт). Получим условия экстремума в задаче (4). Используя лемму 11 § 1 гл. 5 и теорему 1 § 2 гл. 5, убеж- даемся, что точка х* с f(x*)>0, f{x) = max I (а‘, х) —• bt 1 < i < т является решением (4) тогда и только тогда, когда 0 принадле- жит выпуклой оболочке векторов ata‘, i е I*, где 7* — {/: | (а\ х*)—- ₽;| — f (х*)}, а/= sign((а;, х*) — bi). Тогда по лемме Каратеодори (лемма 1 § 1 гл. 5) 0 является выпуклой комбина- цией п 4- 1 из этих векторов. Итак, необходимое и достаточное условие экстремума принимает вид: найдутся п 4- 1 чисел 0, i е /*, таких, что 22 = 0, 22 '4 — 1. (6) i е /* i е /* Наряду с дискретными задачами (2) —(4) можно рассматри- вать и их непрерывные аналоги. Именно, пусть на отрезке [0, 1] задана функция b(t) и система функций a^t), ..., am(t). За- дачи наилучшего приближения b(t) по данной системе соответ- ственно в нормах L\, L2, Lx имеют вид min max т b (0 •- 22 xflt (7) (7) (8) (9) Здесь уже нельзя столь просто и без всяких дополнительных предположений о b(t) и at(t) получить результаты о существо- вании решения и условия экстремума. Однако такой анализ мо- жет быть проведен. В частности, используя обобщение леммы 11 § 1 гл. 5 на случай бесконечного числа функций (вида f(x) = == max f(x, /)) можно получить классическую теорему Чебы- о < t < 1 шева о наилучшем равномерном приближении для случая, когда а<(7)—полином степени i— 1.
332 ГЛ. 11. ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИИ Мы упомянули лишь о простейших задачах наилучшего при- ближения. Целью было показать связь между теорией прибли- жений и теорией оптимизации. Разумеется, задачи приближения имеют специфику, и для их исследования создан весьма тонкий математический аппарат. Тем не менее упомянутая связь полез- на как при анализе условий наилучшего приближения, так и особенно при разработке численных методов для задач аппрок- симации. Упражнение. 1. Рассмотрите- дискретную задачу наилучшего равномерного приближе- ния полиномами, т. е. задачу (4) с а( = {1, О sj sj ... ... tm sj 1. Получите дискретный аналог теоремы Чебышева: чтобы х* было решением, необходимо и достаточно, чтобы величины |е/| ^где ег = л \ = У, — bi I достигали максимума не менее чем в п + 1 точках, а знаки /=1 / в этих точках чередовались. (Указание. Рассмотрите (6) как систему уравнений относительно п + 1 переменных zi — Kiai, найдите решение и вос- пользуйтесь свойством определителя Вандермонда менять знак при переста- новке двух столбцов.) 2. Геометрические задачи на экстремум. В геометрии возни- кает множество задач на максимум и минимум, отличающихся разнообразием формулировок и сложностью решения. Одна группа задач связана с нахождением тел (заданных с точностью до параметров), имеющих минимальный объем, по- верхность или другие характеристики. С одной такой задачей мы столкнулись при построении метода эллипсоидов (см. (12) § 4 гл. 5). Требовалось найти эллипсоид наименьшего объема, описанный вокруг полушара. Задача без труда сводится к ми- нимизации функции одного переменного и может быть решена явно. Другой тип задач возникает, когда вид тела, обладающего тем или иным экстремальным свойством, не фиксирован. На- пример: найти радиус минимального шара, внутри которого мо- жет быть помещено любое тело диаметра 1 (ответ дается теоре- мой Юнга), или найти радиус максимального шара, который может быть помещен внутри произвольного выпуклого тела ши- рины 1 (ответ дается теоремой Бляшке) и т. д. Примером реше- ния экстремальной задачи такого типа может служить лемма 1 § 4 гл. 5, понадобившаяся нам в связи с обоснованием метода центра тяжести. Сюда же примыкают так называемые изопериметрические задачи, в которых требуется оптимизировать одну из геометри- ческих характеристик тела (например, объем) при фиксирован- ных значениях других характеристик (например, поверхности). Такова задача Дидоны об отыскании фигуры наибольшей пло-
§ 3. ЗАДАЧИ ОПТИМИЗАЦИИ В МАТЕМАТИКЕ И ФИЗИКЕ 333 щади в R2, образованной дугой длины 1 с концами на прямой. Подобные задачи рассматриваются в вариационном исчислении и являются бесконечномерными. Наконец, существует множество задач типа наиболее плот- ной упаковки тел, нахождения минимальной е-сети и т. п. Им присущ комбинаторный характер, и они обычно очень трудны. Не останавливаясь на всех этих разнообразных задачах, при- ведем два примера, демонстрирующих плодотворность использо- вания теории оптимизации для анализа геометрических проблем. Первая задача в исходной постановке никак не связана с оп- тимизацией. Именно, попробуем доказать теорему Хелли; если Ai, i = 1, m,— выпуклые множества в R", Ai ограничено и пересечение любых п + 1 множеств из {At} непусто, то все мно- жества имеют общую точку. Введем функцию f (х) = max р (х, 1 < i < m Аг), где р(х, Ai)—расстояние от х до Аг. Функции р(х, А,-) и f(x) выпуклы (см. упр. 2 §1 гл. 5); множество {х; f(x)^a}cz ст {х; р(х, Ai)3gZa}, а потому ограничено для любого а 0. Следовательно (теорема 3 § 2 гл. 5), /(х) достигает минимума на R" в некоторой точке х*, поэтому (теорема 1 § 2 гл, 5) Ое edf(x*). Используя вид субградиента f(x) (лемма 11 § 1 гл. 5) и лемму Каратеодори (лемма 1 § 1 гл. 5), получаем, что най- дутся п + 1 индексов (для определенности первые п+1), для которых р(х*, A;) = f(x*), и чисел X, 0, i— 1, ..., n-f-1, л+1 п+1 22 '4 = 1, таких, что 22 ^tdptx*, Az) = 0. Но это — достаточ- i=l i-1 ное условие безусловного минимума (теорема 1 § 2 гл. 5) функ- п+1 ции ср (х) — max р(х, Аг). Поскольку Az+= 0 (по предпо- |'-1 ложению теоремы), то min ф(х) = 0, т. е. ф(х*) =0, р(х*, А,)— х г Rn = 0, I == 1, ..., п + 1. Но р(х*, Аг) — f(x*), г = 1,..., n + 1, по- этому f(x*) = 0, что и означает, что х* е Az, i — 1, .... m. Конечно, теорема Хелли может быть доказана чисто геоме- трическими средствами, однако приведенное выше доказательт ство поучительно — оно демонстрирует возможность применения стандартной техники для решения нестандартных задач. Рассмотрим теперь задачу Штейнера; найти точку в R”, для которой сумма расстояний до m заданных точек а1, ..., ат ми- нимальна. Иными словами, ищется т minf(x), f (х) = 22 II х - а11|. (10) i=i То, что здесь минимум достигается и единствен (если только не все а1 лежат на одной прямой), уже отмечалось (в упр. 4, 5 § 2 гл. 5). Если точка минимума х* не совпадает ни с одной из
334 ГЛ 11, ПРИМЕРЫ ЗАДАЧ ОПТИМИЗАЦИЙ точек а1, то f(x) дифференцируема в х* (упр. 1 § 1 гл. 1) и (теорема 1 § 2 гл. 1) т vf о, (11) В некоторых случаях это уравнение можно решить. Пусть, на- пример, п — 2, т — 3, т. е. ищется точка, наименее удаленная от вершин треугольника. Из (11) следует, что е1 + е2 + е3 = О, ||ef|| = 1, это возможно лишь тогда, когда векторы е‘ образуют между собой равные углы. Итак, точка х* такова, что отрезки, соединяющие ее с вершинами, образуют угол 120° (такая точка называется точкой Торричелли, рис. 43, а). Если такой точки не Рис. 43. Задача Штейнера. найдется (последнее произойдет, если один из углов в треуголь- нике не менее 120°), то минимум )(х) достигается в соответ- ствующей вершине (рис. 43,6). В общем случае для минимиза- ции (10) нужно применять численные методы. При этом в окрестности минимума Дх) может быть как гладкой (если х* не совпадает с а1, ..., ат), так и негладкой (если х* — а1). По- этому здесь следует разумно комбинировать методы гладкой и негладкой минимизации. Упражнения. 2. Пусть Ль ..., Ат — выпуклые замкнутые множества в Rn и А = я= Л1П ... р|Ат 0. Докажите, что метод последовательного проектирова- ния вида х*+1 = Pt(xk), где Рк— проектор на наиболее удаленное от xk множество, сходится к некоторой точке из .4. (Указание. Рассмотрите ме- тод как субградиентный метод вида (7) § 3 гл. 5 для минимизации f (х) = = шах р (х, Ар.) 1 < I < т 3. Докажите, что кратчайшая сеть, соединяющая вершины квадрата, имеет вид, изображенный на рис. 43, в. 3. Вариационные принципы физики. Во всех задачах § 2 за- дачи оптимизации возникали в связи с возможностью выбора того или иного решения и наличием цели управления. Достойно удивления, что многие процессы и явления в природе, не будучи управляемыми, описываются с помощью вариационных принци- пов. Таковы, например, вариационные принципы механики
§ 3. ЗАДАЧИ ОПТИМИЗАЦИИ В МАТЕМАТИКЕ И ФИЗИКЕ 335 (принцип наименьшего действия, принцип минимума потенци- альной энергии), оптики (принцип наименьшего времени Фер- ма), гидравлики и т. д. В силу этого можно рассматривать про- цессы установления равновесия в подобных системах как своеоб- разные методы решения экстремальных задач, применяемые природой. На первых шагах развития математического програм- мирования делались попытки непосредственного использования электрических, гидравлических и тому подобных устройств для решения задач оптимизации. Ныне, с развитием цифровых вы- числительных машин, подобные физические модели потеряли актуальность. Однако анализ физических аналогий может быть полезен при разработке численных методов оптимизации. С та- кой ситуацией мы уже сталкивались при описании метода тяже- лого шарика в § 2 гл. 3. Приведенная там модель (движения тела в потенциальном поле при наличии силы трения) позволяла сделать качественные выводы о поведении итеративного про- цесса (возможность ускорения за счет введения инерции, спо- собность «проскакивать» небольшие локальные минимумы и т. д.). Конечно, эти выводы нуждаются в строгом математиче- ском обосновании (типа теоремы 1 § 2 гл. 3), однако их эври- стическая польза несомненна. С другой стороны, ряд результатов математической теории оптимизации оказался полезен при изучении физических проб- лем. Так, например, некоторые варианты теоремы двойственно- сти (в содержательных терминах) были известны в аналитиче- ской механике и теории электрических цепей; выяснение матема- тической природы этих утверждений способствовало большей методологической ясности и позволило перенести эти утвержде- ния на более общий класс объектов. Особенно широкое применение для решения физических за- дач нашли численные методы оптимизации. Упомянем лишь о задачах расчета статически неопределимых упругих систем, о вариационных задачах равновесия жидкости, о расчетах упруго- пластических и вязко-пластических деформаций (особенностью последних задач является их негладкость) и т. д. Упражнение. 4. Свет распространяется в одной среде со скоростью vlt в другой — Vz, граница раздела между средами прямолинейна. Выведите из прин- ципа Ферма (свет между двумя точками распространяется по пути, тре- бующему наименьшего времени) закон преломления Снеллиуса: sin oci/sin a2 = = vi/vz, где ai — угол падения, a2 —угол преломления.
§ 1. ПРОЦЕСС РЕШЕНИЯ 337 Далее следует попытаться сформулировать критерий опти- мальности и ограничения на содержательном уровне. В практи- ческих задачах обычно возникает проблема многокритериально- стискажем, при проектировании нового устройства жела- тельно, чтобы все его характеристики (производительность, цена, вес, надежность и т. п.) были оптимальными. Ясно, что одновре- менно это сделать невозможно. Поэтому следует либо вырабо- тать единый обобщающий критерий, либо задаться допустимыми значениями всех характеристик, кроме одной, а последнюю оптимизировать. Следующим шагом является математическая формализация задачи. Здесь очень важно участие вычислителя — как с точки зрения привнесения общей математической культуры, так и для решения конкретных вопросов, связанных с возможностями чис- ленной реализации. На этом этапе следует выбрать независимые переменные и записать минимизируемую функцию и ограниче- ния. При этом заказчик поясняет, какие из параметров и усло- вий являются основными, а какими можно пренебречь; в какой мере правомерна линеаризация функций; какие содержательные ограничения должны быть учтены, а вычислитель пытается по- строить в этих условиях наиболее простую модель (по возмож- ности линейную и с наименьшим числом переменных и ограни- чений). В результате вырабатывается некоторая предваритель- ная математическая формализация задачи. Эта формализация нуждается в проверке по существу (все ли в ней учтено, не слишком ли она груба) и первоначальном математическом изучении. Здесь важно обдумать, к какому классу относится задача, решались ли (и насколько успешно) подобные задачи ранее, какие вычислительные и программные средства имеются и т. д. Следует также прикинуть общие харак- теристики задачи (выпуклая она или нет, насколько гладки вхо- дящие в формулировку функции, есть ли опасность многоэкстре- мальности, насколько велики ошибки при вычислениях, сильно ли вырождена задача и т. п.). В связи с этим нередко прихо- дится несколько изменять постановку задачи — скажем, выби- рать новые переменные, в которых минимизируемая функция лучше обусловлена или выпукла, записывать одно негладкое ограничение как несколько гладких, переходить к двойственной задаче с меньшим числом переменных и т. п. В построенной модели, как правило, не все величины бывают известны. Проблема получения необходимой исходной информа- ции нередко превращается в одну из сложнейших. Это особенно относится к экономическим задачам, где трудности извлечения достоверного и достаточного статистического материала очень велики. В технических задачах приходится решать вспомогатель- ные задачи по идентификации искомы?; параметров; нужно Обязательно представлять (хотя бы качественно) точность
Глава 12 ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ В этой главе мы остановимся на таких вопросах, связанных с практическим решением задач оптимизации, как методика формализации задач, критерии выбора метода, процесс числен- ного решения и анализ его результатов. Здесь же приводятся сведения о тестовых задачах оптимизации, имеющихся програм- мах и некоторых результатах вычислений. § 1. Процесс решения Несколько методических замечаний о постановке и решении задач оптимизации, содержащихся в этом параграфе, не претен- дуют на общность и весьма конспективны. Во-первых, практи- ческие задачи и ситуации слишком разнообразны, чтобы можно было охватить даже основные их типы. Во-вторых, процесс ре- шения всегда остается искусством, которому можно научиться лишь путем проб и ошибок. Наконец, собственный опыт автора в этой области ограничен, и высказываемые ниже мнения во многом субъективны. 1. Формализация задач. Лишь в редких случаях имеется го- товая математическая запись задачи оптимизации, предназна- ченной для решения. Обычно первым шагом является четкая по- становка и формализация практической задачи. Этот этап дол- жен осуществляться совместно специалистом в данной конкрет- ной области («заказчиком») и математиком, который будет решать задачу («вычислителем»). Хорошо, когда оба эти лица совмещаются в одном; в противном случае процесс выработки общего языка может оказаться длительным. Вычислителю реко- мендуется обязательно разобраться в задаче «по существу», даже если она принесена в готовом виде, так как без этого вероятность получения бессмысленного ответа очень велика. При постановке задачи заказчик должен прежде всего четко понять сам, какова цель исследования, для чего предполагается использовать решение, доступна ли исходная информация и ка- кова ее точность, какие предположения являются существен- ными, а такие нет, и т. д. Часто уже на этом этапе оказывается, что задачу, собственно, решать нельзя (из-за отсутствия данных) или незачем (так как ожидаемый выигрыш от оптимизации бу- дет очень незначителен по сравнению с другими факторами),
338 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ получаемых при этом результатов. В результате всего этого сложного и «многошагового» процесса вырабатывается оконча- тельная математическая формулировка задачи, подлежащей оптимизации. 2. Выбор метода и программы. Лишь в исключительных слу- чаях (примеры которых приводились выше) решение задачи оптимизации может быть найдено в явной форме. Обычно экстремум приходится отыскивать численно с- помощью ЭВМ. При выборе метода и его программной реализации следует учи- тывать в первую очередь имеющиеся возможности вычислитель- ных средств, наличие соответствующих программ и количество однотипных задач, которые требуется решить. Если решается единственная задача оптимизации и она не очень сложна, то вряд ли стоит тратить силы на выбор наилуч- шего метода и программы. Достаточно, чтобы в имеющемся математическом обеспечении ЭВМ нашлась программа, пригод- ная для решения задач подобного типа и объема. То, что время решения окажется несколько большим, чем для специально на- писанной программы (например, 1 час вместо 1 минуты), не так существенно. Аналогичным образом при отсутствии готовых про- грамм для решения уникальной задачи разумно программиро- вать простейший метод ее решения, пренебрегая его скоростью сходимости и прочими характеристиками. Лишь при массовом решении однотипных задач (а такая си- туация обычна для задач оптимизации) вопрос о выборе спо- соба численного решения стоит остро, поскольку проигрыш во времени счета или точности решения увеличивается многократ- но. Здесь имеет смысл опробовать различные имеющиеся про- граммы на нескольких примерах, и если результаты окажутся неудовлетворительными (слишком медленная сходимость либо невозможность получить решение с заданной точностью), то сле- дует составить специальную программу для решения данного класса задач. При выборе метода нужно учитывать скорость схо- димости, объем вычислений на каждой итерации, устойчивость к разного рода помехам, требуемый объем памяти ЭВМ, т. е. именно те факторы, которые мы исследовали при теоретическом изучении методов в первых частях книги. Когда из подобных априорных соображений метод выбран, встает вопрос о его алго- ритмической и программной реализации. Переход от методов на том уровне подробности, который принят в данной книге, к чет- кому алгоритму, отнюдь не прост. Нужно задать подпрограммы решения вспомогательных задач, параметры, определяющие точность решения этих задач, критерии прерывания счета и т. п. От этих малозначащих на идейном уровне подробностей в очень большой мере зависит эффективность алгоритма. Аналогичные проблемы возникают при написании программы. Выбор языка, на котором она составляется, организация массивов информа-
§ 1. ПРОЦЕСС РЕШЕНИЯ 339 ции, способы реализации арифметических выражений — все это очень важные детали. Мы уже отмечали, в частности, что высо- кий уровень отработки подобных деталей в программах симп- лекс-метода послужил одной из основных причин успешной ра- боты конечных методов линейного программирования при прак- тическом решении задач. После составления первого варианта программы и ее отладки начинается процесс подгонки алгоритма. Берется несколько ха- рактерных задач и делается попытка их решения. Она, как пра- вило, оказывается неудовлетворительной; следует выяснить при- чины этого и попытаться устранить их. С этой целью можно изменять параметры алгоритма, заменять отдельные подпро- граммы (например, процедуру одномерной минимизации), про- водить некоторые вычисления с двойной точностью и т. п. В луч- шем случае эти попытки оказываются успешными и приводят к окончательному варианту программы, в худшем — выясняется, что выбранный метод не дает возможности решить задачу и сле- дует обратиться к другому методу, учитывая неудачный опыт предыдущей попытки. Иногда следует остановиться на некото- рой последовательной комбинации методов. Разумеется, не всегда процесс подготовки к счету происхо- дит подобным образом. Так, при решении задач очень большой размерности главная проблема связана с размещением инфор- мации в памяти ЭВМ, и этим в первую очередь определяется выбор метода и программы. При использовании микропроцессо- ров для целей оптимизации основным является вопрос о про- стоте метода и его устойчивости к погрешностям вычислений. Особые проблемы возникают при решении задач в реальном масштабе времени, здесь важно успеть обработать поступающую информацию и рекуррентно использовать найденные приближе- ния. Новые возможности появляются при работе в диалоговом режиме — в частности, резко упрощается настройка параметров алгоритма, удается исследовать влияние изменений условий за- дачи на ход решения, можно осуществлять последовательную проверку различных методов и т. п. 3. Анализ результатов. После выбора программы и проведе- ния счета процесс решения не является завершенным. Во-пер- вых, полезно оценить точность найденного решения. В ряде слу- чаев это можно сделать теоретически — используя теорему двойственности, проверяя невязку в выполнении условия опти- мальности, применяя оценки типа теоремы 2 § 5 гл. 1 и т. д. Возможна и экспериментальная проверка точности. Так, целе- сообразно осуществить спуск из разных начальных точек и по- смотреть, насколько разные результаты получаются. Во-вторых, обязательно следует провести содержательный анализ найден- ного решения, учитывая, что математическая формулировка была получена в результате ряда упрощений и огрублений
340 ГЛ 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИЙ исходной задачи. В итоге может оказаться, что хотя найденная точка и является решением математической модели, она не удов- летворяет заказчика, так как не все факторы были учтены в исходной постановке. Нередко так и случается с экономическими задачами, что приводит к сравнительно низкому уровню исполь- зования оптимизационных моделей в экономической практике. В такой ситуации следует пересмотреть исходную модель и вне- сти в нее изменения, после чего надо заново решить задачу оптимизации. § 2. Программы оптимизации 1. Общие требования к программам. Разумеется, требования к программам оптимизации зависят прежде всего от назначения и характера использования этих программ. Здесь можно выде- лить несколько типичных ситуаций. Если программа предназначена для однократного решения конкретной задачи, то она может быть произвольной, лишь бы позволяла достичь требуемой цели. В случае, когда предпола- гается многократное решение однотипных задач одним пользо- вателем, следует обратить особое внимание на экономию вре- мени счета. В частности, заметного выигрыша можно добиться, если писать программу на автокоде, а не на алгоритмическом языке. Однако в остальном подобные программы «для внутрен- него пользования» не обязаны подчиняться каким-либо жестким ограничениям. Серьезные требования предъявляются к стандартным про- граммам, предназначенным для решения типовых задач многими пользователями. Эти программы должны допускать использова- ние на различных ЭВМ (и потому пишутся на алгоритмических языках, чаще всего на Фортране); предоставлять определенные удобства пользователю (особенно это важно в задачах линей- ного программирования, связанных с большими объемами ин- формации, где требуется иметь возможность формировать и из- менять эту информацию различными способами); допускать ис- пользование в качестве подпрограмм (например, безусловная минимизация часто возникает как вспомогательная задача при решении более общей задачи оптимизации); представлять ре- зультаты вычислений в удобном и достаточно подробном виде и т. д. Стандартные программы должны сопровождаться описа- ниями и тестовыми примерами. Пользователь не обязан быть хорошо знакомым с применяемым методом минимизации; не следует требовать от него задания многих параметров алгорит- ма. Вообще, задаваемую им информацию нужно сделать по воз- можности минимальной (например, в задачах безусловной ми- нимизации эта информация может сводиться к процедурам вы- числения функции и градиента, указанию начальной точки и
I 2. ПРОГРАММЫ ОПТИМИЗАЦИИ 341 критерия точности вычислений). Должно быть предусмотрено» что в случае невозможности найти решение выдается на печать причина отказа программы. Разумеется, здесь упомянута лишь часть требований к стандартным программам оптимизации. В настоящее время широкое распространение получили па- кеты программ оптимизации. Они предназначены для решения больших классов задач; входящие в них программы взаимно связаны и используют общие модули (типа одномерной миними- зации); предъявляются общие требования к способу задания исходной информации и выводу результатов на печать и т. д. Пакеты программ более экономны, чем набор отдельных про- грамм и предоставляют большие удобства пользователю. Ими целесообразно пользоваться, если приходится регулярно решать разнообразные оптимизационные задачи. 2. Где найти нужную программу. Некоторые программы оп- тимизации включены в математическое обеспечение наиболее распространенных машин. В основном это относится к програм- мам безусловной минимизации гладких функций. Наиболее часто при этом используется метод сопряженных градиентов и квази- ньютоновские методы (см. §§ 2, 3 гл. 3). Относительно доступны и пакеты программ для решения задач линейного программиро- вания. Таков ПМП (пакет математического программирования) на базе операционной системы ОСЕС для ЭВМ ЕС; его прототи- пом является пакет MPS фирмы IBM. На ряде машин (напри- мер, фирмы ICL) имеется LP1 —пакет программ линейного про- граммирования, обладающий большими возможностями. В крупнейших вычислительных центрах страны Созданы соб- ственные пакеты программ оптимизации. Так, в ВЦ АН СССР разработана диалоговая система для ЭВМ БЭСМ-6. Она пред- назначена для решения задач безусловной минимизации, нели- нейного программирования и оптимального управления. Там же эксплуатируется пакет ЛП (линейного программирования) для БЭСМ-6, позволяющий решать задачи, содержащие до тысячи ограничений и нескольких тысяч переменных. В ЦЭМИ АН СССР разрабатывается пакет, предназначенный для решения основных типов задач оптимизации и включающий наиболее мощные из известных алгоритмов. В ВЦ МГУ создан пакет программ на языке Фортран, содержащий программы для безус- ловной минимизации и для задач с простыми ограничениями. Ряд пакетов оптимизации имеется или проектируется в Инсти- туте кибернетики АН УССР, в ВЦ ЛГУ, в Институте математики и механики УНЦ АН СССР и других организациях. Они в ос- новном носят экспериментальный характер. В целом пакеты оптимизации еще не стали обязательной частью математического обеспечения любой ЭВМ. Использовать же «чужой» пакет на «своей» машине довольно сложно по ряду технических и орга- низационных причин. Поэтому проблема получения нужной
342 ГЛ. 12 ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИЙ программы оптимизации стоит весьма остро. Отчасти она может быть решена за счет стандартных программ, опубликованных в различных изданиях, либо включенных в Государственный фонд алгоритмов и программ. Упомянем некоторые из опубликован- ных программ. В книге Химмельблау [0.21] приведены тексты на Фортране ряда алгоритмов безусловной и условной минимизации. Для поиска безусловного минимума гладкой функции даны несколько квазиньютоновских алгоритмов (в частности, реализующие ме- тод Давидона — Флетчера — Пауэлла (8) § 3 гл. 3 и Бройдена (9) § 3 гл. 3) и алгоритм сопряженных градиентов (в варианте (22) § 2 гл. 3), а также прямые методы (не требующие вычис- ления производных) — симплексный алгоритм (18) § 4 гл. 3 и алгоритм Пауэлла, в котором строятся сопряженные направле- ния (п. 4 § 4 гл. 3). Для решения общей задачи нелинейного программирования приводится так называемый алгоритм сколь- зящего допуска, идейно близкий к методу штрафных функций (10) § 4 гл. 9; для решения вспомогательных задач безусловной минимизации применяется метод прямого поиска типа симп- лексного. В книгах Куестера и Майза [12.12], Кюнци, Шаха и Зендера [12.13] собрано довольно много программ (на Фортра- не и Алголе), относящихся в основном к линейному программи- рованию и безусловной минимизации. Программы линейного программирования содержатся также в работах И. В. Романов- ского [10.14], Орчард-Хейса [12.15], Лэнд и Пауэлла [12.14]; в последней имеются и программы для квадратичных задач. В приложении к сборнику [11.6] приведен текст программы на Фортране, реализующий метод безусловной минимизации не- гладких функций вида (14), (17) § 4 гл. 5 (метод с растяжением пространства в направлении разности последовательных субгра- диентов). В учебнике [0.10] опубликовано описание диалоговой системы оптимизации ВЦ АН СССР, упоминавшейся выше. Пожалуй, этим кратким списком почти исчерпываются публи- кации программ оптимизации в доступных советскому читателю книгах. Упомянем еще издаваемые различными организациями ротапринтные сборники с текстами программ. Серия «Програм- мы и алгоритмы», издаваемая ЦЭМИ АН СССР, включает ряд выпусков, составляющих в целом комплекс программ оптимиза- ции. Описание этого комплекса содержится в статьях [12.1, 12.2]. В него входят программы безусловной минимизации — метод сопряженных градиентов в модификации (24) § 2 гл. 3 и его комбинации с методом переменной метрики; программы ми- нимизации на параллелепипеде—метод сопряженных градиен- тов типа (7) § 3 гл. 7; программы для общей задачи нелиней- ного программирования, реализующие метод модифицированной функции Лагранжа (23) § 3 гл. 9; аналогичные программы для задач линейного и квадратичного программирования и некото-
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ 343 рые другие программы, составленные на Алголе и Фортране. Этот комплекс — один из немногих доступных наборов универ- сальных и достаточно эффективных программ. В сборниках «Па- кет анализа оптимизационных экономических моделей», также издаваемых ЦЭМИ, описывается упоминавшийся выше пакет оптимизации (написанный на языках Фортран и PL-1). Вычис- лительный центр МГУ издает серии «Стандартные программы решения задач математического программирования» и «Числен- ный анализ на Фортране» (в последней дано описание пакета программ оптимизации), Вычислительный центр ЛГУ — серию «Алгол-процедуры» (содержащую в основном программы линей- ного программирования), Институт математики и механики УНЦ АН СССР — серию «Программы оптимизации». Ряд про- грамм можно найти в сборниках «Алгоритмы и алгоритмические языки», издаваемых ВЦ АН СССР. Наконец, неопубликованные программы, включенные в Го- сударственный фонд алгоритмов и программ, можно заказать в этом фонде. Списки поступающих в него материалов публи- куются в регулярно издаваемых ВНТИ Центром информацион- ных бюллетенях «Алгоритмы и программы». Следует представлять себе трудности, связанные с отыска- нием, получением и использованием готовых программ. Как мы видели, опубликовано лишь небольшое число программ оптими- зации; они рассеяны по многочисленным, нередко труднодоступ- ным изданиям. Многие из программ при этом недостаточно про- верены и могут содержать ошибки; реализуемые в них методы не всегда относятся к числу самых эффективных. Нередко полу- ченная с большим трудом программа оказывается непригодной для использования на конкретной ЭВМ с конкретным трансля- тором и потому нуждается в переработке; однако производить изменения в чужой программе довольно сложно. По указанным причинам часто бывает проще самостоятельно написать про- грамму для своей задачи, чем искать готовую. § 3. Тестовые задачи и результаты вычислений В данном параграфе приводится несколько популярных те- стовых задач оптимизации и полученные для них с помощью ряда основных методов результаты. Эти данные полезны как ориентировочные при оценке возможностей существующих и разработке новых алгоритмов. Попутно обсуждается вопрос о критериях численного сравнения методов и способах описания результатов вычислений. 1. Критерии сравнения алгоритмов и описание результатов экспериментов. Сравнить между собой несколько методов опти- мизации по результатам численных экспериментов и сделать вы- воды о преимуществах одного из них отнюдь не просто.
344 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ Во-первых, сравнению подвергаются не методы, а машинные реализации соответствующих алгоритмов. Хороший метод можно «загубить» плохим программированием, неудачным выбором па- раметров алгоритма, проведением вычислений на машине малой разрядности и т. д.; мы уже упоминали об этом выше. Во-вторых, неясно, каким образом соизмерять трудоемкость различных методов. Естественный на первый взгляд критерий — затраченное машинное время — в действительности не очень удо- бен. Трудно сравнивать быстродействие различных машин, не всегда имеются данные о затратах времени (при работе в муль- типроцессорном режиме), время существенно зависит от языка программирования и особенностей транслятора. Более надеж- ным показателем является число вычислений миними- зируемой функции или другая «внутренняя» характеристика метода. Однако и здесь возникает ряд проблем. Неясно, как соизмерять трудоемкость вычисления функции и решения раз- личных вспомогательных задач (вспомним, например, что метод центров тяжести (9) § 4 гл. 5 оптимален по требуемому числу вычислений субградиента, но приводит к очень сложной вспомо- гательной задаче на каждой итерации). Затруднительно сопо- ставлять вычисления функции и ее производных. В тех задачах, где применяются конечно-разностные аппроксимации производ- ных, дело обстоит просто — одно вычисление градиента эквива- лентно п вычислениям функции, вычисление гессиана — п(л + 1)/2 вычислениям функции и т. д. Однако для дискретной задачи оптимального управления градиент лишь примерно вдвое «дороже» функции (см. (33) § 2 гл. 11); для квадратичной функции градиент вычисляется даже проще, чем ее значения; так же дело обстоит и с субградиентом в минимаксной задаче и т. д. В-третьих, методы могут по-разному вести себя на разных этапах процесса минимизации. Пусть, например, два метода одинаковы по трудоемкости на каждой итерации, но для одного из них величина ||х* — х*|| сначала быстро убывает, а потом почти не меняется, а для другого эта же величина изменяется медленно, но с постоянной скоростью. Какой из двух методов следует считать лучшим? Более того, поведение разных величин, характеризующих точность решения (||х*— х*||, || Vf (xk) ||, f(xk) — — f* и т. п.), может быть также различным. Никакого удовлетворительного способа преодоления указан- ных трудностей не существует. Единственное, что можно сделать в подобной ситуации — приводить данные о результатах вычис- лений в развернутой форме, чтобы иметь возможность сравнить методы по разным критериям. Вообще, при публикации результатов проверки методов сле- дует придерживаться следующих правил,'.
| 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ а) приводить точную формулировку задачи, для которой про- водился счет, включая все ее параметры и начальное прибли- жение; б) указывать тип ЭВМ, длину машинного слова, язык про- граммирования, транслятор, сведения о программе; в) давать подробное описание применяемого алгоритма или отсылать к его публикации, если она имеется; г) выводить не только окончательный результат, но и про- межуточные (например, через каждые 100 итераций или при каждом увеличении точности на порядок); д) сообщать различные характеристики точности приближе- ния (||хА—-х*||, /(xft)— /*, невязку в ограничениях и выполнении условий экстремума); в задачах малой размерности приводить и сами приближения хк; е) указывать подробно сведения о трудоемкости вычислений (число итераций, число вычислений f(x), Vf(x), машинное время). Лишь при выполнении этих условий можно воспроизводить полученные данные и сравнивать их с другими по разным пока- зателям. Разумеется, столь подробное описание нужно лишь в работах, специально посвященных численной проверке методов. В других ситуациях скрупулезное выполнение упомянутых правил невозможно да и нецелесообразно (пример тому — нижеприводимые краткие сведения о результатах счета). 2. Общие требования к тестовым задачам. Нередко в статьях, где предлагается новый метод минимизации, его проверка про- изводится на 1—2 примерах, построенных автором. При этом сравнение с другими алгоритмами либо не дается вообще, либо приводятся результаты счета для других, заведомо плохих ме- тодов. Такое положение типично, например, для многих работ по случайному поиску. Конечно, сделать какие-либо выводы о срав- нительных достоинствах методов при подобной информации не- возможно. Сравнение методов целесообразно проводить на стандартных специально подобранных задачах-тестах. Желательно, чтобы тесты удовлетворяли следующим требованиям: а) тесты должны быть унифицированы и быть общеприня- тыми; обычно такие задачи формируются в результате своеоб- разного естественного отбора; основным достоинством теста является его популярность; б) тесты должны моделировать типовые трудности для дан- ного класса задач (например, для задач безусловной минимиза- ции нужны тесты с разной обусловленностью, разной размерно- стью, разной кривизной линий уровня, одно- и многоэкстремаль- ные и т. д.); в) решение в тестовой задаче должно быть известно;
346 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИЙ г) задачи должны быть достаточно компактными (не требо- вать больших массивов информации или сложных правил вы- числения функций); д) в качестве тестовых не годятся задачи, обладающие спе- цифическими особенностями, дающими преимущества тому или иному методу; так, если взять f(х) — fi(xi) + ... + frt(xrt) в ка- честве тестовой функции для безусловной минимизации, то ме- тод покоординатного спуска будет для нее чрезвычайно эффек- тивен; для функции вида f(x)~ F(tp(x)), где <р(х)—квадратич- ная, a F— скалярная функции, линии уровня являются эллип- соидами, а потому ряд методов (скажем, метод Пауэлла, см. лемму 2 § 4 гл. 3) будут для них конечными, и т. д. К сожалению, единых общепринятых тестовых задач пока нет. Более того, нет классификации тестовых задач по их слож- ности и характеру присущих им трудностей. Ниже делается по- пытка собрать несколько тестов для основных классов задач оптимизации, представляющих посильное приближение к сфор- мулированным выше требованиям. 3. Безусловная минимизация гладких функций. Всюду далее х— {хь ..., xn}e R", f(x)— минимизируемая функция, х*— точ- ка глобального минимума f(x) на Rn, f* = f(x*), х° — начальное приближение. Xs — полученная в результате вычислений точка, 6f = f(xfe)—f*—точность решения по функции,йх= max |х‘— — х'; | — точность решения по аргументам, ц — число обуслов- ленности х* (см. (4) § 3 гл. 1), k — число итераций применяв- шегося метода, ko— число вычислений функции, k\ — число вы- числений ее градиента. Проще всего тестовые задачи с известным решением можно построить следующим образом. Выбирается точка х* и функции <р,(х), i= 1, .... т. Тогда очевидно, что т f(x) = £ (ф/ (х) — Ф/ (х*))2 (1) Z= 1 достигает минимума в точке х*. При этом (* = 0, V2C(x*) = tn ~ X ^Ф,- (х*) Vr<Pz (х*), так что можно регулировать обусловлен- / = 1 ность задачи за счет выбора ф,(х). В частности, если т<п или т — п, но 7фг (х*) = 0 для некоторых I, то получаем вырож- денную точку минимума. Функции вида (1), вообще говоря, не- выпуклы и могут иметь локальные (и даже глобальные) мини^ мумы, отличные от х*. Другой способ связан с выбором функций вида п +1 f (х)= Е Xi-1), х0 —л, xn+1 = b. (2)
« 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ 347 Тогда, задавшись Хо = а и решив последовательно одномерные уравнения df (x)/dxi = dfdxi [ft (x*i, x]-i) 4- fi+i (xi+i, x})] *= 0 (ре- шение обозначим Xz+i) для i — 0, ..., n, выберем 6«=x«+i. Очевидно, что тогда Vf(x*) = 0. Если Хг-i) выпуклы по Xi, Xi-\, то f(x) выпукла и x*—точка минимума f(x). Наконец, можно взять произвольную гладкую выпуклую функцию ф(х) и произвольную точку х* и построить f (х) == ф (х) — 07ф (х*), х). (3) Тогда V/(x*)= 0, f(x) выпукла и потому х* — точка глобального минимума f(x). Существует и много других приемов построения функций с известной точкой минимума. Приводимые ниже примеры построены по одному из описан- ных способов. Следует помнить, что для функций вида (1), (2) существуют специальные методы, обладающие повышенной эф- фективностью. Так, для (1) эффективен метод Гаусса — Ньюто- на (14) § 1 гл. 11, для (2)—метод динамического программиро- вания и покоординатного спуска (36), (37) § 2 гл. 11. Анало- гичным образом специфика задач (1), (2) может сказаться на поведении общих методов минимизации. Перейдем к описанию конкретных тестовых задач. Задача 1 (функция Розенброка [0.21, задача 2]), п = 2: f (х) = 100 (х2 — х2)2 4- (1 — X])2, х° = (—1,2; 1), х* = (1; 1), Г==0. Функция плохо обусловленная (ц = 2500), невыпуклая, с пара- болическим оврагом, точка х° далека от х* (рис. 44). Возмож- ное многомерное обобщение задачи 1 предложено в [12.3]: п fW«100E(xi-x2_1)24-(l-x1)2, х’ = (1; ...; 1), Г = 0, х“ = -1, х? = (х“_1)2-0, 2, i = 2, ..., п. Задача 2 (функция Пауэлла [0.21, задача 26]), /г = 4: f (х) = (Х1 4-10х2)2 4- 5 (х3 — х4)2 4- (^2 — 2х3)4 4-10 (х! — х4)4, х° = (3; — 1; 0; 1), х* = (0; 0; 0; 0), Г = 0. Функция невыпуклая, точка минимума — вырожденная (ц=оо). Задача 3 (разностный аналог задачи о брахистохроне [3.9]), п > 1 — любое: V11 Г 0,0016 + (х. - х, ,)2 “11/2 = 0,04/ J ’ Х(> ~ Ха ~ 0’ ~ -'-«+!> i = 1 * • , ллл Г 0,0099099 (1+1) -11/2 . Х/+1 = Хг 4- 0,04 [ । _ o oo9go99 + j) J • / = 0, . . ., /г, х° = (0; ...; 0).
348 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ Эта функция выпуклая (и даже сильно выпуклая на любом ограниченном множестве, хотя и не на всем пространстве), обу- словленность растет с ростом л, но не слишком быстро (р ~ 104 для п = 50). Задача 4 (среднеквадратичная аппроксимация экспонента- ми [3.9]), п = 4: ю [(х) = а~2 X [аехр(—0,2/)4-2аехр(—0,4/) — /»1 — X! exp (— 0,2/х2) — х3 exp (— 0,2/х4)]2, f* — 0, 4а) хп — (0,5; 0; 2,5; 3), х* = (1; 1; 2; 2), а=1, 46) х6 = (500; 0; 2500; 3), х‘ = (1000; 1; 2000; 2), <х = 1000. Функция /(х) невыпуклая, с искривленным оврагом, обуслов- ленность велика (особенно для варианта 46)). Задача 5 (среднеквадратичная аппроксимация полиномами [11.22]), п — любое: 101 / п п \2 f (х) = Ё ( Ё xitT' — S . / “ 1 \ i 1 i =» 1 / // = 0,01 (/-1), /=1, .... 101, х° = (2; ...; 2), х* = (1; ...; 1), Г = 0. Функция /(х) квадратичная; ее обус- ловленность чрезвычайно велика (в п. 5 § 1 гл. 11 приводились числа обу- словленности для непрерывного вари- анта задачи: ц==1,5-107 для п — 6, ц = 1,6- 1013для п = 10;можно думать, что для дискретной задачи обусловленность того же порядка). Численная проверка методов на тестовых задачах 1—5 осу- ществлялась В. А. Скоковым и Ю. Е. Нестеровым; остановимся кратко на полученных ими результатах. В таблице 1 приведены данные для трех первых задач и че- тырех прямых методов (т. е. не требующих вычисления произ- водной, см. § 4 гл. 3), именно, разностного аналога градиентного метода (9) § 4 гл. 3 («Градиент»), комбинации методов покоор- динатного спуска (11) § 4 гл. 3, разностного варианта сопряжен- ных градиентов (24) § 2 гл. 3, и барицентрических координат (19) § 4 гл. 3 («Барицентр», см. [12.2]), метода Пауэлла п.4 § 4 гл. 3 («Пауэлл») и симплексного метода (18) § 4 гл. 3 («Симп- лекс»), Значок «н» означает, что метод не привел к решению, прочерк — что вычисления не проводились. Рис. 44. Функция Розен- брока.
§ 3, ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИИ 349 Как видно из табл. 1, градиентный метод не работоспособен даже для задач малой («= 2,4) размерности. Остальные ме- тоды работают, грубо говоря, примерно одинаково. Таблица 1. Сравнение прямых методов для задач 1—3 Метод Задача 1 Их 61 «Градиент» 7657 0,2 • 10~5 10~В 9 «Барицентр» 674 ю-9 «Пауэлл» 151 — 10 «Симплекс» 200 — 10 Задача 2 Метод feo бх 6f «Г радиент» Н н н «Барицентр» 924 io-4 ю-;’ «Пауэлл» 433 — 10 «Симплекс» 209 . — 0,7- 10-7 Задача 3, п == 50 Метод fe.T бх 6f «Градиент» н н н «Барицентр» 21 721 ю 4 10~7 «Пауэлл» — — — «Симплекс» — —- — В следующей таблице 2 показаны результаты вычислений (для тех же задач 1—3) с помощью методов первого порядка (т. е. использующих V/(x)). Вычисления проводились для мето- дов: градиентного в варианте наискорейшего спуска (3), (4) § 1 гл. 3 («Градиент»); двух версий метода сопряженных градиентов (22) и (24) § 2 гл. 3 («Конград-1» и «Конград-2» соответствен- но); метода Давидона — Флетчера — Пауэлла (8) § 3 гл. 3 («ДФП»); метода Бройдена— Флетчера — Шенно (10) § 3 гл. 3 («БФШ») и метод Шора (14), (17) § 4 гл. 5 («Шор-1»)—по данным. [5.15]. Результаты в таблице вновь показывают, что градиентный метод непригоден для решения даже сравнительно простых задач. Квазиньютоновские методы (особенно «БФШ»)
350 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ Таблица 2. Сравнение методов первого порядка для задач 1—-3 Метод Задача 1 Задача 2 k fei 6f вх k fel Sf «Г радиент» «Конград-1» «Конград-2» «ДФП» «БФШ» «Шор-1» 217 32 30 20 22 39 476 65 63 87 72 ka = 286 О О О О О О 1 1 1 1 1 1 - - ® © <о * СП •— о о о о о о 1 1 1 1 1 1 -ч о> ел ел ел ьэ 1000 39 27 16 16 50 2003 82 59 54 54 k0 = 695 о о о о о о 1 1 1 1 1 1 со со 4^ ел со О О О О О О 1 1 1 1 1 1 О W С» № № — Метод Задача 3, /2=20 Задача 3, п=»50 k kx 6F 6х k fe, 6f &х «Градиент» «Конград-1» «КонграД-2» «ДФП» «БФШ» «Шор-1» 288 66 67 61 36 701 136 138 148 103 | СО СО СО СО 1 1 I 1 1 1 | I о о о о о 1 — N N Л Л 1 1 I 1 1 1 о О О О О 1 1000 104 129 109 96 2369 222 265 267 253 >00000 1 1111^1 со ел ел 1 О О О О _- 1 1 1 1 1 w м — работают несколько лучше метода сопряженных градиентов; следует при этом помнить, что они требуют большей памяти ЭВМ и большего числа действий на каждой итерации. Из двух схем метода сопряженных градиентов более эффективна (хотя и ненамного) схема «Конград-2». Нужно отметить высокую эф- фективность метода Шора — он успешно конкурирует с лучшими квазиньютоновскими методами. Учитывая, что метод Шора при- годен и для минимизации негладких функций (для которых, соб- ственно, он и был разработан, см. § 4 гл. 5), его можно признать и эффективным, и универсальным. Задача 3 подвергалась также обстоятельному численному исследованию в [0.19, § 31]. Автор ставил, однако, целью полу- чить по возможности точное решение непрерывной задачи о бра- хистохроне. Разумеется, с этой точки зрения задача 3 является плохой дискретной аппроксимацией для непрерывной задачи, но это никак не порочит ее как самостоятельную тестовую задачу конечномерной минимизации. В [0.19] показано также, как по- строить быстро сходящийся метод минимизации, использующий специфический вид задачи 3. При оценке подобной ситуации нужно иметь в виду, что для каждой конкретной тестовой за- дачи можно указать специальные методы высокой эффективно- сти, однако назначение тестовых задач — служить инструментом для проверки общих методов минимизации.
352 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ Таблица 4. Сравнение методов для задачи 5 Метод п 2 3 4 5 «Г аусс — Ньютон» «мнк» «Гаусс — Ньютон» «мнк» bl bi 6х 6х 0 0 ю-8 ю~8 0 0 ю~8 10~8 0 2- 10~17 ю~8 6- ю-8 0 3- ю~18 ю~8 2- 10~6 Метод п 6 7 8 9 10 «Г аусс — Ньютон» «мнк» «Гаусс — Ньютон» МНК» bf bl бх бх 0 8- 10~17 10~8 ю~4 0 2- 10~‘е 10~7 3- 10~3 0 6- ю~16 ' 10_6 0,26 0 2- 10"16 3- 10“6 3,8 0 10~'8 6- ю~6 5,1 4. Безусловная минимизация негладких функций. Негладкие тестовые функции вида Дх) = max f,(x) (4) 1 < i < m с известным минимумом можно построить следующим образом. Зададимся выпуклыми гладкими функциями <р<(х), i = 1.т (например, квадратичными или линейными) и точкой х* е R". Вычислим градиенты V<p;(x*) и найдем такое множество индек- сов / и числа Ki >0, isI, что У, V<Pz(х*) = 0 (этого I е I всегда можно добиться, добавляя к набору <р<(х) линейные функции вида (х, е;), где е,— координатные орты). После этого возьмем ft(x) =<р;(х) — а/, где а(=<р<(х*) для ie/и а, > <р<(х*) для i ё/; тогда в соответствии с условиями экстремума (см. лемму 11 § 1 гл. 5) функция f(x) вида (4) будет иметь глобаль- ный минимум в х*. Существуют и другие приемы построения тестовых функций (см., например, ниже задачу 8). Задача 6 (функция Шора [5.15, с. 176]), п = 5: fix) — max b, || х — а‘ ||2, Ь — (1; 5; 10; 2; 4; 3; 1,7; 2,5; 6; 3,5), 1 < i < ю /0 2 1 1 3 0 1 1 0 1х 01242210011 _ 01111111221 Л”|0112001210Г \0 3 2 2 1 1 1 1 0 0/ х* = (1,12434; 0,97945; 1,47770; 0,92023; 1,12429), Г = 22,60016, / = (2, 4, 5, 9), х° = (0; 0; 0; 0; 1).
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ 361 Для задачи 4 сравнивались следующие методы: метод «Кон- град-2», сочетание метода сопряженных градиентов с методом переменной метрики, предложенное в [3.9] («Конград-3»); метод «Шор-1»; метод типа Гаусса-Ньютона (14) § 1 гл. 11, описанный в [11.22] («Гаусс — Ньютон»). Результаты приведены в таб- лице 3. Видно, что метод сопряженных градиентов для задачи 4а сходится довольно медленно, а для более трудной задачи 46 вообще не приводит к решению. Модификация этого метода («Конград-3») значительно более эффективна. Метод Шора вновь, как и для предыдущих задач, дает хорошие результаты. Специализированный метод типа Гаусса — Ньютона работает гораздо лучше, чем общие методы. Такая высокая эффектив- ность этого метода во многом объясняется особенностями задачи (метод Гаусса — Ньютона работает тем лучше, чем меньше f*, см. § 1 гл. 11; в данном случае f* = 0). Следует также иметь в виду, что объем вычислений на каждую итерацию для этого метода существенно больше, чем для других. Таблица 3. Сравнение методов для задачи 4 Метод Задача 4а Задача 46 k— ka 6f 6x ftf 6x «Конград-2» 179 781 10~'3 io-4 H H H H «Конград-3» 47 205 10~18 10~8 110 622 io-'8 4- 10-4 «Шор-1» 83 400 6•io-5 10~7 72 410 4 • 10-14 io~3 сГаусс ~ Нью- он» 6 io~21 10~" 11 io-22 10~7 Для задачи 5 сравнивались два метода — упомянутый выше вариант метода Гаусса — Ньютона [11.22] и обычный метод наи- меньших квадратов («МНК») — система линейных уравнений Vf(x) —0 решалась методом исключения Гаусса; результаты да- ны в таблице 4. Видно, что оба метода при п 10 дают практи- чески точный минимум по функции; что касается точности по аргументу, то она гораздо выше для итеративного метода. Впро- чем, время вычислений для метода Гаусса — Ньютона примерно в 10 раз больше, чем для «МНК». Упражнения. m 1. Как построить тестовую задачу вида f (х) — У) ((аг, х) — 6г)2, в ко- г == 1 торой х* известно, по f* > 0? 2. Подумайте, велики или малы величины в табл. 4 по сравнению с теоретическими для данных чисел обусловленности р.
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И ПЕЗУЛЬТДТЫ ВЫЧИСЛЕНИЙ 353 Здесь А —матрица, столбцами которой являются а‘, !— мно- жество активных индексов: I = {I: Ьг-||х*— аг'||2 == /(%*)}. В работе [5.15] использовалась одна из модификаций метода «Шор-1» (т. е. метода (14), (17) § 4 гл. 5), отличавшаяся спо- собом выбора длины шага yk, при этом за 51 итерацию (т. е. за 51 вычисление df(x)) было получено б/= 7-Ю-5, бх = 4-10~4. Для этой же задачи в [0.19, с. 415—417] применялся метод типа ме- тода линеаризации; потребовалось 14 раз решать вспомогатель- ную задачу линейного программирования для достижения точ- ности б/ = 5-10~5. 3 адача 7 [5.20, с. 151], «=10: f (х) = max {(A(fe)x, х) — (b\ х)}, Ац = exp (z’/j) cos ij sin k, i =# j, A--’ = 0,1 i sin k H- £a$, = exp (z/&) sin z&, z, j — 1, . .., 10, k~\, ..., 5, x* = (— 0,1263; - 0,0346; -0,0067; 0,2668; 0,0673; 0,2786; 0,0744; 0,1387; 0,0839; 0,0385), /* = -0,8414, x° = (l; ...; 1), /° = 5337. Вычисления, проведенные К. Лемарешалем, дали следующие результаты. Метод «Шор-1» дал б/< 10~4 за ki = 60 (т. е. за 60 вычислений субградиента). Два других метода негладкой ми- нимизации, предложенные Ф. Вульфом и К. Лемарешалем [5.20], потребовали для достижения той же точности соответ- ственно ki — 186 и ki = 96. Попытка применить к задаче один из лучших квазиньютоновских методов гладкой минимизации «БФШ» не привела к точному решению — за ki — 86 была до- стигнута точка с б/ = 0,08, после чего метод остановился. Задача 8 (аппроксимация полиномами в Ц), п — любое: 101 п п f(x)=X > /=1 i=l i-i ^ = 0,01 (/- i), j= i, ..., ioi, x* = (l/«; ...; l/«), f = 0, x° = (0; 0). Эта задача является негладким аналогом задачи 5. В ряде мето- дов требуется задать Qo — область локализации минимума, в этом случае бралось Qo — {х: ||х|| С 1}. Вычисления проводи- лись (для различных алгоритмов) В. И. Венцом, О. В. Тулин- ским и А. С. Немировским. Метод эллипсоидов (12) § 4 гл. 5 сходился (по функции) для задач большой размерности, вплоть до п = 50. Интересно, что при этом достигалась и сравнительно
354 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИЙ хорошая точность по аргументам. Так, для п = 5 за 1200 итера- ций было получено Sf = 5-10-11, 6х = КН9; для /г = 20 за 9500 итераций было найдено 6f = 10-11, бх=10~3. Метод «Шор-1»' ((14), (17) § 4 гл. 5) сходился значительно быстрее; так, для п = 5 потребовалось лишь 47 итераций, чтобы получить 6f = = 4-10~5, бх = 10~4, а для п = 20 за 180 итераций была найдена точка с Sf = 10~7. Правда, в последнем случае точность по аргу- менту была очень плохой (бх =1). Скорость сходимости сущест- венно зависела от выбора а (см. (17), (19) § 4 гл. 5); поскольку функция f(x) однородна с показателем 1, то для нее можно взять М — N — 1, а = оо и добиться (в принципе) конечной схо- димости метода. Проверялся также метод (14), (16) § 4 гл. 5 («Шор-2»). Его применение для данной задачи облегчается тем, что известно значение = 0. Если не предполагать величину /* известной, то регулировка длины шага в методе «Шор-2» услож- няется, и его скорость сходимости существенно замедляется. 5. Нелинейное программирование. Приведем один из спосо- бов построения тестовых задач выпуклого программирования с ограничениями типа неравенств. Выбирается точка х* е R", на- бор выпуклых дифференцируемых функций gi(x), i — 0.......т, и множество индексов /* (число элементов в котором не превос- ходит п). Далее конструируется задача min [g0 W + (с — Vgo (A x)], g/U)-gz(x*)<0, ie=F, (5) gi (x) — at <0, i e Г, где ai> gi(x*) — произвольные числа, а вектор с имеет вид с = — S ^Ngi (А (6) lei* i е I*, — произвольные числа. Тогда в соответствии с теоремой Куна —Таккера х* —решение задачи (5). Выбирая число элементов в /*, можно получить различную размерность многообразия, на котором достигается решение. В частности, если в I* включить п элементов так, что градиенты Vg>(x*), i е /*, линейно независимы, Л, > 0, ie I*, то х* — острый мини- мум (см. теорему 4 § 2 гл. 9). Ниже в дополнение к введенным выше будем применять сле- дующие обозначения: т — общее число ограничений (не считая ограничений вида х^0), г — число ограничений типа нера- венств, 6g — невязка по ограничениям полученного решения: г пг - 6g = У gi (xfe)2. + X, gi (xk)2, k0 и ki — число вычислений всех i=l i=r+l функций и их градиентов (например, число вычислений моди- фицированной функции Лагранжа и ее градиента).
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИИ 355 Задача 9 ([0.21, задача 18]), п — 15, т — 5: 10 5 5 /(%)= — ^biXi-\- Е CijXw+iXio+i + 2 Е diX3io+i, i = l i, j = l t = l 10 5 gt W = E aHxi — 2 E CijXio+i — ^diX2w+i — et < 0, i = 1........5, /=i /=i 4=1,..., 15, / 30 -20 —10 32 -10 \ I -20 39 -6 —31 32 C=| —10 -6 10 -6—10 I 32 —31 -6 39 —20 \ —10 32 —10 —20 30 J / —16 0 —3,5 0 0 2 —1 —1 1 1 \ I 2—2 0 —2 —9 0 —1 —2 2 1 | А= оо 2 0—2 —4 —1 —3 3 1 - 1 1 0,4 0 —4 1 0 —1 —2 4 1 1 \ С 2 0 —1 —2,8 0 —1 —1 5 1 / Ь = (-40; —2; -0,25; -4; —4; — 1; - -40; -60; 5; 1) d — (4; 8; 10; 6; 2), e = (—15; —27; -36; -18; -12), 4=0,0001, Z=l,..., 15, 4=0=7, 4=60, f° = 2400,01. И минимизируемая функция, и ограничения в этой задаче являются нелинейными и невыпуклыми. Точное решение неиз- вестно. В [0.21] приведено следующее приближенное решение: х* = (0; 0; 5,174; 0; 3,0611; 11,8395; 0; 0; 0,1039; 0; 0,3; 0,3335; 0,4; 0,4283; 0,224), /* = 32,386. Однако в [12.5] получено не- сколько иное решение с меньшим значением функции: х* = = (0; 0; 5,174; 0; 3,061117; 11,839466; 0; 0; 0,103877; 0; 0,300002; 0,333466; 0,400003; 0,428306, 0,223964), /* = 32,348679. Задача 9 является задачей средней трудности. На ней в ряде работ (ссылки можно найти в [0.21, 12.5]) проводилось сравне- ние различных методов. По данным [0.21 (табл. 9.3.5, 9.3.6)]! такие методы, как скользящего допуска, линеаризации (про- грамма ПОП), Розенброка, обобщенного градиентного (ОГМ.ОП) (по поводу терминологии см. [0.21]) не привели к решению за- дачи. Различные варианты метода барьерных функций и штра- фов для k\ порядка нескольких тысяч дают лишь достаточно грубое решение 6х ~ 0,1 Т-0,3 и 6/ ~ 10~2Ч- 10~3. В таблице 5 приведены результаты вычислений из [12.5] для метода штраф- ных функций (10) § 4 гл. 9 и метода модифицированной функ- ции Лагранжа (23) § 3 гл. 9 при трех начальных точках х°;
356 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ а) х° = 0, /=1, 10, Z =И= 7; х°7 = 60; х® = 0,0001, /=11,..., 15; х° = 0, /=16, ...,20, б)х®=1, /=1, ..., 15; х° = 0, /=16, ...,20, в)х°=1, /= 1, ..., 15; х®= 10, /=16, ...,20. Таблица 5. Сравнение методов для задачи 9 Начальная точка 6x 6f 6g fei Метод модифицированной функции Ла1ранжа a) 10" 10"® о,5. ю" ; 1199 3921 6) 10" Ю" 0,4 • 10 1248 4256 в) 10"® 10 0,5- 10 1488 4911 Метод штрафных функций а) 101 0,4 • 10”3 0,2- 10”® 1776 6151 б) 10"2 0,6- 10" 0,3- 10" 1188 4135 в) 2-10~2 0,3- ю"3 0,2- 10”® 1078 3895 Здесь у вектора х 20 координат, так как задача записывается в форме min / (х), gi (х) + х15+г = о, /=1,...,5, хг>0, /=!,..., 20, являющейся канонической для программ, используемых в [12.5]. Данные в таблице 5 показывают, что спуск из существенно различных начальных точек проходит приблизительно одина- ково, а метод модифицированной функции Лагранжа заметно эффективнее метода штрафных функций. Отметим еще, что коэффициент штрафа К регулируется и в первом методе стано- вится равным ~ 100, во втором — 1000 к концу вычислений. Расчет для одного варианта требовал порядка 3 мин. на машине БЭСМ-6 в системе БЭСМ-АЛГОЛ. Задача 10 ([0.21, задача 20]), п = 24, г — 14, т — 20: 12 f W = ОI (xt + xi+12), (-1 gi (x) = J-13 xi bi -12 40Z/ /= 1, .. ., 12,
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ 357 24 §13 (х) = X Xi — 1 = 0, 12 24 w = £ -Т + 142,224705 £ 1,671 = 0, ( = 1 ' ( = 13 z~12 ! = 1 -0,1 < ; о, - 0,3 s С о, X xi - 0,4 < ; о, gi8(x) = A^-0>3<0, г=1 gi9(x) = Ar^-0>6<0, i=l g20(x) = ^W^-0>3<0> X xi i=l xt>0, < = !,..., 24, a = (0,0693; 0,0577; 0,05; 0,2; 0,26; 0,55; 0,03; 0,1; 0,12; 0,18; 0,1; 0,09), 6 = (44,094; 58,12; 58,12; 137,4; 120,9; 170,9; 62,501; 84,94; 133,425; 82,507; 46,07; 60,097), c = (123,7; 31,7; 45,7; 14,7; 84,7; 27,7; 49,7; 7,1; 2,1; 17,7; 0,85; 0,64), d = (31,244; 36,12; 34,784; 92,7; 82,7; 91,6; 56,708; 82,7; 80,8; 64,517; 49,4; 49,1)» л:? = 0,04, Z=l, ..., 24. Задача имеет невыпуклые и нелинейные ограничения. Ее 24 можно было бы несколько упростить, заменив У, xt на 1 в огра- Х=-!
358 ГЛ. 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ ничениях 15—20, однако такие приемы считаются «запрещен- ными» при испытании общих методов. Решения, приведенные в [0.21], являются довольно грубыми; наиболее точное решение получено в [12.5] и имеет вид х* — (0; 0,107248; 0,111390; 0; 0; 0; 0; 0,0755407; 0; 0; 0; 0; 0,0111949; 0; 0192752; 0,288611; 0; 0; 0; 0,212858; 0; 0; 0; 0), f = 0,0556580. Эта задача является наиболее сложной среди приведенных в [0.21]; большинство стандартных программ не привело к ре- шению. Работоспособными по данным [0.21] оказались лишь методы приведенного градиента и скользящего допуска, причем последний для достижения невысокой точности 6[ ~ 10~3, 6х ~ ~ 0,4-10-1 потребовал 8,5 мин. счета на СДС-6600. В [12.5] задача решалась методом модифицированной функции Лагран- жа и методом штрафных функций. Для первого метода было получено 8х = 0,5-10-6, б/= 10~8, 6g = 10-13 при £0 = 1828, &i = 5436 и за 5 мин. на БЭСМ-6, для второго 6х = 0,3 • 10_3, 6f = 0,3-10-4, 6g = 0,3 • 10~4, £0 = 204, ki =600, но более точных результатов при продолжении вычислений в методе штрафных функций получить не удается. Таким образом, для грубого ре- шения годится метод штрафных функций, а дальнейшее уточне- ние можно производить методом модифицированной функции Лагранжа. Упражнения. 3. Постройте двойственную к задаче 9; покажите, что она может быть [5 1 (е, у) + (Су, «/) + X |> V е R5 * *. Ату 5- 6, i = l J у Эг 0 и является выпуклой, а ее решением является у* — (0,3; 0,3335; 0,4; 0,4285; 0,224). 4. Как подобно (5) построить тестовую задачу, в которой были бы огра- ничения типа равенств? 4. Линейное программирование. Как это ни странно, не су- ществует общепринятых тестовых задач линейного программи- рования различной размерности и сложности. Как правило, но- вые программы проверяют сначала на «игрушечных» задачах малой размерности (чтобы убедиться в правильности их рабо- ты), а затем применяют к реальным задачам. При этом обычно не делается попыток систематического сравнения эффективности программ на одинаковом числовом материале. Это связано с тем, что содержательную проверку методов и программ имеет смысл проводить на задачах, где m 50, п 100 (речь идет о канонической форме записи). Задачи меньшей размерности, как правило, решаются хорошими программами симплекс-метода на современных ЭВМ за пренебрежимо малое время (порядка се- кунд). Запись же информации в задачах упомянутой размерно- сти весьма трудоемка, и тратить силы на подобную работу без крайней необходимости никому не хочется.
§ 3. ТЕСТОВЫЕ ЗАДАЧИ И РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЙ 359 По-видимому, целесообразно иметь два типа тестовых задач Линейного программирования: специальных трудных задач ма- лой размерности и больших задач, в которых матрица ограни- чений легко генерируется. К задачам первого типа можно отне- сти, во-первых, сконструированные примеры, в которых симп- лекс-метод требует большого числа шагов (экспоненциально зависящего от размерности), см. ниже задачу 11, а во-вторых, не- устойчивые задачи, в которых матрицы линейных уравнений, решаемые на шаге симплекс-метода, плохо обусловлены. По- следние можно получить с помощью дискретных задач равно- мерного или в норме /1 приближения функции полиномами, записанных в форме линейного программирования (см. (19) § 1 гл. 11). Второй класс тестовых задач можно построить, например, следующим образом. Возьмем какую-либо простую выпуклую нелинейную функцию f(x) в R” и набор точек х\ ..., хт, среди которых есть х*— точка минимума f(x). Тогда задача линейного программирования min/, (Vf(xO, X — X1) — /< — /(хг), г = 1, (7) будет иметь решение {х*, 0} (ср. с методами минимизации f(x), описанными в § 4 гл. 5). Так, если взять f(x)~ ||х||2, а в ка- честве х1 — точки вида {xi, ..., хп}, где х/, / = 1.п, при- нимают значения 0, ±1, то получим задачу линейного програм- мирования min/, 2(х;, х) — /<П1х!'||2, (8) в которой 3" ограничений, а решением является х* = 0, t* = 0. Насколько нам известно, численное исследование подобных мно- гомерных и легко задаваемых задач (матрица ограничений в них легко генерируется) не проводилось. Задача 11, п любое: таххл - 1<х><1, (9) — 2х/_! —- 22г-2 <хг <2хг_! -ф 22г'~2, г = 2, п, _vT=l, х? = 2х*_1 + 22г-2, г = 2, В этой задаче многогранник ограничений имеет 2" вершин; если начать с вершины х° — 1, х? = 2х?_j -j-22i~2, i — — х^-гх^-г2"-2, то итерации симплекс-метода при одном из способов перехода к соседней вершине пройдут по всем вершинам многогранника.
360 ГЛ, 12. ПРАКТИЧЕСКОЕ РЕШЕНИЕ ЗАДАЧ ОПТИМИЗАЦИИ Задачу можно задать и в канонической форме: п max У, CjXj, i У Ц/ jXj -ф xn+t === b h i = 1, . •., п, i=i Х/>0, /=1, ...,2n, (10) aZi = l, az/ = (—1)Z+/2Z-/+1, j<i, = (22i - (-2)9/3, z = l, С1 = {-?Т\ n, XQ, — 0, 2=1, ..., n, xon,. = b., z = l, ..., n. Здесь x*i, z=l, ..., n, — те же, что и ранее; х* = 0, i = = «-ф1, ..., 2п; решение двойственной задачи имеет вид z/i = 2rt-z> г=1, ..., п. Численное исследование этой задачи было выполнено Н. А. Соколовым. При фактическом примене- нии симплекс-метода для п = 15 число шагов оказалось равным 21 402 (вместо теоретических 215 = 32 768); по-видимому, это связано с применявшимся в конкретном алгоритме способом вы- бора соседней вершины. Однако и такое число шагов нужно признать чрезвычайно большим (для задач подобной размерно- сти обычно число итераций не превосходит 100). Решение с по- мощью итерационного метода, основанного на модифицирован- ной функции Лагранжа (типа (12) § 3 гл. 10) дало точность порядка 2—3% (и по аргументам, и по критерию) за 556 итера- ций, при этом каждая итерация включала порядка 7 циклов ме- тода покоординатного спуска для минимизации модифицирован- ной функции Лагранжа. Упражнение. 5. Покажите, что следующая задача [10.18] эквивалентна (9): max хп, 0 < xt С 1, exz-I < х. < 1 — 2 = 2, ..., я, 0 < е < 1/2, х° = (0; ...; 0), х* = (0; ...; 0;1).
БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ К ГЛАВЕ 1 § 1. Основные факты, связанные с дифференцированием функций многих переменных, можно найти в любом курсе математического анализа, например в учебнике Г. Е. Шилова [1.10]. При переходе к абстрактным пространствам эти факты становятся только более наглядными. О дифференцировании функ- ционалов и операторов можно прочесть в монографиях Л. В. Канторовича и Г. П. Акилова [1.5], М. М. Вайнберга [1.2]. Свойства выпуклых и сильно выпуклых функций приводятся в большин- стве монографий по математическому программированию, в частности в книгах Ф. П. Васильева [0.2], В. Г. Карманова [0.8], Ортеги и Рейнболдта [0.12]. Впервые понятие сильно выпуклой функции было введено в [1.7]. § 3. С общей проблемой корректности математических задач читатель может ознакомиться по монографиям [1.4, 1.8]. Применительно к задачам оптимизации эти проблемы обсуждаются в учебниках Ф. П. Васильева [0.2] и В. Г. Карманова [0.8]. Отметим, что употребляемая там терминология не всегда совпадает с вышеприведенной. § 4. Идея градиентного метода восходит к Коши (1830 г.). Первые до- казательства сходимости при различных предположениях получены Л. В. Кан- торовичем, М. М. Вайнбергом, Карри, Крокетом и Черновым в 1940—1950-х гг. В изложении материала этого параграфа мы следуем в основном статье [1.6]. Лемма 2 доказана Е. Г. Гольштейном и Н. В. Третьяковым [1.3]. Много материала о поведении градиентного метода содержится в моногра- фии [0.12]. § 5. Линеаризацию как способ решения уравнений применял еще Нью- тон, а первые результаты о сходимости принадлежат Фурье и Коши. Система- тическое изучение метода Ньютона осуществлено Л. В. Канторовичем в конце 40-х годов, его результаты приведены в книге [1.5]. Различные обобщения метода и относящиеся к ним теоремы сходимости описаны в [0.12]. Отметим еще, что нередко метод называют методом Ньютона — Рафсона или Ньюто- на — Канторовича. § 6. Серьезное обсуждение проблем о соотношении теории и практики в вычислительной математике содержится, например, в известных книгах Н. С. Бахвалова и Хемминга по численным методам [1.1, 1.9]. Мы рекомен- дуем также читателю ознакомиться с точкой зрения Р. П. Федоренко [0.19]. К ГЛАВЕ 2 § 1. Идея использования линеаризации для исследования асимптотиче- ского поведения траекторий, описываемых дифференциальными уравнениями, была высказана А. М. Ляпуновым (первый метод Ляпунова) в конце про- шлого века и развита в работах Пуанкаре, Бенднксона и многих других авторов. Первые результаты, относящиеся к дискретным процессам (описывае- мым разностными уравнениями) были получены Пуанкаре и Перроном. Так, основная теорема 1 по существу доказана Перроном в 1929 г. (хотя ее ча- сто называют теоремой Островского, получившего этот результат в 1957 г.). Систематическое исследование сходимости итеративных процедур на основе первого метода Ляпунова начато в 50-х годах в работах Веллмана, П. В. Бром- берга и Островского. Наиболее подробно эта теория изложена в монографии Ортеги и Рейнболдта [0.12], где приведена и обширная библиография.
362 БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ § 2. Различные леммы о числовых последовательностях рассеяны в много- численных работах, нередко не связанных со сходимостью итеративных ме- тодов, и установление их авторства представляет трудности. Применение скалярных функций, монотонно убывающих на траекториях процесса, для исследования асимптотического поведения и устойчивости обыкновенных дифференциальных уравнений восходит к Ляпунову (прямой или второй метод Ляпунова). Этот метод является наиболее употребительным инструментом анализа в данной области. Для анализа дискретных процессов метод функций Ляпунова применялся, начиная с работ Веллмана и П. В. Бром- берга. Наиболее полные результаты здесь получены Ю. И. Любичем и Г. Д. Майстровским [2.7]. Впрочем, в работах по вычислительной математике доказательства, основанные на идее использования функции Ляпунова, яв- ляются традиционными (см., например, [2.4]). В стохастических задачах тех- ника второго метода Ляпунова впервые была применена Блюмом [2.12]. С тех пор она многократно использовалась и обобщалась [2.1, 2.6, 2.8, 2.9, 2.11]. В формулировках и доказательствах лемм и теорем § 2 мы следовали из- ложению [2.11]. - § 3. Принцип сжимающих отображений традиционно использовался в математике не столько для исследования сходимости, сколько для доказа- тельства теорем существования. Примером может служить классическое дока- зательство существования и единственности решения дифференциальных урав- нений, проходящего через данную точку, предложенное Пикаром. Абстрактная формулировка принципа, дана Банахом.' Различные обобщения можно найти в [0.12]. К ГЛАВЕ 3 Методам безусловной минимизации уделено много внимания в моногра- фиях [0.2, 0.8, 0.10, 0.12, 0.13, 0.15, 0.20, 0.21, 0.22, 1.2]; им посвящены также обзоры [3.8, 3.10]. § 1. Теорема 1 о сходимости метода наискорейшего спуска получена Карри в 1944 г. Скорость сходимости этого метода для квадратичных функ- ций (теорема 2) исследовалась Л. В. Канторовичем [1.5]. Процедура регули- ровки длины шага (10) предлагалась различными авторами, в частности Ар- михо, С. А. Смоляком, Б. Н. Пшеничным и Ю. М. Данилиным [0.15]. Метод Ньютона с регулировкой длины шага (11) предложил Л. В. Канторович в 1948 г. Алгоритм типа (16) для специальных типов задач (минимизации Сумм квадратов нелинейных функций) впервые использовал Левенберг в 1944 г., а широкую известность он приобрел благодаря работе Марквардта- 13.20]. Различные детали и более подробные библиографические указания по ма- териалам данного параграфа можно найти в монографии Ортеги и Рейн- болдта [0.12]. § 2. Двухшаговые методы для ускорения сходимости итерационных про- цедур традиционно применялись в линейной алгебре [3.6, 3.11]. На неквадра- тичные задачи минимизации метод (2) был перенесен в [3.7], там же полу- чены утверждения о сходимости типа теоремы 1. Метод сопряженных градиентов, играющий ныне очень большую роль в теории и практике оптимизации, появился в 1952 г. в работах Хестенса и Штифеля [3.17] как способ решения систем линейных уравнений с положи- тельно определенной матрицей. В [3.16] содержится подробное исследование свойств метода и его модификаций, сравнение различных вычислительных схем. В 1964 г. Флетчер и Ривз [3.15] предложили применять метод в форме (22) для неквадратичных задач и высказали эвристические соображения об эффективности метода. Первое доказательство сходимости дано Дэниелом (см. [3.12]). Вычислительная схема (24) предложена в [0.13] и [3.9], там же даны доказательства сходимости для вариантов с обновлением.
библиографические указания и комментарии 363 § 3. Первый квазиньютоновский алгоритм был предложен Давидоиом в 1959 г. и стал популярным благодаря работе Флетчера и Пауэлла [3.14]. Этот метод Давидона — Флетчера—Пауэлла описывается формулами (1), (8). С тех пор появилось множество работ, в которых либо формулируются новые варианты квазиньютоновских методов, либо делается попытка класси- фицировать эти методы и получить их с помощью единого подхода [3.18], либо дается обоснование известным методам [3.2]. Подробно эти вопросы изложены в монографиях [0.15, 0.22, 3.16] и обзоре [3.13]. По поводу обоснования различных вариантов методов переменной мет- рики и сопряженных направлений можно обратиться к упоминавшимся ра- ботам [0.15, 0.22, 3.2]. Метод секущих для решения одномерных уравнений известен очень давно, для двумерного случая, как указывает Островский [2.10], он был предложен еще Гауссом. В общей форме метод описан Вульфом [3.22]. Обосйование ме- тода дано Ю. М. Данилиным [3.1]. В обзоре [3.8] приведены некоторые целесообразные с вычислительной точки зрения модификации метода. Идея использования однородной модели принадлежит Джекобсону и Окс- ману [3.19]. § 4. Разнообразные методы конечно-разностной аппроксимации и оценки их точности приведены в [3.4]. Методы вида (6) — (8) исследовались в [4.2]. Метод покоординатного спуска для квадратичных функций хорошо известен в линейной алгебре как метод Гаусса — Зейделя [3.6, 3.11]. Инициатором применения и активным пропагандистом методов случайного поиска является Л. А. Растригин [0.16]. Симплексный метод был предложен в [3.21] и обобщался многими авто- рами (см. посвященную ему монографию [3.3]). Описа нный в п. 4 метод барицентрических координат построен С. С. Лав- ровым [3.5]. К ГЛА ВЕ 4 Вопрос о влиянии помех на метод оптимизации в целом мало исследован в литературе. В основном изучался случай аддитивных случайных помех. Первые работы в этой области появились в статистике и были связаны с ал- горитмами стохастической аппроксимации [4.14, 4.12]. Специально для задач минимизации эти исследования подытожены в монографиях Ю. М. Ер- мольева [4.2], Кушнера и Кларка [4.13]. § 1. Источники и типы помех в вычислительных задачах вообще освещены в книгах по численным методам [1.1, 1.9]. Многочисленные примеры задач адаптации, обучения, распознавания и т. д., приводящие к минимизации функ- ции типа среднего риска, приведены в монографиях [4.2, 4.9, 4.11]. Клас- сификация помех, приводимая в этом параграфе, не является общепри- нятой. § 2. Случай детерминированных помех затрагивался в ранних работах по экстремальному регулированию [4.4] и в литературе по методам оптими- зации почти не исследовался. Задачи со случайными помехами, как уже от- мечалось, изучены лучше [4.1, 4.2, 4.12, 4.14, 0.16, 0.18, 2.3, 2.8]. § 3. Сравнение скорости сходимости одно- и двух-шаговых методов в условиях помех проведено в [4.6]. § 4. Первые результаты типа теоремы 1 были получены еще в [4.12], см. также [2.3, 2.8]. При сопоставлении разностного варианта градиентного метода и метода случайного поиска мы следуем [4.7]. Рекуррентная версия метода наименьших' квадратов (13) является частным случаем фильтра Кал- мана. § 5. Результаты п. 1 получены в [4.10]. Асимптотически оптимальные алгоритмы оптимизации при наличии случайных помех указаны и обоснованы в [4.8]. Требуемые сведения из математической статистики (например, нера- венство Крамера — Рао) можно найти в [4.3].
364 БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ К ГЛАВЕ 5 В настоящее время существует несколько монографий, специально по- священных задаче минимизации недифференцируемых функций. Это, прежде всего, книга Н. 3. Шора [5.15], являющегося пионером в области методов негладкой оптимизации. Монографии В. Ф. Демьянова [5.2, 5.3] посвящены минимизации функций типа максимума. В книге Ю. М. Ермольева [4.2] много внимания уделено негладкой оптимизации при случайных помехах. Во- прос об оптимальных методах выпуклой минимизации подробно исследован в монографии А. С. Немировского и Д. Б. Юдина [0.11]. Обобщения на случай некоторых невыпуклых негладких задач можно найти в книге Е. А. Нур- минского [2.9] и А. М. Гупала [5.1]. Наконец, имеются сборники статей по этой тематике [5.19, 5.20]. § 1. Исчерпывающий материал по выпуклому анализу содержится в фун- даментальной монографии Рокафеллара [5.13], см. также [5.11]. Первые ре- зультаты о субградиентах и их свойствах (типа лемм 6—12) принадлежат Б. Н. Пшеничному [5.12]. Различные обобщения леммы 7 можно найти в книге В. Ф. Демьянова [5.2]. Свойства е-субградиентов описаны в [2.9]. § 2. Задачи с острым минимумом подробно изучены в статье [5.21]. § 3. Субградиентный метод (с постоянной длиной шага) был впервые предложен Н. 3. Шором в 1962 г. (см. библиографию в [5.15, 5.19, 5.20]). Способ регулировки длины шага (4) указан Ю. М. Ермольевым [0.5] и Б. Т. Поляком [5.8]. Субградиентный метод в форме (7) для частных задач был введен И. И. Ереминым [5.4]. Подробное исследование такого метода осуществлено в [5.9]. Варианты метода из упражнения 2 описаны в [5.5, 5.15]. Детальный анализ скорости сходимости различных модификаций суб- градиентного метода и их численная проверка даны в [5.16]. Результаты, относящиеся к е-субградиентному методу, имеются в [2.9, 5.3] Различные его обобщения предложены Лемарешалем, Вульфом и другими [5.19, 5.20, 2.9]. § 4. Метод отсекающей гиперплоскости разработан Келли [5.17] еще до появления более простого субградиентного метода. Результаты о сходимости метода Келли имеются в [0.9]. Методу чебышевских центров посвящены ра- боты [5.6, 5.10]. Вариант (6) предложен в [5.9]. Оригинальный метод центра тяжести разработан одновременно и независимо А. Ю. Левиным [5.7] и Нью- меном [5.18]. Теорема 2 в приведенной выше форме доказана А. С. Немиров- ским и Д. Б. Юдиным [0.11]. Вопрос об оптимальных методах глубоко исследован этими же авторами [0.11], Ими же предложен и обоснован метод (12) [0.11]. С другой точки зрения к этому методу пришел Н. 3. Шор. Он также разработал много- численные варианты методов с растяжением пространства (эти работы поды- тожены в [5.15]). Форма (14) для этих методов предложена В. А. Скоко- вым £5.141. § 5. Субградиентный метод при наличии помех изучал Ю. М. Ермольев [4.2], см. также [2.9, 4.1, 5.21]. § 6. Метод (3) принадлежит А. М. Гупалу [5.1]; им же исследована схо- димость метода. К ГЛАВЕ 6 § 1. Некорректным задачам (частным случаем которых являются задачи безусловной минимизации с вырожденным минимумом) уделяется очень боль- шое внимание в исследованиях последних лет. Укажем в этой связи, моно- графии А. Н. Тихонова и В. Я. Арсенина [1.8] и В. К. Иванова, В. В. Васина и В. П. Тананы [1.4], М. М. Лаврентьева [6.8]. В этих работах основное внимание уделяется решению линейного уравнения Ах = b в гильбертовом пространстве в ситуации, когда оператор А не имеет обратного.
БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ 365 Результат о сходимости из теоремы 1 был приведен без доказательства в [6.12] и обоснован Е. Г. Гольштейном и Н. В. Третьяковым [1.3]. Метод регуляризации для некорректных задач решения операторных уравнений пред- ложен А. Н. Тихоновым в 1963 г. (см. библиографию в [1.8]). Теорема 4 до- казана Е. С. Левитиным и автором [6.9]. Многочисленные результаты, отно- сящиеся к псевдообратным матрицам, можно найти в книге Алберта [6.1]. Понятие проксимационного отображения введено Моро, его результаты опи- саны в § 31 монографии Рокафеллара [5.13]. Метод (18) был предложен Мартине [6.19], его обобщения и подробный анализ даны Рокафелларом [6.20]. Метод итеративной регуляризации (21) предложен А. Б. Бакушин- ским и автором [6.2]. Идея «регуляризации» с помощью выбора момента остановки итеративного процесса при решении линейных операторных уравне- ний высказывалась А. Б. Бакушинским, М. М. Лаврентьевым и другими ав- торами. Наиболее полное исследование этого подхода с указанием конструк- тивных правил остановки содержится в [6.6]. Метод регуляризации в зада- чах минимизации при наличии помех впервые исследовался В. А. Морозовым [6.10]. Дальнейшие результаты можно найти в [0.2, 0.8, 1.8]. § 2. Задаче глобальной оптимизации посвящены монографии [6.15, 6.16], сборник [6.21], ей уделено большое внимание в книгах [6.3, 6.4, 6.11]. Алго- ритмы глобальной оптимизации липшицевых функций предлагались рядом авторов (см. [6.3, 6.16]). Овражный метод предложен И. Л. Гельфандом и М. Л. Цетлиным [6.5]. Идея разделения процесса поиска на этапы спуска, подъема и перевала и описанный способ определения направления «наимед- леннейшего подъема» принадлежат И. Е. Федоровой [6.17]. Другие детер- минированные методы глобальной оптимизации приведены в [6.21]. Методам случайного поиска посвящена обширная литература. С этими методами можно ознакомиться по монографиям Л. А. Растригина [0.16, 6.13]. Последние результаты в этой области отражены в сборниках «Проб- лемы случайного поиска», издаваемых в Риге издательством «Зинатне». Ста- тистические модели глобальной оптимизации развивались в работах И. Б. Моцкуса [6.11], Р. Г. Стронгина [6.15], Д. И. Батищева [6.3], А. Жи- линскаса [6.22]. § 3. Нестационарные задачи оптимизации при наличии ограничений рас- сматриваются в монографии [6.7]. Первоначально вопросы зависимости реше- ния от параметра изучались в теории, посвященной методам продолжения по параметру для решения нелинейных уравнений (см, [0.12], §§ 7.5, 10.4). Совсем с другой точки зрения нестационарные задачи оптимизации исследова- лись в работах по экстремальному регулированию [0.16, 4.4] и по динами- ческой стохастической аппроксимации [6.18]. Однако в целом нестационарным задачам уделялось недостаточно внимания. К ГЛАВЕ 7 Значительное внимание задаче минимизации на простом множестве уделено в монографиях [0,2, 0.4, 0.15, 0.17, 3.4, 4.2] и работах [0.9, 0.14]. § 1. Впервые условие экстремума типа теоремы 1 получил еще в 1940 г. Л. В. Канторович. В вышеприведенном виде теорема 1 доказана В. Ф. Демь- яновым и А. М. Рубиновым [0.4]. Результаты для негладкого случая (тео- рема 3) принадлежат Б. Н. Пшеничному [5.12]. Задачи с условиями (2) и более общими такого типа исследовались в [5.21]. Обобщенноминимизирую- щие последовательности и соответствующее условие устойчивости введены в [0.9]. Результаты о «сверхустойчивости» острого минимума получены в [5.21]. § 2. Метод проекции градиента независимо предложен в работах [7.6, 0.4, 0.9]. Первая часть теоремы 1 (п. а)—в)) получена в [0.9]. Результат о конечности метода в случае острого минимума содержится в [5.21]. Дальнейшие исследования метода проекции градиента можно найти в [7.2].
366 БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ Для негладких задач метод проекции субградиента (8), (9) введен в [5.8], а в форме (8), (10) — в [5.9]. Франк и Вульф [7.5] предложили метод (И) для задач квадратичного программирования (т. е. с квадратичной f(x) и многогранным Q). Поэтому нередко метод условного градиента называют методом Франк и Вульфа. Для общей задачи (А) метод условного градиента применил В. Ф. Демьянов [0.4]. Оценки скорости сходимости и различные правила выбора длины шага предложены в [0.9, 7.4]. Поведение метода для острого минимума изучено в [7.4, 5.21]. Пример типа (16), демонстрирующий медленную сходимость метода, построен в [7.3]. Метод Ньютона для задач с ограничениями введен в [0.9]. § 3. Некоторые результаты, близкие к материалу п. 1 данного параграфа, можно найти в [0.15]. Метод сопряженных градиентов с ограничениями вида а sj х sj b введен и обоснован в [3.9]. Относительно многошаговых методов минимизации негладких функций с ограничениями х е Q см. упоминавшиеся в гл. 5 работы. § 4. Сходимость метода проекции субградиента при случайных помехах (теорема 2) доказана Ю. М. Ермольевым [4.1, 4.2]. Метод стохастического условного градиента в форме (6) предложен в [7.1], см. также [5.1]. Иссле- дование методов при ошибках, удовлетворяющих условию (9), проведено в [4.5]. Ряд результатов, относящихся к методам решения задачи (А) при на- личии помех, имеется в [3.4]. К ГЛАВЕ 8 § 1, Условие экстремума в форме (2) имеется в большинстве курсов математического анализа, например в [1.10]. Теорема Люстерника (для бесконечномерного случая) была доказана в 1934 г., с этим результатом можно ознакомиться по [8.4, 1.5, 9.1]. Дока- зательство, основанное на теореме о неявной функции, является стандартным в анализе (см., например, [1.10]). Идея применения штрафных функций для вывода правила множителей Лагранжа высказывалась различными авторами. Приводимое здесь доказательство следует [8.2]. Основная лемма 3 часто называется леммой Финслера или леммой Дебре (см., например, [2.2] ?л. 5). Ее обобщения на бесконечномерный случай и другие леммы этого параграфа получены в [8.9]. Модифицированная функция Лагранжа (14) впервые была введена в вариационном исчислении в 30-х — 40-х годах нашего века для доказательства достаточных условий оптималь- ности. Утверждения об устойчивости типа теоремы 8 содержатся в [0.20]. Ре- зультаты для более общих задач (типа minf(x, в) при ограничениях gi(x, е) = = 0, г = 1, ..., т) можно найти в [8.3, 8.5]. § 2. Методы решения задач с ограничениями типа равенств рассматри- ваются в монографиях [0.15, 0.20, 0.22] и обзорах [0.14, 8.11]. В большинстве же руководств, посвященных математическому программированию, анализи- руется лишь выпуклый случай, не включающий задачи такого вида. Метод линеаризации на уровне идеи предлагался различными авторами. Как четко сформулированный алгоритм его ввел Б. Н. Пшеничный [8.10], эти результаты подробно описаны в [0.15]. Приводимая версия метода от- личается от указанной в [0.15] более простым правилом выбора длины шага. Методы множителей Лагранжа (6), (8) систематически изучались Эрроу Гурвицем и Удзавой [0.23] в основном для выпуклых задач. Один раздел г монографии [0.23] (гл. 11) посвящен задачам с ограничениями типа ра венств. Теорема 2 и результат о сходимости метода (8) доказаны авто- ром [8.6]. Метод модифицированной функции Лагранжа в форме (11) был неза- висимо предложен в работах [8.13—8.15]. Теоремы 4 и 5 о его сходимости
БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ 367 и скорости сходимости доказаны Н. В. Третьяковым и автором [8.9], см. так- же [8.11], Вариант метода (9) для линейных ограничений предложен А. С. Ан- типиным [8.1], а для общего случая в [8.8]. Метод штрафных функций исторически был первым методом условной минимизации, его ввел Курант в 1943 г., а впервые обосновали Батлер и Мар- тин в 1962 г. Оценка скорости сходимости метода (теорема 7) получена в [8.7]. Упомянем также работы [0.9, 0.20, 0.22], где можно найти и даль- нейшую библиографию. Метод приведенного градиента издавна применялся практиками. Его ис- следовал Вульф [8.17] (см. также [0.22]). Метод Ньютона (19) является наиболее прямолинейным подходом к за- даче, использующим правило множителей Лагранжа. Условия его сходимости (теорема 9) получены в [8.6]. Робинсон [8.16] свел задачу условной минимизации к последовательности задач с линейными ограничениями вида (25). Ему принадлежит и результат о квадратичной сходимости метода. Методы типа (26) исследовались в [0.22]. .§ 3. Поведение методов оптимизации с ограничениями типа равенств при наличии случайных помех подробно изучено в [8.8]. К ГЛАВЕ 9 § 1. Теория выпуклого программирования рассматривается в ряде учеб- ников и монографий [0.7, 0.8, 0.20, 0.23, 2.5, 5.11, 5.12, 9.9, 9.26]. Как уже отмечалось, наиболее полным курсом выпуклого анализа явля- ется монография Рокафеллара [5.13], где можно найти доказательства лемм 1—4. Фундаментальная лемма 4 принадлежит Моро и Рокафеллару (см. ссыл- ки в [5.13]). Лемма 5 получена (в бесконечномерном случае) А. Я. Дубовиц- ким и А. А. Милютиным [9.7]. Этот результат лежит в основе нашедшей широкое применение техники Дубовицкого — Милютина для анализа общих экстремальных задач (см. в этой связи [9.3, 9.7, 9.12, 9.28]). Лемма Фаркаша или эквивалентные ей утверждения известны с 30-х годов нашего века, она является основным инструментом в конечномерной теории линейного и вы- пуклого программирования. Основные теоремы 1 и 3 доказаны Куном и Тан- кером в 1950 г.; эти же авторы подчеркнули существенную роль условия ре- гулярности, введенного ранее Слейтером. Двойственная задача первоначально была построена для задачи линейного программирования (см. ссылки в гл. 10). Позже это было проделано для квадратичного программирования, хотя здесь разные авторы по-разному вво- дили понятие двойственной задачи. Еще. больший разнобой царил в теории двойственности для общих задач выпуклого программирования. В ряде монографий и учебников можно найти, например, определение двойственной задачи, в котором фигурируют и у, и х. Излагаемая в п. 3 теория двойствен- ности разработана Е. Г. Гольштейном, в монографии которого [9.4] можно иайти много более общих результатов (см. также [9.9]). Современный подход к двойственности, связанный с сопряжёнными функциями и возмущениями общего вида, изложен в монографиях Рокафеллара [5.13] и А. Д. Иоффе и В. М, .Тихомирова [9.12]. Общие постановки проблемы устойчивости можно найти в [9.4, 9.9, 8.3, 8.5]. § 2. Теорема 1 — один из основных результатов в теории нелинейного программирования — является непосредственным обобщением правила мно- жителей Лагранжа. Долгое время она наряду с теоремой 1 § 1 называлась теоремой Куна — Таккера. В действительности ранее этот результат был полу- чен Джоном. Однако, как выяснилось недавно, условия экстремума для глад- ких задач (и первого, и второго порядков) были впервые найдены Карушем еще в 1939 г. Полная драматизма и поучительная история открытия «теоремы Каруша — Джона — Куиа — Таккера» описана в статье Куна [9.25], там же
368 БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ в качестве приложения- опубликована рукопись Каруша Наиболее подробно различные условия экстремума и условия регулярности и соотношения между ними исследованы в книге Мангасаряна [9.26] (см. также [0.20]). Современ- ные схемы получения общих условий экстремума как для гладких, так и для негладких задач в бесконечномерном случае развиваются весьма интенсивно и достигли высокого уровня абстракции (см. [9.1, 9.3, 9.7, 9.12, 9.28]). Условия устойчивости типа теоремы 9 изучались Фиакко и Мак-Корми- ком [0.20]. § 3. Работы Зойтендейка, относящиеся к концу 50-х — началу 60-х го- дов, подытожены в его монографии [0.7]. В этой книге приводится общая конструкция методов возможных направлений, даны многочисленные модифи- кации и конкретизации общих алгоритмов для частных задач. Независимо от Зойтендейка близкие схемы были предложены и исследованы С. И. Зухо- вицким, Р. А. Поляком и М. Е. Примаком [9.11, 9.10], а также другими авто- рами (см. обзор [0.14]). Одной из первых реализаций метода возможных направлений был метод проекции градиента Розена [9.31]. В работах [0.7, 9.31, 9.11] даны и доказательства сходимости методов. Метод линеаризации вместе с его обоснованием был впервые предложен Б. Н. Пшеничным [8.10]. Его результаты подробно изложены в монографии [0.15]. Теорема 1, относящаяся к сходимости метода с постоянным у, при- надлежит А. С. Антипину [9.21. Метод множителей Лангранжа был одним из первых численных методов выпуклого программирования. Его исследованию посвящена монография Эр- роу, Гурвица и Удзавы [0.23]. Авторы рассматривали в основном непрерыв- ные варианты метода (траектория движения описывается дифференциальными, а не разностными уравнениями), и лишь одна глава в [0.23], написанная Удзавой, относится к дискретному методу. В ней исследуется метод (13) и утверждается, что если /'(.") строго выпукла, то для всякой начальной точки и любого е > 0 найдется достаточно малое у > 0, такое, что метод приведет в Е-окрестность решения. К сожалению, в доказательстве этого утверждения (теорема 1 гл. 10 [0.23]) допущена принципиальная ошибка. На этом пути удается лишь доказать [0.6], что найдется подпоследовательность х6, попа- дающая в окрестность х*. Сходимость метода типа (13) доказана в [9.14] иным способом. Метод (16) также предложен в [0.23], там же доказана его сходимость в некоторых случаях. Модифицированные функции Лагранжа для задач выпуклого програм- мирования введены и исследованы в работах Бертсекаса, Вержбицкого, Е. Г. Гольштейна, Рокафеллара, Н. В. Третьякова [9.6, 9.18, 9.20, 9.30, 9.32]. Итерационные методы типа (20) для линейных ограничений изучал А. С. Ан- типин [8.1]. Результат, частным случаем которого является теорема 2, полу- чен Г. Д. Майстровским [9.15], см. также [9.5]. Теорема 3 доказана Н. В. Третьяковым [9.18] и Рокафелларом [9.30]. Метод одновременного решения прямой и двойственной задачи (25) и близкая к нему двойственная схема метода лннеаоизации исследовались в [9.16, 9.17]. Методам штрафов, барьеров и близким к ним посвящены монографии [0.20, 9.22] и обзор [9.19]. Оценки скорости сходимости для метода (26) даны в [9.8]. Результаты типа теорем 4, 5 можно найти в [0.20]. Метод сдвига штрафов был введен Вержбицким [9.32], позже оказалось, что он совпадает с методом модифицированной функции Лагранжа. Метод подбора f* был предложен Моррисоном [9.27]. Другие способы пересчета fk и результаты о сходимости можно найти в [9.13, 9.24]. Обобщение субградиентного метода на задачи выпуклого программиро- вания было предложено в [5.8]. Эквивалентность задачи выпуклого програм- мирования одной задаче безусловной минимизации с негладкими штрафами (36) отмечалась рядом авторов [9.8, 9.29]. С обобщением метода отсекающих гиперплоскостей и с другими методами, упомянутыми в п. 5, можно ознако- миться по работам, которые цитировались в § 4 гл. 5,
библиографические указания и комментарии 369 § 4. Методы решения общей задачи нелинейного программирования (1) рассматриваются в монографиях [0.15, 0.20, 0.22] и обзоре [0.14]. Результа- ты типа теорем 1,2 о сходимости метода линеаризации (для несколько иного правила выбора у) получены в [0.15]. Метод Ньютона в форме (9) предло- жен Робинсоном [8.16]. Вычислительные схемы квазиныотоновских методов приведены в [0.22, 9.21, 9.23]. К ГЛАВЕ 10 Существует ряд учебников и монографий, посвященных в основном за- даче линейного программирования [0.7, 9.10, 10.1—10.5, 10.7, 10.11, 10.14, 10.16, 10.17]. Основное внимание в них уделяется алгоритмической реализа- ции симплекс-метода и его модификаций. § 1. Заслуга постановки задачи линейного программирования принадле- жит Л. В. Канторовичу [10.6]. С тех пор этой задаче было посвящено огром- ное количество исследований (см., например, библиографию в [10.2, 10.5]). Результаты типа теоремы 1 получены Каратеодори и Вейлем. В разработку условий оптимальности внесли вклад Л. В. Канторович, Данциг, фон Нейман, Гейл, Кун, Таккер (см. работы в сборнике [10.10]). Теорема 12 для частных случаев сформулирована в [0.23, 10.12], для общего — в [5.21]. § 2. Симплекс-метод, как уже отмечалось, предложен Данцигом. Подроб- ное изложение вычислительной схемы и модификаций можно найти в [0.7, 9.10, 10.1—10.3, 10.5, 10.7, 10.11, 10.14, 10.16, 10.17]. § 3. Конечность метода модифицированной функции Лагранжа показана автором и Н. В. Третьяковым [10.12]. Решать задачи линейного программи- рования, сводя их к безусловной минимизации кусочно-лииейных функций, первым предложил Н. 3. Шор в начале 60-х годов (см. [5.15]). Работа Л. Г. Хачияна [10.15], о которой говорится в § 3, опубликована недавно (в 1979 г.), но уже успела оказать большое влияние на взгляды специалистов по линейному программированию. Результаты типа теоремы 5 получены А. С. Антипиным [8.1] и Г. Д. Майстровским [9.15]. Метод «фиктивной игры» для решения матричных игр предложил Браун (см. [10.4]). Общая форму- лировка и обоснование этого метода даны В. А. Волконским с соавторами [2.1]. Помимо описанных в тексте, существует и много других итеративных методов линейного программирования [0.7, 0.23, 10.4, 10.8, 10.13]. Большой опыт численного исследования одного из таких методов отражен в книге Р. П. Федоренко [0.19]. § 4. Разнообразные алгоритмы квадратичного программирования (раз- работанные к началу 60-х годов) описаны в книгах [0.7, 10.9]. К ГЛАВЕ 11 Прикладным задачам оптимизации посвящена монография [11.33] и об зор [11.34], много примеров можно найти в книгах [0.1, 0.16, 0.21]. § 1. Постановка и методы решения классической задачи оценки парамет- ров описываются в любом курсе математической статистики, например, [4.3]. Обзор методов для регрессионных задач дан в [11.3, 11.18]. Результаты вычислений для нелинейного метода наименьших квадратов приведены в [11.22]. Идеология робастного оценивания введена Хубером (см. обзор [11.13]). Метод (18) описан в [11.18], метод (20)—в [11.32]. Общие стати- стические подходы к проблеме восстановления зависимостей по эксперимен- тальным данным исследовал В. Н. Вапник [11.5]. Широкую популярность методы адаптации завоевали благодаря работам Я. 3. Цыпкина [4.9]. Рекуррентный вариант метода максимального правдо- подобия (22), (23) предложен Сакрисоном (см. [2.8]). Рекуррентные оценки для регрессионных задач исследованы Я. 3. Цыпкиным и автором [11.23]. Задачи подбора моделей по экспериментальным данным рассматривались в [11.3, 11.29]. С оценкой параметров в динамических моделях можно оз на-
870 БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ комиться по книге [11.1], а с проблемами оптимального планирования экс- перимента— по [11.19, 11.27]. § 2. Примеры прикладных задач оптимального проектирования содер- жатся в работах [11.6, 11.7, 11.20, 11.30, 6.3, 6.11]. Задачам геометрического программирования посвящена книга [11.10]. Подробное исследование разнообразных задач распределения ресурсов содержится в [11.9]. Динамическое программирование, разработанное Велл- маном [11.4] (см. также [11,2]), представляет собой специальный - метод решения задач оптимизации, имеющих динамическую структуру. Идеи ме- тода могут быть использованы и для некоторых других задач, например (8). Задачи оптимизации в экономике впервые исследовал Л. В. Канторович [10.6], многочисленные примеры постановок экономических задач содержатся в [11.15, 11.21, 10.4—10.6, 10.16]. Методам декомпозиции посвящены работы [11.17, 11.26]. Различные постановки задач стохастического программирования и ме- тоды их решения рассматриваются в монографиях Ю. М. Ермольева [4.2, 11.12] и Д. Б. Юдина [4.11]. Задачи на минимакс интенсивно исследовались В. Ф. Демьяновым, В. В. Федоровым и другими авторами [5.2, 5.3, 11.28, 2.9]. Постановки задач оптимизации в условиях неопределенности, отличные от минимаксных, рас- сматривал Ю. Б. Гермейер [11.8]. С проблемами экстремального регулирования можно ознакомиться по кни- гам [0.16, 11.14]. Теории и численным методам решения дискретных задач оптимального управления посвящена обширная литература, отметим лишь [11.2, 11.4, 11.24, 11.25, 0.2, 0.10, 0.13, 0.19]. § 3. Связь теории приближений с теорией оптимизации обсуждается в работах [11.16, 5.12]. Некоторые геометрические задачи на экстремум при- ведены в [9.1, 9.12]. Систематическое изучение взаимосвязей между теорией электрических цепей и математическим программированием предпринято Деннисом [11.11]. Книга Б. С. Разумихина [10.13] посвящена использованию вариационных принципов физики для построения численных методов оптимизации. Ряд примеров вариационных задач механики приведен в монографии Ф. Л. Чер- ноусько и Н. В. Баничука [11.31]. К ГЛ АВЕ 12 § 1. Методические вопросы постановки и решения оптимизационных за- дач редко затрагиваются в литературе по оптимизации. Общая идеология взаимоотношений математика-вычислителя и практика-заказчика хорошо объ- яснена в книге Н. С. Бахвалова по численным методам [1.1]. Процесс реше- ния реальных задач оптимизации (преимущественно задач оптимального уп- равления) на большом материале иллюстрируется в монографии Р. П. Федо- ренко [0.19]. В этой связи полезны также книги по исследованию операций [11.8, 12.6]. § 2. Требования к программам нелинейного программирования сформу- лированы в [12.16]. Тексты программ безусловной минимизации гладких функций имеются в [0.21, 12.12, 12.13], негладких функций — в [11.6], линей- ного программирования — в [10.14, 12.12—12.15], квадратичного программи- рования— в [12.14], нелинейного программирования — в [0.21, 12.12], а также в изданиях, упоминаемых в тексте. Обзор имеющихся программ линейного программирования дан в [12.4] (по состоянию на 1969 г.) и в гл. 16[12.6] (современное состояние) (см. также [12.7, 12.8, 12.15]). Существующие диа- логовые системы опитимизации приведены в гл. 15 [12.6], конкретная диалого- вая система описана в [0.10]. Комплекс созданных под руководством автора программ оптимизации охарактеризован в [12.1, 12.2]. Полное перечисление имеющихся на Западе программ нелинейного программирования содержится в статье [12.16],
БИБЛИОГРАФИЧЕСКИЕ УКАЗАНИЯ И КОММЕНТАРИИ 371 § 3. Обсуждение критериев сравнения алгоритмов имеется в [0.21]; там же приведена специальная таймер-программа для соизмерения быстродей- ствия различных ЭВМ. Унифицированные' требования к публикациям по сравнению численных алгоритмов оптимизации, разработанные специальной комиссией, сформулированы в [12.10]. Первым систематическим сборником тестовых задач и исследованием разнообразных методов на этих задачах явилась работа Колвилла [12.9]. С тех пор многие из вошедших в эту работу тестов стали классическими (на- пример, функция Розенброка) и с их помощью анализируются новые про- граммы и методы оптимизации. Большой набор тестовых задач на безуслов- ный и условный экстремум приведен в книге Химмельблау [0.21]; одновремен- но там описаны результаты численных экспериментов по проверке многих методов с помощью этих тестов. Тесты по безусловной минимизации неглад-' ких функций даны в [5.20]. Большой опыт решения тестовых задач нелиней- ного программирования описан в статье В. А. Скокова [12.5]. Тесты, отно- сящиеся к задачам геометрического программирования, собраны в работе [12.11]. Важный пример трудной для симплекс-метода задачи линейного программирования приведен в [10.18], на его основе построена задача 11. В целом нужно сказать, что актуальная работа по разработке тестов разной сложности для различных классов задач, их систематизации и проверке алго- ритмов на этих тестах еще далека от завершения.
ЛИТЕРАТУРА ОСНОВНЫЕ МОНОГРАФИИ, УЧЕБНИКИ И ОБЗОРЫ 0.1. Аоки М. Введение в методы оптимизации. — М.: Наука, 1977. 0.2 Васильев Ф. П. Лекции по методам решения экстремальных за- дач. — М.: МГУ, 1974. 0.3 ГабасовР., Кириллова Ф. М. Методы оптимизации. — Минск: Б ГУ, 1975. 0 4. Демьянов В. Ф., Рубинов А. М. Приближенные методы реше- ния экстремальных задач. — Л.: ЛГУ, 1968. 0.5. Ермольев Ю. М. Методы решения нелинейных экстремальных задач. — Кибернетика, 1966, № 4, с. 1—17. 0.6. Зангвилл У. Нелинейное программирование. Единый подход,— М.: Сов. Радио, 1973. 0.7. 3 о й т е н д е й к Г. Методы возможных направлений. — М.: ИЛ, 1963. 0.8. Карманов В. Г. Математическое программирование.—М.: Наука, 1975. 0.9. Левитин Е. С., Поляк Б. Т. Методы минимизации при наличии ограничений. — Журн. вычисл. матем. и матем. физ., 1966, т. 6, № 5, с. 787— 823. 0.10. Моисеев Н. Н., Ив ан и лов 10. П., Столярова Е. М. Ме- тоды оптимизации. — М.: Наука, 1978. 0.11. Н е м и р о в с к и й А. С., Юдин Д. Б. Сложность задач и эффек- тивность методов оптимизации. — М.: Наука, 1980. 0.12. Ортега Дж., Рейнболдт В. Итерационные методы ре- шения нелинейных систем уравнений со многими неизвестными. — М.: Мир, 1975. 0.13. Полак Э. Численные методы оптимизации. Единый подход. — М.: Мир, 1974. 0.14. Поляк Б. Т. Методы минимизации при наличии ограничений.— В ки.: Итоги науки и техники. Матем. анализ. Т. 12. М.: ВИНИТИ, 1974, с. 147—197. 0.15. Пшеничный Б. Н., Данилин Ю. М. Численные методы в экс- тремальных задачах. — М.: Наука, 1975. 0.16. Р а с т р и г и н Л. А. Системы экстремального управления. — М.: Наука, 1974. 0.17. Се а Ж. Оптимизация. Теория и алгоритмы.'—М.: Мир, 1973. 0.18. Уайлд Д. Дж. Методы поиска оптимума.—М.: Наука, 1967. 0.19. Федоренко Р. П. Приближенное решение задач оптимального управления. — М.: Наука, 1978. 0.20. Фиакко А., Мак-Кормик Дж. Нелинейное программиро- вание: методы последовательной безусловной минимизации.—М.: Мир, 1972. 0.21. Химмельблау Д. Прикладное нелинейное программирование.— М.: Мир, 1975. 0.22. Численные методы.условной оптимизации/Под ред. Ф. Гилла, У. Мюр- рея. — М.: Мир, 1977. 0.23. . Эрроу К. Дж., Гурвиц Л., Удзава X. Исследования по линей- ному и нелинейному программированию. — М.: ИЛ, 1962.
ЛИТЕРАТУРА 373 К ГЛАВЕ 1 (см. также 0.1—0.3, 0.8, 0.10, 0.12, 0.13, 0.15, 0.17, 0.21) 1.1. Бахвалов Н. С. Численные методы. — М.: Наука, 1973. 1.2. Вайнберг М. М. Вариационный метод и метод монотонных опе- раторов в теории нелинейных уравнений. — М.: Наука, 1972. 1.3. Гольштейн Е. Г., Третьяков Н. В. Градиентный метод ми- нимизации и алгоритмы выпуклого программирования, связанные с модифи- цированными функциями Лагранжа. — Эконом, и матем. методы, 1975, т. 11, № 4, с. 730—742. 1.4. Иванов В. К., Васин В. В., Танана В. П. Теория линейных некорректных задач и ее приложения. — М.: Наука, 1978. 1.5. Канторович Л. В., Акилов Г. П. Функциональный анализ.— 2-е изд. — М.: Наука, 1977. 1.6. Поляк Б. Т. Градиентные методы минимизации функционалов.— Журн. вычис. матем. и матем. физ., 1963, т. 3, Ks 4, с. 643—654. 1.7. Поляк Б. Т. Теоремы существования и сходимость минимизирую- щих последовательностей для задач на экстремум при наличии ограниче- ний.— Докл. АН СССР, 1966, т.166, № 2, с. 287—290. 1.8. Тихонов А. Н„ Арсенйн В. Я. Методы решения некоррект- ных задач. — М.: Наука, 1974. 1.9. Хемминг Р. В. Численные методы для научных работников и ин- женеров.— М.: Наука, 1968. 1.10. Шилов Г. Е. Математический анализ. Функции нескольких веще- ственных переменных. Ч. 1, 2. — М.: Наука, 1972. 1.11. А п о п у m о u s. A new algorithm for optimization. — Math. Progr., 1972, v. 3, № 2, p. 124—128. К ГЛАВЕ 2 (см. также 0.6, 0.12, 0.13) 2.1. Беленький В. 3., Волконский В. А. и др. Итеративные ме- тоды в теории игр и программировании. -М.: Наука, 1.974. 2.2. Беллман Р. Введение в теорию матриц — М.: Наука, 1969. 2.3. В азан М. Стохастическая аппроксимация. — М.: Мир, 1972. 2.4. Евтушенко Ю. Г., Жадан В. Г. Применение метода функций Ляпунова для исследования сходимости численных методов. — Журн. вычисл. матем. и матем. физ., 1975, т. 15, № 1, с. 101—112. 2.5. Карлин С. Математические методы в теории игр, программирова- нии и экономике. — М.: ИЛ, 1964. 2.6. Кушнер Г. Дж. Стохастическая устойчивость и управление. — М.: Мир, 1969. 2.7. Любич Ю. И., Майстровский Г. Д. Общая теория релакса- ционных процессов для выпуклых функционалов. — УМН, 1970, т. 25, № 1, с. 57—112. 2.8. Невельсон М. Б., Хась минский Р. 3. Стохастическая аппро- ксимация и рекуррентное оценивание. — М.: Наука, 1972. 2.9. Нур минский Е. А. Численные методы решения детерминирован- ных и стохастических минимаксных задач.— Киев: Наукова думка, 1979. 2.10. Островский А. М. Решение уравнений и систем уравнений.— М.: ИЛ, 1963. 2.11. Поляк Б. Т. Сходимость и скорость сходимости итеративных сто- хастических алгоритмов. I. Общий случай. — Автом. и телемех., 1976, № 12, с. 83—94. 2.12. Blum J. В. Multidimensional stochastic approximation method.— Ann. Math. Stat., 1954, v. 25, Ks 4, p. 737—744.
374 ЛИТЕРАТУРА К ГЛАВЕ 3 (см. также 0.1—0.3, 0.8, 0.10, 0.11—0.13, 0.15—0.17, 0.20, 0.22) 3.1. Данилин Ю. М. Об одном классе алгоритмов минимизации со сверхлинейной сходимостью. — Журн. вычисл. матем. и матем. физ., 1974, т. 14, № 3, с. 598—609. 3.2. Данилин Ю. М. Скорость сходимости методов сопряженных на- правлений. — Кибернетика, 1977, № 6, с. 97—105. 3.3. Дамбраускас А. П. Симплескный поиск. — М.: Энергия, 1979. 3.4. Катко в ник В. Я. Линейные оценки и стохастические задачи оп- тимизации.— М.: Наука, 1976. 3.5. Лавров С. С. Применение барицентрических координат для ре- шения некоторых вычислительных задач. — Журн. вычисл. матем. и матем. физ., 1964, т. 4, № 5, с. 905—911. 3.6. Марчук Г. И. Методы вычислительной математики. — 2-е изд. —• М.: Наука, 1980. 3.7. Поляк Б. Т. Об одном способе ускорения сходимости итерацион- ных методов. — Журн. вычисл. матем. и матем. физ., 1964, т. 4, № 5, с. 791 — 803. 3.8. Поляк Б. Т. Методы минимизации функций многих переменных: об- зор.-— Эконом, и матем. методы, 1967, т. 3, № 6, с. 881—902. 3.9. Поляк Б. Т. Метод сопряженных градиентов в задачах на эк- стремум.— Журн. вычисл. матем. и матем. физ., 1969, т. 9, № 4, с. 807— 821. 3.10. Саул ье в В. К.., Самойлова И. И. Приближенные методы безусловной оптимизации функций многих переменных. — В кн.: (Итоги науки и техники) Матем. анализ Т. 11. М.: ВИНИТИ, 1973, с. 91—128. 3.11. Фаддеев Д. К., Фаддеева В. И. Вычислительные методы ли- нейной алгебры. — 2-е изд. — М.: Физматгиз, 1963. 3.12. Daniel J. W. The approximate minimization of functionals. — Eng- lewood Cliffs: Prentice Hall, 1971. 3.13. Dennis J. E„ More J. J. Quasi-Newton methods, motivation and theory. — SIAM Review, 1977, v. 19, № 1, p. 46—89. 3.14. Fletcher R., Powell M. J. D. A rapidly convergent descent met- hod for minimization. — Comput. J., 1963, v. 6, Ns 2, p. 163—168. 3.15. Fletcher R„ Reeves С. M. Function minimization by conjugate gradients. — Comput. J., 1964, v. 7, Ns 2, p. 149—154. 3.16. Hestenes M. R. Conjugate direction methods in optimization.— N. Y., Heidelberg; Berlin: Springer, 1980. 3.17. Hestenes M. R., Stiefel E. Methods of conjugate gradients for solving linear systems. — J. Res. Nat. Bur. Stand. USA, 1952, v. 49, № 6, p. 409—436. 3.18. Huang H. G. Unified approach to quadratically convergent algo- rithms for function minimization. — J. Optim. Theory Appl., 1970, v. 5, Ns 6, p. 405-423. 3.19. Jacobson D., Oksman W, An algorithm that minimizes homogeneous function of n variables in n + 2 iterations and rapidly mini- mizes general functions. — J. Math. Anal. Appl, 1972, v. 38, № 3, p. 535— 552. 3.20. Marquardt D. W. An algorithm for least-squares estimation of nonlinear parameters. — J. SIAM, 1963, v. 11, № 2, p. 431—441. 3.21. S p e n d 1 e у W., Hext G. R., Himsworth F. R. Sequential appli- cation of simplex design in optimization and evolutionary operation. — Techno- metrics, 1962, v. 4, № 4, p. 441—461. 3.22. Wolfe P. The secant method for simultaneous nonlinear equa- tions.— Comm. ACM, 1959, v. 2, № 1, p. 12—13,
ЛИТЕРАТУРА 375 К ГЛАВЕ 4 (см. также 0.18, 1.1, 1.3, 2.1, 2.7—2.9, 3.4) 4.1. Ермольев Ю. М. О методе обобщенных стохастических градиен- тов и стохастических квазифейеровских последовательностях. — Кибернетика, 1969, Ks 2, с. 73—83. 4.2. Ермольев Ю. М. Методы стохастического программирования. — М.: Наука, 1976. 4.3. Крамер Г. Математические методы статистики. — 2-е изд. —М.: Мир, 1975. 4.4. Первозванский А. А. Случайные процессы в нелинейных авто- матических системах.—М.: Физматгиз,-1962. 4.5. Поляк Б. Т. Сходимость методов возможных направлений в экстре- мальных задачах. — Журн. вычисл. матем. и матем. физ., 1971, т. 11, Ks 4, с. 855—869. 4.6. Поляк Б. Т. Сравнение скорости сходимости одношаговых и мно- гошаговых алгоритмов оптимизации при наличии помех. — Технич. кибернет., 1977, № 1, с. 9—12. 4.7. Поляк Б. Т. К вопросу о сравнении градиентного метода и метода случайного поиска. — Автом. и вычисл. техн., 1977, № 3, с. 194—197. 4.8. Поляк Б. Т„ Цыпкин Я. 3. Оптимальные псевдоградиентные ал- горитмы адаптации. — Докл. АН СССР, 1980, т. 250, № 5, с. 1084—1087. 4.9. Цыпкин Я. 3. Адаптация и обучение в автоматических системах. — М.: Наука, 1968. 4.10. Цыпкин Я. 3., Поляк Б. Т. Достижимая точность алгоритмов адаптации. — Докл. АН СССР, 1974, т. 218, № 3, с. 532—535. 4.11. Юдин Д. Б. Задачи и методы стохастического программирова- ния. — М.: Сов. радио, 1979. 4.12. Kiefer J., Wolfowitz J. Stochastic estimation of the maximum of a regression function. — Ann. Math. Stat., 1952, v. 23, № 3, p. 462—466. 4.13. Kushner H. J., Clark D. S. Stochastic approximation methods for constrained and unconstrained systems. — N. Y.; Heidelberg; Berlin: Sprin- ger, 1978. 4.14. Robbins H., Monro S. A stochastic approximation method. — Ann. Math. Stat., 1951, v. 22, Ks 3, p. 400—407. К ГЛАВЕ 5 (см. также 0.2, 0.5, 0.8, 0.9, 0.11, 0.18, 2.9, 3.4, 4.1, 4.2, 4.11) 5.1. Гу па л А. М. Стохастические методы решения негладких экстре- мальных задач. — Киев: Наукова думка, 1979. 5.2. Демьянов В. Ф. Минимакс: дифференцируемость по направле- ниям. — Л.: ЛГУ, 1974. 5.3. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс.— М.: Наука, 1972. 5.4. Еремин И. И. Релаксационный метод решения систем неравенств с выпуклыми функциями в левых частях. — Докл. АН СССР, 1965, т. 160 Ks 5, с. 994—996. 5.5. Ермольев Ю. М., Шор Н. 3. О минимизации недифференцируе- мых функций. — Кибернетика, 1967, Ks 1, с. 101—102. 5.6. Зуховицкий С. И., Примак М. Е. О сходимости метода че- бышевских центров и метода центрированных сечений для решения задачи выпуклого программирования. — Докл. АН СССР, 1975, т. 222, К» 2 с 273__ 276. 5.7. Левин А. Ю. Об одном алгоритме минимизации выпуклых функ- ций.—Докл. АН СССР, 1965, т. 160, Ks 6, 1244—1247,
376 ЛИТЕРАТУРА' 5.8. Поляк Б. Т. Один общий метод решения экстремальных задач.— Докл. АН СССР, 1967, т. 174, № 1, с. 33—36. 5.9. Поляк Б. Т. Минимизация негладких функционалов. — Журн. вы- числ. матем. и матем. физ., 1969, т. 9, № 3, с. 509—521. 5.10. Примак М. Е. О сходимости модифицированного метода чебы- шевских центров решения задач выпуклого программирования. — Кибернетика, 1977, № 5, с. 100—102. 5.11. Пшеничный Б. И. Выпуклый анализ и экстремальные задачи.— М.: Наука, 1980. 5.12. Пшеничный Б. Н. Необходимые условия экстремума. — М.: Нау- ка, 1969. 5.13. Рокафеллар Р. Т. Выпуклый анализ. — М.: Мир, 1973. 5.14. Скоков В. А. Замечание к методам минимизации, использующим операцию растяжения пространства. — Кибернетика, 1974, № 4, с. 115—117. 5.15. Шор Н. 3. Методы минимизации недифференцируемых функций и их приложения. — Киев: Наукова думка, 1979. 5.16. Goff in J. L. On the convergence rates of subgradient optimization methods. — Math. Progr., 1977, v. 13, № 3, p. 329—347. 5.17. Kelley J. E. The cutting-plane method for solving convex pro- grams. — J. SIAM, 1960, v. 8, № 4, p. 703—712. 5.18. Newman D. J. Location of the maximum on unimodal surfaces.— J. ACM, 1965, v. 12, № 3, p. 395—398. 5.19. Nondifferentiable optimization/Math. Progr. Study 3. Eds. M. Ba- linski, P. Wolfe.—Amsterdam: North Holland, 1975. 5:20. Nonsmooth optimization/Proc. IIASA Workshop, March 28 — April 8, 1977. Eds. C. Lemarechal, R. Mifflin. — Oxford: Pergamon Press, 1978. 5.21. Poljak В. T. Sharp minimum. — In: Generalized Lagrangians and applications. Proc. IIASA Workshop, Dec. 17—22, 1979/Ed. A. Wierzbicki. — Ox- ford: Pergamon Press, 1982. К ГЛАВЕ 6 (см. также 0.2, 0.8, 0.11, 0.12, 0.16, 1.3, 1.4, 1.8) 6.1. Алберт А. Регрессия, псевдоинверсия и рекуррентное оценива- ние. — М.: Наука, 1977. 6.2. Бакушинский А. Б., Поляк Б. Т. О решении вариационных неравенств. — Докл. АН СССР, 1974, т. 219, № 5, с. 1038—1041. 6.3. Батищев Д. И. Поисковые методы оптимального проектирова- ния.— М.: Сов. радио, 1975. 6.4. Булатов В. П. Методы погружения в задачах оптимизации.— Новосибирск: Наука, 1977. 6.5. Гельфанд И. М., Ц е т л и н М. Л. Принцип нелокального поиска в системах автоматической оптимизации. — Докл. АН СССР, 1961 т. 137, №2, с. 295—298. 6.6. Емелин И. В., Красносельский М. А. К теории некоррект- ных задач. — Докл. АН СССР, 1979, 244, № 4, с. 805—808. 6.7. Еремин И. И., Мазуров В. Д. Нестационарные процессы мате- матического программирования. — М.: Наука, 1979. 6.8. Лаврентьев М. М. О некоторых некорректных задачах мате- матической физики. — Новосибирск: СО АН СССР, 1962. 6.9. Левитин Е. С., Поляк Б. Т. Сходимость минимизирующих по- следовательностей в задачах на условный экстремум. — Докл. АН СССР, 1966, т. 168, № 5, с. 997—1000. 6.10. Морозов В. А. О регуляризации некоторых классов экстремаль- ных задач. — В кн.: Вычисл. методы и прогр. Т. 12. М.: МГУ, 1969, с. 24—37. 6.11. Моцкус И. Б. Многоэкстремальные задачи в проектировании,— М.: Наука, 1967,
ЛИТЕРАТУРА 377 6.12. Поляк Б. Т. Итерационные методы решения некоторых некоррект- ных вариационных задач. — В кн.: Вычисл. методы и прогр. Т. 12. М.: МГУ, 1969, с. 38—52. 6.13. Растригин Л. А. Статистические методы поиска. — М.: Наука, 1968. 6.14. Соболь И. М. Многомерные квадратурные формулы и функции Хаара. — М.: Наука, 1969. 6.15. Стр онг ин Р. Г. Численные методы в многоэкстремальных зада- чах.— М.: Наука, 1978. 6.16. Сухарев А. Г. Оптимальный поиск экстремума. — М.: МГУ, 1975. 6.17. Федорова И. Е. Поиск глобального оптимума в многоэкстре- мальных задачах. — В кн.: Теория оптимальных решений. Вып. 4. Вильнюс: Ин-т математики и кибернетики, 1978, с. 93—101. 6.18. Хей син В. Е. Итеративные процедуры минимизации в условиях дрейфа экстремума. — Автом. и телемех., 1976, № 11, с. 91—101. 6.19. Martinet В. Regularisation d’inequations variationnelles par ap- proximations successives. — Rev. Fr. Inf. Res. Operat., 1970, v. 4, № R3, p. 154—158. 6.20. Rockafellar R. T. Monotone operators and the proximal point al- gorithm.— SIAM J. Contr. Optim., 1976, v. 14, № 5, p. 877—898. 6.21. Towards global optimization/Eds. L. C. W. Dixon, G. P. Szego. — Am- sterdam: North-Holland, 1975. 6.22. Z i 1 i n s k a s A. On statistical models for multimodal optimiza- tion.— Math. Operations. Stat., ser. Stat., 1978, v. 9, № 2, p. 255—266. К ГЛАВЕ 7 (см. также 0.2, 0.4, 0.8, 0.9, 0.13—0.15, 3.4, 3.9, 4.1, 4.2, 4.5, 5.1, 5.8—5.12, 5.15, 5.21) 7.1. Гу па л А. М, Баженов Л. Г. Стохастический метод линеариза- ции.— Кибернетика, 1972, № 3, с. 116—117. 7.2. Bertsekas D. Р. On the Goldstein — Levitin — Polyak gradient projection method. — IEEE Trans. Autom. Contr., 1976, v 21, № 2, p. 174—184. 7.3. Cannon M. D., Cullum C D A tight upper bound on the rate of convergence of the Frank — Wolfe algorithm. — SIAM J. Contr., 1968, v. 6, № 4, p. 509—516. 7.4. Dunn J. C. Rates of convergence for conditional gradient algorithms near singular and nonsingular extremals. — SIAM J. Contr. Optim., 1979, v. 17, № 2, p. 187—211. 7.5. Frank M., Wolfe Ph. Algorithm for quadratic programming. — Na- val Res. Log. Quart., 1956 v. 3, № 1-2, p. 95—110. 7.6. Goldstein A. A. Convex programming in Hilbert space. — Bull. Amer. Math. Soc., 1964, v. 70, № 5, p. 709—710. К ГЛАВЕ 8 (см. также 0.13, 0.15, 0.20—0.23) 8.1. Антипин А. С. Метод градиентного типа для отыскания седло- вой точки модифицированной функции Лагранжа. — Эконом, и матем. ме- тоды, 1977, т. 13, № 3, с. 560—565. 8.2. Волин Ю. М., Островский Г. М. Метод штрафных функций и необходимые условия оптимальности. — В кн.: Управляемые системы. Вып. 9 Новосибирск: СО АН СССР, 1971, с. 43—51. 8.3. Левитин Е. С. О диффернцируемости по параметру оптималь- ного значения параметрических задач математического программирования.— Кибернетика, 1976, № 1, с. 44—59. 8.4. Люстерник Л. А., Соболев В. И. Элементы функционального анализа. — 2-е изд. — М.: Наука, 1965.
378 ЛИТЕРАТУРА 8.5. Первозв анский А. А., Гайцгори В. Г. Декомпозиция, агре- гирование и приближенная оптимизация. — М.: Наука, 1979. 8.6. Поляк Б. Т. Итерационные методы, использующие множители Ла- гранжа, для решения экстремальных задач с ограничениями типа равенств. — Журн. вычисл. матем. и матем. физ., 1970, т. 10, № 5, с. 1098—1106. 8.7. Поляк Б. Т. О скорости сходимости метода штрафных функций. — Журн. вычисл. матем. и матем. физ., 1971, т. 11, № 1, с. 3—11. 8.8. Поляк Б. Т. Методы решения задач на условный экстремум при наличии случайных помех. — Журн. вычисл. матем. и матем. физ., 1979, т. 19, Ks 1, с. 70—78. 8.9. Поляк Б. Т., Третьяков Н. В. Метод штрафных оценок для задач на условный экстремум. — Журн. вычисл. матем. и матем. физ., 1973, т. 13, Ks 1, с. 34—46. 8.10. Пшеничный Б. Н. Алгоритмы для общей задачи математического программирования. — Кибернетика, 1970, № 5, с. 120—125. 8.11. Bertsekas D. Р. Multiplier methods; a survey. — Automatica, 1976, Ks 12, p. 133—145. 8.12. Bertsekas D. P. Constrained optimization and Lagrange multiplier methods . — N. Y.; London: Acad. Press, 1982. 8.13. Ha a rh off P. C., Buys J. D. A new method for the optimization of a nonlinear function subject to nonlinear constraints. — Comput. J. 1970, v. 13, № 2, p. 178—184. 8.14. Hestenes M. R. Multiplier and gradient methods. — J. Optim. Theo- ry Appl., 1969, v. 4, № 5, p. 303—320. 8.15. Powell M. J. D. A method for nonlinear constraints in minimization problems. — In: Optimization./Ed. R. Fletcher. London: Acad. Press, 1969, p. 283—298. 8.16. Robinson S. M. A quadratically convergent algorithm for general nonlinear programming problems. — Math. Progr., 1972, v. 3, Ks 2, p. 145—156. 8.17. Wolfe P. Methods for nonlinear constraints. — In: Nonlin. Progr./Ed. J. Abadie. Amsterdam: North-Holland, 1967, p. 120—131. К ГЛАВЕ 9 (см. также 0.1—0.3, 0.5—0.11, 0.13—0.15, 0.17—0.23) 9.1. Алексеев В. М., Тихомиров В. М., Фомин С. В. Оптималь- ное управление. — М.: Наука, 1979. 9.2. Антипин А. С. Методы нелинейного программирования, основан- ные на прямой и двойственной модификации функции Лагранжа. Пре- принт. - М.: ВНИИСИ, 1979. 9.3. Гирсанов И. В. Лекции по математической теории экстремаль- ных задач. — М.: МГУ, 1970. 9.4. Гольштейн Е. Г. Теория двойственности в математическом про- граммировании. — М.: Наука, 1971. 9.5. Гольштейн Е. Г. О сходимости градиентного метода отыскания седловых точек модифицированных функций Лагранжа. — Эконом, и матем. методы, 1977, т. 13, № 2, с. 322—329. 9.6. Гольштейн Е. Г., Третьяков Н. В. Модифицированные функ- ции Лагранжа. — Эконом, и матем. методы, 1974, т. 10, № 3, с. 568—591. 9.7. Дубовицкий А. Я., Милютин А. А. Задачи на экстремум при Наличии ограничений.— Докл. АН СССР, 1963, т. 149, Кв 4, с. 759—762. 9.8. Еремин И. И. О методе штрафов в выпуклом программирова- нии.— Кибернетика, 1967, № 4, с. 63—67. 9.9. Еремин И. И., Астафьев Н. Н. Введение в теорию линейного и выпуклого программирования. — М.: Наука, 1976. 9.10. 3 у х о в и ц к и й С. И., Авдеева Л. И. Линейное и выпуклое про- граммирование.— М.: Наука, 1967.
ЛИТЕРАТУРА 379 9.11. Зуховицкий С. И., Поляк Р. А., Примак М. Е. Алгорифм для решения задачи выпуклого программирования. — Докл. АН СССР, 1963, т. 153, № 5 с. 991—994. 9.12. Иоффе А. Д., Тихомиров В. М. Теория экстремальных за- дач. — М.: Наука, 1974. 9.13. Лебедев В. Ю. О сходимости метода нагруженного функционала в задаче выпуклого программирования. — Журн. вычисл. матем. и матем физ., 1977, т. 17, № 3, с. 765—768. 9.14. Майстровский Г. Д. О градиентных методах отыскания седло- вых точек. — Эконом, и матем. методы, 1976, т. 12, № 5, с. 917—929. 9.15. Майстровский Г. Д. О скорости сходимости градиентного ме- тода для модифицированной функции Лагранжа. — Эконом, и матем. методы, 1979, т. 15, № 2, с. 380—386. 9.16. Поляк Р. А. Алгорифм для одновременного решения прямой и двойственной задачи выпуклого программирования. — В кн.: Экон, кибернет. и исслед. операций. Вып. 3. Труды семинара. Киев: ИК АН УССР, 1966, с. 53—64.. 9.17. Пшеничный Б. И. Двойственный метод в экстремальных зада- чах. I, II. — Кибернетика, 1965, № 3, с. 89—95; № 4, с. 64—69. 9.18. Третьяков Н. В. Метод штрафных оценок для задач выпук- лого программирования. Эконом, и матем. методы, 1973, т. 9, № 3, с. 526— 540. 9.19. Эльстер К.-Х., Гроссман X. Решение нелинейных оптимиза- ционных задач с помощью штрафных и барьерных функций. — В кн.: При- мен. исслед. опер, в эконом. М.: Экономика, 1977, с. 95—161. 9.20. Bertsekas D. Р. On the method of multipliers for convex program- ming. — IEEE Trans. Autom. Contr., 1975, v. 20, p. 385—388. 9.21. G a r c i a - P a 1 о m a r e s U. M. M a n g a s a r i a n O. L. Superli- nearly convergent quasi-Newton algorithms for nonlinearly constrained optimi- zation problems. — Math. Progr., 1976, v. 11, Ks 1, p. 1—13. 9.22. Grossman Ch., Kaplan A. A. Strafmethoden und modifizierte Lagrangefunktionen in der nichtlinearen Optimierung. — Leipzig: BSB B. G. Te- ubner Verlag, 1979. 9.23. H a n S. P. Superlinearly convergent variable metric algorithm for ge- neral nonlinear programming problem.—Math. Progr., 1976, v. 11, № 3, p. 263— 282. 9.24. Kowalik J., Osborne M. R., Ryan D. M. A new method for constrained optimization problems. — Oper. Res., 1969, v. 7, № 6, p. 973— 983. 9.25. Kuhn H. W. Nonlinear programming: a historical view. — In: Non- linear programming. SIAM-AMS Proc. Vol. 9. Providence: Amer. Math. Soc., 1976, p. 1—26. 9.26. M a n g a s a r i a n O. L. Nonlinear programming. — N. Y.: McGraw- Hill, 1969. 9.27. Morrison D. D. Optimization by least squares. — SIAM J. Numer. Anal., 1968, v. 5, № 1, p. 83—88. 9.28. Neustadt L. W. Optimization. A theory of necessary conditions. — Princeton: Princeton Univ. Press, 1976. 9.29. Pietzykowski T. An exact potential method for constrained ma- xima.— SIAM J. Numer. Anal., 1969, v. 6, № 2, p. 299—304. 9.30. Rockafellar R. T. The multiplier method of Hestenes and Powell applied to convex programming. — J. Optim. Theory Appl., 1973, v. 12, p. 555— 562. 9.31. Rosen J. B. The gradient projection method for nonlinear program- ming. I.— SIAM J., 1960, v. 8, № 1, p. 180—217. 9.32. Wierzbicki A. P. A penalty function shifting method in constrai- ned static optimization and its convergence .properties. — Archiw. Autom. i Te- lemech., 1971, v. 16, № 4, p. 395—416.
380 ЛИТЕРАТУРА К ГЛАВЕ 10 (см. также 0.7, 0.19, 0.22, 2.1, 5.15, 5.21, 6.2, 8.1, 8.12, 9.9, 9.10, 9.15) 10.1. Булавский В. А., Звягина Р. А., Яковлева М. А. Числен- ные методы линейного программирования. — М.: Наука, 1977, 10.2. Гасс С. Линейное программирование. — М.: Физматгиз, 1961. 10.3. Габасов Р., Кириллова Ф. М. Методы линейного програм- мирования. — Минск: БГУ, 1977, т. 1, 2; 1980, т. 3. 10.4. Гольштейн Е. Г., Юдин Д. Б. Новые направления в линей- ном программировании. — М.: Сов. радио, 1966. 10.5. Данциг Дж. Линейное программирование, его применения и об- общения. — М.: Прогресс, 1966. 10.6. Канторович Л. В. Математические методы в организации и планировании производства. — Л.: ЛГУ, 1939. 10.7. Карпелевич Ф. И., Садовский Л. Е. Элементы линейной алгебры и линейного программирования. — М.: Физматгиз, 1963. 10.8. Кор пел ев ич Г. М. Экстраградиентный метод для отыскания седловых точек и других задач. — Эконом, и матем. методы, 1976, т. 12, № 4, с. 747-756. 10.9. Кюнци Г. П., Крелле В. Нелинейное программирование. — Мл Сов. радио, 1963. 10.10. Линейные неравенства и смежные вопросы/Под ред. Г. Куна, А. Таккера. — М.: ИЛ, 1959. 10.11. Нит И. В. Линейное программирование (с обсуждением некото- рых нелинейных задач). — М.: МГУ, 1978. 10.12. Поляк Б. Т., Третьяков Н. В. Об одном итерационном ме- тоде линейного программирования и его экономической интерпретации. — Эко- ном. и матем. методы, 1972, т. 8, № 5, с. 740—751. 10.13. Разумихин Б. С. Физические модели и методы теории равно- весия в программировании и экономике. — М.: Наука, 1975. 10.14. Романовский И. В. Алгоритмы решения экстремальных за- дач. — М.: Наука, 1977. 10.15. Хачиян Л. Г. Полиномиальный алгоритм в линейном програм- мировании.— Докл. АН СССР, 1979, т. 244, № 5, с. 1093—1096. 10.16. Юдин Д. Б., Гольштейн Е. Г. Задачи и методы линейного программирования. — М.: Сов. радио, 1961. 10.17. Юдин Д. Б., Г о л ь ш т е й н Е. Г. Линейное программирование. Теория и конечные методы. — М.: Физматгиз, 1963. 10.18. Klee V., Minty G. J. How good is simplex algorithm? — In: Ine- qualities-! 11/Ed. O. Shisha. N. Y.; London: Acad. Press, 1972, p. 159—175. К ГЛАВЕ 11 (см. также 0.1, 0.19, 4.2—4.4, 4.9, 4.11, 6.3, 6.11, 6.13, 10.5, 10.6, 10.13) 11.1. Андерсон Т. Статистический анализ временных рядов. — М.: Мир, 1976. 11.2. Арис Р. Дискретное динамическое программирование.—М.: Мир 1969. 11.3. Бард И. Нелинейное оценивание параметров.—М.: Статистика 1979. 11.4. Беллман Р. Динамическое программирование.--М.: ИЛ, I960. 11.5. В а пн и к В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. 11.6. Вычислительные методы выбора оптимальных проектных реше- ний/Под ред. В. С. Михалевича. — Киев: Наукова думка, 1977. 11.7. Г ем ин терн В. И., Каган Б. М. Методы оптимального проекти- рования.—М.: Энергии, 1980.
ЛИТЕРАТУРА 381 11.8. Гермейер Ю. Б. Введение в теорию исследования операций,— М.: Наука, 1971. 11.9. Гурин Л. С., Дымарский Я. С., Мерку лов А. Д. Задачи и методы оптимального распределения ресурсов. — М.: Сов. радио, 1968. 11.10. Д а ф ф и н Р., Петерсон Э., Зенер К. Геометрическое програм- мирование.— М.: Мир, 1972. 11.11. Д е н н и с Д. Б. Математическое программирование и электрические цепи. — М.: ИЛ, 1961. 11.12. Ермольев Ю. М., Ястремский А. И. Стохастические модели и методы в экономическом планировании.—М.: Наука, 1979. 11.13. Ершов А. А. Стабильные методы оценки параметров: обзор,— Автом. и телемех., 1978, № 8, с. 66—100. 11.14. Казакевич В. В., Родов А. Б. Системы автоматической опти- мизации.— М.: Энергия, 1977. 11.15. Канторович Л. В. Экономический расчет наилучшего использо- вания ресурсов. — М.: АН СССР, 1960. 11.16. Лоран П.-Ж. Аппроксимация и оптимизация. — М.: Мир, 1976. 11.17. Лэсдон Л. С. Оптимизация больших систем. — М.: Наука, 1975. 11.18. Мудров В. И., К У ш к о В. Л. Методы обработки измерений.— М.: Сов. радио, 1976. 11.19. Налимов В. В., Чернова Н. А. Статистические методы пла- нирования экстремальных экспериментов. — М.: Наука, 1965. 11.20. Островский Г. М., Волин В. М. Методы оптимизации хими- ческих реакторов.— М.: Химия, 1967. 11.21. Первозванский А. А. Математические модели в управлении производством. — М.: Наука, 1975. 11.22. Поляк Б. Т., Скоков В. А. Решение задач на минимум суммы квадратов. — Эконом, и матем. методы, 1978, т. 14, Ks 6, с. 1173—1180. 11.23 По 1як Б. Т., Цыпкин Я. 3. Адаптивные алгоритмы оценивания (сходимость, оптимальность стабильность). — Автсм. и телемех., 1979, Ks 3, с. 71—84. 11.24. Пропой А. И. Элементы теории оптимальных дискретных процес- сов.— М.. Наука, 1973. 11.25. Табак Д., Куо Б. Оптимальное управление и математическое программирование. — М.. Наука, 1975. 11.26. Ульм С. Методы декомпозиции для решения задач оптимизации.— Таллин: Валгус, 1979. 11.27. Федоров В. В. Теория оптимального эксперимента. — М.: Нау- ка, 1971. 11.28. Федоров В. В. Численные методы максимина.—М.: Наука 1979. 11.29. X и м м е л ь б л а у Д. Анализ процессов статистическими метода- ми. — М.: Мир, 1973. 11.30. Цирлин А. М. Вариационные методы выбора оптимальных пара- метров аппаратов химической технологии. — М.: Машиностроение, 1978. 11.31. Черноусько Ф. Л., Баничук Н. В. Вариационные задачи ме- ханики и управления (численные методы). —М.: Наука, 1973. 11.32. Bertsekas D. Р. Approximation procedures based on the method of multipliers. — J. Optim. Theory App'., 1977, v. 23, № 4, p. 487— 510. 11.33. Bracken J., McCormick G. P. Selected applications of non- linear programming. — N. Y.: Wiley, 1968. 11.34. Lasdon L. S., Waren A. D. Survey of nonlinear programminw applications. — Oper. Res., 19^0, v. 28, Ks 5, p. 1029—1073.
382 ЛИТЕРАТУРА' К ГЛАВЕ 12 (см. также 0.21, 10.14) 12.1. Белов Е. Н. Алгоритмы и программы решения задач квадратич- ного и линейного программирования.—Эконом, и матем. методы, 1980, т. 16, № 1, 198—201. 12.2. Белов Е. Н., П о л я к Б. Т., Скоков В. А. Комплекс программ оптимизации. — Эконом, и матем. методы, 1978, т. 14, № 4, см. 792—796. 12.3. Нестеров Ю. Е., Скоков В. А. К вопросу о тестировании ал- горитмов безусловной минимизации. — В кн.: Численные методы матем. прогр. М.: ЦЭМИ, 1980, с. 77—91. 12.4. Малков У. X. Обзор программ решения общей задачи линей- ного программирования. — Эконом, и матем. методы, 1969, т. 5, № 4, с. 594— 597. 12.5. Скоков В. А. Некоторый вычислительный опыт решения задач нелинейного программирования. — В кн.: Матем. методы решения эконом, задач. Сб. 7. М.: Наука, 1977, с. 51—69. 12.6. Современное состояние теории исследования операций/Под ред. Н. Н. Моисееева. — М.: Наука, 1979. 12.7. У и л к и н с о н Дж. X., Райнш К. Справочник алгоритмов на языке Алгол. Линейная алгебра. — М.: Машиностроение, 1976. 12.8. Computational practice in mathematical programming. Math. Progr. Study. Vol. 4. — Amsterdam: North Holland, 1975. 12.9. Colville A. R. A comparative study of nonlinear programming co- des.— In: Proc. Princeton Symp. Math. Progr./Ed. Kuhn H. W. Princeton: Prin- ceton Univ. Press, 1970. 12.10. Crowder H. P., D e m b о R. S., Mulvey J. M. Reporting compu- tational experiments in mathematical programming. — Math. Progr., 1978, v. 15, № 3, p. 316—329. 12.11. Dembo R. S. A set of geometric programming test problems and their solutions.—Math. Progr., 1976, v. 10, № 2, p. 192—213. 12.12. К u e s t e r J. L., M i z e J. H. Optimization techniques with FORT- RAN. — N. Y.: McGraw-Hill, 1973. 12.13. Kunzi H. P., Tzschach H. G., Zend er C. A. Numerical met- hods of mathematical optimization with ALGOL and FORTRAN programs. — N. Y.: Acad. Press, 1971. 12.14. Land A. H., P о w e 11 S. Fortran codes for mathematical program- ming: linear, quadratic and discrete'. — London; N. Y.: Wiley, 1973. 12.15. О r c h a r d - H a у s W. Advanced linear programming computing techniques. — N. Y.: McGraw-Hill, 1968. 12.16. Waren A. D., Lasdon L. S. The status of nonlinear program- ming. — Oper, Res., 1979, v. 27, № 3, p. 431—456.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Абсолютные помехи 96, 103, 144, 196, 221 Активные ограничения 232, 240 Аргументные задачи 164 Безусловная минимизация 9, 15, 346 Блочные задачи 322 Вариационное исчисление 9, 328 Вариационные принципы 334 Вогнутая функция 20, 226 Выпуклая оболочка 115, 271 — функция 19, 118, 226 Выпуклое множество 114 — программирование 11, 225 Выпуклый анализ 12, 114, 225 Вырожденный минимум 150, 222 Геометрическое программирование 317 Глобальный минимум 166 Градиент 15 Градиентный метод 30, 63, 85, 97, 108, 150, 161, 348 Двойственность 235, 275, 297 Двойственные методы 210, 251, 267 — переменные 200, 232 Динамическое программироваиие 11, 320, 329 Допустимые направления 180 — точки 199, 225 Единственность решения 26, 125, 208, 238, 278 Идентификация 301 Каноническая форма 276 Касательный вектор 200 Квадратичное программирование 296 Квазиньютоновские методы 77, 103, 192, 265 Коиус 228 Крайняя точка 270 Критериальные задачи 164 Лемма Дубовицкого — Милютина 229 — Каратеодори 116 — Ляпунова 45 — Моро — Рокафеллара 228 — об обращении матриц 78, 83 — Фаркаша 229 — Хоффмана 279 Линейная сходимость 46 Линейное программирование 11, 268, 358 Мартингал 53 Математическое программироваиие 11, 225 Метод барицентрических координат 91, 348 — барьеров 255 — Бройдена 78 — БФШ 79, 349 — возможных направлений 248 — Гаусса — Зейделя 90 ------Ньютона 306, 351 — декомпозиции 322 — ДФП 78, 349 — итеративной регуляризации 159 — Кифера — Вольфовица 103 — Левеиберга — Марквардта 66 — линеаризации 211, 249, 263 — Ляпунова 44, 49 — максимального правдоподобия 302 — модифицированной функции Лагранжа 214, 253, 290, 355 — Монте-Карло 95 — наименьших квадратов 106, 334, 351 — негладкой оптимизации 114, 259, 291, 352 — Ньютона 37, 38, 66, 100, 109, 191, 218, 264 — отсечения 135 — Пауэлла 93, 348 — переменной метрики 80 — поиска 87, 146 — покоординатного спуска 88 —.приведенного градиента 217, 267 — проекции градиента 185, 248, 289 ---субградиента 187, 259 — регуляризации 156, 163, 288 — с растяжением пространства 143, 349 — секущих 82 — скорейшего спуска 64, 349 — случайного поиска 89, 105, ПО, 173 — сопряженных градиентов 70, 86, 153, 194, 348 -- направлений 80 — тяжелого шарика 68, 102 — условного градиента 188 — центров тяжести 138 — чебышевских центров 137 — штрафных функций 13, 216, 255, 266, 289. 355 — эллипсоидов 142, 353 — Эрроу — Гурвица 213, 251, 294 Минимакс 325 Минимизирующая последовательность 26, 183 Многогранное множество 270 Многошаговые методы 68, 102. 134 Многоэкстремальность 166, 220 Множители Лагранжа 199, 232. 241 Модифицированная функция Лагранжа 206, 252 Монотонность 21, 120 Наилучшее приближение 330 Направление скорейшего спуска 30, 128 Невырожденный минимум 26, 206, 245 Нелинейное программирование 225, 354
384 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Неравенство Йенсена 20 — Канторовича 65 — Колмогорова 53 — Крамера — Рао 112 Нестационарные задачи 175 Нормализация 248 Нормальное решение 157 Обусловленность 28, 314 Овражная функция 28 Овражный метод 171 Ограничения общего вида 10, 225 — типа равенств 10, 199 Однородные функции 84 Опорная гиперплоскость 117 Опорный вектор 179 Оптимальное планирование 321 — проектирование 317 — распределение ресурсов 319 — управление 11, 327 Оптимальные методы 107 Острый минимум 127, 184, 278 Отделимые множества 116 Относительные помехи 96, 103, 145, 198, 221 Сверхлинейная сходимость 46 Седловая точка 167, 234 Сильная выпуклость 20, 126, 191 Симплекс-метод 13, 281, 360 Симплексный метод 90 Сопряженные векторы 72 — конусы 229 Стационарная точка 23, 166 Стохастическая аппроксимация 310 Стохастическое программирование 323 Строгая выпуклость 20, 125, 183 Субграднент 120, 123 Субградиеитный метод 128, 133 Существование решения 25, 125, 183, 238, 277, 298 Сходимость случайных величин 52 Теорема Вейерштрасса 25, 183 — Каруша — Джона 240 — Куна —Таккера 231, 234 — Люстерника 201 — Немировского — Юдина 140 — о неявной функции 61 — Ферма 22 — Хелли 333 Тестовые задачи 345 Транспортная задача 321 Погрешность вычислений 94 Позиномы 317 Правило множителей Лагранжа 199 Принцип максимума 11, 327 — сжимающих отображений 59 Проекция 116 Производная по направлению 16, 119 Прокс-метод 158 Прямые методы 87, 103, 210 Псевдограднентность 55 Псевдообратная матрица 157 Разностные аппроксимации 87 Рандомизация 149 Регрессия 304 Регуляризация 156 Регулярная точка минимума 199, 232 Рекуррентные оценки 309 Робастность 306, 311 Условие дополняющей нежесткости 232, 245 — регулярности 241 — Слейтера 231 — экстремума 22, 124, 179, 199, 231, 240, 274, 296 Устойчивость решения 26, 126, 183, 238, 245, 278 Фишеровская информация 112, 303 Функция Лагранжа 200, 232, 241 — Ляпунова 49 — среднего риска 95 Штрафные функции 202 Экстремальное регулирование 326