Текст
                    Computer Science and Applied Mathematics
A Series of Monographs and Textbooks
Editor
WERNER RHE1NB0LDT
ITERATIVE SOLUTION
OF NONLINEAR EQUATIONS
IN SEVERAL VARIABLES
JAMES M. ORTEGA and WERNER С RHEINBOLDT
University of Maryland
College Park, Maryland
ACADEMIC PfcESS
NEW YORK AND LONDON 1970


Джеймс Ортега и Вернер Рейнболдт ИТЕРАЦИОННЫЕ МЕТОДЫ РЕШЕНИЯ НЕЛИНЕЙНЫХ СИСТЕМ УРАВНЕНИЙ СО МНОГИМИ НЕИЗВЕСТНЫМИ Перевод с английского Э. В. ВЕРШКОВА, Н. П. ЖИДКОВА и И. В. КОНОВАЛЬЦЕВА Под редакцией И. В. КОНОВАЛЬЦЕВА ИЗДАТЕЛЬСТВО «МИР* МОСКВА 1975
518.5 Монография посвящена численным методам реше- решения нелинейных систем уравнений. Основное внимание уделено рассмотрению итерационных методов миними- минимизации. Дан обзор неконструктивных теорем существо- существования. Подробно исследуются итерационные методы типа метода Ньютона, обобщенные линейные методы, релаксационные методы. Значительная часть книги посвящена вопросам сходимости итерационных про- процессов. Каждая глава снабжена большим числом упражне- упражнений, комментариями и литературными ссылками. Книга содержит много важного фактического ма- материала и представляет значительный интерес для всех, кто работает в области вычислительной математики и ее приложений. Написанная ясно и четко, книга доступна студентам соответствующих специальностей. Редакция литературы по математическим наукам О ил! ти-75 25"~75 © Перевод на русский язык, «Мир», 1975
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Предлагаемая вниманию читателя монография американских математиков Джеймса Ортеги и Вернера Рейнболдта посвящена одному из самых традиционных разделов численного анализа. В са- самом деле, трудно указать такую область вычислительной матема- математики, где в той или иной форме не возникала бы задача о нахожде- нахождении решения системы п уравнений с п неизвестными, причем осо- особый интерес представляют именно нелинейные системы. В то же время в литературе на русском языке отсутствуют книги, посвя- посвященные специально этому вопросу. Известная монография А. Ост- Островского «Решение уравнений и систем уравнений» (ИЛ, М., 1963) имеет дело, в основном, со случаем одного уравнения. В настоящей книге подробно исследуется наиболее важный класс методов решения нелинейных систем — итерационные методы. Построение общей теории таких методов связано с последователь- последовательным применением теоретико-функциональных идей и в первую оче- очередь с использованием принципа сжимающих отображений. Заме- Заметим, что итерационные методы находят широкое применение при численном решении дифференциальных уравнений в частных про- производных. Весьма обстоятельное изложение соответствующего ма- материала читатель может найти в монографии А. А. Самарского «Введение в теорию разностных схем» («Наука», М., 1971). Наряду с итерационными методами авторы рассматривают и некоторые методы минимизации. Последнее вполне естественно, так как задачу решения системы уравнений всегда можно свести к за- задаче минимизации подходящего функционала. Первые три главы книги содержат вводный материал: мотиви- мотивировки последующих рассмотрений и стандартные сведения из ли- линейной алгебры и анализа, в частности теорию производных Гато и Фреше (в конечномерных пространствах). Дальнейшие три главы отведены неконструктивным теоремам су- существования. Здесь же изложена теория степени отображения, играющая важную роль в этих теоремах. Собственно итерационным методам и методам минимизации по- посвящены срединные главы 7 и 8. Авторы подробно изучают как клас- классические методы Ньютона и секущих, так и обобщенные линейные методы, в частности методы последовательной верхней релаксации (ПВР).
Предисловие редактора перевода Заключительные шесть глав посвящены вопросам сходимости итерационных методов. Особый интерес здесь представляет иссле- исследование полулокальной и глобальной сходимости, т. е. сходимости в случаях, когда начальное приближение не предполагается доста- достаточно близким к искомому решению или вообще выбирается про- произвольно. Книга легко читается. Этому в немалой мере способствует чет- четкая организация материала. Каждый параграф завершается двумя разделами: «Замечаниями и ссылками на литературу» (ЗС), в кото- которых приводятся сведения исторического и литературного характера и затрагиваются близкие вопросы, и упражнениями. Концы дока- доказательств, а также определений отмечены общепринятым знаком |. Библиография насчитывает около 800 наименований. При пе- переводе мною был добавлен ряд работ, в основном появившихся после выхода в свет английского издания. Содержащая важный и обширный материал и мастерски напи- написанная, эта книга полезна всем, кто работает в области численного анализа или его приложений. Перевод глав 1, 4, 5, 9—11 выполнен Н. П. Жидковым, глав 2, 7, 8 — Э. В. Вершковым, глав 3, 6, 12—14 — мною. И. Коновальцев
Посвящается Саре и Корри ПРЕДИСЛОВИЕ Эта книга — продукт исследований, которыми мы и несколько наших аспирантов занимались в течение последних пяти лет. Боль- Большинство материала было также включено в курсы, которые мы чи- читали в это время в Мэрилендском университете. Наша цель — дать обзор основных теоретических результатов о системах нелинейных уравнений с п неизвестными и анализ главных итерационных мето- методов их численного решения. Представляется, что обстоятельное изложение этой быстро развивающейся области является своевре- своевременным и должно принести пользу не только тем, кто работает в ней, но также и лицам, заинтересованным или нуждающимся в ин- информации о специальных результатах или методах. В то же время мы надеемся, что даем пособие для изучающих эту область числен- численного анализа, и в связи с этим мы пытались, насколько это возмож- возможно, сделать основной текст замкнутым в себе, проводить доказатель- доказательства во всех деталях и включать упражнения во все параграфы. Чтобы сделать книгу полезной для справочных целей, мы снабдили каждый параграф «Замечаниями и ссылками на литературу», где отмечаются различные обобщения результатов, изложенных в данном параграфе, и другие относящиеся к делу результаты и ука- указывается соответствующая литература. Кроме того, книга заверша- завершается обширной библиографией по рассматриваемой тематике. Основной текст предполагает у читателя подготовку в объеме стандартных курсов /г-мерного анализа и линейной алгебры. Час- Частично этот материал в нужной нам форме приведен в гл. 2 и 3. Некоторое знакомство с основными методами решения одного урав- уравнения с одним неизвестным, а также систем линейных уравнений полезно, но не обязательно. В частности, все сведения из теории численного решения линейных уравнений, которые нам понадо- понадобятся, собраны в гл. 2. По необходимости мы должны были принимать решения, ограни- ограничивающие излагаемый материал. Мы отказались от специального рассмотрения итерационных методов для одномерных уравнений и Для систем линейных уравнений, так как имеются превосходные монографии Островского [1966] и Трауба [1964] по первому из этих вопросов и Вазова и Форсайта [I960] и Варги [1962] — по второму. За исключением нескольких мест, мы ограничиваемся задачей определения изолированных и не подчиненных никаким другим
8 Предисловие ограничениям решений п действительных уравнений относительно п неизвестных. Проблема «решения» т уравнений с п неизвестными при т > п является предметом теории аппроксимации, а при т < < п по-видимому не представляет большого интереса. Введение со- совокупности дополнительных ограничений на искомое решение тре- требует совершенно иной техники; в некоторых определенных поста- постановках эта проблема относится к нелинейному программированию, а в общем виде она пока еще мало разработана. Точно также явля- является почти полностью открытым случай неизолированных решений. • Мы не рассматриваем итерационные методы, в формулировке которых фигурируют производные второго или более высокого по- порядков, поскольку анализ таких методов трудоемок и мало поучи- поучителен и, что более важно, поскольку вычисление k-й производной отображения Rn в себя требует, вообще говоря, пк+х вычислений функции; вследствие этого методы, связанные с использованием производных порядка выше первого, мало привлекательны с вычис- вычислительной точки зрения, за исключением, возможно, специальных задач. Наконец, мы не включили в книгу численных примеров. Приме- Применение различных методов к ряду случайных примеров, для кото- которых теоретические результаты уже гарантируют отсутствие каких- либо трудностей, мало что дает. Чтобы проникнуть в суть числен- численного поведения итерационного процесса, необходимы обширные численные расчеты, в которых не только систематически варьиру- варьируются решаемые уравнения и их размерность, но и в каждом случае используется много различных начальных приближений. Насколь- Насколько нам известно, такая работа до сих пор нигде не была проделана, а наш собственный опыт в этом отношении дает больше вопросов, чем ответов. Влияние варьирования уравнений, их размерности и начальных данных на ход вычислений пока еще мало понято как с практической, так и с теоретической точек зрения, и, в частности, имеется совсем немного результатов касательно влияния различно- различного типа вычислительных ошибок. Однако, быть может, самое важное ограничение в выборе ма- материала связано с нашим решением рассматривать в основном тек- тексте только конечномерный случай, несмотря на то что многие из ре- результатов в этой области были сразу получены в более общем виде. Но мы старались представить возможно большее число результатов таким образом, чтобы распространение их, скажем, на случай опе- операторов в банаховом пространстве было совершенно очевидным. По нашему мнению, такой способ изложения имеет то преимущест- преимущество, что делает книгу одинаково содержательной и доступной как для читателя, хорошо знакомого с функциональным анализом, так и для читателя, совсем не знакомого с ним. Кроме того, в «Заме- «Замечаниях и ссылках на литературу» мы указываем соответствующие обобщения на случай бесконечномерных пространств, предполагая, что читатель уже знаком с необходимой терминологией. Изложение
Предисловие ряда рассматриваемых нами вопросов в функционально-аналити- функционально-аналитической постановке читатель может найти в книгах Коллатца [1964], Гольдстейна [1967], Канторовича и Акилова [1959], Ролла [1969] и Вайнберга [1956]. Нам приятно отметить здесь с признательностью поддержку на- наших исследований Национальным управлением по аэронавтике и исследованию космического пространства, Национальным науч- научным фондом и Даремским Управлением научных исследований ар- армии США. Мы хотим поблагодарить также Мэрилендский универси- университет за создание благоприятных условий и необходимой для такой работы атмосферы. Мы признательны нашим аспирантам — Джону Авиле, Рэю Каване, Стивену Рауху, Роберту Степлмэну и Роберту Войгту — за чтение и замечания к различным частям рукописи и особенно Жоржу Морэ, прочитавшему всю рукопись. Наконец, мы хотим поблагодарить наших многострадальных жен, которым посвящена эта книга, за их терпение и понимание, сделавшие воз- возможным ее появление. Дж. Ортега В. РейнболЬт
10 ВВЕДЕНИЕ Мы обозначаем через Rn действительное /г-мерное линейное про- пространство векторов-столбцов х = Однако за исключением случая некоторых зависящих от порядка ко. ординат методов, таких, как рассматриваемые в § 7.4 методы ПВР, по существу все наши рассмотрения являются независимыми от ба- зиса, и потому Rn можно также рассматривать как абстрактное действительное /г-мерное линейное пространство. Для записи векто- векторов из Rn мы будем использовать строчные латинские буквы, с верхним индексом или без него, а для обозначения компонент этих векторов будем применять нижние индексы; например, х\ — это 1-я компонента вектора *\ Относительно других обозначений, свя- связанных с векторами и матрицами, см. гл. 2. Обычно будет предполагаться, что пространство Rn снабжено некоторой, неважно какой, нормой (см. § 2.2); когда же результат зависит от выбора нормы, это будет явно указываться. Предпола- Предполагается, что читатель знаком с основными топологическими понятия- понятиями для случая Rn, такими, как открытые, замкнутые, компактные множества, окрестности точки, пределы, последовательности Коши, непрерывность и равномерная непрерывность функций и т. д. Для читателя, знакомого с этими понятиями лишь в случае обычной эвклидовой нормы, заметим, что они немедленно переносятся на слу- случай произвольных норм ввиду теоремы 2.2.1 об эквивалентности норм, из которой следует, что все топологические рассмотрения в Rn являются независимыми от выбора нормы. Мы обозначаем замыкание, границу и внутренность множества S с Rn соответственно через S, S и int (S). Особенно важные под- подмножества в Rn — это открытые и замкнутые шары (по отношению к некоторой норме || • [) S(x»,r)={x?Rn\\\x-xQ\\<r}, S(*°, r) = {x?Rn\\\x-x0\\<r} с центром х° и радиусом г > 0. Функция F (называемая также отображением или оператором) с областью определения D, лежащей в Rn, и значениями в Rm будет
Введение И обозначаться так: F: D a R -> Rm или иногда F: D --> Q, если размерности пространств, в которых лежат множества D и Q, очевидны. При т > 1 компоненты отображения F; D с Rn -> /?m обозначаются через /ь /2, ..., /от и элемент Z7* ? Ят представляется вектором-столбцом В этих обозначениях задача, являющаяся предметом нашего рассмотрения,— это задача об отыскании решений системы уравне- уравнений fi (хъ ..., хп) = уо i = 1, ..., л, A) или, в более компактной записи, Fx=y, B) где F: D си Rn-+Rn — заданный оператор и у ? Rn — некоторый фиксированный вектор. Обычно не будет ограничением «включить» вектор у в F и рассматривать уравнение Fx = 0. C) Прежде чем пытаться найти решение уравнения C), важно ясно представить себе, что эта задача может вообще не иметь решений или, наоборот, иметь их как угодно много. Чтобы проиллюстриро- проиллюстрировать это, рассмотрим систему f\ (*i. *г) = 0> h (*ъ *г) = 0. D) Каждое из этих двух уравнений определяет некоторую (не обяза- обязательно непрерывную) кривую, и, следовательно, решениями систе- системы D) являются точки пересечения этих кривых. Если в простом примере изменять действительный параметр а между +1 и —1, то возникают следующие случаи (см. рис. В.1): (а) а = 1 — решений нет; (б) а = 1/4 —- одно решение: хг = х2 = 1/2; (в) а = 0 — два решения: хх = х2 = 0; хг = х2 = 1. (г) а = — 1 — четыре решения: хг = — 1, х2 = 0; хх = 0, х2 =з Аналогично система [sin D" пхЧ\ ""^ = 0,
12 Введение имеет счетное множество решений (рис. В.2), а у системы fx (*b х2) = х\ — | х21 = 0, f2 {хь х2) = х2\ — х2 = 0 имеется даже континуум решений (рис. В.З) Эти примеры указывают на необходимость рассмотрения хотя бы некоторых важнейших результатов относительно существования Рис. В.1. и единственности решений уравнений вида B) и C). Исчерпываю- Исчерпывающий обзор теорем существования вышел бы за рамки данной книги; тем не менее в части II охвачено большинство из главных подходов и результатов для конечномерных уравнений. * При условии, что уравнение C) действительно имеет решения, наша главная забота — описание и анализ методов аппроксимации этих решений. В отличие от случая систем линейных уравнений, прямые методы решения нелинейных уравнений обычно реально осуществимы лишь для систем из небольшого числа уравнений весьма частного вида. Поэтому наше внимание будет ограничено итерационными методами. Вероятно, самым главным методом и, бесспорно, центральным в наших рассмотрениях является метод Ньютона E) = Xk _ р {xk)~xFx\ k = 0, 1, ,,.. Здесь Ff {x) обозначает матрицу производных, или матрицу Якоби отображения F (см. § 3.1), a F' (х)~~х — обратная к ней. Более общо, произвольный итерационный метод представляет собой процедуру для построения последовательности {л;^} векторов, отправляясь
Введение 13 от р ^ 1 заданных начальных векторов х% ..., х р^~, и часть III посвящена обсуждению большого числа возможных итерационных Рис.В.2. Рис.В.З. методов для системы C). С анализом итерационных процессов свя- связаны три основные проблемы. Первая состоит в установлении того, что итерации корректно определены. Например, если алгоритм требует вычисления значения F в каждой точке хк, то должно быть гарантировано, что итерации все время остаются в области опреде- определения F\ в случае метода Ньютона E) должны также существовать и быть невырожденными при каждом** производные отображения F. В общем случае невозможно найти точно множество всех началь- начальных данных, для которых данный процесс корректно определен, и мы будем ограничиваться заданием условий, которые гарантируют, что итерационная последовательность корректно определена для некоторых специальных начальных векторов. Вторая и наиболее фундаментальная проблема касается сходи- сходимости последовательностей, порождаемых процессом, и вопроса о том, являются ли на самом деле их предельные точки решениями рассматриваемого уравнения. Имеется несколько типов таких ре- результатов о сходимости. В результатах первого типа, которые мы называем локальными теоремами сходимости, предполагается, что существует какое-то частное решение х*9 и утверждается, что су- существует окрестность U этого решения л:*, такая, что для всех начальных векторов в U итерации, порождаемые процессом, кор- корректно определены и сходятся к х*. Некоторые из таких результатов мы рассмотрим в гл. 10 и 11. В теоремах второго типа, которые мы назовем полу локальными, не требуется ничего знать заранее о суще- существовании решения, а утверждается, что если начинать с таких на- начальных векторов, для которых удовлетворены некоторые — обыч- обычно довольно жесткие — условия, то сходимость к некоторому (обычно лежащему поблизости) решению гарантируется. Более того,
14 Введение теоремы этого второго типа обычно дают вычислимую (по крайней мере в принципе) оценку ошибки xk— х *, — возможность, в ло- локальных теоремах сходимости не представляющаяся. Наконец, третий и наиболее элегантный тип результатов о сходимости, — это глобальные теоремы, которые утверждают, что сходимость к реше- решению обеспечена, с какой бы точки пространства Rn или, на худой конец, некоторой его большой части мы ни начинали. Результаты двух последних типов представлены в части V. ) Третья основная проблема касается вопроса об экономии об- общего числа операций, в частности вопроса о том, как быстро после- последовательность будет сходиться. Здесь имеются два подхода, которые соответствуют локальной и полулокальной теоремам сходимости. Как было отмечено выше, анализ, приводящий к теоремам полуло- полулокального типа, часто дает и оценку погрешности, а это в свою очередь можно иногда интерпретировать как оценку скорости сходи- сходимости рассматриваемой последовательности. К несчастью, эти оцен- оценки обычно крайне пессимистичны. Во втором подходе имеют дело с поведением последовательности [xk)y когда k велико и, следова- следовательно, когда xk находится вблизи решения х*. Это поведение может быть определено, в первом приближении, по свойствам итерацион- итерационной функции вблизи х* и приводит к так называемым асимптоти- асимптотическим скоростям сходимости. Результаты этого типа приводятся в части IV в связи с локальными теоремами сходимости. ; В заключение этого введения, может быть, будет полезно ука- указать общую схему нумерации, использующуюся во всей книге. Главы (пронумерованные насквозь от 1 до 14 независимо от их груп- группировки в части) делятся каждая на ряд параграфов, обозначаемых десятичными числами типа 12.1, 12.2 и т. д. В конце каждого пара- параграфа имеется также набор замечаний и упражнений._Кроме того, некоторые главы снабжены одним или несколькими приложениями, в которых излагается близкий материал, не лежащий в основном русле книги. Все определения и результаты нумеруются последо- последовательно внутри каждого параграфа, например, 12.1.1, 12.1.2 и т. д. При этом определения отмечены как таковые, но для результа- результатов никакие обычные названия, такие, как лемма, предложение или теорема, не используются. Единственное, исключение составляют те результаты, которые общеизвестны под какими-нибудь названи- названиями; им даются те же названия. Замечания или ссылки на литерату- литературу, равно как и упражнения, приписываются к данному параграфу; обозначения ЗС 12.1.3 или У 10.3.4 понятны сами собой. Равенства нумеруются последовательно A), B) и т. д. внутри каждого парагра- параграфа, и на соотношения из данного параграфа мы ссылаемся, исполь- используя эти номера, а при ссылках на соотношения из других парагра- параграфов мы применяем «полную» нумерацию; например, A0.1.3) означа- означает соотношение C) из § 10.1.
Часть I ПОДГОТОВИТЕЛЬНЫЙ МАТЕРИАЛ В этой части собран разнообразный подготовительный материал из анализа и линейной алгебры, который будет часто использовать- использоваться в последующих главах. Более конкретно, в гл. 1 мы рассмотрим ряд математических задач, для численного решения которых требу- требуется решить систему нелинейных уравнений. Они должны дать не- некоторое представление о типичных областях численного анализа, где возникают нелинейные системы уравнений. Но этот ряд ни в коей мере не является исчерпывающим, и сами задачи формулируются не в самом общем виде. Некоторые из этих задач будут привлекать- привлекаться в последующих разделах книги для иллюстрации теорем о су- существовании и единственности, а также теорем о сходимости итера- итерационных методов. Глава 2 посвящена линейной алгебре, в том числе основным ре- результатам о собственных значениях, нормах в я-мерных пространст- пространствах и индуцированных ими матричных нормах, различным резуль- результатам об обратимости линейных операторов в Rn и свойствам Rn как частично упорядоченного линейного пространства. Глава 3 представляет собой введение в /г-мерный анализ и, в частности, в теорию производных Гато и Фреше. Кроме того, сюда включен параграф о выпуклых функционалах. Другие, более специальные результаты линейной алгебры и ана- анализа приводятся в последующих главах книги, там, где они необхо- необходимы.
Глава 1 ПРИМЕРЫ ЗАДАЧ 1.1 ДВУХТОЧЕЧНЫЕ КРАЕВЫЕ ЗАДАЧИ Широкий круг задач из многих областей, таких, как вычисление траектории движения или исследование колебательных систем, мо- может быть сформулирован в терминах краевых задач для обыкновен- обыкновенных дифференциальных уравнений. Например, при исследовании вынужденных колебаний простого маятника возникают задачи типа и" = csinu + g(f)9 0</<1, ц@) = иA) = 0. A) Более общим образом, рассмотрим задачу и" =/(/,«), 0</<1, и@) = а, иA) = Р, B) для которой задача A) является частным случаем. Если предполо- предположить, что функция / дважды непрерывно дифференцируема на мно- множестве S = {(*, У) | 0 < t < 1, - оо < у < + оо} C) и что fy(U У)>г\>-п\ V(/, */)?S, D) то, как известно (см. ЗС 1.1.1), задача B) обладает единственным дважды непрерывно дифференцируемым решением. В частности, для задачи A) эти условия удовлетворены, если | с | < я2. Чтобы найти численное приближение к решению задачи B), рассмотрим сначала следующий ее дискретный аналог. Пусть // = /А, А = Щп+ 1), /=0, ..., л + 1, — равномерное разбиение отрезка [0, Пив каждой точке //, / = = 1, ..., п, вторая производная и" (//) аппроксимируется второй разделенной центральной разностью: "" ('/) ***4*[и {t*x) - 2и Уй + и (/'-0Ь / = 1, ..., л. E) Если использовать в B) эту аппроксимацию, то мы найдем, что реше- решение и удовлетворяет в узловых точках tl9 ..., tn уравнениям ~ [и (/,+,) - 2и {tj) + и (tHl)] = f (th и (//)) + г (th Л), /=1Э .... л. F) Здесь г (tj, h) — ошибки, связанные с аппроксимацией E), и можно показать (У 1.1.4), что lim r (th h) = 0 в предположении, что ре- щение и достаточное число раз дифференцируемо.
'/./ Гл. 1. Примеры задач 17 Отбросим теперь в F) остаточные члены и определим аппрокси- аппроксимации хъ х2, ..., хп к значениям и в узловых точках //, потребовав, чтобы х{ удовлетворяли системе п уравнений х,-+\ — 2xj + л:/-! = Щ (th Xj), j = 1, ..., n, x0 = a, Xn+\ = P. G) Если мы введем n x п-матрицу ... 0 -12 и отображение Ф :/?"-»- У?", определенное равенством (9) /(^_1, ХП-\) I f(tn, jg-p то систему уравнений G) можно записать в компактной форме л; = 0. A0) Эта система служит примером одного особенно простого класса уравнений, который будет встречаться на протяжении всей книги. 1.1.1. Определение. Нелинейное отображение Ф: D cz Rn -> -* Z?'2 называется диагональным, если «-я компонента ф, отображе- отображения Ф для каждого / = 1, ..., п является функцией только от /-й переменной xt. Отображение F: D cz Rn -> Rn называется почти линейным, если F можно записать в виде F = А + Ф, где А — п х я-матрица, а Ф диагонально. | Мы покажем в § 4.4, что система G) имеет единственное решение, если функция / непрерывна и монотонно возрастает по у при каж- каждом фиксированном /. Например, / может быть вида / (/, у) = = a (t) + & или / (U у) = я @ + У™, где m — нечетное положи- положительное число. Более того, эти теоремы существования справедливы и для /, удовлетворяющих лишь соотношению D), при условии, что h достаточно мало. Дискретизацию того же типа можно применить и к более общим уравнениям. Рассмотрим вместо B) задачу u"=f{Uuyuf), 0<*<1, и@) = а, иA)=р. A1) Здесь надо аппроксимировать также первую производную и\ вхо- входящую в правую часть A1), и рассуждения, аналогичные предыдущим*
18 Часть I. Подготовительный материал II приводят к системе аппроксимирующих уравнений */+i — 2xi + л;/_1 = Щ (th xh ~ [xt+\ — Xf-i]), / = 1, ..., п, A2) где снова х0 = а, хп+\ = Р- Заметим, что эта система уже не явля- является почти линейной. Та же процедура может быть использована в случае общей не- неявной задачи g (t, и, и\ и") = 0, 0<<<1, u@)=a, нA) = Р; A3N, мы приходим к системе уравнений ь Ч 1Г [*/+¦—*/-il. ip- [*/+i — 2xi + */ /== 1, 2, ..., n, д;0 = а, ^n+i=P. A4) Для всех приведенных выше задач можно использовать и более общие аппроксимации производных. Например, узловые точки tj не обязательно должны быть распределены равномерно (ЗС 1.1.3); могут быть применены аппроксимации более высокого порядка. Совсем другой подход к решению двухточечных граничных за- задач дается так называемым методом стрельбы. Рассмотрим систему дифференциальных уравнений, записанную в векторной форме: и" = f (t, и, и'), 0<*<1, и@)=а, аA)=6. A5) Предположим, что для любого х ? Rn соответствующая задача Коши г" = /(/, г, г'), 0<*<1, г@) = а, г' @) = х A6) имеет единственное решение, которое мы обозначим через г (/, х). Тогда мы можем определить отображение F: Rn -> R" посредством равенства Fx = z A, х)у т. е. значение отображения F при данном х является решением соответствующей задачи Коши A6), взятым в конечной точке 1. Следовательно, если л:* — решение системы уравнений Fx = Ь, то и (t) = z (/, л;*) будет решением задачи A5). Так как вычисление значения отображения F в данной точке х требует решения задачи Коши A6), то это отображение F нельзя, вообще говоря, определить явно. На практике решение задачи Коши осуществляется с помощью пошагового численного метода получения аппроксимации z (/, х) к функции z (/, л;). Следовательно, вместо системы Fx = Ъ мы должны фактически решать близкую систему F (х) = г A, л:) = Ь. В этом случае отображение F опреде- определяется явно, хотя и сложно, посредством выбранной схемы интегри- интегрирования. Метод стрельбы с естественными видоизменениями можно также использрэдть для некоторых задач управления. Рассмотрим, напри»
/./ Гл. 1. Примеры задач 19 мер, задачу u'=f(t9u\x), 0</<1, и(О;х) = а, и(\\х) = Ь. A7) Здесь х ? Rn — «управляющий вектор», и нужно найти такой вектор х*9 что и (t, x*) является решением уравнения A7). Напри- Например, и может представлять собой вектор состояния ракеты, т. е. век- вектор положения-скорости, и задача состоит в том, чтобы так подо- подобрать параметрический вектор х, в котором представлены, скажем, профиль тяги, угол спуска и т. д., чтобы в момент t = 1 ракета на- находилась в заданной точке пространства с заданной скоростью. Как и прежде, мы можем рассмотреть отображение F: Rn -> /?Л, такое, что Fx = z A, л;), где в данном случае z является решением задачи Коши: z' = f(t% г\ х), 0</<1, z@; х) = а. Тогда решение системы Fx = Ъ будет искомым вектором управле- управления. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 1.1.1. Приведенные выше результаты о существовании и единственности для задачи B) получены Лизом [1966]. Относительно других результатов о суще- существовании и единственности решения двухточечных граничных задач см. Келлер [1968] или Бейли, Шампин и Уолтмэн [1968] и указанную там литературу. ЗС 1.1.2. Всякий раз, когда дифференциальное уравнение аппроксимируется соответствующим разностным уравнением, возникает задача оценки ошибка дискретизации. Пусть, например, и = и (t) и х\ — xj (/i), / = 1, ..., п, — соот- соответственно решения задачи B) и приближенной задачи G). Тогда ошибка дискре- дискретизация в каждой узловой точке tj равна е/ = и (tj) — х\ (h). Лиз [1966] пока- показал, что если функция / непрерывна вместе со своими производными до четверто- четвертого порядка включительно и удовлетворяет условию D), а Л достаточно мало, то эта ошибка допускает оценку max |и(*/)-*/(Л)|<сЛ", A8) j=\....,n где с — постоянная, не зависящая от Л. Следовательно, в этом случае решение дискретной задачи стремится при h -> 0 к решению непрерывной задачи со ско- скоростью, определяемой соотношением A8). Относительно других результатов об ошибке дискретизации для двухточечных граничных задач см. Хенричи [1962] и Келлер [1968]. ЗС 1.1.3. Важным свойством матрицы Лиз (8) является ее симметричность; это свойство сохраняется при надлежащем выборе аппроксимирующей системы, даже если точки подразбиения // аппроксимации для и" распределены не равномерно. Рассмотрим задачу [p(t)u'(t))'=:f(tt и), и@) = а, иA) = р, A9) где р — положительная непрерывно дифференцируемая функция на [0, 1]. Пусть ^ = *о < h < • • • < *п < tn+\ ~ 1 — произвольное подразбиение отрезка [0, 1]. Положим hi = ti.x — ti, /=0, .,,, /г, и заменим A9) аппроксимирующей
2б Часть I. Подготовительный материал 1.1 системой ~1 I г /, .. ч : t „ ^20) где /?;±(i/2) = Р U* ± -5- ^ I и *о = а> *л-Н = Р- Очевидно, если р @ = 1 и hi —h, i = 0, ..., /г, то B0) сводится к G). Легко видеть (У 1.1.5), что коэффициенты матрицы, соответствующей линейной части системы B0), симмет- симметричны; симметричность эта, однако, теряется, если уравнение B0) умножить на 2 {hi + fy_1)~1, с тем чтобы привести их к виду, получающемуся при прямой аппроксимации величины [p(t)ur(t)]r. ЗС 1.1.4. Дальнейшее обсуждение и анализ метода стрельбы можно найти в ра- работе Келлера [1968]. УПРАЖНЕНИЯ У 1.1.1. Показать, что следующие двухточечные краевые задачи имеют указан- указанные решения: (а) и" = 2 fu- i- t+ \J , и@) = и A) = 0; и (t) = [1/A + 0J + -i-f- 1. (б) и" + а2 {и'J +1=0, и @) = и A) = 0; и it) = — In {cos [a (t — l/2)]/cos (a/2)}, — я< а < я. a2 (в) «" = -i- в», и @) = 1, «A) = 2; и @ = 2/B -1). (г) н» = -i- «3 + 3«' - [3/B - 0] + -i-, «@) = 0, b(I) = I; « @ = (д) и" = — и2, и @) = 4, м A) = 1; и (t) = 4/A + tJ. У 1.1.2. Показать, что общее решение уравнения и" = е" имеет вид a (/) = In |— c2/cos2 [с (t + d)/2]| . У 1.1.3. Примените дискретизации § 1.1 к краевым задачам У 1.1.1 и У 1.1.2 и попытайтесь решить получающиеся дискретные задачи для п = 2. Сравните ваши результаты с точным У 1.1.4. Пусть функция и : [0, 1] -» R1 четырежды непрерывно дифференцируема на отрезке [0, 1J. Показать, что существует такая постоянная с, не зависящая от /, что для любого / ? @, 1) и для достаточно малых h > 0 имеет место оценка I h2 [и (t + h) — 2u (t) + U(t — h)] — и" (t) | < ch2. У 1.1.5. Показать, что матрица, соответствующая линейной части уравнений B0) из ЗС 1.1.3, симметрична.
1.2 Гл. 1. Примеры задач 21 1.2. ЭЛЛИПТИЧЕСКИЕ КРАЕВЫЕ ЗАДАЧИ Рассуждения предыдущего параграфа естественным образом распространяются на случаи краевых задач с более чем одной пе- переменной. Рассмотрим двумерный аналог двухточечной краевой задачи A.1.2), а именно задачу Дирихле: Аи = uss + ua = f (s, t, и), (s, t) ? Q, u(s, 0=9(s, 0. (s> 0€Q. A) Здесь Q — связная ограниченная открытая область на плоскости и Ф — заданная функция, определенная на границе Q области Q. Роз pi3 Рог К '"от Рп П D н00 10 Ргз Кг Ргл п ^20 '» %¦ "si' ^30 Рис. 1.1. Известно (см. ЗС 1.2.1), что если /: Q X Rl -> R1 — непрерывно дифференцируемая функция, удовлетворяющая условию fu(s, t, u)>0, V(s, 0 ей, ^е^1, B) то при весьма слабых условиях на Q и ф задача A) имеет единствен- единственное решение. Чтобы получить дискретный аналог уравнения A), подобный системе уравнений A.1.7), предположим для простоты, что область й — это единичный квадрат @,1) X @,1), на который наложена равномерная квадратная сетка, определяемая узлами: Ра = (Л, /A), h = XI(т +1), U i = 0, ..., т + 1. C) На рис. 1.1 представлен случай т = 2. В каждом внутреннем узле Pijy /, / = 1, ..., m, частные производные uss (Pij) и а^ (Pi/) аппроксимируются разделенными центральными разностями, соот- соответствующими A.1.5), т. е. uss (Pif) =- ЬГ2 [и (Л+1|/) - 2и (Pi,) + и (Л-1,/)], j а« (Лу) = Л [а (Л,ж) - 2а (Л7) + а (Л,/-1I. ^ ' D)
Часть /. Подготовительный материал 1.2 Если положить xij = и (Ptj)y i, j = О, ..., m -f 1, и заменить uss и att в A) их аппроксимациями D), то мы получим следующий дискретный аналог задачи A): Axii — A:t--if/ — Xi+\tJ — xij+\ — xlfJ-i + h2f (ih, jh, xi}) = 0, i, / = 1, ..., m. E) Предполагается, что значения хц в граничных узлах задаются крае- краевыми условиями, т. е. Xjo = Ф (Я/о), x,.m+i = Ф (ЯАт+1) F) при / = 0, ..., т + 1. Следовательно, E) является системой из п = = т2 уравнений относительно я неизвестных хц, i% / = 1, ..., т. Чтобы записать систему E) в матричных обозначениях, устано- установим соответствие между наборами неизвестных хц и векторами х ? ? /?л следующим образом: Л| = Лц, . . . , ХП1 == Хт\у Хт-\-\ == #12» • • • > #/i Хтту и рассмотрим блочно тридиагональную матрицу В —, А = 0 0 В G) где / — единичная т X /л-матрица, а В — такая матрица размера m X m: 4 -1 ... 0 ON 4 ... 0 0 | (8) 0 0 ... 4—1 0 0 ... -1 4/ Тогда систему E) можно записать в виде Ах + Фх = 6, (9) где /-я компонента ф, нелинейного оператора Ф определяется ра- равенством <р, (х) = Щ (kh, IK xt)% i=lm + ft, A0) и & = Flf ,,., bn)T — вектор-столбец, содержащий граничные зна- значения. Заметим, что, как и для соответствующей двухточечной крае- краевой задачи, матрица А (см. G), (8)) симметрична и что система почти линейна в смысле определения 1.1.1. В § 4.4 мы покажем, что при выполнении условия B) система E) имеет единственное решение,
12 Гл. 1. Примеры задач 23 ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 1.2.1. Относительно результатов о существовании и единственности решений для нелинейных эллиптических краевых задач см., например, Ладыженская и Уральцева [1964] или Берс, Джон и Шехтер [1964]. ЗС 1.2.2. Обзор, посвященный задаче оценки ошибок дискретизации для ли- линейных эллиптических уравнений, и, в частности, классическую теорему Гершгорина можно найти у Вазова и Форсайта [1960]. Что касается более совре- современных результатов о линейных задачах, см., например, Хаббард [1966] и указан- указанную там литературу. Ошибка дискретизации для нелинейного уравнения A) и его дискретного ана- аналога E) изучалась Берсом [1953], который показал, что при условии B) и неко- некоторых предположениях о гладкости решения и уравнения A) решение системы E) стремится к и при h -> 0. ЗС 1.2.3. Описанный в тексте тип аппроксимации легко распространить, по край- крайней мере формально, на случай более общих уравнений. Рассмотрим, например, общее квазилинейное уравнение auss+2bust + cutt = f(s, U и, us, щ), (И) где коэффициенты а, Ьи с могут быть функциями от s, t> и, us и щ> но не от вторых производных, причем для всех значений аргументов этих функций выполняются условия эллиптичности а>0, с>0, ас — Ь2> 0. Замечательным примером уравнения (И) является уравнение Плато (см. § 1.5 и и ЗС 1.5.2) A + u2t) uss - 2usutust + A + u2s) utt = 0. A2) Произведем дискретизацию уравнения A1), аналогичную дискретизации урав- уравнения A). Снова для простоты предположим, что область Q — это квадрат @,1) X X @,1) и и совпадает на границе Q с заданной функцией ф. Построим на Q та- такую же равномерную сетку, как и прежде, и аппроксимируем первые производ- производные ш и и.; посредством соотношений us (Рч) = Bft)-1 [и (Pi+lJ) - и (?,_,,,)]. Щ (Р,-,-) = &СГ\и (Я.-./+1)- « (Л-./-1)]. вторые производные uss и utt — посредством соотношений D) и ust — посредством соотношения ии(рц) = Bft2) [и (Р,+1(Ж> - и (Р(+1,/_1) - и(Р,_,,/+1) + и (Л_1,/_))]- Снова, полагая хц — и{Рф, получаем систему уравнений [ аЧ [ cif [xw - 2xtj = Щ (iht \K xip Bh)-{ [xt+y-x^], BНГ1 [xitJ+l-xliM])t A3) где /, j = \t t m значения хи в узлах на границе снова определяются равенст- вами F), а . ati = a{ih% jht xtJ9 Bhrl[xi+l и аиа-яогично определяются Ъц и с^
24 Часть L Подготовительный материал 1.3 Важно заметить, однако, что дискретизация A3) может оказаться совершенно неудовлетворительной, если абсолютная величина b не является достаточно малой по сравнению с а и с. Эта проблема, возникающая уже для линейных уравнений вида A1), где а, Ь, с и f являются функциями только от s и /, привела Брэмбла и Хаббарда [1962] к построению значительно более сложных дискретизаций, для которых они смогли доказать, что решение дискретной задачи стремится к ре- решению непрерывной. Их работа дополняет более раннюю работу Моцкина и Вазо- ва [1953], где было доказано, что такие «хорошие» дискретизации должны сущест- существовать. Дискретизация Брэмбла и Хаббарда была распространена на случай уравнений вида A1) Фрэнком [1967], а также Степлмэном [1969], который указал на одну неточность в работе Фрэнка. Оба этих автора применяли свои результаты, в частности, к уравнению Плато. О близких результатах см. Мак-Аллистер [1966а] 1). 1.3. ИНТЕГРАЛЬНЫЕ УРАВНЕНИЯ Из предыдущих двух параграфов должно быть ясно, что дискре- дискретизация будет приводить к системам п уравнений с п неизвестными не только в случае дифференциальных уравнений, но также и в слу- случае других типов операторных уравнений, таких, как интегральные или интегро-дифференциальные уравнения. Мы рассмотрим здесь лишь интегральные уравнения вида 1 и (s) = ф (s) + J К (s, /, и (s), и (t)).dt, A) о где \|) и К — заданные функции. Аналогичным образом можно рас- рассмотреть более общие уравнения, содержащие, например, произ- производные от и, или задачи более высокой размерности с неизвестными функциями от двух или большего числа переменных. Уравнения вида A) возникают во многих ситуациях. Например, исследуя вопрос о переносе тепла излучением, Амбарцумян и Чанд- расекхар пришли к так называемому Я-уравнению О где ф — известная функция. Чтобы дискретизировать A), выберем прежде всего квадратур- квадратурную формулу Vif /) '. C) о /=1 где 0 < /х < t2 < • • • < tn < 1 — узлы формулы, Yi, • •., уп — веса иг — остаточный член или ошибка формулы. Применяя эту квад- квадратурную формулу к интегралу в A), отбрасывая остаточный член и полагая xt = и (tt), i = 1, ..., п, получаем искомый дискретный 1} Подробное изложение разностных методов решения дифференциальных уравнений в частных производных, в том числе и уравнений эллиптического типа, читатель может найти в монографии А. А. Самарского [1971]* (см. список литературы, добавленной при переводе). —Прим. ред.
Гл. 1. Примеры задач 25 аналог п Ъ = Ф ft) + 2 Y/tf ft> '/. */> */). / = 1, - - -, л, D) который является системой п уравнений с п неизвестными хъ Частным, но важным случаем уравнения A) служит уравнение Урысона u(s)=4>(s) + J/t(s, U u(t))dty E) о где и (s) не появляется явно под знаком интеграла. Здесь дискрет- дискретным аналогом D) будет просто п Xi = bt + % yjKij (*/), i = 1, ..., nf F) где положено bi = }p(ti) и Kij(t) = /С ft, //, 0- Важным частным случаем уравнения E) является в свою очередь уравнение Гаммер- штейна 1 a(s) = 4>(s) + Jtf(s, 0/ft u(f))dt, G) о которое часто возникает в связи с краевыми задачами для диффе- дифференциальных уравнений. Действительно, с помощью функции Гри- Грина s(l — t) при s < tf i (8) для однородной задачи ^@ =0, и@) = иA) = 0 двухточечная граничная задача u"{t) = f(U и), а@) = а, аA) = Р (9) § 1.1 может быть преобразована к эквивалентному виду G) с -ф (s) = = а + (Р — о) s. В общем случае дискретным аналогом уравнения G), соответст- соответствующим D), служит система / где bij = H(tiJ tj). Ее можно записать в матричной форме так: х = 6 + БФл:, гДе х ? Rn, В есть л X n-матрица с элементами ^ и Yi/ft, ^i)
26 Часть /. Подготовительный материал 1.3 В том частном случае, когда Н задано формулой (8) и /у выбраны как // = /А, / = 1, ..., /г, А = (п + I), а коэффициентами квадра- квадратурной формулы являются Y/ = Л, / = 1, ..., я, мы имеем -/АA — /А), *</, . . ^ и ф,: = А/ (/А, л:,), / = 1, ..., п. Следовательно, в этом случае систе- система уравнений A0) принимает вид ^ = а + /(Р —а)А—Аа2] /A —/А)/(/А, *,) — - A2 JS * (I - /А) / (/А, ху), i = 1, ..., п. A2) Легко видеть (У 1.3.2), что В = —АЛ, где А — матрица, опреде- определенная формулой A.1.8), и что система A2) эквивалентна системе A.1.7). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 1.3.1. Дальнейшее обсуждение нелинейных уравнений можно найти в сбор- сборнике под редакцией Анселоне [1964] и в книге Красносельского [1956]. В частнос- частности, в одной из статей сборника Мур [1964] дал численное решение Я-уравнения B). ЗС 1.3.2. Заметим, что система F) — частный случай системы общего вида п /¦=1 ; ч где каждая из функций ft представляет собой линейную комбинацию нелинейных функций fr от одной переменной. К такого вида системам относятся многие нели- нелинейные системы, возникающие в результате дискретизации непрерывных задач. Это легко видеть, в частности, для уравнений A.1.7) и A.2.5). Далее, если каждая из функций /(у — многочлен, то система A3) является в свою очередь частным случаем общей полиномиальной системы уравнений УПРАЖНЕНИЯ У 1.3.1. Используя какую-нибудь «-точечную квадратурную формулу C) с точ- точками 0<*1</2< ••• <*л<1, дать дискретный аналог Я-уравнения B). Показать, что получающаяся система уравнений имеет решение //) П Vj + «/П A + «АО, < = 1 «. где а1э ..., ап — неотрицательные решения уравнения 1 = 22 [7УФ(WO-«^И /=1 Чандрасекхар [1950]).
Гл. L Примеры задач 27 У 1.3.2. Пусть матрица А определена формулой A.1.8) и матрица В — формулой A1). Показать, что В = —hA~l и что A.1.7) эквивалентно A2). 1.4. ЗАДАЧИ МИНИМИЗАЦИИ Во многих типах приложений требуется найти точку х*, назы- называемую точкой минимума или минимизатором, которая миними- минимизирует данный функционал g: Rn -> R1, т. е. для которой g (х*) = = min [g (х) I х ? Rn). Если функционал g дифференцируем, то, как известно1 из дифференциального исчисления (см. утверждение 4.1.3 ниже), все частные производные от g в точке я* должны обра- обращаться в нуль, т. е. х* является решением системы уравнений Шшт-?-8(х) = 09 /=1, .... /г. A) Следовательно, задача отыскания минимизатора естественным обра- образом приводит к решению системы уравнений (более подробное обсуж- обсуждение вопроса см. в §4.1; в частности, там приводится теорема 4.1.4, дающая достаточные условия того, что решение системы A) дейст- действительно является минимизатором). Одной из наиболее распространенных задач минимизации явля- является задача среднеквадратичной аппроксимации. Типичный пример, когда возникает эта задача,— процесс подбора параметров, опре- определяющих функциональную зависимость, по экспериментальным данным. Пусть, например, некоторая величина у удовлетворяет соотношению вида у (t) = f (/, х), где / — известная функция от t и х, t — независимая переменная («время»), а х — неизвестный n-мерный вектор параметров. Для ряда значений /, скажем tl9..., tm, сделаны измерения у (tt)9 и нужно оценить вектор параметров х. Если бы измерения были точными, то этот вектор удовлетворял бы системе т уравнений с п неизвестными yi = / (ti9 x), i = 1, ..., т. Однако, вообще говоря, значения yt являются неточными из-за ошибок измерения. Поэтому стандартная процедура состоит в том, что производят число измерений, большее, чем число неизвестных, так что т > п, и ищут такое х, которое минимизирует сумму квад- квадратов невязок [у( — / (/,-, х)]; таким образом, минимизируют функ- функцию g: Rn -+• R1, определенную равенством В этом случае уравнения A) принимают вид так называемые нормальные уравнения метода наименьших квадратов.
28 Часть I. Подготовительный материал 1.4 Другой источник задач минимизации — вариационное исчис^ ление. В общем виде вариационная задача состоит в следующем: минимизировать данный функционал У, определенный на некотором (бесконечномерном) функциональном пространстве X, на заданном подмножестве этого пространства. Здесь наши интересы сосредото- сосредоточены на конечномерных задачах минимизации, аппроксимирующих бесконечномерную задачу. Начнем с рассмотрения следующей, более конкретной задачи. Пусть С1 [0, 1] — линейное пространство действительных непре- непрерывно дифференцируемых функций на отрезке [0,1]. Определим отображение J: С1 [0,1] -> R1 равенством Л/ = {/E, u(s)t u'(s))dst B) о где /: [0, 1] X R2 -> R1 — данная непрерывная функция. Кроме того, пусть для фиксированных аир S-^СЧО, 1]|и@) = а, иA) = Р}. C) Вариационная задача состоит в следующем: найти и* ? 5, такое, что Ju* = inf Ju. D) Известно, что при некоторых ограничениях, налагаемых на /, эта задача имеет единственное решение (см. ЗС 1.4.3). В вариационном исчислении устанавливается (см. ЗС 1.4.3), что если функция / достаточное число раз дифференцируема, то ре- решение задачи минимизации D) должно удовлетворять так называе- называемому уравнению Эйлера с граничными условиями и @) = а, и A) = р. Это двухточечная краевая задача относительно и, и мы могли бы попытаться получить аппроксимацию к и, действуя, как в § 1.1. Однако нет никаких оснований отказываться от того, чтобы непосредственно работать с задачей минимизации, и переходить к ее уравнению Эйлера. Рас- Рассмотрим различные способы приближенной замены данной вариа- вариационной задачи конечномерными задачами минимизации. Одним из естественных способов такой замены служит метод Ритца. Пусть иъ ..., ип — данные функции из С1 [0, 1], такие, что ut @) = ut A) = 0, i = 1, ..., п\ определим n-мерное подпро^ странство пространства С1 [0, 1] формулой п п > t=l * '* ' ' т. е. /^ — совокупность всех линейных комбинаций функций tfi, ..., ип. Для простоты предположим, что функции щ линейно
14 Гл. 1. Примеры задач 29 п независимы (т. е. если 2 сгщ (s) = 0 для всех s ? [О, 1], то с,= ^0, i = 1, ..., п). Далее введем множество Sn = {v?C1[0:\]\v = u + ^ u?Ln, <p(s) = a + s(p-a), s€[0, 1]}. G) Любая функция v ? Srt удовлетворяет граничным условиям у @) = = a, v A) = р. Наконец, рассмотрим фунционал ; *А+ф), (8) где функционал У определен формулой B), и следующую задачу минимизации: найти х* ? Rn, такое, что g(x^) = inf g(x). (9) Ясно, что задача (9) эквивалентна задаче отыскания элемента Un € Sn, такого, что Jun = inf [Ju \ и g Sn). Идея, конечно, состоит в том, чтобы при п ->¦ оо функции [иъ ..., ип, ...} в некото- некотором смысле заполняли С1 [0,1] и и*п стремилось к решению «* за- задачи D) (см. ЗС 1.4.4). Вычисление g в какой-то точке х ? Rn требует проведения ин- интегрирования, указанного в (8) и B). На практике это интегрирова- интегрирование будет, по всей вероятности, осуществляться только прибли- приближенно, посредством квадратурной формулы, и в этом случае удобно переопределить функционал g, с тем чтобы учесть эту аппроксима- аппроксимацию. Пусть sly ..., sm суть М точек отрезка [0, 1] и * ,! А! 1?E)&*2 wfo) (Ю) о /=1 — квадратурная формула. Определим аппроксимацию Jm к J по- посредством формулы Jm: С1 [0, 1] -+ R\ JMu^fi yff (sh и (sy), и' {$•)) A1) и заменим функционал (8) в задаче (9) новым функционалом g: Rn -> R\ g (x) = JM (il хЛ + Ф) . A2) Эту процедуру будем называть дискретным методом Ритца. Заме- Заметим, что для функционала A2) система A) принимает вид м 1=1, .... n, A3) Л конечно, -ф (s) = 2 ^^ E) + Ф (s). l
30 Часть I. Подготовительный материал 1.4 Другой способ замены вариационной задачи на конечномерную задачу аналогичен изложенному ранее способу дискретизации диф- дифференциальных уравнений. А именно, мы можем аппроксимиро- аппроксимировать функционал J в B), заменив интегрирование на численную квадратуру и производные от и — на разностные отношения. Пусть </ = /А. А = \/(п + 1), / = 0, ..., п+ 1, A4) — равномерное подразбиение отрезка [0, 1]. Определим аппрокси- аппроксимацию функционала J равенством т. е. интеграл от / (s, и (s), и! (s)) по отрезку [ti9 //+il аппроксимиру- аппроксимируется умноженным на h значением подинтегральной функции, взятым в средней точке. Сделаем теперь дальнейшее приближение, положив + 4 h) - "Г Iй Л) + и (ML "' ('/ + 4" ) =5= А" [м (//+i)-а(</)]. A6) Положим ху = a (tj)y j = 1, ..., n, x0 = а, xrt+i = Р и подставим A6) в A5). При этом получим аппроксимирующий функционал g: Rn-+R1, задаваемый равенством A7) /=о Более общо, мы можем использовать односторонние аппроксима- аппроксимации производных или аппроксимации высшего порядка, а также самые различные квадратурные формулы. Вследствие этого удобно рассмотреть более общий функционал g, определенный соотноше- соотношением М I п-\-\ п-\-1 где s/ — заданные точки на [0,11. Заметим, что A7) является частным случаем A8), где /. 1 \ 1 М = /г, S/ = I / + — J A» Y/ ^ Л» а/7 = а/-/+1 = ~ > и а/й = Р/* = 0 в остальных случаях. Другим частным случаем A8) является функционал g (х) = Yo^ @. *о> Л [Хх - дсо]) + yn+if A, *п+1, A"' [*n+i - ДС„]) + V// (/А- */> BА)-1 lx,+i - */-il), A9)
14 Гл. 1. Примеры задач который получается путем аппроксимации производных централь- центральными разностными отношениями во внутренних узлах и односторон- односторонними в концевых. Отметим, что для функционала A8) уравнения A) принимают ВИД м г 1 Y/\-§г*и + -§rh\ = о, ;=1, ...,Л, B0) где аргументы производных dfldu и df/ди' такие же, как и аргумен- аргументы функции / в A8). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 1.4.1. Дальнейшее обсуждение нелинейных задач метода наименьших квад- квадратов см., например, в книге Дрейпера и Смита [1966]. ЗС 1.4.2. Нелинейная задача наименьших квадратов является частным случаем более общей задачи минимизации функционала g: Rn -> R1, определенного равен- равенством B1) равномерной (или чебышёвской) аппроксимации. О результатах, относящихся к этой задаче, специальное рассмотрение которой выходит за рамки этой книги, см., на- например, Чени [1966] и Мейнардус [1964]. ЗС 1.4.3. Основные идеи и результаты вариационного исчисления представлены у Блисса [1925] или Ахиезера [1955]. Многие приложения описаны, например, у Вейнстока [1952]. ЗС 1.4.4. Относительно последних интересных исследований по методу Ритца, в которых в качестве базисных функций используются так называемые «сплайн- аппроксимации», см. Сиарле, Шульц и Варга [1967] и приводимую там литературу. Здесь имеются результаты о сходимости приближенных решений к точному реше- решению, когда число базисных функций стремится к бесконечности. О более ранних исследованиях по методу Ритца см., например, Михлин [1957]. ЗС 1.4.5. Численные результаты, соответствующие некоторым определенным аппроксимациям вида A8), получены Алленом [1966]. УПРАЖНЕНИЯ 1 у 1.4.1. Для трех вариационных задач Ju= \ / (s, «(s), и'(s)) ds = min, где (а) f(s, и, tt') = (l+«/O2; (б) /(s, и, и') = (и'J0 + "'J; (в) /(s, и, а') = «[1+(и'J]1/й1 где F: Rn -» Rm и ср: Rm -* #*• Для задачи наименьших квадратов, рассмотрен- т т ной в тексте, Fx = (y1 — f (tv х), . . . , ут — /(tm х)) иф(г)= 2 *?• ПРИ выборе ф (г) = max | Z{ I функционал B1) приводит к более трудной задаче
32 Часть I. Подготовительный материал 1.5 найти общие дважды непрерывно дифференцируемые решения их уравнения Эй- Эйлера E). У 1.4.2. Для вариационной задачи из У 1.4.1 (б) рассмотреть краевые условия и @) = 0 и и A) == 1/4 и показать, что и (s) = — «является единственным ре- решением уравнения Эйлера, удовлетворяющим этим краевым условиям, но Ju > > Jv для кусочно линейной функции v{s)== 3 0 при 0 < s < —- ¦ — при —, У 1.4.3. Для многочленов по s в качестве базисных функций и правила трапеций в качестве квадратурной формулы построить метод Ритца A2) для задачи У 1.4.1 (в). Решить систему A3) для малых п и М и сравнить полученное решение с решением непрерывной задачи. 1.5. ДВУМЕРНЫЕ ВАРИАЦИОННЫЕ ЗАДАЧИ В предыдущем параграфе мы рассмотрели различные дискрет- дискретные аналоги одномерных вариационных задач. Эти рассмотрения естественным образом распространяются на случай задач высших размерностей. Для простоты мы ограничимся случаем двух изме- измерений. Пусть, как и в § 1.2, G — односвязное ограниченное открытое множество в R2 с границей Q и замыканием Q, и пусть С1 (Q) обозна- обозначает класс функций, непрерывно дифференцируемых на Q и непре- непрерывных на Q. Определим функционал J: С1 (Q) -> Я1 равенством /(s, t, u(s, 0, Ms> 0, Ms> t))dsdt, (^ Q где /: Q X R3 -> R1 — некоторая заданная непрерывная функция. Наконец, введем множество S={aeC1^)|«(s, 0 = <P(s, 0, V(s, 0 CO}, B) где ер: Q -> R1 — также заданная непрерывная функция. Как и в § 1.4, поставим вариационную задачу: найти и* ? 5, такое, что Ju* = inf Ju. C) Известно (см. ЗС 1.5.1), что при довольно общих предположениях об /, ф и Q эта задача имеет единственное решение. Для простоты мы ограничимся в дальнейшем задачами вида 0. D) где подинтегральное выражение зависит только от us и ut. Приме- Примером конкретной задачи этого типа является задача о минимальной
1.5 Гл. 1. Примеры задач 33 поверхности, или задана Плато, в которой, если интерпретировать отображение <р: U -> R1 как представляющее некоторую кривую в /?3, нужно найти поверхность минимальной площади, проходя- проходящую через ф. Это приводит к функционалу J вида J J и\ (s, 0 + и\ (s, *)]''¦&#. E) Q Другой пример функционала вида D) возникает в магнитостатике (см. ЗС 1.5.3). Здесь J определяется формулой % F) Ju = J J с некоторыми постоянными с > d > 0. Описанные в § 1.4 метод Ритца и дискретный метод Ритца для одномерной задачи распространяются на случай высших размернос- размерностей совершенно естественным образом (см. ЗС 1.5.4), и мы рассмот- рассмотрим здесь только конечноразностный подход. Предположим для простоты, что, как и в § 1.2, Q — это единич- единичный квадрат @,1) х @,1), и снова наложим на него квадратную сет- сетку с шагом Л, как показано на рис. 1.1 для случая h= 1/3. Обозначим через Рц узловые точки (iTi, jh), t, / =0, ..., m -f 1, h = l/(m + 1) и через Qij квадрат сетки с вершинами P;_it/_i, Л\/-ь Л-i,/, Рц. По-видимому, самая простая аппроксимация интеграла D) получится, если интеграл по квадрату пц приближенно представить как площадь h2 этого квадрата, умноженную на значение подынте- подынтегрального выражения в некоторой точке Qij ? Qi]t т. е. m+l Ju^h*2j(u8(Qtj)9 ut(Q4)). G) Нам нужно теперь выбрать Qi7 и конечноразностные замены для производных. Рассмотрим сначала выбор Q,7 =Рц и обратные раз- разностные отношения ностные отношения где, как и в § 1.2, мы полагаем хц =и (Pi,). Тогда аппроксимация G) принимает вид Ju = g (x) = /i2 ? f (hTl [xij —¦ Xi-ij], /f1 [Xij — jc*fy—i]), (8) и вариационная задача B) — D) заменяется задачей минимизаций Функционала g: R^-^R1, определенного формулой (8). Здесь пред- предполагается, что значения xOth xm+lh xit0 и xiitn+u j = 0, ..., m + r l, известны из граничных условий. гфк. Опгсга. В
Часть I. подготовительный материал !.$ Мы могли бы, конечно, получить аналогичную аппроксимацию Ju === g (х) ss Л2 2 / (Л" [*ц-1,/ — -%], ti~l [Xit!+\ — Xij]), (9) беря в G) в качестве Qy точку Pf_it/_i и заменяя производные прямыми разностными отношениями. Обе аппроксимации (8) и (9) носят несколько несимметричный характер. Один из простейших путей получить более симметричную Ру апроксимацию состоит в том, чтобы взять среднее между (8) и (9), т. е. если функцио- функционалы gB (8) и (9) обозначить соответственно через gB и gF, то новая аппроксимация определяется равенством Ju = g (х) в ±- [gF (х) + gB (*)]. (Ю) Эта аппроксимация имеет также естествен- естественную интерпретацию в терминах интегри- D 0 " рования по треугольникам, а не по квад- НисЛ*Л ратам(см. ЗС 1.5.5). Возможно, более естественная конструкция симметричной аппроксимации осуществляется следующим образом. Пусть Qfy- — центр квадрата Q*/, как показано на рис. 1.2. Чтобы аппроксимиро- аппроксимировать производные us и щ в Q/, в терминах Ры, возьмем средние от разностных отношений вдоль горизонтальных и вертикальных сто- сторон квадрата uih т. е. [Xij — Xij—[ + Xi—\tj — AT;—i,/—i j = Cij (X)y где снова хы =и (Рм)- Тогда G) принимает вид m-fl О" (х) ^ /l2 2 f (fej • (я), С*'/ W)« A1) Для анализа функционалов (8) — A1) снова удобно установить соответствие между неизвестными xq% i, j = 1, ..., m, и компо- компонентами xly ..., хп вектора в Rn и обозначить граничные значения xoj, xm+\If xfto, xItm+\ через v\k, k = 1, ..., N = 4 (m + 1). Ясно, что при подходящем выборе (см. У 1.5.1) постоянных Af, yt, at/, Pi/i v>ij и pi/ каждый из функционалов (8) ^-A1) может быть за- записан в общем виде М / п N п ЛГ \ ?(*)=]? Y// 21 «^/ + 2 а^/П/, 2 М/ + 2 РоЛ/ . A2)
/5 Гл- 1- Примеры задач 35 В § 4.4 мы дадим условия на константы в A2) и на /, которые обеспе- обеспечивают существование единственного минимизатора для A2). Эти условия непосредственно применимы к функционалам частного ви- вида (g) — A1). Кроме того, они позволяют рассматривать более об- общие области и дискретизации. Мы завершим этот раздел рассмотрением дискретизации, кото- которую нельзя представить в виде A2). Заметим прежде всего, что две типичные задачи E) и F) могут быть записаны в следующем виде: Ju - J j ф (и\ (s, 0 + A (s, 0) dsdt, A3) где отображение \|э: R1 ->• R1 задается формулой 4@ A4) для E) и формулой ф (*) = / — (с — d) In (с +1), c> d > 0 A5) для F). Снова с центром квадрата Q*/ в качестве точки Qtj (рис. 1.2) мы теперь аппроксимируем щ и щ одновременно посредством соот- соотношения ul (Qij) + u2t (Q4) ^ хц (x) в BЛ2)-1 ftxtt - xMtfJ + (xt, - xi^x)% + + (XitM - *,-l,/-lJ + {XMtJ ~ Xi^j-0% A6) Тогда дискретной аппроксимацией задачи A3) будет m+l 2 х)). A7) Она не имеет вида A2). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 1.5.1. Превосходное обсуждение теорем существования и единственности для вариационных задач, рассмотренных в этом параграфе, дано Ладыженской и Уральцевой [1964]. Обзор классических результатов можно найти у Радо [1951]. ЗС 1.5.2. Как и в случае одномерной задачи § 1.4, с задачей A) — C) связано уравнение Эйлера fPPuss + 4p<,ust + fqQ4 + fPr»s + fqrut + fn + frt - fr = 0, A8) где / = / (s, t, r, /?, q) и производные в A8) являются функциями от s, /, и, us и Щ\ уравнение A8) является частным случаем общего квазилинейного эллипти- эллиптического уравнения A.2.11). Заметим, что условия эллиптичности в этом случае будут таковы: а это показывает, что при любых фиксированных s, /иг функция / (s, t, rt •, •) строго выпукла (см. § 3.4). Предположим теперь, что / имеет вид /-/(Г, Р, 0 = ~(pa+?a)
36 Часть /. Подготовительный материал 1.5 Тогда A8) сводится к слабо нелинейному уравнению A.2.1): Аи = а (и). В этом случае многие из дискретизаций этого параграфа сводятся к дискретизациям из § 1.2 (см. У 1.5.3). С другой стороны, рассмотрим класс функционалов, задаваемых формулой A3), для которых / = /(р. Я) = У(Р2 + Я2). B0) Здесь уравнение Эйлера имеет вид Щ"и\ + 1|>'] uss + Щ"иг + ф'] uti + Wusutust = 0, B1) где функции i|/ и \|)" берутся, конечно, от и\ + u2t. Уравнение B1) можно также записать в несколько более удобной дивергентной форме: ~М') + ~ Ддя задачи о минимальной поверхности мы имеем -ф (t) = A + t)l/\ так что B1) принимает вид ~ [A + u2s) uss + A + и\) ип - 2usutust\ A + и\ + и]Г%1* = 0, что эквивалентно уравнению Плато A.2.12). В случае когда / имеет частный вид B0), условия эллиптичности A9) запишут- ся так: г|/ @ > 0, г|/ @ + Щ" @ > 0, V t ? [0, оо]. B2) Эти величины являются собственными значениями матрицы Iqp fqq I Для функции i|), определяемой формулой A5), г|/ @ = (d + t) (с + t)-{, г|)" @ = (с - d) (с + i)~\ и так как с > d, то условие B2) выполнено. Аналогично для задачи о минимальной поверхности мы имеем г]) (/) = A + /I/а, так что 2 4 и снова B2) выполнено. ЗС 1.5.3. Численное решение задачи F) с исполь- использованием «нелинейной дискретизации» A7) было не- недавно исследовано Конкусом [1967а]. ЗС 1.5.4. Хотя формально метод Ритца распро- распространяется на двумерные вариационные задачи и за- задачи более высокой размерности, здесь имеется серьезная практическая трудность, состоящая в по- построении подходящих базисных функций для общих областей. Относительно некоторых последних ре- результатов, касающихся получения таких базисных функций посредством эрмитовой интерполяции с двумя переменными сплайн-интерполяции, см. Биркгоф, Шульц и Варга [1968]. ЗС 1.5,5. Аппроксимация (8) исследовалась Шехтером [1962], а аппроксимация A0) была использована для численных расчетов Гринспэном [ 19656]. Однако Грин- спэн выводил A0) несколько иным способом. А именно, в обозначениях текста пусть Тц и Stj — прямоугольные треугольники, на которые разбивается квад- Рис.1.3.
Гл. 1. Примеры задач 37 рат &•-> как показано на рис. 1.3, и пусть аппроксимацией интеграла по Q^. слу- служит следующая величина: значение подинтегрального выражения в точке Р[р умно- умноженное на -о-^2> плюс значение подинтегрального выражения в точке PL__Xj_x, умноженное на -г- h2. Далее, производные в точках P(J. и Pi_lj_l аппроксимиру- аппроксимируются соответственно обратным и прямым разностными отношениями. Получаю- Получающаяся аппроксимация J совпадает с A0). ЗС 1.6.6. Для более общей задачи A) разностные аппроксимации (8), (9) и A1) естественным образом переходят соответственно в Ju^h*^ f(Pip xiJ9 Н-1[хч-хМв,], ^%-**i7*iD. \/1 / — хф /Г1 cif(x)), где УПРАЖНЕНИЯ У 1.5.1. Найти значения yt, aip aip $ip $?. и М, при которых A2) сводится соответственно к (8), (9), A0) и A1). У 1.5.2. Пусть функция /: R2 -> R1 непрерывно дифференцируема. Написать так называемые градиентные уравнения 8(х) 0 U /1 oxif для каждой из функций (8) —A0) и A7). Показать, что в частном случае: f (Р> Я) = — (р2 + <72)» все эти четыре системы сводятся к системе Ju±h? Ju±h* m m+1 J. atj{x f(Pir -4 xip h (*ц(х) - xitHl =0, m. 1.5.3. Написать градиентные уравнения для A1) и показать, что для / (р, q) 3 -5- (/О2 + <72) эти уравнения сводятся к 1.5.4. Рассмотрим функционал 8 (X) = /I2 2 ! который получается аппроксимацией us (Рц) и щ (Рц) с помощью центральных Разностей. Написать градиентные уравнения и показать, что для f(p, а) = — X у |^ + Я2) получающаяся система не эквивалентна системе, приведенной в
Глава 2 ЛИНЕЙНАЯ АЛГЕБРА 2.1. ОБЗОР ОСНОВНЫХ РЕЗУЛЬТАТОВ ТЕОРИИ МАТРИЦ В этом параграфе мы напомним без доказательств ряд результа- результатов линейной алгебры, предполагающихся известными. Другие более специальные сведения, приводятся в остальных параграфах настоящей главы. Как и ранее, через Rn будет обозначаться действительное п- мерное линейное пространство векторов-столбцов с компонентами xv х2, ..., хЛ% а через С1 — пространство комплексных векторов- столбцов. Для х ? Rn через хт обозначается транспонированный к х вектор, а для х ? Сп через хи сопряженный транспонирован- транспонированный вектор. Следовательно, хт и хн являются векторами-строками. Действительная m х n-матрица А = (ац) определяет линейное отображение из ^ в /Г, и . запись A?L(Rn, Rm) будет озна- означать, либо что Л — матрица, либо что А — линейный оператор, в за- зависимости от контекста. Другими словами, мы не будем, вообще говоря, делать различия между линейными оператором и его матричным представлением в системе единичных координатных век- векторов е1 = A, 0, ..., 0)т, ..., еп = @, ..., О, 1)Т пространства Rn. Аналогично линейное пространство комплексных пг х д-матриц мы будем обозначать через L (С", Ст). В случае m = п мы исполь- используем сокращение L (Rn) вместо L (Rn, Rn) и L (Сп) вместо L (С'\ Сп). Предполагая, что Rn естественным образом вложено в Сп9 мы получаем для матриц включение L (Rn9 R) си L (Cny Cw), и то же самое включение верно для линейных операторов. Если A?L(Rn, Rm) и Ь ? Rm, то отображение Я: #2->/Г, определенное соотношением Нх = Ах -f b, x? Rn, называется аф- аффинным отображением из Rn в Rm. Матрица А ? L (Сп) называется обратимой или невырожден- невырожденной, если она определяет взаимно однозначное отображение; мат- матрица, обратная к Л, обозначается через Л. Через Лт и Лн мы бу- будем обозначать соответственно транспонированную и сопряженную транспонированную по отношению к Л матрицы. Комплексное число К называется собственным значением (собг ственным числом) матрицы Л ? L (С1), если уравнение Ах = Кх A)
2.1 Гл. 2. Линейная алгебра 39 имеет отличное от нуля решение х% называемое собственным векто- вектором матрицы Л, соответствующим собственному значению X. По- Поскольку матрица В вырождена тогда и только тогда, когда ее опре- определитель (let В равен нулю, то собственные значения матрицы Л — это в точности п (с учетом кратности) корней характеристического уравнения detD — Х/) = 0, B) где / — единичная п х га-матрица. Определитель является непрерывной функцией элементов мат- матрицы, и то же самое справедливо для собственных значений матри- матрицы, но собственные векторы, вообще говоря, не зависят непрерывно от элементов матрицы (см. ЗС 2.1.2 и У 2.1.7). Для всякого многочлена р (t) = а0 + axt + • • • + я,,/" соответст- соответствующий ему матричный многочлен р(А) ?\L(Cn), A?L(Cn) опреде- определяется формулой т + ... +атА Непосредственно из A) следует, что любой собственный вектор матрицы А является также собственным вектором матрицы р (Л), причем собственные значения матрицы р (А) равны р (^), i = = 1, ..., /г, где \ — собственные значения матрицы Л. Точно так же если матрица А обратима, то собственные значения матрицы Л равны аГ\ i = 1, ..., п. Если А — действительная симметричная матрица (А = Лт), то все ее собственные значения действительны и выполняется нера- неравенство ХгхТх < хтАх < ЯПЛ» V.xgfl'1, C) где Хх < Х2 <; ... ^ Кп — собственные значения матрицы Л. Более общим образом, если Л —эрмитова матрица (Л =ЛН), то нера- неравенство C) выполняется для всех х ? С1 с заменой хТ на хн. Если Л ? L (Rn) удовлетворяет условию / Vx?Rn, D) то матрица Л называется положительно полу определенной. Матрица А называется положительно определенной, если для х Ф 0 в D) имеет место строгое неравенство. Если Л — положительно (полу) °пределенная симметричная матрица, то все ее собственные значе- значения положительны (неотрицательны). Отметим, что если матрица ^ 6 L (Rn) не симметрична, то она положительно (полу)определе- На тогда и только тогда, когда положительно (полу)определена сим* м^тричная матрица Л -f- Лт. Аналогичные замечания применимы и к комплексным матрицам, надо только неравенство D) заменить На Re xTAx > 0.
40 Часть I. Подготовительный материал 2.1 Две матрицы Л и Б называются подобными, если существует такая невырожденная матрица Я, что Р~1АР =В. Подобные меж- между собой матрицы имеют одинаковые собственные значения. Матри- Матрица U ортогональна, если UTU =/. Если матрица Л действительна и симметрична, то существует такая ортогональная матрица ?/, что UTAU = D, E) где D — диагональная матрица, диагональными элементами кото- которой служат собственные значения матрицы Л, т. е. всякая дейст- действительная симметричная матрица ортогонально подобна диагональ- диагональной матрице. При этом столбцы матрицы U являются собственными векторами матрицы Л, т. е. действительная симметричная матрица имеет п взаимно ортогональных собственных векторов. Более общим образом, для произвольной комплексной п х п- матрицы Л существует такая невырожденная матрица Р, что Р~1АР = </, F) Где j — каноническая жорданова форма матрицы* Л. Матрица J — это блочно-оиагональная матрица: J=\ • |. G) о где Jt — или 1 х 1-матрица, или матрица вида / К 1 \ • I Такая матрица Jt называется жордановой клеткой. Здесь % — соб: ственноезначение матрицы Л, кратность которого не меньше поряд- порядка матрицы Jt. Следует, однако, иметь в виду, что одно и то же соб- собственное значение могут иметь сразу несколько жордановых кле- клеток (в качестве примера укажем единичную матрицу, все жордано- вы клетки которой имеют порядок 1). Если все собственные зна- значения матрицы Л различны, то ее жорданова форма диагональна и столбцы осуществляющей подобие матрицы Р являются п линей- линейно независимыми собственными векторами матрицы Л. В общем случае число линейно независимых собственных векторов матри- матрицы Л в точности равно числу жордановых клеток в ее канониче- канонической форме. В частности, если порядок клетки Jt равен mt и р1 есть *'-й столбец матрицы Р} то столбцы р\ ртЛ\ ..., pw*+m*+-mft-i+1 суть
2\ Гл. 2. Линейная алгебра 41 собственные векторы матрицы А. Остальные столбцы матрицы Р иногда называют главными векторами или обобщенными собствен- собственными векторами. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 2.1.1. Большую часть изложенного в этом параграфе материала можно найти в любой из многочисленных книг по линейной алгебре. Отметим, в частности, пре- превосходную монографию Гантмахера [1953], в которой очень подробно рассмотрена каноническая жорданова форма как с алгебраической (элементарные делители), так и с геометрической (инвариантные подпространства) точек зрения. Упомянем также книгу Беллмана [I960], интересную результатами, относящимися к симмет- симметричным матрицам, а также аналитической точкой зрения. Кроме того, большинство результатов, изложенных в этом параграфе, а также некоторые из прилагаемых в последующих параграфах в удобном для численного анализа виде можно найти у Фаддеева и Фаддеевой [I960], Хаусхолдера [1964] и Уилкинсона [1965]. ЗС. 2.1.2. Единственный из приведенных в этом параграфе результатов, не вклю- включаемый обычно в учебники по линейной алгебре,— это тот факт, что корни многоч- многочлена являются непрерывными функциями его коэффициентов и, следовательно, соб- собственные значения матрицы также являются непрерывными функциями ее элемен- элементов. Доказательство этого утверждения можно найти у Островского [1966, прило- приложение XI] вместе с оценками ошибки, представляющими самостоятельный инте- интерес (см. также Уилкинсон [1965]). ЗС 2.1.3. Задачу A) на собственные векторы и собственные значения можно за- записать в виде системы из п + 1 (в общем случае комплексных) нелинейных урав- уравнений. Допустим, что А ? L (Сп) и условие х Ф 0 на собственный вектор нормиро- нормировано к виду хИх = 1. Совместно с A) это приводит к системе lAx-Kx\=Q с п + 1 неизвестными х и К. Хотя такая переформулировка задачи и не дает'ничего нового для численного решения задачи о собственных значениях матриц, для слу- случая аналогичной задачи в бесконечномерных пространствах, она обладает рядом достоинств. Относительно последних работ в этом направлении и дальнейших ссы- ссылок на литературу см. Анселоне и Ролл [1968]. Подробное изложение численных методов для задачи на собственные значения имеется у Уилкинсона [1965]. УПРАЖНЕНИЯ У 2.1.1. Найти det Л, Л""*1, характеристический многочлен, собственные значе- значения, собственные векторы и каноническую жорданову форму для матрицы Л=14 3 У 2.1.2. Найти собственные значения, собственные векторы, главные векторы и каноническую жорданову форму матрицы 1 О ON — 1 0 1 V—1 —1 2/ Выяснить вопрос о единственности главных векторов.
42 Часть I. Подготовительный материал 2.2 У 2.1.3. Пусть матрица А ? L (Rn) обратима. Показать, что матрица А1 А сим- симметрична и положительно определена. У 2.1.4. Построить пример действительной ортогональной 4 X 4-матрицы, име- имеющей только комплексные собственные значения. У 2.1.5. Пусть матрица А ? L (Rn) кососимметрична (т. е. А = — Ат) и орто- ортогональна. Описать множество ее собственных значений. У2.1.6. Пусть матрица A?L(Cn) имеет собственные значения Xv ..., %п. Предположим, что ц Ф — Я;, 1=1, ..., п. Показать, что для любого k^Q собственные значения матрицы Ak (A + fi/)"*1 равны %% (%i + jx)", i = 1,..., п. У2.1.7. Пусть А —матрица вида /1 +8 cos B/е) —8 sin B/е) \ I » 8 -т^О. \— е sin B/е) 1 — 8 cos B/е)/ Показать, что А имеет собственные значения 1 ± 8 и соответствующие им собствен- собственные векторы (sin A/e), cos (l/e))T, (sin A/е), — cos (l/e))T. Вывести отсюда, что при 8 -* 0 собственные векторы не стремятся ни к какому пределу (Дж. Гивенс, не опуб- опубликовано). У 2.1.8. Говорят, что матрица А ? L (Rn) имеет квадратный корень В, если В2 = = А. Пусть А — положительно полуопределенная симметричная матрица, D — каноническая форма E) матрицы Л, где матрица V ортогональна. Показать, что матрица В = UDX/2UT, где?1/г = (а1/2, .. .,а^/2), является квадратным корнем из матрицы А. Рассмотреть вопрос о единственности квадратного корня. 2.2. НОРМЫ Отображение || • || из Rn (или С") в /?\ удовлетворяющее усло- условиям (а) |l*(|>0, Vx(iRn (или С"); ||*|| = 0 только тогда, когда х = 0; (б) |М| = |я|И, Vx?Rn (или С"), а ? Я1 (или С1); A) (в) |l* + f/ll<HI + fH V*. y?Rn (или С"), называется нормой. Хорошо известными примерами норм в Rn или Сп являются /р-нормы: р, Кр<оо, B) и их предельный случай /оо-норма: ЦхЦоо^ max |^|. C) Скалярным произведением в Rn называется отображение (•, •) прямого произведения Rn x Rn в 7?1, удовлетворяющее условиям (а) (х, х) > 0, V х б Rn\ (х, х) = 0 только тогда, когда к = 0; 1б) (х, у) = {у> х), Vxf y$Rn\ D)
2.2 Гл. 2. Линейная алгебра 43 (в) (х + уу г) = (х, г) + (у, г), (а*, у) = а (х, у), V х, у, z ? Скалярное произведение в Rn определяет норму по формуле || х || = = (х, х)'/2. В частности, /2-норма, которую мы будем также назы- называть эвклидовой нормой, получается, если исходить из скалярного произведения (х> у) =хту. Для любого скалярного произведения выполняется неравенство Коши—Шварца /(*> у)\<-\Щу% Ф) в частности, в случае /2-нормы мы имеем Vt/ я \V« Аналогичные рассмотрения можно провести в Сп\ в частности, ска- скалярное произведение в Сп определяется условиями D) с заменой D6) на (х, у) =(уГх). Как уже упоминалось в введении, мы всегда будем предпола- предполагать, что Rn наделено некоторой нормой. В связи с этим важно от- отметить, что все нормы в Rn эквивалентны в смысле, указываемом в следующей важной теореме. 2.2.1. Теорема об эквивалентности норм. Пусть || • || и || • ||' — две произвольные нормы в Rn. Тогда существуют такие числа с2 > > сг > 0, что ciIHI<N'<c2h, v*6*n. G) Доказательство. Достаточно показать, что неравенство G) выполняется, если в качестве || • f взята /2-норма; действительно, из отношений diN<N2<d2l*ll, d[\\4 <WI2<^N', где d2 > dx > 0, d2 > d[ > 0, вытекает G) с сх = djd2 и с2 == = djd[. Пусть через e\ i = 1, ..., n, обозначены координатные векторы в Rn. Тогда в силу F) \\x\\ = |S ***!<2 1^Ili^lKPIUL P- и, следовательно, левая часть неравенства G) выполняется при сг = = Р~" . Кроме того, согласно (8), и, следовательно, норма || • || является непрерывной функцией отно- относительно /2-нормы. Поскольку единичная сф^ра 5 = {х|||л:||2 = 1} —
44 Часть I. Подготовительный материал 2.2 компактное множество, то || • || достигает на S отличного от нуля минимума, т. е. ||х||>а>0 для всех ||*||2 = 1. Но тогда ||х||> >а|х|2 для всех х ? Rn и правая часть неравенства G) выполня- выполняется при с2 = а. | Обратимся теперь к нормам линейных операторов. Для двух произвольных норм || • || и || • ||' соответственно в Rn и в Rm и для любого оператора А ? L (Rn, Rm) норма этого оператора относи- относительно норм || • || и || • ||' определяется следующим образом: ||Л ||= s\xp\\Ax\\'. ' (9) М=1 Эта матричная норма обладает такими свойствами: (а) ||Л||>0, VA?L(Rn, Rm), ||Л|| = 0 только тогда, когда Л = 0; (б) ||аЛ|| = |сс|||Л||, VA?L(Rn, R), а € Я1; A0) (в) ЦЛ + БКИЛЦ + ЦВЦ, У A, B?L(Rn, Rm); следовательно, L (Rn, Rm) — линейное нормированное пространство. В важном частном случае, когда Rn = Rm и нормы ) * || и | • ||' одинаковы, выполняется также свойство мультипликативности |)ЛВ||<||Л||||В||. Определение (9), так же как и свойства A0), остается в силе для Сп и Ст и A?L(Cny Cm). В работах по численному анализу чаще всего используются /г, /2- и /оо-нормы. Точное описание отвечающих им матричных норм, обозначенных соответственно через \А\Ъ ||Л||2 и ЦЛЦ*,, дается сле- следующей теоремой. дующй ермой 2.2.2. Пусть A^L{R\ Rm) и в Rn и Rm введены/гнормы, 2, оо. Тогда - max S/^/1. ||Л|и= max 21 | ay |t A2) A3) где X — максимальное собственное значение матрицы АТА. Доказательство. Рассмотрим вначале /j-норму. Для лю бого х 6 Rn S 1=1 A4)
2.2 Гл. 2. Линейная алгебра 45 Поэтому достаточно показать, что существует вектор х ? Rnt для которого в A4) выполняется равенство. Пусть k — тот индекс, для которого в A1) достигается максимум; тогда т т \№\г = 2 |ete|= max 2 \cHj\- Итак, верхняя грань в (9) достигается на k-м координатном векторе. Аналогично проводится доказательство для /оо-нормы. Заметим только, что в этом случае верхняя грань достигается на векторе х ? Rn, определяемом соотношениями _ ( М aki |, aki Ф О, ^ 11. а* = 0, '-*' •'•• *' где k — индекс, при котором в A2) достигается максимум. Наконец, для /2-нормы имеем || Ах ||2 = (хТАТАхI/\ и утверждение теоремы вытекает из B.1.3). | Заметим, что если А ? L (Rn) — симметричная матрица с собст- собственными значениями А,ь ..., %ю то, как следует из 2.2.2, = тах|М. Заметим, также, что выражения для норм A1) и A2) сохраняются и для случая L (Cn, Cm), а в A3) в этом случае в качестве К надо брать максимальное собственное значение матрицы АИА. На основании A3) можно сделать следующее наблюдение. 2.2.3. Пусть матрица Р a L (Rn) ортогональна иа^О- произ- произвольный скаляр. Тогда || Н ||2 || Я1|2 = 1, где Н —<хР. Доказательство. Очевидно, что НТН = а2/ и (Я")^" = = а"/. Поэтому утверждение теоремы вытекает из 2.2.2. | Для произвольной невырожденной матрицы А ? L (Rn) число || А || || А I™ называется коэффициентом обусловленности этой матрицы относительно используемой нормы. Поскольку || А || X X II А~Х II > 1» то, согласно 2.2.3, матрицы, кратные ортогональным, имеют относительно /2-нормы минимальный коэффициент обуслов- обусловленности. Хотя при практических вычислениях наиболее часто использу- используются нормы из 2.2.2, мы в дальнейшем будем применять иногда и другие нормы. Так, например, если А ? L (Rn) — симметричная положительно определенная матрица, то скалярное произведение можно определить равенством (ху у) =хТАу. Соответствующая норма бывает полезна в задачах минимизации. Эта норма — част- частный случай норм, полученных при помощи следующей общей про- процедуры.
46 Часть I. Подготовительный материал • 2.2 2,2.4. Пусть || • || — произвольная норма в пространстве Rn (соотв. С1) и Р — произвольная невырожденная действительная или комплексная п х /г-матрица. Тогда отображение, определяемое равенством || х ||' = || Рх |, х ? Rn (соотв. х ? Сп)9 является нор- нормой в Rn (соотв. в Сп). Кроме того, если А ? L (Rn), то \\А\\' = \\РАР~1\\. A5) Доказательство. Для того чтобы показать, что || • [' — норма, требуется провести совсем простые вычисления по провер- проверке выполнения аксиом A). Соотношение A5) следует тогда из ра- равенств ||Лf = sup ||Лх||' = sup ||РЛ*||= ll IMI'i iip0i В силу 2.2.1 все нормы в L (Rn), конечно, эквивалентны. Следу- Следующая теорема устанавливает связь постоянных эквивалентности для векторных норм с соответствующими постоянными для матричных норм. 2.2*5. Пусть || • || и || • f — произвольные нормы в Rn. Если сг и с2 — постоянные из G), то при dx = cjc2i d2 = c2/q выполняются неравенства <УЛ||<||Л|Г<<УЛ||, VAGURT). A6) Доказательство. Из G) вытекает, что ||Л|Г = 8ир{||Л^||7|к|Г} <suP{a2|H^||/(c1||^||)} = {c,lcx)\\A\. хфО хфО Таким образом, правое неравенство в A6) выполняется при d2 = = ^2/^. Совершенно так же показывается, что годится dx =сг/с2. I Используя 2.2.5, можно установить следующее соотношение между нормой матрицы и ее элементами. 2.2.6. Пусть || • || — произвольная норма в Rn. Тогда существует такая постоянная %, что lr\x max \aii\, VA$L(Rn). A7) Аналогично существует такая постоянная т]2, что ^ 2t=i где а\ ,,., ап — столбцы матрицы Л. Доказательство. Согласно 2.2.5, существует такая посто- постоянная х\ъ что || Л || < % || Л |1# Поэтому неравенство A7) вытекает непосредственно из 2.2.2. Далее, в силу 2.2.1
2 2 Г л- ?• Линейная алгебра 47 В заключение этого параграфа рассмотрим связь между собст- собственными значениями матрицы и значением нормы. Для любой комп- комплексной п х д-матрицы Л ее спектральный радиус определяется как наибольшее из чисел | Хг |, ..., | Хп |, где Х19..., Кп — собственные значения матрицы Л. Если А ? L (Сп) и ^-некоторое собственное значение матрицы А с соответствующим собственным вектором и Ф О, то J Аи || = -— | X 11| и || и потому | X | < || А ||. Следовательно, спектральный радиус матрицы Л, обозначаемый через р (Л), удовлетворяет усло- условию р (Л) < || Л |. Однако для данной конкретной нормы спектраль- спектральный радиус матрицы и ее норма могут сколь угодно сильно отли- отличаться друг от друга. Например, о 1I-• <«> тогда как спектральный радиус равен 0. Такое большое различие, как показывает приводимое ниже утверждение 2.2.8, объясняется неудачным в некотором смысле выбором нормы. Сначала мы дока- докажем лемму, которая сама по себе представляет определенный инте- интерес. 2.2.7. Пусть матрица Л ? L (Сп) имеет жорданову форму J. Тогда /ч для произвольного е > 0 матрица Л подобна матрице У, которая сов- совпадает с У, за тем лишь исключением, что все равные 1 внедиаго- нальные элементы в B.1.7) заменены на е. Доказательство. Пусть Р — такая невырожденная матрица, что P~*AP=J, a D — диагональная матрица diag(l, e, ..., е*-1). Легко проверить, что D~~lJD = J. Следовательно, 1 = QTlAQ, где Q = PD. | 2.2.8. Пусть Л ? L (Сп). Тогда для любого заданного е > 0 суще- существует такая норма в С", что ||Л||<р(Л) + е. B0) Доказательство. Пусть J = Q~]AQ — модифициро- модифицированная жорданова форма из 2.2.7. В силу 2.2.3 Но, согласно 2.2.4, равенство /| a:JJ = J] Q"^^^jjx определяет норму в С"\ и из A5) следует, что
48 Часть I. Подготовительный материал 2.3 В качестве следствия утверждения 2.2.8 получаем такой важный результат. 2.2.9. Для всякой матрицы А ? L (Сп) тогда и только тогда lim Ak = = 0, когда р (А) < 1. Доказательство. Если р(Л)<1, то в силу 2.2.8 сущест- существует такая норма, что ||Л||<1. Следовательно, ДЛ->0 при &->оо, так как || Л* || < || Л f. Обратно, предположим, что матрица А имеет собственное значение X, для которого || X || ;> 1 и соответствующий собственный вектор х Ф 0. Тогда Akx = Xkx при всех k, и Акх не стремятся к нулю. I ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 2.2.1. Все изложенные в этом параграфе результаты являются стандартными. Превосходное изложение вопросов, связанных с нормами и их ролью в численном анализе, можно найти в книге Фаддеева и Фаддеевой [1960], Хаусхолдера [1964] и Уилкинсона [1965]. УПРАЖНЕНИЯ У 2.2.1. Пусть А ? L (Сп), Показать, что max \ аи |< || А ||2 < п max | а1} |, 1 < i, j < n. У2.2.2. Пусть A?L(Cn)- Показать, что существует такая постоянная т], зави- зависящая только от выбора, нормы, что || А \\ ^ т] max || а11|, где а1, ..*, ап — столбцы матрицы Л. * У 2.2.3. Норма || • || называется равномерно выпуклой, если для любого задан- заданного 8 > 0 существует такое б > 0, что || х + у\\ < 2 A — б) всякий раз, когда |И<1> Ш<1 *\\х + у\\>е. Норма называется строго выпуклой, если || х + у \\ < 2 всякий раз, как j| x \\ < < 1» II У II < 1 п х Ф у. Показать, что норма в Rn строго выпукла в том и только в том случае, когда она равномерно выпукла. 2.3. ОБРАТНЫЕ МАТРИЦЫ В различных местах книги мы будем сталкиваться с проблемой, не является ли данный линейный оператор А ? L (Rn) обратимым. В этом параграфе собраны различные достаточные условия обра- обратимости, а в следующем приводится ряд дополнительных резуль- результатов. 2.3.1. Лемма Неймана. Пусть В ? L (Rn) и р (Я)< 1. Тогда (/ — В) существует и (/—ЯГ^ШпЦя'. A) Доказательство. Так как р (В) < 1, то матрица / — В не имеет нулевых собственных значений и, следовательно, обра-
2 $ Гл. 2. Линейная алгебра 49 тима. Далее, из тождества (/ — В) (I + ... + Вк) = / — 5й сле- следует, что I + B+ ... +яЛ-1 = (/_ В)-1 — A-ВГ1Вк. Г Согласно 2.2.9, правая часть стремится к (/ — В Г. | В качестве простого следствия из 2.3.1 отметим, что матрица / — В обратима, если || В || < 1, ив этом случае в силу A) B) Это частный случай следующего более общего результата. 2.3.2. Лемма о возмущении. Пусть А, С ? L (Rn), причем матрица А обратима и || Л"*11| < а. Если || Л — С || < Р и ра < 1, то матрица С также обратима и ЦС^Ка/О-оР). C) Доказательство. Так как \\/ — А"]С|| = ||Л" (Л — С)||< < ар < 1 и А~1С = / — (/ — А~1С), то, согласно 2.3.1, матрица А~ХС имеет обратную. Следовательно, для С также существует об- обратная матрица. Кроме того, из неравенства B) вытекает, что ||С"1 = ||[/ -(/ - A-lQVlЛ-11|<aS Ш = а/A -сф). | В последующем лемма 2.3.2 будет часто применяться к случаю матричнозначных отображений Л: D ? Rm -> L (/?"). Приведем для этого случая следующее простое следствие доказанной леммы. Напомним, что через S (х, г) обозначается открытый шар {У € Rn 11| х — yl<r}9 а через S (х, г) — его замыкание. 2.3.3. Предположим, что отображение Л: D d Rm -> L (/?") не- непрерывно в точке х? g D, в которой матрица Л (х°) обратима. Тог- Тогда существуют такие б > 0 и у > 0, что матрица Л (*) также обра- обратима и IIА (хГ11|< у, V * с D П S"(A б). D) Доказательство. Положим а = ||Л (л:0)"1| и для заданного а~"^_ выберем такое б, что || Л (а:0) — Л (л:) ||< р при всех х? ?D П S(x°, б). Тогда в силу 2.3.2 матрица Л (л:) обратима и не- неравенство D) выполняется при у~а/A —ар). Поэтому Г1 _ а (х)-11 = || А (*»)-' [А (х) - А (*«)] А (х)~1 \\ < и из непрерывности отображения А в точке х° вытекает непрерыв- непрерывность в этой точке обратного отображения. I
50 Часть I. Подготовительный материал 2.3 Рассмотрим теперь несколько иную ситуацию, анализ которой даст нам возможность делать выводы об обратимости данного ли- линейного оператора. Напомним, что матрица перестановки имеет в качестве своих столбцов координатные векторы е1, ..., еп9 взятые в некотором произвольном порядке. 2.3.4. Определение. Действительная или комплексная п х п- матрица А называется приводимой, если существует такая матрица перестановки Р, что и В12\ > BJ* где Вп и 522 — квадратные матрицы. Матрица А называется не- неприводимой, если она не является приводимой. | Очевидно, что любая матрица, все элементы которой отличны от нуля, неприводима. Более общо, матрица А ? L (Сп) приводи- приводима тогда и только тогда, когда существует такое непустое подмно- подмножество индексов Jc(l, ,.M/i), что сЛ/ = 0, V&GJ, /? У. E) Это утверждение — простая переформулировка определения 2.3.4 в терминах элементов матрицы. Более полезную эквивалентную ха- рактеризацию неприводимости дает следующая теорема. 2.3.5. Матрица А ? L (Сп) неприводима тогда и только тогда, когда для любых двух индексов 1 < t, / < п существует последо- последовательность ненулевых элементов матрицы А вида [aul9 aixi%9 ..., fly}. F) Доказательство. Если существует последовательность элементов вида F), мы будем говорить, что для индексов /, / суще- существует связывающая их цепь. Итак, пусть А — приводимая матри- матрица, и пусть J — подмножество, для которого выполняется E); выберем i ? У, / $ J. Если а^ ф 0, то k ? У, и для i9 j невозмож- невозможно построить цепь. Тем самым достаточность доказана. Обратно, предположим, что А — неприводимая матрица. Для фиксированного / введем множество J ={k \ для t, k существует цепь}. Очевидно, это непустое множество, так как в противном слу- случае Щк =0, k = 1, ..., п, в противоречие с неприводимостью. Да- Далее, допустим, что для некоторого / не существует цепи, связываю- связывающей индексы iy j. Тогда J не совпадает совсем множеством {1, ..., п) и мы утверждаем, что в противоречие с неприводимостью матрицы Л. Действительно, G) следует непосредственно из факта существования цепи для индексов i9 k: если aki ф 0, то, добавив элемент аы9 мы получим цепь для it /, а это означает, что I ? J. |
2.3 Гл. 2. Линейная алгебра 51 В качестве примера применения полученного результата рас- рассмотрим матрицы 2 -1 п -12- U (8) О В —I -1 В О А = О в . — 1 — 1 2 4—1 -1 4 О (9) О — 1 встречавшиеся в § 1.1 и 1.2. Для пер- первой из этих матриц, если 1 < I < < / < п, то элементы а^+ь ЯН-1./+2 a/-w удовлетворяют услови- условиям теоремы 2.3.5, а если / < /,"то мы можем взять цепь ац-и я*-и-2, ... ...,a/+if/. Для матриц (9) также можно записать в явном виде цепь из нену- ненулевых элементов лля любых /, / (см. У 2.3.2), но индексация здесь полу- получается довольно громоздкой. Нагляд- Нагляднее воспользоваться разностным урав- уравнением A.2.5) с / = 0 и соответствую- соответствующей ему сеткой на единичном квад- квадрате. Если пронумеровать точки этой сетки последовательно слева направо и снизу вверх, то неприводимость матриц (9) видна непо- непосредственно из построения цепочек, индексы которых соответству- соответствует четырем возможным путям, показанным на рис. 2.1. Зафиксируем наш результат. 2-3.6. Матрицы (8) и (9) неприводимы. | Неприводимость матрицы сама по себе ничего не говорит об ее ^ратимости. Тем не менее это понятие можно успешно использо- ать в сочетании со следующим понятием. Рис.2.1.
S2. Часть I. Подготовительный материал 2.3 2.3.7. Определение. Действительная или комплексная п х п-мат- рица А = iflij) называется матрицей с преобладающей диагональю, если п .J2 1ач\<\ац\9 *=1, ..., л; A0) матрицей со строго преобладающей диагональю, если в A0) при всех i выполняется строгое неравенство, и матрицей с неприводимо пре- преобладающей диагональю, если она неприводима, является матрицей с преобладающей диагональю и в A0) строгое неравенство выполня- выполняется хотя бы для одного значения /. | Докажем теперь следующую теорему об обратимости. 2.3.8. Теорема о диагональном преобладании. Пусть А ? L (Сп)— мат- матрица со строго либо неприводимо преобладающей диагональю. Тогда эта матрица обратима. Доказательство. Предположим сначала, что А — матрица со строго преобладающей диагональю, и допустим, что су- существует вектор х Ф 0, для которого Ах = 0. Пусть Kl= max|*,|. Тогда | хт | > 0 и неравенство 2 amj'Xj <\Хт\ 2 К/| (И) }фт {фт противоречит тому факту, что А — матрица со строго преобладаю- преобладающей диагональю. Пусть теперь А — матрица с неприводимо преоб- преобладающей диагональю. Снова допустим, что существует вектор х Ф 0, для которого Ах = 0. Пусть т — такое число, что |amm|> 2|am/|. A2) }фт Рассмотрим множество индексов J = {k\ \Xk\>\xi\> i==1» •••» n> l**l>l*/l Для некоторого/}. Очевидно, что J — непустое множество: в противном случае было бы \хг\ =... = \хп \ Ф0 и неравенство A1) противоречило бы A2). Итак, для любого k ? J Отсюда следует, что ак] =0 всякий раз, когда | хк\ > |х/|, иначе мы вступили" бы в противоречие с фактом диагонального преобла- преобладания, т. е. Но это значит, что матрица А приводима; мы пришли к противоре- противоречию.
2 з Гл. 2. Линейная алгебра 53 В качестве следствия доказанного результата мы установим сей- сейчас следующую важную теорему о локализации собственных зна- значений матрицы. 2.3.9. Теорема о кругах Гершгорина. Пусть А ? L (Сп). Рассмот- Рассмотрим множество комплексных чисел s = ?{|zK-2|<2>/l}. Каждое собственное значение матрицы А лежит в множестве S. Доказательство. Пусть К — собственное значение. До- Допустим, что К (J S, т. е. Но тогда А — Я/ является матрицей со строго преобладающей диа- диагональю и, следовательно, согласно 2.3.8, невырождена. Получи- Получили противоречие. | Из этого результата и 2.3.8 вытекает следующее утверждение. 2.3.10. Если А ? L (Rn) —симметричная матрица с неприводимо преобладающей диагональю и диагональные элементы этой матрицы положительны, то она положительно определена. В частности, мат- матрицы (8) и (9) положительно определены. Доказательство. Поскольку собственные значения ^ матрицы А действительны, то из теоремы 2.3.9 и факта диагонально- диагонального преобладания вытекает, что \ > 0, i =1, ..., п. Но, согласно 2.3.8, матрица А обратима и, следовательно, \ > 0 для всех i. Последнее утверждение теоремы есть следствие утверждения 2.3.6. | В заключение этого параграфа приведем часто используемую формулу обращения для п х /г-матриц, модифицированных с по- помощью матриц ранга т. 2.3.11. Формула Шермана — Моррисона — Вудбери. Пусть матри- Да А ? L (Rn) обратима и даны матрицы U, V ? L (Rm, Rn), m < < п. Матрица A -f UVT обратима тогда и только тогда, когда мат- матрица / -|- VTA~~]U обратима, и в этом случае (Л + UVTr] = /Г1 - A~lU (I + VTA-lUrlVTA~l. A3) Доказательство очевидно: непосредственное вычисление пока- показывает справедливость формулы A3). В важном частном случае т = 1 в качестве U и V можно взять векторы и, v ? Rn. Тогда A3) пРиводит к формуле Шермана — Моррисона (А + uvTrl = Л-1 - [1 A + vTA~lu)] A-luvTA~\ A4)
54 Часть /. Подготовительный материал 2л ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 2.2.1. Теорема 2.3.2, а следовательно и 2.3.3, остается справедливой в любом банаховом пространстве. Лемму 2.3.1 также можно, используя более тонкие рас- рассуждения, обобщать на случай комплексных банаховых пространств (см., на- например, Тейлор [1958, стр. 164 и 260]). ЗС 2.3.2. Определений 2.3.4 и 2.3.7 и теоремы 2.3.8, 2.3.9 и 2.3.10 являются классическими. Дальнейшее обсуждение вопроса см., например, у Варги [1962]. ЗС 2.3.3. Доказательство теоремы 2.3.5 заимствовано нами у Хенричи [1962], хотя сам результат установил ранее Варга. На самом деле Варга [1962] применил по существу такой же, но более геометрический подход к неприводимости, связан- связанный с использованием ориентированных графов. ЗС 2.3.4. Более подробное обсуждение формул A3) и A4) имеется у Хаусхол- дера [1964] и Зильке [1968]. УПРАЖНЕНИЯ У 2.3.1. Пусть Л, В ? L (Rn) и матрица А обратима. Если существует такая мат- матрица С ? L (Rn), что || А (А — В) (I + СВ) \\ < 1, то и В — обратимая матрица (Островский [19676]). У 2.3.2. Для заданных 1 ^ i9 j' <^ п явно указать цепь из ненулевых элементов для матрицы (9). У 2.3.3. Пусть матрица А ? L (Rn) — симметричная со строго преобладающей диагональю и ее диагональные элементы положительны. Показать, что А — поло- положительно определенная матрица. У 2.3.4. Пусть матрица А ? L (Rn) задана формулой (8). Показать, что матрица А имеет собственные значения Я/г = 2 — 2 COS [kn/(ll + I)], k = 1, . . . , П, и соответствующие им собственные векторы (sin [fm/(n + 1)], sin [2kn/(n + 1)], . . ., sin [nkn/(n + 1)])T, k = 1, .... n. У 2.3.5. Пусть А, В ? L (Rn) —тридиагональные матрицы 0 \ /5 Yl. 0 где biCi > 0 и Yi = (biCi)xl\ i= 1, ..., п. (а) Показать, что В = DAD"\ где D = diag[l, (V^i)VS (&A/V2L ..., (bx ...b^/c, ... сп_№. (б) Показать, что если сц > | fy| + \ci_{ |, * = 2, ..., я—1, и ах > | Ьх |, ап > | сп_]\1 то А — матрица с неприводимо преобладающей диагональю, а В- положительно определенная матрица. 2.4. ЧАСТИЧНОЕ УПОРЯДОЧЕНИЕ И НЕОТРИЦАТЕЛЬНЫЕ МАТРИЦЫ Во многих местах этой книги нам будет удобно иметь возмож- возможность поэлементно сравнивать векторы из пространства Rn. Это можно сделать с помощью естественного (или покомпонентного) частичного
24 Гл. 2. Линейная алгебра 55 упорядочения в Rn, определяемого следующим образом: Для ху у ? Rn тогда и только тогда х < г/, когда *,<#„ *= 1, ..., п. A) Два вектора л:, у ^ Rn называются сравнимыми, если х < у или и =С х. Следующие свойства вытекают непосредственно из определе- определения. 2.4.1. Отношение порядка <, определенное в Rn правилом A), удовлетворяет условиям (а) х < х для всех х ? Rn', (б) если х < */ и */ < х, то* =у\ (в) если х < у и */ < г, то х < г; (г) если л: < #, то ах < оу/ для всех а > 0; (д) если л: < г/, то х + г < */ + г для всех г ? #п. Если а: > 0 (a: g /?"), то вектор х называется неотрицательным; множество всех неотрицательных векторов пространства Rn назы- называется положительным конусом в Rn. Во многих случаях удобно рассматривать неотрицательный вектор |*|, составленный из абсо- абсолютных величин компонент вектора х: И = A*1. ..- К1)Т> *€ЯП. B) Непосредственно проверяется, что этот вектор обладает следующи- следующими свойствами, похожими на свойства нормы. 2.4.2. (а) Для всех х ? Rn имеем |#|>0 и | jc [ = 0 тогда и только тогда, когда х = 0; (б) для всех х ? Rn и а ? R1 имеем |а*| = |а||*|; (в) для всех х9 у ? Rn имеем \х + у} <|*| + | #|. Норма в /?" называется монотонной, если для любых х, у ? Rn из условия | * | < | у | следует || л: || < || у ||. C) Легко видеть (У 2.4.2), что условие C) эквивалентно условию 1ИНИ. V^etf1; D) в частности, /р-нормы A < р < оо) очевидным образом удовлетво- удовлетворяют условию D). С помощью частичного упорядочения A) мы можем определить монотонные операторы в Rn. 2.4.3. Определение. Отображение F: D с Rn -> Rm называется Фотонным (антитонным) на множестве Do cz D, если при х < < У, х, у ? Do выполняется соотношение Т7* < ^(Fx > Fy). | Мы можем теперь следующим образом ввести частичное упорядо- Чение, аналогичное A), на пространстве п х т-матриц: Для А, В ? L (Rn, Rm) тогда и только тогда А < В, когда ац < b{jy i = 1, ..., т\ j ='l, ..., п. E)
56 Часть I. Подготовительный материал 2.4 Соответствующая «абсолютная величина» определяется тогда как U| = (|ai7|), Л?М#\ /Г). F) Очевидно, что свойства из п. 2.4.1 и 2.4.2 выполнены и в этом слу- случае. Матрица А ? L (Rn, Rm) называется неотрицательной, если Л > 0. Легко показать (У 2.4.3), что матрица неотрицательна тогда и только тогда, когда она изотонна, что в свою очередь имеет место тогда и только тогда, когда Ах > 0 для всех х > 0. С помощью частичного упорядочения E) мы можем определить следующее свойство типа обратимости. 2.4.4. Определение. Пусть А ? L {Rn). Матрица В ? L (Rn) назы- называется левой подобратной (левой надобратной) по отношению к мат- матрице Л, если В А < / (ВА > /), G) и правой подобратной (правой надобратной), если Л?</ (ЛВ>/). (8) Матрица В называется подобратной (надобратной), если одновре- одновременно выполняются оба отношения G) и (8). | Заметим, что нулевая матрица является подобратной по отно- отношению к любой матрице. Кроме того, если В является подобратной (надобратной) по отношению к Л, то сама А является подобратной (надобратной) по отношению к В. Если же существует обратная мат- матрица Л"» то она будет как подобратной, так и надобратной по отно- отношению к Л. Нас будут интересовать условия, при которых данная матрица Л ? L (Rn) имеет нетривиальные неотрицательные подобратные и надобратные матрицы, и, в частности, условия, при которых Л имеет неотрицательную обратную матрицу. Ниже мы приведем не- некоторые результаты, относящиеся к этому последнему вопросу. Первый наш результат аналогичен лемме Неймана 2.3.1. 2.4.5. Пусть В ? L (Rn) и В > 0. Матрица (/ — В) существует и неотрицательна тогда и только тогда, когда р (В) < 1. Доказательство. Если р(В)<1, то в силу 2.3.1 (/ — оо — В) = 2 Я\ а так как каждый член ряда неотрицателен, то и 1=0 (/—'В)~~1^-0. Обратно, пусть (/ — В)~1^>0 и К — некоторое соб- собственное значение матрицы В с соответствующим собственным век- вектором хфО. Тогда |Л||*|<Я|*| и (/—В)|*|<A — |А,|)|*|. Отсюда следует, что |х| < A — |X|) (/ — В)~~1 \х\, и поскольку хФ ^0 и (/-Я)-1^, то |М<1.|
Гл. 2. Линейная алгебра 57 Нижняя (верхняя) треугольная матрица называется строго нижней (верхней) треугольной матрицей, если ее диагональные элементы равны нулю. Непосредственно из 2.4.5 вытекает следую- следующее утверждение. 2.4.6. Если матрицы D, L ? L (Rn) неотрицательны, причем D диагональна и обратима, a L — строго нижняя треугольная матри- матрица, то (D — L) > 0. Теперь мы рассмотрим один особенно важный класс матриц, для которых существуют неотрицательные обратные. 2.4.7. Определение. Матрица Л ? L (Rn) называется М-матрицей, если она обратима, А~~х > 0 и atj < 0 для всех i, j = 1, ..., n, i Ф ф /. Симметричная /И-матрица называется матрицей Стильтьеса. | Следующая теорема дает характеризацию УИ-матриц, которая иногда бывает полезна. 2.4.8. Пусть A^L(Rn) и ац < 0, 1ф\. Матрица А является М-матрицей тогда и только тогда, когда (а) диагональные элементы матрицы А положительны и (б) матрица В = I— D~xAy где D = = diag (an, ..., аПп), удовлетворяет условию р (В) < 1. Доказательство. Предположим, что р(В) < 1, Так как ?>0, то из 2.4.5 следует, что (D~!Л) = (/ — В)~{ > 0, и, следо- следовательно, существует обратная матрица Л". Так как D>0, то оче- очевидно, что Л >0. Обратно, если Л есть М-матрица, то ее диагональные элемен- элементы положительны. Действительно, пусть аи < 0. Тогда i-й столбец а1 неположителен и, следовательно, е1 = А~1а{ < 0, где е[ есть i-Pi координатный вектор. Мы получили противоречие; значит, D>0 и матрица D обратима. Таким образом, В>0, (/ — B)~l = A~lD > 0 и, согласно 2.4.5, р(В) < 1.1 2.4.9. Пусть В ? L (Rn) и С ? L (С"). Если I С\ < В, то р (С)< <Р(В). Доказательство. Положим о = р(В). Пусть е>0 произ- произвольно и Вх = (а + е)~!?, Сх = (а + г)~1С. Очевидно, что р (Бх) < < 1 и |С1|*<В?Э Л= 1Э 2, .... так как, согласно 2.2.9, lim В? = 0, то limCi=0. Но из 2.2.9 вытекает также, что р (Сх) < 1 и, следовательно, р (С) < о + г. А поскольку е произвольно, то р (С) < о. | Сумма УИ-матриц в общем случае не обязательно будет М-матри- (У 2.4.10). Следующая теорема показывает, однако, что мы
S8 Часть f. Подготовительный материал i.4 можем, не нарушая свойства матрицы быть УИ-матрицей, произвольно увеличивать ее диагональные элементы, а также увеличивать вне- диагональные элементы до тех пор, пока в матрице сохраняются нужные знаки. 2.4.10. Пусть Аг ? L (Rn) есть Л1-матрица с диагональной частью Dl и внедиагональной — Вх = Лх — Dx. Если D2? L (Rn) — произвольная неотрицательная диагональная матрица и В2? L (Rn) — произвольная неотрицательная матрица с нулевыми диагональными элементами, удовлетворяющая условию В2 < Въ то матрица А = ^=D1 + D2—(Bl — B2) будет УИ-матрицей и Л~1<ЛГ1. Доказательство. Положим D = D1 + D2, В = Вх — 52, Н = П~ХВ и #! = DTlBv Из отношения D>DX следует, что D" < DT\ и очевидно, что 0 < В < Вг. Таким образом, 0 < Н < <#! и в силу 2.4.9 р(Я) <р(Ях) < 1. Из 2.4.8 вытекает теперь, что А является М-матрицей. Наконец, неравенство Л" < AT1 сле- следует из неравенства А >- Аг после умножения его на матрицы Л" и ЛГ1.! Сформулируем отдельно следующий важный частный случай утверждения 2.4.10. 2.4.11. Пусть A^L (Rn) есть М-матрица и D ? L (Rn) — произволь- произвольная неотрицательная диагональная матрица. Тогда Л + D есть М- матрица и (Л Ц- D)" < Л. В качестве следствия этого утверждения получаем такой резуль- результат для матриц Стильтьеса. 2.4.12. Пусть Л ? L (Rn) — матрица Стильтьеса. Тогда Л — поло- положительно определенная матрица. Доказательство. Предположим, что Л имеет собствен- собственное значение К < 0. Тогда в силу 2.4.11 Л — >-/ есть М-матрица, что противоречит невырожденности матрицы Л — М. | Хотя теорема 2.4.8 и дает характеризацию УИ-матриц, было бы желательно получить для этих матриц более просто проверяемые достаточные условия. Одно из таких условий является следствием приводимой ниже теоремы, которая интересна и сама по себе. 2.4.13. Пусть В ? L {С1) — неприводимая матрица. Если 21М<1, '-1. ••••*¦ (9) и строгое неравенство выполняется хотя бы для одного индекса if тор (В) < 1. Доказательство. Из (9), очевидно, следует, что р (В) < < || В Цоо < 1. Предположим, что р (В) = 1, и пусть X — собствен-
2 4 Гл. 2. Линейная алгебра 59 иое значение матрицы В, для которого | к\ = 1. Тогда XI — В — вырожденная матрица. Но, согласно (9), и строгое неравенство опять выполняется хотя бы для одного i. Но так как матрица А,/ — В неприводима вместе с В> то, согласно 2.3.8, X/ — В — невырожденная матрица. Мы пришли к противо- противоречию; значит, должно выполняться неравенство р (В) < 1. | 2.4Л4. Пусть Л ? L (Rn) — матрица со строго или неприводимо преобладающей диагональю, и пусть ац < О, i Ф /, и аи > > 0, i = 1, ..., /г. Тогда Л является М-матрицей. Доказательство. Определим матрицу В ? L (Rn) с помощью равенства В = / — D~~l А, где снова D — диагональная часть матрицы А. Тогда в силу 2.4.8 достаточно показать, что р (J5) < 1. Поскольку А — матрица с преобладающей диагональю, неравенство (9) выполняется для матрицы В. Если А — матрица со строго преобладающей диагональю, то в (9) для всех i выполня- выполняется строгое неравенство. В этом случае || В !«, < 1. Если А — матрица с неприводимо преобладающей диагональю, то утвержде- утверждение теоремы вытекает непосредственно из 2.4.13. | Заметим, что свойство диагонального преобладания не является необходимым условием для того, чтобы матрица А была Af-матри- цей (У 2.4.9). Этот параграф мы закончим результатом, аналогичным резуль- результату 2.4.13. Приводимые ниже теоремы о спектральном радиусе окажутся очень нужными в последних главах при изучении сходи- сходимости итерационных процессов. Начнем с терминологии. 2.4.15. Определение. Пусть Л, В ? L (Rn). Представление Л =В — С называется регулярным расщеплением матрицы Л, если В — обра- обратимая матрица, Б > 0 и С > 0. Если условие С > 0 заменено парой условий В~1С > 0 и С В > 0, то мы имеем слабо регуляр- регулярное расщепление. | Очевидно, что регулярное расщепление является слабо регу- регулярным расщеплением; обратное неверно (У 2.4.11). Перед доказательством теоремы о свойствах спектрального Радиуса покажем, что существует тесная связь между слабо регу- регулярными расщеплениями и неотрицательными подобратными матри- матрицами. 2-4.16. Пусть матрица В ? L (Rn) обратима и В > 0. Матрица ° является подобратной по отношению к А ? L (Rn) тогда и только тогда, когда Л =В — С — слабо регулярное расщепление.
60 Часть I. Подготовительный материал 2.4 Доказательство. Пусть А = В — С — слабо регулярное расщепление матрицы А, Тогда 0 < В~~]С = /Г (В — А) = /— В" А и В~1А <[ /. Аналогично из условия СБ >- 0 мы получим, что АВ~~1 <; / и, следовательно, Б — подобратная матрица по отноше- отношению к А. Обратно, если матрица В~1>-0 является подобратной к Л, то 0 < /— В А = В~х (В — А) = В~1СУ откуда СВ~1 > 0. | 2.4.17. Пусть А? L(Rn) и А = В — С— слабо регулярное расщепле- ние. Неравенство р (В~1С) < 1 выполняется тогда и только тогда, когда матрица Л" существует и неотрицательна. Доказательство. Положим Я = В~~1С. Ясно, что Я > >• 0. Из отношений (I + H+ ... +Hm)(I — H) = I — Hm+\ B-x = (I—H)A~l A0) и того факта, что Л" > 0, вытекает, что 0<(/+ ••• +Ят)Б-1 = (/~Ят+1)Л~1<Л~1, Vm>0. Очевидно, что матрица В должна содержать в каждой строке по крайней мере один положительный элемент; отсюда следует, что суммы / + ••• + Нт ограничены сверху при всех т. Посколь- Поскольку Н > 0, то соответствующий ряд сходится, так что Нт Нк =0. Теорема 2.2.9 показывает теперь, что р (Я) < 1. Обратно, если р (Я) < 1, то на основании 2.4.5 (/ — Я) > 0. Это означает, что матрица Л существует и ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 2.4.1. Большинство результатов, приведенных в этом параграфе, можно най' ти у Варги [1962] и Хаусхолдера [1964], хотя в доказательствах, данных здесь, используются более глубокие идеи теории Перрона — Фробениуса неотрицатель- неотрицательных матриц. Эта теория позволяет в то же время усилить ряд теорем, если предпо- предполагать дополнительно неприводимость матриц. Например, можно показать, чтс если в теореме 2.4.9 В — неприводимая матрица, тор (С) = р (В) только тогда, когда \С\= В. Отсюда вытекает часто используемый результат, что р (В) < р (В + + Е)у если В ;> 0 — неприводимая матрица, а матрица Е ^ 0 отлична от нулевой. В несколько ином ключе, предположение о неприводимости в теореме 2.4.14 при- приводит к более сильному заключению, что Л > 0, т. е. что все элементы матрицы Л~~* являются положительными. Аналогично если в 2.4.5 В — неприводимая матрица, то (/ — В)~] > 0. ЗС 2.4.2. Понятие слабо регулярного расщепления было введено как обобще ние пренадлежащего Варге понятия регулярного расщепления в работе Ортеп и Рейнболдт [1967а] для решения некоторых задач, которые будут рассмотрень в гл. 13. ЗС 2.4.3. Всякое отношение х < у, определенное для некоторых пар векторо: xt У ? Rn> называется частичным упорядочением в Rnt если оно удовлетворяв'
2.4 Та. 2. Линейная алгебра 61 условиям (а) — (в) из утверждения 2.4.1. Частичное упорядочение в Rn называ- етсяУлинейным (или векторным), если, кроме того, выполняются условия (г) и (д) из 2?4.1. Таким образом, утверждение 2.4.1 показывает, что естественное упо- упорядочение A) является линейным частичным упорядочением в Rn. Другой пример линейного частичного упорядочения дается отношением: х < у тогда и только тогда, когда (Cx)i < {Су)и i = 1,..., п, A1), где С ? L (Rn) — любая невырожден- невырожденная матрица (У 2.4.4). Некоторые результаты 2.4 справедливы и для общих ли- линейных частичных упорядочений (см., например, Вандерграфт [1968]). УПРАЖНЕНИЯ У 2.4.1. Проверить утверждения 2.4.1 и 2.4.2. У 2.4.2. Показать, что условия C) и D) эквивалентны между собой и что любая /р-норма удовлетворяет условию C). У 2.4.3. Пусть А ? L (/?"). Показать, что матрица А неотрицательна тогда и только тогда, когда она изотонна. : У 2.4.4. Пусть С ? L (Rn) — невырожденная матрица. Показать, что упорядо- упорядочение (И) из ЗС 2.4.3 является линейным частичным упорядочением в Rn в том смысле, что выполняются условия из 2.4.1. У 2.4.5. Пусть D ? L (Rn)—диагональная невырожденная неотрицательная матрица. Показать, что fl х || = || Dx Ц^ — монотонная норма в Rn. У 2.4.6. Пусть Л? L(Rn). Показать, что тогда и только тогда матрица - А об- обратима и А 1> 0, когда существуют такие невырожденные неотрицательные матрицы Р, Q?L(Rn), что PAQ = l (Брэмбл и Хаббард [1964]). У 2.4.7. Пусть А?L(Rn). Тогда и только тогда А~~]^0, когда существует такая матрица B?L(Rn), что для матрицы С = А + В выполняются условия: (а) С-^О; (б) С-!Б>0 и (в) р(С~1В) < 1 (Прайс [1968]). У 2.4.8. Используя теорему 2.4.10, показать, что если А ? L (Rn) есть УИ-мат- рица и С — произвольная матрица, полученная из А заменой некоторых внедиа- гональных элементов нулями, то С будет М-матрицей и С < Л". У 2.4.9. Привести пример М-матрицы порядка 2, не являющейся ни неприводи- неприводимой, ни матрицей с преобладающей диагональю. У 2.4.10. Привести пример двух М-матрин порядка 2, сумма которых не есть М-матрица. у 2.4.11. Пусть С = В — Л, где /2—1 0\ /2—2 2 Л= 0 1—1,5=0 2—2 \—1 0 0/ \—1 0 1 Показать, что А — М-матрица и что А— В — С — слабо регулярное рас- ^пление матрицы Л, не являющееся ее регулярным расщеплением. 2-4.12. Пусть матрицы Л&? L(Rn), fe=l,2, имеют такие элементы a\f Q'v40, i+it flg>>Of что J?<^ /. /«1 я; 1Ф1 ПокДП°ЛОЖИМ> что ^' ~ матРИ1*а с неприводимо преобладающей диагональю.
Глава 3 АНАЛИЗ 3.1. ПРОИЗВОДНАЯ И ДРУГИЕ ОСНОВНЫЕ ПОНЯТИЯ В этой главе мы дадим обзор некоторых основных понятий п- мерного анализа, в частности изложим теорию производных Гато и Фреше. Напомним, что действительная функция / одной переменной на- называется дифференцируемой в точке х, если существует такое дей- действительное число а = /' (л:), что \im(\/t) If (х + t) -f (х) - at] =0. Это определение допускает естественное обобщение на случай п измерений. 3.1.1. Определение. Отображение F: D a Rn —*¦ Rm называется дифференцируемым по Гато (или G-дифференцируемым) во внут- внутренней точке х множества ?>, если существует такой линейный оператор А ? L (Rn, Rm), что для любого h ? Rn Q. | A) Заметим, что в силу 2.2.1 значение предела в D) не зависит от частного выбора нормы в Rm. Иными словами, если отображение F является G-дифференцируемым в точке х при какой-то одной нор- норме, то оно будет G-дифференцируемым в этой точке и при любой другой норме. Заметим также, что определение 3.1.1 содержит в качестве частного случая определение дифференцируемости для слу- случая одного измерения. Наконец, подчеркнем, что производная опре- определяется только во внутренних точках множества D, поэтому во всех последующих теоремах утверждение о том, что отображение F является G-дифференцируемым на множестве Do cr D, автоматиче- автоматически означает, что Do cz int (D). Как и в одномерном случае, существует не более одного линей- линейного оператора Л, для которого выполняется A). В самом деле, если соотношение A) справедливо для операторов Аг и Л2, то при произвольном h ? Rn и достаточно малом t > О | (А! — Л2) !г 1 < Г11| F (х + th) — Fx- tAxh \\ + Г11F (х + Щ - B)
S.I Гл. 3. Анализ 63 Так как правая часть неравенства стремится к нулю при t -> О, то мы получаем || (Ах — Л2) h || =0, значит, ввиду произвольности A 3.1.2. Определение. Если отображение F: D С Rn -* Rm является G-дифференцируемым в точке х ? int (D), то тот единственный ли- линейный оператор А ? L (/?\ /О, для которого выполняется ра- равенство A), называется G-производной отображения F в точке х и обозначается через Ff (x). | Если отображение F является G-дифференцируемым в каждой точке некоторого подмножества Do с Д то каждой точке х ? DQ ставится в соответствие линейный оператор F' (х). Таким образом, F' есть отображение множества Do в L(Rn, Rm). В частности, отоб- отображение F' непрерывно в точке х ? Do, если || F (х + h) — F' (х) || -> -^0 при ||/г||->0. Укажем теперь конкретное представление для F' (х) через част- частные производные компонент /ь ... , fm отображения F. Если А = = (aij), а в качестве А взят /-й координатный вектор ^;, то, как следует из A), lim (I//) |>, (x + te) - U (x) - tan I = 0. Это показывает, что для каждой функции ft в точке х существуют все частные производные и что = aih i, j = 1, ... , /г. Следовательно, матричное представление производной Fr (x) дает- дается матрицей Якоби C) В частном случае, когда отображение g: D a Rn -> R1 является функционалом, производная g' (x) представляется вектором-строкой g' (х) = (д^ (х), ..., dng (х)); соответствующий вектор-столбец gr (х)Т называется градиентом функционала g в точке х. Важно отметить, что из существования матрицы Якоби, т. е. из существования всех частных производных, еще не вытекает G-дифференцируемость отображения F (см. У 3.1.1). Более того, даже существование предела lim(l/0 [Т7 (л: + //г) — Fx] Для всех h ? Rn не означает, что отображение F имеет G-производ- ную в точке х (см. У 3.1.5 и ЗС 3.1.4). Многие свойства операции Дифференцирования для функций одной переменной распространяются
64 Часть I. Подготовительный материал 3.1 на случай G-производной. Так, например, если отображения Fx: ?>! cz Rn -> Rm и F2: D2 cr Rn ->- #'" имеют G-производную в точке х ? D, f) D2, то для любых скаляров аир отображение aFx + $F2 также имеет G-производную в точке х и + pf2)' (x) = аЛ (*) + р/^ (*) D) (см. У 3.1.8). С другой стороны, многие желательнее свойства утра- утрачиваются при переходе от случая одного измерения к случаю мно- многих измерений. Например, из существования G-производной в точ^ ке х не следует непрерывности отображения F в этой точке (см. У 3.1.4); можно, однако, доказать, что отображение F непрерывно, «когда у стремится к х по прямой». 3.1.3. Определение. Отображение F: D cz Rn -* Rm называется полунепрерывным в точке х ? D, если для любых h (= Rn и е > О найдется такое б =8 (е, К) > 0, что для |/|<8ha:+//i?D вы- выполняется неравенство \F (x -f th) — Fx \\ < е. | Пусть теперь отображение F является G-дифференцируемым в точке х. Тогда для любого фиксированного h ? Rn отображение G (t) = F (x + th), определенное для тех t, для которых х + th ? ? /5, будет дифференцируемым в точке 0 и G' @) = lim (I//) [G @ — G @)] = F (x) h. Следовательно, отображение G непрерывно в точке 0 и мы доказали следующее утверждение. 3.1.4. Если отображение F: D a Rn -> Rm является G-дифферен- G-дифференцируемым в точке х ? D, то оно полунепрерывно в этой точке. Для того чтобы восполнить отсутствие многих желательных свойств G-производной, вводят более сильное определение дифферен- дифференцирования. 3.1.5. Определение. Отображение F: D d Rn -> Rm называется дифференцируемым по Фреше (или F-дифференцируемым) в точке х ? int (D), если существует такой оператор А б L (Rn, Rm), что lim (I/I A|D \F(x + h) — Fx- Ah\\ = 0. E) Этот линейный оператор А обозначается опять через F'(x) и называ- называется F-производной отображения F в точке х. I Заметим, что из существования предела E) вытекает существо- существование предела A). Таким образом, отображение F является G- дифференцируемым в точке х, если оно F-дифференцируемо в этой точке. Отсюда вытекает, что все свойства G-производной автомати- автоматически выполняются и для F-производной. В частности, Лпроиз- водная определена однозначно и для нее имеет место матричное
S.I Рл. 3. Анализ 65 представление C). Обозначение F'(x) мы используем как для G, так и для F-производной, но в каждом конкретном случае будет точно указываться, какая производная имеется в виду. В упраж- упражнении У 3.1.6 приведен пример отображения, имеющего G-npo- изводную, но не имеющего F-производной. Условие E) является условием типа равномерности, и для слу- случая функционала /: D си R" -> 7?1 оно гарантирует существование касательной плоскости в точке х в обычном геометрическом смысле. Именно это условие равномерности позволяет распространить обыч- обычные свойства производных со случая одного измерения на случай п измерений. Вот пример: в противоположность весьма слабому утверждению 3.1.4 для G-производных, мы имеем теперь следующий результат. 3.1.6. Если отображение F: D a Rn -> Rm является /^дифферен- /^дифференцируемым в точке х, то оно непрерывно в этой точке. Более точно, существуют такие б > 0 и с > 0, что S (х, б) си D и \\F(x + h) — Fx\\<c\\h\\ при |А||<6. F) Доказательство. Так как х ? int (D), то найдется та- такое бх > 0, что х -\-h ? D, если только || h || < бх. Из E) следует тогда, что найдется б, 0 < б < б1э для которого каково бы ни было || А || < б. Поэтому в силу неравенства треуголь- треугольника неравенство F) выполняется при с =8 +\\ F' (х) |. | В следующем параграфе мы получим различные аналоги теоре- теоремы о среднем значении и с их помощью установим некоторые свой- свойства F- и G-производных. Здесь мы рассмотрим одно из наиболее важных свойств — цепное правило (правило дифференцирования сложной функции). Как обычно, для отображений F: Df cz Rn -> ->¦ Rm и G: Dg a Rm -> Rp их композиция H —G > F определяет- определяется равенством Hx =G (Fx) при всех х ? DH = {x ? Df \ Fx g ?D] 3.1.7. Цепное правило. Пусть отображение F: Df d Rn -> Rm имеет G-производную в точке х, а отображение G: Dg a Rm -> Rp имеет /^производную в точке Fx; тогда их композиция Н =G • F имеет G-производную в точке х и H'(x)=G'(Fx)F'(x). G) Если при этом F' (х) является /^-производной, то Н'(х) будет Л производной. Доказательство. Зафиксируем h ? Rn. По определе- нию х g int (DF) и Fx ? int (DG). В силу 3.1.4 отображение F полунепрерывно в точке х, и потому найдется такое б > 0, что 3 Д.ж. Or,
66 Часть 1. Подготовительный материал 3.1 х -f- thk Dt и F (х + th) ? Do при | t | < 6. Следовательно, при 0<|/|<в (\/\t\)\\H(x + t )-Hx-tG'(Fx)F'(x)h\\^ < A /111) || G (F (x + th)) - G (Fx) - G' (Fx) [F (x + th) - Fx] || + + (l/\t\)IG'(Fx)lF(x + th) -Fx-tF' (x) h]\\. (8) Так как отображение F является G-дифференцируемым, то второе слагаемое в (8) стремится к нулю при /-^0. Для тех значений 0< <|/|<б, для которых F (х + th) Ф Fx, первое слагаемое можно умножить и разделить на \\F(x + th) — Fx\\. Но \\F(x + th) — Fx\-> ->0, ибо F полунепрерывно в точке ху в то время как величина A /11 \) IIР (х + Щ — Fx || ограничена. Значит, поскольку отображе- отображение G является /^дифференцируемым в точке Fx, первое слагаемое в (8) стремится к нулю. Таким образом, левая часть неравенства (8) стремится к нулю, что и требовалось показать. В случае когда F'(x) является F-производной, применяем аналогичное рассуждение с использованием утверждения 3.1.6. В Отметим, что если отображение G имеет в точке х лишь G-произ- водную, то отображение Н может и не быть G-дифференцируемым (см. У 3.1.7). В заключение этого параграфа рассмотрим несколько других важных понятий анализа. Отображение F: DczRn-+Rm называется взаимно однозначным на множестве V aDy если Fx Ф Fyy каковы бы ни были ху у ? (/, хфу. В этом случае сужение (ограничение) Fy- U aRn-+Rm ото- отображения F на множество U, определенное равенством FyX = Fx для всех х ? U, имеет обратное отображение F~jjl на множестве F (U), т. е. существует отображение FJjx: F (U)-+U, для которого х = XFJJ1 (Fyx) при всех х ? U и у = Fv (FJjxy) при всех у ? F (?/). В част- частности, если U = D, то само отображение F имеет обратное отобра- отображение F~~\ определенное на множестве F (D). 3.1.8. Определение. Отображение F: D d Rn -> Rn называется гомеоморфизмом множества D на множество F (D), если оно взаимно однозначно на D и отображения F и F~] непрерывны на D и F (D) соответственно. | В дальнейшем нам понадобится различать разные типы непре- непрерывности. 3.1.9. Определение. Отображение F: D d Rn -> Rm называется непрерывным по Гёльдеру на множестве Doa D, если существуют такие постоянные с > 0 и р ? @, 1], что для всех х, у ? Do выпол- выполняется неравенство cly-xf. (9)
3.1 Гл. 3. Анализ 67 В случае р = 1 отображение F называется непрерывным по Лип- Липшицу на Do. I Заметим, что если отображение F является G-дифференцируемым на множестве Do, то, как вытекает из утверждения 3.1.9, применен- примененного к производной F'\ Do-+ L (Rn, Rm)> эта производная непре- непрерывна по Гёльдеру на Do, если \\Ff(y)-Ff{x)\\^c\\y-xl\ Vx,y?D0. Иногда мы будем применять модификацию определения 3.1.9 для случая одной отдельной точки. А именно, мы будем говорить, что отображение F непрерывно по Гёльдеру в точке х, если условие (9) выполняется для всех у из некоторой окрестности точки х. Заметим, что в силу 3.1.6 ^-дифференцируемая в некоторой точке функция непрерывна по Липшицу в этой точке. Если отображение F непрерывно по Гёльдеру на множестве DOi то величина <*(() = sup {lFx-Fyl\x,y?D09 lx-yl^t) A0) корректно определена и ограничена величиной ctp. Более общо, легко видеть, что для любого равномерно непрерывного на множе- множестве Do отображения F верхняя грань в A0) конечна для всех t из некоторого интервала [0, а), а > 0. (Заметим, однако, что если отображение F только непрерывно, то это неверно; см. У 3.1.12.) 3.1.10. Определение. Пусть отображение F: D d Rn -> Rm равно- равномерно непрерывно на множестве Do с: D. Функция со, определен- определенная равенством A0) для всех t > 0, для которых со (t) < + оо, на- называется модулем непрерывности отображения F на множестве Do. I Очевидно, что со — изотонная функция и со @) = 0. Часто бы- бывает полезно знать, когда со определена и непрерывна на всей полу- полуоси [0, со). Удобным достаточным условием для этого служит сле- следующее условие на множество Do. 3.1.11. Пусть отображение F: D cz Rn ->• Rm равномерно непрерыв- непрерывно на выпуклом множестве Do с D. Тогда модуль непрерывности отображения F на множестве Do определен и равномерно непреры- непрерывен на [0, со). Доказательство. Пусть задано />0. Выберем б>0 так, чтобы при всех || я — #|| < 6 выполнялось неравенство ||Fx — Fy\ < < t. Выберем, далее, число т так, чтобы б < t/m. Тогда для любых точек х, у ? DOf для которых || х — у\\ < /, точки xk = х + kb {у — х), 6 = 0, 1, ..., т—1, и хт = у лежат все в Do и удовлетворяют условию [я*— xk~~l\\ <б, k = 1, ..., т. Поэтому \\Fx - Fyjl < ? I Fx>> - Fx"-11 < mt, так что ш (t) < -j- оо при всех / ? 10, оо).
68 Часть I. Подготовительный материал 3.1 Для доказательства непрерывности возьмем две произвольные точки 1г и t2 из [0, оо), по крайней мере одна из которых отлична от нуля, и для произвольных х, у? Do, где \\х — у\\ <^ +12, поло- положим 2 = *+['i/('i + '2)J@ —*)• ТогАа *€Ц>, I* — *\\<*1 и IV — — г||</2, так что Следовательно, со (tx + 12) < о (у + со (у, V /lf t2 6 [0, оо), откуда вытекает, что MW-<o('i)l<©(|/a-M), Vflf *a6[0,oo). (И) Так как в силу равномерной непрерывности отображения F функ- функция со непрерывна в точке 0, то неравенство A1) доказывает равно- равномерную непрерывность функции со. | Заметим, что если опустить условие выпуклости множества Do, то утверждение 3.1.11 перестает быть верным (см. У 3.1.13). Однако для того, чтобы функция со была лишь определена на всей полуоси [0, со), достаточно, чтобы множество Do было компактным (см. У 3.1.14). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 3.1.1. Большую часть материала этого и двух следующих параграфов можно найти в курсах анализа повышенного типа; см., например, Апостол [1957]. ЗС 3.1.2. Определение и результаты этого параграфа переносятся почти дословно на случай банаховых пространств. А именно, если задано отображение F: D с С X -> Y, где X и У — банаховы пространства, то Q- и /^производные определя- определяются так же, как и в п. 3.1.1, 3.1.2 и 3.1.5, только теперь А — линейный оператор из X в К, причем большинство авторов предполагает, что оператор А ограничен. Результаты 3.1.4, 3.1.6 и 3.1.7 вместе с их доказательствами остаются верными и в этой более общей ситуации. Относительно анализа в банаховых пространствах см., например, Дьёдонне [I960], Канторович и Акилов [1959] и Вайнберг [1956]. ЗС 3.1.3. Более общий подход к дифференцированию связан с понятием диф- дифференциала. Если имеется отображение F: D с Rn -> Rm и если при некоторых к ? int (D) и h? Rn существует предел lim(l/0 [F (х + th)—Fx] = V (х, h), то говорят, что отображение F имеет дифференциал Гато (или G-дифференциал) в точке х по направлению h. Если величина V (х, h) существует при всех h? Rn и линейна по h, т. е. если V (х, h) = A (x) h, где А (х) ? L (Rn, Rm), то очевидно, что А (х) = F (х) является G-производной отображения F в точке х. Тем не ме- менее может быть так, что дифференциал Гато в точке х существует при всех h ? Rn, а производная Гато в точке х не существует (см. У 3.1.5). Если G-дифференциал в точке х существует при всех h и, кроме того, Игл A/Ц ЛЦ) Ц/? (jc + Л) — Fa? — К (лг, Л)||=»0, A2) ft0
3.1 Гл. 3 Анализ 69 то говорят, что отображение F имеет в точке х дифференциал Фреиге. Связь между всеми этими понятиями схематически изображена на рис. 3.1, где слова «равно- «равномерность по /i» означают, что выполнено условие A2). Отметим, что если Q-диф- Q-дифференциал V (х, h) существует для всех х из некоторой открытой окрестности точ- & - дифференциал линейность поh/ ^\павномерность по h G, -производная*^ \ F-дифференциал равномерность полЧ /линейность по h F- производная Рис.3.1. ки х0 ? Int (D) и при всех h ? Rnt то отображение F имеет /•'-производную в точ- точке х° при условии, что при каждом фиксированном h величина V (х, h) непрерывна по х в точке а:0. Доказательство этого факта, а также дальнейшее обсуждение свойств дифференциалов можно найти, например, у Вайнберга [1956]. УПРАЖНЕНИЯ У 3.1.1. Определим отображение /: R2 -» R1 равенствами f(x) =#1, если х2 = 0; /(л:) = д:2, если хг =* 0, и /(*) = 1 в остальных случаях. Показать, что суще- существуют обе частные производные d-J @) и д<?ф), но отображение/ не имеет G-производной в точке 0. У 3.1.2. Пусть А? L(Rn). Определим отображение /: Rn -> Я1 формулой / (*) = = х1Ах. Показать, что / имеет F-производную в каждой точке х ? RHi и вычис- вычислить /' (х). У 3.1.3. Определим отображение /: R2 -> R1 равенствами / @) =» 0 и f (х)— = xxx\i(x\ + х\) в остальных точках. Показать, что lim A //) [/ (//г) — / @)] суще- сущего ствует при всех h?R2t но что отображение / не имеет G-производной в точке 0. Показать также, что / не является непрерывным в точке 0. У 3.1.4. Определим отображение /: R2 -> R1 условиями: /(*)=¦() при хх = 0 и / (х) =» 2*2 ехр (— х1)/{х22 + ехр (— 2xJ~2) при хх Ф 0. Показать, что в точке 0 отображение / имеет 0-производную, но не является не- непрерывным. ^ 3.1.5. Определим отображение /: R2 -> R1 равенством / (д:) = sgn (x2) min (| хх |, \хг\). Показать, что при любом h ? R2 V @, К) ж lim (Щ [/ Щ - / @)] - / (Л), /->о «о отображение / не имеет G-производной в точке 0.
70 Часть I. Подготовительный материал 3.2 У 3.1.6. Определим отображение /: R2 -> R1 так: / @) = 0 при х = 0 и / (х) = х2 (х\ + x22)z/>/[(x] + 42 + 4 ПРИ х + °- Показать, что в точке 0 отображение / имеет G-производную, но не имеет F-npo- изводной. Показать также, что G-производная полунепрерывна в 0. У 3.1.7. Определим отображение/: Я2-*/?1, как и в У 3.1.6, а отображение — G: R2 ~> R2 — равенством Gx = (xv лфт. Показать, что композиция / • G не имеет G-производной в точке 0. У 3.1.8. Установить свойство D) как для G, так и для F-производной. У 3.1.9. Дать подробное доказательство теоремы 3.1.7 для случая, когда F' (х) является ^-производной. У 3.1.10. Пусть / (*) =з || х || р есть /р-норма, где р ? [1, оо). Найти производные dif (x) для произвольной точки х, ни одна из координат х\ которой не обраща- обращается в нуль. Имеет ли функция f F- или G-производную в таких точках х? Что можно сказать дополнительно про случай р = 2? У 3.1.11. Пусть отображение F: Rn -* Rn будет G-дифференцируемым в некото- некоторой открытой окрестности точки х°, а производная F' непрерывна в точке х°. Если матрица F' (#°) обратима, то найдется такое б > 0, __что матрицы F' (х) обратимы и их обратные F' (х)~~1 ограничены при всех *? S(x°> б). У 3.1.12. Рассмотрим такие функции F: DqCZR1 -> R1: (a) D0 = @, I), Fx = — х~~х\ (б) Do = @, оо), Fx = х2. Показать, что в каждом из этих случаев верх- верхняя грань в A0) равна +оо при любом t > 0. У 3.1.13. Пусть Do с R1 — множество вида Do = U [2A;, 2k + 1]. Определим отображение Т7: Do -> Z?1 условием: fjc = k2 при д: f [2k, 2k + 1]. Показать, что отображение Т7 равномерно непрерывно на множестве DQt но что верхняя грань в A0) равна +со при всех t > 1. У 3.1.14. Пусть Отображение F: D с /?n -> /?m непрерывно на компактном мно- множестве D0CZ D. Показать, что модуль непрерывности со отображения Т7 на мно- множестве Do определен и ограничен на [0, оо). У 3.1.15. Тензорное произведение АхВ двух матриц Л, В ? L (Rn) определя- определяется как п2 X /г2-матрица А X В = (а;/ Б | it j =r 1, .... /г); здесь Л = (ац). Рассмот- Рассмотрим два F-дифференцируемых отображения Я, К: L (Rn) -» L (Rn) и положим F{X)^H (X) К (X) при всех X ? L (Я"). Показать, что F' (X) « [Я (X) X /] /С' (X) + [/ X К (Х)т] Я' (X), у* 6 L Ю- 3.2. ТЕОРЕМЫ О СРЕДНЕМ Наиболее часто используемыми утверждениями о производных оудут теоремы о среднем значении. В этом параграфе собраны раз- различные результаты такого типа вместе с некоторыми приложе- приложениями. Повсюду через [х, у], х, у ? Rn, обозначается замкнутый интервал х Часто употребляется также термин отрезок.—Прим. ред.
3.2 . Гл. 3. Анализ 71 Сначала мы напомним стандартную теорему о среднем значении для функций одной переменной. 3.2.1. Если функция ф: [a, b] a Rl -> R1 непрерывна на [а, Ь] и дифференцируема на (а, Ь), то существует такое i ? (а, 6), что фF)_ф(а) =ф'(/)F-а). В качестве непосредственного следствия этого одномерного ре- результата получаем следующее утверждение для функционалов. 3.2.2. Пусть функционал /: D a Rn -> Rl является G-дифференци- руемым в каждой точке выпуклого множества Do a D. Тогда для двух любых точек х, у ? Do найдется такое / ? @, 1), что fiy)-t (х) = Г (х +.ИУ- х)) (у - х). A) Доказательство. При заданных х, у ? Do немедленно получаем, что функция ср (s) =/ (x +s (у — х)) дифференцируе- дифференцируема и, следовательно, непрерывна на [0, 1] и что <p'(s)=f'(x+s{y-x))(y-x) Vsg[O, 1], откуда в силу 3.2.1. при некотором / ? @, 1) | Важно заметить, что теорема 3.2.2 уже не справедлива для ото- отображений F: Rn -> Rm, m> 1 (см. У 3.2.1). Имеются, однако, три обходных пути, каждый из которых может оказаться полезным при определенных обстоятельствах. Первый из них — это непосред- непосредственное применение теоремы 3.2.2 отдельно к каждой компоненте отображения F. А именно, если отображение F: D a Rn ->¦ R G-дифференцируемо на открытом выпуклом множестве Do a D и а-, у ? Do, то Fy-Fx^B(x,y)(y-x)y B) где матрица В (х, у) ? L (Rn, Rm) строится по компонентам Д, ... ••., f,n отображения F, как и в 3.2.2. Точнее, существуют такие т t,n g @, 1), что fh(x + t1(yx)\ В(х9у)=1 : . C) I*метим, что, вообще говоря, все ti различны между собой и ^ (х, у) не является G-производной, взятой в некоторой промежуточ- промежуточной точке. Второй путь состоит в оценке нормы разности Fy — Fx через F\ 3-2.3. Пусть отображение F: D d Rn -> Rm G-дифференцируемо JIa'выпуклом множестве DodD. Тогда для любых х, у ? Do -yl D)
72 Часть /. Подготовительный материал S.5 Доказательство. Пусть М = supfl/7' (л: + /(# — *))||< °°. Для заданного е>0 обозначим через Г множество тех / ? [О, 1J, для которых xl E) Очевидно, что 0 ? Г, поэтому число у =sup/ корректно опреде- определено. Так как, согласно 3.1.4, отображение F (х + t (у — х)) не- непрерывно по t, то F) В силу произвольности е наше утверждение доказано, если у = 1. Пусть у < 1. Так как в точке х +у (у — х) производная F' существует, то найдется такое р ? (у, 1), что и, следовательно, Но тогда из F) вытекает, что IF (х + P(f/-x)) - ЛгК (MY + 87)||t/- xj + (M + e) (P-v) X Таким образом, неравенство E) выполняется при A > ) р > у, что противоречит определению числа у. | Приведем два полезных следствия, непосредственно вытекаю- вытекающих из теоремы 3.2.3. 3.2.4. Если отображение F: DcRn -+ Rm G-дифференцируемо на вы- выпуклом множестве DodD и || F' (х) | < М < + оо для всех а: ? Do, то отображение F непрерывно по Липшицу на Do. 3.2.5. Если отображение F: DaRn-+Rm является G-дифференци- G-дифференцируемым на выпуклом множестве Do a D, то для любых х, у, z ? Do G) Доказательство. Для фиксированного х ? Do рассмот- рассмотрим отображение Gw ~Fw — F' {x) w>w ? D. Очевидно, что Gудо- Gудовлетворяет условиям теоремы 3.2.3, а так как G' (w) — Fr (w) — Ff (x), то неравенство G) принимает вид Третий подход к теоремам о среднем значении базируется на следующей основной теореме интегрального исчисления.
3.2 Гл. 3. Анализ 73 3.2.6. Если функция /: [a, b] cz R1 -+ R1 непрерывна на [а, Ы и производная /' интегрируема по Риману на (а, Ь)9 то Для отображения G: [а, 61 с Rl -> #m определим интеграл от этого отображения через его компоненты gl9 ..., gm по формуле (8) Будем говорить, что отображение G интегрируемо по Риману на [а, Ь], если каждая его компонента интегрируема по Риману. Пусть теперь отображение F: D cz Rn -> Rm имеет G-производную в каж- каждой точке отрезка U, у] cz D. Тогда в силу 3.1.4 каждая из функций ft (х + НУ — х)) непрерывна по t на отрезке. Поэтому, если диф- дифференциалы //' (х + t (у — х)) (у — л:) как функции от t интегрируе- интегрируемы по Риману на отрезке [0, 1], то в силу 3.2.6 \ (9) о Следовательно, используя определение (8), можно переписать (9) в виде 1 F'(x + t{y-x)){y-x)dt. A0) Для интегрируемости производной /' на отрезке [а, Ь] достаточно непрерывности /' на этом отрезке. Следовательно, для того чтобы было выполнено равенство A0), достаточно непрерывности произ- производной F' (х + t (у — х)) по t на отрезке [0, 1]. Так как определе- определение 3.1.3 полунепрерывности можно, конечно, применить и к отоб- отображению F'\ Rn ->- L (Rn, Rm)t то мы получаем следующий ре- результат. 3.2.7. Если отображение F: D a Rn -+ Rm имеет G-производную в каждой точке выпуклого множества Docz D и производная F' полунепрерывна на Do, то при любых х, у ? Do выполнено равен- равенство A0). Теперь мы рассмотрим несколько простых следствий из теорем о среднем. Первое из них состоит в том, что если производная F' непрерывна в точке х} то F'(x) является /^-производной.
74 Часть /. Подготовительный материал 3.2 3.2.8. Если отображение F: D d Rn -> Rm имеет G-производную в каждой точке некоторой открытой окрестности точки х и производ- производная Fr непрерывна в х9 то отображение F будет ^-дифференцируе- МЫМ В X. Доказательство. Пусть задано 8 > 0. Найдется такое б > 0, что [| F' (х + К) — F' (х) || < е при || Л || < б- Следователь- Следовательно, согласно 3.2.5, Заметим, что производная F' непрерывна в точке х тогда и толь- только тогда, когда все частные производные djj непрерывны в х (У 3.2.5). Однако непрерывность частных производных не является необходимым условием существования F-производной (У 3.2.4). Будем говорить, что отображение F: D a Rn -> Rm непрерывно дифференцируемо на открытом множестве Do a D, если оно имеет непрерывную G-производную (и, следовательно, непрерывную F-производную) на этом множестве. Одно полезное условие на ^-производную, тесно связанное с не-, прерывностью этой производной, приводит к следующему понятию. 3.2.9. Определение. F-производная отображения F: D cz Rn -+ Rm в точке х° ? D называется строгой, если для любого заданного 8 > > 0 найдется такое б > 0, что S (л:0, б) cz D и lFy-Fx-F'(x?){y-j<)t<Ely-xl V х, у ?S (x\ 8). | A1) 3.2.10. Пусть отображение F: D cz Rn -> Rm имеет ^-производ- ную в каждой точке некоторой открытой окрестности точки х ? D. Производная F' в х строга тогда и только тогда, когда она непре- непрерывна в х. Доказательство. Предположим сначала, что производная F' непрерывна в точке х. Пусть задано е>0. Тогда найдется такое 6>0, что S (х, б) cz?>_и \\F'(x + h) — F'(x)I^B при ||/i||<6. Сле- Следовательно, для у, z ? S (jc, б) и t? [0, 1 ] мы имеем откуда в силу 3.2.5 <*1у*1 Обратно, пусть производная F' (х) строга. По заданному е > 0 выберем б > 0 так, чтобы производная F' (w) существовала при всех w ? S (х, 6/2) и чтобы выполнялось неравенство A1). Тогда
3.2 Гл. 3. Анализ Т5 для произвольного А ? Rn и w ? S (х, 6/2) можно выбрать такое / > 0, зависящее от w, что | th || < 6/2 и \\F(w + th) — Fw — F' (w) (th)||< e||th||. Используя A1) и замечая, что || w + th — х || < 6, находим || [/?' (ш) _ /7' (д)] (/Л) ,| < | F {w + Щ -Fw-F' (X) (th) || + + \\F (w + th) — Fw — F' (w) (th)\\ < 2e/\\h\. Поэтому I [Ff (w) — F' (x)] AI < 2e J A J и в силу произвольности hiF'(w)-F'(x)l<2B. I Отметим, что в У 3.2.4 дан пример функции F одной переменной, имеющей в точке х строгую производную несмотря на то, что F яв- является дифференцируемой в каждой точке никакой открытой окрест- окрестности точки х. Для последующих приложений нам понадобится следующая лем- лемма об интегрировании. 3.2.11. Если отображение G: [a, b] cz Rl -> Rm непрерывно на отрезке [a, b]t то Доказательство. Так как норма является непрерыв- непрерывной функцией, то функция |G(-)|| интегрируема по Риману. По- Поэтому для произвольного е > 0 существует такое разбиение а < <to< ... <tp<b, что G(Od*-jGft)ft-fc-i)J<e a l"—-1 | J IG (I) I dt - 2 IG (tt) I (tt - tt.x) | < e. Следовательно, llr II " II " II )G (t) dt < 2 G (td (t( - U-i) + e < S G ft) || ft - /,-_!) + e < °ткуда в силу произвольности е и вытекает наше утверждение. | Используя результаты 3.2.7 и 3.2.11, выведем следующую часто встречающуюся оценку.
76 Часть /. Подготовительный материал 8.2 3.2.12. Пусть отображение F: D a Rn -> Rm непрерывно диф- дифференцируемо на выпуклом множестве Do cz D. Предположим, что производная F' удовлетворяет условию \F'(u)-F(v)\<a\u-vt% 4uyv?DOy A2) где а > 0 и р > О — некоторые постоянные. Тогда для любых х, у ? ?>о \))U( \x\\p+]. A3) Доказательство. В силу 3.2.7 и 3.2.11 \Fy-Fx-F'(x){y-x)\ = i t(y-x))-F'(x)\\\\y-x\\dt<*\\y-x\\p+l$fdt. о ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 3.2.1. Доказательства теорем 3.2.1 и 3.2.6 можно найти, например, у Апосто- Апостола [1957, стр. 98 и 213]. ЗС 3.2.2. В теореме 3.2.2 требуется по существу лишь дифференцируемость по направлению у — х. Предположим, что в терминологии ЗС 3.1.3 отображение F имеет G-дифференциал V (w, у — х) для всех w из отрезка [л:, у] по направлению у — х. Тогда опять функция G (/) = F (х + t (у — х)) дифференцируема на [0, 1] и существует t ? @, 1), такое, что Fy — Fx = V (х + t (у — х), у — #). ЗС 3.2.3. Понятие строгой /^-производной использовалось явно или неявно мно- многими авторами, но теорема 3.1.10 представляется новой. ЗС 3.2.4. Все результаты этого параграфа остаются в силе и в том случае, когда F — отображение между банаховыми пространствами. Единственное видоизме- видоизменение нужно сделать в связи с определением интеграла A0), который уже нельзя определять через компоненты отображения F, Относительно понятия интеграла в этом случае и свойств этого интеграла см., например, Канторович и Акилов [1959] и Вайнберг [1956]. УПРАЖНЕНИЯ У 3.2.1. Пусть отображение F: R2 -> R2 задается равенствами ft(x) = х\, /2 (х) = = л|. Возьмем * = 0 и у*=A, 1)т. Показать, что не существует точки z? G [^i у]* Для которой x). A4) У 3.2.2. Пусть F: Rn -> Rn — диагональное отображение (определение 1.1.1), G-дифференцируемое на Rn ^ Показать, что для любых х, у ? Rn найдется такое 2, что равенство A4) выполнено, но что г не обязательно принадлежит отрезку [х, у].
S.S Гл. S. Анализ 77 У 3.2.3. Пусть отображение F: D с Rn -» Rm имеет G-производную в каждой ючке открытого выпуклого множества Dn cz D и F' (х) = 0 для всех х ? Do. Пока- Показать, что отображение F постоянно на Do. У 3.2.4. Определим отображение /: [—1, 1] -*- Z?1 равенствами / @) = 0 и / (х) = | х\1 (п + 1), если 1/ (л + 1) < | *| < 1//г, /г = 1, 2 Показать, что производная f @) существует и является строгой. У 3.2.5. Показать, что если отображение F: D с: Rn -> Rm имеет G-производную в каждой точке некоторой открытой окрестности точки х, то эта производная F' непрерывна в х тогда и только тогда, когда все частные производные д;// непре- непрерывны в х. У 3.2.6. Пусть отображение F: D с Rn ~* Rm непрерывно дифференцируемо на выпуклом множестве Do с D. Показать, что для любых х, у f D{) \\Fy-Fx-F'(x)(y-x)\\<\\y-x\\(*(\\y-x\\)y где со — модуль непрерывности производной F на отрезке [х, у]. 3.3. ВТОРАЯ ПРОИЗВОДНАЯ Если отображение F: DczRn-+Rm имеет G-производную в каж- каждой точке множества Do с D, то у нас имеется отображение F': Do с: cRn->- L(Rn, Rm). Так как пространство L(Rn, Rm) опять является нормированным линейным пространством (размерности р =тп), то мы можем снова применить определение дифференцируемости к отображению F' для того, чтобы получить вторую производную отображения F. 3.3.1. Определение. Пусть отображение Ft DczR11-^^71 имеет G- производную в каждой точке открытого множества DocD. Если отображение F'\ DoaRn-+ L (Rn, Rm) имеет G-производную в точке х ? ? Do, то эта производная (Т7')' (х) обозначается через F" {х) и назы- называется второй G-производной отображения F в точке х. Если F' имеет F-производную в точке х, то F" называется второй F-про- F-производной в точке х. | Производные порядка выше двух определяются аналогичным образом: применение основного определения к производной F{p~~l) дает производную Flp) (см. ЗС 3.3.2, 3). Стоит отметить, что вторая F-производная отображения F была определена через первую G-производную этого отображения. Одна- Однако применяя теорему 3.1.6 к F' вместо F, мы видим, что если F"(x) является F-производной, то F9 непрерывна в точке х, а отсюда выте- вытекает в силу 3.2.8, что производная F'(x) сама является /^производ- /^производной. Таким образом, для существования у отображения F второй ^-производной необходимо, чтобы F имело первую F-производную в точке х. Если вторая G-производная F" (х) существует, то по определению F "(x) g L (/?", L (R\ Rm)). Иными словами, F" (x)h?L G?n, Rm)) для каж- каждого к? Rn,u опять по определению lim A/01Р' (х + Щ - F' (х) - tF" (х) Ц = 0. A)
78 Часть I. Подготовительный материал 3.3 Для удобства мы будем обозначать элемент [F" (x) A] k пространства Rm через F" (x)hk. Важно отметить, что отображение В: Rl x /?"-> -^Я™, определенное равенством В (A, k) = [F" (x) h] k, линейно по каждой из векторных переменных h и k. Следовательно, оно явля- является билинейный. Итак, производную F" (х) можно естественным образом интерпретировать как билинейное отображение простран- пространства Rn х Rn в Я. Для получения конкретного представления второй G-производной F" (х) через частные производные компонент fv ..., fm отображения F рассмотрим сначала функционал f: DcRn -+R1. Если /" (х) су- существует, то, применяя соотношение A) к базисным векторам в1, .„, еп, получим lim A/0 |/' (х + te) ef — f' (x)ej—tf" (x) eV| = О, откуда Г (*) *V = Шп A/0 [djf (x + te) - d,f (x)] = dfif (x), П п Поэтому если h = 2 hfi1 и k = то n n f" {x) hk = 2 2 hikjf" {x) ele] где через Я/ (х) обозначена п х я-матрица, называемая матрицей Гессе: (х) .., dndj(x)\ : • B) ... ww/ Концептуально важно делать различие между линейными отображе- отображениями f (х) 6 Ь (#\ ^ (Rn, R1)) и Я^ (л:) б ^ (V). Отметим, что если F(x)=f'(x)T, то F' (x) ~ Hf(x), т. е. матрица Гессе функционала f является производной градиента функционала f. Пусть теперь дано отображение F: D с: Rn -> /?m. Рассмат- Рассматривая по отдельности каждую из его компонент /х, ...,/т, сразу же получаем, что элемент F" {x) hk g Rm имеет представление [Fn (x) hk]T = (kTH^ (х) А, ^ТЯ2 (х) А, ... &тЯт (х) А), C) где Нх(х), ... , Нт(х) — матрицы Гессе компонент /х, ... , fm в точке х. Если производная F' (я) есть F-производная, то она явля- является также и G-производной и имеет, конечно, то же самое пред- представление C).
3.3 Гл. 3 Анализ 79 Норма производной F" (х) в пространстве L (Rn, L (R'\ Rm)) опре- определяется естественным способом. А именно, для любого h ? R \\F" (x)h\\ =sup {\\F" (x)hk\\\\\k\\ =1, ft б Ят| и, следовательно, \F (x)\\ = sup\\F" (x)h\\ = sup sup \\F" (x)Aft fl. Непрерывность производной F" определяется, конечно, с помощью этой нормы, так что производная F" непрерывна в точке х, если |! F" (х) — F" (у) | -> 0 при у -> х. Легко проверить, что F" непре- непрерывна в точке х тогда и только тогда, когда все частные производ- производные второго порядка компонент/1э ..., /т непрерывны в х (см. У 3.3.1). Непосредственное применение теоремы 3.2.8 к (F')' дает нам следующий результат о второй производной. 3.3.1. Если отображение F: D cz R" -> Rm имеет вторую С-про- изводную во всех точках некоторой открытой окрестности точки х из D и эта вторая производная F" непрерывна в точке х, то F" (х) является ^-производной. Важное свойство второй производной — ее симметричность. 3.3.3. Определение. Пусть отображение F: D cz Rn ~> Rm имеет вторую G-производную в точке х g Z). Эта производная F" (х) называется симметричной, если F" (x) hk = F" (x) kh при всех ft, ft € Rn. I Легко видеть, что производная F" (х) симметрична тогда и только тогда, когда каждая матрица Гессе Н± (х), ..., Нп (х) сим- симметрична (см. У 3.3.2). Основной результат о симметричности про- производной F" (х), представляющийся довольно удивительным, со- состоит в следующем. 3.3.4. Если отображение F: D cz Rn -> Rm имеет в точке х вто- вторую F-производную, то эта производная F" (х) симметрична. Доказательство. Пусть задано е > 0. Выберем такое б > 0, что F' (у) существует и удовлетворяет неравенству \\F' (у) - F' (х) - F (х) (у- х)|| < в|х- г/||, D) как только \х — у\<Ь. Пусть теперь h,k?Rn лежат в S@, 6/2). Тогда отображение G: [0, 1] с R1 -> Rm> где G (/) = F {х + th + k) — — F(x-\-th) дифференцируемо на [0, 1] и С (/) = F (х + th + k)h — F' (x + /A)ft. Следовательно, для любого t 6 @, 1) мы имеем в силу D) IIС (/) - F" (х) kh\\ < I[F (х + th + k)-F (x) - F (x) (th + k))h\\ + {х + щ-F (x)-F (х) (ЩЦ<т(г№ + Ц + г\\Щ\) < <2elh\\(\\h\\+\\kl).
80 Часть I. Подготовительный материал 3.3 Поэтому || G' (t) - G' @) I < || G' @ - F" (х) kh 1 +1| С @) - F" (х) kh || < и из теоремы о среднем 3.2.5 следует, что IIG A) - G @) - F" (х) Щ < || G A) - G @) - G' @) J + JG' @) - < бе||ft||(||h|| + ||fe||). E) Поменяв местами h и k, мы можем применить те же самые рассуж- рассуждения к отображению G (/) = F (х + /i + ^0 — ^ (^ + ^) и получить, что Но G A) — G @) =G A) — G @), откуда ||^(^)АЛ-Р(^)ЛЛК6в(||Л|| + ||А||)«. F) Итак, неравенство F) выполнено для любых h и & из 5 @, 6/2). Но ввиду произвольности А, & ? /?/l можно выбрать такое / > 0, что || th || < 6/2 и || Ik \\ < 6/2, и потому Значит, неравенство F) выполнено для произвольных A, k ? Rn, а так как г > 0 произвольно, то F" (x) A& — F" (x) kh = 0. | В отличие от F-производной вторая G-производная не обяза- обязательно симметрична (У 3.3.3). Заметим также, что из утверждения 3.2.8 (примененного к отображению F') и утверждения 3.3.4 выте- вытекает, что если все вторые частные производные компонент ото- отображения F непрерывны в точке х> то производная- F" (х) симмет- симметрична. Применим теперь теоремы о среднем из § 3.2 к F". Стоит отме- отметить, что следующие три теоремы являются просто приложениями соответствующих теорем § 3.2 к отображению F": Doa Rn -> ->L (R'\ Rm). Первая наша теорема— непосредственное следствие теоремы 3.2.3. 3.3.5. Если отображение F: D cz Rn -> Rm имеет вторую G-произ* водную в каждой точке выпуклого множества Do en D, то для лю- любых х,у ? Do \\F'(y)-F'(x)\\<suv\\F"(x + t(y- ozt^\ Из теорем 3.3.5 и 3.2.5 получаем теперь такую оценку для Fy — - Fx-F' (x)(y-x).
3.3 Гл. 3. Анализ 81 3.3.6. Если отображение F: D a Rn -> Rm имеет вторую G-npo- изводную в каждой точке выпуклого множества Do с: Ь, то для любых х, у ? Do \Fy-Fx-F(x)to-x)\< sup Доказательство. В силу 3.2.5 и 3.3.5 имеем \Fy-Fx-F(x){y-x)\< "(x + st(y-x)\\\\t(y-x)\\}. Ho sup sup IF" (x + st(y-x))|| = sup||F"(x + t(y — x))\\, откуда и вытекает наше утверждение. | Определение 3.1.3 полунепрерывности годится, конечно, и для F". Поэтому мы можем применить теорему 3.2.7 к F'. 3.3.7. Если отображение F: D a Rn -> Rm имеет полунепрерыв- полунепрерывную вторую G-производную в каждой точке выпуклого множества Do с D, то для любых х, у ? DQ 1 F' (у) -F (х) = \F"(x + t (y-x)) (y-x) dt. О Далее мы установим некоторые результаты, основанные на формуле Тейлора второго порядка для функций одной переменной. 3.3.8. Если отображение ср: [0, 1] с R1 -> R1 дважды дифферен- дифференцируемо на @, 1) и ср и q/ непрерывны на [0, 1], то найдется такое t G @, 1), что Ф A) — Ф @) — Ф' @) = 4" Ф" (О- G) Если, кроме того, производная ф" интегрируема по Риману на @, 1), то 1 ер A) - Ф @) - ср' @) = J A -1) Ф" (/) dt. (8) о Заметим теперь, что утверждение 3.1.4 непосредственно пере- переносится на случай вторых производных. 3.3.9. Если отображение F: D с Rn ->- Rm имеет вторую G-npo- изводную в точке л*, то первая производная Fr полунепрерывна в х. По аналогии с 3.2.2 мы получаем следующий результат отно- относительно второй производной. ^•3.10. Пусть отображение /: D cz Rn ->- R1 имеет вторую G-про- G-производную в каждой точке выпуклого множества Do с: D. Тогда
82 Часть I. Подготовительный материал 3.3 для любых х, у ? Do найдется такое t ? @, 1), что 4 Г(х + *{У Доказательство. Для заданных х, у ? Do существует такоэ б > О, что х + t(y — х) ? Do при всех / ? «/ = (— б, 1+6). Следова- Следовательно, отображение ср: J -> R1, определенное равенством ср (/) = — fix + Цу — х)), дифференцируемо на J и ф' (t) = f (x + t{y — — х))(у—х). Далее, для любого ^«/производная ф';(/) сущест- существует и Ф" (t) = lim i [f'(x + (s + t) (y - x))(y- x)- f'(x+t (y- x))(y- x)]=* 0b Отсюда следует, в частности, что производная ф' непрерывна на [О, 1]. Таким образом, можно применить 3.3.8, что с учетом G) дает для некоторого / ? @, 1). | Далее мы воспользуемся интегральным представлением (8). За- Заметим прежде всего, что если отображение G: [О, Ц-^Щ71 имеет вторую G-производную на отрезке [0, 1], то в силу 3.1.4 и 3.3.9 оба отображения G и G': [0, 1 ]->?(#", Rm) непрерывны на [0, 1], и потому если производная G" интегрируема по Риману на [0, 1], то мы можем применить 3.3.8 к каждой компоненте gh i = 1, ..., /n, отображения G. Отсюда вытекает, что (8) справедливо для самого ; —G@)-G'@)=[ A) — = [(l-t)G"(t)dt. (9) 3.3.11. Пусть отображение F: D cz Rn -> Rm дважды G-диффе- ренцируемо на выпуклом множестве Do cz D и производная F" полунепрерывна в каждой точке х б Do. Тогда для любых х, yZD0 1 A0)
3.3 Гл. 3. Анализ 83 Доказательство. Для заданных х> у ? Do рассмотрим ото- отображение G: Jd R1 -> /Г, G(t) = F(x + t(y — *)), fg/, где J = = (— б, 1 + б) — некоторый интервал, выбираемый, как и в дока зательстве теоремы 3.3.10. Тогда опять, как и в случае теоре- теоремы 3.3.10, найдем, что G»(t)=F"{x + t(y-x) (y-x)(y-x)) при всех t ? J. Но из полунепрерывности производной F" на множестве Do следует, в частности, что производная G" непрерывна на J и, следовательно, интегрируема по Риману. Значит, можно применить (9), что и дает A0). I Этот параграф мы завершим теоремой, в какой-то мере анало- аналогичной теореме 3.3.6. 3.3.12. Пусть отображение F: DaRn-+Rm имеет вторую G-npo- изводную в точке х ? D. Тогда при любом h?Rn Hm (I//2) [F (x + th) -Fx-Ff (x) (th) - -±-Г (х) (th) (th)\ = 0. Если при этом F" (x) является F-производной, то lim A/1| h ||2) \F (x + h) — Fx — F' (x) h — ^F" (x) hh] = 0. A1) л-*о L г \ Доказательство. Для заданного h ? Rn положим G(t)=F(x + th) -Fx — Ff (x) (th) - ~- F* (x) (th) (th). Так как F" (x) существует, то отображение G корректно определено и дифференцируемо при достаточно малых t и G' (t) == F' (х + th)h — Fr (X)h — tFff (x)hh. Из определения второй G-производной вытекает, что для всякого заданного е > 0 найдется такое б > 0, что (С (ОН < 8 \t \ при I /1 < б, и в силу 3.2.3: sup-IC'(e/)I|/|<e|/pf В случае когда F" (х) является /^-производной, соотношение A1) Доказывается аналогично. Действительно, положим R(h)=F(x + h) — Fx — F' (х) h - \р" (х) hh\ отображение R корректно определено и G-дифференцируемо в не- к°торой окрестности точки х. Далее, для любого заданного 8 > 0 найдется такое б > 0, что № \F'(x + h)-F (x)-F*(x)h\<*\h\% V/ig5@, 6),
Часть I. Подготовительный материал 8.3 и потому, согласно 3.2.3, каково бы ни было ||Л||< б. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 3.3.1. Доказательство теоремы 3.3.8 можно найти, например, у Апостола A957, стр. 96 и 246]. Доказательство теоремы 3.3.4 взято у Дьёдонне [1960]. ЗС 3.3.2. Отображение М: Rlli X ••• X R р -*• Rm называется полилинейным, если Mix1, ..., xl~~l, •, я1"*, ..., хр) для всякого i и для любых фиксирован- фиксированных х ?R К /=¦1, •••> Р> / Ф U является линейным оператором из R * в R . В частном случае р = 2 получаем билинейное отображение. Подробное обсужде- обсуждение свойств полилинейных отображений имеется, например, у Гройба [1967]. Если отображение F: Rn -> Rm имеет р-ю G-производную в точке х} то, как и выше для р = 2, существует естественная интерпретация производной F^ ix) как полилинейного оператора из Rn X • • • X Rn [P раз] в Rm. ЗС 3.3.3. Большая часть результатов этого параграфа естественным образом обобщается на случай производных высших порядков. Так, например, если про- производная F^ (x) является ^-производной, то она симметрична в том смысле, что где A, ..., p)-»(f'i, ..., ip) —произвольная перестановка индексов 1, ..., р. Спра- Справедливы следующие аналоги теорем 3.3.6 и 3.3.11: если отображение F:Dcz ClRn -> Rm имеет р-ю G-производную в каждой точке выпуклого множества Doc D, то для любых ху у ? Do Если, кроме того, производная F(p) полунепрерывна на [х, у], то -x))(y-xfdt. Доказательства легко проводятся по индукции с использованием тех же рас- рассуждений, что и в теоремах 3.3.6 и 3.3.11. Дальнейшее обсуждение свойств высших производных можно найти, например, в книгах Апостола [1957], Дьёдон- Дьёдонне [1960] и Канторовича и Акилова [1959]. ЗС 3.3.4. Все результаты этого параграфа остаются в силе и в том случае, ког- когда F — отображение между банаховыми пространствами при надлежащем опре- определении интеграла (см. ЗС 3.2.4).
3.4 Г л 3. Анализ 85 УПРАЖНЕНИЯ У 3.3.1. Пусть дано отображение F: D с Rn -» Rm. Показать, что производная F" непрерывна в точке х° ? D тогда и только тогда, когда все вторые частные про- производные компонент }ъ ..., fm отображения F непрерывны в х°. У 3.3.2. Пусть дано отображение F: D с Rn -> Rm. Показать, что производная F" (а:0) симметрична тогда и только тогда, когда каждая из матриц Гессе Ях (*°), ... ..., Нт (х°) симметрична. У 3.3.3. Определим отображение /: R2 -» R1 равенствами / @) = 0 и при л: ^ 0. Показать, что отображение / имеет G-производную в точке 0 и что \\m(\/t)[fr (th) — /' @)] существует при всех h?R2, но что / не имеет второй G-производной в нуле. Показать также, что dxd2f @) Ф d2dj @). 3.4. ВЫПУКЛЫЕ ФУНКЦИОНАЛЫ В этом параграфе приведены некоторые основные свойства чрезвычайно важного класса функционалов, который наряду с различными его обобщениями будет играть большую роль на всем протяжении книги. 3.4.1. Определение. Функционал g: D с Rn -> R1 называется вы- выпуклым на выпуклом множестве Do с D, если для любых д\ у ? Do и 0<а<1 g(a^ + (l~a)y)<ag(jf) + (l-a)g(»). A) Функционал g1 называется строго выпуклым на Do, если в A) при любых х Ф у имеет место строгое неравенство и равномерно выпук- выпуклым на Do, если существует такая постоянная с > 0, что для лю- любых х9 у ? DQn0<a<l «g(x) + (l-a)g(y)-g(*x + [l-a]y)>ca(l-a)\\x-yfA Bf Очевидно, что из равномерной выпуклости следует строгая вы- выпуклость, а из последней в свою очередь — выпуклость. Заметим также, что в силу теоремы об эквивалентности норм 2.2.1 функцио- функционал g, равномерно выпуклый в какой-либо норме, будет равномер- равномерно выпуклым и в любой другой норме. Прототипом всех выпуклых функционалов является функцио- функционал g (х) = хТАх, где А — симметричная положительно полу- определенная матрица (см. У 3.4.1). Мы увидим, что удивительно много свойств переносится с этого частного случая на случай вы- пУклых функционалов общего вида. Начнем с леммы, которая
86 Часть I. Подготовительный материал 3.4 показывает, что неравенство A) остается верным для выпуклых комбинаций любого числа точек. 3.4.2. Пусть функционал g: DaRn-+-R1 выпукл на выпуклом мно- множестве DoczD и *°, ..., хт — произвольные точки из Do. Тогда m для любых неотрицательных чисел а0, ..., ат с 2 а* = 1 > *Li Wig \X) • \д) Доказательство. Применим индукцию по т. Очевидно, что C) выполнено при /п =1 в силу выпуклости функционала g. Допустим теперь, что m-l при условии, что 2 Pi = 1 и Pt>0, i = 0, >.., m—1. Имеем t=0 m m—1 x Л/ V^ —- л? ^ |^У /л? i v'' i I fy yW ^ atx — у j?j v^i/У) x -f- (лтх , i=0 i=0 m—1 где у — 2 ai- Можно считать, что у>0,—в противном случае i=0 утверждение тривиально. В силу выпуклости функционала g и не- неравенства D) g (JS a,^*) < yg Г2 (а,/7) *Ч + ami V=o / \i=o / 2 ig () i=0 Используя утверждение 3.4.2, докажем теперь следующий важ- важный результат о непрерывности. 3.4.3. Пусть функционал g: D cz Rn -> Rl выпукл на открытом выпуклом множестве Do cz D. Тогда он непрерывен на DQ. Доказательство. Пусть х° — произвольная точка из Do. Так как множество Do открыто, можно найти такие п + 1 точек х1, ..., л^+^Д), что внутренность выпуклой оболочки С = 1*1*:* = 2 a^S at > 0, 2 «^ = 1 непуста и х° б int С. Положим a = max ^(*1'). Тогда в силу 3.4.2 c, E)
3.4 Гл. 3. Анализ 87 т. е. функционал g ограничен сверху на С. Далее, поскольку х° ? ? intC, найдется такоз 8>0, что S(x°. б) си С. Следовательно, для произвольных Л ? 5 @, б) и А, ? [0, 1 ] мы имеем х° = [ 1/A + X)] (*° + Щ + [ty(l + Ц] (*° - Л), и потому g (х°) пли ввиду E) Аналогично g (х° + Щ <kg (x° + h) + (\—I) g (x°), так что и, значит, | г (jco + ЯЛ) _ g (хо) | < Я [ | ff (х«) | + сх]. Пусть теперь нам задано е>0. Выберем такое б' < б, что б' [ | g (*°) | + а] < еб. Для любой точки А ? S @, б'), представив ее в виде k = ЯЛ с ||Л| = б, имеем | g (х° + А) — g (л:0) |< е. | В общем случае выпуклая функция, область определения кото- которой не является открытой, не будет непрерывной, как показы- показывает пример функции g: @, 1] <~ /?' ^ R\ g (t) =0, / ? @, 1), ?(!)= 1. Часто оказывается не слишком удобным использовать само исходное определение выпуклого функционала. Ниже мы укажем некоторые дифференциальные неравенства, характеризующие вы- выпуклость. 3.4.4. Пусть функционал g: D с: Rn -+ Rl имеет G-производную на выпуклом множестве Do cz D Этот функционал будет выпуклым на Do в том и только в том случае, когда r/6D0. % F) Он будет строго выпуклым на Do тогда и только тогда, когда в F) при любых х Ф у выполняется строгое неравенство, и равно- равномерно выпуклым тогда и только тогда, когда найдется такая по- постоянная с > 0, что g(V)-g(x)>g'(x){y-x)+c\x-yf, Vx, y?D0. G) Доказательство. Предположим сначала, что при не- некотором с > 0 выполняется G). Для заданных х, у ? Do и 0 <, < а < 1 положим z =ах + A — а) у. Тогда z ? Do и в силу g(x)-g(z)>g'(z)(x-z)+c\)x-zf, -г)+ c\\y-zf.
88 Часть I. Подготовительный материал 3.4 Умножая эти неравенства на а и 1 — а соответственно и складывая их, получаем ^g(x) + (l-a)g(y)-g(z)^a[g(x)-g(z)]+(l-a)\g(y)- гГ}=саA-а)\х-уГ, (8) поскольку выражение в первых квадратных скобках равно нулю, а ||х — г||2 = A— aJ||* — yf, Iy — zf = a2\\x—yl2. Поэтому если с > О, то (8) показывает, что из G) вытекает равномерная выпук- выпуклость. Если же с = 0, то (8) показывает, что из F) следует выпук- выпуклость функционала g. Кроме того, если с = 0 и в F) при х Ф у имеет место строгое неравенство, то строгим будет и неравенство (8). Обратно, предположим, что функционал g равномерно выпукл. Тогда для х, у ? Ьо и достаточно малых t > О имеем g(y)-g(х) >A/0 lg(x + t(y-x))-g(x)) + (l-f)c\\x-y\f, (9) и при ^-^ 0 получается G). Если функционал g выпукл, то нера- неравенство (9) верно при с = О, откуда следует F). Наконец, если функ- функционал g строго выпукл, то, применяя F) к точкам х и z = -у (х + ' +у), получим Геометрическая интерпретация условия F) состоит в том, что график выпуклого функционала лежит выше любой касательной к нему плоскости. С помощью теоремы 3.4.4 выведем теперь следующие соотно- соотношения, которые показывают, что gr является так называемым монотонным отображением (см. определение 5.4.2 и теорему 5.4.3). 3.4.5. Пусть функционал g: D a Rn -> R1 имеет G-производную на выпуклом множестве DoczD. Функционал g выпукл на Do тогда и только тогда, когда Ы' (У) - g' (х)] (У - х) > О, V х, у € Do. (Ю) и строго выпукл на Do тогда и только тогда, когда в A0) при лю- любых х Фу выполняется строгое неравенство. Наконец, функцио* нал g равномерно выпукл на Do тогда и только тогда, когда [g'(y)-g'(x)](y~x)>2c\\y-xf, Vx,yeD0, A1) где с > 0 — постоянная из условия B),
ЗА Гл. 3. Анализ 89 Доказательство. Если функционал g равномерно вы- выпукл на Do, то для любых х, у ? Do мы имеем в силу 3.4.4 g(y)-g(x) >g' W (У-*) + c\\y-xl\ y)(xy) + c\\x-yf ( > а если он выпукл, то неравенства A2) выполняются при с = 0. Складывая эти неравенства, видим, что выполняется A1) и, сле- следовательно, что при с = 0 выполнено и неравенство A0). Если, далее, функционал g строго выпукл, то имеют место строгие нера- неравенства A2) с с = 0 при х Фу. Отсюда вытекает строгое неравен- неравенство A0) при хФ у. Для доказательства обратного утверждения заметим, что из теоремы о среднем 3.2.2 вытекает существование такого / ? @, 1), что g(y)-g(x)=g'(u)(y-x), A3) где и —х + t (у — х). Используя A0), находим, что \g' (и) - g' (х)) (у - х) = A//) [gr' (и) - fir' (х)) (и - х) > 0 A4) и, значит, g(y)-g(x) = lg' (u)-g' (x)) (y-x)+gr (x) {y-x) > >g'(x)(y-x). A5) Последнее неравенство означает в силу 3.4.4, что функционал g является выпуклым. Если в A0) при х Ф у имеет место строгое неравенство, то такое же неравенство будет выполняться и в A4), так что g — строго выпуклый функционал. Наконец, пусть выполняется A1). Положим tk *=k /(т -\- 1), k =0, 1, ..., т + 1, где т >0 — произвольное целое число. По тео- теореме 3.2.2 о среднем значении найдутся такие числа sk, что g (x + tk+l (y — x)) — g(x + tk iy — x)) =g'(x + sk (y — x)) X X Ун-1 — *к)(У — х), tk<sk<tk+l, Следовательно, m S lg' (X + Sk(y- X)) - g' (X)] (tk+l - tk) (y - A) + k0 S l k=0 > Щу-xf S D+1 - tk) sk + g' (x) (y-x). Но к~° m m
90 Часть I. Подготовительный материал S.4 и так как число m можно взять произвольно большим, то Равномерная выпуклость функционала g вытекает поэтому из 3.4.4. | Мы завершим этот параграф характеризацией выпуклости в терминах второй производной. Вторая G-производная функцио- функционала g называется положительно определенной в точке х, если g" (x) hh> О при всех h ? R'\ h Ф 0; положительно полуопре- полуопределенной в точке х, если g" (x) hh > 0 для всех h ? Rn> и равномерно положительно определенной на множестве Do, если существует та- такая постоянная с> 0, что g"(x)hh>c\\hf, VhZR\ x?D0. A6) Заметим, что эти определения не требуют симметричности произ- производной g" (x). Отметим также, что производная g" (x) положительно определена тогда и только тогда, когда положительно определена матрица Гессе Hg (x). 3.4.6. Пусть функционал g: D cz Rn -> R1 имеет вторую G-npo- изводную в каждой точке выпуклого множества Do = D. Этот функционал будет выпуклым на множестве Do в том и только в том случае, когда производная g" (x) положительно полуопределена при всех х ? Do. Далее, g будет строго выпуклым на Do> если произ- производная g" (х) положительно определена при всех х ? Do, и рав- равномерно выпуклым на Do, если и только если производная g" рав- равномерно положительно определена на Do. Доказательство. Пусть х, у ? Do. По теореме о среднем 3.3.10 на отрезке [х, у] найдется такая точка и, что x) = -Lg'(u)(y-x){y-$. A7) Если производная g" положительно полуопределена, положительно определена или равномерно положительно определена на DOr то по теореме 3.4.4 функционал g будет соответственно выпуклым, строго выпуклым или равномерно выпуклым на Do. Обратно, если g является равномерно выпуклым на Do, то в силу 3.4.5 f (x) hh - lim A//) [g' (x + th) - g' (x)] h > >lim(l//2Jc|!//zij2 = 2^||/z||2, Vx?D0, h?R\ A8) где с — постоянная из условия B). Поэтому производная g" рав- равномерно положительно определена на множестве Do. Наконец, если функционал g выпукл, то теорема 3.4.5 гарантирует выпол- выполнение условия A8) при с =0 и производная g" (x) положительно полуопределена, в
3.4 Гл. 3. Анализ 91 Заметим, что в теореме 3.4.6 не содержится утверждения, что строгая выпуклость влечет за собой положительную определенность, И действительно, функция Z4 строго выпукла, но ее вторая про- производная обращается в нуль при t = 0. Однако теорему 3.4.6 можно несколько усилить, так чтобы охватить и этот пример (У 3.4.4). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 4.4.1. Понятие выпуклого функционала восходит по крайней мере к Минков- скому [1892]. Имеется несколько стандартных текстов по выпуклым множествам и функционалам; это, например, книги Эгглстона [1958] и Фенхеля [1953] и соот- соответствующие части книги Бержа [1959]. Заметим, что определения выпуклости и строгой выпуклости немедленно обобщаются на случай произвольных линейных пространств, а понятие равномерной выпуклости имеет смысле банаховых прост- пространствах. Ниже в ЗС 4.3.3 обсуждаются более общи^ определения равномерной выпуклости. ЗС 3.4.2. В последующих параграфах будут даны различные обобщения понятия выпуклого функционала. В частности, в гл. 4 мы будем иметь дело с квази- и псев- псевдовыпуклыми функционалами, а в гл. 13 понятие выпуклости обобщается на слу- случай отображений со значениями в Rm. ЗС 3.4.3. Теорема 3.4.3 — это только слабое отражение свойств регулярности, которыми обладают выпуклые функционалы. Скажем, если функционал g: D с С Rn -> R1 выпукл на открытом выпуклом множестве D, то его F-производная gf существует и непрерывна почти везде. Доказательство этого факта и некоторые дополнительные результаты о высших производных см., например, у Фенхеля [1953]. Относительно обобщений на случай банаховых пространств см. Асплунд [1968]. ЗС 3.4.4. Основное дифференциальное неравенство F) является классическим и принадлежит, по-видимому, Минковскому [1892]. Соответствующее утверждение о второй производной (т. е. то, что функционал g выпукл тогда и только тогда, когда вторая производная g" (х) положительно полуопределена) восходит к Раде- махеру [1922]. Теоремы 3.4.4—3.4.6 для строго выпуклых функционалов менее известны. Необходимые условия на производную g", при которых g будет строго выпуклым, были как будто бы известными лишь для одномерного случая (отно- (относительно этого последнего см. Берж[1959] и У 3.4.4). Результаты о равномерной выпуклости были впервые получены Поляком [1966] и затем доказаны в большей общности Элкином [1968]. Теоремы 3.4.4, 3.4.5 и 3.4.6 и их доказательства обобща- обобщаются на произвольные банаховы пространства и были доказаны в этом случае Элкином [1968]. См. также Качуровский [1960, 1962] и Минти [1964]. ЗС 3.4.5. Функционал g: D с Rn -* R} называется выпуклым относительно середины на выпуклом множестве Do с D, если vx, y?D0. Интересно, что функционал, выпуклый относительно середины, не обязательно ЭДет выпуклым, если только он к тому же не непрерывен (см. У 3.4.7). УПРАЖНЕНИЯ *4.1. Пусть Л ? L (Rn) —симметричная матрица. Определим функционал 1 ~* ^ Равенством g (*) = хТАх. Используя непосредственно определение *» показать, что g выпукл тогда только тогда, когда матрица А положительно
92 Часть I. Подготовительный материал 3.4 полуопределена. Показать также, что g как строго, так и равномерно выпукл .тогда и только тогда, когда матрица А положительно определена. У 3.4.2. Показать, что функционал g: D(ZRn -*• R1 будет выпуклым на выпук- выпуклом множестве D тогда и только тогда, когда для любых х, y?D функция /: [0, 1] -»/?1, fit) =*g(tx + (\ -t)y) выпукла на [0, 1]. У 3.4.3. Показать, что если функционалы gf\ Rn -» R1 выпуклы и %i > 0, i = м = 1, ..., М, то функционал g = 2 ^i§i также выпукл. Показать, что если, i=i кроме того, Xk > 0 и при некотором k функционал gk строго или равномерно выпукл, то g также будет соответственно строго или равномерно выпуклым. У 3.4.4. Пусть функционал g: D a Rn -> R1 дважды непрерывно дифференци- дифференцируем на выпуклом множестве Do с D. Показать, что g является строго выпуклым на Do, если производная g"(x) положительно полуопределена на Do и положи- положительно определена везде, кроме некоторого множества, не содержащего ни одно- одного отрезка прямой. Вывести отсюда, что дважды непрерывно дифференцируемая функция /: R1 -> R1 строго выпукла тогда и только тогда, когда /" (t) > 0 и /" не обращается в нуль ни на каком открытом интервале. У 3.4.5. Рассмотрим функционал g: R2 ~> R1, g (х) = х\ + х\. Показать, что он строго выпукл на Rn> но что g" (x) не будет положительно определена на луче {*еДп|*а = 0} (Элкин [1968]). У 3.4.6. Показать, что функция g (t) = A + t2I/z, t?Rx, является строго, но не равномерно выпуклой на R1. У 3.4.7. Пусть функционал g: D С Rn -> R1 непрерывен на выпуклом множе- множестве Do С D и удовлетворяет условию при всех х, у ? Do. Показать, что g выпукл на Do, если у = 0, и равномерно выпукл, если у > 0. (Указание: доказать по индукции, что m2^kg (ж) + A - tn2~k) g{y)-g (m2-kx + A - тГ~к) у) > > 47/п2**л A — тТ~к) || х — у f, где m и k — целые числа, причем 0 < m<! 2k.)
Часть II НЕКОНСТРУКТИВНЫЕ ТЕОРЕМЫ СУЩЕСТВОВАНИЯ В этой части собраны образчики различных теорем существо- существования и единственности, доказываемых неконструктивными мето- методами. В противоположность этому в части V будет приведено много других теорем существования, доказательство которых состоит в проверке того, что некоторая последовательность, порожденная итерационным процессом, сходится и что ее предел является ре- решением рассматриваемого уравнения. Мы не ставили своей целью дать исчерпывающий обзор теорем существования. Это вышло бы за рамки настоящей книги. Тем не менее большинство главных подходов, по крайней мере для слу- случая конечных размерностей, здесь охвачено. В гл. 4 мы имеем дело с градиентными операторами, т. е. с опе- операторами F, которые являются производными от некоторых дей- действительных функционалов g. Для таких операторов оказывается возможным исследовать вопросы существования и единственности решения уравнения Fx = О путем изучения связанной с ним зада- задачи отыскания минимизаторов функционала g. Основные резуль- результаты этой главы относятся к выпуклым функционалам, хотя все рас- рассмотрения ведутся в большей общности. В гл. 5 мы излагаем два подхода к теоремам существования для случая, когда F не является градиентным оператором. Пер- Первый из этих подходов — теорема о сжимающих отображениях (ко- (которая изучается также гораздо более подробно в гл. 12). Она в свою очередь позволяет дать простые доказательства теорем об обратной и неявной функциях. Теорема об обратной функции поставляет классическое достаточное условие того, что отображение является локальным гомеоморфизмом. В связи с этим возникает вопрос, который изучается с помощью техники продолжения, когда локаль- локальный гомеоморфизм является глобальным гомеоморфизмом. Наконец, в гл. 6 мы развиваем теорию степени отображения — мощный инструмент, который позволяет, в частности, дать про- простое доказательство классической теоремы Брауэра о неподвиж- неподвижной точке, а также более недавние результаты о монотонных ото- отображениях.
Глава 4 ГРАДИЕНТНЫЕ ОТОБРАЖЕНИЯ И МИНИМИЗАЦИЯ 4.1. МИНИМИЗАТОРЫ, КРИТИЧЕСКИЕ ТОЧКИ И ГРАДИЕНТНЫЕ ОТОБРАЖЕНИЯ В этой главе мы рассмотрим различные теоремы существова- существования и единственности, связанные с минимизацией функционалов на/Л 4.1.1. Определение. Пусть дан функционал g: D d Rn -> R1. Точка x* ? D называется локальным минимизатором для g, если существует такая окрестность S этой точки, что при всех х ? S П A) Точка х* называется истинным локальным минимизатором для g, если в A) при всех х ?'S [) D9 х Ф х*9 имеет место строгое не- неравенство. Если A) выполнено для всех точек х некоторого под- подмножества Do множества D, содержащего х*, то х* называется глобальным минимизатором функционала g на Do. | Аналогичным образом можно определить локальный и глобаль- глобальный максимизаторы. Однако задача отыскания максимизатора для g эквивалентна задаче отыскания минимизатора для —g, и поэто- поэтому мы можем ограничить наше внимание минимизаторами. Понятие локального минимизатора находится в тесной связи с понятием критической точки. 4.1.2. Определение. Точка х* ? int(D) называется критической точ- точкой функционала g: DelRn->7?1, если g имеет G-производную в jc* и g' (х*) = 0 [или, что то же самое, g' (х*)Т = 0]. Связь между этими двумя понятиями устанавливается следую- следующей основной теоремой. 4.1.3. Пусть x*?int(D) является локальным минимизатором для g: D aRn-yRl. Если g имеет G-производную в х*у то g' (х*) = 0. Доказательство. Так как х* ? int(Z)) и х* является ло- локальным минимизатором, то g (г* + th) — g (x*) > 0 для любого h ? Rn и всех достаточно малых t. Отсюда следует, что /->0-f l и так как h произвольно, то g' (х*) = 0.
4.1 Гл. 4. Градиентные отображения и минимизация 95 Конечно, совсем не обязательно, чтобы локальный миними- затор х* был критической точкой, даже если х* ? int (D). Напри- Например, точка х* =0 является локальным минимизатором функции g: R1 -> R1, g (x) ===== | jc /, но не является критической точкой, так как gr @) не существует. С другой стороны, критическая точка не обязана быть локальным минимизатором, как показывает пример функции g: R1 -> R1, g (x) = г\ Вторая производная от g, если она существует, несет всю необходимую информацию, гарантирующую, что критическая точка является также минимизатором. 1.1.4. Пусть дан функционал g: D с. Rn ->- R1. Предположим, что существует вторая G-производная от g в точке х* ? int (D). Если х* — критическая точка для g и вторая производная g" (x*) поло- положительно определена, то х*—истинный локальный минимизатор функционала g. Обратно, если х* является локальным минимизато- минимизатором, то g" (х*) положительно пол у определена. Доказательство. Пусть х* — критическая точка и вто- вторая производная g" (л**) положительно определена. Тогда, как видно из 3.3.12, для любого фиксированного h ? Rn, h Ф 0, lim 4- IS (** + th)-g (x*)] = -i- ё" (**) hh> B) откуда g (x* + th) — g (x*) > 0 для достаточно малых /. Так как h произвольно, это показывает, что х* — истинный локальный ми- минимизатор. Обратно, пусть х* — локальный минимизатор и g' (x*) не положительно полуопределена. Тогда существует такое ft, что g" (х*) hh < 0 и, согласно B), для достаточно малых t мы имеем g* (** + th) — g (**) < 0 — противоречие. | Вообще говоря, в теореме 4.1.4 нельзя менять ролями опреде- определенность и полуопределенность. Например, функционал g: Z?1-»»/?1, g (х) = хА имеет истинный локальный минимизатор в точке 0, хотя g" @) = 0. Отсюда следует, что производная g" (а:*) в истинном ло- локальном минимизаторе не обязана быть положительно определенной. С другой стороны, пример функционала g: R1 -> /?\ g (х) = Xs по- показывает, что положительной полуопределенности производный g" в критической точке х* недостаточно, чтобы гарантировать, что ** является локальным минимизатором. Задача отыскания критических точек функционала g в точности совпадает с задачей решения системы уравнений F^=0, где F -сть отображение F: D a Rn -> Rn, определенное равенством Fx = ^g' WT, x ? D. Наши последние два результата^ содержащиеся 3 теореме 4.1.4, в свою очередь показывают, что задача отыскания критических точек функционала g в некоторых случаях эквивалент- ^а задаче отыскания минимизатора для g. Другими словами, если F является производной от некоторого функционала, то задача решения системы Fx = 0 может быть иногда заменена задачей
9б Часть II. Неконструктивные теоремы существований '4. минимизации этого функционала. Как уже отмечалось в гл. 1. это служит одним из оснований для рассмотрения задачи отыска ния минимизаторов функционалов. Естественно возникает вопрос: насколько общ класс систем вида Fx = 0, которые могут быть решены таким образом? 4.1.5. Определение. Отображение F: D cz Rn -> Rn называется градиентным (потенциальным) отображением на подмножестве Do с D, если существует G-дифференцируемый функционал g: Do cz Rn ->- R1, такой, что Fx = g' (x)T для всех х ? Do. I На поставленный выше вопрос по существу полностью отвеча- отвечает следующая теорема. 4.1.6. Принцип симметричности. Пусть отображение F: D а С Rn -> Rn непрерывно дифференцируемо на открытом выпуклом множестве Do a D. Отображение F является градиентным на Do тогда и только тогда, когда производная Ff(x) симметрична при всех х d Do. Доказательство. Если F — градиентное отображение, то F' (х) =Нё (х), где Hg (x) — матрица Гессе C.3.2) для g*, а симметричность Hg (x) следует из 3.3.2 и 3.3.4. Обратно, пусть матрица Гессе Hg (х) симметрична при всех х б Do. Для произ- произвольного, но фиксированного х° ? Do определим функционал g: Do -> R1 равенством i g (x) = f (x - x»)TF (jfi +t(x- x")) dt. C) Так как множество Do выпукло и отображение F непрерывно, то очевидно, что функционал g корректно определен на Do. Далее, для любых двух точек х, у ? Do имеет место тождество 1 g (У) — g (х) = J (У - х)т • F (х° +1 (у — х°)) dt + о 1 + J (x— x°)T[F (х° + t (y—xo))) — F(x° + t{x + x°))]dt. о Обозначая второй интеграл через J и используя теорему о среднем 3.2.7, замену переменных s -> s/t, симметричность F' (х), изменение порядка интегрирования, замену переменных t -> (t — s)/(l — s) и повторно теорему 3.2.7, мы найдем, что 1 / J = J* j (x — x°yF' (x° + t(x—x°)+s(y — x)) (y — x)dsdt = 0 о 1 I в И {У — X?F> № + t(x — x?) + s{y — x)) {x — х°) ds dt =- о о
4.1 Гл. 4. Градиентные отображения и минимизация 97 1 1 = j J (y — x)TF' (x° + t{x + x°)+s(y — x)) (x — x<>)dtds= + s(y-x°))]ds. Таким образом, l Далее, пусть у = х + th, где t достаточно мало. Тогда 1 g' (x)h = lim-^-[g(* + th) — g{x)\ = lim J hTF(x + sth) ds = hTFx, и, поскольку h произвольно, мы получаем Fx =g' (х)т. | Заметим, что формула C) дает способ построения функцио- функционала g no F. На первый взгляд только что доказанный принцип симмет- симметричности налагает жесткие ограничения на класс систем, которые могут быть решены посредством минимизации некоторого нелиней- нелинейного функционала. Однако всегда имеется простой путь преоб- преобразовать задачу решения системы Fx = 0 в задачу минимизации, даже если F не является градиентным оператором. Пусть /: Rn-^RX — функционал, обладающий тем свойством, что у него имеется единственный глобальный минимизатор х = 0. При- Примерами таких функционалов служат, скажем, / (л;) = хтАх, где А — некоторая симметричная положительно определенная матрица, или f(x)=|jc||, где справа стоит произвольная норма в Rn. Далее, для заданного отображения F: DcRn-*Rn рассмотрим функционал g: DcnRn-»R\ g(x)=f(Fx), x?D. D) Если система Fx = 0 имеет решение х* с D, то, очевидно, х* является глобальным минимизатором для g. В том случае, когда система Fx == 0 не имеет решения вО, а? является глобальным минимизатором функционала g наО, мы назовем х* ^минималь- ^минимальным решением системы Fx = 0. Если, в частности, / (л:) =хтх, то /-минимальное решение называется решением по методу наи- наименьших квадратов. Заметим, что понятие /-минимального решения непосредственно обобщается на случай отображений F из Rm в Rn. В этом случае g является функционалом на некотором множестве D в Rm. 4 Дж. Ортега. В. Рейнболлт
98 Часть II. Неконструктивные теоремы существования 4.1 В то время как можно находить решения системы Fx = О, определяя минимизаторы функционала g, задаваемого формулой D), находить такие решения, определяя критические точки для g, возможно не всегда. Следующая теорема дает условие разреши- разрешимости нашей задачи в терминах критических точек функционала /. 4.1.7. Пусть /: Rn-+R1 F-дифференцируем на Rn и имеет единствен- единственную критическую точку при х = 0. Для данного F: DcRn->Rn рассмотрим функционал g: Dc^-^i?1, g{x) = f(Fx)y x?Dy и предположим, что в точке лс* ? int (D) отображение F имеет невы- невырожденную G-производную. Точка лг* является критической точкой для g тогда и только тогда, когда Fx* = 0. Доказательство. По цепному правилу 3.1.7 функцио- функционал g имеет G-производную в ** и g'(x*)=f'(Fx*)F'(x*). Если /У = 0, то g' (х*) =» 0, ибо 0 — критическая точка для /. Обрат- Обратно, если g' (х*) = 0, то f' (Fx*) = 0, так как производная F' (**) не- невырождена. Но / имеет только одну критическую точку 0, и, сле- следовательно, Fx* = 0. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 4.1.1. Определения 4.1.1 и 4.1.2 и теоремы 4.1.3 и 4.1.4 стандартны, их можно найти в учебниках по анализу повышенного типа. ЗС 4.1.2. Теорема 4.1.6 представляет собой по существу результат Кернера [1933]. ЗС 4.1.3. Идея решения уравнения Fx = 0 посредством минимизации функцио- функционала g (х) = (Fx)T Fx восходит по крайней мере к Коши [1847]. УПРАЖНЕНИЯ У 4.1.1. Пусть отображение F: R2 -* R2 определено формулой Fx =sBx1x2t x2{f. Найти такой функционал g: R2 -> Z?1, чтобы Fx ==> g' (x)T для всех x?R2. У 4.1.2. Пусть х* a D — изолированное решение системы Fx = 0, где F: Dd С Rn -*• Rn- Предположим, что функционал /: Rn -> R1 таков, что f @) < / (х) при всех х? Rn. Показать, что х* — истинный локальный минимизатор для g(x) = f(Fx), x?D. У 4.1.3. Пусть матрица А? L(Rn) симметрична и положительно определена. Для данного /^дифференцируемого отображения F: Dcz Rn -» Rn определим функционал g: D С Rn -> R1 формулой g (x) = (FxfA (Fx). Предположим, что производная F' (x*) невырождена при некотором х* ? D. Показать, что х* являе- является критической точкой для g тогда и только тогда, когда Fx* =» 0. У 4.1.4. Предположим, что функционал g: D с Rn -> R1 имеет G-производную на открытом, ограниченном множестве Do с D и непрерывен на Do Если су- существует такая точка *° с DQi что g (х, 0) < g (x) для всех х на границе DQl то
4.2 Гл. 4. Градиентные отображения и минимизация 99 g имеет критическую точку в Do. Используя это наблюдение, показать, что если й °, r)(ZD и || g' (х°) || < — сг, то g имеет хотя бы одну критическую точку в S (*0, г). 4.2. ТЕОРЕМЫ ЕДИНСТВЕННОСТИ Многие из вопросов, касающихся существования и единствен- единственности минимизаторов, тесно связаны с понятием множества уровня. 4.2.1. Определение. Пусть функционал g: DcRn-*R1. Любое не- непустое множество вида L (у) = {х ? D| g (х) < у], у ? R1, называе- называется множеством уровня функционала g. | В качестве непосредственного следствия того факта, что вся- всякая непрерывная функция на компакте принимает наименьшее значение, мы имеем следующий результат. 4.2.2. Если функционал g: D d Rn ->- R1 непрерывен и имеет не- некоторое компактное множество уровня, то существует #* cz D, такое, что g (х*) < g (х) для всех х 6 D. Заметим, что функция g: @, 1) -> R1, g (х) = х имеет ограни- ограниченные, но не замкнутые множества уровня и не достигает мини- минимума. С другой стороны, пример функции g (х) = ех9 х ? R1, по- показывает, что если все множества уровня не ограничены, то g может не иметь глобального минимума. В следующем параграфе мы займемся более подробно вопросом существования минимизаторов. В оставшейся части данного па- параграфа мы рассмотрим вопрос о единственности локального и глобального минимизаторов и критических точек, а также близ- близкий вопрос о том, когда локальный минимизатор является гло- глобальным. Эти вопросы тесно связаны со свойствами связности мно- множеств уровня, и поэтому мы введем следующий общий класс функ- функционалов. 4.2.3. Определение. Функционал g: D С Rn -> R1 называется связ- связным на множестве ?>odD, если для любых данных х, у ? Do существует непрерывная функция р: [0, 1] -> Do, такая, что р @) = = *> Р A) = У и g(p(/))< max {?(*), g(y)}> V*G(O, 1). A) Функционал g называется строго связным, если при х Фу функ- функцию р можно выбрать так, чтобы в A) имело место строгое неравен- неравенство. | Напомним, что множество S cz Rn называется линейно связ- связным, если для любых х, у ? S имеется непрерывное отображение Р- Ю, 1] ¦->* 5, такое, что р @) = х и р A) = у. Это приводит к следующей характеризации связности функционалов в терминах множеств уровня.
100 Часть II. Неконструктивные теоремы существования 4.2 4.2.4. Функционал g: D cz Rn-+ R1 связен на D тогда и только тогда, когда каждое множество уровня для g линейно связно. Доказательство. Предположим сначала, что все мно- множества уровня линейно связны, и для произвольных х, у ? D пусть у = max (g (x)y g (у)). Тогда существует такая непрерывная функ- функция р: [0, 1] ->• L (у), что р @) = х, р A) = у и g (p (t)) < у для всех t ? @, 1), так как р (t) ? L (у). Обратно, пусть функционал g связен, и пусть точки к, у находятся в произвольном множестве уровня L (у). Тогда, согласно A), существует непрерывная функ- функция р: [0, 1] ->-D, такая, что g (p (t)) < max (g (x), g (у)) < у. Значит, р (t) ? L (у) при всех t ? @, 1) и L (у) линейно связно. | Если D cz Rn — выпуклое множество и g: D -+ R1 — выпук- выпуклый функционал, то g — связный функционал. Действительно, если L (у) — любое множество уровня для g и х, у ? L (у) при всех t 6 @, 1) так что L (у) выпукло и потому линейно связно. Более общо, любой функционал, все множества уровня которого выпуклы, связен. Это приводит к следующему классу функционалов. 4.2.5. Определение. Функционал g: D с Rn -> R1 называется ква- зивыпуклым на выпуклом множестве DocD, если для любых x,y?D0 g (tx + A -1) y)< max {g (*), g (*,)}, V /g @, 1). B) Функционал g называется строго квазивыпуклым, если в B) при х ф у имеет место строго неравенство. | Любой выпуклый функционал, очевидно, является также квази- квазивыпуклым, но обратное неверно. Например, функционал \nt квазивыпукл на @, оо), но не выпукл. Слегка видоизменив до- доказательство теоремы 4.2.4, легко показать, что функционал g: D cz Rn -* Rl квазивыпукл на D тогда и только тогда, когда все его множества уровня выпуклы (см. У 4.2.4). Заметим, наконец, что в противоположность теореме 3.4.3, утверждающей непре- непрерывность выпуклых функционалов на открытых множествах, квазивыпуклые, а следовательно, и вообще связные функционалы не обязаны быть непрерывными, как показывает пример функции /(*)=*, х > 0, / (х) = х - 1, х < 0. Обратимся теперь к вопросу о единственности минимизатора. 4.2.6. Пусть функционал g: D cz Rn -> R1 связен на множестве D. Тогда он имеет самое большее один истинный локальный миними- затор л;*, причем g (х*) < g (х) при всех х ? D, х =?х*. Если g строго связен, то g имеет самое большее один локальный миними- затор х* и g (л:*) < g (х) для всех х б D, х Ф х*.
4.2 Гл. 4. Градиентные отображения и минимизация 101 Доказательство. Предположим, что х* — истинный локальный минимизатор и что имеется точка у Ф х* > такая, что g (у) < g (х*) = у. Так как функционал g связен, то существует непрерывное отображение р: [0, 11 -* L (у)> такое, что р @) = х* и Р 0) == У- В силу непрерывности /? для любой открытой окрест- окрестности S точки х* найдется такое t, что р (t) ? S 0 D, p (t) Ф х* и S (Р @) <- V- Эт° противоречит тому, что х* является истинным локальным минимизатором. Отсюда следует, что g (х*) < g (x) при всех х ? D, а это показывает в свою очередь, что имеется самое большее один истинный локальный минимизатор. Пред- Предположим теперь, что функционал g строго связен и что х* Ф у* — два локальных минимизатора. Пусть для определенности g (x*) < < ё (У*) = V- Поскольку g строго связен, найдется такая непре- непрерывная функция р: [0, 1] -> L (у), что g (p (t)) < у при всех t ? ^ @, 1) и р @) = л;*, р A) = #*. Отсюда видно, что для любой открытой окрестности S точки у* существует t ? @, 1), такое, что р (t) ? S П Ь. Но тогда g (р @) < g (у*) вопреки тому, что у* — локальный минимизатор. Итак, имеется самое большее один ло- локальный минимизатор, а так как всякий глобальный минимиза- минимизатор является также и локальным, то имеется самое большее один глобальный минимизатор. | Очевидно, что любой строго квазивыпуклый функционал, а значит и любой выпуклый функционал, строго связен. Поэтому мы имеем такое следствие из 4.2.6. 4.2.7. Если функционал g: D с: Rn -> R1 строго квазивыпукл (в частности, строго выпукл) на выпуклом множестве Doa D, то он имеет самое большее один локальный минимизатор в Do и всякий локальный минимизатор в Do является глобальным минимизато- минимизатором. Мы завершим этот параграф двумя простыми результатами о единственности критических точек выпуклых функционалов. 4.2.8. Предположим, что функционал g: D d Rn -* R1 выпукл и G-дифференцируем на открытом выпуклом множестве Do cz D. Точка #* с: Do является критической точкой для g в том и только в том случае, когда х* — глобальный минимизатор на Do. Далее, если g строго выпукл на Do, то имеется самое большее одна кри- критическая точка на Do. Доказательство. Если я* d Do — критическая точка, то, согласно 3.4.4, Обратно, если точка х* ? Do является глобальным минимиза- минимизатором, то тем более она является локальным минимизатором, и так как множество Do открыто, то 4.1.3 показывает, что gr (**) = 0.
102 Часть II. Неконструктивные теоремы существования 4.2 Наконец, если функционал g строго выпукл на Do, то неравенство [&' (*) — ё' (у)] (х — У) > 0 из 3.4.5 предотвращает возможность появления других критических точек. | Как немедленное следствие теорем 4.2.8 и 3.4.6 мы получаем следующий полезный результат. 4.2.9. Если функционал g: D с Rn -+ R1 имеет положительно определенную вторую G-производную в каждой точке открытого выпуклого множества Do cz D, то он имеет самое большее одну кри- критическую точку (соответственно локальный или глобальный мини- мизатор) в Do. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 4.2.1. Понятие связного функционала, по-видимому, новое, но это естествен- естественное обобщение понятия квазивыпуклого функционала, которое восходит по край- крайней мере к Фенхелю [1953]. ЗС 4.2.2. Существуют различные определения строго квазивыпуклых функцио- функционалов. Понстейн [1967] (см. также Мангасарян [1965] и Хэнсон [1964]) использо- использовали соотношение g(x)<g (У)> х, у G Do влечет g (tx + A -1) y)< g (у), V t? @, 1), C) а Поляк [1966] требовал, чтобы g {— [x + y]j < max {g (x), g (у)}, хфуу х, у ? Do. D) Мы следовали Элкину [1968], который выдвигал в пользу определения 4.2.5 следующие соображения. Как легко видеть (У 4.2.7), из C) не следует единствен- единственности локального минимизатора, а мы предпочитаем связывать термин «строгий» с единственностью минимизатора. Далее, как показано Элкином, если функционал g непрерывен на Do, то из D) вытекает, что g строго квазивыпукл в смысле опреде- определения 4.2.5. Отметим, что Понстейн фактически рассматривал соотношение g (tx + A — t)y)< max {g (x), g (y)}, V t ? @, 1), x Ф yt но под названием «я-выпуклость». ЗС 4.2.3. Как доказал Понстейн [1967] (см. У 4.2.6), любой локальный миними- затор функционала g: D ? Rn -> Z?1, который удовлетворяет условию C) на от- открытом выпуклом множестве, является также глобальным минимизатором для g на Do. Интересно, что имеет место в некотором смысле обратное утверждение, а именно если любой локальный минимизатор для g в Do является глобальным, то выполнено C). Это доказали независимо Мартос [1967] и Элкин [1968]. ЗС 4.2.4. Между классами квазивыпуклых и выпуклых функционалов имеется промежуточный класс псевдовыпуклых функционалов, который можно опреде- определить следующим образом. Функционал g: D с Rn -> Rl называется псевдовы- псевдовыпуклым на выпуклом множестве Do cz D, если для любых *, у ? DQ с g (x) > g (у) существуют а > 0 и т ? @, 1 ], зависящие, вообще говоря, от х и у, такие, что g((\-t)x + ty)^g(x)-ta, v*G[0, т]. E) Далее, g называется строго псевдовыпуклым, если E) выполняется, как только g (х) > ё (У)> * Ф У- Псевдовыпуклость была введена Мангасаряном [1965] для непрерывно дифференцируемых функционалов g: Rn -> R1 при помощи условия §(x)>g (у) влечет g' (x) (х — у)> 0, F)
4.2 Гл. 4. Градиентные отображения и минимизация 103 Легко видеть (У 4.2.12), что F) следует из E), если g является G-дифференцируе- мым. Можно также показать, что всякий выпуклый функционал псевдовыпукл, всякий псевдовыпуклый функционал квазивыпукл и критическая точка псевдо- псевдовыпуклого функционала является локальным минимизатором. Эти и другие свой- свойства псевдовыпуклых функционалов исследованы Мангасаряном [1965], Понстей- ном [1967] и Элкином [1968] и наряду с другими результатами приведены ниже в У 4.2.13-У 4.2.18. Понятие псевдовыпуклости близко связано с введенным Нашедом [1967] понятием «подпираемая выпуклость» (supportable convexity). УПРАЖНЕНИЯ У 4.2.1. Пусть функционал g: Rn -> R1 строго выпукл. Показать, что любое множество уровня для g строго выпукло. У 4.2.2. Пусть функционал g: D с Rn -> R1 связен на D. Видоизменяя дока- доказательство теоремы 4.2.6, показать, что локальный минимизатор для g является также глобальным минимизатором. У 4.2.3. Дать непосредственное доказательство теоремы 4.2.6 для выпуклых функционалов. У 4.2.4. Показать, что функционал g: D с Rn -> R1 при выпуклом D квази- квазивыпукл тогда и только тогда, когда все его множества уровня выпуклы. У 4.2.5. Показать, что (а) функционал g: Rn -> Rl квазивыпукл тогда и только тогда, когда из g (х) < g (у) следует, что g (ах + A — a) y)<Cg (У) при всех а ? @, 1); (б) если функционал g является G-дифференцируемым, то он квазивы- квазивыпукл тогда и только тогда, когда из g (х)<С8 (У) следует g' (у) (у -— х) > 0 (Пон- стейн [1967]). У 4.2.6. Пусть функционал g: Rn ->• R1 обладает тем свойством, что из g(x)<g (у) следует, что g(tx + (\—f)y)<g (у), V t С @, 1). Показать, что любой локальный минимизатор для g является глобальным миними- минимизатором, а также привести пример, показывающий, что локальный минимизатор не обязательно единствен (Понстейн [1967], Элкин [1968]). У 4.2.7. Показать, что всякий строго квазивыпуклый функционал g: Rn -* R1 удовлетворяет условию из У 4.2.6, но не наоборот. Показать, что утверждение, которое требуется доказать в У 4.2.6, вообще говоря, не выполняется для квази- квазивыпуклых функционалов. У 4.2.8. Пусть функционал g: Rn -* R1 непрерывен и удовлетворяет условию из У 4.2.6. Показать, что он квазивыпукл (Элкин [1968]). У 4.2.9. Пусть функционал g: Rn -> R1 выпукл. Показать, что множество ло- локальных минимизаторов для g выпукло (быть может, пусто). Показать, что это не всегда так для квазивыпуклых функционалов. Показать, наконец, что если g вы- выпукл и G-дифференцируем, то множество его критических точек выпукло. У 4.2.10. Пусть функционал g: Rn -> Rl непрерывен и строго квазивыпукл. Показать, что любое его множество уровня имеет непустую внутренность или состоит в точности из одной точки. у 4.2.11. Множество уровня L (у) функционала g: Rn -> R1 называется правиль- правильным, если или Е (у) == {х ] g (х) = у) С L (у) [где L (у) — граница множества MY)] или Е(у) = L(y), и строго правильным, если E(y) = L(y). Предполо- Предположим, что функционал g непрерывен. Тогда он удовлетворяет условию из У 4.2.6
104 Часть II. Неконструктивные теоремы существования 4.S в том и только в том случае, если L (у) выпукло и правильно при всех у, и строго квазивыпукл в том и только в том случае, если L (у) выпукло и строго правильно для всех у (Элкин [1968]). У 4.2.12. Пусть функционал g: Rn -> Rl —дифференцируем на D. Показать, что он псевдовыпукл в смысле ЗС 4.2.4 тогда и только тогда, когда из g(x)>g(y), х, y?D следует g'(х) (х — у)>0 и строго псевдовыпукл тогда и только тогда, когда из g (#) > g(y), хФу сле- следует g'(x)(x — y)>0. У 4.2.13. Показать, что g: R1 ->R1, g(x) = x2A + х2)" —строго псевдовыпук- псевдовыпуклый функционал. У 4.2.14. Если функционал g: Rn -> R1 (строго) выпукл на выпуклом множестве D, то он (строго) псевдовыпукл на D. У 4.2.15. Если функционал g: Rn -> R1 непрерывен и псевдовыпукл на выпук- выпуклом множестве D, то он удовлетворяет на D условию из У 4.2.6. Если g непреры- непрерывен и строго псевдовыпукл на D, то он строго квазивыпукл на D (Элкин [1968]). У 4.2.16. Показать, что разрывная функция g:/?1-*/?1, g(x)=*x, x>0, g(x)=x— I, строго псевдовыпукл а на R1. У 4.2.17. Пусть функционал g: Rn -> R1 G-дифференцируем и (строго) псевдо- псевдовыпукл на открытом выпуклом множестве D. Показать, что любая критическая точка для g в D является (единственным) глобальным минимизатором функцио- функционала g на D (Мангасарян [1965]). У 4.2.18. Пусть g: Rn -> R1 — непрерывный и псевдовыпуклый на открытом выпуклом множестве D функционал. Показать, что любой локальный минимиза- тор для g в D является глобальным минимизатором в D (Понстейн [1967]). 4.3. ТЕОРЕМЫ СУЩЕСТВОВАНИЯ Как мы видели выше (см. 4.2.2), если функционал g обладает хотя бы одним компактным множеством уровня, то у него есть гло- глобальный минимизатор. В этом параграфе мы изучим условия на g, которые гарантируют, что g имеет компактное множество уровня. Заметим прежде всего, что если D замкнуто и функционал g непре- непрерывен на D, то каждое множество уровня замкнуто и в этом слу- случае вопрос сводится к ограниченности множеств уровня. Вообще говоря, трудно дать полезные условия на g, гарантирующие, что хотя бы одно множество уровня ограничено. Дело обстоит таким образом потому, что этот вопрос по существу эквивалентен вопросу о существовании минимизаторов. 4.3.1. Предположим, что функционал g: D с Rn -> R1 непре- непрерывен на замкнутом множестве D. Тогда g имеет хотя бы одно ограниченное множество уровня в том и только в том случае, если множество его глобальных минимизаторов непусто и ограничено. Доказательство. Если у g есть ограниченное множество уровня L (y), то в силу непрерывности g и замкнутости D это мно- множество компактно и согласно 4.2.2 множество глобальных миними- минимизаторов непусто и ограничено. Для доказательства обратного утверждения заметим, что если х* — глобальный минимизатор, то
4.3 Гл. 4. Градиентные отображения и минимизация 105 множество уровня L (g (x*)) представляет собой в точности мно- множество глобальных минимизаторов и потому ограничено. | Рассмотрим, далее, одно простое необходимое и достаточное условие того, что все множества уровня ограничены. Очевидно, что если само D ограничено, то и все множества уровня будут огра- ограниченными. Поэтому мы будем предполагать, что D не ограничено. 4.3.2. Пусть g: DczRn-+Rl, где D не ограничено. В этом случае все множества уровня ограничены тогда и только тогда, когда limg-(jt*) = + оо для любой последовательности {xk}czDt для ко- fe-vco торой lim || х* || = оо. Доказательство. Предположим, сначала, что все множе- множества уровня функционала g ограничены. Тогда существование по- последовательности [xk)czD с lim||х*|| = оо, для которой g(xk) <v< /г-юо < + °° при всех k, невозможно, ибо {xfe} czL(y). Обратно, пред- предположим, что limg (xk) = + оо для любой последовательности /М- со {xk} czD с lim|**j| = оо. Тогда существование неограниченного мно- жества уровня L(y) влечет за собой существование последователь- последовательности {xk}dL(y) с lim||л;*|| = оо, и потому неравенство g(xk)^y снова невозможно. | Заметим, что аналогичное условие на поведение в бесконеч- бесконечности отображения F: Rn -> Rn будет играть важную роль в двух следующих главах (см., например, 5.3.6 и 5.3.8). В качестве непосредственного следствия теорем 4.3.2, 4.2.2 и 4.2.6 получаем следующий результат. 4.3.3. Если функционал g: DczRn-+R1 непрерывен на замкнутом множестве DoczD и \img(xk) = + оо для всякой последователь- последовательнее» ности {xk}cD0 с Нт||л:*|| = оо, то g имеет хотя бы один глобаль- k-+oo ный минимизатор x?czD0. Если при этом функционал g строго связен на Do, то а:* является также единственным локальным ми- нимизатором и g (х*) < g (х) при всех х ? Do, x Ф а:*. По теореме 3.4.3 всякий выпуклый функционал на открытом множестве непрерывен. Отсюда получается другое полезное след- следствие из теорем 4.3.3 и 4.2.7. 4.3.4. Пусть функционал g: Rn-+Rx строго выпукл (или непреры- непрерывен и строго квазивыпукл) и \img(xk) = + оо, если Нт||л;*|| = оо. Тогда он имеет единственный минимизатор лг*. Аналогичные результаты, использующие дифференциальные не- неравенства § 3.4, приведены в У4.3.7.
106 Часть II. Неконструктивные теоремы существования 4.3 Далее мы рассмотрим одно довольно специфическое, но все же весьма общее условие, которое гарантирует что g стремится к бесконечности вместе с || х ||. 4.3.5. Определение. Функционал g: DcRn-+R1 называется равно- равномерно связным на Do cz D, если можно найти такую изотонную функцию d: [0, оо)->[0, сю) с d(t)>0 при />0, что для любых #, y?D0 существует непрерывное отображение р: [0, Цс:/?1-*^,, удовлетворяющее следующим условиям: р @) = х, р A) = у и для всех f ? @, 1) g{p{f))<max[g(x), g(y)} — ¦ A) Заметим, что функции d с указанными свойствами будут играть важную роль при анализе сходимости методов минимизации в гл. 14. 4.3.6. Пусть функционал g: D d Rn -> R1 непрерывен и равномер- равномерно связан на замкнутом множестве DoaD. Тогда он имеет един- единственный локальный минимизатор х* ? Do и g (x*) < g (x) для всех х ? Do, х ф х*. Доказательство. По теореме 4.3.3 достаточно показать, что \\mg (xk) = + сю для всякой последовательности [x^)czD0 с lim || A:fe I) = oo. Из замкнутости множества Do следует компактность множества So = S (у°у 1) П ^о при произвольном у0 ? Z)o, и непре- непрерывность g гарантирует, что найдется такое а, что g (x) > а при всех x?S0. Пусть теперь {xk}cD0> lim|^*| «« сю, и предположим, fe-юо что \\xk — у°\\> 1 при всех k>k0. Далее, пусть pk: [0, 1]->DO, k = k0, ... — такие непрерывные отображения, что pk @) = xky pk A) = = у0У и для каждого pk выполнено A) с х = xk и f/ = t/°.B силу непрерывности отображения pk существует tk ? @, 1), такое, что \\Pk(tk) — ^ol= J и> следовательно, g(pk(tk))>a- Поэтому, согласно A), мы имеем max Но d(l)>0, Нт||л:Л— t/°|| = сю и \\у° — ^(/fe)||= 1, так что \img(xk) = +оо. | Из теоремы 4.3.6 вытекает следующий важный результат для равномерно выпуклых функционалов. Сходные результаты при- приведены в У 4.3.8.
4.3 Гл. 4. Градиентные отображения и минимизация 107 4.3.7. Предположим, что функционал g: Rn -> R1 равномерно выпукл на Rn. Тогда он имеет единственный локальный и глобаль- глобальный минимизатор. Кроме того, lim g (xk) = +оо, если lim \xk\\ = fc-юо fe-юо = oo, и каждое множество уровня для g компактно. Доказательство. Существует такая постоянная с > > 0, что g(p(t)) < max {g(x), g{y)}-c(\-f)qx-yf, Ух, y?R\ где p (t) = tx + A — t) yy t ? [0, 1]. Но для функции d (t) = ct при t ? [0> °°) мы имеем = ct(\-t)\\x-yfy так что функционал g равномерно связен. Поскольку в силу тео- теоремы 3.4.3 он непрерывен на Rn, применима теорема 4.3.6. Далее мы уже показали при доказательстве этой теоремы, что g имеет ука- указанное свойство на бесконечности, и последнее утверждение есть следствие теоремы 4.3.2. | В случае когда функционал g дифференцируем, утверждение 4.3.7 служит основой для доказательства не только того, что g имеет единственную критическую точку, но и того, что g' является даже гомеоморфизмом всего пространства на себя. Сначала при- приведем следующую лемму об обратных отображениях. 4.3.8. Пусть дано отображение F: D с Rn -+¦ Rn. Если для не- некоторого у > 0 lFx-Fy\\>y\x-yl . Vx, y?D9 B) то 77"*1 существует на F(D) и II rt - F~xv I < v" II и - v ||, Vu,v?F (D). Доказательство. Очевидно, из B) следует, что F взаим- взаимно однозначно, так что F~] существует на F (D). Далее, для любых и, v ? F (D) найдутся х, у ? D, такие, что Fx = и и Fу =; v. Следовательно, 4.3.9. Предположим, что g: Rn -> R1 — равномерно выпуклый и не- непрерывно дифференцируемый на Rn функционал. Тогда отображение ^• Rn ->- Rn, определенное формулой Fx = g' (xf, x g Rn, является гомеоморфизмом пространства Rn на себя.
108 Часть II. Неконструктивные теоремы Существования 4.3 Доказательство. Пусть Ь — произвольный элемент из Rn. Определим функционал gb: Я"-*/?1 равенством ёь(х) = §(х) — Ьтх. Поскольку gb(tx + (l-t)y)-[tgb(x) + (\-t)gb(y)] = = g(tx+(l-t)y)-[tg(x) + (l-t)g(y)], то функционал gb также равномерно выпукл и потому, согласно 4.3.7, имеет единственный минимизатор я*. По теоремам 4.1.3 и 4.2.8 х* является единственной критической точкой для gb, и так как gl (х) = g' (х) — 6Т, то х* является единственным решением уравнения Fx = 6, т. е. F — взаимно однозначное отображение Rn на Rn. Чтобы показать, что F — гомеоморфизм, заметим, что согласно 3.4.5 существует такая постоянная у > 0, что № (*)-g' mix-y^lg* W-8' {у)П*-у)>у\х-у? при всех ху у ? Rn. Отсюда вытекает, что \\Fx — /*# | > Y | * ¦— */1| при всех х, у ? Rn, и лемма 4,3.8 показывает, что F~~l непрерыв- непрерывно. В Следующий важный результат является легким следствием по- последней теоремы и принципа симметричности 4.1.6. 4.3.10. Пусть отображение F: Rn -> Rn непрерывно дифферен- дифференцируемо на Rn, и пусть производная F' {х) симметрична при всех х ? Rn- Если существует такая постоянная с > 0, что hTF'(x)h>ch% V*, y$R\ C) то F — гомеоморфизм пространства Rn на себя. Доказательство. В силу принципа симметричности 4.1.6 найдется функционал g: Rn -»- R\ такой, что Fx = g' (xf при всех х (f Rn. Из условия C) следует, согласно 3.4.6 , что g рав- равномерно выпукл на /?", и наш результат вытекает из 4.3.9. | Заметим, что как из 4.3.9, так и из 4.3.10 следует, конечно, что для любого у ? Rn уравнение Fx = y имеет единственное решение, которое непрерывно зависит от у. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 4.3.1. Хотя результаты 4.3.4 и 4.3.10 «общеизвестны» и неявно использова- использовались как леммы в различных исследованиях, они, по-видимому, никогда точно не формулировались в литературе. Теорема 4.3.7 — это по существу результат По- Поляка [1966]. ЗС 4.3.2. Понятие равномерной связности функционала, по-видимому, новое; оно является естественным обобщением понятий равномерности, изучавшихся Поляком [1966] и Элкином [1968] для случая квазивыпуклых функционалов. Бо- Более точно Поляк называл функционал g: Rn -* R1 равномерно квазивыпуклым,
4.3 Гл. 4. Градиентные отображения и минимизация 109 если g(y)}-d(ix-y\\), V *, y?Rn, D) где функция d: [а, оо) -> [0, оо) такова, что d (t) > 0 при t > 0, а Элкин [1968] использовал определение * (to+ 0-0УХ max {?(*), *(?)}- — Пл: — ?/Ц min {A — 0 ^ (A — 011 а: — ?/Ц), td (t\\x-y\\)}, V '?@, 1), х, */??". E) Заметим, что наше соотношение A) из определения 4.3.5 сводится для случая квазивыпуклых функционалов к соотношению g(tx + (\-t)y)^ max {g (*), g (у)} - -||*-t/||max {A-0<*(*1*-*1), «К1-О11*-0||]Ь которое несколько отличается как от D), так и от E). Ни Элкин, ни Поляк не ис- использовали своих определений для получения теорем существования и, по-видимо- по-видимому, теорема 4.3.6 является новой даже для случая равномерно квазивыпуклых функционалов. Элкином было также введено близкое понятие равномерной псев- псевдовыпуклости (см. ЗС 14.6.2). ЗС 4.3.3. Сказанное в ЗС 4.3.2 наводит на мысль о более общем определении рав- равномерной выпуклости. Такое определение строится по аналогии с определением 4.3.5 следующим естественным образом: g(tx +(l-0 y)<tg{x) + (\- t)g(y)- ^(A—O|jc —Afl), (l-t)d(t\\x-y\\)}. F) Оно рассмотрено у Элкина [1968]. Заметьте, что если в качестве d взята функция d (t) = с/, где с > 0, то F) сводится к C.4.2). Заметим также, что если функцио- функционал g: Rn -> R1 удовлетворяет условию F) при х, у ? Rn, a d удовлетворяет ус- условиям определения 4.3.5, то теорема 4.3.6 гарантирует, что g имеет единственный локальный и глобальный минимизатор. Однако при ослаблении условия C.4.2) до F) возникают определенные трудности. Предположим, что функционал g: Rn -> Rl дважды непрерывно дифференцируем и что функция d в F) интегриру- интегрируема. Рассуждая, как и в случае теоремы 3.4.6, легко показать, что из F) следует тогда, что 8' (x)hh^\\h\\d(\\h\\), vx, h?Rn, где d: [0, оо) -> [0, оо) — снова изотонная положительная функция. Но g" (x) как билинейный оператор может иметь только квадратичную по || h || нижнюю границу, так что функция d должна иметь вид d (t) = ct, где с > 0. Поэтому, как показывает теорема 3.4.6, функционал g должен быть равномерно выпуклым в смысле определения 3.4.1. Все это указывает на то, что в определениях типа F), вероятно, не слишком много смысла, и в то же время бросает некоторую тень на очень слабые свойства, требуемые от d в определении 4.3.5, УПРАЖНЕНИЯ У 4.3.1. Пусть матрица А ? L (Rn) симметрична. Показать, что функционал g (x) = хтАх имеет хотя бы одно ограниченное множество уровня тогда и только тогда, когда А положительно определена. У 4.3.2. Построить два примера функций g: Rl -> R1: (а) функция, которая обла- обладает локальным минимизатором, но не имеет ни одного ограниченного множества
110 Часть II. Неконструктивные теоремы существования 4,4 уровня; (б) функции, для которой каждое множество уровня ограничено, но ло- локальных минимизаторов нет. У 4.3.3. Показать, что функция g: R1 -> R1, g (х) = х + ех строго выпукла, но g (х) -> — оо при х -* — оо. У 4.3.4. Если функционал g: Rn -> R1 выпукл и имеет истинный локальный ми- нимизатор х* или же строго выпукл и имеет локальный минимизатор **, то ё(х)-*+оо при || х || -> оо. У 4.3.5. Пусть функционал g: Rn -> R1 равномерно выпукл и дважды G-диффе- ренцируем на Rn. Используя теоремы 3.3.10 и 3.4.6, показать непосредственно, что g (х) -> + со при || х || -> оо. У 4.3.6. Предположим, что функционал g: Rn -> R1 выпукл и имеет хотя бы одно ограниченное множество уровня. Показать, что g (х) -» + °о при \\x\\ -> + оо. Вывести отсюда, что если какое-либо множество уровня выпуклого функционала ограничено, то и все его множества уровня ограничены. У 4.3.7. Предположим, что функционал g: Rn -> R1 удовлетворяет условию § (х) -* +со при ||*|| ->оо и либо (а) G-дифференцируем на Rn, причем [gf (*) — — g' (У)] (х — У) > 0 ПРИ всех х =? У> либо (б) дважды G-дифференцируем на Rn, причем, производная g" (x) положительно определена при всех x?Rn. Показать, что g имеет единственную критическую точку, которая является также единствен- единственным локальным и глобальным минимизатором. У 4.3.8. Предположим, что функционал g: Rn -* R1 удовлетворяет одному из условий: (a) g непрерывно дифференцируем на Rn и при некотором с > 0 (б) g дважды непрерывно дифференцируем и при некотором с > 0 g"(x)hh>c\\hf, \f х9 h?Rn. Показать, что(?')т — гомеоморфизм пространства Rn на себя. У 4.3.9. Пусть g: Rn -> R1. Показать, что g(x) — Л->оо при ||х||->оо для любого b ? Rn тогда и только тогда, когда g (х)/ \\ х \\ -» + со при \\x\\-* со. У 4.3.10. Пусть функционал g: Rn-> Rl дифференцируем на Rn и для некото- некоторого шара 5 = S @, 6) выполнено одно из следующих условий: (a)?(*)>Ci*T*. ci> — • V*?S; (б) g(x)<с2хтх, с2<— , \fx?S. Показать, что уравнение x = g'(x)T имеет решение (Гольдстейн [1967]). 4.4. ПРИЛОЖЕНИЯ В этом параграфе предыдущие общие результаты применяются к некоторым специальным ситуациям и к некоторым из задач- образчиков гл. 1. Начнем с одного следствия из 4.3.9 и 4.3 10. Напомним, что диагональное и изотонное отображения были определены соответственно в 1.1.1 и 2.4.3.
4 А Гл. 4. Градиентные отображения и минимизация 111 4.4.1. Пусть матрица А ? L (Rn) симметрична и положительно определена, и пусть либо (а) отображение 0: Rn -> Rn непрерывно дифференцируемо на /?", и производная ф' (х) симметрична и положительно определена для всех х\ (б) отображение ф: Rn -> Rn непрерывно, диагонально и изотонно на Rn. Тогда отображение F: Rn-+Rn, определенное формулой Fx = Ax-\* +фх, является гомеоморфизмом]пространства Rn на себя. Доказательство. Если выполнено (а), то очевидно, что F непрерывно дифференцируемо и справедливы неравенства D.3.3) с с, равным минимальному собственному значению матрицы А. Поэтому применима теорема 4.3.10. Пусть выполнено (б). По- Положим Очевидно, что функционал g непрерывно дифференцируем на Rn и g' (х) = (FxO. В силу изотонности ф так что, согласно 3.4.5, функционал g равномерно выпукл. По- Поэтому наш результат следует из 4.3.9. | Заметим, что условия на 0 в теореме 4.4.1 можно несколько ослабить (см. У 4.4.1). Рассмотрим теперь применения теоремы 4.4.1 к дискретным аналогам краевых задач вида u' = f(t,u)9 *€[0, И, и@)=а, a(l) = p. A) Следующий результат относится к дискретизации */+i — 2xt + Xj-x = Щ(/А, */), /=1 п, *0 = а, л:п+1 = Р, /z=l/(n+l), ( ' задачи A), подробно обсуждавшейся в § 1.1. 4.4.2. Пусть /: [0, 1] X R1-*- R1. Предположим, что для каждого t ? [0, 1] функция f (t, •) непрерывна и изотонна. Тогда для лю- любого п > 1 и любых аир система B) имеет единственное решение, которое является непрерывной функцией от а и р. Доказательство. Как показано в § 1.1, систему B) можно записать в виде Ах + ф (х) = Ь, где А ? L (Rn)9 Ь б R п
112 Часть II. Неконструктивные теоремы существования 4.4 Rn определяются формулами А = \ — 1 О \ -г./ фх =i \f{nh, *„), C) Очевидно, из наложенных на / условий следует, что отображение ф непрерывно и изотонно на Rn. Далее, как было показано в 2.3.10, матрица А положительно определена. Поэтому теорема 4.4.1 га- гарантирует, что А + ф является гомеоморфизмом, так что, в ча- частности, для любого b ? Rn уравнение Ах + фх = b имеет един- единственное решение, которое является непрерывной функцией от 6. | Заметим, что условия на / из теоремы 4.4.2, конечно, удовлет- удовлетворены, если / имеет непрерывную частную производную д2/, такую, что *, s) > 0, V t? [0, 1] s б (— оо, оо). D) Фактически это условие можно несколько ослабить так, чтобы производной д2 f (t, s) разрешалось принимать отрицательные значения (см. У 4.4.2). Теорема 4.4.2 в первую очередь носит иллюстративный харак- характер. Она без труда обобщается на более общие ситуации. К при- примеру, при тех же условиях на / система У, аИх} + ctf (ti9 xt) = 0, i = 1, ... , л, E) /=о имеет единственное решение, если х0 и xn+i известны, tl9 ..., tn — произвольные точки из [О, 1], съ ..., сп — произвольные неотри- неотрицательные постоянные и п X n-матрица (а*/)? симметрична и по- положительно определена. Такие системы могут возникать, например, из граничной задачи A), если снова для аппроксимации производ- производной и" применены центральные разности, но узлы tl9 ..., tn распре- распределены неравномерно, или, более общим образом, из задач дискрети- дискретизации вида Lu = / (t, и)у где L — линейный дифференциальный оператор, более общий, чем d2jdt2.
4.4 Гл. 4. Градиентные отображения и минимизация 113 В полной аналогии с 4.4.2 мы получим следующий результат, соответствующий дискретизации двумерной задачи Ли == / (s, /, и)> изученной в § 1.2. По-прежнему этот результат следует рассмат- рассматривать как иллюстративный; он легко обобщается на случай более общих областей дискретизаций и дифференциальных операторов при условии, что можно удовлетворить требованиям из 4.4.1. 4.4.3. Пусть дана функция /: [0, 1] X [0, 1] X R1 ->- R1. Предпо- Предположим, что для каждых s, / ? [0, 1] функция / (s, t, •) непрерывна и изотонна. Тогда система уравнений 4xij — хс+ъ/ — Xi-ij — xij+i — */./_1 + h*f (ih, jh, xtj) = 0, F) U /= 1, ... , m, где /i = (m-f- l)", имеет единственное решение при любых заданных *o,/, Я/n+i./i Xj.o и х/,т+и / = 0, ... , гп+l. Кроме того, это реше- решение является непрерывной функцией заданных граничных значений^ Доказательство. Как показано в § 1.2, систему F) можно записать в виде Ах + фх = Ь> где матрица A?L (Rn), n = m2, зада- задается формулами A.2.7, 8), отображение ф: Rn-+Rn определено фор- формулой A.2.10) и Ь ? Rn —вектор, содержащий граничные условия. Мы знаем (см. 2.3.10), что матрица А положительно определена. Поэ- Поэтому ход доказательства таков, как и в случае теоремы 4.2.2. | Обратимся теперь к вариационным задачам. Напомним, что в § 1.5 было показано, что различные дискретизации задачи «миними- «минимизировать ДО/ (us9 щ) ds dt» приводят к функционалу g: Rn -* R1 вида М In N ^ п N Л \ g (х) = 2 У if S «*/*/ + 2 <**Л1/. S М/ + 2 Р'/П/ • G) Нас будут теперь интересовать достаточные условия на / и коэф- коэффициенты a*/, Pi/, обеспечивающие существование единственного минимизатора для g. Чтобы записать G) в более компактной форме, удобно ввести следующие обозначения. Определим матрицы Ht ^ L (Rn9 R2) формулой /осп ... аып\ и векторы Ь1 ? /?2 формулой | J* = 1, • •. , М. (9) Я/ ;| Очевидно, что G) можно переписать в виде м + b). A0)
114 Часть II. Неконструктивные теоремы существования 4.4 Можно добиться еще большей компактности записи, если ввести функционал Л: (RY -> R\ h (у) = | yj (</<), V У = (У\ • •., Ум) 6 (#2Л A1) и линейное отображение Н ? L (Rn, (R2)M)9 определенное блочной матрицей • A2) Тогда A0), а следовательно и G), записывается в виде ' g(x)=h(Hx + b), x?Rn, A3) где вектор Ь ? (#2)м определен равенством 6Т = ((Ь1I, .... (Ьм)\ A4) Одно из преимуществ записи A3) перед G) состоит в том, что теперь явно видно, что функционал g является композицией аф- аффинного оператора и функционала, что позволяет применить об- общие результаты о таких композициях. Мы рассмотрим сейчас один из таких общих результатов, в котором йи Яне обязаны иметь вид (И) и A2). 4,4.4. Пусть функционал h: Rm-*R1 строго выпукл и удовлетворяет условию lim h (x) = + оо. Предположим, что матрица //? L (Rn,Rm) 114-4.00 имеет ранг п. Тогда для любого Ь ? Rm функционал g: Rn-*R1, g (#) = /z (Hx + Ь) имеет единственный минимизатор. Доказательство. Покажем сначала, что g строго выпукл. Пусть х, у ^ Rn, хфу и а ? (О, 1). Так как ранг матрицы Н равен /г, то НхфНу и, следовательно, в силу строгой выпуклости h g (ax + [ 1 - а ] у) = h (Н (ах + [ 1 - а ] у) + 6) = = h (а [Нх + Ь] + [ 1 - а] [Ну + Щ) < <ah (Hx + b) + (\-a)h (Ну +Ь), т. е. функционал g строго выпукл. Поскольку отображение Н взаимно однозначно, мы, как и выше, находим, что lim II Нх + [|л:[|->оо + 61| == оо и, следовательно, lim g (x) = оо. Наш результат теперь вытекает поэтому из 4.3.4. | Заметим, что возможны различные модификации предположений теоремы 4.4.4. Некоторые из них даны в У 4.4.6 — У 4.4.8. Вернемся теперь к функционалу G).
4.4 Гл. 4. Градиентные отображения и минимизаций, 115 4.4.5. Предположим, что функционал /: Я2-*-/?1 строго выпукл и lim f(y) = + оо. Пусть Y/>°> * = 1, -., Му и матрица Я, задава- емая формулами A2) и (8), имеет ранг /г. Тогда функционал G) обладает единственным минимизатором. Доказательство. Для функционала А, определенного формулой A1), имеем aft (х) + A — a) h (у) - h {ах + [ 1 — а] у) = = 2 Y, {а/ И + A - а) / ДО - f (а* + [1 - а] */')}. A5) Далее, если х Ф у, чо х1 Ф у1 для некоторого t, и так как yt > О, то из A5) следует, что А строго выпукл. Аналогично, если \\x\\ ->¦ оо, то ||х*||->оо для некоторого / и, значит, Y// (#0 ~^ °°- Но все члены суммы в A1) либо стремятся к +оо,либо остаются ограни- ограниченными, в зависимости от того, | xl\\ ->• оо или нет. Следовательно, lim А (х) == + оо и наш peзyльtат вытекает из 4.4.4. | \)Х\\ ->- оо Проиллюстрируем теорему 4.4.5 на примерах двух задач-образ- задач-образчиков, изученных в § 1.5: минимизировать j j (I + uf + iii)u dsdt\ A6) минимизировать ))[ul + u2t — (c — d) In(c + u2s + u])]dsdt, с>d>0. A7) В первом случае мы имеем / (х) = (! + *? + хгO2 и, очевидно, мат- матрица Гессе Я^ (х) для / равна Следовательно, производная /" (х) положительно определена при всех х ? Rn и в силу 3.4.6 функционал / строго выпукл. Ясно, что /(*)-*- + °° ПРИ Ц*!-*00- Аналогично для A7) мы имеем f (х) = = х2\ + xt— (с — d) \п (с + х2\ + xl), и легко видеть (У 4.4.10), что функционал / строго выпукл и / (х) -> + оо при х\ + xl-> оо. Итак, д G) 5 д фу / р у / () мы можем резюмировать: дискретный аналог G) 5ля каждой из задач A6) ила A7) имеет единственный минимизатор, если только предположить, что матрица дискретизации Н, определяемая фор- формулами (8) и A2), имеет ранг п. Чтобы выявить класс подходящих дискретизаций, обладающих тем свойством, что Н имеет ранг /г, ограничимся двумерными зада- задачами на единичном квадрате. В дальнейшем, как и в § 1.5, Qc/
116 Часть II. Неконструктивные теоремы существования 4.4 обозначает квадрат сетки с вершинами Л/, Л_1,/-ь Рц-и Л-ь/. 4.4.6. Пусть [0, 1] х [0, 1]== U Qij и Qt/? Ql7- Тогда любая ап- аппроксимация вида us (Qi}) Ф^и (Ph) + ам (Р,_ь/) + а3и (PitHl) + а,и (A_i,/-i). с по крайней мере одним ненулевым а, приводит к матрице дис- дискретизации Н ранга п. Доказательство. Нам нужно показать, что Н содержит п линейно независимых строк. Допустим сначала, что ах Ф 0. Тогда, очевидно, п уравнений «l** (рц) + а>2и (Pt-\.j)+ аз" (Pt.i-i) + <*>*" (Л--1./-1) = 0, U /= 1, ... , т, дают нижнюю треугольную матрицу коэффициентов ранга п. Остальные уравнения излишни. Если с^ = 0, но а2 Ф 0, то си- система индексов 4 = 2, ..., m + /, / = 1, ..., m, дает нижнюю тре- треугольную матрицу. Аналогично, если ах = а2 = 0, а а3 Ф 0» то мы берем i = 1, ..., m, / = 2, ..., m + 1, а если ах = а2 = а3= = 0 и а4 =7^ 0, то мы возьмем i, j = 2, ..., m + 1. I Заметим, что теоремой 4.4.6 охватывается большинство диск- дискретизаций, изученных в § 1.5. Отметим также, что на аппрокси- аппроксимацию производной us (или аппроксимацию производной щ) на- налагаются очень слабые условия. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 4.4.1. Результаты этого параграфа, начиная с 4.4.4, принадлежат в такой об- общности Степлмэну [1969]. Однако существование минимизатора для дискретной задачи Плато и равномерная выпуклость функционала f были доказаны еще Шахтером [1962] для аппроксимации обратными разностями. ЗС 4.4.2. Результаты этого параграфа немедленно обобщаются на случай более общих задач с Ju = |j/(s, t, u(s, t), us(s, 0, ut(s, t))dsdt, в предположении, что функция / (s, t, r, p, а) снова строго выпукла по г, р, q для всех s, / (см. У 4.4.12). Однако, как показал Степлмэн [1969], верно также сле- следующее. Пусть функция / (s, /, г, /?, q) выпукла по г, р, q при каждых фиксирован- фиксированных s, t и строго выпукла по р и q. Пусть, далее, / (s, /, г, ру а) -> + оо при р2 + + ф -> оо и матрица Я, определяемая формулами (8), A2), имеет ранг п. Тогда функционал м / п N п N
4.4 Гл. 4. Градиентные отображения и минимизация 117 где yi > О, i = 1, ..., М9 имеет единственный минимизатор. (Заметим, что это имеет место независимо от того, каковы |1;- и Ъц.) Более общим образом, Степлмэн получил также результаты для случая, когда функция / не выпукла по г, и рассматривал «нелинейную» дискретизацию A.5.17). УПРАЖНЕНИЯ У 4.4.1. Показать, что теорема 4.4.1 остается справедливой при таком предполо- предположении: существует такая постоянная с > —А,, где к — наименьшее собственное зна- значение матрицы А, что либо (а) функционал ф непрерывно дифференцируем и мат- матрица ф' (*) — cl симметрична и положительно полуопределена при всех х ? Rn\ либо (б) ф непрерывен и диагонален и отображение ф — cl изотонно. У 4.4.2. Пусть функция /: [0, 1] X Rl -> R1 имеет непрерывную частную про- производную д2/, которая удовлетворяет условию dj (/, s) > т] > —я2 при всех t? [О, 1] и s ? R1. Используя У4.4.1 и У 2.3.4, доказать, что система B) имеет единственное решение для достаточно малых А = (п + I)". Применить этот ре- результат к задаче о маятнике A.1.1) с | с |< я2. У 4.4.3. Рассмотрим краевую задачу где а — непрерывная функция на [0, 1], а / удовлетворяет предположениям из 4.4.2, и положим ai = a (ih), i = 1, ..., п. Применяя 4.4.1 и У 2.3.5, показать, что при всех /i <J h0 < (max | a-t \)~l система уравнений h^2 [xi+l - 2xt + *,_,] + at BЛГ1 (xi+l - xM) = / («A, ^), /= 1,...,«, имеет единственное решение. У 4.4.4. Пусть матрица В ? L (Rn) симметрична и отрицательно определена, отображение ф : Rn -* Rn непрерывно дифференцируемо и матрица ф' (х) симмет- симметрична и положительно полуопределена для всех х. Показать, что уравнение х = Вф х + Ъ имеет единственное решение для любого b ? Rn. У 4.4.5. Пусть функционал /: Rn -> Rl —дифференцируем на Rn и матрица В? ?L(Rn) симметрична. Показать, что уравнение х = Bf (x)T + Ь имеет решение тогда и только тогда, когда выполнено любое из следующих условий: (а) матрица В положительно определена и где Р и у — произвольные постоянные, | б | < 1, а < А, * и X — (алгебраически) наибольшее собственное значение матрицы В (а не обязано быть положитель- положительным). (б) матрица В невырождена и Где Р, у и б такие же, как и в (а), а Хо — наименьшее положительное собственное значение матрицы В. (в) функционал / дважды F-дифференцируем и /"(*)A/i<ctATA, v* где а таково, что матрица / — аВ положительно определена. (г) функционал / дважды ^-дифференцируем, матрица В невырождена и f(x)hh> 2X^lhThf где Хо такое же, как и в (б).
118 Часть II. Неконструктивные теоремы существования 4.4 У 4.4.6. Пусть функционал /: Rm -*- R1 равномерно выпукл и матрица ? ?L(Rn, Rm) имеет ранг п. Показать, что функционал g (х) == / (Нх + Ь) равно- равномерно выпукл для любого b?Rm (Степлмэн [1969]). У 4.4.7. Пусть /: R -> R1 — равномерно выпуклый функционал и отображение Я ? L (Rn, Rm) взаимно однозначно. Показать, что для любого фиксированного b? Rn функционал / (Нх + Ь) имеет единственный минимизатор. У 4.4.8. Пусть H?L(Rn, Rm). Предположим, что функционал /: Rm -> R1 два- дважды F-дифференцируем на Rm. Для произвольного b? Rm положим g (x) = = f (Нх + Ь). Показать, что g» (х) hh = /" (Нх + b) (Hh) (Hh), v x9h ? Rn, и вывести отсюда, что если Я имеет ранг п и производная f (x) положительно опре- определена для всех х ? Rn, то и производная g" (x) положительно определена для всех х ? Rn. У 4.4.9. Пусть функционал /: /?а -> R1 равномерно выпукл и yi > 0, i = 1, ... «,., М. Показать, что функционал A1) равномерно выпукл. У 4.4.10. Пусть функционал /: #2 -> R1 определен соотношением / (р, q) = г|) (р2 + + q2), где if): R1 -*• Z?1 удовлетворяет условиям 0 < m < if' (/) < М < оо, пг < <^'@ + 2^@ <Л1. Показать, что f равномерно выпукл и, в частности, что если с > d > 0, то функция равномерно выпукла. У 4.4.11. Рассмотрим центрально-разностные аппроксимации: us {Рф = BНГ1 [и (Pl+lJ) - и (Р^ф Щ (Рф = B/1Г1 [a (Pif/+1) - и (Р1шЫ)]. Пусть Q = [0, 1] X [0, 1]. Показать, что матрица дискретизации Я (8), A2) определяет взаимно однозначное отображение тогда и только тогда, когда чис- число внутренних узлов т2 четно. У 4.4.12. Рассмотрим функционал g: Rn -> R1, определенный равенством A8) из ЗС 4.4.2. Предположим, что /: [0, I]2 X R3 -»• R1 и что /(s, ?, г, р, q) для каж- каждых s, ^? [0, 1] строго выпукло по rf р, q п стремится к +оо, когда г2 + р2 + ~\-q2-*oo. Сформулировать и доказать аналоги теорем 4.4.5 и 4.4.6 и тем са- самым получить достаточные условия того, что g имеет единственный минимизатор. У 4.4.13. Предположим, что матрица А ? L (Rn) симметрична и положительно определена. Пусть отображение ф: Rn -> Rn непрерывно дифференцируемо, диа- диагонально и изотонно на Rn. Показать, что единственное решение х* уравнения Ах + фх = 0 удовлетворяет условию
Глава 5 СЖАТИЯ И ПРОДОЛЖАЕМОСТЬ 5.1. СЖАТИЯ Теорема 2.3.1 показывает, что если А—линейный оператор из Rn в Rn, то уравнение х = Ах имеет единственное решение при ||Л|)< 1. Этот факт обобщается различными способами на случай нелинейных операторов, и, в частности, один из наиболее важных результатов нелинейного анализа — теорема о сжимающем отоб- отображении 5.1.3. Сначала введем следующее понятие. 5.1.1. Определение. Отображение G: D d Rn -> Rn называется нерастягивающим на множестве Do en D, если \\Gx-Gy\\^\\x-yl v*, У?О0, A) и строго нерастягивающим на Do, если в A) при х Фу имеет место строгое неравенство. | Заметим, что любое отображение, нерастягивающее на множестве Do, удовлетворяет там условию Липшица. Отметим также, что линейный оператор А ? L (Rn) является нерастягивающим (строго нерастягивающим) тогда и только тогда, когда ||Л||< 1 (||Л[ 1) <) В дальнейшем мы будем рассматривать уравнения вида х — — Gx = 0. Любое решение х* этого уравнения, т. е. любая точка #* из области определения отображения G, для которой х* = Gx*9 называется неподвижной точкой отображения G. Если отображение G: DaRn-+Rn строго нерастягивающе на Do и **, у* ?D0 — две различные неподвижные точки, то ||х* - у*|| = ||Gx* - Gr/*||<I**- y*\\. Мы пришли к противоречию, следовательно, х* = t/*, т. е. строго нерастягивающее отображение может иметь самое большее одну неподвижную точку. Однако строгой нерастяжимости еще не- недостаточно, чтобы гарантировать существование неподвижной точ- точки, что видно из следующего одномерного примера: + ехр(-х/2), Это подводит к следующему усилению определения 5.1.1.
120 Часть //. Неконструктивные теоремы существования 5.1 5.2.1. Определение. Отображение G: D с Rn ->¦ Rn называется сжимающим на множестве Do с D, если существует такое а < 1, что || Gx — Gy || < а |( я — у || при всех л;, у ? Do. | Отображение, сжимающее на Do, мы будем называть также отоб- отображением сжатия или просто сжатием (на Do). Очевидно, линейный оператор А ? L (Rn) сжимающ на всем Rn тогда и только тогда, когда || А | < 1. Заметим, однако, что свойство быть сжимающим зависит от нормы: отображение может быть сжимающим в одной нор- норме в Rn и не быть таковым в другой (У 5.1.1). Очевидно, что сжимающее отображение G является строго нерас- тягивающим и поэтому, в частности, удовлетворяет условию Лип- Липшица и обладает самое большее одной неподвижной точкой. Существование этой одной неподвижной точки обеспечивается сле- следующим основным результатом. 5.1.3. Теорема о сжимающем отображении. Пусть отображение G: D cz Rn ->• Rn сжимающе на замкнутом множестве Docz D и GD0 cz Do. Тогда G имеет единственную неподвижную точку в А,. Доказательство. Пусть #° — произвольная точка из Do. Образуем последовательность xk = Gxk"\ 6=1,2,.... Так как GD0 cz DQ9 to эта последовательность \xk) корректно определе- определена и лежит в Do. Далее, ||xk+i- xk|| = 1 Gxk-Gxk~l|<a||xk -**-*||, так что i=\ Следовательно, {xk} представляет собой последовательность Коши и имеет предел х* в ?>0. Из непрерывности G следует, что lim Gx = = Gx*, так что х* — неподвижная точка. | Теорема о сжимающем отображении будет играть важную роль во многих частях этой книги. В частности, гл. 12 целиком по- посвящена обсуждению этой теоремы вместе с ее многочисленными вариантами и обобщениями. В настоящей главе мы используем тео- теорему 5.1.3 главным образом как средство для получения других теорем существования. В качестве первого приложения теоремы 5.1.3 докажем сле- следующую теорему о неподвижной точке для нерастягивающих отоб- отображений. 5.1.4. Пусть отображение G: DczRn-+Rn нерастягивающе на за- замкнутом выпуклом множестве DoczD и GDqczDq. Тогда G имеет
5.1 Гл. 5. Сжатия и продолжаемость 121 неподвижную точку в Do в том и только том случае, если после- последовательность xk+x = Gxk, k = О, 1, ,.., ограничена по крайней мере ДЛЯ ОДНОЙ ТОЧКИ X°CZDq. Доказательство. Обозначим через Gk рекуррентно опреде- определенную k-ю степень отображения G: G0 = /, Gkx = Gk~x {Gx), k = = 1, 2, .... Если G имеет неподвижную точку x*cD, то последо- последовательность Gkx* = #*, k = 0, 1, ..., конечно ограничена. Для до- доказательства обратного покажем сначала, что Do содержит компакт- компактное выпуклое множество С, такое, что GCczC. Выберем г так, чтобы ||GV-*°||</-, *=1, 2, ...-, и положим, Тогда Qfe с: Qk+\ н х° ? Qk при всех fe. Далее, если х 6 Qb то || х — Gkx° |< г и так что Ясно, что замыкание С множества С есть компакт, и так как все Qk выпуклы, С также выпукло. Далее, если х ? С, то х С Qk ПРИ некотором k и Gx ? Q^+i, ибо / = ?, ft+1, ...• Отсюда следует, что если у ? С и последовательность _{у1} cz С сходится к уу то {Gy1} d С, так что Gy ?* С и поэтому GC cz С. Пусть теперь фиксированы а ? @, 1) и z ? С. Положим = aGx + A — а) г, ух?С. Так как С выпукло, то Ga отображает С в себя и неравенство \\GaX-Gay\\ = a\\Gx-Gy\\<a\\x-y\\, ух, у?С, показывает, что G является сжатием на С. Поэтому согласно теоре- теореме 5.1.3 Ga имеет единственную неподвижную точку ха в С. Из соотношения Xе* — aGx0' = Gaxa — aGxa = A — a) z видно, что lim [(I/a) ** — Gxa] = lim [A — a)/a] z = 0. B) l l
122 Часть II. Неконструктивные теоремы существования 5.1 Пусть [ak] си (О, 1) —любая последовательность с \\mak = 1. Поло- жим xk = xak. Так как С — компакт, то существует сходящаяся подпоследовательность {xki} с предельной точкой я* ? С. Тогда и lim(l/a/j.) лЛ'== **, и в силу непрерывности G из B) следует, что ?-юо L x* = Gx*. I Отметим важный частный случай теоремы 5.1.4: если нерастя- гивающее отображение G отображает компактное выпуклое мно- множество Do в себя, то оно имеет неподвижную точку в DQ. Это утверждение является так же частным случаем теоремы Брауэра о неподвижной точке 6.3.2, которая будет доказана в следующей гла- главе. Заметим еще, что предположение о выпуклости в теореме 5.1.4, вообще говоря, опустить нельзя, что видно на простом одномерном примере Gx = —ху Do = {— 1, 1}. В качестве другого приложения теоремы 5.1.3 докажем сле- следующий результат, который можно рассматривать как нелиней- нелинейный аналог леммы Неймана 2.3.1. 5.1.5. Пусть F = /—G, где G: Rn-+Rn и /—тождественный опе- оператор в Rn. Если G сжимающе на Rn> то F—гомеоморфизм про- пространства Rn на себя. Доказательство. Из теоремы 5.1.3 немедленно следу- следует, что для любого у ? Rn отображение Gy, определенное равен- равенством Gyx = Gx + у, имеет единственную неподвижную точку в hn, т. е. уравнение Fx = у имеет единственное решение при любом у ? Rny так что F является взаимно однозначным отобра- отображением на все Rn. Далее, очевидно, что F непрерывно, и из оценки (\-a)lx-yl C) и теоремы 4.3.8 следует, что отображение F~~ непрерывно. | Далее мы обобщим теорему 5.1.5 в двух направлениях. Во- первых, мы заменим тождественный оператор на произвольный невырожденный линейный оператор и, во-вторых, ослабим требова- требование, чтобы условие сжатия выполнялось на всем пространстве. 5.1.6. Пусть матрица А ? L (Rn) невырождена и отображение G:Da czRn-+Rn таково, что в замкнутом шаре So = 5 (х°> б) czD |G*-G*/||<a|x-H V*. y?SOi D) где 0<а<{Г\ МИ!- (б) Тогда отображение F: S0->Rn, определенное равенством Fx= Ax— — Gx, x?S0, является гомеоморфизмом шара So на F(S0). Далее, для любого у ^SX^S (Fx°, а), где a === ф~1 — а) б, уравнение Fx =з
5.1 Гл. 5. Сжатия и продолжаемость 123 = у имеет единственное решение в So, так что, в частности, 5, с czF(S0). Доказательство. Для фиксированного у ? Sx определим отображение Н: So ->- Rn соотношением Нх = Л [Gx + у] = х — — A~l[Fx— у]. Ясно, что уравнение Fx = у имеет единственное решение в So тогда и только тогда, когда Н имеет единственную неподвижную точку. Но для любых х, у ? So || Нх - Hz || = ИЛ (G* - Gz)\\ < pa || * - z ||, так что ввиду E) Н является сжатием на So. Далее, для любого х ? ? So имеем по определению a < Раб + ра = б. Отсюда видно, что Н отображает So в So и по теореме 5.1.3 Я имеет единственную неподвижную точку х в So. Наконец, чтобы показать, что F — гомеоморфизм, заметим, что для любых х, у ? So lx-y\ = \ A-1 (Gx - Gy) + A~l (Fx - Fy)\\ < ap | x - у | + 01^ так что \Fx-Fy\><fTl-a)\x-yl F) Следовательно, по теореме 4.3.8 F~~l непрерывно, непрерыв- непрерывность же самого F очевидна. | В частном случае А = / теорему 5.1.6 можно рассматривать как локальный вариант теоремы 5.1.5. Важно отметить, что если G сжимающе лишь на некотором подмножестве Rn, то оно не обязано иметь неподвижную точку (У 5.1.3). Однако теорема 5.1.6 гаранти- гарантирует, что уравнение х — Gx — у имеет единственное решение в предположении, что у взято достаточно близким к х° — Gx°. С дру- другой стороны, если D) выполнено для всех х, у ? Rn, то мы имеем следующее обобщение теорем 2.3.1 и 5.1.5. 5.1.7. Если матрица А ? L (Rn) невырождена и отображение G: Rn ->¦ Rn удовлетворяет условию \\Gx — Gy \\ < <х\\х — у\\ при всех х, у ? Rn9 где a < \\A~l (~\ то А — G является гомеоморфизмом пространства Rn на себя. Суть этого результата состоит в том, что линейный гомео- гомеоморфизм А можно возмущать нелинейным отображением G, если только G «достаточно мало». Теперь дадим другую интерпретацию теоремы 5.1.6, в ином контексте.
124 Часть 11. Неконструктивные теоремы существования 5.1 Пусть F: DcRn ->/?*, и пусть уравнение Fx = y G) имеет решение х*. Естественно возникают три вопроса. Во-пер- Во-первых, является ли л;* изолированным решением, т. е. существует ли такая окрестность точки **, которая не содержит никаких других решений уравнения G)? Ответ на этот вопрос будет, конечно, утвердительным, если F взаимно однозначно в окрестности х*. Во- вторых, если изменить у на малую величину, будет ли все еще G) иметь решение? Это действительно будет иметь место, если F (D) содержит некоторую открытую окрестность точки у. Наконец, бу- будет ли это решение невозмущенного уравнения изменяться не- непрерывно с изменением у} Как и для предыдущих вопросов, это будет верно, если F является «локальным гомеоморфизмом». На- Напомним (см. §3.1), что сужение Fu отображения F на UdD определяется равенством Fux = Fx, x ? U. 5.1.8. Определение. Отображение F: D d Rn -> Rn называется локальным гомеоморфизмом в точке х ? int (D), если существуют такие открытые окрестности U и V точек х и Fa: соответственно, что сужение F на U является гомеоморфизмом U на V. Заметим теперь, что в этой терминологии теорема 5.1.6 утвер- утверждает, что F является локальным гомеоморфизмом в точке х°. Действительно, мы показали, что F является гомеоморфизмом ша- шара So на F (So) и что F (So) содержит открытый шар V = S (Fx°, a). Если мы положим U = F" (V), то U открыто и сужение Fu яв- является гомеоморфизмом U на 1Л Таким образом, мы установили следующий результат. 5.1.9. Пусть F: DcRn->Rn. Если для некоторой точки x°dD существуют невырожденная матрица A?L(Rn) и 8>0, такие, что \Fx-Fy-A(x-y)\<a\x-yl V x, t/eS(jc°,6)c:D, где а<|Л"1~1э то F является локальным гомеоморфизмом в х°, ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 5.1.1. Все результаты этого параграфа, а также их доказательства остаются справедливыми для случая произвольных банаховых пространств. Фактически теорема о сжимающем отображении выполняется в произвольном полном метриче- метрическом пространстве. А именно, если X — полное метрическое пространство с метри- метрикой d и отображение G: X -> X таково, что d (Gx, Gy) < ad (x, у) при некотором а < 1 для всех х, у ? X, то G имеет единственную неподвижную точку. Дока- Доказательство повторяется дословно. Для полных нормированных линейных про- пространств теорема впервые была сформулирована и доказана Банахом [1922] в его знаменитой диссертации. ЗС 5.1.2. Доказательство теоремы 5.1.3 показывает, что фактически итерации tfk"* = Gxk, k = 0, 1,..., сходятся к неподвижной точке х*. Этот аспект сходимости
5.2 Гл. 5. Сжатия и продолжаемость 125 теоремы о сжимающем отображении, а также связанные с этим оценки ошибок будут подробно рассмотрены в гл. 12. ЗС 6.1.3. Теорема 5.1.4 была получена Браудером и Петришиным [1966] и для случая равномерно выпуклых банаховых пространств (см. У 2.2.3) как обобщение более ранних результатов Браудера [19656], Кёрка [1965] и Беллюса и Кёрка [1966]. Позже Беллюс и Кёрк [1969] ввели дополнительное условие на G, которое позволяет получать результаты этого типа для более общих областей. УПРАЖНЕНИЯ У 5.1.1. Дать пример линейного оператора В ? L (R2) и двух норм в R2, таких, что В сжимающ в одной норме и не сжимающ в другой. У 5.1.2. Пусть/7: D с Rn -> Rn имеет G-производную, которая удовлетворяет условию ||/' (*)j|< а < 1 при всех х из некоторой выпуклой области DodD. Используя теорему 3.2.3, показать, что F сжимающе на Do. У 5.1.3. Определим функцию /: [0, 1] с R1 -> R1 равенством f(x) = — х + 2, х ? [0, 1]. Показать, что / сжимающа на [0, 1], но не имеет неподвижной точки. У 5.1.4. Предположим, что F: D с Rn -> Rn имеет непрерывную ^-производную в некоторой открытой окрестности 5 точки х° и что р (/" (х0)) < 1. Показать, что найдутся другая открытая окрестность Sx точки х0 и норма в Rn9 такие, что F сжимающе в 51# У 5.1.5. Предположим, что F\ Rn -> Rn G-дифференцируемо на открытом мно- множестве D и при некотором у > 0 удовлетворяет условию \\Fx — Fy || > у \\ х — у ||. Показать, что для любой точки x?D матрица F' (х) обратима и ||F' (л:)"1| < у~х> 5.2. ТЕОРЕМЫ ОБ ОБРАТНОЙ И НЕЯВНОЙ ФУНКЦИЯХ Один из ответов на вопрос о том, когда отображение является локальным гомеоморфизмом в точке х, можно дать в терминах производных. Нам понадобится понятие строгой производной (см. определение 3.2.9). 5.2.1. Теорема об обратной функции. Предположим, что отоб- отображение F: D a Rn -> Rn имеет строгую F-производную в точке х° ? int (D) (или что F имеет F-производную в некоторой окрест- окрестности точки л:0, непрерывную в л;0) и что матрица F'(x°) невырож- невырождена. Тогда F является локальным гомеоморфизмом в х°. Кроме того, если Fu — сужение отображения F на любую открытую окрест- окрестность U точки х°, на которой F взаимно однозначно, то F~vX имеет сильную /^-производную в Fx° и (FdlY(Fx») = [F'(x<>)]-1. A) Далее, если производная F' существует и непрерывна в некоторой открытой окрестности U точки л:0, то производная {Fu1)' существу- существует и непрерывна в некоторой открытой окрестности точки Т7*0. Доказательство. Положим А = F1 (а:0). Пусть а удовлетво- удовлетворяет условию 0 < а < Р", р = 1 А"1. Поскольку производная
126 Часть II. Неконструктивные теоремы существования 5.2 F' (х°) — строгая, найдется такое б > 0, что So = S (х°, б) cz D и lFx — Fy-A(x—y%<alx—yl Yx, y?S0. Поэтому по теореме 5.1.9 F является локальным гомеоморфизмом в а:0. [Если производная F' существует в некоторой окрестности точ- точки х° и непрерывна в х°, то по теореме 3.2.10 производная F'(x°) — строгая; отсюда следует справедливость замечания в скобках в формулировке теоремы.] Пусть теперь задано 8 > 0 и U — произ- произвольная открытая окрестность точки л:0, на которой F взаимно од- однозначно. Тогда найдется 6' > 0, такое, что S' = S (л:0, б') d U, ^Fx-Fy — A(x — y)l<e^x — yl при х, y?S' и V = FS' — открытая окрестность точки Fx*, Поэтому при любых и, v ? V существуют такие х, у ? S', что Fx = uy Fy = v и, следо- следовательно, FUlu - FUlv - F' (хТ1 (и - v)\\ < || A'1 \\ \A(x-y)- [Fx - Fy]\ < < ep || л:'— t/1|< e [P/Cp-1 — a)] ||a — ^ ||; последнее неравенство вытекает из E.1.6). Итак, выполняется A) и производная (FU1)' (Fx°) — строгая. Наконец, если производная F' существует и непрерывна в не- некоторой окрестности точки х°, то по лемме о возмущении 2.3.3 найдется открытый шар Sx = S (л:0, б), такой, что матрица Fr (x) невырождена при х ? Sj и обратная матрица F'(x)~l непрерывна по х в Sv Теорема 3.2.10 показывает, что F'(x) — строгая производ- производная для каждой точки х б Sv Поэтому применима первая часть теоремы, откуда (FUlY (Fx) = F' (хГ1. I Рассмотрим теперь более общую ситуацию, когда F является функцией двух векторных переменных и известно, что уравнение р (х, у0) = 0 имеет решение х0 для некоторого данного у0. Тогда, как и прежде, мы спрашиваем, будет ли это уравнение иметь реше- решение при у, близких к у0, и если это так, то каково поведение х как функции от у? Чтобы исследовать этот вопрос с удобной степенью общности, мы сначала введем понятие частной производной по подпространству. 5.2.2. Определение. Пусть Rn представлено как произведение про- пространств Rni х • • • X R\ nx+ • • • + пр = п. Будем обозначать эле- элементы из Rn через х = (а:1, ..., хр), где **?/?', i = 1, ..., р. Пусть F: Dcz:Rn -+Rm. Для данного х = (х\ ..., xp)cD положим
6.2 Гл. 5. Сжатия и продолжаемость 127 и определим отображение Ft: Dt-+Rm равенством Fiy = F(x1> ... ..., г/, ,.., хр), у ? Dt. Будем говорить, что F имеет частную F-npo- изводную dtF (x) == F\ (х1) в точке х по подпространству R \ если х1 ? intD, и F, имеет F-производную в х1. Далее, частная производ- производная dtF называется строгой в точке х, если для любого данного е>0 найдется б>0, такое, что №(у\ ..., У1'-1, »' + Af, У'+1, -.., Ур)~ — F(y\ • >> »w, »' + #, y(+l, ...%if> — -dlF(x)(hl-kt)l<elhi-k% B) как только || *— f/[|<6, || A1'||< б и ||#||<б. | Заметим, что в случае пх = ... = пр = 1 и т = 1 определение 5.2.2 сводится к обычному определению частной производной. Как и в этом случае, частные производные dtF определены на не- некотором подмножестве пространства Rn> а не на пространстве Rni и утверждения о непрерывности и аналогичные утверждения отно- относятся к Rn. С другой стороны, dtF наследуют все свойствах-про- свойствах-производных от Ft\ в частности, к dtF применимы теоремы о сред- среднем значении из § 3.2. Заметим, наконец, что если производная Fi{xl) является строгой, это совсем не значит, что производная dtF (x) строга, так как в B) разрешается у Ф х. Непрерывность частной ^-производной в некоторой точке влечет за собой строгость в этой точке. Мы докажем эту лемму только для случая произведения двух пространств. Общий случай, а также другие свойства частных производных представлены в У 5.2.2 — У 5.2.4. 5.2.3. Пусть F: D a Rp X Rq ->• Rm. Если производная df, i = 1 или 2, существует в открытой окрестности точки (х°, у0) ? D и непрерывна в (л:0, у0), то она является строгой в этой точке. Доказательство. Предположим, что / = 1 (доказательство для i = 2 аналогично). Для данного е>0 выберем такие бх, 62>0, что d±F (л:, у) существует при всех x^Sl = S (х°, бх), у ? S9i = = 5@°, S2) и R/7 (х, у) - d±F (х°у у0) ||< е, V х g Sl9 у 6 52. Далее, для данного у ? S2 определим G: Sx -> Rm равенством Gx = F (х9 у) — dxF {x\ y°) х. Тогда IIО9 (х)|| = |dJF (х9 у) -d,F (x\ f) ||< е, V х € S±. Следовательно, по теореме о среднем 3.2.5 lF(x, y)-F{zy у)-дхР(х\ 0°)(*-*)|| = ||G*-G*ll< < sup \\G'(x + t(z-x))\\-\\x-z\\^e\\x-z\\ для любых x% z G Sjl. I
128 Часть //. Неконструктивные теоремы существования 6.2 С помощью леммы 5.2.3 мы можем установить теорему о неяв- неявной функции в терминах строгой или непрерывной частной произ- производной. 5.2.4. Теорема о неявной функции. Пусть отображение F: Dcz cRn X Rp-+Rn непрерывно в открытой окрестности DoczD точки (*°, у ), для которой F (л:0, у0) = 0. Предположим, что частная про- производная d±F существует и строга в точке (х°, у0) [или, что д-JF существует в некоторой окрестности (л;0, у0) и непрерывна в (х°, у0)] и что матрица d±F(x°y y°) невырождена. Тогда существуют такие открытые окрестности S1cIjR^ и S2czl^ точек х° и у0 соответ- соответственно, что для любого у_? $2 уравнение F (х, у) = 0 имеет един- единственное решение х = Ну ? Si и отображение Я: S2-> Rn непрерывно. Если, кроме того, и dJF существует в (х°, у0), то отображение Я F-дифференцируемо в у0 и Н' Ы - - [<Э/ (*°, у°)Г1 d2F (x\ f). C) Доказательство. Положим А = d±F(х°, у0), р = |]>1 J||, и пусть 0<а<р~1. В силу строгости dJF в (л:0, у0) мы можем вы- выбрать 81э 62>0 такими, чтобы \F(x, y)-F(z, y)-A(x-zyi<a\x-z\ D) при всех х, z g Si = S (л;0, 6J и у g 52 = S (#°, S2) и чтобы Si xS2c dD0. Далее, для фиксированного y?S2 определим отображение Gy: S\ -> Rn равенством GyX=Ax — F(x, y)-F{xP, y), VJcgS,. Тогда, согласно D), \\Gyx-Gyz\\ <а\х — г% V ^г g Slf и ввиду непрерывности Т7 в (а:0, ^°) мы можем предположить также, что б2 настолько мало, что IIF (А У)\\ = IF (А У)~Р (А У°)\\ <°^ (Г1 - а) 81в Теорема 5.1.6 показывает, что ^уравнение Ах — GyX = F (х°, у) имеет единственное решение в Slt т. е. что для любого у ? S2 уравнение F (х, у) = 0 имеет единственное решение в Sv Обозна- Обозначим это решение через Ну и покажем, что отображение Н: S2 -> Rn непрерывно. Пусть у, г g S2. По определению Н имеем F (Ну, у) =* F (Hz, z) = 0, и из D) следует, что 1 #)-Л !/7 (Яг, y)-F(Hz9 г) z, y)-F(Hzy z%
5.2 Гл. 5. Сжатия и продолжаемость 129 Поскольку Ра < 1, отсюда вытекает, что || Ну - Hz || < [Р/A - Ра)] | F {Hz, y)-F (Hz, z)\\, E) и непрерывность F влечет за собой непрерывность Н. Предположим, наконец, что существует d2F (х", у0). Тогда для данного е > 0 мы можем выбрать такое б > 0, что E) прини- принимает вид | Ну - Ну" ||< у || у - у"\\, Yy?S (у", б), 7-[Р/A-ар)][||а/(Д у°)\\+г]. 1°> Следовательно, \\Ну - Ну" + [d,F (х", y")]~l d2F (х", у") {у - у")\\ < < РII d±F (х\ у") {Ну - Ну") + d2F {х», у") (у - у»)\\ < < РIIF (Ну, y)-F (Ну", у) - dxF (x", у") (Ну - Ну")\\ + + р || F (Ну", y)-F (x", у") - d2F (x", у") (у - у")\\ < чем и доказаны F-дифференцируемость отображения Н в точке у" и справедливость формулы C). | Теорема об обратной функции основана на фундаментальном предположении, что производная F' (х°) невырождена. Для того чтобы это было возможно, мы должны предполагать, что F отоб- отображает Rn в себя, так что F' (х) является квадратной п X п-мат- рицей. Естественно возникает вопрос, что будет в случае, когда F отображает Rn в Rm, где m фп, т. е. когда мы имеем систему с числом уравнений, меньшим или большим числа неизвестных. Для случая т<.п ответ дает теорема о неявной функции. А именно, если т х /г-матрица F' (х") имеет ранг т, то мы можем «расщепить» пространство Rn на сомножители: Rn = RT х Rn~~m, и положить G (и, v) = Fx— Fx" с х = (и, v), и ? FT, v ? Rn~m, так что dfi (и", v") будет невырожденной т х n-подматрицей матрицы F' (х°). Поэтому в предположениях теоремы о неявной функции мы имеем для каждого v из некоторой окрестности V точки v" решение и = = Hv уравнения G (и, v) = 0. Другими словами, уравнение Fx = Fx° имеет в этом случае бесконечное множество решений, а именно ре- решения, даваемые равенством х = (Hv, v), v ? V. Здесь мы имеем полную аналогию со случаем линейной систе- системы Ах = 0, которая для прямоугольной т X /г-матрицы А с т < <; п всегда имеет бесконечное множество решений. Если продол- продолжать эту аналогию, то нужно ожидать, что для системы Fx = у с числом уравнений, большим числа неизвестных, решение суще- существует только для некоторых специальных правых частей у. Как мы увидим, это действительно так. R П» г\п
130 Часть II. Неконструктивные теоремы существования 5.2 Прежде чем формулировать следующую теорему, напомним, что множество S с Rn называется множеством меры нуль, если для любого заданного е>0 найдется счетное множество гиперпрямо- угольников Qj объема qf, таких, что 5 с U Q/ и 2 <7/ <8- Под гиперпрямоугольником мы понимаем любое множество вида Q = {*e/n* = ^ + 2a/A'", «/€[0, 1]), \ /==1 ) где векторы Л1, ..., hn взаимно ортогональные и ненулевые. Если ||ft1 J = ... = \hn\, то мы говорим, что Q является кубом. Объем q гиперпрямоугольника Q определяется, конечно, по формуле q = 5.2.5. Теорема Сарда. Пусть отображение F: D а /?"->/?" не- непрерывно дифференцируемо на открытом множестве D и S — ком- компактное подмножество в D. Положим С = {х ? S\ производная F' (х) вырождена}. Тогда F (С) имеет меру нуль. Доказательство. Так как S компактно, a D открыто, то мы можем покрыть S конечным множеством кубов QjCiD, j = = 1, ...,/?. Поэтому мы можем, очевидно, считать, что S является кубом Q. Пусть длина ребра этого куба равна у. Разобъем Q на пгп кубов Pj с ребром длины у/т. Пусть Р — какой-нибудь из этих малых кубов. Предположим, что имеется точка и ? Р, для которой производная F'(u) вырождена. Пусть задано е > 0. Мы можем считать, что т выбрано настолько большим, что \'Fx — Fu—F1 (и) (x — u)\U < еЦ* — и^ < -~- у, Yx?P. G) Определим аффинное отображение В: R'1 ->¦ Rn равенством Вх = == Fu + F (и) (х — и). Тогда ^Bx-FuU < p lx-uU < тРМ V х б Р, (8) где р = sup || F' (x)t Поскольку производная F'(u) вырождена, множество В (Р) содержится в гиперплоскости размерности самое большее п — 1 и, согласно G), F (Р) содержится в еу/т-окрест- ности множества Р(Р). В частности, F (Р) содержится в гипер- гиперпрямоугольнике объема, равного самое большее [2 (Р + е) у/т]п-1 Bуг/т) = Bу/т)п ф + е)"-1 е. Следовательно, F (С) содержится в гиперпрямоугольниках с об- общим объемом, не превышающим B7)" (Р + е)""" е, а так как е было произвольно, это показывает, что F (с) имеет меру нуль. |
5.2 Гл. 5. Сжатия и продолжаемость 131 Если линейный оператор А ? L (Rn) вырожден, то область его значений А самое большее (п — 1)-мерна и потому является мно- множеством меры нуль. В качестве непосредственного следствия тео- теоремы 5.2.5 мы получаем естественное обобщение этого результата на случай нелинейных отображений. 5.2.6. Предположим, что отображение F: Rn ->• Rn непрерывно дифференцируемо и производная F'(x) вырождена при всех х ? ? Rn. Тогда F (Rn) имеет меру нуль. Доказательство. Пусть [Qf\ — счетный набор таких со кубов, что U Q/ = Rn. Теорема 5.2.5 показывает, что F (Qf) имеет /=1 меру нуль при всех /, откуда и следует наше утверждение. | Этот результат допускает немедленное применение к затрону- затронутому выше вопросу о переопределенных системах. Пусть отобра- отображение F: Rn -> Rm, m> n, непрерывно дифференцируемо. Рас- Рассмотрим естественное продолжение F на Rm, определенное соот- соотношением Тогда F (х, и) = (F' (х), 0), где 0 —нулевая m x (m — п)-матрица, и, следовательно, производная F' (х, и) вырождена при всех (х, и) ? ? 1С1. Поэтому следствие 5.2.6 показывает, что множество всех у, для которых система Fx = у имеет решение, является множеством меры нуль в Rm- В частности, это означает, что даже если система Fx = у имеет решение, то сколь угодно малые изменения ее пра- правой части у дают систему, которая уже не имеет решения. Таким об- образом, задача решения m уравнений с п < m неизвестными яв- является с численной точки зрения некорректно поставленной. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 5.2.1. Теоремы об обратной и неявной функциях для непрерывно дифферен- дифференцируемых функций можно найти во многих учебниках по анализу повышенного типа (см., например, Апостол [1957]). Основная часть теоремы 5.2.1, связанная с предположением, что производная F'(x°) — строгая, представляет собой частный случай более общего результата Лича [1961], а использование строгих частных производных в теореме 5.2.4 является, по-видимому, новым. Как теорема 5.2.1, так и теорема 5.2.4 вместе с их доказательствами остаются верными для случая произвольных банаховых пространств, только предположение о невырожденности производных нужно заменить предположением о существовании ограниченных обратных. Результаты этого типа для банаховых пространств впервые были полу- получены Гильдебрандтом и Грейвсом [1927]. ЗС 5.2.2. Теорема Сарда, как она была нами сформулирована (см. 5.2.5), есть частный случай такого более общего результата. Пусть отображение F: D с Rn -* ~> Rn непрерывно дифференцируемо на открытом множестве D. Тогда для любого
132 Часть //. Неконструктивные теоремы существования 5.3 измеримого (по Лебегу) множества Do с D множество F (Do) измеримо и мера {F(D0)}< j \6etF'(x)\dx. Доказательство можно найти, например, у Шварца [1964] или Сарда [1942]. УПРАЖНЕНИЯ У 5.2.1. Определим функцию /: R1 -» R1 соотношением /@) = 0, f(x) = —х-\- + х2 sin — , х Ф 0. Показать, что /' @) =?0, но / не является локальным го- х меоморфизмом в нуле. У 5.2.2. Предположим, что F: Rn* X . . . X Rnp -> Rm, n = пг + . . . + пр, имеет частные /-'-производные d^F (x) в х = (х1, ..., хр) и что все они, за исклю- исключением, быть может, одной, строгие. Показать, что F имеет ^-производную в л: и Р 2 t> h = ^' • • •»лР)- У 5.2.3. Предположим, что в 5.2.2 все частные производные d; F (х) строги. Показать, что тогда и сама производная F'(x) строга. У 5.2.4. Предположим, что F: R'u X ... X Rnp -> Rm имеет частную f-npo- изводную diF в каждой точке некоторой открытой окрестности точки х ? Rn. По- Показать, что если diF непрерывна в х, то она строга. Вывести отсюда, что если все diF, i = 1, ..., р, непрерывны в х, то выполнено заключение упражнения У 5.2.2. У 5.2.5. Предположим, что в теореме 5.2.4 d±F и д2^ существуют и непрерывны в некоторой открытой окрестности точки (x°yly°). Показать, что Н непрерывно дифференцируемо в некоторой открытой окрестности S точки у0 и Я' (У) = - [dxF (Ну, у)Г1 d2F (Ну, у), У 5.2.6. Предположим, что в теореме 5.2.4 частная производная d2F (x°, у0) также строга. Показать, что тогда производная Н'(у°) строга. У 5.2.7. В предположениях теоремы 5.2.1 показать, что если F дважды непре- непрерывно дифференцируемо в некоторой окрестности точки х°, то FJJ1 дважды не- непрерывно дифференцируемо в некоторой окрестности точки Fx°. 5.3. СВОЙСТВО ПРОДОЛЖАЕМОСТИ Предположим, что F: Rn ->• Rn является локальным гомео- гомеоморфизмом в каждой точке х пространства /?". Нас в этом парагра- параграфе будут интересовать дополнительные условия на отображение F, которые гарантируют, что оно является гомеоморфизмом всего пространства в себя. Заметим, прежде всего, что такие дополнительные условия дей- действительно необходимы. Например, функция одной переменной ех в каждой точке из R1 имеет ненулевую производную и, следо- следовательно, согласно 5.2.1, является локальным гомеоморфизмом, но область значений ех не совпадает с R1. Далее, У 5.3.1 и У. 5.3.2
5.3 Гл. 5. Сжатия и продолжаемость 133 дают примеры непрерывно дифференцируемых отображений F: R2 -> R2, таких, что производная F'(x) невырождена при всех х> но F не взаимно однозначно. Заметим, однако, что в случае одного измерения теорема о среднем значении немедленно показывает, что F взаимно однозначно, если F'(x) Ф О при всех х. В случае более высоких размерностей это рассуждение уже не проходит (тем не менее имеется простое достаточное условие взаимной однознач- однозначности, см. У 5.3.4). Рис. 5.1. Мы начнем с основной леммы, которая позволит нам сделать в этом параграфе большинство выводов из следующего простого, но мощного условия на F. 5.3.1. Определение. Говорят, что отображение F: DczRn-+Rn об- обладает свойством продолжаемости для данной непрерывной функции ц\ [О, 1 ] с: R1 -> Rn, если для всякой функции р: [О, а) ->• D,a? (О, 1 ], с Fp (t) = q (t) при всех t ? [0, а) существует lim p(t) = р (а), р (а) ? ?D и Fp(a)=q(a). | 5.3.2. Предположим, что F: DczRn-+Rn является локальным го- гомеоморфизмом в каждой точке открытого множества D. Если F обла- обладает свойством продолжаемости для непрерывной функции ц\ [0,1]-> -+Rn, такой, что Fx° = q@) для некоторой точки х° g D, то суще- существует единственная непрерывная функция р: [О, 1]->А для которой р @) = х° и Fp (t) = q (t) при всех / G [0, 1]. Доказательство. Пусть U и V — такие открытые окрестно- окрестности точек х° и FxP соответственно, что сужение Fu отображения F на U является гомеоморфизмом U на V. Тогда найдется такое t1 ? ? @, 1], что q(t) ? V при / ? [0, /х) и, следовательно, мы можем определить непрерывную функцию р: [0, ^)->(/czD по формуле p(t) =FiJlq(t). Далее, по свойству продолжаемости существует р (tx) = lim p (t) и Fp (tx) = q (^). Если ix < 1, мы можем повторить процесс и продолжить р последовательно до точек /а < 'з < • • • < 1 •
134 Часть //. Неконструктивные теоремы существования 5.3 Пусть t — максимальное значение /, до которого функция р может быть продолжена таким образом, т. е. / = sup^. Тогда или / =/Л> для некоторого Nub этом случае Fp (t) = q(f) при всех t ? [0, /], или Fp(t)=q(t) при всех t? [О, f), так что по свойству продол- продолжаемости снова Fp(t) = q(t). Поскольку p(t) ? D и D открыто, мы можем применить тот же процесс и продолжить р за t. Но это л. /ч противоречит максимальности /, значит, t должно быть равно 1. Чтобы доказать единственность /?, предположим, что г: [0, \]а a R1 -> D —- другое непрерывное отображение, такое, что г @) = я0 = = р @) и Fr @ = 9@» *€ [0,1 ]. Тогда множество /0 = {/ € [0,1 ]|/?(s) = = г (s) при всех s ? [0, /]} непусто и, следовательно, определено / = sup {t\t ? Уо}. В силу непрерывности г и р мы имеем ??«/0. Если 1<С 1, то найдутся точки tk ^ G, 1] с lim /fe = /, такие, что р (tk) Ф k-+ со =з^ г (^). Но lim p (tk) = p (f) = г (й) = lim r (tk) в противоречие с предположением, что F — локальный гомеоморфизм в точке р G). | Рассматривая свойство продолжаемости только для линейных отображений q, мы получаем следующее важное следствие теоремы 5.3.2. 5.3.3. Пусть F: D d Rn ->/?" — локальный гомеоморфизм в каждой точке открытого множества D. Если F обладает свойством продол- продолжаемости для всех линейных функций q (t) = A — t) y° + ty1, t ? ? [0, 1], где у0, у1 ? Rn произвольны, то FD = #'\ Доказательство. Пусть х° ? D и у ? R" произвольны. Так как F обладает свойством продолжаемости для q = A — t) Fx° + ty, t € [0> Ui то теорема 5.3.2 гарантирует существование отображения р: [0, 1]-^Д такого, что Fp(t)=q(t) при всех ^ € [0, 1]. В част- частности, Fp A) = у и, следовательно, FD = /?n. | Вернемся теперь к вопросу о том, когда F взаимно однозначно. Удивительно, что и здесь свойство продолжаемости играет решаю щую роль. Сначала мы докажем следующую лемму, которая пред- представляет собой обобщение теоремы 5.3.2 на случай функций двух переменных. 5.3.4 Пусть F: DaRn-*Rn является локальным гомеоморфизмом в каждой точке открытого множества D в Rn, и пусть q: [0, 1] х X [0, 1 ] cz R2 -> Rn и г: [0, 1 ] с: R1 -> D — такие непрерывные функ- функции, что Fr(s) = q(s, 0) при всех s ? [0, 1]. Если F для каждого фиксированного s ? [0, 1] обладает свойством продолжаемости
S.3 Гл. 5. Сжатия и продолжаемость 135 для qs (t) = q (s, /), / ? [О, 1], то существует единственное не прерывное отображение р: [О, 1] X [О, \]-+D, такое, что р ($, 0) = г (s) и F/7 (s, t) = q (s, 0 при s, / ? [0, 1]. Кроме того, если q (s, 1) = q (О, 0=9 A, 0=0 ПРИ всех s, t ? [0, 1], то г @) = = гA). Доказательство. Пусть У=[0, 1]. Теорема 5.3.2 гаранти- гарантирует существование для каждого s ? 5 единственного непрерывного отображения ps: J -* Д такого, что ps @) = г (s) и Fps (t) = G (s, /) при всех ^ ? У. Поэтому, если положить р (s, f) = ps (t) для всех sy t ? Jy то остается только доказать, что отображение р непрерыв- непрерывно. Допустим, что р разрывно в точке (s0, tx) ? J х «Л Пусть t0 — верхняя граница всех / ? /, таких, что р разрывно в (s0, /), и пусть U и У — такие открытые окрестности точек р (s0, /0) и ^ (s0, /0) со- соответственно, что сужение Fv является гомеоморфизмом U на V. Очевидно, t0Ф0, ибо непрерывность функции г и единственность каждого отображения ps гарантируют, что р (s, t) = F^V (s> 0 ПРИ всех 9 (s, ?) ? V. Отсюда следует, что р непрерывно для тех s и /, для которых /? (s, ^) с: U. Предположим поэтому, что t0 > 0, и пусть / (s0) и / (^0) — такие интервалы — окрестности точек s0 и t0 из /,— что q (s, /) € Vy как только (s, ^) б / (s0) X / (/<>). Такие интервалы существуют ввиду непрерывности q. Поскольку отображение р$0 не- непрерывно, мы можем выбрать такое /' < /0, что f ?J (t0) и р (s0, t') ? U. Далее, так как р непрерывно по обеим переменным в точке (s0, tr), найдется интервал «/' (s0) d/ (s0), такой, что p{s,t')?U при всех f е ^ (У- Но Т0ГДа Ps @ = Р (s> 0 = /ч/1? (s> О ПРИ всех (s» 0 € ^' (s0) х X «/(^0), так что р непрерывно в окрестности точки (s0, t0), в про- противоречие с построением точки t0. Для доказательства последнего утверждения заметим сначала, что Fp @, t) = q @, t) = у к из непрерывности р следует, что р @, /) = г @) при всех / ? [0, 1],— в противном случае существова- существовали бы как угодно близкие к г @) точки, которые F переводит в у, а это противоречило бы тому, что F — локальный гомеоморфизм. Аналогично равенство q (I, f) = у показывает, что р A, t) = г A) при всех / ? [0, 1]. Но тогда /? (s, 1) является такой непрерывной функцией от s, что Fp (s, 1) = q (s, 1) = у при всех s g [0, 1] и р @, 1) = г @), р A, 1) = г A). Поэтому если бы г @) Ф г A), то существовали бы точки р (s, 1), как угодно близкие к г @), которые переводятся в у, и это снова противоречило бы тому, что F — ло- локальный гомеоморфизм. Следовательно, г @) = г A). И Всякое непрерывное отображение </• [0> И ->¦ Я" называется путем в Rn с концевыми точками ^@) и #A), и всякое непрерыв- непрерывное отображение q: [0, 1] X [0, 1] ->- R" можно рассматривать как непрерывную деформацию, или гомотопию, пути q @, •) в путь ? A, •) . Суть теоремы 5.3.2 такова: если задан путь в Rn, одна из концевых точек которого находится в области значений
136 Часть II. Неконструктивные теоремы существования S.3 отображения F, то найдется путь в D, который отображением F пе- переводится в этот заданный путь. Аналогично суть леммы 5.3.4 состоит в том, что существует гомотопия в D, которая переводится в заданную гомотопию в /?". Мы можем теперь доказать главный результат этого парагра- параграфа. Напомним, что множество D называется линейно связным, если для любых двух точек л;, у ? D имеется непрерывное отображение р: [0, 1] -> D, такое, что р @) = х и р A) = у. 5.3.5. Пусть множество D a Rn открыто и линейно связно и F: D -+ Rn — локальный гомеоморфизм в каждой точке D. Тогда F является гомеоморфизмом множества D на /?" в том и только в том случае, если F обладает свойством продолжаемости для любой непрерывной функции q: [0, 1] с Rl -> Rn. Доказательство. Пусть F — гомеоморфизм D на Rn и р: [0, 1)->D и q: [0, 1 ]->/?" — такие непрерывные отображения, что Fp (t) = q (t) при t 6 [0, 1). Положим р A) = F~~xq A). Тогда р (I) ? D и непрерывность отображения F" гарантирует, что lim p (t) = а= lim F~lq(t) = p(l). Следовательно, F обладает свойством продол- жаемости для любого непрерывного отображения q\ [0, 1]->/?п. Обратно, предположим, что F обладает свойством продолжае- продолжаемости для всех непрерывных q: [0, 1] с: R1 -> Rn- Тогда из след- следствия 5.3.3 вытекает, что FD = Rn, и так как непрерывность отоб- отображений F и F-1 является следствием локальной гомеоморфности F на D, то остается лишь показать, что F взаимно однозначно. Пред- Предположим, что Fx° = Fx1 = у для некоторых #°, х1 ? D. Пусть г: [0, 1] cz R1 -> D — такое непрерывное отображение, что г @) = = л:0, г A) = х1. Определим отображение q: [0, 1] X [0, llcz С Я2 -> Rn формулой q (s, 0 = /*/ + A — t) Fr (s). Очевидно, что q непрерывно и удовлетворяет условию q (I, t) = q (s, I) = у при всех s, t ? [0, 1]. Поэтому в силу последнего утверждения леммы 5.3.4 л:0 = г @) = г A) = л:1. | Свойство продолжаемости представляет собой «операционное» условие, которое бывает затруднительно проверять в конкрет- конкретной ситуации. Поэтому мы рассмотрим сейчас другие условия, из которых следует свойство продолжаемости. 5.3.6. Определение. Отображение F: D cz Rn -> Rn называется коэрцитивным по норме на открытом множестве Doa D, если для любого у > 0 существует замкнутое ограниченное множество DY с d Do, такое, что \\Fx\\> у для всех х ? D0\Dy. |
5.3 Гл. 5. Сжатия и продолжаемость 137 Заметим, что если Do = Rn, то F коэрцитивно по норме тогда и только тогда, когда lim \\Fx\\ = со. Прежде чем доказывать, что в теореме 5.3.5 свойство продол- продолжаемости можно заменить коэрцитивностью по норме, установим следующую лемму. 5.3.7. Пусть F: D d R" -> Rn — локальный гомеоморфизм в каждой точке множества D и р: [0, а) с: [0, l]-+D— непрерывная функция. Если существует lim Fp {() = у и если имеется последовательность {tk} a [0, а) с lim (k = а, такая, что lim p (tk) = х ? Д то lim /? (/) = Доказательство. Ввиду непрерывности F имеем Fx = y. Пусть теперь U и V — такие открытые окрестности точек хну соответственно, что сужение Fu отображения F на U является го- гомеоморфизмом U на V. Очевидно, найдется f < а, такое, что р (tk) ? (/ при tk g (/', а) и Fp (/) ? У при t б (/', а). Следовательно, функция р (/) = Т7^1/7/? (/), t g (/', а), удовлетворяет условию р (tk) = /? (/Л) при всех /Л f (f, а), и точно такими же рассуждениями, как и при до- казательстве единственности в теореме 5.3.2, получаем, что р (t) = = р (t) при всех t ? (tfy а). Таким образом, в силу непрерывности FU1 мы имеем lim p (t) = lim FJJ1 (F (p (t))) = x. | 5.3.8. Теорема о коэрцитивности по норме. Пусть множество D открыто и линейно связно. Предположим, что F: D a Rn -> Rn является локальным гомеоморфизмом в каждой точке D. Тогда F является гомеоморфизмом D на Rn в том и только в том случае, если F козрцитивно по норме. Доказательство. Предположим сначала, что F является го- гомеоморфизмом множества D на Rn. Пусть задано у>0. Положим 5=5@,7)- Так как F~l непрерывно, то множество Dy — F~lS замкнуто и ограничено, и если х ? D \Dy, то Fx ? 5, т. е. ||f#||> Y- Обратно, пусть F коэрцитивно по норме на D. Тогда по теореме 5.3.5 достаточно доказать, что F обладает свойством продолжаемо- продолжаемости для любого непрерывного отображения q: [0, 1 ]->/?". Пусть q задано, и предположим, что для некоторого непрерывного отображе- отображения р: [0, а) а [0,1 ] -> D мы имеем Fp (t) = q (t) при всех / ? [0, а). Положим у = max ]||q(t)\\\t ? [0, а)}. Тогда в силу коэрцитивности по норме отображения F существует компактное множество Dv cz Д такое, что ||Fx||> у при всех х ? D\ Dy. Отсюда следует, что р (i) ? Dy при всех / ? [0, а), и вследствие компактности Dy найдется такая последовательность [tk] cz [0, а), что lim tk = а и lim p (tk) =¦• fe> fe
138 Часть П. Неконструктивные теоремы существования 5.3 = х ? D. Поэтому, согласно лемме 5.3.7, lim p (f) =.• х, так что ввиду непрерывности F имеет место равенство Fx = q(a). | Заметим, что в теореме 5.3.8, равно как и в теореме 5.3.5, мно- множество D обязательно односвязно (см. У 5.3.9). Немедленным следствием теорем 5.2.1 и 5.3.8 является следую- следующий очень полезный результат. 5.3.9. Пусть отображение F: Rn -> Rn непрерывно дифференци- дифференцируемо на всем R" и производная F' (х) невырождена при всех х ? Rn. Тогда F является гомеоморфизмом Rn на себя в том и толь- только в том случае, если lim \\Fx\\ = оо. /М/-+ОО Мы завершим этот параграф двумя результатами одного и того же типа, в которых условие коэрцитивности заменено усло- условием ограниченности F' (л:). 5.3.10. Теорема Адамара. Предположим, что отображение F: Rn-+ -> Rn непрерывно дифференцируемо на Ru и || F' {х)~~\ < у < + со при всех х ? Rn. Тогда F является гомеоморфизмом R" на себя. Доказательство. По теореме 5.2.1 F является локальным гомеоморфизмом в каждой точке х ? Rn. Покажем, что F обладает свойством продолжаемости для любой линейной функции q (t) = ===== A — 0 r/° -f- ty\ t ? [0, 1], #°, yv ? Rn. Предположим, что для не- некоторой непрерывной функции р: [0, a) cz [0, 1 ] -* R" мы имеем Fp (t) = q (t) при / ? [0, а). Для любого фиксированного t ? [0, а) пусть U и V —такие окрестности точек р (t) и q (f) соответственно, что сужение Fu отображения F на U является гомеоморфизмом U на V. Тогда по теореме 5.2.1 FJJ1 непрерывно дифференцируемое окрестности q(t) и (FU1)' (Fx) = F' (х)~\ Vx?U. A) Поэтому по цепному правилу 3.1.7 Р' 10 = F' (р (О) q' (О, а это показывает, что функция р непрерывно дифференцируема на [0, а). Пусть теперь [tk] cz [0, а) — любая монотонно возрастающая последовательность, такая, что lim^ = а. Тогда при /г</ мы имеем P'{t)dt \F(p{t))-xq'(t)dt -уЧ \h-ti\. B) Следовательно, [р (t^) является последовательностью Коши и пото-
5.3 Гл. 5. Сжатия и продолжаемость 139 му сходится. Пусть lim р (tk) = х. По лемме 5.3.7 lim p (/) = ху и в силу непрерывности F мы имеем Fx = q (а). Таким образом, F об- обладает свойством продолжаемости для всех линейных функций в Rn и, согласно следствию 5.3.3, FRn = Rn. Докажем взаимную одно- однозначность отображения F. Предположим, что Fx° = Fx1 = у, и по- положим q(s9t)=ty + (l—t)F((l—s)x» + sx1), s, ^ [0, 1]. Очевидно, при каждом фиксированном s ? [0, 1] функция qs = = q (s, •) линейна, так что F обладает свойством продолжаемости для каждой из функций qs. Далее, q (s, 1] = q (О, /) = q A, /) = у при всех ху t g [0, 11, так что, согласно последнему утверждению леммы 5.3.4, л:0 = х1. I Следующую теорему можно рассматривать как локальный вариант теоремы Адамара. 5.3.11. Пусть F:DaRn-+Rn непрерывно дифференцируемо на Д и пусть имеется такой открытый шар S = S (jc°, r) d D, что Ц/7'^)"^ < у при х ? S и г > у || Ах° |. Тогда уравнение Fx — 0 имеет реше- решение в S. Доказательство. Доказательство проводится ана- аналогично доказательству теоремы 5.3.10. Из теоремы 5.2.1 снова очевидно следует, что F является локальным гомеоморфизмом в каждой точке х ? S. Покажем, что F обладает свойством продол- продолжаемости для функции q (t) = A — /) у0, t g [0, 1], где у° = = Fx°. Предположим, что для некоторой непрерывной функции р: [0, а) с [0, 1] -> S мы имеем Fp (t) = q (t), t ? [0, а) и p @) = = а:0. Как и при доказательстве теоремы 5.3.10, получаем, что функция р непрерывно дифференцируема на [0, а) и что выполнено A). Поэтому, если снова {^}с[0, а) — любая монотонно воз- возрастающая последовательность, сходящаяся к а, то, как показы- показывает B), {р (tk)) является последовательностью Коши и, сле- следовательно, существует lim p (tk) = x. Из неравенств видно, что х ? S (jc°, ar) czS. Таким образом, по лемме 5.3.7 lim p (t) = х и ввиду непрерывности F мы имеем Fx — q(a). Это показывает, что F обладает свойством продолжаемости для q, или, другими словами, что функцию р можно продолжить до t = 1 и что р A) ? S и /A) A) 0 ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 5.3.1. Изложение материала в этом параграфе следует работе Рейнболдт [1969а], где теория развита в значительно большей общности. В частности, ре-
140 Часть II. Неконструктивные теоремы существования 5.3 зультаты и определения 5.3.1—5.3.7 сохраняют силу для случая произвольных банаховых пространств. Однако сам принцип продолжаемости восходит по крайней мере к прошлому столетию и служит стандартным инструментом в теории обыкновенных дифференциальных уравнений. В той или иной форме он использо- использовался различными авторами для получения теорем существования для оператор- операторных уравнений (см., например, Эрманн [1963]; обзор более ранних работ имеется у Фикена [1951]). ЗС 5.3.2. Теорема 5.3.10 была доказана впервые Адамаром [1906] и обобщена на случай гильбертовых пространств Леви [1920]. Этот результат верен и для слу- случая произвольных банаховых пространств (см. Рейнболдт [1960а] или же Шварц [1964], где дано прямое доказательство, использующее аналогичные идеи). С дру- другой стороны, в теорему 5.3.8 о коэрцитивности по норме требуется внести следую- следующие видоизменения, чтобы она сохранялась в случае банаховых пространств: если F: X -» X имеет вид F = I — G, где отображение G непрерывно и компактно (последнее означает, что G переводит замкнутые ограниченные множества в компа- компактные множества), и если, кроме того, F есть коэрцитивный по норме локальный гомеоморфизм, то F является гомеоморфизмом X на себя. Этот результат принад- принадлежит, по-видимому, Каччополи [1932] (см. также Рейнболдт [1969а]). ЗС 5.3.3. Доказательство теоремы 5.3.10 легко изменить так, чтобы получить следующий более общий результат Мейера [1968]: заключение теоремы 5.3.10 остается справедливым, если равномерную ограниченность F' (х)~] заменить условием || F' (х)~11| < а || х || + р при всех х ? Rn. Действительно, рассуждая, как и в случае теоремы 5.3.10, получим E.3.2), где у теперь будет иметь вид -у=а[х + р, u = sup ||/?(*)||. Далее доказатель- ство сохранится, если только ц < оо. Чтобы показать это, заметим, что, как и в B), при г\ = У1—у°\\ t t где с1 = х\ [а || р @) || + Й и с2 = т)а. Поэтому из неравенства Гронуолла (см., на- например, Беллман [1953, стр. 46]*)) следует, что II P(t) — p @I1 < с ехр J c2dt < с, ехр с2, V * ? [0, а) с [0, i]. ЗС 5.З.4. Было бы интересно доказать непосредственно, что из предположений теоремы 5.3.10 вытекает, что F обладает свойством продолжаемости для всех не- непрерывных функций (это, конечно, верно как следствие этой теоремы, ибо F — гомеоморфизм). Такое доказательство до сих пор не найдено. Заметим, однако, что тривиальное видоизменение доказательства теоремы 5.3.10 позволяет показать непосредственно, что свойство продолжаемости имеет место для всех непрерывно дифференцируемых функций. УПРАЖНЕНИЯ У 5.3.1. Определим отображение F: R2 -» R2 соотношениями h М = (ехР *i) sin Хоу /2 (а:) = (ехр хх) cos x2. Показать, что производная F' (х) невырождена при всех х ? Я2, но F не взаимно однозначно. 1 Или Ф. Хартман, Обыкновенные дифференциальные уравнения, «Мир», М., 1970, стр. 37. —Прим. ред.
5.4 Гл. 5. Сжатия и продолжаемость 141 У 5.3.2. Определим отображение F: R2 -> R2 равенствами /х (*) = (exp 2*x) — х\ + 3, /2 (х) = 4х2 (ехр хх) — х\ Показать, что ведущие главные миноры матрицы/^(х) положительны при всех х ? /?2, но что F не взаимно однозначно (Гейл и Никайдо [1965]). У 5.3.3. Определим отображение F: R2 -> R2 формулами (х) = arc tgxv U(x) = (\+ x\) x2 \)x2. Показать, что det F'(x) = 1 при всех х ? R2, но что F не является отображени- отображением на. У 5.3.4. Предположим, что отображение F: D с Rn -*- Rn непрерывно диффе- дифференцируемо на открытом выпуклом множестве D и что для любых п точек *\... ..., хп ? D матрица (/[ (х')т, ..., f'n (xn)T) обратима. Показать, что F взаимно одно- однозначно. У 5.3.5. Определим функцию /: @, оо) с R1 -» R1 формулой f (х) = \ — (XIх). Показать, что / не обладает свойством продолжаемости для всех линейных функ- функций. У 5.3.6. Определим функцию р: [0, 1) с R1 формулой р (/) = sin [1/A — 01- Показать, что имеется последовательность {//?) С [0, 1), ^~>1, такая, что lim p (tk) = 0, но lim p (t) не существует. У 5.3.7. Пусть F: D с Rn -> Rn, где D = Dx (J D2 и Db D2 — открытые ли- линейно связные непересекающиеся множества. Предположим, что F является ло- локальным гомеоморфизмом в каждой точке множества D и обладает свойством про- продолжаемости для всех непрерывных отображений q: [0, 1] -» Rn. Показать, что F отображает каждое из Dt гомеоморфно на Rn. Сформулировать и доказать со- соответствующий результат для случая, когда D является произвольным объедине- объединением открытых линейно связных попарно не пересекающихся множеств (Рейн- болдт [1969а]). У 5.3.8. Пусть F: D с Rn -> Rn — локальный гомеоморфизм в каждой точке открытого множества D. Предположим, что множество FD линейно связно и что F обладает свойством продолжаемости для всех непрерывных отображений q: [0, 1] -> Rn. Показать, что для любых двух точек у0, у1 ? FD множества Г/ = = {х? D | Fx = у1}, i = 0, 1, имеют одинаковую мощность (Рейнболдт [1969а]). У 5.3.9. Пусть F: DaRn->Rn — локальный гомеоморфизм в каждой точке открытого линейно связного множества D. Предположим, что F обладает свой- свойством продолжаемости для всех непрерывных функций q: [0, 1] с R1 -> Rn» Показать, что тогда D односвязно, т. е. что если plt р2: [0, 1] -» D — любые две непрерывные функции с рх @) = р.г @), pj A) = р2 A)» то существует гомотопия Я'. [0, 1] X [0, 1] -» Д такая, что q @, t) = Pl (t), q(\, t) = p2 (t) при всех t ? [0, 1]. 5.4. МОНОТОННЫЕ ОПЕРАТОРЫ И ДРУГИЕ ПРИЛОЖЕНИЯ Рассмотрим теперь некоторые специализации результатов пре- предыдущего параграфа. Следующую теорему можно рассматривать как естественное дополнение теоремы 4.4.1, где матрица А предпо- предполагалась симметричной и положительно определенной. Напом- Напомним (см. 2.4.7), что А называется М-матрицей, если ац < 0, / Ф /, и А~] > 0.
142 Часть //. Неконструктивные теоремы существования 5.4 5.4.1. Пусть А с L (Rn) есть /И-матрица, отображение ф: Rn -> -»- R" непрерывно дифференцируемо и производная ф'(х) неот- неотрицательна и диагональна при всех х ? Rn. Тогда отображение F: Rn -> Rny определенное формулой Fx = Ах + фх, является гомеоморфизмом пространства Rn на себя. Доказательство. Очевидно, что F непрерывно диффе- дифференцируемо и F' (х) = А + ф'{х). В силу 2.4.11 О < F' {х)-1 < А~\ V * 6 R!\ Поэтому при любой норме величина IF' (x)~~l\\ равномерно огра- ограничена по ху так что применима теорема Адамара. | Теорема 5.4.1 имеет непосредственное приложение к крае- краевым задачам, рассмотренным в § 1.1, 1.2 и 4.4, в тех случаях, когда дискретизация линейного дифференциального оператора приводит к М-матрице, а не к симметричной матрице. К другой модификации теоремы 4.4.1 мы придем, если пред- предположим, что матрица А лишь положительно определена, но не симметрична. Эта модификация будет получена как следствие излагаемой ниже теории. 5.4.2. Определение. Отображение F: D с Rn -> Rn называется монотонным HaDocD, если (Fx - Fy)T (x — y)>0, V х, у 6 А>; A) строго монотонным на Do, если при х Ф у в A) имеет место строго неравенство, и равномерно монотонным, если существует такое у > > 0, что (Fx-FyY (х-у)>у(х- у)Т {х-у), V х9 у е Do. | B) Очевидно, что функция F: R1-*- R1 монотонна на DQ с R1 тог- гда и только тогда, когда она изотонна на Do. Матричный оператор F = А ? L (Rn) монотонен на Rn тогда и только тогда, когда матрица А положительно полуопределена (но не обязательно сим- симметрична). Некоторые свойства положительно определенных матриц приведены в У 5.4.1, 2. Предположим теперь, что F — градиентное отображение (см. 4.1.5), так что имеется G-дифференцируемый функционал g: Rn ->- Rl, для которого g'(x)T = Fx. Тогда дифференциальные неравенства 3.4.5 показывают, что F монотонно, строго монотонно или равномерно монотонно в том и только в том случае, если функ- функционал g выпукл, строго выпукл или равномерно выпукл соот- соответственно. Для случая неградиентных операторов F понятие мо- монотонности можно рассматривать как естественное обобщение понятия выпуклости. Мы увидим, что это нечто большее, чем по- поверхностное обобщение, а именно мы покажем, что для монотонных
5.4 Гл. 5. Сжатия и продолжаемость 143 операторов справедливы по существу такие же теоремы существова- существования, как и теоремы § 4.3 для градиентных отображений. Преж- Прежде чем приступить к первой из этих теорем, заметим, что для моно- монотонных операторов справедлив следующий аналог теоремы 3.4.6. 5.4.3. Пусть отображение F: D с Rn -> R" непрерывно дифферен- дифференцируемо на открытом выпуклом множестве DocD. (а) F монотонно на Do в том и только в том случае, когда про- производная F' (х) положительно полуопределена при всех х ? Ьо. (б) Если производная Fr(x) положительно определена при всех х ? Do, то F строго монотонно на Do. (в) F равномерно монотонно на Do в том и только в том случае, когда существует такое у > О, что hTF'(x)h>yhThy Vx?DOy h?Rn. C) Доказательство. Докажем (а) и (в) совместно. Пред- Предположим, что выполнено B). Тогда из определения F' следует, что для любых х ? Do и h ? Rn hT F'(x) h^h1 lim -±-[F(x + th) — Fx] > lim -?¦ || /A | = yhTh. D) Следовательно, если F равномерно монотонно, то выполнено C), а если F монотонно, то у = 0 и производная F' (х) положительно полуопределена. Обратно, если справедливо C), то теорема о среднем 3.2.7 дает >у(х — у)т(х—у), E) так что F монотонно или равномерно монотонно в зависимости от того, у = 0 или y > 0- Наконец, если производная F'(u) поло- положительно определена для всех и ? Do и х Ф уу то подинтеграль- ное выражение в E) положительно при всех / g [0, 1] и F строго монотонно. | '« Заметим, что строго монотонное на множестве Do отображение F обязательно взаимно однозначно на Do. Из утверждения 5.4.3 (б) следует, в частности, такой результат о единственности. 5.4.4. Если отображение F: D a Rn -> Rn непрерывно дифферен- дифференцируемо на открытом выпуклом множестве Docz D и производная F' (х) положительно определена при всех х ? Do, то F взаимно однозначно на Do. . Условия следствия 5.4.4 недостаточны для существования реше- решений соответствующего уравнения, что показывает одномерный пример Fx = еху однако мы можем гарантировать существование решения, усилив предположение монотонности,
144 Часть II. Неконструктивные теоремы существования 5.4 5.4.5. Если отображение F: Rn -> Rn непрерывно дифференциру- дифференцируемо и равномерно монотонно на /?п, то оно есть гомеоморфизм пространства R" на себя. Доказательство. Если А — произвольный линейный опера- оператор в L (Rn), такой, что \i Ah > yhTh при всех h ? R'1 и некотором 7>0, то он обратим и по неравенству Коши —Шварца \\Ah |, > >71Л|а- Следовательно, по теореме 4.3.8 f[ А™1|3 <; v"™1- Поэтому в силу утверждения 5.4.3 (в) и применима теорема Адамара 5.3.10. | Заметим, что теорема 5.4.5 содержит как частный случай соот- соответствующий результат 4.3.10 для градиентных операторов. Однако техника, требующаяся для доказательства теоремы 5.4.5 — теоре- теорема Адамара и теория продолжаемости § 5.3,— несколько тоньше, чем техника, которая использовалась в гл. 4. С другой стороны, используя еще более глубокие результаты, а именно теорию степе- степени отображения, излагаемую в следующей главе, мы сможем пока- показать, что эта теорема остается верной, даже если заменить требова- требование непрерывной дифференцируемости гораздо более слабым тре- требованием непрерывности (см. 6.4.4). Как непосредственное следствие теоремы 5.4.5 мы получа- получаем, что теорема 5.4.1 сохраняет силу, если А — положительно определенная, а не /W-матрица. Чуть более общо, имеет место такое утверждение. 5.4.6. Пусть матрица А ? L (Rn) положительно определена, отоб- отображение 0: Rn -> Rn непрерывно дифференцируемо и его произ- производная ф'{х) положительно полуопределена при всех х ? Rn. Тогда Л+0 является гомеоморфизмом пространства Rn на себя. Доказательство. Поскольку ЛМ/г>0, каково бы ни было hФ0, то в силу компактности единичной сферы /iM/i>7>0 при hTh = 1 и, следовательно, hTAh > yfih при всех h ? Rn. Положим FxszbAx 4- фх. Ясно, что F непрерывно дифференцируемо и hTF' (x) h = hT[A+ 0' (x)]h>hTAh > yhThy V x, h ? Rn. Поэтому наше утверждение непосредственно следует из теорем 5.4.3 и 5.4.5. | Мы закончим этот параграф одним результатом о решении си- системы Fx = b для случая, когда F монотонно. Это естественное обоб- обобщение того факта (см. У 4.2.9), что множество критических точек эыпуклого функционала выпукло.
5.4 Гл. 5. Сжатия и продолжаемость 145 5.4.7. Пусть отображение F: D cz Rn -+• Rn непрерывно и моно- монотонно на открытом выпуклом множестве Doc D. Тогда для любого Ь ? Rn множество решений Г = {х ? Do j Fx = b) выпукло (оно может быть и пустым). Доказательство. Для данного b ? Rn рассмотрим мно- множества Q = {х ? Do | (у - х)т (Fx - Ь) > О, V у ? Rn}, и Q* = {^е О0| (у- х)т (Fy-b) >0, Vу g Do}. Ясно, что Q = Г, и так как Do выпукло, то Q* также выпукло. По- Поэтому достаточно показать, что Q = Q*. Если х ? Q, то и в силу монотонности F (y-x)T(Fy-Fx)>Oy так что, складывая, получаем х ? Q*. Обратно, пусть л: f Q*. Для произвольного у g /?" положим^ = ty + A — t)x, t g [0, 1]. Так как Do открыто, найдется б ? @, 1], такое, что г ? Do при всех t 6 [0, б) и, следовательно, О < (* — ^)т (F^ — b) = t(y — x)T (Fx* — b)y откуда (у — jc)t (F^ — 6) > О, V / g @, б). F) Ввиду непрерывности F неравенство F) сохраняется в пределе при t -> 0, так что л: g Q. | Как немедленное следствие этого результата мы получаем также соответствующее утверждение для неподвижных точек не- растягивающего отображения. 5.4.8. Предположим, что отображение G: D a Rn ->- Rn нерастя- гивающе в /2-норме на открытом выпуклом множестве D. Тогда множество неподвижных точек отображения G выпукло (оно может быть и пустым). Доказательство. Определим отображение F: D a Rn -> ->• Rn равенством Fx = х — Gx> x ? D. Тогда нерастягивающесть G и неравенство Коши — Шварца дают (x-y?(Fx-Fy)=\\x-yB-(x-y)T(Gx-Gy)\> Поэтому F монотонно на D и наш результат следует немедленно из 5.4.7. |
146 Часть II. Неконструктивные теоремы существования 5.4 ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 5.4.1. Теорема 5.4.1 справедлива, и если ф лишь непрерывно, при условии, что оно по-прежнему изотопно и диагонально. Это было показано Каспаром [1969] с использованием теоремы 5.3.8 и теоремы об инвариантности области (см. ЗС 6.2.1). В гл. 13 мы получим это обобщение, используя значительно более простые сообра- соображения (см. 13.5.6 и У13.1.2). ЗС 5.4.2. Монотонные отображения обсуждаются также в ЗС 6.4.2. ЗС 5.4.3. Относительно других теорем существования и единственности для дискретных аналогов краевых задач см. Лиз [1966] и Лиз и Шульц [1966]. ЗС 5.4.4. Матрица А ? L (Rn) называется Р-матрицей, если все ее главные миноры положительны. Так как любая положительно определенная матрица яв- является Р-матрицей (см. У 5.4.2), то следующий результат Гейла и Никайдо [1965] представляет собой интересное обобщение теоремы единственности 5.4.4: если р: Rn -> Rn F-дифференцируемо и F'(x) является Р-матрицей при всех х?_ Rn, то F взаимно однозначно. ЗС 5.4.5. Теорему 5.4.7 доказал Минти [1962]. Соответствующий результат 5.4.8 справедлив в строго выпуклых банаховых пространствах (см., например, Опяль [1967а]). УПРАЖНЕНИЯ У 5.4.1. Предположим, что матрица А ? L(Rn) положительно (полу) определе- определена. Доказать, что все ее собственные значения имеют положительные (неотрица* тельные) действительные части. На примере матрицы . , /200 100\ I. 2 убедиться в том, что обратное, вообще говоря, не верно, но доказать, что обратное все-таки верно, если А — нормальная матрица (т. е. ААТ = АТА). (Указание: нормальная матрица А имеет п ортогональных собственных векторов в Сп.) yj>.4.2. Пусть матрица А ? L (Rn) положительно определена. Доказать, что все ее главные миноры положительны. Дать пример 2 X 2-матрицы, показываю- показывающей, что обратное не верно. У 5.4.3. Показать, что теорему 5.4.5 можно также доказать с помощью теоремы о коэрцитивности по норме 5.3.9. У 5.4.4. Пусть отображение ф : Rn -» Rn монотонно и матрица В ? L (Rn) положительно определена. Показать, что отображение F = I + Вф взаимно од- однозначно. Аналогично показать, что если ф строго монотонно, а В положительно полуопределена, то F взаимно однозначно. У 5.4.5. Предположим, что отображения Flf F2 : Rn ~> Rn непрерывно диффе- дифференцируемы и монотонны, причем Ft равномерно монотонно. Тогда F = Fx + F2 является гомеоморфизмом пространства R'1 на себя. Вывести отсюда, что, в част- частности, если матрица А ? L (Rn) положительно определена, то F = А + F2 — гомеоморфизм. У 5.4.6. Пусть матрица A?L(Rn) антисимметрична (А = — Ат) и отображение ф: Rn -* Rn непрерывно дифференцируемо и монотонно. Если с > 0, то F == = А + с! -|- ф — гомеоморфизм пространства Rn на себя. У 5.4.7. Пусть отображение ф: Rn -> Rn непрерывно дифференцируемо и моно- монотонно и матрица B?L(Rn) положительно определена. Тогда / + Вф взаимно однозначно и является отображением на все /?". (Указание: рассмотреть отобра- отображение Fx ^ Втх+ ВфВ'гх.)
Глава 6 СТЕПЕНЬ ОТОБРАЖЕНИЯ 6.1. АНАЛИТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ СТЕПЕНИ Если заданы непрерывное отображение F: D cz Rn -> Rn и вектор у ? /?", то во многих случаях важно знать заранее число решений системы Fx = у, принадлежащих некоторому конкрет- конкретному множеству С cz Rn. Поэтому возникает задача разработать методы вычисления указанного числа решений или по крайней мере нахождения подходящих оценок для него. Но здесь мы сразу стал- сталкиваемся с тем затруднением, что число решений системы, вообще говоря, не зависит непрерывно ни от F, ни от у. Как мы увидим, это затруднение можно обойти, если сначала подсчитать число ре- решений х ? С, для которых отображение F сохраняет «ориента- «ориентацию» в некоторой окрестности точки х, а затем вычесть из него число тех решений из С, для которых «ориентация» меняется на противо- противоположную. Полученное таким способом число называется сте- степенью отображения F в точке у по отношению к множеству С. -Конечно, это определение степени нестрого: для того чтобы дать строгое определение, необходимо уточнить смысл таких понятий, как «сохранение» или «изменение» «ориентации», а также точно опи- описать класс множеств С, подлежащих рассмотрению. Несмотря на то что степень отображения еще не дает точного числа решений си- системы Fx = у в С, она все же играет значительную роль в теоремах существования для таких систем. Уже приведенное выше нестро- нестрогое определение степени показывает, что если степень отобра- отображения F в точке у по отношению к некоторому множеству С отлична от нуля, то в С существует по крайней мере одно решение системы Fx = у. Более того, непрерывная зависимость степени отображе- отображения от F и у позволяет нам делать определенные выводы о сущест- существовании решений у систем, близких к исходной. В своей первоначальной форме понятие степени отображения появилось в комбинаторной топологии (см. ЗС 6.1.2), но существу- существует и чисто аналитическое определение этого понятия. Мы предста- представим здесь один из таких аналитических подходов. Для этого нам потребуются, в частности при доказательстве одной аналитической леммы, некоторые специальные результаты, нигде более в этой книге не используемые. Для удобства изложения формулировки этих результатов, а также доказательство упомянутой леммы вы- вынесены в приложение к настоящей главе.
148 Часть //. Неконструктивные теоремы существования 6.1 Понятие степени отображения будет введено сначала для слу- случая отображений F: D d Rn ->- R'\ непрерывно дифференцируе- дифференцируемых на D. Для удобства мы всегда будем предполагать, что D — открытое множество. Степень отображения будет определена по отношению к открытым ограниченным множествам С, таким, что С d D. Предположение о том, что множество С открыто, достаточно естественно, так как мы интересуемся поведением отоб- отображения F в целой окрестности решения системы Fx = у в С; ограниченность множества С обеспечивает конечность степени отображения. При этих предположениях относительно F и С мы свяжем с каждой точкой х ? С локальную систему координат х + eej, / = 1, ..., я, заданную в некоторой окрестности этой точки. Для достаточно малых е > 0 векторы F (х + eeJ), / = 1, ..., /г, по определению прокзЕодной приблизительно равны Fx -f- eF' (x) ejy j = 1, ..., n, и, если производная F' (х) невырождена, определяют некоторую окрестность точки у = F(x). Эти локальные системы координат, введенные в окрестностях точек х и у, имеют одинако- одинаковую ориентацию, если определитель det F' (х) положителен, а если sgn det F'(x) = — 1, то их ориентации противоположны. Предположим теперь, что для заданного у ? Rn не существует решений системы Fx = у, лежащих на границе С множества С, и что для каждого решения х из С производная F' (х) невырождена. Тогда по теореме 5.2.1 отображение F является гомеоморфизмом некоторой окрестности U (х) точки х ? С на некоторую окрест- окрестность точки у. Это означает, что окрестность U (х) не содержит никакого другого решения, иными словами, решения системы Fx = = у не имеют предельной точки в С или в С. Так как множество С компактно, то существует лишь конечное число таких решений, скажем х1, ..., хт. В нашем случае в соответствии с данным выше общим обсуждением вопроса следует определить степень отобра- отображения F в точке у по отношению к множеству С как сумму т 2 sgn det F' (xi). A) Возникает вопрос, как распространить это предварительное определение степени на тот случай, когда в С существуют такие решения системы Fx = у, для которых производная F' (х) выро- вырождена, или на еще более общий случай, когда F вообще лишь не- непрерывно. Прежде всего если все еще предполагать дифференцируемость отображения F, но допустить, что производная может вырождаться на некоторых решениях, то можно ожидать, что сумму A) следует заменить интегралом. Подходящая форма такого интеграла не оче- очевидна, и представляется самым разумным привести без дальней-
Гл. 6. Степень отображения 149 шего обоснования некоторое выражение и доказать, что оно дей- действительно сводится к сумме A), если производная F' (х) невыро- невырождена для всех решений системы Fx = у в С. Для заданного а > 0 обозначим через Wa множество всех действительных функций <р: [0, оо) с: R1 -> Z?1, непрерывных на [О, оо), для каждой из которых существует б ? @, а), такое, что Ф (/) = 0 при / (? [б, а]. Назовем всякую такую функцию ф ? Wa весовой функцией индекса а. Ясно, что если ф ? №а, то функция g: Rn -> Z?1, g(x) = ф (|| x |2) является непрерывной функцией п перемен- ных с компактным носителем. Последнее означает, 4iog (*) = 0 для всех х, лежащих вне некоторого компактного множества S, на- называемого носителем функции g. Таким образом, определены ин- интеграл (Римана) и множество 6.1.1. Определение. Пусть отображение F: D cz Rn-> R" непре- непрерывно дифференцируемо на открытом множестве D, и пусть С — открытое ограниченное множество, для которого CcD и у $ $ F(C) — некоторая заданная точка. Для произвольной весовой функции ф индекса а < 7» гДе у = min {\\Fx—- y\\2\x? С}, рассмотрим отображение <P(l^-</l!2)detF(x), xdC, „*п <2а) Тогда интеграл йФ(ЛС, r/)= J ф(х)йх B6) называется интегралом степени отображения F на множестве С в точке у по отношению к весовой функции ф. | Заметим, что в силу компактности множества С и непрерывности отображения F существует открытая окрестность Do границы С, такая, что || Fx — у ||2 > -у (y + а) > а для всех * ? Do. Следо- Следовательно, по определению функций ф и ф последняя равна нулю, если х ? Do или * $ С. Далее, очевидно, что ф непрерывна на С и, следовательно, на всем Rn. Это означает, что ф — непрерывная функция с компактным носителем и потому интеграл в B6) опре- определен корректно.
150 Часть II. Неконструктивные теоремы существования 6.1 Следующий результат показывает, что интеграл степени дей- действительно сводится к сумме A) в случае, когда производная не- невырождена во всех решениях. 6.1.2. Пусть отображение F: D a Rn -> Rn непрерывно дифферен- дифференцируемо на открытом множестве D и С — открытое ограниченное множество cCcD. Предположим, далее, что для заданного у $ $ F (С) производная F' (х) невырождена при всех х ? Г = \х ? d C\Fx = у). Тогда множество Г содержит не более конечного числа точек и существует а, такое, что для любой функции ф ? Wa с a ? @, a) 1m 2 sgn det F' (xt), если Г = {х\ ,..,*"}, 0, если Г пусто. Доказательство. Мы уже видели, что при выполнении предположений этой теоремы существует не более конечного числа решений х1, ..., хт системы Fx = у в С. Если Г пусто, т. е. если y$F(C), то в силу компактности множества С мы имеем у~ = min {|j Fx — у ||21 х ? С} > 0 и, следовательно, при a = у и a ? € @» a) бУДет Ф fll^*— У Ik) ^ 0 Для * € С и ф ? Wla. Таким обра- образом, ф(х) = 0 для л: g Rn и C) выполнено. Если т > 0, то по тео- теореме об обратной функции 5.2.1 существуют открытые окрестности U(xi)aC и Vj(y) точек лс> и у соответственно, / = 1, ..., ту такие, что сужение F/ отображения F на ^(а:7) является гомеоморфизмом U (xf) на К/ (у). Мы можем предположить, что каждая из окрестно- окрестностей U (х1) достаточно мала, так что sgn det F' (х) постоянен для всех x?U(xl). Поскольку число окрестностей Vj (у) конечно, существует а? ? @, у), такое, что К = § {у, а) а V,- (у) для /=1, ..., т. Пусть Uf = Fy (К) и а^ @, а). Тогда очевидно, что UjCzC и для любой функции ф ? fl?i равенство ф (|| Fx — у ||2) = 0 имеет место, каково т бы ни было а- $ U [//. Следовательно, как это вытекает из теоремы о замене переменных (см. 6.5.1), примененной к каждому Fh йф(ЛС, у) = % f Ф (|| Fa: — г/1|2) det /^' (a:) rfx = >1
6.1 Гл. 6. Степень отображения 15| ¦2 /1 = 2j sgn detF (xi) J Ф (||xIk)dx = = 2 sgn det F ибо Доказанная теорема подтверждает, что нам следует формаль- формально определить степень отображения F в точке у по отношению к множеству С с помощью интеграла степени d<p (F, С, у). Но для этого нужно еще сделать выбор весовой функции ср. Уже теорема 6.1.2 показывает, что при выполнении ее условий интеграл степени не зависит от ф для всех ф ? Wxa> если только а достаточно мало. Оказывается, что на самом деле это верно для всех а 6 @, y)- Для доказательства этого факта нам понадобится сле- следующая лемма. 6.1.3. Пусть отображение F: D cz Rn -> Rn непрерывно дифферен- дифференцируемо на открытом множестве D, а С — открытое ограниченное множество с замыканием С С D. Предположим далее, что точка у ? Rn выбрана так, что y = mm{\\Fx-yl\x?C}>0. Тогда для а ? @, у) и любой функции ф ? Wa интеграл оо 11 (Ф) = J ^"""'ф @ ^ D) 6 корректно определен и равенство т] (ф) = 0 влечет за собой равен- равенство d<p (F, С, у) = 0. Это — как раз та упомянутая ранее лемма, доказательство ко- которой требует привлечения некоторых — на самом деле хорошо известных — аналитических результатов, нигде более в этой книге не используемых. Поэтому ее доказательство вынесено в приложе- приложение к настоящей главе. Опираясь на лемму 6.1.3, мы можем теперь доказать, что ин- интеграл степени не зависит от выбора весовой функции. 6.1.4. Пусть отображение F: D a Rn-> Rn непрерывно дифферен- дифференцируемо на открытом множестве D} а С — открытое ограниченное
152 Часть II. Неконструктивные теоремы существования 6.1 множество с замыканием С с D. Если у $ F (С), то ^ФЛЛ С, </)=<(/% С,*/) E) для любых фх, Ф2?^а, где 0<a<Y = min{||fA;— у\\2\х?С]. Доказательство. Применив лемму 6.1.3 к тождествен- тождественному отображению /: Rn -> Rn и множеству С0 = S (у, 2ос), найдем, что из равенства т] (ф) = 0 для некоторой функции ф ? Wa сле- следует, что я" Пусть теперь ф1э ф2 ? №«. Тогда очевидно, что ф = г) (фх) ф2 — — Л (Ф2) <Pi € ^a и оо оо оо оо Л (Ф) = J 5«-'Ф2 (s) J е-\, (О Л ds - J з«-'ф1 (s) J /"-'ф, (О Л ds = 0. 0 0 0 0 Следовательно, согласно сделанному выше замечанию, 0= J Ф(||^У^ = г1(ф1) J Щ(\х\\г)йх-ц{щ) J Ф2(|И2)^ = Rn Rn Rn = Ц (<Pi) — Л (ф2) = Ц (Фх — Ф2)- Применив еще раз лемму 6.1.3, найдем, что <*ф1 (F, С, у) - йф2 (f, С, у) = ?/ф1.ф1 (F, С, у) = О.Щ Полученный результат показывает корректность следующего определения. 6.1.5. Определение. Пусть отображение F: D d Rn ->• Rn не- непрерывно дифференцируемо на открытом множестве D, а С — некоторое открытое ограниченное множество с замыканием С d с: D. Тогда степень отображения F в любой точке у $ f (С) по отношению к множеству С определяется формулой ^^-^^Cy), F) где ф ? Wxa — любая весовая функция индекса а, такого, что 0 < Используя это определение, можно переформулировать теоре- теорему 6.1.2 так. Пусть выполнены условия этой теоремы, и пусть {x?C\Fx = y} = {x\ ..., X"l тогда 2etF'(xf). G) Равенство G) показывает, что по крайней мере в этом частном случае степень отображения, как она определена в 6.1.5, прини-
6.1 Гл. 6. Степень отображения 153 мает целочисленные значения. Для общего случая это будет до- доказано в следующем параграфе. В начале главы мы отметим в качестве одного из фундамен- фундаментальных свойств степени ее непрерывную зависимость от F. Эта непрерывность составляет содержание следующей теоремы. 6.1.6. Пусть F, G: D a Rn -> Rn — два непрерывно дифференци- дифференцируемых отображения, определенных на открытом множестве D, а С — открытое ограниченное множество с замыканием С d D. Предположим, далее, что точка у ? Rn выбрана так, что у = = min {\\Fx — у2 | х ? С} > 0. Если а ? @, у) и sup §Fx— Gx\\21 x 6 С} <-±- ее, (8) то deg (F, С, у) = deg (G, С, у). (9) Доказательство. Положим а0 = -у- а, и пусть отобра- отображение \i: [0, оо) -> [0, 1] непрерывно дифференцируемо на [0, оо) и удовлетворяет условиям \х (t) = 1 для / g [0, 2а0] и \i (/) = 0 для / > За0. Тогда в силу непрерывной дифференцируемости нор- нормы | • ||2 во всех отличных от нуля точках отображение Н: D cz Rn-+R'\ Нх = [1 - jiflfjc- y\\2)]Fx + p^Fx- y\\2)Gx, непрерывно дифференцируемо на D. Далее, поскольку \\Hx-Fx\\2^ii(\\Fx-y\\2)\\Gx-Fx\\2<a0J Yx?C, A0) то и потому степень deg (Я, С, у) корректно определена для любой функции ф б WW Выберем теперь срх ? Wla0так, чтобы срх (/) = Опри / ^ [0, 4а0]. Из A0) видно, что если ||Fx-t/||2<3a0. Если же || /^л: — f/1|2 > За0, то в силу определения отображений Н и \i мы имеем Яд: = Fjc. Следовательно, Ф1 (II Их - i/1|2) det Я' (;с) = ф1 (|| Fx-y У det Г (*), Vx ? С, так что deg (Я, С, у) = deg (F, С, у). Аналогично пусть ф2 ^ tt^a0. Тогда неравенство ~i/||2-a0 A1)
154 Часть 11. Неконструктивные теоремы существования 6.1 показывает, что J Gx — у ||2 > 6а0 при х ? С, и, следовательно, сте- степень йф (G, С, у) корректно определена для ф2. При этом если \\Fx — — #||2>2а0, то, согласно (И), \\ Gx — у ||2> а0, в то время как, со- согласно A0), ||Ял:— */||2>ос0; отсюда следует, что q>2(||G* — y\\2) = = Ф2 (|Нх — у||2) = 0. Если же \\Fx- у\\2 < 2а0, то Gx = Ял;, так что ф2 (I Gx - у ||2) det G' (х) = ф2 (|| Нх-у ||2) det //'(*). V * g С. Итак, deg (G, С, у) = deg (Я, С, у) - deg (F, С, у)Л Полученный результат позволяет нам распространить опре- определение степени на случай непрерывных отображений, исполь- используя теорему Вейерштрасса об аппроксимации (точную формулиров- формулировку которой см. в 6.5.4). Для любого непрерывного отображения G: С a Rn ->- Rny где С — открытое множество с компактным замы- замыканием С, положим ||G||c = sup||Gx||2. A2) x(LC Тогда для любого непрерывного отображения F: С cz Rn-> Rn су- существует последовательность {Fk} непрерывно дифференцируемых отображений Fk:Rn-*Rn, k = 0, I, ... , такая, что lim \\Fk — F\\c= = 0. Если y$F(C) и 0<a<min{||/7x-- t/||2|x? С}, то также min {|| Fkx — у\\21 х ? С} > а > 0 для k > ?0, поэтому степень deg {Fb Су у) корректно определена для всех достаточно больших k. Далее, ясно, что \Fk — F/||c<— а для &, />6i>&0> и> как это следует — из теоремы 6.1.6, deg (Fki С, у) = const для k^>kv Тем самым до- доказано, что lim deg(ffe, С, ^) существует. Более того, этот предел k-*oo не зависит от выбора последовательности {Fk}\ В самом деле, пусть Did С — любое открытое множество и Gk: DczRn-+Rny k = 0,\, ... ,— произвольная последовательность не- непрерывно дифференцируемых на D отображений, для которой v lim I Gk — F \\c = 0. Тогда, очевидно, || Fk — G/ \\c < -у- а, и, следова- тельно, deg (Fky С, у) = deg (G7, С, у) для всех достаточно больших k> /. Сказанным выше оправдывается следующее определение. 6.1.7. Определение. Пусть отображение F: С cz Rn -> Rnt где С — открытое ограниченное множество, непрерывно. Тогда для любой точки у $ F (С) степень отображения F в этой точке по от- отношению к множеству С по определению задается равенством = limdeg^C.y), A3) где Fk:D cz Rn -> Rn — произвольная последовательность не- непрерывно дифференцируемых отображений, определенных на не-
6.1 Гл. 6. Степень отображения 155 котором открытом множестве D id С, для которой lim || Fk — F\\c = = 0.1 Как было показано, предел в A3) достигается за конечное число шагов и не зависит от выбора последовательности {Fk}. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 6.1.1. Понятие локальной степени, т. е. степени по отношению к некоторой окрестности изолированного решения системы Fx = г/, восходит к Кронекеру [1869], который ввел свой «индекс» или «характеристику» такого решения с по- помощью интеграла, называемого теперь интегралом Кронекера. Подробное обсуж- обсуждение индекса Кронекера и некоторых его приложений было дано Адамаром [1910] (см. также Александров и Хопф [1935]). ЗС 6.1.2. Обобщением понятия локальной степени до понятия степени в целом мы обязаны Брауэру [1912]; это обобщенное понятие лежит в основе многих его знаменитых результатов. «Глобальная» степень является по своей природе поня- понятием комбинаторной топологии. Коротко говоря, для каждого симплекса полиэд- полиэдрального комплекса нетрудно определить ориентацию, а если дано симплициальное отображение F одного такого комплекса К\ в другой комплекс /С2, то степень отображения F на некотором симплексе а из /С2 равна разности между числом симплексов из /Clf отображающихся на а с сохранением ориентации, и числом симплексов из /Ci, ориентация которых при отображении F изменяется на проти- противоположную. В случае отображения F> непрерывного на компактном множестве С в Rn, теорема о симплициальном отображении позволяет аппроксимировать отображение F симплициальными отображениями, и их степень наследуется отображением F х). Доскональное определение степени при таком подходе, т. е., если говорить точно, в терминах теории сингулярных гомологии, см., например, у Александрова и Хопфа [1935] или Кронина [1964]. ЗС 6.1.3. Со времени появления в 1912 г. основополагающей статьи Брауэра были достигнуты большие успехи на пути определения понятия степени отображения чисто аналитическими средствами без привлечения понятий комбинаторной то- топологии. Нагумо [1951] существенно использовал при своем подходе сумму A) и теорему 6.2.10. Затем Хайнц [1959] развил свой интегральный подход, свя- связанный с идеями Кронекера, и мы следовали здесь именно подходу Хайнца. От- Отсылаем читателя также к работе Шварца [1964], где представлена теория степени отображения, в которой сливаются подходы Нагумо и Хайнца. ЗС 6.1.4. Все результаты настоящего параграфа, а фактически и всей главы остаются справедливыми при любом скалярном произведении в Rn. УПРАЖНЕНИЯ У 6.1.1. Предположим, что выполнены условия теоремы 6.1.2. Пусть ff. Rn -+ -> Rl, t ? @, oo),— семейство непрерывных отображений с компактным носителем, таких, что (а) для любого t ? @, оо) носителем отображения ft служит шар Х) Подробнее о таком подходе к определению степени отображения см. Алек- Александров [1947]*.— Прим. ред.
156 Часть П. Неконструктивные теоремы существования 6.2 S(y, t) и (б) \ ft(Fx)dx=\. Показать, что существует такое t0 > 0, что Rn deg (F, С, у) = j* /, (Fa:) det F' (x) dx, V * ? @, /0) (см. Шварц [1964, стр. 79]). У 6.1.2. Пусть р — некоторый действительный многочлен, все корни которого действительные и простые. Показать, что для любого отрезка [a, b] с Z?1, такого, что р (а) р (Ь) Ф 0, { + 1, если sgnp(a) = —I, sgnp(fc)=+l, 0, если sgn p (a) = sgn p (b), . — 1, если sgn р (а) = + 1, sgn р F) = — 1. У 6.1.3. Рассмотрим отображение F: R2 -* R2, определяемое соотношениями ft (х) = = ;cf — Злт^з, /2 (а:) = — д| + 3bcfjc2. Пусть ех = A, 0)т. Показать, что deg (F, S@, 2),^)= 3. У 6.1.4. Пусть A?L(Rn). Показать, что степень ( = + 1, если det A > 0, deg (Л, 5 @, 1), 0) | = - 1, если det A < О, I не определена, если det А = 0. 6.2. СВОЙСТВА СТЕПЕНИ В этом параграфе мы установим некоторые простые свойства степени непрерывного отображения, определенной в 6.1.7. В качестве первого результата распространим теорему 6.1.6 на случай непрерывных отображений. 6.2.1. Пусть С — открытое ограниченное множество и F:CczRn-+ -> Rn — непрерывное отображение. Если точка у ? R" такова, что min{(|/7A:-^||2|A:6C}>a>0, то deg (F, С, у) = deg (G, С, у) для любого непрерывного отображения G: С cz Rn -> /?п, для которого 4 Доказательство. Выберем такие последовательности отоб- отображений Fkt Gk: D си Rn -> /?'\ ft = 0, 1, ... , непрерывно дифферен- дифференцируемых на открытом множестве D id С, что lim || Fk — Z7 ||с = = lim||Gfe — G||c = 0. Существует k0, такое, что \Gix- Fkx\\2 < || GfX - Gx||2 + |Gx- /Ъ||, +1^- F^||2 <-f« для ft, / > fe0 и всех а: ^ С. Далее, &0 можно выбрать настолько боль- большим, чтобы min {\\Fkx — у ||21 х ? С} > а и min {| G^a: — # ||2 |х ? ? С} > а для всех k > fe0. Тогда по теореме 6.1.6 deg (Fk, С, у) = deg (G,, С, f/), /, /г > fte,
6.2 Гл. 6. Степень отображения 157 и наше утверждение является непосредственным следствием опре- определения 6.1.7. | Отсюда почти немедленно вытекает следующий результат, играющий основную роль в теории степени. 6.2.2. Теорема о гомотопической инвариантности. Пусть С — открытое ограниченное множество и Н: С X [0, 1] d #n+l -> -> Rn — непрерывное отображение. Предположим, далее, что у ? ? Rn удовлетворяет условию Н(х, t) Ф у для всех (х, t) ? С X X [0, 1]. Тогда deg (Я (•, /), Су у) не зависит от / ? [0, 1]. Доказательство. Так как множество С X [0, 1] ком- компактно, то mm{\\H(x,i)-y\\2\(xJ)?Cx[0y 1]}>а>0 при некотором а, и из равномерной непрерывности отображения Н на С х [0, 1] следует, что существует 8>0, такое, что )#( 0||< для Bcexs, / ? [0, 1], удовлетворяющих условию \s — ?|<б. Следо- Следовательно, по теореме 6.2.1 каковы бы ни были s, / ? [0, 1] с | s — t\ < б. Но отрезок [0, 1] можно покрыть конечным числом интервалов длины б, откуда и вытекает наше утверждение. В В качестве интересного приложения доказанной теоремы мы покажем, что степень отображения F зависит лишь от значений отоб- отображения на границе области С. 6.2.3. Теорема о граничных значениях. Пусть С — открытое ограниченное множество и F: С с: Rn -> Rn — непрерывное отоб- отображение. Пусть, далее, G: С cz Rn -+ Rn — непрерывное отобра- отображение, такое, то Fx = Gx для х ? С. Тогда для любого у $ F (С) deg(F, С, 0) = deg(Gf С, у). Доказательство. Рассмотрим гомотопию Я: С х [0, 1] с Rn+] -> R\ H (*, /) = tFx + A - /) Gx. A) Ясно, что Н (х, t) = Fx Ф у для (лс, /) ? С X [0, 1], поэтому наше утверждение непосредственно следует из теоремы 6.2.2. | Теорема 6.2.3 является на самом деле частным случаем следую- следующей более общей теоремы, для доказательства которой мы точно так же исходим из гомотопии A). 6.2.4. Теорема Пуанкаре — Боля. Пусть С — открытое ограниченное множество и Ft G: С cz Rn -> Rn —два непрерывных отображения.
158 Часть II. Неконструктивные теоремы существования 6.2 Если у ? Rn — любая точка, удовлетворяющая условию y${u?Rn\u = tFx+(l—t)Gx,x?d9t?[0,l]}, B) то deg(GtC,y) = deg(F9C,y). До сих пор мы интересовались только изменением степени при изменении отображения F. Теперь мы посмотрим, как она изменя- изменяется при изменении у. Для этого нам понадобится лемма, показы- показывающая, что степень инвариантна относительно сдвигов. В после- последующем через F — г обозначается отображение Fx — г, х ? D. 6.2.5. Пусть С — открытое ограниченное множество и F: С d Rn -> -> /?я — непрерывное отображение. Если у ? F (С), то для любой точки г ? Rn deg (F — z,C,y — z)= deg (F, С, у). Доказательство. Заметим прежде всего, что если отоб- отображения Fk непрерывно дифференцируемы на открытом множе- множестве D zd С, то для Gk = Fk — z Ф (I Fkx - у У det F'k (x) = <p (|| Gkx -{y- z)\\2) det Gi (x) и, следовательно, deg @Л, С, # — 2) = deg (Fkf С, ^/). Очевидно, это свойство распространяется на непрерывные отображения F — достаточно рассмотреть последовательность непрерывно диффе- дифференцируемых на D отображений, равномерно сходящуюся к F на С. | Используя эту лемму, мы установим, что степень отображения не изменяется при довольно значительных изменениях у. 6.2.6. Пусть С —открытое ограниченное множество и F:Cci?"-> -*Rn — непрерывное отображение. Пусть у0, у1 ? Rn — две точки, которые можно соединить непрерывным путем р: [0, 1 ] cz Z?1 -*Rn, не содержащим точек из F(C)t т.е. /?@) = г/°, р(\) = ух и QF(C) для /g [0, 1]. Тогда deg(F,C,#°)=deg(F, С, г/1). Доказательство. Рассмотрим гомотопию По предположению Я (#, /) =^ 0 для (*, *) ? С X [0, 1], и, следо- следовательно, по теореме 6.2.2 и лемме 6.2.5 deg (F, С, у") = deg (Я (-, 0), С, 0) = deg (Я (•, 1), С, 0) = deg (F,C.y1). Изучим теперь влияние множества С на степень отображения. В качестве первого результата мы найдем — и это не удивительно,— что степень разделяет с интегралом свойство аддитивности.
в.2 Гл. 6. Степень отображений, 159 6.2.7. Пусть С и Сь ... , СгпаС — открытые ограниченные мно- жества, такие, что С, f| С/ = 0, i Ф /', и U С/ = С, и пусть F: С cz m Rn-*Rn — непрерывное отображение. Тогда для любого у $ U F(C/) Доказательство. Для отображений F^, непрерывно дифференцируемых на некотором открытом множестве DczC, это утверждение является немедленным следствием аддитивности интеграла F.1.26). Очевидно, что оно остается в силе и при пере- переходе к пределу, фигурирующем в определении 6.1.7 степени не- непрерывного отображения F. | Следующая теорема показывает, что множество С можно без из- изменения степени уменьшать, удаляя из него любое замкнутое мно- множество, не пересекающееся с множеством {х ? С | Fx = у). 6.2.8. Теорема о вырезании. Пусть С — открытое ограниченное множество и F: С cz Rn -> Rn — непрерывное отображение. Пусть, далее, у $ F (С). Тогда для любого замкнутого множества Q cz d С, для которого у $ F (Q), справедливо равенство В частности, если Q = С, то deg (F, С, у) = 0. Доказательство. Предположим, что отображения Fk непрерывно дифференцируемы на некотором открытом множестве D zd С, таком, что Fkx-yl\x?C}>0, ц = min {lFkx- yl\x g Q} По допущению существует такое а, что min (у, т])>а>0. Если ф 6 ^а, то ф (\\Fkx — у\\2) = 0 для х ? Q и, таким образом, ^ф (РЛ, С, у) == ^ф (ffc> С \ Q, у). Поэтому deg (Ffe, С, у) = deg (F,, С \ Q, у). В частности, если Q = С, то d<p (F^, С, у) = 0, так что deg (F^, С, у) = 0. Соответствующий результат для случая непрерывного отоб- отображения F получается немедленно, если взять последовательность {Fk} непрерывно дифференцируемых отображений, равномерно сходя- сходящуюся к F на С. | Нам остается доказать, что степень отображения принимает лишь целочисленные значения. Вспомним, что мы уже доказали это в предположениях теоремы 6.1.2. Переформулируем этот ре- результат более кратко, введя для непрерывно дифференцируемого отображения F: D с Rn -> Rn и любого подмножества Q cz D
160 Часть П. Неконструктивные теоремы существования 6.2 множество G (Q) = {л; ? Q | производная F' (х) вырождена}. Теоремы 6.1.2 и 6.1.5 дают: 6.2.9. Пусть отображение F: D cz Rn -> Rn непрерывно дифферен- дифференцируемо на открытом множестве D \\ С — открытое ограниченное множество, такое, что С a D. Если у $ F (С) [j F (G (С)), то либо множество Г = [х ? С | Fx = у] пусто и deg (F, С, у) = О, либо множество Г состоит из конечного числа точек х1, ..., хх и ). C) Напомним теперь, что по теореме Сарда 5.2.5 множество F (G (С)) всегда имеет меру нуль в R'1. Другими словами, если у (= ? F(C(C))y то в любой окрестности точки у найдется бесконечно много точек, не содержащихся в F (С (С)). Это приводит нас к следующей теореме. 6.2.10. Пусть отображение F: D a Rn -> Rn непрерывно диф- дифференцируемо на открытом множестве D, а С — открытое ограни- ограниченное множество, для которого С a D. Если у (? F (С), то су- существует последовательность точек yk ? F (С) |J F (G (С)), k = = 1,2,..., с lim yk = у и для любой такой последовательности найдется k0, такое, что deg(F, С, у) = deg(F, С, у\ Ч k>k0. D) Доказательство. Как уже было упомянуто выше, множество F (G (С)) по теореме 5.2.5 имеет меру нуль; этим обес- обеспечивается существование последовательности, указанной в тео- теореме. По предположению найдется шар S (у, г), такой, что 5 (у,г) f| П F (С) = 0. Тогда yk ? S (уу е) для k > k0, и пути pk(t) = = A — t) yk -\- tyy 0 < ^ < 1, содержатся в S (j, e), а следова- следовательно, не пересекают F (С). Поэтому равенство D) вытекает из теоремы 6.2.6. | В качестве непосредственного следствия мы получаем заяв- заявленный результат. 6.2.11. Пусть С — открытое ограниченное множество и отображе- отображение F: С a Rn -> Rn непрерывно. Тогда для любого у $ F (С) степень deg (F, С, у) является целым числом. Доказательство. Если отображения Fk непрерывно дифференцируемы на некотором открытом множестве D а С, то по теоремам 6.2.9 и 6.2.10 их степени будут целыми числами. А тогда, согласно определению 6.1.7, то же самое справедливо и для непрерывного отображения F. |
6.3 Гл. 6. Степень отображения 161 Заметим, что в силу тех же причин степень отображения не зависит от выбора нормы, ибо этим свойством обладает сумма в правой части равенства C). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 6.2.1. В 6.2 мы рассмотрели только самые основные свойства степени отобра- отображения. В частности, мы не включили сюда теорему Лерэ, которая дает формулу для вычисления степени композиции G о F по степени отображений G и F. Дока- Доказательство в духе нашего изложения, см., например, у Хайнца [1959] или Шварца [1964]. Как показал Шварц, эта теорема позволяет дать аналитическое доказа- доказательство обобщенной теоремы Жордана в Rn, которая в свою очередь дает в ка- качестве следствия, например, знаменитую теорему об инвариантности области: всякое непрерывное взаимно однозначное отображение открытого множества пространства Rn в Rn переводит открытые множества в открытые. ЗС 6.2.2. Распространение понятия степени отображения на случай бесконечно- бесконечномерных пространств представляет серьезные трудности, связанные с тем, что зам- замкнутые ограниченные множества в таких пространствах, вообще говоря, не явля- являются более компактными. Однако если сделаны соответствующие предположения о компактности для рассматриваемого отображения, то такое распространение возможно; оно было впервые осуществлено Лерэ и Шаудером [1934] для случая отображений банаховых пространств. Теория степени отображения Лерэ — Шау- дера имеет многочисленные приложения в анализе, в частности в теории дифферен- дифференциальных уравнений (см. Кронин [1964]) и интегральных уравнений (см. Красно- Красносельский [1956]). Понятие степени было распространено также на случай более общих топологических пространств; литературу по этому вопросу см., например, у Кронина [1964]. УПРАЖНЕНИЯ У 6.2.1. Используя теорему 6.2.3, показать, что заключение упражнения У 6.1.2 остается верным для любого действительного многочлена. У 6.2.2. Пусть S = ?@, 1) с Rn — шар единичного радиуса в эвклидовой норме и S — его граница. Показать, что не существует непрерывного отображения F: S -> S, удовлетворяющего условию Fx = х для всех х ? S (см. Шварц [1964, стр. 93]). У 6.2.3. Пусть С — открытое ограниченное множество и отображения F, G: Са С Rn -> Rn непрерывны. Обозначим через F и G сужения отображений F и G на С. Предположим, что существует гомотопия Я: С X [0, 1] -> Rnt такая, что Н (х, 0) =з Fx и Я (х, 1) = Gx для всех х ? С. Показать, что если y?Rn удов- удовлетворяет условию Н (xyt) ф у, v х ? С, t ? [0, 1], то deg (Ff С, у) = deg (G, С, у) (см. Шварц [1964, стр. 93]). 6.3. ОСНОВНЫЕ ТЕОРЕМЫ СУЩЕСТВОВАНИЯ В этом параграфе мы применим общие результаты двух преды- предыдущих параграфов к доказательству теоремы существования для уравнений вида Fx = у или Gx = х. Первый наш результат, уже упоминавшийся в § 6.1 как одна из мотивировок во всей теории степени отображения, является немедленным следствием теоремы 6.2.8. a. J7w Ппторп R ОойиЛлппт
162 Часть //. Неконструктивные теоремы существования 6.3 643J* Теорема Кронекера. Пусть множество С открыто и ограниче- ограничено и отображение F:CaRn->Rn непрерывно. Если y($F(C) и если deg (Л С, у)фО, то уравнение Fx = y A) имеет решение в С. Доказательство. Предположим, что уравнение A) не имеет решений в С. Тогда у $ F (С) и из теоремы 6.2.8 следует, что вопреки условию теоремы deg (F, С, у) = 0. | Непосредственно применить теорему 6.3.1 бывает возможно редко, так как вычисление степени отображения представляет собой нетривиальную задачу. Теорема 6.3.1 является скорее по- полезным инструментом для доказательства других теорем существо- существования, что иллюстрируется следующей теоремой — одной из наиболее знаменитых теорем анализа. 6.3.2. Теорема Брауэра о неподвижной точке. Пусть отображение G: С с: Rn -> Rn непрерывно на компактном выпуклом множестве С и GC а С. Тогда G имеет неподвижную точку в С. Доказательство. Сначала мы докажем теорему в том частном случае, когда множество С является шаром 5 @, г) = — {* II х\\* ^ г)- Рассмотрим гомотопию Н.Сх [0, 1]с=/Г~и->/Л H{x,t) = x — tGx, fg[O, 1], *gC, и заметим, что в силу неравенства ||G*||2 < г, справедливого для всех х б С, \Н(х,%>\х\г-Цвх\1>г(\-(), V/ е [0, 1], х?С. B) Из определения 6.1.5 непосредственно следует, что deg (#(., 0), С, 0) = deg(/, С, 0) = 1. Если отображение G не имеет неподвижной точки в С, то Я (л:, 1) Ф 0, и из неравенства B) вытекает, что Я (#, t) Ф 0 для всех t ? [0, I] и х ? С. Согласно теореме 6.2.2, deg(/-G, С, 0) = deg (//(., 1), С, 0) = deg(tf(.f 0), С, 0) = 1, и теорема 6.3.1 показывает, что мы пришли к противоречию. Рассмотрим теперь произвольное компактное выпуклое мно- множество С. Так как С ограничено, то можно выбрать г, такое, что С а Со = S @, г). Для фиксированного у ? Со определим функ- функционал gy: С -> R1 формулой gy (*)_= ||* — #||!. Так как этот функ- функционал непрерывен, а множество С компактно, то gy имеет мини- /ч мизатор Gy, т. е.
6.3 Гл. 6. Степень отображения 163 /ч Далее, по теореме 4.2.7 минимизатор Gy единствен, поскольку g^(#) = 2/, и, значит, согласно 3.4.6, функционал gy строго выпукл. Следовательно, отображение G: Со-+С корректно определено, и оче- очевидно, что Gy = у для всех у ? С. Покажем, что отображение Gy = = у непрерывно. Пусть {xk} — произвольная последовательность, сходящаяся к х в Со. Достаточно показать, что любая сходящаяся подпоследовательность последовательности {Gxk} имеет предел Gx. Ввиду компактности множества С существует сходящаяся подпосле- подпоследовательность [Gxki) с пределом z ? С, и поэтому достаточно пока- показать, что \\х — г||2 = ||я— 6х\\2, ибо в силу единственности миними- затора отсюда вытекает равенство Gx = z. Допустим противное и выбе- рем е>0 так, чтобы выполнялось неравенство Зе +\\Gx— *||2< <||г — *||2. Тогда для достаточно больших kt < 2е +1|jfi-х\\2 + \\x-Gx\\2<ix-z||2. Здесь мы использовали тот факт, что \\xki—Gjc*l'||2<j| xkl — у\г для всех у ? С и, в частности, для у = Gx, Полученное противоречие показывает, что отображение G непрерывно на Со. Следовательно, композиция GoG: Со ->- С сг Со непрерывна и, как это вытекает из первой части доказательства, имеет неподвижную точку х* ? Со. Но так как GC0 с: С, то лг* = G(px*) ? С, и в силу равенства Gx = х, справедливого для всех х ? С, мы имеем г* = G#*. | Важно отметить, что в теореме 6.3.2 не гарантируется един- единственность неподвижной точки; в самом деле, каждая точка мно- множества С служит неподвижной точкой для тождественного отоб- отображения. Ниже мы приводим другое важное следствие из теоремы Кроне- кера, являющееся в свою очередь важным инструментом для полу- получения дальнейших теорем существования. 6.3.3. Теорема Лерэ — Шаудера. Пусть С — открытое ограни- ограниченное множество в Rn> содержащее начало координат, и G: Сс cz Rn ->¦ Rn — непрерывное отображение. Если Gx ф Хх для лю- любых К > 1 и х ? С , то отображение G имеет неподвижную точку в а
164 Часть П. Неконструктивные теоремы существования 6.3 Доказательство. Снова рассмотрим гомотопию Я, определенную равенством Н (х, t) = х — tGx, х ? С, / ? [0, 1]. Тогда, допуская, что х Ф Gx, имеем H{xJ) = t{rxx-Gx)^b, We @, 1], л:?С, в то время как из включения 0 ? С следует, что Н (ху 0) Ф 0 для л: ? С. Так как deg (/, С, 0) = 1, то из теоремы 6.2.2 вытекает, что 1 = deg(#(-, 0), С, 0) = deg (Я (., 1), С, 0) = deg(/-G, С, 0), так что наше утверждение является следствием теоремы 6.3.1.1 Если отображение /: [a, b] d R1 -> R1 непрерывно и / (а) < 0, / (Ь) > 0, то уравнение f (х) = 0 имеет решение на отрезке [а, Ь]. В качестве первого приложения теоремы 6.3.3 мы установим ес- естественное обобщение этого результата на случай п измерений. Для этого заметим, что условия / (а) < 0, / ф) >- 0 можно записать в виде (а: — я0) / (л:) > 0 для х = а, х == Ь, где лс° — произвольная точка интервала (а, Ь). 6.3.4. Пусть С — открытое ограниченное множество в Rn, и пусть отображение F: С с Rn -> Rn непрерывно и удовлетворяет ус- условию (а: — х°)т Fx > 0 для некоторого__л;0 ? С и всех х ? С. Тогда уравнение Fx = 0 имеет решение в С. Доказательство. Положим Со= {х\х + х°?С) нопределим отображение G :C0-*Rn соотношением Gx = х — F (х + л?). Очевид- Очевидно, что G непрерывно. Пусть х ? Со. Тогда л; + л:0 ? С, и потому для любого X > 1 хт (U— Gjc) = д:т [(А,— 1) а: + F(x + л:0)] >(Х— 1) / л:>0, ибо х ф 0. Теорема 6.3.3 показывает теперь, что отображение G имеет неподвижную точку л;* ? Со, так что f (л:* + *°) = 0. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 6.3.1. Теорема 6.3.1 впервые была получена Кронекером[ 1869] (см. ЗС6.1.1). ЗС 6.3.2. Теорема 6.3.2 была доказана Брауэром [1912] при помощи его тополо- топологической теории степени отображения, как это описано в ЗС 6.1.2. Доказатель- Доказательство, приведенное для случая шара, принадлежит Хайнцу [1959]. Прямое доказа- доказательство, не использующее явно теории степени отображения, но основанное на очень сходных идеях, приведено у Данфорда и Шварца [1958]. Теорема допускает обобщение на случай произвольного банахова пространства при условии, что отображение G является компактным (т. е. переводит замкнутые ограниченные множества в компактные); это знаменитая теорема Шаудера о неподвижной точке (Шаудер [1930]) !). *) Важную теорему о неподвижной точке в пространствах более общего вида получил А. Н. Тихонов [1935]* (см. также Данфорд и Шварц [1962], стр. 493). —•Прим. ред.
6.3 Гл. 6. Степень отображения 165 ЗС 6.3.3. Теорема 6.3.3 принадлежит Лерэ и Шаудеру [1934]. Она также допус- допускает обобщение на случай банахова пространства и отображений вида F = / — G, где оператор G непрерывен и компактен. ЗС 6.3.4. Карлин (см. Лиз и Шульц [1966]) дал следующее простое доказатель- доказательство теоремы 6.3.3 для случая, когда С — шар, основанное на использовании соот- соответствующей теоремы Брауэра для шара. Пусть С = S (О, г) и Gx Ф Кх для К > 1 и х ? С. Если у отображения G нет неподвижной точки в С, то отображение Gx = r (Gx — хI1| Gx —- х || корректно определено и непрерывно на С, по- поэтому || Gx || = г для всех х ? С. Следовательно, отображение G имеет непо- неподвижную точку х* ? С и |] х* || = || Gx* || = г. Но х* удовлетворяет соот- соотношению Gx* = [l + 1 /г |1 Gx* — **[|]**, что приводит к противоречию. ЗС 6.3.5. Теорема 6.3.4 была впервые получена Минти [1963] для случая гиль- гильбертова пространства X в следующей формулировке: если F: X -> X — непре- непрерывное монотонное отображение, удовлетворяющее условию (#, Fx) ~^>0 для всех х $. S @, г) при некотором г > О, то уравнение Fx = 0 имеет решение в шаре S @, г) (доказательство см. у Долфа и Минти [1964]). Отметим, что в случае пространства Rn условие монотонности можно отбросить, как это показывает теорема 6.3.4. ЗС 6.3.6. Интересная комбинация теоремы о сжатии и теоремы Шаудера (или, в случае пространства Rn, теоремы Брауэра) принадлежит Красносельскому [1955]. Пусть С — замкнутое ограниченное выпуклое множество в банаховом пространстве X и отображения Gx, G2: С -> X таковы, что (a) Gxx + G2y ? ^ для всех х,у ? С, (б) отображение Gx сжимающе, (в) отображение G2 непрерывно и компактно. Тогда отображение Gt + G2 имеет неподвижную точку в С. Имеется следующее обобщение этого результата, принадлежащее Брэмблу (частное сообщение). Пусть отображение Н: СхС -* С удовлетворяет двум усло- условиям: (а) существует такая постоянная а < 1, что для каждого фиксированного у ? С отображение Я (•, у) является сжатием с постоянной сжатия а; (б) существу- существует такое непрерывное компактное отображение Ях: С -» Xv где Хх — другое банахово пространство, что ||Я (х, у) — Я (х, г) || < || Нхх — Нгг\\ для всех х> У> z ? Сг. Тогда найдется х* ? С, такое, что х* = Я (х*> х*). УПРАЖНЕНИЯ У 6.3.1. Пусть отображение G: Rn -» Rn непрерывно и удовлетворяет условию ||Gx||< а||*II + р, V х? Rn, где 0< а < 1, E > 0. Тогда отображение G имеет неподвижную точку. У 6.3.2. Пусть С — открытое ограниченное множество в Rn и отображения Flt F2: С -> Rn непрерывны. Если || Fxx — F2x у < Ц F2x Ja, \f x ? С, и deg (F2, С, 0) Ф 0, то уравнение /^ = 0 имеет решение в С (Альтман [1957а]). У 6.3.3. Пусть отображения A: Rn -* L (Rn), В: Rn -* L (Rm, Rn) и F: Rn ^ Rn непрерывны и И (*)|l< cx < oo, \\A-l(x)B(x)\\^ n Тогда для любого b ? Rn уравнение A (x) x = В (x) b + Fx имеет решение (Степлмэн [1969]). У 6.3.4. Пусть С CZ Rn — открытое ограниченное множество, содержащее начало координат, и пусть отображение F: С -> Rn непрерывно. Если Fx Ф 0 для всех
166 Часть П. Неконструктивные теоремы существования 6.4 х?С, го существуют у1, у2?С и Хг < О, Х2> 0, такие, что Fyi = Ktyt, i = = 1,2. (Указание: рассмотрите гомотопию Н± (х, t) = tFy ± A — t) у и восполь- воспользуйтесь теоремой 6.2.4). У 6.3.5. Обобщить теорему 6.3.3 следующим ^образом. Пусть C(ZRn — откры- открытое ограниченое множество и отображение G: С -> Rn непрерывно. Предположим, что существует точка х° ? С, такая, что Gx Ф Хх + A — X) х° для любых х ? С и Я> 1. Тогда отображение G имеет неподвижную точку в С (Ямамуро [1963]) У 6.3.6. Другая форма теоремы Лерэ — Шаудера. Пусть множество С С Rn от- открыто, ограничено и содержит начало координат, a G: С -> Rn — непрерывное отображение. Если Gx Ф Хх для любых X < 1 и * ? С, то отображение G имеет неподвижную точку в С (Указание: рассмотрите гомотопию Н (х, t) = Bt — 1)Х X х — tGx.) У 6.3.7. Пусть Cjp Rn — открытое ограниченное множество, содержащее начало координат, и G: С -> Rn — непрерывное отображение. Если xTGx<^xTx для всех х?С, то С имеет неподвижную точку в С (Шинброт [1964]). У 6.3.8. Пусть С с Rn — выпуклое открытое множество, содержащее начало ко- координат, и G: С -> Rn — непрерывное отображение. Если GCaU, то G имеет неподвижную точку в С (Роте [1937]). У 6.3.9. Пусть отображение А ? L (Rn) невырождено, а ф: Rn -> Rn непрерывно. Предположим, что для некоторого л > 0 каждое решение уравнения Ах — гфх = = 0 лежит в шаре S @, г) для всех t? [0, 1]. Используя теорему Лерэ — Шау- дера, показать, что уравнение Ах = фх имеет решение в S @, г) (Берс [1953]) 6.4. МОНОТОННЫЕ И КОЭРЦИТИВНЫЕ ОТОБРАЖЕНИЯ Напомним (см. 5.3.8), что если отображение F: Rn -> Rn ко- эрцитивно по норме и является локальным гомеоморфизмом в каждой точке пространства Rn, то оно будет гомеоморфизмом. При- Применяя теорию степени отображения, построенную в этой главе, мы можем получить несколько близких результатов, в которых явное предположение о том, что отображение F — локальный гомео- гомеоморфизм, заменяется некоторым более сильным условием коэр- цитивности, а также условиями монотонности. Это позволит нам, в частности, усилить результаты § 5.4 о монотонных отображениях. 6.4.1. Определение. Отображение F: D d Rn -> Rn называется слабо коэрцитивным на открытом множестве Do с D, если суще- существует точка z ? Do, обладающая тем свойством, что для любого у > 0 найдется открытое ограниченное множество DyczDOt Dycz aD0, содержащее z, для которого (x-zyFx>y\\x-z\\2, VxG^0\Dv. A) Если D=D0=:Rniiz = 09 то отображение F называется коэр- коэрцитивным. М
6.4 Гл. 6. Степень отображения 167 Из неравенства Коши — Шварца (x-z)TFx^\\x-z\\2\\Fx\\2 немедленно следует, что любое слабо коэрцитивное отображение будет также и коэрцитивным по норме в смысле определения 5.3.6. Кроме того, если D =D0 = Rnt то очевидно, что отображение F будет слабо коэрцитивным тогда и только тогда, когда lim [(х — zf Fx 11 x — z J,] = со B) Mi-"» для некоторого z ? Rn, и будет коэрцитивным тогда и только тогда, когда \\m(xTFx/\\x\\2)=+oo. C) Конечно, всякое коэрцитивное отображение по определению и слабо коэрцитивно (возьмем z = 0), обратное же не верно (см. У 6.4.1). Если отображение /: (a, b) cz R1 -> R1 слабо коэрцитивно, то, как легко видеть, lim f(x) = — со, lim / (*) = + со. х-+а-\- х-+Ь— Следовательно, если отображение / к тому же непрерывно, то оно отображает интервал (а, Ь) на всю прямую R1. Ниже дается обоб- обобщение этого факта на случай п измерений. 6.4.2. Теорема коэрцитивности. Пусть отображение F:DaRn-*Rn непрерывно и слабо коэрцитивно на открытом множестве А Тогда FD = Rn и для любого у ? Rn множество решений Г = {х ? D \ Fx = = у) ограничено. Доказательство. Для произвольного у ? Rn положим V — 1Ы1г и выберем DvcDb соответствии с определением 6.4.1. Тогда по неравенству Коши — Шварца и в силу непрерывности отображения F (x-z)T(Fx-y)>09 Wx^Dy. Поэтому из теоремы 6.3.4 следует, что уравнение Fx — у = 0 имеет решение в Dv. Докажем заключительное утверждение. Пусть У > Л = niax uTy. 1М11
168 Часть II. Неконструктивные теоремы существований, 6А Тогда для любого ** € Г мы должны иметь ** ? DY, но, с другой стороны, в силу A) — противоречие. Наше утверждение вытекает теперь из ограничен- ограниченности множества Dv. | Теорема 6.4.2 гарантирует лишь существование, но не един- единственность решения. Если D = Rn9 то одно достаточное условие, гарантирующее взаимную однозначность отображения F, состоит в том, что F является локальным гомеоморфизмом в каждой точке Rn- Это немедленно следует из теоремы 5.3.8, поскольку слабая коэрцитивность влечет за собой коэрцитивность по норме. Другое достаточное условие дается приводимым ниже простым следствием теоремы 6.4.2 (см. также определение 5.4.2). 6.4.3. Если отображение jF: Rn -> Rn непрерывно и слабо коэр- цитивно, то FRn = Rn. Если F к тому же и строго монотонно, то оно взаимно однозначно. В качестве последнего следствия теоремы 6.4.2 мы получим одно усиление теоремы 5.4.5, где предполагалась непрерывная дифференцируемость. 6.4.4. Теорема о равномерной монотонности. Если отображе- отображение F: Rn -> Rn непрерывно и равномерно монотонно, то оно является гомеоморфизмом пространства Rn на себя. Доказательство. В силу равномерной монотонности существует такое с > 0, что где г/ = F @). Поэтому из неравенства вытекает ввиду C), что отображение F коэрцитивно. Следствие 6.4.3 показывает, что отображение F — взаимно однозначное отобра- отображение на. Наконец, из равномерной монотонности вытекает нера- неравенство которое в силу 4.3.8 означает непрерывность (по Липшицу) отоб- отображения F~l. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 6.4.1. Понятие монотонного отображения впервые ввел, по-видимому, Ка- чуровский [1960], и в том же самом году Вайнберг [I960] доказал первую теорему о неподвижной точке для монотонных отображений в гильбертовом пространстве,
6.4 Гл. 6. Степень отображения 169 равномерно удовлетворяющих условию Липшица. Это было продолжением пре- предыдущих работ различных русских авторов, касающихся результатов типа теоремы о неподвижной точке для градиентных операторов в банаховом про- пространстве (см., например, Вайнберг [1956]). Независимо Сарантонелло [1960] доказал теорему, которая практически эквивалентна результату Вайнберга. Значительный шаг вперед сделал Минти [1962], освободившийся от условия рав- равномерности по Липшицу в теореме Вайнберга—Сарантонелло. Он доказал, что если G — непрерывное монотонное отображение, заданное на гильбертовом пространст- пространстве, то отображение I — G является гомеоморфизмом этого пространства на себя. (Отметим в связи с этим, что определение 5.4.2 немедленно обобщается на случай любого скалярного произведения в Rn и, более того, на случай любого действи- действительного гильбертова пространства.) Браудер [1963а] указал, что результат Минти можно перефразировать в терминах равномерно монотонных отображений; в случае пространства Rn это приводит к нашей теореме 6.4.4. Однако первоначаль- первоначальное доказательство Минти основано совсем на иных идеях, чем наше. Вслед за двумя упомянутыми работами Минти и Браудера появилось большое количество других работ, в которых полученные результаты переносятся на случай более общих пространств и отображений или же ослабляются требования непрерывности. Сводное изложение этих результатов см. в обзорах Браудера [1965а], де Фигей- редо [1967] и Опяля [1967а]. ЗС 6.4.2. Определение коэрцитивного отображения допускает обобщение на слу- случай гильбертова пространства, и это обобщение уже использовалось несколькими авторами. Однако понятие слабо коэрцитивного отображения, определенного лишь на подмножестве пространства Rnt представляется новым. Теорема 6.4.2 является обобщением теоремы, впервые доказанной, по-видимому, Браудером [1963а], о том, что непрерывное коэрцитивное отображение, определенное на Rn, есть отображе- отображение на. С помощью результата, упомянутого в ЗС 6.3.5, теорема 6.4.3 обоб- обобщается на случай гильбертова пространства при дополнительном предположении о монотонности отображения F. Для г = 0 это частный случай более общих резуль- результатов Браудера [1963а] и Минти [1963]. УПРАЖНЕНИЯ У 6.4.1. Определим отображение F: R2 -> R2 равенствами h м =* (*i - о K*i - о2 Показать, что F слабо коэрцитивно (сг= е1), но не коэрцитивно (Опяль [1967а]). У 6.4.2. Пусть A?L(Rn). Показать, что равенство B) имеет место для каждого z?Rn тогда и только тогда, когда матрица А положительно определена. У 6.4.3. Если отображение F: Rn -> Rn монотонно и слабо коэрцитивно, то оно коэрцитивно (Опяль [1967а]). У 6.4.4. Построить пример непрерывно дифференцируемого отображения F: R2-+ ~*R2, такого, что || Z7'ДО" II < Y для всех x?R2t но | xTFx \l\\x\\ -*оо при х\\ ->оо. У 6.4.5. Пусть задано отображение F: Rn -> Rn. Показать, что хт (Fx —-*/)-» -> + оо при |1 х || -> + со для всех у ? Rn тогда и только тогда, когда отображе- отображение F коэрцитивно. У 6.4.6. Если отображение g: Rn -> Rl равномерно выпукло и (/-дифференцируемо (на Rnf то отображение (g')T коэрцитивно.
170 Часть П. Неконструктивные теоремы существования 6.5 У 6.4.7. Пусть отображение g\ Rn -* R} непрерывно дифференцируемо. Отображе- Отображение (g')T коэрцитивно тогда и только тогда, когда g (x)!\\x|| -> + сю при ||*||->оо. Отсюда и из результата У 4.3.5 следует, что отображение (g')T коэрцитивно тогда и только тогда, когда g (х) — Ьтх -> + оо при ||*|| -* оо для любого b ? Rn. У 6.4.8. Пусть отображение g: Rn -> Rl непрерывно дифференцируемо и строго выпукло. Тогда отображение g (х) — Ьтх имеет единственный минимизатор для любого b ? Rn в том и только в том случае, если (g')T коэрцитивно. У 6.4.9. Пусть задано отображение F: D с Rn -* Rn, где D — открытое множе- множество, и пусть Do — некоторое подмножество множества Ь. Предположим, что су- существует z? Do, такое, что для любого у > 0 найдется подмножество Dy с DQt для которого справедливо A). Показать, что множество Do открыто. У 6.4.10. Обобщить результаты упражнений У 5.4.5 — У 5.4.7 на случай не прерывных отображений. У 6.4.11. Предположим, что отображение ф в теореме 5.4.6 лишь непрерывно и монотонно. Показать, что, Л + ф является гомеоморфизмом. У 6.4.12. Предположим, что отображение F: Rn -> Rn непрерывно и что су- существует функция ф: [0, оо) -> [0, со), для которой lim ф (/) = + оо, ф (i) > 0 при />0 и Показать, что отображение F — взаимно однозначное отображение на все Rn. У 6.4.13. Отображение F: Rn ->./?" называется асимптотически монотонным на лучах, если существует /0, такое, что для любого х с хТх = 1 функция ax(t) = s=x^F(tx) изотонна на [tQ,-{-oo). Показать, что если отображение F непрерывно и асимптотически монотонно на лучах и с > 0, то (с/ + F) Rn = Rn (Шинброт [1964]). (Указание: для произвольного y?Rn рассмотрите отображение Gy = e=s с^1 (у — Fx), положите г0 = sup {xTG (tQx) | xTx = 1}, г = max (г0, /0) и примените теорему 6.3.3 к шару 5 @, г).) 6.5. ПРИЛОЖЕНИЕ. ВСПОМОГАТЕЛЬНЫЕ АНАЛИТИЧЕСКИЕ РЕЗУЛЬТАТЫ В этом приложении изложены некоторые сведения, касающиеся вспомогательной аналитической техники, используемой в настоя- настоящей главе. В частности, мы приводим доказательство леммы 6Л.З вместе со сводкой необходимых для этого фактов. При доказательстве теоремы 6.1.2 наряду с обычными хорошо известными свойствами интеграла Римана мы используем следую- следующую теорему о замене переменных (см., например, Апостол [1957, стр. 2711). 6.5.1. Пусть отображение F: D с Rn -> Rn непрерывно диффе- дифференцируемо и взаимно однозначно на открытом ограниченном мно-
6.5 Гл. 6. Степень отображения 171 жестве С с D, причем производная F' (х) невырождена для всех х ? С. Пусть, далее, функция /: F (С) с Rn -> R1 непрерывна, а К — измеримое по Жордану компактное подмножество множества С. Тогда l(x)dx= J f(Fx)\detF'{x)\dx, где через Fc обозначено сужение отображения F на С. На самом деле используем мы эту теорему лишь в том слу- случае, когда множество К есть шар относительно евклидовой нормы в Rn. Такой шар, конечно, измерим по Жордану. В порядке подготовки к доказательству леммы 6.1.3 приведем следующий частный случай хорошо известной теоремы о диверген- дивергенции. 6.5.2. Пусть F: Rn -> Rn — непрерывно дифференцируемое отоб- отображение с компактным носителем. Тогда j div Fxdx = j 2 difi (x) dx = 0. Доказательство сводится в нашем случае к простому вычис- вычислению с применением стандартной теоремы о повторном интегра- интеграле (см. того же Апостола [1957]). Действительно, если носитель отображения F содержится в множестве Q = {х ? Rn \ — <х< < xi < а}, то J divFxd* = Jj Jd,/,(x)dx = 2 J • • • J difi(x)dx1 .,, dxm pn t=l Q i==l —a —a а J d(ft (x) dxt = U (a) - fi (- a) = 0. | —a Другим результатом, нужным нам для доказательства леммы 6.1.3, является следующая лемма об определителе Якоби. 6.5.3. Пусть отображение F: D a Rn -> Rn дважды непрерывно дифференцируемо на открытом множестве D. Обозначим через ац (х) алгебраическое дополнение (/, /)-го элемента матрицы Ff (x), х б Ь. Тогда J!idialj(x)^Oi /=1, ..., я, Vx?D. A) Доказательство имеется в книге Мьюра [1933]. В нем используется такой стандартный результат теории определи- определителей: если (а/у) ? L (Rn)} (($,/) = (а//) и алгебраическое
172 Часть it. Неконструктивные теоремы существовании 6.5 дополнение (t, /)-го элемента матрицы (at/) обозначено через ац, то определитель \i = det (a/y) удовлетворяет соотношениям 2 « B) /,/=1, .,., п. C) D) Соотношение B) представляет собой разложение det А по эле- элементам i-й строки, C) получается из B) дифференцированием, а D) — это обычная формула, выражающая обратную матрицу (а//) через \х и алгебраические дополнения. Приступим непосредственно к доказательству леммы. Предпо- Предположим сначала, что при заданном х° ? D производная F' (х°) невырождена. Тогда по теореме об обратной функции сужение Fu отображения F на некоторую открытую окрестность U точки х° отображает U на некоторую окрестность точки у0 = Fx° и отобра- отображение G = FTr1 удовлетворяет соотношению Fr (x) G' (у) = /, где у = Fxt х ? (/. Согласно результату У 5.2.7, отображение G даже дважды непрерывно дифференцируемо, поскольку таково по пред- предположению отображение F. Для сокращения записи положим F(x) = (a/y), G' (у) = (р//), fx = det F' (х), ц = det G' (у) и обозначим алгебраическое дополнение (/, /)-го элемента матрицы G' (у) через bij. Используя C) и D), находим, что но п д dyk dyi дх{ ?л*Ь dyk ' следовательно, = у Так как fxrj = 1, то 0 = \*>d\\Idyk + цд\х/дук\ значит, ~ _) дх( I* lk ' _ei что и утверждалось.
6.5 Гл. 6. Степень отображения 173 Предположим теперь, что производная F' (*0) вырождена в не- некоторой точке х°. В этом случае рассмотрим вместо F отображение FsX = рх -f гх. Очевидно, что для достаточно малых в произвол* ная Fe (x) = F' (х) + е/ невырождена и, согласно первой части доказательства, где afi — алгебраическое дополнение (i, /)-го элемента матрицы Fe (x). В силу непрерывности чем соотношение A) и установлено. I В § 6.1 мы применяем хорошо известную теорему Вейерштрасса: 6.5.4. Пусть отображение F: D с Rn -> Rn непрерывно на ком- компактном множестве С a D. Тогда для любого г > 0 существует непрерывно дифференцируемая функция G: Rn -> /?", такая, что \\F-G\\c<e. . Фактически в качестве компонент отображения G можно взять многочлены в Rn. Имеются многочисленные доказательства этой теоремы (см., например, Дьёдонне [I960]). Значительно менее известен тот факт, что для непрерывно дифференцируемого отображения F можно отображение G выбрать так, чтобы его производная также аппроксимировала на С про- производную отображения F. Для доказательства леммы 6.1.3 этот результат понадобится нам в следующей форме. 6.5.5. Пусть отображение F: D aRn -> Rm непрерывно дифферен- дифференцируемо на открытом множестве D и С — компактное подмноже- подмножество D. Тогда для любого е > 0 существует дважды непрерывно дифференцируемое отображение G: Rn -> Rmt такое, что max (| Gx - Fx ||, | G'(x)- F' (*)p < е, V* б С. E) Мы приведем здесь доказательство, использующее многочле- многочлены Бернштейна. В случае одной переменной доказательство обще- общеизвестно (см. Лоренц [1953]). Его сравнительно легко обобщить на случай п измерений, воспользовавшись известными одномерными оценками. Если функция /: Qncz Rn->R1 непрерывна в единичном кубе
174 Часть II. Неконструктивные теоремы существования 6.S то ее m-й многочлен Бернштейна на Qn определяется равенством где Рт/@=(^)^A-0тЧ ^[0,1]. F) Докажем сначала следующий частный случай теоремы 6.5.5. 6.5.6. Пусть функция /: Qn -> Z?1 непрерывна на Qn и непрерывно дифференцируема на некотором замкнутом шаре S (и, r0) a Qrt. Тогда при г < г0 равномерно на любом шаре 5 (и, г): НтЯ,й (/,*) = /(*), Нт я; (/,*) = /'(*)• G) т-юо Доказательство. Обозначим через Pmj (x) произведе- т т ние pmj, (*i) ... Pmj (хп) и через 2 сумму 2 • Очевидно, что н '» /ne0 2 Pm/ W = * и> следовательно, /=0 /=0 fe=l 1/=0 Для заданного б ? @, 1) и k < /г положим •^ W == l(/l» • • • » //г) I 0 ^ // ^ т> \U mxi И Известно, (см., например, Лоренц [1953, стр. 15]), что при п = 1 существует константа с, такая, что Индукцией по п это неравенство обобщается на случай п измере- измерений, при этом надо правую часть неравенства (8) заменить на сп1т2№. Действительно, используя (8) и предположение индукции, полу- получаем т 2 P,ni (*) < , 2 __n PmU (Xi) ¦ ¦ . Pm,^ (*»-!) ; 2 , ^ Рт,п (Хп) + 2 Pm/, (^i) . . , ?«/„_, (Jfn-l) 2 Рт/Я (Хп) (/i /n-l)€^n~lW /„=° . С . C(Al— 1) СП у, г r\
6.5 Гл. 6. Степень отображения 175 Теперь для заданного е>0 выберем 8 ? @, 1) так, чтобы — f(y)<s при ||* — #|| < 6. Тогда <е 2 Ры(х) 2 /€•„<*) где М = max [\f (x)\x ? Qn). Итак, последовательность мно- многочленов Вт (/, х) сходится к / (л:) равномерно по х ? Qn. Важным моментом является доказательство равномерной сходи- сходимости производных. Заметим сначала, что многочлен Вт линеен от- относительно /, иными словами, что Вт (/ + g\ х) = Вт (/, х) + Вт (g, x) для любых f, g'.Qn-^R1. В частности, для любой аффинной функ- функции а + аТх п пг Вт (а + Л, х) = а + Yi ak S ~ir Pmi (xk)> и потому из легко доказываемого соотношения т /=0 следует, что Вт (а + атх, х) = ат. A0) Зафиксировав х ? S (м, г), положим *(у) = /@)-Д*)-П*)(у-*), Из A0) следует, что и достаточно показать, что lim | Bm (g, х)\\ = 0 равномерно по х g S (а, г). т-юо Пусть задано г > 0. Из равномерной непрерывности произ- производной /' на S (и, г) вытекает в силу теоремы о среднем, что можно выбрать б ? @, г — Го) так, чтобы равенство xl Vy?S(x, 6), выполнялось равномерно по #?S(a,r). Далее, так как S(u} r) dint(QJ, то можно выбрать такое у, что 0<y<^A— xt), / = 1, ... , пу для всех ^^S(w, г). Заметим теперь, что /МО- /(>L0 {j-mt)Pnii{tl
176 Часть II. Неконструктивные теоремы существования 6.5 Поэтому /=0 + 4- 2l/|-mx,|Pm/(*)f V*6S(afr)f A1) где M = max {g (*/) | у ? Qfl, x ?~S (и, г)}. Поскольку | /, — mxi | < < 2m, из (9) видно, что вторая сумма в A1) ограничена постоянной 2сп/пг8А. Оценим первую сумму. Применяя к одномерной оценке (см. Лоренц [1953, стр. 5]) неравенство Коши — Шварца, получаем S|/|p«/@<4 Следовательно, первая сумма в A1) ограничена величиной п m • 2 2 \lk—mXk\\U — mxi\Pmi(x) = fe=l /=0 п t m \ ( m 1 Sli-^lPmf(*k) 2 I/ — mxt|pm/{xt)\ tC-j-n /=0 J l/=0 ) ^ Собирая наши оценки вместе, находим чем доказательство и закончено. | С помощью полученного результата легко доказать и саму теорему 6.5.5, используя хорошо известную теорему Титце-Урысо- на о продолжении, формулировка которой х> приводится ниже. Доказательство этой теоремы можно найти, например, у Дьёдонне [1960]. 6.5.7. Пусть^ функция /: С с Rr'-> Rl непрерывна на компактном множестве С. Тогда существует непрерывная функция g, опреде- определенная на всем Rnt такая, что f (х) = g (х) для х ? С. Щ Доказательство теоремы 6.5.5 теперь почти оче- очевидно. Существует открытое ограниченное множество Clf такое, 1> Для нужного нам частного случая.— Прим. ред.
6.5 Гл. 6. Степень отображения 177 что С d C1c Сха D. Так как множество С2 компактно, то оно содержится в_ некотором кубе; не ограничивая общности, можно считать, что Сг d int (Qn), поскольку этого всегда можно добиться простым аффинным преобразованием. Очевидно, что существует г0 > 0, для которого S (х, г0) cz Сх при всех х ? С, и в силу ком- компактности можно найти точки л:1, ..., xk ? С, такие, что Далее, в силу теоремы 6.5.7 можно продолжить каждую ком- компоненту /t- отображения F до непрерывного отображения gji Rn -> -> /?\ такого, что g, (х) = // (х) для всех х g Сх. Применяя 6.5.6 к каждому Д-, получаем для всех m > m^ (e). Поскольку имеется лишь конечное число ша- шаров S \х\ -у-), наше утверждение доказано. | Обратимся теперь к доказательству леммы 6.1.3, т. е. следую- следующего результата. 6.5.8. Пусть отображение F: D с:/?"->#" непрерывно дифференци- дифференцируемо на открытом множестве D, а С — открытое ограниченное мно- множество, причем С czD. Предположим, далее, что точка у ? Rn вы- выбрана так, что у = min {||Fx — г/||21 х ? С) > 0. Тогда для а ? @, у) оо иф^а, если л(Ф) = J '"-'ф@dt = 0, то йф(F, С, у) = 0. Доказательство. В силу теоремы 6.5.5 для любого е>0 существует дважды непрерывно дифференцируемое отображение G: Rn -> Rn, такое, что равенство E) выполняется равномерно по х ? С. При достаточно малых г очевидным образом выполняется неравен- неравенство min {||Gx — у||2|*? С) >а, показывающее, что определена сте- степень dy(GyC,y). Далее, из непрерывности функции ф и непрерыв- непрерывной зависимости определителя от своих элементов вытекает нера- неравенство | dy (F, С, у) — d<p (G, С, у)\ < elf справедливое для всех достаточно малых е. Таким образом, если мы сможем доказать, что из равенства г| (ф) = 0 вытекает равенство йф (G, С, у) = 0 для дваж- дважды непрерывно дифференцируемого отображения G, то будем иметь \dy(F, С, у)\ <е2 и, значит, d^(F, С, у) = 0 в силу произвольности гх. Поэтому, не ограничивая общности, можно предполагать, что отображение F дважды непрерывно дифференцируемо на D.
178 Часть II. Неконструктивные теоремы существования 6.5 Пусть дана функция ф ? Wa, такая, что ц (ф) = 0. Положим ф (t) = Гп f s"-^ (s) ds J о для 0 < t < + °° и "Ф @) = 0. Очевидно, функция ф непрерывно дифференцируема на [0, оо) и Y@ + mp@ = <P@. <€[0,оо). A2) Рассмотрим отображения Я: Rn -+ R\ Нх = (h± (x), ... , Ай (х))т = г|) (|| х||2) *, G:DczRn-± R'\ Gx = fe (x), ... , gn W)T = Я (Fjc). Так как функция г|э равна нулю вблизи / = 0 и евклидова норма непрерывно дифференцируема при х Ф 0, мы видим, что отобра- отображение Я, а потому также и G оба непрерывно дифференцируемы на D. Далее, в силу A2) div Н(х) = |И2г|/ (||х|)а + m|)(||x||2) = Ф(||х||2), A3) Пусть опять через ац (х), x?D, обозначено алгебраическое дополнение (/, /)-го элемента матрицы F' (х). Тогда из B) вытекает равенство x)f /=1, ... , /г, x?D. A4) Используя соотношение A3) и A4) и лемму 6.5.3, получаем п п п ( п \ п 2 д, 2 аЛ (*)ft (*) = 2 2 ал, (х)\ g} (x) + 2 ал w п п ( п \ п = ^S 2 B audtfh {x) J а*Л/ (Fx) = 2 а/А/ (Fx) det Г (х) = = (div H) {Fx) det Г (jc) = Ф (|| Fa;||2) det /=" (ж). Это показывает, что для отображения P: Rn -> 7?n, Px = (Pl (x), ..., pn W)T, ft (x) = 10, справедливо равенство где функция 0 задана соотношением F.1.2а). Поэтому из теоремы 6?5.2 следует, что dy (F, С, t/) = 0. i
Часть III ИТЕРАЦИОННЫЕ МЕТОДЫ В этой части дается обзор наиболее известных итерационных методов решения систем нелинейных уравнений. Изложение здесь носит в основном описательный характер, а анализ самих методов проводится в частях IV и V. Здесь же анализу уделяется место лишь в той мере, в какой это необходимо для эффективного описания ме- методов. В гл. 7 мы начинаем с обсуждения процессов, которые можно рассматривать как обобщение методов решения одного уравнения с одним неизвестным, таких, как /г-мерные аналоги метода Нью- Ньютона, метода секущих, метода Стеффенсена и их разновидностей. Затем рассматриваются обобщения итерационных методов реше- решения систем линейных уравнений, причем особое внимание уделя- уделяется методам последовательной верхней релаксации. В конце главы обсуждается ряд других итерационных методов, которые либо близки по своей форме к рассмотренным ранее, либо могут оказаться полезными для нахождения подходящего начального приближения. Во многих приложениях решение системы уравнений служит средством для нахождения минимизатора или критической точки соответствующего нелинейного функционала. С другой стороны, задачу решения уравнения Fx = О всегда можно свести к задаче минимизации функционала / (Fx), где /,— скажем, норма. В связи с этим в гл. 8 описываются различные методы минимизации, в том числе методы градиентов и сопряженных градиентов.
Глава 7 ОБЩИЕ ИТЕРАЦИОННЫЕ МЕТОДЫ 7.1. МЕТОД НЬЮТОНА И НЕКОТОРЫЕ ЕГО РАЗНОВИДНОСТИ Для действительной функции / одной переменной с нулем х* метод параллельных хорд состоит в замене этой функции в некото- некоторой точке х°, являющейся приближением к х*, линейной функцией с подходящим угловым коэффициентом а Ф О, нуль которой х1 принимается затем за новое приближение к х*. Повторяя эту про- процедуру при фиксированном а, получим итерационный процесс xk+x = xk-aTxf{x\ ft = 0, 1, ... . A) Он изображен графически на рис. 7.1. Метод A) можно непосредственно обобщить на случай я-мер- ного отображения F: D a Rn -*¦ Rny заменив а постоянной не- невырожденной матрицей Л. А именно, п-мерный метод параллель- параллельных хорд определяется следующим образом: /+1 = /__ A~xFx\ к = 0, 1, ... . B) Соотношение B) показывает, что отображение F в точке хк заме- заменяется аффинным отображением = A(x— xk) + Fxk и в качестве нового приближения xk+l берется единственное ре- решение уравнения Lkx = 0. Геометрически точка #*+1 является пересечением п гиперплоскостей 2 %(*/-*/)+/<(**) = 0, i=l, ..., л, /=1 в /?n+1 с гиперплоскостью х = 0. Решающим моментом при использовании итерационного про- процесса B) является, конечно, выбор подходящей матрицы А. В про- простейшем случае в качестве такой матрицы можно взять А = а/, где а — некоторый скаляр, что по существу равносильно при- применению одномерной итерации A) отдельно для каждой компоненты ft отображения F. Другой, более сложный выбор подсказывается тем фактом, что в одномерном случае разумным значением для а служит угловой коэффициент /' (*0) касательной в точке х°. Если
7.1 Гл. 7. Общие итерационные методы 181 взять А = F' (х°), где через F' (х) обозначена G-производная в точке х, то итерационный процесс B) дает упрощенный метод Ньютона /+1 = хк - F' 6 = 0,1,.... C) С другой стороны, во многих задачах специальный вид отображе- отображения F сам диктует естественный для данного случая выбор матрицы Л. Если, например, Fx = Ах — Gx, D) Рис. 7.1. где G — нелинейное отображение, а А — некоторая невырожден- невырожденная матрица, то естествен следующий итерационный процесс, часто называемый методом последовательных приближений Пикара: /+l = xk-A~lFx\ 6 = 0,1, ... . E) Поскольку A~~lGx = х — A~lFx, то, очевидно, E) можно перепи- переписать в форме B). Для метода параллельных хорд существует много разных спо- способов выбора матрицы Л; с некоторыми из них мы познакомимся в других параграфах этой части. Но в любом случае основным требованием, предъявляемым к Л, является по крайней мере ло- локальная сходимость итерации B). Это означает, что для всякого х°, достаточно близкого к решению х* уравнения Fx = 0, должно выполняться соотношение lim xk = х*. В гл. 10 будет показано, /г->со что если существует F' (**), то для локальной сходимости достаточ- достаточно (и в существенном необходимо), чтобы o = p(l-A-lF(x*))<l, F) где р обозначает спектральный радиус матрицы; более того, будет показано также, что чем меньше а, тем быстрее сходимость.
182 Часть III. Итерационные методы 9.1 Поскольку решение л;* не известно, очень трудно бывает заранее по- подобрать матрицу А так, чтобы выполнялось условие F). Идеальным выбором было бы, конечно, А = F' (%*). Поэтому представляют интерес итерации, в которых допускается изменение матрицы А от шага к шагу: X === X "—" /i& Г X , к :==z U, 1, • • « , причем матрицы Ak выбираются так, чтобы lim Ak = F' (x*). /С ТОО Прототипом таких методов является знаменитый метод Ньютона, играющий центральную роль в этой книге. / Рис. 7.2. Напомним, что если снова / — действительная функция одной переменной, то итерационный процесс называется методом Ньютона. Он представлен геометрически на рис. 7.2. Формально этот метод можно непосредственно обобщить на случай д-мерных отображений F\D с Rn -> R\ заменив в форму- формуле G) /' (хк) на G-производную F' (хк) от F в точке дЛ Такая за- замена дает п-мерный метод Ньютона yk+* ук F' lvkY~^ F /Л b 0 1 (Ял * — л — г ^л; г \Х ), К — VJ, 1, .... (о) По аналогии с рис. 7.2 шаг от хк к хк+1 в (8) можно геометрически интерпретировать так: каждая компонента ft отображения F ап- аппроксимируется аффинной функцией
7.1 Гл. 7. Общие итерационные методы 183 которая определяет касательную гиперплоскость к графику функ- функции ft в точке xk, a xk+l является точкой пересечения п гипер- гиперплоскостей (9) в пространстве Rn+] с гиперплоскостью х = 0. При п = 1 формула (8) сводится к G), и в этом смысле метод (8) является разумным обобщением одномерного метода Ньютона на случай п переменных. Следует отметить, однако, что существует много других /г-мерных методов, которые при п = 1 сводятся к G). Такова, например, итерация k = 0, 1, ... , A0) где G: Rn ->¦ Rn — некоторое «произвольное» отображение. Важ- Важность метода Ньютона (8) основана на том, что при некоторых ес- естественных ограничениях на отображение F имеет место оценка Ц***1 —**||<с|** —**p A1) для xk9 достаточно близких к решению х*. Эта оценка показывает, что (k + 1)-я ошибка пропорциональна квадрату &-й, т. е. при ма- малых отклонениях от точного решения итерационный процесс схо- сходится очень быстро. В общем же случае итерации типа A0) не об- обладают этим свойством так называемой «квадратичной сходимости». Большое внимание, которое уделяется методу Ньютона при изу- изучении итерационных процессов решения систем уравнений, объ- объясняется как этим, так и простотой и элегантностью его записи. Строгое доказательство оценки A1) будет дано лишь в п. 10.2.2, но понимания ее можно достичь уже сейчас, рассмотрев следующий вывод метода Ньютона. Если отображение F имеет Лпроизвод- ную в точке хк, то 0 = Fx* = Fxk + Ff {xk) (** - xk) + R (x* — xk), A2) где lim R (A)/1| A || =* 0. Следовательно, для xkt близких к решению /г-И) x*t можно пренебречь остаточным членом R (х* — xk) ив качестве приближенного значения разности л;* — хк взять решение А ли- линейной системы F'(xk)h = —Fxk. A3) За новое приближение, таким образом, можно принять xk+l = xk + + А = xk — F' {xky~x Fxk. Если вторая производная отображения F ограничена в некоторой окрестности точки я*, то в силу теоремы 3.3.6 —**)Ка II я* — и в предположении невырожденности матрицы Fr (x*) получается оценка A1). Метод Ньютона можно вывести также с помощью теоремы 5.2.1 об обратной функции. Действительно, если F — непрерывно диф- дифференцируемое отображение, а производная F' (х) невырожденэ
184 Часть III. Итерационные методы 7.1 в некоторой окрестности U точки х*% то, согласно теореме 5.2.1, сужение Рц отображения F на окрестность U точки л:* имеет диф- дифференцируемое обратное отображение G = FJ}1 и G' (Fx) = == F' {х)~~\ Следовательно, беря разложение G в окрестности точки Fxk, получаем х* = G @) = G (Fxk) - G' (Fxk) Fxk + R (Fxk) = = x* — f" (хкГ1 Fxk + R {Fxk), A4) что снова, если опустить остаточный член, приводит к методу Ньютона. Хотя метод Ньютона и привлекателен с теоретической точки зрения, его практическое применение наталкивается на некоторые трудности. На каждом шаге итерации нужно решать линейную систему A3) (матрицу, обратную к F' (#*), редко удается вычислить явно), а это — особенно для уравнений в частных производных, когда размерность системы достигает нескольких тысяч,— может оказаться довольно сложной задачей. Кроме того, на каждом шаге нужно определять не только п компонент вектора Fxk> но также п2 элементов матрицы F' (xk), и если частные производные dtft (xk) не имеют простого аналитического вида, то иногда желательно во- вообще обойтись без их вычисления. В § 7.4 будет рассмотрено несколько модификаций метода Ньютона, с помощью которых удается обходить трудности, связанные с обращением матриц. С другой стороны, большинство остальных методов, рассматриваемых в этой главе, предназначено для того, чтобы избежать явного вы- вычисления производных. Наиболее простой способ избежать вычисления производной F' (х) состоит просто в том, чтобы аппроксимировать частные про- производные dfa (x) разностными отношениями. Обычно используются следующие две аппроксимации: dlfi (х) Ф A/й,/) [/, (х + кие) - ft (x)l A6) где ft// — заданные параметры дискретизации и е* — это /-й ба- базисный вектор. Более общим образом, пусть h ? Rp — некоторый векторный параметр, а Д// (х, К) — разностная аппроксимация производной djfi (x), такая, что lim Д?/ (х, h) *= dtfi (*), и 1 = 1, *.. , п, A7)
7.1 tA. 7. Общие итерационные метоиы 185 если д/Д (х) существует. Тогда для матрицы разностей '(*.*) = (А//(*.*)) A8) итерационный процесс x Л = 0, 1, ..., A9) называется дискретным методом Ньютона. Заметим, что вектор- векторные параметры hk?Rp могут зависеть от номера шага. В простейшем случае берут hk = h, т. е. параметры при обра- образовании разностей остаются постоянными в течение всего итера- итерационного процесса. В этом случае, как будет показано в гл. 11, итерация обладает, вообще говоря, лишь линейной скоростью сходимости, а для получения быстрой сходимости, характерной для метода Ньютона, необходимо, чтобы lim hk = 0. Последнего можно достичь несколькими способами. Так, например, можно при некотором фиксированном h взять hk = ykh> где {yk} — сходя- сходящаяся к нулю числовая последовательность. Особенно интересны итерационные методы, в которых параметр hk зависит от значений итерации. В следующем параграфе мы рассмотрим несколько важ- важных классов таких методов. Существует много других модификаций метода Ньютона. В сущности каждый метод, о котором упоминается в этой главе, в каком-то смысле является модификацией метода Ньютона. В ос- оставшейся части этого параграфа мы рассмотрим несколько особенно простых и естественных модификаций. Одно из требований, которое можно наложить на итерационный процесс, состоит в уменьшении нормы, в том смысле, что в некото- некоторой норме должно выполняться неравенство IFj*x\<||Fx% ? = 0,l, .... B0) Сам по себе метод Ньютона не обязательно удовлетворяет этому условию даже в случае одной переменной. Одной из простейших модификаций метода (8) является следующая: /+1 = xk - (*kFf (xkrl Fxk, k = 0, 1, ... , B1) где множители соЛ выбираются так, чтобы выполнялось неравен- неравенство B0). Достаточные условия того, что такие коэффициенты действительно можно подобрать, даны в У 7.1.1 и в следующей главе. Другой, в какой-то степени похожей модификацией служит итерация 1 = xk - [F' (xk) + %к1ГХ Fxkt k - 0, 1, ... . B2) В этом случае параметры Xk выбираются так, чтобы матрицы F' (xk) + + KkI были невырождены, если невырождены сами матрицы F'(xk)f
186 Часть HI. Итерационные методы 1.1 а также чтобы при некоторых определенных условиях выполнялось неравенство B0). В последней модификации, которую мы рассмотрим здесь, F' (xk) вычисляется не при каждом k: /+i = Xk _ р' (х**>)-1 Fxky k _ о, 1, ... , B3) где р (k) — целое число, меньшее или равное k. В предельном слу- случае при р (k) a k получается, конечно, метод Ньютона, а при р (&)== =з 0 — упрощенный метод Ньютона C). Предположим, что про- производная F' вычисляется через каждые m шагов. Тогда, перенуме- перенумеровав шаги так, чтобы xk обозначало теперь km-ю итерацию про- процесса B3), получим итерационный процесс i=l, ... , m, /'° = х*. B4) Для m = 2 B4) можно записать в виде xk+l = xk-F' {xkrl {Fxk + F(xk — F' (хкГ1 Fxk)}, k = 0, 1,. .. . B5) Итерационный процесс B4) можно рассматривать как сочетание одного шага по методу Ньютона cm — 1 шагами по упрощенно- упрощенному методу Ньютона, и, как будет показано в п. 10.2.4, это дает простой способ построения методов высокого порядка. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.1.1. Подробное описание итерационных методов для случая функций одной переменной см. у Островского [1966] и Трауба [1964]. ЗС 7.1.2. Метод Ньютона и дискретный метод Ньютона изучались различными авторами, на работы некоторых из них мы будем ссылаться в последующих пара- параграфах. В частности, скорость сходимости метода исследуется в § 10.2, а другие теоремы сходимости приводятся в гл. 12—14. С другой точки зрения этот метод рассматривается также в § 8.1. Результаты о локальной сходимости для некоторых дискретных методов Ньютона излагаются в § 11.2 и 11.3. ЗС 7.1.3. Метод Ньютона непосредственно обобщается на случай отображений F: D с X. -> К, где X и Y — произвольные банаховы пространства. В этом слу- случае под F' понимается F-производная и предполагается, что матрица F' (х) имеет ограниченную обратную, определенную на всем Y. Более общим образом, для случая топологических линейных пространств этот метод рассматривал Хира- сава [1954]. Метод Ньютона для банаховых пространств исследовался очень мно- многими авторами. Наиболее интересные результаты здесь получили Л. Канторович и его коллеги (см. Канторович и Акилов [1959]), Л. Коллатц и его ученики (см. Коллатц [1964]), а также Р. Беллман и его сотрудники, изучавшие этот метод под названием квазилинеаризации (см. Беллман и Калаба [1965]). ЗС 7.1.4. По-видимому, первыми, кто дал строгий анализ итерации B1), были Крокетт и Чернов [1955] (см. также Глейзал [1959]). Итерация B2) восходит к Левенбергу [1944]. Результаты о сходимости этих двух итераций приводятся в § 10.2 и 11.2 и 11.4. ЗС 7.1.5. Итерацию B4) исследовал Трауб [1964]. Он показал, что она обладает свойством «кубической сходимости» для пг = 2 и свойством сходимости даже более
7.2 Гл. 7. Общие итерационные методы 187 высокого порядка при m > 2. Эти результаты мы приведем в § 10.2. Шаманский [1967а] рассмотрел аналогичную процедуру, применив аппроксимацию A6) с с h.j = /i, i, j = 1, ..., п. ЗС 7.1.6. Некоторые авторы (см., например, Альтман [1961а], Янко [19626], Лика [1965], Мертвецова [1953], Нечепуренко [1954], Шафиев [1964] и Трауб [1964]) исследовали обобщения на случай п измерений и даже на бесконечномерный случай других одномерных итерационных методов с высокой скоростью сходи- сходимости. Типичным процессом такого типа является метод касательсных гипербол, который можно записать так: xk+\ = xk _ {/ _ i/2/7' (jc*pi F" (^) F> (xky-\ fxk}-i F> (^у-1 Fxk Bб) Можно показать, что он обладает кубической сходимостью. Однако методы такого типа, в которых используются производные второго и более высокого порядков, довольно неуклюжи с вычислительной точки зрения. Так, если для вычисления F' (х) нужно найти п2 первых частных производных d/ft, то для вычисления F" (х) — уже л3 вторых частных производных, а это в общем случае — непомерно болыиая"*работа. Значительная часть исследований последнего времени связана с поисками методов, требующих вычисления меньшего числа производных, чем в методе Ньютона. Один, правда не совсем удовлетворительный, способ уменьше- уменьшения числа вычисляемых производных в методах типа B6) состоит в использовании разностных аналогов метода Ньютона, подобных методу секущих. О работах в этом направлении см. Ульм [19636, 19656]. УПРАЖНЕНИЯ У 7.1.1. Пусть отображение F'\ Rn -> Rn является G-дифференцируемым в точке х и матрица F' (х) имеет обратную. Показать, что для у = F' (я)"/7* существует такое X > 0, что iF(x-by)i<W*l B7) Показать также, что если ||F' (х- ty) -F' (х)\\ <Щ\уЬ V t? [0, 1], то B7) выполняется для всех X ? [0, || Fx || /(К \\ У || 2)]. У 7.1.2. Если Л, B?L{Rn), то задача о собственных значениях Ах = 'КВх, хТх = 1 эквивалентна решению уравнения Fx = 0, где Записать метод Ньютона для этого отображения F. 7.2. МЕТОДЫ СЕКУЩИХ Дискретные методы Ньютона, расмотренные в предыдущем параграфе, представляют собой n-мерные обобщения одномерных дискретных методов Ньютона /(**), k = О, 1 ... . A) Особенно важными являются следующие два частных случая итера- итерации A): итерация по методу ложного положения yf{x)> * = 0,1, ..., B)
188 Часть III. Итерационные методы 7.2 в которой hk = х — xk, где х — некоторая фиксированная точка, и метод секущих k—\ где hk = xk -х*. Подобными способами можно выбирать hk и для я-мерных диск- дискретных методов Ньютона. Однако для того, чтобы иметь возмож- / /?*+1 хк xk+hk / / iT h Рис. 7.З. ность обсуждать получающиеся методы с удобной степенью общ- общности, желательно начать с несколько иного подхода к одномерным методам A). Как показано на рис. 7.3, очередное значение xk+l ите- итерации A) является решением линеаризованного уравнения /(*) = Важный момент теперь состоит в том, что интерпретировать функ- функцию / можно двумя различными путями: либо рассматривать ее как аппроксимацию касательной /т (х) = f (хк) (х — хк) + f (/), либо как линейную интерполяцию функции / между точками хк и хк + hk. При обобщении итерации A) на случай п измерений по- получаются разные методы в зависимости от того, какой точки зрения придерживаться. В случае дискретных методов Ньютона была использована первая интерпретация и производная F' (хк) за- заменялась матрицей J (xk, hk)y составленной из разделенных разностей. При использовании другой интерпретации каждая «компо- «компонентная поверхность» Д-, / = 1, ..., п, в пространстве Rn+] заме- заменяется гиперплоскостью, интерполирующей функцию ft по задан- заданным п + 1 точкам xhtl\ j = 0, ..., п, из некоторой окрестности точки
7.2 Гл. 7. Общие итерационные методы 189 лЛ Это означает, что векторы d и скаляры at должны быть подо- подобраны так, чтобы аффинное отображение Ltx = a, + хга удов- удовлетворяло условиям М*' = М*Ч / = 0, 1, ..., п. Тогда очередное приближение хк~^] получается как точка пере- пересечения этих п гиперплоскостей в пространстве Rn+l с гиперпло- гиперплоскостью х = 0, т. е. xk+l является решением линейной системы Ltx = U, i = 1, ..., п. Так определяется общий метод секущих для случая п переменных. Существует много разных частных методов секущих, которые определяются конкретным правилом выбора точек итерполяции хк'!\ j — О, ..., п\ но прежде чем познакомиться с некоторыми из них, мы приведем ряд результатов линейной теории интерполяции для того, чтобы показать как в действительности вы- вычисляется оч редное значение итерации. 7.2.1. Определение. Говорят, что точки jc°, ..., хп находятся в общем положении, если векторы х° — х1, j= 1, ..., я, линейно независимы. | Может показаться, что это определение зависит от нумерации точек, но это не так. В самом деле, мы имеем следующие эквива- эквивалентные условия того, что заданные точки находятся в общем по- положении. 7.2.2. Пусть х° ..., хп — произвольные п + 1 точек в Rn. Тогда следующие утверждения эквивалентны: (а) Точки л:0, ..., хп находятся в общем положении. (б) Для любого /, 0 < / < /г, векторы у} — х\ / = 0, ..., п, i ф jy линейно независимы. (в) Матрица (е, Хт) размера (п + 1) X (п + 1), где еТ = A, ..., 1) и X = (а:0, ..., хп)у невырождена. (г) Для всякого у ? Rn существуют скаляры а0, ..., ап, удов- п п летворяющие условию ^ at- = 1 и такие, что у = ^ aix • Доказательство. В силу матричного тождества 1 Xs х° /1 V 0 -X1 . 1 ... х° ... .. xf~ 1 х'~] } 0 1 — х' 1 . с/+1 0 х") 1 0 ; 0 . . . ... -1 1 0 \ хп-х'/'' ... —1 0 ... 0 • '. • ! -о 0 ' 1
190 Часть III. Итерационные методы 7.2 имеем det(х°-х1 л/'1 -х1, xi+l — х1, ..., хп — х1) = для любого / = 0, ..., п. Тем самым доказана эквивалентность утверждений (а) —(в). Далее, (г) эквивалентно утверждению, что линейная система имеет решение для любого у, поэтому из (в) следует (г). Обратно, решая уравнение D) для у, принимающего последовательно зна- значения 0, е1, ..., еп, найдем, что матрица (е> Хт) невырождена. I Геометрически тот факт, что точки л;0, ..., хп находятся в общем положении, означает, что они не лежат ни в каком аффинном под- подпространстве размерности меньшей п. Так, для случая п = 2 точки х°, я1, х2у находятся в общем положении, если они не коллинеарны, т. е. не лежат на одной прямой в R2. Однако следует иметь в виду, что векторы х°у ..., хп могут порождать Rn, даже если они не на- находятся в общем положении (см. У 7.2.6). Приводимый ниже результат дает исчерпывающее решение за- задачи линейной интерполяции в Rn. 7.2.3. Пусть х°, ..., хп и у0, ..., уп — заданные точки в Rn. Тогда существует единственная аффинная функция Lx = а + Ах, где а ? Rn и А ? L (Rn), такая, что равенства Lx1 = yf\ j = 0, ... ..., п выполняются втом и только в том случае, если точки х°, х1,... ..., хп находятся в общем положении. При этом матрица А является невырожденной тогда и только тогда, когда точки у0, у1, ..., уп на- находятся в общем положении. Доказательство. В матричной форме условие Lx =* = t/, j = 0, 1, ..., /г, записывается так: ; 0/°, •.., уп)т; E) здесь опять е = A, 1, ..., 1) и X = (х°, ..., хп). Поэтому первое утверждение теоремы является следствием теоремы 7.2.2. Далее, из равенств Lx' = yf, j = 0, ..., я, следует, что А (х! — л:0) = у1 — y°f j =; 1, ,. л, п9 F)
7.2 Тл. 7. Общие итерационные методы 191 и так как векторы х1— л:0, / = 1, ..., п> линейно независимы, то матрица А невырождена тогда и только тогда, когда линейно не- независимы векторы у1' — у0, j = 1, ..., п, т. е. тогда и только тогда, когда точки у°, ..., уп находятся в общем положении. | В соответствии с этими результатами мы можем теперь следую- следующим образом описать выполнение одного шага общего метода се- секущих. 7.2.4. Определение. Пусть дано отображение F: D с Rn -> Rn. Пред- Предположим, что два множества точек х°, ... , хп ? D и FxP, ... , Fxn находятся в общем положении. Тогда точка х = - Л~!а, G) где а и Л удовлетворяют уравнениям а + Ах1 = Fx!y j = 0, ... , п (8) называется базисной аппроксимацией по методу секущих относительно точек а:0, ..., хп. I Заметим, что в силу теоремы 7.2.3 точка Xs определена кор- корректно. Заметим также, что в случае одной переменной сформу- сформулированные условия сводятся к требованиям х° Ф х1 и / (х°) Ф Ф f (x1), при которых существует единственная секущая, пересе- пересекающая ось X. Для вычисления базисной аппроксимации нужно найти а и Л, удовлетворяющие уравнениям (8) (для чего в свою очередь надо решить линейную систему E) с у1 = Fx1), а затем решить уравне- уравнение а + Ах = 0. Однако оказывается, что нет необходимости вы- вычислять в явном виде интерполирующую функцию а + Ах. Мы рассмотрим сейчас две эквивалентные формулировки метода се- секущих, каждая из которых показывает, что точку х* можно по- получить в результате решения лишь одной линейной системы. 7.2.5, Метод секущих в формулировке Вольфа. Пусть точки x°f ... ..., хп и Fx°, ..., Fxn находятся в общем положении. Тогда базисная аппроксимация имеет вид xs = Xz = 2 */*'', (9) т /=0 где z = (г0, ..., zn) —единственное решение линейной системы порядка п + 1 {\ i) = A'0' •¦••0)Т- Доказательство. Поскольку точки Fx1 находятся в общем положении, то согласно 7.2.2 (б) система A0) обладает единственным
192 Часть III. Итерационные методы 7.2 п п решением, удовлетворяющим условиям 2^ = 1 и 2 z^^ = О- Сле- довательно, в силу (8) 0 = 2 zjFx1' = 2 ^(а + Ах) = а + А B И /=о \/=о и так как / является единственным решением уравнения а + Ах = = 0, то имеет место (9). | Заметим, что (9) и A0) однозначно определяют х\ даже лишь при том одном условии, что точки Fx°, ... , Fxn находятся в общем положении. Следовательно, формулировка Вольфа справедлива и тог- тогда, когда х°, ... , хп не находятся в общем положении. В этом слу- случае точка Xs будет лежать в аффинном подпространстве |^|л;== п п \ = 2 ctx\ 2 ci = l| меньшей размерности ч не существует линей- линейно t=0 J ного интерполирующего отображения а + Ах, для которого а + + Ах! = Fxjy / = 0, ... , п (см. У 7.2.7). Для другой формулировки удобно использовать оператор J:DKaRnxL(Rn)-+L(Rn)y определяемый равенством J(x,H) = {F{x + Hel)-Fx, ..,, F(х + Hen)-Fx)H~\ A1) Здесь DK = {(*, Н)\ х + Не1 ? D, i = 1, ... , /z; матрица Я невырождена}; где D — область определения отображения F. 7.2.6. Формулировка Ньютона. Предположим, что точки л:0, ... .. ,,хп и Fx°, ..., Fxn находятся в общем положении, и положим H = (xi-x\ ..., хп — х<>). A2) Тогда матрица J (x°f H) невырождена и базисная аппроксимация имеет вид xs=x» — J{x\H)-xFx». A3) Доказательство. Поскольку Fxl ^- F (х° + Не1), то, согласно F) с у1 = Fx\ имеем и так как матрица Н невырождена, то А = J (л:0, Я). Таким об- образом, на основании теоремы 7.2.3 матрица J (л:0, Н) невырождена
7.j? Гл. 7. Общие итерационные методы 193 и из равенств Xs = —А~ха и а = Fx° — Ах° получаем / = — Л" (— Ах» + Fx°) = х° — J (*°, НГ1 Fx\ Заметим, что если ввести обозначение Г = (Fxl — FxQ, ..., Fxn — — Fx°)y то A3) можно записать в виде xs = x° — HVlFx\ A4) Следовательно, как формулировка Вольфа, так и формулировка Ньютона пригодны в том случае, когда в общем положении на- находятся только точки Fx°, ..., Fx\ Однако опять точка Xs будет лежать в аффинном подпространстве t=0 1=0 (см. У 7.2.7). Отметим также, что для базисной аппроксимации как в форму- лировке Вольфа, так и в формулировке Ньютона действительно требуется решить лишь одну линейную систему (а именно систему A0) в первом случае и систему Гл: = Fx° — во втором) с после- последующим вычислением линейной комбинации векторов л:0, ..., х11 по формулам (9) или A4) соответственно. Интересно отметить, что для Xs справедливо также следующее представление: xs=x°— [(Fx1 — Fx°i Fx2 — Fx\ ..., Fxtl — Fxn) {x1 — jc°, ... ... , xn — xn-])-lrl™. A5) Поскольку A5) получается из A6) при х = х° и матрице Я, определенной формулой A2), то это представление, которое будет использоваться в гл. 11, непосредственно вытекает из следующей леммы. 7.2.7. Пусть J (х} Н) определено равенством A1), где Н = (А1, h\ ...,ЛЯ). Тогда hn~l)H-\ A6) где Доказательство. Заметим, что для любых п + 1 век- векторов г0, ..., rn ? Rn имеет место соотношение Г»Л Л..<?„»_ —
194 Часть III. Итерационные методы 7.2 где матрица P?L (Rn) задается формулой Р = О\ о — 1 1 Очевидно, что Р — невырожденная матрица, так что A6) следует из соотношения / (*, Н) = (F(x + hl) — Fx, .. > , F (х + hn) — Fx) Р (ЯР)". | Формулировка Ньютона позволяет записать описанный в начале этого параграфа общий метод секущих в компактной форме **+» = х* - J (х", Hk)~l Fx\ k = 0, 1, ,.. , J где принято хк'° = xk. Рассмотрим несколько других возможных способов выбора вспо. могательных точек хк'\ ..., хк'п. Простейший выбор таков: A8) j = 1, ... , п. В этом случае Hk есть диагональная матрица: Нк = diag (xkrl - 4, ... , xkrTl - xkn)f и если ввести обозначение А* = хк~1 — х), j = 1, ..., пу то J {x\ Hk) = ((I/A?) [F (х* + tie1) - Fxk]y ... , A/AJ + hknen)-Fx*)). Подставив J (xkf Hk) в формулировку Ньютона A7), мы придем к методу, который имеет точно такой же вид, как и дискретный ме- метод Ньютона G.1.19), использующий разностную аппроксимацию G.1.16) с кц = hh I = 1, ..., /г. Для последующих применений нам будет удобно определить J в этом случае как отображение Djx Dh= {(x,h)?Rn xR^x + h/tD, h^O, j=l, ..., n), { J(x, h) = (hT1 [F(x + h^) — Fx], ..., h^l\F(x + hne") — Fx]), A9) и записать метод так: — 0,1 B0)
7.2 Гл. 7. Общие итерационные методы 195 Если вместо точек A8) взять точки **•' = ** + S (х?-1 -х1)е\ /= 1 nf B1) то, как показывает простое вычисление, итерационный про- процесс A) ничем не отличается от дискретного метода Ньютона, в котором используется разностная аппроксимация G.1.15) с Ь,ц = = x*j~] — х). В этом случае мы можем определить итерационный процесс с помощью соотношения B0), где J имеет теперь вид [F [х + Более общим образом, можно взять вспомогательные точки **•' = ** + PIJk (/-1 _ **), / = 1, ... , п, B3) где PJtk С L (Rn) — заданные линейные операторы. Очевидно, что A8) является частным случаем B3), когда Р,,Л = @, ... , 0, е!\ 0, ... , 0), / = 1, ... , /г, k = 0, 1, ... , а B3) сводится к B1), если Pj.k = (е\ • • • , ef> 0, ... , 0), /= 1 nt Л = 0, 1 Выбор вспомогательных точек в B3) зависит только от xk и xk~\ Вообще, когда вспомогательные точки xktI зависят только от р предшествующих итерационных значений xk, ..., л;0, итерация A7) называется р-точечным методом секущих, а если xktI зависит от точек xk, ..., xk~p+\ то она называется последовательным р-то- чечным методом секущих. Итерации A7) с xk'\ заданными форму- формулами A8) или B1), являются примерами последовательных двух- двухточечных методов, а итерация fe = 0, 1, ..., B4) представляет собой последовательный (п + 1)-точечный метод. В качестве примера непоследовательного (п + 1)-точечного метода можно привести метод, когда вспомогательные точки выбираются из множества предшествующих значений итерации по следующему критерию: xk'\ . .., xk'n — это такие из векторов л;0, л:1, .. ., xk~\ для которых ||/У || принимает наименьшие значения. Вообще, (р + 1)-точечные методы можно получать целым мно- множеством различных способов. Например, по аналогии с B3) можно 7*
196 Часть III. Итерационные методы 7.2 ВЗЯТЬ **¦' = х* + JJ Рил (^ - **), /=1 л, B5) где Л\/,* — заданные линейные операторы. В общем случае для применения метода секущих нужно произ- произвести вычисление (п + 1)-го значения отображения F на каждом шаге итерации, а именно в точках xk% xk'\ ..., xk'n. В частности, это справедливо для двухточечного метода A8). Этот объем вы- вычислений сравним с тем, который необходим в методе Ньютона, если для вычисления fL (x) требуется такая же работа, как и для вычисления djft (х). В некоторых случаях, однако, при специальном выборе точек xkti удается уменьшить число вычисляемых значений функции. Например, если использовать точки B1), то xk'n = xk~\ и по- поскольку Fxk~~x известно из предыдущего шага итерации, то нужно провести заново только п вычислений функции. Наиболее эффектив- эффективная экономия имеет место в (п + 1)-точечном методе B4). Посколь- Поскольку значения Fxk~\ ..., Fxk~~n уже вычислены (за исключением первого шага итерационного процесса, когда надо вычислять все Fx°, ..., Fxn), остается определить лишь одно значение функции, а именно Fxk. Кроме того, дополнительной экономии можно добиться также при решении линейной системы B4). Прежде чем показывать это, напомним, что согласно 7.2.7 итерацию B4) можно записать в виде xk+l =xk-HkT7lFxk, B6) где Нк = (х* - хк~\ /-' - /, .... ), | Г, = (F* - Fxk~l, ..., /=¦/-"+" F"-) j ( ' Имеет место следующее утверждение. 7.2.8. Предположим, что матрицы Тр и Гр+ь определенные соотно- соотношениями B7) при k = р и р + \, обе невырождены, и обозначим строки матрицы iy1 через vly ... , vn. Тогда г-1 о B(pp-qp-n)vn где q = FxL+] — Fx1 и матрица В состоит из строк vn, vl,. .., vn~~]. Доказательство. Пусть Р — такая матрица переста- перестановки, что трр = (<г«, <гх Гп*\ Тогда гР+1 = (/,..., /-"+') - трр + (f - <?"-") ит.
7.2 Гл. 7. Общие итерационные методы 197 Как и любая матрица перестановки, матрица Р невырождена, и, следовательно, то же самое справедливо для ГРР. Поэтому по формуле Шермана — Моррисона B.3.14) Г#! = Р~1Т71 - О/а) ^V (qP - <Гп) И' Р~1Т7\ B9) где а = 1 + (е1O Р~1Г^1 (qp — qp~~n) Ф О, ибо по предположению матрица Г^ существует. Но в результате умножения слева на Р~] последняя строка переходит на место первой, а все остальные сдвигаются вниз на одно место. | Хотя (п + 1)-точечный последовательный метод секущих и требует наименьших вычислительных затрат на один шаг итера- итерации, но, как будет показано в гл. И, он оказывается неустойчивым и для него нельзя получить никакого удовлетворительного резуль- результата о сходимости. Напротив, двухточечные методы A8) и B1), как будет показано, сохраняют существенные свойства метода Ньютона; в частности, для них в § 11.2 будут получены удовлет- удовлетворительные теоремы о локальной сходимости. Этот параграф мы закончим описанием одного близкого класса итерационных методов, известных как методы Стеффенсена. Рассмотрим опять основной одномерный метод секущих A), Если взять hk = / (xk), то получится одномерный метод Стеффен- Стеффенсена /(*) '<*>> *-0,1. .... C0) Этот итерационный процесс интересен тем, что при подходящих условиях он обладает квадратичной сходимостью, как и метод Ньютона, хотя при этом и не используется никаких производных от / (см. гл. 11). С помощью тех же приемов, что и для метода секущих, метод C0) естественным образом обобщается на случай п переменных. Подобно тому как двухточечные методы секущих определяются вы- выбором точек B3), так и аналогичный метод Стеффенсена мы можем определить с помощью A7), взяв в качестве вспомогательных точек **•'«** +Р/|ЛДс*. /=1, ..., п. Если, например, Pjtk = @, 0, ..., 0, е\ 0, ..., 0), то мы получаем метод Стеффенсена такого частного вида: /+1 = х* - J (xky Fxkr] Fxk, C1) где матрица J определена формулой A9). Этот метод является пря- прямым аналогом двухточечного метода секущих A9), B0). Подобным же образом соответствующий метод секущих B0), B2) при выборе Pj,k = (е1, ..., е\ 0, ..., 0) дает метод Стеффенсена вида C1), где матрица J определена равенством B2). Более общо, в соответствии
198 Часть III. Итерационные методы 7.2 с B5) мы можем взять /./ = ** + g РШРхкч+\ /=1 л. C2) Рассмотрим такой частный случай точек C2): я*./ = Xk + Fxk4+\ /=1, ..., /г. Тогда придем к методу /-И ==xk_j (д Ял)-1 /г^ /^ = (f д _ ? f ^-я+1)| C3) соответствующему (п + 1)-точечному методу секущих B4). В этом случае матрица J (х, Н) определяется, конечно, формулой A1). Заметим, что в методе Стеффенсена C1), A9) необходимо вы- вычислять F как в точках xk + /7 (xk) e'\ j = 1, .. ., п, так и в точке xk. Таким образом, число вычисляемых значений функции здесь точно такое же, как и в соответствующем методе секущих, опре- определенном формулами A9), B0). С другой стороны, в случае метода C3) необходимо получить значения F (xk + Fxk~j), j = 1, ... ..., ft, что снова требует вычисления п + 1 значений функции. Таким образом, итерация C3) не имеет преимущества метода B4), заклю- заключающегося в том, что на каждом шаге итерации нужно вычислять только одно новое значение отображения F. Другая форма метода Стеффенсена возникает в связи с урав- уравнением неподвижной точки х = Gx. Здесь в качестве вспомога- вспомогательных точек хк'1 могут быть взяты значения итераций хк'1 = = Glxkf i = 1 ft, порожденные оператором G. Это приводит к итерации xk^ =xk-j (^ нкГх [хк - Gxk]y Hk = (Gxk — xk, ... f GV — xk), C4) если в A7) взять Fx = x — Gx. Заметим, что вычисление матрицы J (xky Hk) включает в себя нахождение п векторов F (xk + Н/) — Fxk = F (&xk) — Fxk = Glxk — Gi+lxk — xk + Gx\ i= 1, ... , ft так что всего нужно найти п + 1 значений отображения G. Приме- Применение итерации C4) не ограничивается, конечно, уравнениями типа неподвижной точки, ибо всегда можно произвести обращение Gx = = х — Fx. Заметим также, что в противоположность многошаго- многошаговому методу C3) метод C4) —- одношаговый. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.2.1. Подробное описание одношагового метода секущих и связанных с ним методов более высокого порядка, таких, например, как метод Мюллера, читатель может найти у Островского [1966J и Трауба [1964].
fm2 Гл. 7. Общие итерационные методы 199 ЗС 7.2.2. Идея замены отображения F линейным интерполяционным отображени- отображением с целью обобщить метод секущих на случай многих переменных восходит в дву- двумерном случае к Гауссу (см. Островский [1966], приложение IV). Возрождением этой идеи и ее обобщением на случай п переменных мы обязаны, по-видимому, X. Хайнриху (неопубликованные лекции, около 1955 г.), а первый строгий анализ метода принадлежит Биттнеру [1959]. Независимо Вольф [1959] предложил опи- описанный здесь (п + 1)-точечный метод, в котором опускается вектор, содержащий наибольшее значение функции. Среди более поздних работ по (п + 1)-точечным и аналогичным им методам следует указать работы Торнхейма [1964], Андерсона [1965] (см. ЗС 7.2.10) и Барнза [1965] (см. ЗС 7.3.2). ЗС 7.2.3. Итерация Стеффенсена C4) впервые была рассмотрена Людвигом [1952]. В последнее время с совершенно другой точки зрения ее исследовал Хен- ричи [1964]. Для случая одной переменной метод Стеффенсена может быть полу- получен с помощью 62-процесса Эйткена, который можно обобщить на случай п пере- переменных следующим образом. По заданным п + 2 точкам у0, ..., уп~^{ определим матрицы 1 . . . , */"+' - 2уп /\ . а затем введем «экстраполирующий» вектор х = у° — HS~l(hx—у0). Для урав- уравнения неподвижной точки х = Gx положим у° = xk, у* = Glxk, i = 1, ... , п + 1, и д^ =>х. Используя лемму 7.2.7, легко показать, что, хотя и несколько иное по форме, значение xk ' получается точно такое же, как и в C4). ЗС 7.2.4. Двухточечный метод секущих и соответствующий ему метод Стеффен- Стеффенсена рассматривались многими авторами. Корганов [1961] изучал частный метод, в котором вспомогательные точки xk>i определяются по формуле A8). Маергойз [1967] и Вегг [1966] исследовали соответствующий метод Стеффенсена C1), A9). Другие авторы занимались методом B2), C1), применяя разделенные разности (ЗС 7.2.6). ЗС 7.2.5. При обобщении интерполяционного подхода на случай бесконечной размерности возникают принципиальные трудности, так как мы, по-видимому, должны требовать, чтобы значения линейного интерполирующего отображения совпадали со значениями отображения F на бесконечном множестве точек. Одна из возможностей состоит в предположении, что множество векторов в некотором смысле порождает все пространство и что Lxl = Fx\i= 0, 1, ... . Тогда базисная аппроксимация по методу секущих определяется как решение уравнения Lx = 0. Обобщение такого типа представляется не слишком перспективным, и в литера- литературе нет сведений об исследованиях, предпринятых в этом направлении. Тем не менее обобщение двухточечных методов секущих на бесконечномерный случай было осуществлено двумя близкими способами. Один из таких способов указан в ЗС 7.2.6, а другой, который можно было бы назвать поточечным обоб- обобщением, обсуждается, например, у Коллатца [1964]. Рассмотрим двухточечную краевую задачу u"(t) = f(u(t))t и@) = иA) = 0, *?[<>, 1]. Непосредственное применение «метода Ньютона» дает последовательность линей- линейных краевых задач uk+l = / (Ufd + (и*+1 — Uk) Г (uk), uk+{ @) = uk+l A) = 0. Пусть теперь hk — некоторая функция на отрезке [0, 1]. Определим соответствую- соответствующий дискретный метод Ньютона так:
200 Часть III. Итерационные методы 7.2 Тогда для разности h-R = uk__x — w& мы получим двухточечный метод секущих Соответствующие методы типа Стеффенсена, трактуемые как экспраполяционные формулы, предлагали Беллман, Кагивада и Калаба [1965] и Нобл [1964, стр. 274]. ЗС 7.2.6. Шмидт [1961, 1963а] развил более аксиоматический подход к обобще- обобщению метода секущих с помощью понятия оператора разделенной разности. Вкрат- Вкратце он определил первую разделенную разность оператора F в банаховом прост- пространстве X как отображение J : D X D а X X X -» L (X), удовлетворяющее условиям У(*, h)h=F (х + h) — Fx, V*. x + h?D, C5) C6) где а и b — некоторые постоянные. Аналогично можно определить разделенные разности второго и более высокого порядков. Теперь можно рассмотреть двух- двухточечный метод секущих B0). Легко проверить (У 7.2.9), что оператор У из B2) удовлетворяет алгебраическому условию C5), а оператор У из A9) не удовлетворя- удовлетворяет. В гл. 11 мы проанализируем оба случая A9) и B2) с привлечением понятия «консистентной аппроксимации». Это позволит избежать ограничения C5), но ус- условие C6) по существу остается. (Дальнейшее обсуждение вопроса см. в ЗС 11.2.2.) Шмидт показал, что некоторые естественные аппроксимации производных приводят к операторам разделенных разностей для различных дифференциаль- дифференциальных и интегральных уравнений. Рассмотрим, например, банахово пространство X = С [0, 1] и отображение G : X -» X вида (Gx)(s) = J/(s, f, x(i))dtt s?[0, 1]. Положим F = I — G и введем отображение У : X X X -» L (X) формулой C7) Таким образом, оператор разделенной разности в X определяется естественным способом при помощи разделенных разностей от функции / по ее третьей перемен- переменной. Легко показать, что условие C5) в этом случае выполнено, и Шмидт доказал также, что при подходящих условиях гладкости на / и некоторых ограничениях на D выполняется и C6). Интересно отметить, что соответствующий прием, примененный к дискретному интегральному уравнению, снова приводит к оператору У из B2). А именно, рас- рассмотрим отображение F: Rn -> Rn, определенное как и в § 1.3, формулой fi(x) = xi — 2 Y//(sfi */» */)¦ /= 1, .... я. По аналогии с C7) определим отображение У: Rn X Rn -> L (Rn) соотношением n [У (*, h) w]i - we - 2 (YA-) \f <*> sb xi + hi) ~ / (sb sh xi)\ wh <38) /= 1, . . . . n.
7,2 Гл 7. Общие итерационные методы 201 Поскольку \ У и — где yt i = X[ + hi при / < / и уц = X{ при / > /, то сразу же видно, что опера- оператор J в C8) точно такой же, как и в B2). ЗС 7.2.7. Понятие оператора разделенной разности (см. ЗС 7.2.6) применялось и обобщалось многими авторами. Чень [1964] использовал условия C5) и C6) для анализа соответствующего метода Стеффенсена C1); этот же вопрос рассмат- рассматривал Ульм [1964в]. Однако Ульм требует еще, чтобы разделенная разность была симметричной в том смысле, что J (х, у — х) = J (у, х — у). Это условие симметричности, рассматривавшееся также Сергеевым [1961], оказы- оказывается очень сильным и ему не удовлетворяет ни один из операторов A9), B2), за исключением некоторых частных случаев. Дальнейшее обобщение результатов Ченя и Ульма было дано Коппелем [1966]. Дополнительные замечания, касающие- касающиеся этого вопроса, см. в ЗС 11.2.22. Предлагались и другие определения разделенных разностей, например 1 J (x, к) = I F' (х + th) dt. В работе Ульма [1967] дан обзор различных опреде- о лений и указаны соотношения между ними. ЗС 7.2.8. Во всех приведенных в тексте конкретных вариантах метода секущих вспомогательные точки линейно зависят от xk, ..., хк~~п. Робинсон [1966] пред- предложил двухточечный метод, в котором вспомогательные точки являются нелиней, ными функциями от хк и хк~1. Пусть qi — хк — х\~х, Я\Яп — Яг ~ о. о " • : : • Яп—\Яп —Яп—\ О 0 - q\ - • • • - q2n - gfi и Hk = || xk — xk~l || PD, где диагональная матрица D выбрана так, чтобы эвклидова норма столбцов матрицы PD равнялась 1. Это приводит к следующему правилу выбора вспомогательных точек; хкЛ . Я1Я2 -я] 0 0 ЯгЯз * ' * 0 ' . ЯхЯп ЯчЯп где р1, ..., рп — столбцы матрицы Р. Легко проверить, что матрица PD ортого- ортогональна. Последнее обстоятельство, как мы увидим в гл. 11 (см., в частности, У 11.3.4), часто оказывается полезным. В случае когда некоторые столбцы матрицы Р нулевые, указанный выше алго- алгоритм неприменим. Очевидно, что первый столбец равен нулю тогда и только тог- тогда, когда q1 == 0, и вообще i-й столбец равен нулю тогда и только тогда, когда q]' = 0, j = 1 t, ив этом случае равны нулю также все предшествующие столб- столбцы. Простейшая модификация метода состоит в том, что столбцы матрицы Р при- принимаются равными координатным векторам е1, ..., е{, и получающаяся в результате матрица PD опять ортогональна. Заметим, наконец, что на каждом шаге итерации требуется вычислить Fxk и Fxktlt i = 1, . . . , п — 1, а поскольку хк'п = хк — (xk — xk~l) = л;^1, то для
202 Часть III. Итерационные методы 7.2 i = п никаких вычислений не требуется. Таким образом, здесь требуется находить столько же значений функции, как и в двухточечном методе B0), B2). В связи с этим у этого метода нет никаких преимуществ перед методом B0), B2). ЗС 7.2.9. Для одного важного класса уравнений двухточечные методы B0), A9) и B0), B2) требуют на каждом шаге итерации вычисления лишь двух значе- значений F вместо п или п + 1. Пусть отображение F имеет вид т. е. каждая компонента является суммой п функций одной переменной. Как ука- указывалось в гл. 1, только такие уравнения обычно и возникают при дискретизации дифференциальных и интегральных уравнений. Предположим теперь, что х и у отличаются друг от друга лишь одной компонентой, скажем &-й. Тогда fi (*) — U (У) = fik (*/г) — fik Ш и, в частности, (iy /)-я компонента оператора J из A9) есть просто [/ (х, Н)\ц = A/Л/) [/;/ (х,- + Л/) - fq (*/)]. Следовательно, для нахождения матрицы J (*, h) нужно вычислить по два зна- значения для каждой функции /,.., что по существу эквивалентно вычислению двух значений самого отображения F. Заметим, однако, что аналогичная ситуация имеет место и для метода Ньютона, так как F' (х) = (f.. (*/)). ЗС 7.2.10. Одним из недостатков (п + 1)-точечного последовательного метода секущих, помимо его плохой сходимости, является необходимость запоминания п + 1 точек. Андерсон [1965] предложил модификацию этого метода, в которой запоминаются только m + 1 < л + 1 точек. Пусть Hk = (xk~l — xk, . . . , xk~m — xk), Tk = (Fa^ — Fxk, . . . , Fxk~m — Fxk), и предположим, что ранг матрицы Tfe равен пг. Тогда xk~^{ определяется соотно- соотношением Fxkt C9) Если пг = п и матрицы Г/е и Hk невырождены, то этот метод сводится к (п + 1)- точечному последовательному методу B4). В общем случае, если (ранг Г^) < пг, то ук может быть получено решением уравнения Т^ук = Fxk по методу наимень- наименьших квадратов. Заметим теперь, что если xk~^1 определяется по формуле C9), то так что л^ есть линейная комбинация точек xk, ..., xk~m. Следовательно, все итерации будут линейными комбинациями начальных векторов л:0, ..., л:"~т+1, и на сходимость можно рассчитывать, только если х* лежит в подпространстве, натянутом на эти начальные векторы. Для того чтобы обойти это затруднение, Андерсон предложил добавлять некоторую линейную комбинацию векторов Fxii например дИ-i = xk_Hkyk + p [Fxk _ Tkyk]y * = о, I, . . . , D0) где ф опять определяется по формуле C9) и C ф 0. Если пг = /г, то метод D0) тоже сводится к (п + 1)-точечному „методу секущих, поскольку Fxk = Г/ггД Для повышения устойчивости итерационного процесса можно также исполь- использовать итерацию D0) при пг > /г.
7.2 Гл. 7. Общие итерационные методы 203 До настоящего времени ни один из упомянутцх здесь методов все еще доско- досконально не исследован, хотя в работе Войгта [1969] получены результаты, которые показывают, что скорость сходимости итерационного процесса D0) не выше сверх- сверхлинейной, если только на него не наложены более сильные условия. ЗС 7.2.11. Одномерный метод ложного положения B) тоже допускает различные обобщения на случай п переменных. В соответствии с B0), взяв У, даваемое фор- формулой A9) или B0), можно построить итерацию ?+x=:xk — J(xk,x — xk)-xFxk% Л = 0,1, ..., D1) где х фиксировано. Аналогичным образом, взяв общий метод секущих A7), мы получим различные методы типа метода ложного положения, если зафиксируем одну или более вспомогательных точек xktl. УПРАЖНЕНИЯ У 7.2.1. Пусть F: Rn -> Rn — аффинное отображение вида Fx = Ах — Ь, где А ? ?L(Rn) и b?Rn. Показать, что если J задано формулами A1) или A6), то J(x, H) = A для всех *? R'1. У 7.2.2. Пусть задано отображение F: Rn -> Rn и точки х°, ..., х!г находятся в общем положении. Показать, что линейное интерполяционное отображение мож- п но записать в форме Лагранжа Lx = 2 Li(x)Fxl, где каждое L; — аффинный t=0 функционал, определяемый соотношениями Ux = р, + b]x, LiXi =* 6V> U 1 = 0, ...,/!. У 7.2.3. Пусть заданы функционалы /: Rn -> R1 и gf. Rn -> Rl, i = 0, 1, ..., л, и точки х°, ..., хп в Rn. Показать, что существует такой единственный функ- п ционал g вида #(*) = 2 а*&'М» что g(xi) = f(xi)> ^' = 0, ..., п, тогда и 1=0 только тогда, когда (л + 1) X (л + 1)-матрица (gi(xJ)) невырождена. У 7.2.4. Пусть отображение F: R2 -> R2 определено равенствами /j (х) = хл + х^ f2(x) = x2{ — x2. Показать, что точки х° = @, 2)т, х1 = @, 1)т, х2 = @, — 1)т не находятся в общем положении, а точки Z7*'", i = 0, 1, 2, находятся. У 7.2.5. Пусть отображение F: R2 -> R2 определено равенствами /1 (а:) = *р /2 (х) = х\ — A/2) хг. Показать, что точки х° = @, — 1)т, хх = (— 1, 2)т, ^2 = =»A, 2)т находятся в общем положении, а точки F^1', / = 0, 1, 2,— нет. У 7.2.6. Пусть х° = A, 0)т, д:1 = A, 1)т, х2 = A, — 1)т. Показать, что х°, ^, а:2 порождают R2, но не находятся в общем положении. У 7.2.7. Пусть задано отображение F: Rn -> Rn. Предположим, что точки я0, ... ..., Xй не находятся в общем положении, а точки Fx°, ..., Fxn находятся. Показать что точка Xs из A3) лежит в аффинном подпространстве, порожденном п п векторами ^Zix1, ^ 2i = l. Показать также, что не существует такого линей- линейно *=о ного интерполяционного отображения Lx = а -|- Ах, А ? L (Rn), a ? Rn, для которого Lx1 = Fx\ t = 0, ..., п.
204 Часть III. Итерационные методы 7.3 У 7.2.8. Сформулировать все методы этого параграфа для уравнения неподвижной точки х = Gx. У 7.2.9. Показать, что оператор У, определенный формулой B2), удовлетворяет условию C5), в то время как оператор У, задаваемый формулой A9), вообще говоря, ему не удовлетворяет. 7.3. МОДИФИЦИРОВАННЫЕ МЕТОДЫ Рассмотрим снова (п + 1)-точечный последовательный метод секущих *Л+1 = **-ЛГ1/:х*> й = 0, 1, ..., О) где Ак = iy/Г1, Hk = (pk~\ ... , p*-\ Tk = fo*-1, ... , <^Л Л = 0, 1 B) , :^1, . . ., x~n — заданные начальные точки. В п.7.2.8 было по- показано, что матрица Г*+1 может быть получена из матрицы Г^ сложением некоторой матрицы ранга один с матрицей, образован- образованной перестановкой строк матрицы IT1. Заметим, далее, что ма- матрицы Ak и Ак+\ отличаются друг от друга также на матрицу еди- единичного ранга. 7.3.1. Пусть два множества точек xky ... , /-" и xk+l, ... , /~/Ж находятся в общем положении, а матрицы Ак и Ak+\ определены формулами B) и C). Если Akpk = — Fxky т. е. если имеет место A), то ^^^^И1, D) где (vk)T — первая строка матрицы #?+1. Доказательство. Из соотношений Ak+iHk+c = Tk+t, i = = 0, 1, непосредственно видно, что Akpj = q\ /' = *—1, ,,. , A — nt так что (ЛЛ+1 - Л,) р1 = 0, / = ft—1, ,.., ft —л + 1, E) а (Лл+1 - Л,) pk = qk- Akpk = qk + Fxk = f/+I. F) Далее, из 7.2.2 следует, что векторы pkf ... , р^""" линейно неза- независимы и, значит, соотношения E) и F) однозначно определяют матрицы Ak+\ — Ак. Действительно, E) показывает, что ранг матри- матрицы Лл+i — Ak не превосходит единицы и потому Ак+\ — Ah == = uk (ик)Ту где uk, vk g R'\ Но тогда в силу того же соотношения E)
7.3 Гл. 7. Общие итерационные методы 205 вектор vk должен быть ортогонален к векторам р , . .. , р /h~ и, следовательно, строка (vk)T должна быть пропорциональна первой строке матрицы /У*+ь Если мы возьмем в качестве (vk)T как раз пер- первую строку, то (i>fe)T/?fe= 1, и поэтому из соотношения F) вытека- вытекает, что мЛ = /7/+1.| Этот результат не следует рассматривать как алгоритм мо- модификации Akt гораздо эффективнее непосредственная модифика- модификация матрицы Г7*1, указанная в 7.2.8. Скорее, теорема 7.3.1 под- подсказывает формулировку других итерационных методов вида A), в которых требуется, чтобы матрица Ak+i получалась из Ak при- прибавлением некоторой матрицы ранга один. Поскольку любая ма- матрица единичного ранга может быть записана в виде uvT, где и, v ? ? Rn, это требование означает, что Ak+l = Ak + uk Ит, и*, о* ? Л", k = 0, 1, ... . G) Одно из преимуществ определения матрицы Ak с помощью со- соотношения G) состоит в том, что А^1\ легко получается из Aj\ Действительно, если 1+ИтЛЛ*=^0, (8) то, согласно формуле Шермана — Моррисона, (vk)T (9) В последующем мы будем требовать, чтобы все матрицы Ао и Ak, полученные с помощью G), были невырождены. Из 2.3.11 следует, что если матрица AT1 существует, то условие (8) является также необходимым условием существования матрицы Аь+ь Таким об- образом условие (8) дает первое ограничение на ик и vk. Это условие, однако, довольно слабое, и его выполнения можно добиться при заданных направлениях векторов ик и vk простым изменением их длины. Итак, можно построить много различных итерационных методов, не накладывая на векторы ик и vk никаких дальнейших ограничений. Один из способов сделать выбор векторов ик и vk однозначным — потребовать выполнения условий F) и E) метода секущих. В тер- терминах ик и vk эти условия принимают вид и*(о*I pk = F^\ ft = 0,1, .-., A0) (у*)тр' = 0, j = k— 1, ... , k — n + 1, k = n— 1, n, ... , A1) где опять py = У+1 - V = - ЛГ'/V, / = 0, 1 A2)
206 Часть III. Итерационные методы 7.3 Так как в A1) речь идет только о k > п — 1, то мы наложим еще условие (и*)У = 0, /«0, ..., й-1, k<n-l. A3) Это последнее условие дает некоторую свободу в выборе векторов v°, ..., vn~~2\ в частности, от vk требуется лишь ортогональность к k векторам р°, ..., pk"\ Однако всегда, когда векторы р', j = k — —- 1, ..., k — n, &>п, линейно независимы, матрица ЛЛ вполне определена. 7.3.2. Предположим, что матрицы Ло, .. ., А,п невырождены при некотором m ;> п — 1 и удовлетворяют условиям G), A0), A1) и A3), а векторы р°, ..., рт удовлетворяют условию A2) и ли- линейно независимы. Тогда Ат+1 = (<Л ...,?—н) (Л ... , рт~п+\ A4) где ql = Fxi+l — Fxl. Доказательство. Из G), A0) и A2) следует, что Aj+ip* = А//?7' + и1' (vf р! = - Fx1' + Fxj+l = </, 1 = 0 /n, так что, согласно A1), 9У, / = m — 1, ... , m + п + 1. Следовательно, m+i (/?,..., р п ) = (<7 , ... , q ^ ), и так как рт, ..., рт+/|~1 линейно независимы, то A4) выполнено. | Этот результат показывает, что алгоритм, построенный по A), G), A0), A1) и A3), должен не более чем за п шагов сводиться к (п + 1)-точечному последовательному методу секущих, если только векторы р°, ..., рп~х линейно независимы. Таким образом, для получения различных методов необходимо отказаться от некоторых из условий A0), A1). Одна из возможностей состоит в том, чтобы потребовать ортогональности векторов vk только к / предшествую- предшествующим векторам р7, другими словами, заменить условие A1) на условие (^)V = 0, j = k— I, ... , Jfe-/, /</i —1. A5) Рассмотрим предельный случай / = 0. В этом случае остается лишь условие A0) вместе с требованием невырожденности (8). Условие A0) мы можем записать следующим образом: (vk)TpkФ0, ик = Fxk+i/(vk)Tp\ k = 0, 1, ,.. , A6;
7.3 Гл. 7. Общие итерационные методы 207 а условие (8), поскольку рк + A^lFxk+l = A^lqk} принимает вид @*)ТЛ]ГУ=^О, fe = 0, 1, ... . A7) Если выполнены одновременно условия A6) и A7), то (9) дает ^Д-, 6 = 0, 1, ... . A8) Заметим, что из A6) и A7) вытекает, что вектор vk не ортогонален ни к pk, ни к Л/7У и, в частности, что ни рк, ни Л^У не равны нулю. Если рк = 0, то A^lFxk = 0 и/ уже являются решением уравнения Fx = 0, так что этот случай можно не рассматривать. Предположим теперь, что Л?~У=^0. Тогда, взяв vk = akpk-ATxq\ k = 0, 1, .... A9) где аА ^= 0, если (pk)JA?lqk = 0, и ссА # (р*)т Al\kl{pk)Tp\ ak ф №Y)T (А?</I(рУ Afqk в противном случае, убедимся, что условия A6) и A7) выполнены. Следовательно, A9) вместе с условием uk = Fxh+l/(vk)T pky k = 0, 1, ... , B0) гарантирует, что последовательность {Ak}, определенная соотно- соотношением G), состоит из невырожденных матриц. Мы могли бы, конечно, рассмотреть многие другие условия на ик и vk. Вместо этого мы будем продолжать требовать, чтобы выполнялось F), но чтобы ранг разности Ак+\ — Ак был теперь равен /п. Поскольку любую п X /г-матрицу ранга m можно пред- представить в виде UV1\ где U и V суть п X /n-матрицы ранга пг, это означает, что Дн-1 = Ak + UkVl Uky Vk € L (Rm, Rn), (ранг Uk) = = (ранг Vk) = m B1) = Fxk+\ k = 0, 1, ... . B2) Геометрически требование B1) означает, конечно, что Ak+\x = = Акх для всех х из некоторого (/г — пг)-мерного подпро- подпространства пространства Rnt а именно нуль-пространства матрицы UkVl. Следовательно, требование B1) позволяет оператору Ak изменяться на каждом шаге итерации лишь на подпространстве размерности т. Если матрица Л^+i задана формулой B1), то формула Шерма- на — Моррисона — Вудбэри B.3.13) показывает, что Л^1 = Л/71 - AkXUk (I + VlAir%rl V\A7\ k - 0, 1, ,.. э B3)
208 Часть 111. Итерационные методы 7.3 при условии, что существуют (I+VlAj-lUk)~\ 6 = 0, 1, ... . B4) На самом деле условие B4) является также необходимым для того, чтобы матрица Лл+i существовала, если существует Aj\ так что мы будем также требовать, чтобы выполнялось B4). Очевидно, (8) и (9) являются частными случаями B4) и B3) при m = 1. Формула модификации B3) далеко не так удобна, как (9), даже при пг = 2. Однако, поскольку матрицы Yk = - AZxUk (I + VTkAjrlUhrl9 Wk = (V)T1/, являются, очевидно, /г X m-матрицами ранга m, то из B3) следу- следует, что Bk+{ = Bk + YkWl 6 = 0, 1, ..., B5) где мы положили Bk = V, 6 = 0, 1, .... B6) Таким образом, если разность Ak+\ — Ak имеет ранг т, то раз- разность Bk+\ — В/г также имеет ранг пг. Так как именно матрицы Bk представляют для нас основной интерес, то удобнее работать не- непосредственно с ними, а не с матрицами Ак и считать, что Bk из- изменяются в соответствии с формулой B5), где Yki Wk суть п X X m-матрицы ранга пг. Конечно, мы потребуем также, чтобы все Bk были невырожденными, так что условие B4) принимает вид существуют (I + WlAkYk)~\ 6-0, 1, .... B7) Наконец, поскольку pk = A^xFxk, условию B2) можно придать вид Ak+lpk = Akpk + Fxk+l = ?*. Последнее можно записать с помощью матриц Bk так: Bk+lqk^p\ fe = 0, 1, ..., B8) или с учетом равенств pk = — BkFxk = — Bk [Fxk+{ — qk\ в эквива- эквивалентной форме YkWlqk=-BkFxkJrX. B9) Заметим, что мы работаем с матрицами Bk лишь из соображений удобства и модификации Ykw\ можно преобразовать по формуле B.3.13) в соответствующие модификации UkVl для Ak. В оставшейся части этого параграфа мы будем иметь дело только со случаем пг = 2; следовательно, Yk = (yU\ if\ Wk = (whk, w2\ a/-*, ylJt ? Rr\ « = 1,2, C0) а условие B9) примет вид 4' * = 0, 1, ... , C1)
Гл. 7. Общие итерационные методы 209 где Ya = (o/'*)V, / = 1,2. Далее, — BkFxk^x = pk — Bkqk, и простой способ удовлетворить ус- условию C1) —это взять /=1,2; vU = A/Yu) Pk\ tk = ~ A/Y2.*) #*<Л C2) так что вш = Bk +и )~'. —"*y»T I • C3) По-прежнему должно выполняться требование невырожден- невырожденности B7); простые вычисления показывают, что B7) имеет место тогда и только тогда, когда 0y k = 0t I C4) Следовательно, алгоритм C3) дает последовательность невырожден- невырожденных матриц Bk, разность которых удовлетворяет соотношению (В/г+i — — Bk) qk = — BkFxk+\ если только векторы wl*k удовлетворяют условию (©'•*) V ?=0, ?=1,2; (w2'k)T Fx*^0, k = 0, 1, ... . C5) Заметим, что нет необходимости требовать линейной незави- независимости векторов wlk и w2tk. Действительно, если wx'k = w2yk — = wk9 то соотношения C3) и C5) сводятся к соотношениям * = 0, 1 C6) ибо р* — Bkqk — — BkFxk+\ Далее, если положить (гг>*)т = (vk)T Вк, то C6) примет вид ft = 0, 1, ... , C7) ибо рЛ = —Л^/7^*, и мы приходим просто к методу A6) — A8). Наконец, рассмотрим другой специальный выбор векторов w]'k и w2tk в C3), а именно wl'k=p\ w2'k = B[q\ ft = 0, 1, ...; C8) он приводит к соотношению
210 Часть III. Итерационные методы 7.3 Это соотношение является специализацией для случая градиент- градиентных уравнений метода Давидона — Флетчера — Пауэлла, кото- который будет подробно рассмотрен в § 8.2. В частности, в связи с C9) мы потребуем, чтобы (р*)У ф 0, (qk)TBkqk ф 0, (qk)TBkFxk фО, k = 0, 1, ... ; D0) как будет показано в п. 8.2.4, условиям D0) можно удовлетворить при некоторых естественных ограничениях на F. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.3.1. Методы типа рассмотренных в этом параграфе были предложены в по- последнее время рядом авторов под названием «квазиныотоновых». Первым среди (п + 1)-точечных последовательных методов секущих был метод Давидона — Флетчера — Пауэлла (Давидон [1959], Флетчер и Пауэлл [1963]), в котором из- изменение матрицы Afc определяется соотношением C9). Этот метод будет подроб- подробно рассмотрен в § 8.2. ЗС 7.3.2. Метод секущих, определенный соотношениями A), G), A0), (И) и A3), был предложен Барнзом [1965]. Однако, как показывает (принадлежащая Барнзу) теорема 7.3.2, этот метод сводится к (п + 1)-точечному последовательному методу секущих через самое большее п шагов при условии, что векторы х!'~^1 — xJ\ j = = 0, ..., п — 1, остаются линейно независимыми, так что единственное различие состоит в том, что начальную матрицу Ло можно выбирать произвольно. ЗС 7.3.3. Бройден [1965] рассмотрел частный случай метода A6), когда вектор г/2 принимается равным рк. Однако при таком выборе вектора vk может не выпол- выполняться критерий невырожденности A7), который в данном случае сводится к ус- условию (pkIA'^xqk ^0, k = 0, 1, ... . То же самое справедливо, конечно, и для метода C6), если взять там wk — qk. ЗС 7.3.4. Общий алгоритм C3) изменения матрицы В^ с помощью матрицы ранга 2 был предложен независимо Бройденом [1967] и Зелезником [1968] как попытка обобщения метода Давидона — Флетчера — Пауэлла.. ЗС 7.3.5. Вместо специального выбора C8), который приводит к формуле C9), можно было бы брать в качестве w{'k и w2>k линейные комбинации векторов рк и Bjqk, т. е. брать а/'* = а. kpk + §itkBTkq\ i = 1, 2, k = 0, 1, . . . . Конкретные методы, основанные на таком выборе, пока еще не рассматривались, ЗС 7.3.6. Все методы этого параграфа можно, конечно, записать в виде xk~^1 = == xk—со/еЛ^/7^, где параметр щ выбирается из условия IIFjc^1 || < || Fxk ||« В таком виде они обычно и приводятся в литературе. ЗС 7.3.7. Другая мотивировка условия 4+1 С**4 — **) = FxkJrX — Fxk D 0 возникает в связи с рассмотрением требования G.2.35) для оператора разделен- разделенной разности, обсуждавшегося в ЗС 7.2.6. В этом случае Fy — Fx = J (x, у — — Х)(У —х) Для всех *» У И3 некоторой области, и при Л^ =J(xk, xk—^1) условие D1) выполняется автоматически.
7.4 Гл. 7. Общие итерационные методы 211 ЗС 7.3.8. Заметим, что требование ортогональности (Ак^{ — Ak) р1' = О, j = k — — 1, ... , k — /, в совокупности с условием Ак^рк = qk приводит к тому, что Ak , {pl = q\ i = k, ... , k — /. Возможно, что лучше с самого начала исполь- использовать именно это предположение как более естественное. ЗС 7.3.9. Флетчер [1968] исследовал метод, основанный на итерации xk+l = **_/?' (**)+ Fxk, k = 0, 1, .... Через А~^ здесь обозначается обобщенная обратная матрица (см. ЗС 8.5.4), a F есть отображение Rn -> Rm. Итерация, предложенная Флетчером, имеет вид vfc+l _ у/г A~^~Fxk k — 0 1 где Л^" модифицируется по формуле типа C3). УПРАЖНЕНИЯ У 7.3.1. Предположим, что матрицы А^ и Ак^х определены соотношениями B) и C) и все матрицы #?, Hk^_[y Г/г, Г^ невырождены. Показать, что (vk)T A^[!(\ + (vkf pf% где в качестве (vkL взята первая строка матрицы H^v а рк = У 7.3.2. Провести выкладки, приводящие к C4), т. е. показать, что для векторов ух%к и у2>к, заданных соотношениями C2), матрица невырождена тогда и только тогда, когда (w2>k)TFxk Ф 0. 7.4. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ МЕТОДЫ Методы Ньютона и секущих, рассмотренные в предыдущих параграфах, представляют собой обобщения одномерных итера- итерационных методов. В этом параграфе мы рассмотрим другой класс процессов, ведущий происхождение от итерационных методов, используемых для решения систем линейных уравнений. Интуи- Интуитивно можно представлять обобщенный линейный метод как ме- метод, который в применении к линейной системе Ах = b сводится к подходящей для этой системы итерации. Метод Ньютона, напри- например, не принадлежит к этой категории, поскольку итерационный процесс принимает для этой системы вид xk+l = хк — A~l (Axk — — Ь) = А~{Ь, что никак нельзя рассматривать как подходящую итерацию. Другой характерной чертой этих обобщенных линей- линейных методов, как мы увидим в гл. 11, является то, что все они об- обладают лишь линейной скоростью сходимости, за исключением некоторых особых случаев. Начнем с анализа обобщения одного из основных итерационных методов решения системы линейных уравнений Ах = Ь. Если
212 Часть 111. Итерационные методы 7.4 предположить, что все диагональные элементы аи матрицы отличны от нуля, то метод Гаусса — Зейделя (называемый иногда методом последовательных смещений) для системы Ах — b формулируется' следующим образом. Допустим, что уже определены k-я итерация xk = (jet, ..., Xnf и первые / — 1 компонент xk\+\ ..., xkit\ (k + + 1)-й итерации xk+x. Тогда для определения следующей компонен- компоненты #?+1 решается линейное уравнение с одним неизвестным ^аG4+Чад+ i а<7*/=^ A) и его решение берется в качестве х\' *. Для того чтобы записать метод Гаусса — Зейделя в компакт- компактной форме, представим матрицу А в виде A = D — L — V, B) гдеО, L, [/ — соответственно диагональная, строго нижняя тре- треугольная и строго верхняя треугольная матрицы (т. е. диагональ- диагональные элементы матриц L и U равны нулю). Тогда из предположения, что диагональные элементы матрицы А отличны от нуля, следует существование обратной матрицы (D— L)~\ и легко показать, что метод Гаусса — Зейделя можно записать так: xk+l = (D — L)-1 [Uxk + b] = xk — (D — L)-1 (Axk - b), C) k = 0t 1, .... Во многих задачах, для которых потенциально полезен метод Гаусса — Зейделя, удобна следующая важная модификация этого метода. Вместо того чтобы в качестве х*+{ брать решение xi урав- уравнения A), положим х*+х = ^ + @^ —Д D) где со — релаксационный параметр. Если подставить решение xt уравнения A) в D), то после группировки слагаемых мы по- получим a(ix^] + со 2 я;/*/+1 = A —со) atix\ — со jg ацх) + ю&„ и с помощью B) нашу итерацию можно записать в виде xk+l = (D — coL)-1 [(I — со) D + (oU] xk + со (D — (oL)"]b = - xk — co(D — (oL)~l(Axk — b), Л = 0, 1, ... . E) Очевидно, что в случае со = 1 итерация E) сводится к методу Гаус- Гаусса — Зейделя. Итерацию E) при произвольных значениях со мы будем называть методом последовательностей верхней релаксации (сокращенно методом ПВР)У хотя в литературе этот термин иногда используют лишь в случае со > 1.
7.4 Гл. 7. Общие итерационные методы 213 При решении систем нелинейных уравнений метод ПВР можно использовать как средство для нахождения приближенных решений линейных систем, возникающих при реализации метода Ньютона. В этом случае мы имеем дело с составным методом Ньютона — ПВР, в котором в качестве первичного используется метод Нью- Ньютона, а в качестве вторичного — метод ПВР. Для того чтобы по- получить конкретное представление об этой итерации, мы вначале получим выражение для (k -\- 1)-й итерации хк+\ даваемой фор- формулой E), через начальное приближение х°. Введем обозначения В = со" (D — o)L), С = or1 [A — о) D + cot/], Н = В~1С. Тогда итерацию E) можно записать в виде /+1 = Hxk + B~xb == #*+V + (Hk + tf*-1 +...+/) B~lb = = x° + {Hk+X — I)x° + (Hk+ ... + /) B~x (Ax» — Ax" + b)t F) Так как B~lA =B"'(J5-C) = /-fln то x*+1 =x° — <D(tf* + ••¦ 4-/) (D — oL)-1 (Лл?-_ 6). G) Приступим теперь к описанию метода Ньютона — ПВР для отображения F: D a Rn -> #". Предположим, что значение xk уже определено. Тогда следующая итерация Ньютона находится как решение линейной системы Fr (xk)x = F{xk)xk — Fx\ (8) и мы хотим аппроксимировать эту ньютонову итерацию с помощью метода ПВР. Поэтому мы представляем матрицу Якоби в виде Dk-Lh-Uk% (9) где снова Db Lk и Uk — соответственно диагональная, строго нижняя и строго верхняя треугольная матрицы. Далее мы пред- предполагаем, что матрица Dk невырождена, и вводим матрицу Hk - [Dk - щ1кГХ [A - со,) Dk + cokUk]} A0) где (ok — некоторый релаксационный параметр. Теперь применяем метод ПВР к (8). Обозначим ПВР-итерации через xkttn. Замечая, что теперь b = F' (xk) хк — Fxk и А = F' (xk), имеем, согласно G), для m = 1, 2, ... — xk) + Fxk]. (И) Вообще наиболее подходящим начальным приближением хк>0 в мето- методе ПВР будет хк. Следовательно, если принять xkt0 = xk и />m* = = хк+\ где /пЛ — число ПВР-итераций на k-м шаге, то A1) сводится
214 Часть III. Итерационные методы 7.4 к итерации /+1 1 l A2) которую мы назовем обобщенным методом Ньютона — ПВР. Если ПВР-итерация A1) заканчивается по некоторому крите- критерию сходимости, такому, например, как || хк'т — х'т~х || < гк, то число вторичных итераций заранее не известно. С другой сто- стороны, можно выбирать mk перед началом итерационного процесса. В простейшем случае тк = 1, k = О, 1, ..., и A2) сводится к од- пошаговому методу Ньютона — ПВР xk+l ,= xk - со, (Dk - щЬкГх Fx\ k = О, 1, ... , A3) совпадающему с A5) при Fx = Ах — Ь. Более общим образом, мы можем положить mk = m, k = 0, 1, ..., и получить т-шаговый метод Ньютона — ПВР или заранее выбрать произвольную по- последовательность Ш/j, например взять mk = k -|- 1, k = О, 1, ... . Метод Ньютона — ПВР — это лишь один из примеров приме- применения общего принципа комбинирования нелинейных итерацион- итерационных методов с линейными для получения составных методов. Ко- Конечно, существует много других итерационных методов решения линейных уравнений и, по крайней мере в принципе, большинство из этих методов можно комбинировать с методом Ньютона так же, как мы это сделали с методом ПВР. С другой стороны, сам метод Ньютона как первичный может быть заменен, например, одним из методов секущих, описанных в предыдущих параграфах. Вместо того чтобы описывать многие конкретные методы этого типа, мы рассмотрим общий принцип построения составных методов и про- проиллюстрируем его несколькими примерами. Одним из основных принципов, используемых при построении и анализе итерационных методов решения линейных систем, явля- является принцип расщепления. Он заключается в том, что если Ах = = b — линейная система, то матрицу А разлагают, или расщеп- расщепляют на две: А = В — С, A4) причем матрица В — невырожденная и система Вх = d «легко» решается. Итерационный метод определяется в этом случае так: /+1 = B~lCxk + B~lb = xk- B~] (Axk — Ь), k = 0, 1, ... . A5) Например, метод E) определяется с помощью расщепления В = со (D — coL), С = со" [A — со) D + ©[/], A6) где опять A =D — L — U представляет собой разложение матри- матрицы А на диагональную, строго нижнюю треугольную и строго верхнюю треугольную части. Аналогично метод Якоби (называ-
7.4 Гл. 7. Общие итерационные методы 215 емый иногда методом одновременных смещений) определяется расщеплением B=D,C = L + f/. Этим способом можно получить также другой важный класс линейных итерационных методов — методы переменных направ- направлений. Например, метод Писмэна — Рэкфорда имеет вид = (F + а/)-1 (а/ - Я) /+A/2) + (V + al)~lb J Здесь А = Я + V, а — параметр и предполагается, что линейные системы (Я -f al)x = d и A/ + a/)x = d «легко» решаются. Во многих интересных случаях матрицы Я и У либо треугольны, либо эквивалентны треугольным, и это наше предположение выполня- выполняется. Итерацию A8) можно также при а Ф 0 записать в виде A5) с В = Bа) (Я + а/) (V + а/), С = Bа)-1 (Я — а/) (V — а/). Действительно, В — С = Bа)" (HV + аН + aV + а2/) — Bа) {HV — аЯ — аУ + + а2/) = Я + 1/ = Л, A9) и поскольку матрицы (Я + а/)" и Я — а/ перестановочны, то мы имеем xk+l = (V + а/Г1 (Я - а/) (Я + a/) (V — a/) *fe + + (V + a/) [(aI-H)(H + a/) + /]6 - = В^Сл* + (V + a/)" [a/ — Я + a/ + H] (Я + a/)" 6 = = ** — 2a [V + a/] [Я + a/] (Ля* — 6), ft = 0, 1, .. . . B0) Для любого линейного итерационного метода A5) и любого нелинейного итерационного метода, который можно записать в виде xk+l = xk — A^Fxky B1) мы можем построить составной нелинейно-линейный метод, анало- аналогичный методу Ньютона — ПВР A2), расщепляя матрицу Ak в соответствии с линейным методом Ak = Bk-Ck. B2) Вывод метода Ньютона — ПВР переносится с очевидными видо- видоизменениями на этот более общий случай, и при условии, что матрицы Bk невырождены, мы получаем такое явное представление составного метода: B3)
216 Часть III. Итерационные методы 7.4 Эти соотношения являются обобщением соотношений A2). Итерация B3) есть составной процесс, в котором на k-u шаге, начиная с xk, делают mk шагов вторичной итерации для получения приближенного решения линейной системы Акх = Akxk — Fxk, определяемой первич- первичной итерацией. Метод Ньютона — ПВР — частный случай итерацион- итерационного процесса B3), когда Ak = F'(xk) и Bk = щ1 (Dk — (okLk). В качестве других частных случаев общего процесса B3) упомянем m-шаговый метод Ньютона — Якоби * = 0, 1, .... B4) где равенство Fr (xk) = Dk — Ck представляет собой разложение матрицы F' (xk) на диагональную и внедиагональную части и Hk = = D~kXCk> и одношаговый метод Ньютона — Писмэна — Рэкфорда xk+l = xk — 2а [Vk + a/] "' [Hk + а/] Fxk, k = О, 1, ... , B5) в котором F' (xk) = Hk + Vk. Последняя итерация получается непо- непосредственно из B0), если заметить, что Ах — b = F' (xk) x — — F' (xk) xk + Fxk = 0 есть как раз та линейная система, которую надо решать, и, таким образом, Axk — Ь — Fxk. С помощью B0) мож- можно записать в форме B3) также обобщенные методы Ньютона — Писмэна — Рэкфорда, в которых, начиная с xk> делают mk шагов по методу Писмэна — Рэкфорда (см. У 7.4.6). В роли первичного итерационного процесса B1) может высту- выступать не только метод Ньютона, но также, например, любой из методов секущих или методов Стеффенсена, рассмотренных в § 7.2. Следовательно, в качестве частных случаев процесса B3) можно рассмотреть методы секущих — ПВР, Стеффенсена — Писмэна — Рэкфорда и т. д. Формулировки некоторых из этих методов пред- представлены в У 7.4.4. До сих пор линейные итерационные методы фигурировали лишь в их традиционной роли методов решения линейных систем. Но эти методы допускают непосредственное обобщение на случай нелинейных уравнений. Если рассматривать итерационный метод Гаусса — Зейделя A) как метод, в котором х*+] получается как решение /-го уравнения системы при фиксированных остальных п — 1 неизвестных, то точно такой же подход можно применить к нелинейным уравне- уравнениям. Иными словами, если отображение F: D cz Rn -> Rn имеет компоненты flf ..., /„, то основной шаг нелинейного метода Гаусса — Зейделя состоит по аналогии с A) в решении /-го уравнения *„ х?+1, ... , 4 = 0 B6) относительно xl9 после чего принимается xf^ = xt. Таким образом, для вычисления **+| по значению xk мы должны последовательно решить п нелинейных уравнений B6) с одной неизвестной для i =
7.4 Гл. 7. Общие итерационные методы 217 = 1, ... , п. Более общим образом, полагая *?+1 = х\ + u>k (х{ — — х?), мы получим нелинейный метод ПВР. Точно таким же способом можно обобщить и метод Якоби. Записанная покомпонентно, итерация A7) принимает вид х-+] = (\1аи) 2 ац$ + К i = 1, • • • , n9 k = 0, 1, ...; это эквивалентно решению г-го уравнения относительно xi при остальных неизвестных #/, равных х). Следовательно, на k-м шаге нелинейной итерации Якоби нужно решить относительно xt урав- уравнения ft (xku ... , Xi-u */. xU-u ...,4 = 0, i = 1, ... , /г, B7) и взять а:? = л:,, 1=1, ... , п. Приведенный выше алгоритм имеет смысл, конечно, только тогда, когда уравнения B6) и B7) обладают единственными реше- решениями в некоторой интересующей нас области. В последующих гла- главах мы рассмотрим различные условия на отображение Т7, анало- аналогичные требованию аи ?=0, i = 1, ..., п, в линейном случае, ко- которые гарантируют существование и единственность решения. Однако даже если эти уравнения и имеют единственные решения, то для них, вообще говоря, нет явного представления или даже ко- конечного алгоритма их нахождения. В этом случае нужно применить какой-либо одномерный итерационный метод. Если мы исполь- используем, например, одномерный метод Ньютона для определения при- приближенного решения уравнения B6), то метод Ньютона играет роль вторичной итерации, а метод ПВР — первичной, так что по сравнению с рассмотренными ранее роли этих итераций ме- меняются местами. В принципе для общего метода ПВР — Ньютона, в котором де- делается nik,i ньютоновых шагов для определения приближенного решения уравнения B6), после чего в качестве х^] берется х1} -\- + о) (х,: — Xi), мы можем написать явные формулы, аналогич- аналогичные A2). Однако, эти формулы получаются довольно громоздкими (см. У 7.4.2) и мы ограничим наше внимание случаем одношагоеого метода ПВР — Ньютона (сводящегося при со = 1 к методу Гаус- Гаусса — Зейделя — Ньютона), для которого т*,/ = 1, i = 1, ...,я, k = 0, 1, ..., и шаг по Ньютону начинается каждый раз с xl В этом случае, как нетрудно проверить (см. У 7.4.3), явный вид итерационного процесса таков: х*+] =xkL- со/, (**¦')/<?,/, (xk\ i = 1, ... , /г, k - 0, 1, ... , B8) где X = (Xi
218 Часть III. Итерационные методы 7.4 Аналогичным образом одношаговый метод Якоби — Ньютона за- задается соотношениями , Л = 0, 1 i = 1, ... , /i, C0) и идентичен (У 7.4.5) одношаговому методу Ньютона — Якоби B4). Заметим, что для Fx = Ах — Ь итерации B8) и C0) сводятся к итерациям ПВР и Якоби соответственно (У 7.4.2). В итерациях B8) и C0) мы можем, конечно, заменить метод Ньютона на другие одномерные методы. Например, в соответ- соответствии с B8), мы можем получить одношаговый метод ПВР — секу- секущих или одношаговый метод ПВР — Стеффенсена l | | l If* (y ' I — f' (у ' - f • ( Y ' I P^\ I U t /v~j~l к ill \ I It \ ~^ /t \ / ^ / I Г / f2,I\ /OO\ Xi =Xi—(x>^ j-^щ j f(x ), F2) где xkti определены так же, как и в B9). Аналогичные методы Яко- Якоби — секущих и Якоби — Стеффенсена получаются просто за- заменой **•' в C1) и C2) на хк. Как и в § 7.4, эти составные итера- итерационные процессы Якоби можно записать в виде Yk+l — yk 1 (ук Yk yk"~l\~l Frk h О 1 (ЧЪ и xk+l =xk — J (xk, Fxk)~l Fx\ k = 0, 1, .,, , C4) где / (x, h) — диагональная n X д-матрица: J (x, h) = diag {[ft (x) — ft [x — hx В заключение этого параграфа мы укажем аналогичные обоб- обобщения метода Писмэна — Рэкфорда A8). Рассмотрим разложение вида F = FH + Fv. В соответствии с A8) нелинейный метод Пис- мэна — Рэкфорда определяется соотношениями = °' * C5) Если Fx = Ax — b и A = H + V — разложение матрицы Л, то в силу расщепления FHx = Нх — Ъ и Fyx == Vx ^-6 итерация C5) сводится к A8). Но так как в общем случае отображения Fh и Fv нелинейны, то на каждом шаге нелинейного метода Писмэна — Рэкфорда нужно решать систему двух нелинейных уравнений C5) относительно xk+(%/2) и xk+] соответственно. Если для решения этих уравнений применить метод Ньютона, то мы получим общий метод Писмэна — Рэкфорда —• Ньютона, в котором делают mk
7.4 Гл. 7. Общие итерационные методы 219 шагов по Ньютону в первом уравнении, начиная с xk, чтобы получить приближение %/г+A/г) для xk+{1/*\ и nk шагов во втором уравнении, начиная с хк+A/"\ чтобы получить следующее зна- значение итерации хк+] составного метода. Если mk = nh^\% то мы получаем одношаговый метод Писмэна — Ржфорда — Ньютона = o, 1, ... . C6) Очевидно, можно построить много других составных методов, используя, например, методы секущих и Стеффенсена. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.4.1. Литература по итерационным методам решения линейных уравнений обширна. Весьма полная сводка и подробный анализ линейных методов, обсуж- обсуждавшихся в этом параграфе, имеются у Вазова и Форсайта [1960], Варги [1962] и Вакспресса [1966]. ЗС 7.4.2. Применение в качестве вторичной итерации метода ПВР является стандартным вот уже несколько лет. Среди работ, посвященных анализу и вычис- вычислительным аспектам этого метода, отметим работы: Беллман и Калаба [1965, стр. 108—109], Гринспэн [1965а], Гринспэн и Ёхе [1963], Гринспэн и Партер [1965] и Ортега и Рейнболдт [1967а]. ЗС 7.4.3. Нелинейный метод Гаусса — Зейделя впервые был строго рассмотрен Берсом [1953] применительно к дискретным аналогам квазилинейной эллипти- эллиптической краевой задачи вида Аи = f (хгу, и, их, иу). В последнее время им зани- занимались Шехтер [1962, 1968], Ортега и Рокофф [1966], Ортега и Рейнболдт [1970а] и ряд других авторов. ЗС 7.4.4. Методы ПВР — Ньютона и Якоби — Ньютона были предложены Ли- берстейном [1959, 1960]. Впоследствии эти методы исследовали Шехтер [1962, 1968], Брайян [1964] и Ортега и Рокофф [1966]. Ряд вычислительных результатов приведен у Гринспэна [1965а] и Гринспэна и Ёхе [1963]. ЗС 7.4.5. Метод Писмэна — Рэкфорда в качестве вторичного итерационного процесса был использован Дугласом [1961, 1962] для решения дискретных анало- аналогов Ах = фх квазилинейной краевой задачи для уравнения Аи = f (и). При этом в качестве первичной итерации был применен метод типа Пикара (Л + yl) л^ = = фх + yxk. Аналогичную ситуацию исследовал Ганн [1964а, 1965]. Недавно Келлог [1969] рассмотрел нелинейный метод Писмэна — Рэкфорда типа C5) (см. п. 12.1.7). ЗС 7.4.6. Одношаговые методы Якоби — Стеффенсена C3) и C4) были изучены Веггом [1966], правда с несколько иной точки зрения. А именно, Вегг рассматри- рассматривал эти методы как естественное обобщение на случай п переменных соответствую- соответствующих одномерных методов. Подобное толкование, примененное к методу Якоби — Ньютона, привело бы к заключению, что этот метод является естественным обоб- обобщением метода Ньютона. Заметим, что такое толкование противоречит основному тезису этого параграфа — рассматривать указанные методы как естественное обоб- обобщение линейных методов, в котором нелинейные методы играют лишь вспомога- вспомогательную роль. ЗС 7.4.7. В методе ПВР — Ньютона на каждом шаге итерации нужно вычислять лишь значения каждой компоненты /; и п частных производных д,/;. В противопо- противоположность этому в одношаговом методе Ньютона — ПВР необходимо вычислить
220 Часть III. Итерационные методы 7.4 п(п— 1)/2 частных производных для нахождения матрицы Dk — (OkLki а также решить треугольную систему уравнений. В m-шаговом методе Ньютона — ПВР при m > 1 нужно вычислить все частные производные и решить m треугольных систем. Заметим, что в одношаговом методе Ньютона — ПВР не надо находить матрицу Uk, так как в качестве начальной точки для вторичной итерации принима- принимается лЛ Вообще для получения /-го значения вторичной итерации х* мы решаем (при со=1) треугольную систему [D (xk) - L (xk)] [xkJ -xk] = U (xk) [xk'M — xk] — Fxk. В § 10.3 будет показано, что асимптотическая скорость сходимости у одноша- гового метода ПВР — Ньютона и у одношагового метода Ньютона -— ПВР одинаковая, а у m-шагового метода Ньютона — ПВР она в m раз больше, чем у одношагового. С учетом скорости сходимости и приведенного выше подсчета числа операций можно сделать вывод, что одношаговый метод Ньютона —- ПВР, по-видимому, является самым эффективным из всех методов ПВР, рассмотрен- рассмотренных в этом параграфе, если только значения производных вычисляются не слишком трудно. Если же вычисление производных оказывается слож- сложным, то более эффективным может оказаться применение трех- и четырехшаговых методов Ньютона — ПВР. Помимо результатов о скорости сходимости, в гл. 12—14 приведены и другие георемы о сходимости для этих методов. ЗС 7.4.8. Мы рассмотрели только циклический метод Гаусса — Зейделя, в ко- котором уравнения ft = 0 решаются в их естественном порядке. Шехтер [1962] рассмотрел «свободно шатающиеся» методы, в которых уравнения решаются по существу в произвольном порядке (см. § 14.6). В другом методе, являющемся классическим для решения систем линейных уравнений и иногда называемом методом Зейделя, сначала решаются те уравнения, для которых значения функций в точке xk максимальны. Тогда &-й шаг итерации таков: (а) Взять /, такое, что |//(**)|>|/*(**)!, i=l, ... , /г. (б) Решить уравнение f/(ij, . . . , я^, */, Xj^.v . . . , я*) = 0 относитель- относительно Xj и положить *М-1 = xk + со (xj — xfie1. Отметим, что здесь в отличие от циклического метода ПВР удобно рассматривать решение каждого одномерного уравнения как самостоятельный шаг итерацион- итерационного процесса. ЗС 7.4.9. «Принцип Гаусса — Зейделя» можно выразить так: вновь полученная информация сразу же используется. В методах Ньютона — ПВР этот принцип применяется не в полной мере, так как производная F' вычисляется в точке лЛ Рассмотрим одношаговый метод Ньютона — ПВР A3), записанный в неявной покомпонентной форме: + = х\ !!L-12 djh(xk)(*h _*)_и(ДА) 1, i = 1, ..., й. Здесь ft и djfi, / =» 1, ... , i — 1, не требуются вплоть до вычисления х^{ и могут быть вычислены в точке ^ = (л:^1, . . . , *?t{, x\, . . . , х„)Т. Это приводит к модифицированному методу, &-й шаг которого определяется следую- следующим образом: *?+| = А -тгтж- 2 Uill \Х ) /~;| Для m-шаговых методов такой естественной модификации, по-видимому, получить нельзя.
7.4 Г л- 7. Общие итерационные методы 221 В качестве другой иллюстрации применения принципа Гаусса — Зейделя можно рассмотреть итерацию дг+1 = Gxk. Здесь модификация типа Гаусса — Зейделя привела бы к итерационному процессу J+J, J\ **), i= 1, . . . , n, Л = в котором новые компоненты д^"* используются сразу же после их вычисления. ЗС 7.4.10. В приложениях методов ПВР к линейной системе Ах — b в определен- определенных ситуациях с успехом используются блочные (линейные) методы. В этом слу- случае матрица А разбивается на блоки /Аи ••• А\ где Ац есть щ X «//-матрица и п = ^ + •' • + qm. Блочный ПВР-метод опреде- определяется соотношением C), где теперь ), C7) О А„ mm/ о л12 ... 38) Дальнейшее обсуждение блочных методов решения линейных уравнений имеется, например, у Варги [1962]. Блочный метод ПВР естественным образом обобщается на случай нелинейных уравнений. Заметим прежде всего, что если матрица F' (xk) = D& — Lk — Uk представлена в блочной форме, как в C8), то A2) и A0) дают общий блочный метод Ньютона — ПВР. С другой стороны, нелинейный метод ПВР можно обобщить до блочного, представив вектор х в виде х = (л:1, ..., xm)f где х1 ? /?^, и соответст- соответственно группируя компоненты fi отображения F в отображения Fc. Rn -* R% i= 1, ..., т. Тогда система описывает нелинейный блочный процесс, в котором полный шаг итерации требует решения т нелинейных систем порядка q^ i = 1, ..., m. Нелинейный блочный ме- метод ПВР описывается аналогично. Подобным образом одношаговый блочный метод Гаусса — Зейделя — Ньютона имеет вид {xl)k+l = (*')* - [diFi (ук'{)Г1 F{yk>\ k = 0, 1, . . . / = 1, . . . , m, C9) где укЛ = ((л;1)А;+1, . . . , (*t'-~1)fe+1, (x% . . . , (x)*), и д^И —матрица Яко- би отображения Fi относительно xl. Эти блочные методы могут иметь преимущества при решении систем вида Ах + фх = Ь, возникающих при решении эллиптических краевых задач. Напри- Например, для модельной задачи A.2.5) матрица А имеет вид C7), где Ai}- = 0 при | i — / | > 1, каждая матрица Аи трехдиагональна, а матрица ф' (х) диагональ- на. Следовательно, для применения метода C9) нужно решать лишь трехдиаго- нальные линейные системы.
222 Часть III. Итерационные методы 7.4 ЗС 7.4.11. Важно иметь в виду, что хотя в общем случае в нелинейном методе ПВР не существует конечного алгоритма решения одномерных уравнений, но на практике бывает одинаково легко получить как приближенное решение этих уравнений с заданной точностью, так и приближенное решение линейных систем, возникающих в методе Ньютона. В то же самое время оказывается плодотворным интерпретировать нелинейный метод ПВР как средство построения явных и легко выполняемых составных методов, таких, как одношаговый метод ПВР — Ньюто- Ньютона. Аналогичные замечания относятся, конечно, и к нелинейным методам Якоби и Писмэна — Рэкфорда. ЗС 7.4.12. Принцип расщепления, который использовался для построения со- составных нелинейно-линейных методов, может быть применен также непосредствен- непосредственно к нелинейному оператору F. Фактически с этой точки зрения можно рассмат- рассматривать большинство итерационных методов, в том числе все методы, изложенные в предыдущих параграфах. Например, по аналогии с разложением А = В — С линейных операторов мы можем взять расщепление F = Р — R и соответствую- соответствующую ему итерацию Pxk+l = Rxk, k— О, 1 Здесь Р — не обязательно линей- линейное отображение, хотя и предполагается, что для каждого k уравнение Рх =* = Rxk имеет единственное решение в рассматриваемой области. Простейшим при- примером служит расщепление F = I — G, приводящее к методу последовательных приближений xkJrX = Gxk, k = 0, 1, ..., а расщепление F = А — (А — F) для некоторых невырожденных линейных операторов приводит к общему методу параллельных хорд G.1.12). Более общим образом, можно рассмотреть последовательность расщеплений Fr=Pk-Rk D0) и соответствующий им итерационный процесс V*+i = /?^ * = 0f 1, ... . D1) В наиболее важном случае, когда Pk в расщеплении D0) есть невырожденный ли- линейный оператор А^ итерация D1) принимает вид xk^~l = xk — A~?xFxk. С дру- другой стороны, если мы определим элементы Pki матрицы Pk формулами Pk,i М = U (*i» • • • » *«• *?+1» • • • » хп)> i==l> • • • . л» и положим RkX = PkX — Fx, то итерация D1) даст нелинейный метод Гаусса — Зейделя B6). ЗС 7.4.13. Естественным обобщением нелинейного метода Гаусса — Зейделя явля- является следующий метод: (а) Выбрать какой-нибудь индекс i? {1, . . . , п} и вектор pk?Rn. ) (б) Решить уравнение ft (xk — apk) = 0 относительно а = а/г, \ D2) (в) Положить xk~^1 = хк — OLkPk- J Для pk = efe(mod /г)+1 эта итерация сводится к нелинейному методу Гаусса — Зейделя (с иной нумерацией итераций), но она близка также и к методу функцио- функционального усреднения (см. Лучка [1963]), развитому для решения интегральных и дифференциальных уравнений. В случае нелинейного отображения G: Rn -> -> Rn естественная интерпретация метода функционального усреднения для урав- уравнения с неподвижной точкой х = Gx дает такое выражение для л^"*: xk+l =G(xk + Pk (xk+x -xk)\ k = 0, 1, . . . , D3) где {Pk} — последовательность операторов проектирования. Если в качестве Р^ выбирается проекция на (k' = k (mod n) + 1)-е координатное направление, т.е. ркх = xuek , то D3) дает один шаг итерации по методу Гаусса — Зейделя. В бо. лее общем случае, если Pk является проекцией на pk, то итерация D3) приме- применительно к уравнению неподвижной точки х = Gx эквивалентна методу D2).
74 Гл- 7- Общие итерационные методы 223 С другой стороны, метод D2) естественным образом приводит к составным методам, аналогичным методам ПВР — Ньютона. Действительно, если для реше- решения уравнения D2) сделать шаг по методу Ньютона, то мы получим явную ите- итерацию Подобным же образом, основываясь на D2), можно рассмотреть метод типа Якоби, в котором хк не изменяется, пока не решены все уравнения. Иными слова- словами, мы решаем систему уравнений М** - ед>*'?) = о, / = 1 л, D4) п и принимаем xk^~] — xk— 2 ^Pk>l- Опять для решения уравнения D4) мы мо- жем сделать только один шаг по методу Ньютона, что дает итерацию xk+l ^ xk _ 2 \fi (xk)lf'i (**) Pk>i] Pk>i> ^ = 0, 1, .... D5) 2 В частном случае, когда pk>l = [ft (xk)]T, метод D5) превращается в метод Харта и Моцкина [1956] l где D Эта итерация, близкая к методу Гаусса — Зейделя, будет обсуждаться в следую- следующей главе. ЗС 7.4.14. Нелинейный метод Писмэна — Рэкфорда можно сформулировать не- несколько более общим образом. Для линейного уравнения Ах = b и разложения А = Я + V итерацию A8) можно записать в виде где Нхх = (Я + а/) х 6, Vxx = (V — а/) х 6, Н2х = (Я — а/) л- 6, V2x = (V + aI)x 6. Если Fa: = Ах — b, то, очевидно, Fx — (Н1 + Кх) х == (Я2 + К2) л:. В том случае, когда отображение F: Rn -^ /?п нелинейно, можно рассмотреть следующее «двойное» расщепление отображения F: F = FH,\ + ^V.l = ^Я,2 + FV,2, где, вообще говоря, все F^ t- и F^ ,-, t = 1, 2, ... —нелинейные отображения; итерационный процесс принимает вид ) = - fv.l**. F V,2*k+l = - ^ Я,2*Ж1/!). * = 0. 1 D6) Очевидно, что D6) сводится к C5), если FH i = ^^л: + ах, FV] = Fva; — ах, ^Я,2 ^ ^Я-^ ~ аХ> FV,2 — ^V^ + ах- ЗС 7.4.15. Все методы, рассмотренные в этом параграфе, являются обобщениями методов решения систем линейных уравнений. Однако основной метод решения
224 Часть 111. Итерационные методы 7А линейных систем — гауссов метод исключения — еще не был нами рассмотрен. Непосредственное, но в общем случае непрактичное обобщение этого важного ме- метода можно осуществить следующим образом. Пусть дана система Д (хъ ..., хп) = = О, i = 1, ..., п. Решаем первое уравнение относительно, скажем, неизвестной хг. Получающаяся при этом функция хг = ht (x2, ..., хп) подставляется в осталь- остальные уравнения, после чего получается система п — 1 уравнений с неизвестными Х2> •••» Хп\ ff(x2, . . . , хп) = ft (^ (*а, .... хп), х2, . . . , хп), t = 2, . . . , я. D7) Затем повторяем этот процесс, решая уравнение ]\ = 0 относительно х2 и под- подставляя х2 = h2 (х3, . . . , хп) в уравнения f2 — 0, / = 3, . . . , п, после чего получим п — 2 новых уравнений /у = 0, / = 3, . . . , п, с неизвестными *з» ¦ . • » *п- Продолжая эти рассуждения, мы придем в конце концов к одному уравнению {" (хп) = 0, решение которого х*п дает /г-ю компоненту решения х*. Остальные компоненты получаются «обратной подстановкой» в функции hi, т. е. ** = hi К*+1* ' ' ' ' Хп)> i=zn—l> • • • . 1- {) Если все функции Д- — аффинные, то эта процедура сводится к методу исклю- исключения Гаусса (без изменения порядка исключения). В этом аффинном случае, или в случае, когда п мало, а функции Д достаточно просты, отображения hi находятся в явном виде. В общем случае, однако, может потребоваться приме- применить какой-нибудь итерационный процесс и решить сначала уравнение /JJ (хп) = 0, а затем получить остальные х*. Но, как будет показано ниже, даже отыскание приближенного решения уравнения ]пп (хп) = 0 может представлять почти непре- непреодолимые трудности, ибо уже для вычисления значения /JJ (х°п) в некоторой проб- пробной точке х°п требуется решить систему уравнений Д (xv . . . , xn__v л^) =0, 1=1, ..., п—1, порядка п—1. Для примера рассмотрим случай п = 3. Поскольку /з (*з) = /I (^2 (*з)» *з)» то необходимо получить h2 (х®)> а для этого мы должны разрешить относительно х2 уравнение fl(x2, x°3) = 0. D8) Так как %(х2, x§ = f2(hi(Xt,*fyt л:2, -ж§>. то необходимо найти hx (x2, х®), для чего в свою очередь нужно решить уравнение h (xv x» x°3) = 0 D9) относительно хг. Но решение уравнений D8) и D9) эквивалентно решению системы порядка 2: Для того чтобы избежать указанных трудностей, проще всего линеаризовать си- систему в окрестности начального приближения х°, а затем применить метод исключе- исключения Гаусса к линеаризованной системе F' (х°) (х — х°) + Fx° = 0. Но это по- попросту метод Ньютона. Браун [1966] (см. также Браун и Конт [1967] и Браун [1969]) предложил другой подход: линеаризацию каждой отдельной компоненты /? по мере вы- ^ В том случае, когда все Д — многочлены (от нескольких переменных), существует алгебраическая теория исключения, ознакомиться с которой можно по книге Ван дер Вардена [1947] *, гл. 11 — Прим. ред.
f ^ Гл. 7. Общие итерационные методы 225 полнения процедуры исключения Гаусса. Пусть снова х° — начальное приближе- приближение. Полагаем hx (*„ • • • , *п) = А - [l/^i/i (*°I [/i (*°) + S d</i (*°) (** - *?)]. 1=2 Таким образом, функция /ix определяется просто как решение уравнения fx (л:0) + + /|(х°)(*—*°)=0 относительно хг. Далее определяем остальные п— 1 новых функций /f> i = 2, . . . , /г, по формуле D7) и повторяем описанную выше про- процедуру с /|, с тем чтобы получить h3 (х3, ... , хп). Продолжая этот процесс, получим функции /i; (*;_!_!, . . . , хп), i = 1, . . . , п— 1, и, наконец, одно ли- линейное относительно хп уравнение, решение которого вследствие линеаризации будет лишь приближением хп к хп. Остальные компоненты вектора х1 находятся затем из уравнений х\ = hi (*J_j_p . .. , #„)> i = п — 1, . . . , 1. Затем весь про- процесс повторяют, чтобы получить следующее приближение х2 и т. д. Браун дал доказательство сходимости этого итерационного процесса и показал, что при под- подходящих условиях он имеет квадратичную скорость сходимости. В описанном итерационном процессе используются частные производные функций f\. Простые вычисления показывают, что их можно выразить с помощью рекуррентных соотношений через частные производные первоначальных функций fi (хотя и не в точке х°). Легко видеть, что, вообще говоря, нужно вычислять все п2 частных производных d/ft, так что в этом отношении у данного метода нет каких- либо преимуществ перед методом Ньютона. Однако, как показал Браун [1966], при аппроксимации производных разностными отношениями вычисление п2 част- частных производных djfi может быть заменено лишь -=- п2 дополнительными вычисле- вычислениями значений Д. Этот разностный метод представляется перспективным, но он пока еще строго не проанализирован. УПРАЖНЕНИЯ У 7.4.1. Показать, что для F: R1 -> R1 и со = 1 одношаговый метод Ньютона — ПВР сводится к методу Ньютона. У 7.4.2. Сформулировать общий метод ПВР — Ньютона, в котором для опреде- ления приближенного решения х. уравнения B6) используется mk^ итераций по методу Ньютона, а значение х^х берется равным xkt + со {х\ — хк^. Показать, что этот метод для аффинных отображений сводится к методу ПВР. У 7.4.3. Проверить, что если в условиях У 7.4.2 mki = 1 для всех /, k, то ите- итерация принимает явный вид B8). У 7.4.4. Используя в качестве первичной итерации метод секущих или Стеффен- сена, а в качестве вторичной — метод ПВР или Писмэна — Рэкфорда, записать различные комбинированные методы, соответствующие методу Ньютона — ПВР. У 7.4.5. (а) Показать, что одношаговые методы Ньютона — Якоби и Якоби — Ньютона совпадают между собой, а /n-шаговые, вообще говоря, различны, (б) Показать, что одношаговые методы ПВР — Ньютона и Ньютона — ПВР в общем случае различны, но что они совпадают друг с другом для систем вида Ах = фх, где Л ? L (Rn), а матрица ф' (*) диагональна. У 7.4.6. Дать формулировку обобщенного /пошагового метода Ньютона — Писмэна — Рэкфорда, аналогичного методу B5). У 7.4.7. Сформулировать все методы этого параграфа в терминах уравнения не- неподвижной точки х = Gx.
226 Часть 111. Итерационные методы 7.5 7.5. МЕТОДЫ ПРОДОЛЖЕНИЯ Как будет показано в последующих главах, большинство рас- рассмотренных до сих пор методов обеспечивает сходимость к ре- решению х* уравнения Fx = О только в том случае, когда началь- начальные приближения достаточно близки к х*. Методы продолжения, рассматриваемые в этом параграфе, можно рассматривать как по- попытку расширить область сходимости используемого метода, или иначе, как способ получения достаточно близких начальных при- приближений. Во многих практических случаях задача естественным образом зависит от некоторого параметра /, причем при каком-то конкрет- конкретном значении t, скажем при t = 1, получается отображение F, а при t = О — система Fox = О, имеющая известное решение х°. Точнее, вместо одного отображения F вводится в рассмотрение целое семейство отображений Н: D X [0, 1] ? Rn+l ->/?", такое, что Н(х, 0) = Fox, Н(ху 1) = F*, V * ? Д A) причем решение х° уравнения Н (х> 0) известно, а уравнение Н (х> 1) =0 нужно решить. Даже если отображение не зависит от параметра /, всегда можно найти способ построения семейства Я, для которого выполняется условие A). Так, например, можно взять Н (х, t) = tFx + A -1) FoXi x?D, / б [0, 1], B) где Fo — какое-нибудь отображение, для которого известно ре- решение уравнения FQx = 0, или же H(x,t) = Fx+(t-\)Fj<« *?Д /<Е[0, 1], C) где х° фиксированно. Заметим, что C) получается из B) при Fox = = Fx — Fx\ Как бы там ни было получено Я, рассмотрим уравнение Н(х, 0 = 0, /б[0, 1]. D) Предположим, что уравнение D) для каждого t ? [0, 1] имеет ре- решение х = х (/), непрерывно зависящее от t. Иными словами, пред- предположим, что существует такое непрерывное отображение х: [0, 1] ->D, что H(x(t), 0 = 0, V*e[O, 1]. E) Тогда точка х описывает пространственную кривую в Rn, одним концом которой служит некоторая заданная точка л:0, а другим — точка, являющаяся решением %* = х A) уравнения Fx = Н (х, 1)=0. В качестве примера того, как может быть установлено, что такая непрерывная кривая решений существует, приведем сле- следующее простое следствие теоремы 5.3.9 о коэрцитивности по норме
75 Гл. 7. Общие итерационные методы 227 или теоремы Адамара 5.3.10. Напомним, что, согласно опреде- определению 5.3.6, отображение F: Rn -> Rn называется коэрцитивным по норме, если lim \\Fx\\ = оо. 7.5.1. Пусть отображение F: Rn -> Rn непрерывно дифференци- дифференцируемо в Rn и производная F' (х) невырождена для всех х ? Rn. Предположим также, что либо F коэрцитивно по норме, либо \\F' (x)~~l\\ < Р для всех х ? Rn. Тогда для любого фиксированного *° € Rn существует единственное отображение х: [0, 1] ->¦ Rn, такое, что для семейства Я, определенного равенством C), выпол- выполняется условие E). При этом отображение х непрерывно дифферен- дифференцируемо и *' @ = -F'(x(О) Fx\ V/б [0, 1 ], х@) = *°. F) Доказательство. Очевидно, что в нашем случае урав- уравнение D) эквивалентно уравнению Fjt-U-g/v, ^[0, 1]. G) Согласно теоремам 5.3.9 или 5.3.10, отображение F является гомео- гомеоморфизмом пространства Rn на себя, и, следовательно, для каж- каждого / ? [0, 1] уравнение G) имеет единственное решение x(f) = F~l(ll-t]F*?), ttlO, И- Далее, по теореме от обратной функции отображение jF~! тоже непрерывно дифференцируемо в Rn. Таким образом, по цепному правилу 3.1.7 то же самое имеет место и для функций х = х (/) на [0, 1], причем выполнено соотношение F). | Итак, мы будем предполагать далее, что Я: D X [0, 11 б Rn+l -> -> /?п есть заданная гомотопия (т. е. непрерывное отображение), для которой существует непрерывное отображение х: [0, 1]-^D, такое, что при некотором известном х° имеет место E). Чтобы получить первое приближение к х = х A), рассмотрим разбиение интервала [0, 1] точками O = 'o<'i<*2< ••• <fo=l (8) и решим уравнения Н(х, д = 0, 1=1, ..., Л^, (9) применив какой-либо итерационный метод, использующий в ка- качестве начального приближения при решении /-го уравнения решение (i — 1)-го уравнения. Можно надеяться, что если раз- разность ti+\ — tL достаточно мала, то х{~~{ окажется достаточно хо- хорошим начальным приближением для х19 обеспечивающим схо- сходимость. 8*
228 Часть 111. Итерационные методы 7.5 Ясно, что при нахождении решения /-й задачи (9) можно брать лишь конечное число шагов выбранного итерационного метода. Если, например, для решения уравнений (9) использовать метод Ньютона, то, взяв mt > 1 шагов, мы получим следующие явные выражения: /и-1 = xi.k _ diH {х^ fj-i H (Xi.k9 t^ fe = 0, 1, ... , m - 1, /° = x\ xi+uo = Л i = 1, ...,N-U A0) здесь через дг обозначена частная производная по х (см. 5.2.2). В § 10.4 мы покажем, что при выполнении подходящих условий/от- условий/относительно Н разбиение (8) отрезка [0, 1] и целые числа тъ ..., ты можно выбрать так, что последовательность xitk из A0) будет кор- корректно определена и итерации Ньютона /+1 в хк _ д{Н (xkt ipi я {х\ 1), k = К ... , x\ - xN'm» A1) будут сходиться к л; A). В качестве примера применения итераций A0) и A1) рассмотрим гомотопию C) и предположим, что при решении каждой задачи (9) делается только один шаг по Ньютону. Тогда мы приходим к про- процессу xk _ р' (хкГ] Fx\ k = N, N + 1, ... . Заметим, что применение здесь метода Ньютона носит лишь ил- люстративный характер. С таким же успехом можно использовать и другие итерационные методы (см. У 7.5.1). Рассмотрим теперь несколько иной подход к решению уравне- уравнения D). Предположим, что отображение х: [0, 1]->D, удовлетво- удовлетворяющее уравнению E), непрерывно дифференцируемо на [0, 1] и что отображение Н имеет непрерывные частные производные по х и t. Положим 0(О = #И/), 0, WglO, 1]. A3) В силу результата У 5.2.5 и цепного правила 3.1.7 функция 0(/) непрерывно дифференцируема на [0, 1] и 0' (/) = дхН (х @, t) x' (t) + <у/ (х @, 0, V* ? [0, I]. Поскольку по предположению х = х (t) удовлетворяет уравнению E), то 0' (t) = 0 для всех t и, следовательно, х удовлетворяет диф- дифференциальному уравнению дхН (х @, 0 *' @ = - <32# (х @, 0, V f е [0, 1 ]. A4) Обратно, если х: [0, 1] ->» Rn — непрерывно дифференцируемое решение дифференциального уравнения A4), удовлетворяющее начальному условию Н (х @), 0) = 0, то в силу теоремы о среднем значении 3.2.3 мы имеем для функции 0, определенной равенством
7.5 Гл. 7. Общие итерационные методы 229 A3), Таким образом, Н (х (t)y f) = О при / ? [0, 1]. Следовательно, ре- решение дифференциального уравнения A4) с начальным условием Н (х @), 0) = 0 дает решение функционального уравнения D). В последующем будем предполагать, что производная dji невырождена для всех рассматриваемых х, t, и запишем A4) в виде х9 @ = - дхН (х9 О д2Н (х, 0, V / б [0, 1], Н(х @), 0) = 0. A5) Заметим, что для гомотопии Я, определенной формулой C), диф- дифференциальное уравнение A5) совпадает с уравнением F) и при выполнении условий утверждения 7.5.1 обладает единственным решением при любом фиксированном л:0. Найдем теперь приближенное решение уравнения A4) с помо- помощью численного интегрирования. Напомним, что одним из простей- простейших методов интегрирования является метод Эйлера, который для дифференциального уравнения *'=/(*, t)t x@) = *°, /?[0, 1], и разбиения (8) имеет вид xk+l = xk+(tk+{-tk)f(xk, tk), ft = 0, 1, ...,tf-l. A6) Для уравнения A5) метод Эйлера запишется так: *№ = Xk _ (tk+l _ tk) diH {xkt g-i d2H {xky tk)j A7) k= 1, 0, ... , N— 1. В случае гомотопии C), а значит уравнение F), соотношение A7) принимает вид /+1 = xk - hkF' (xkrl F*?> k - 0, 1, ... , N - 1, hk = 4-н - tk. A8) При выполнении условий утверждения 7.5.1 для уравнения F) существует непрерывная кривая решений х = х (/), и если шаг hk достаточно мал, то значения х , определенные по формуле A8), позволяют приближенно построить эту кривую. Другими сло- словами, есть надежда, что точка л:^ окажется достаточно близкой к я* = х A), так что итерационный процесс, например метод Ньюто- Ньютона, с начальным значением л;^ будет сходиться к х* (рис. 7.4). В § 10.4 мы дадим условия, достаточные для того, чтобы это было на самом деле так. Заметим, что итерационный процесс A8) имеет известное сходс- сходство с методом Ньютона. Чтобы установить связь между этими двумя методами, произведем замену переменных t = 1 — е~т. При изменении t на отрезке [0, 11 новая переменная х изменяется
230 Часть HI. Итерационные методы 7.5 от 0 до с» и C) принимает вид Н U, t) = Fx — <fx Fx°, т с [0, оо). Следовательно, дифференциальное уравнение, соответствующее A6), запишется так: Х' = _ F (х)~х e-*F# = - f" (хГ1 Fx, т ? [0, оо), A9) х @) - jfi. Рис. 7.4. Интегрируя уравнение A9) тем же методом Эйлера с шагом hk = = 1, получаем xk+l = xk — F' (xkrl Fxky k = 0, 1, ... , B0) т. е. метод Ньютона. Следует отметить, что для численного интегрирования уравне- уравнения A4) метод Эйлера был применен лишь с иллюстративной целью. С таким же успехом могли бы быть использованы и дру- другие, более тонкие методы (см. ЗС 7.5.3 и У 7.5.2). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.5.1. Методы продолжения (или, как их еще называют, методы вложения) использовались для доказательства существования решения операторных урав- уравнений еще в прошлом столетии; об истории вопроса см. ЗС 5.3.1 и статью Фикена [1951]. Впервые метод продолжения для численного решения уравнений был при- применен, по-видимому, Лаэем [1934, 1935] для случая одного уравнения. Для дви- движения вдоль кривой решений он использовал метод Ньютона. Позже Лаэй [1948] рассмотрел также и системы уравнений. С тех пор эта идея переоткрывалась не- несколько раз; см., например, Фрейденстейн и Рот [1963], Дейст и Сифор [1967] и Шидловская [1958]. Последняя исследовала вопрос о применении метода Нью- Ньютона для пошаговой аппроксимации кривой решений в банаховых пространствах.
7.5 Гл. 7. Общие итерационные методы 231 ЗС 7.5.2. Независимо от Лаэя Давиденко [1953а, б] использовал дифференци- дифференциальное уравнение A5) для построения решения функционального уравнения // (^ t) — 0 при / ? [О, 1] и применил эту идею к широкому классу задач, таких, как решение интегральных уравнений, обращение матриц, вычисление определи- определителей, вычисление собственных значений матриц, а также решение систем урав- уравнений (см., например, Давиденко [1965а, 19656]). Метод, предложенный Давиден- Давиденко, сейчас часто называют методом дифференцирования по параметру. По-види- По-видимому, более ранняя работа на эту тему принадлежит русским авторам Фоку и Ки- рии, но мы не располагаем точными ссылками на эту работу !). Недавно Роберте и Шипмэн [19676] и Босарж [1968] использовали этот метод для решения двух- двухточечных краевых задач. ЗС 7.5.3. В этом параграфе использовался лишь простейший численный метод — интегрирования дифференциального уравнения A5), а именно метод Эйлера. Биттнер [1967], Кизнер [1946], Кляйнмихель [1968] и Босарж [1968] исследовали возможность применения для этой цели более сложных методов, таких, как метод Рунге — Кутта. ЗС 7.5.4. Гавурин [1958] применил дифференциальное уравнение A5) для дока- доказательства теорем существования решений уравнения Н (х, /) = 0 в банаховых пространствах. Дополнительные результаты в этом направлении получены также Яковлевым [1964в, 1965] и Мейером [1968]. Гавурин рассматривал дифференци- дифференциальное уравнение A5) как «непрерывный итерационный процесс». Такие непре- непрерывные процессы изучались также Розенблумом [1956] и Поляком [19646]. ЗС 7.5.5. Дэвис занимался вопросами, возникающими в тех случаях, когда про- производная дгН (х, t) имеет особенности на разрешающей кривой; он предложил использовать для их разрешения соответствующие преобразования координат. Мейер [1969] атаковал эту проблему, используя соответствующую модификацию гомотопии Я. УПРАЖНЕНИЯ У 7.5.1. Дать формулировку итерационных процессов вида A0) — A1) и A2), ис- используя вместо метода Ньютона метод Ньютона — ПВР из § 7.2. У 7.5.2. Рассмотреть задачу Кошии'=?(и), и @) == 0. Хорошо известный метод Рунге — Кутта имеет для этой задачи вид ±h [Kxj + 2K2J + 2/<3/ + K4jl Применить этот метод к уравнениям F) и A9). ) По-видимому, речь идет о двух различных работах. В. А. Фок в одной зада- задаче из теории дифракции предложил находить корень уравнения как функцию параметра с помощью решения дифференциального уравнения. Подробнее об этом см. его монографию «Дифракция радиоволн вокруг земной поверхности» (изд. АН СССР, М.—Л., 1946), стр. 42—43, уравнение G.03) и далее G.15) — G.17). Этот же метод использовал и В. С. Кирия в работе «Движение тел в сопро- сопротивляющихся средах» (Труды Тбилисск. гос. ун-та, 44, 1951, 1—20). См. также его работу «Об одном новом методе решения конечных уравнений» (Труды Тби- Тбилисск. гос. ун-та, 86, I960, 235—259).— Прим. ред.
232 Часть III. Итерационные методы 7.6 7.6. ОБЩИЙ ПОДХОД К ИТЕРАЦИОННЫМ МЕТОДАМ В предшествующих параграфах мы рассмотрели несколько кон- конкретных итерационных процессов; некоторые другие будут пред- предметом обсуждения следующей главы. В дальнейшем, однако, ока- окажется полезным в ряде случаев говорить об абстрактных итерационных процессах. В этом параграфе мы дадим общее определение и классификацию таких процессов. Интуитивно итерационный процесс — это правило вычисления нового приближения xk+] по предыдущим приближениям. Мы придадим этому точный смысл следующим образом. 7.6.1. Определение. Семейство операторов {Gk} Gk:Dkcz (Rn)k+p = Rnx ••¦ х/Г->/?п, Л = 0, 1 A) (fe-fp) раз определяет итерационный процесс 7 = ({G*}, D*, р) с р начальны- начальными точками и областью определения D* с Do, если D* непусто и если для любой точки (л?, ... , x~pJrX) ? D* существует последова- последовательность [xk], порождаемая соотношением xk+l = Gk(xk9 ..., х~р+), * = 0f 1, ..., B) т. е. если (xk, ..., x~p+l) ? Dk для всех k > 0. Всякая точка **, такая, что lim xk = x*, называется пределом итерационного процесса, а множество всех последовательностей {xk}, порожден- порожденных процессом 7 и сходящихся к х*9 обозначается через С (?,.*;*). | Заметим, что, согласно этому определению, итерационный процесс определен, только если существует некоторое непустое множество D*, такое, что при (л:0, ..., л;-^1) GO* можно по- построить всю последовательность {*fe}. Конечно, если операторы Gk определены на всем пространстве (Rn)k^p для всех k ;> 0, то это условие выполняется автоматически. Однако так бывает не всегда. Рассмотрим, например, метод Ньютона G.1.8) и предположим, что начальное приближение х°, принадлежащее области определения D отображения F, таково, что производная F' (х°) существует и невырождена. В этом случае х1 гарантированно существует, но не обязательно принадлежит области D, а если и принадлежит, то не обязательно существует F' (х1). Поэтому итерационный процесс может остановиться после первого же шага. В общем случае точное определение области определения D* итерационного процесса является крайне трудной задачей. В последующих главах большое внимание будет уделяться указанию различных конкретных под- подмножеств области D*, т. е. указанию множеств, состоящих из та- таких точек (л:0, ..., х~р+]), для которых можно гарантировать су- существование всей последовательности в целом.
jfi Гл. 7. Общие итерационные методы 233 На практике редко приходится иметь дело с итерационными методами самого общего вида B) и полезно ввести классификацию наиболее важных типов итерационных процессов. 7.6.2. Определение. Итерационный процесс 7 = ({G^}, D*, р) на- называется m-шаговым методом, если р = т и все отображения Gk имеют вид m-шаговый итерационный процесс называется последовательным, если итерации задаются соотношением последовательный /n-шаговый процесс называется стационарным с итерационной функцией G, если Gk = G, Dk = D, k = 0, 1, ... .... | Концептуально самыми простыми и во многих отношениях самыми важными являются одношаговые стационарные процессы, которые задаются соотношением xk+l = Gxk, k = О, 1, .... Примерами таких процессов служат метод Ньютона G.1.8), од- ношаговый метод Ньютона — ПВР G.4.13) при фиксированном со и метод Стеффенсена G.2.34). С другой стороны, метод Ньютона — ПВР G.4.12) с фиксированным со, но cmk = k + 1, k = 0, 1, ... , представляет собой нестационарный одношаговый метод с последо- последовательностью {Gk}t определяемой формулой Gkx==x — (o[I+ ... +H(x)k][D(x)— uL(x)rlFxy ? = 0, 1, ... Здесь F' (x) = D (x) — L (x) — U (x) — разложение на диаго- диагональную, строго нижнюю треугольную и строго верхнюю треуголь- треугольную части и Н (х) = [D(x)—(oL (х)Г1 [A — ©) D (х) + со?/ (х)]. В этом случае для того, чтобы описать метод, необходима бес- бесконечная последовательность отображений Gk. Любой итерационный процесс, не являющийся одношаговым, мы будем называть многошаговым. В качестве примеров многоша- многошаговых процессов можно упомянуть разнообразные двухточечные и (п + 1)-точечные методы секущих, рассмотренные в § 7.2, среди которых имеются как последовательные, так и непоследовательные методы. Хотя в определении 7.6.1 выражен самый смысл понятия об- общего итерационного процесса, иногда удобно использовать следую- следующую неявную форму записи соотношения B): HH(xk+\ .... *-р+1) = 0, k = 0, 1, ... . C)
234 Часть III. Итерационные методы 7.6 Например, для метода Ньютона в некоторых отношениях более естественна запись F (xk) /+1 = F' (xk) xk —Fx\ k =» 0, 1, ... , D) поскольку на практике редко вычисляют непосредственно матрицу F' (xk)~\ а вместо этого предпочитают решать линейную систему D). Кроме того, и это более важно, такие итерационные методы, как, скажем, нелинейный метод ПВР G.4.26), естественным путем получаются в форме C). Для вычисления следующего значения xk+l в этих случаях необходимо решить нелинейную задачу, и поэтому для полного описания итерационного процесса нужно задать вспо- вспомогательный алгоритм вычисления xk+l. Например, для нелиней- нелинейных итерационных методов ПВР можно предложить решать од- одномерные задачи методом Ньютона. В общем случае в связи с не- неявной формой C) определения итерационного процесса возникают следующие две задачи: а) При заданных ;Г"*+1, ... , хк существует ли xfe+1, удовлетво- удовлетворяющее уравнению C)? б) Если такое #*+1 существует, то сходится ли к нему последо- последовательность хк'\ 1 = 0, 1, ..., выдаваемая рассматриваемым вспомогательным алгоритмом? Для ответа на первый вопрос часто бывает удобным рассматри- рассматривать C) как нелинейное векторное разностное уравнение. При таком толковании существование всех xk эквивалентно существо- существованию решения \xk) разностного уравнения, а вопрос о сходимости последовательности хк можно трактовать как вопрос об асимптоти- асимптотическом поведении решения разностного уравнения. Одно преиму- преимущество такой точки зрения состоит в том, что для изучения итера- итерационных процессов можно использовать методы и результаты теории разностных уравнений. Другое преимущество то, что в неко- некотором смысле отпадает необходимость в полном подробном описании итерационного процесса. Другими словами, даже при поло- положительных ответах на вопросы (а) и (б) xk+l в общем случае будет получено лишь как предел некоторой бесконечной последователь- последовательности. Поэтому, хотя соотношение C) вместе с указанием вспо- вспомогательного алгоритма неявно определяют отображения Gkf фигурирующие в B), может оказаться, что эти Gk невозможно указать явно. Следовательно, истинный итерационный процесс получится только тогда, когда число шагов вспомогательного ал- алгоритма будет конечным. Например, аналогично тому, как это бы- было сделано в § 7.4 при построении одношагового метода Ньютона — ПВР, можно фиксировать число шагов вспомогательного алгорит- алгоритма и последнее приближение к решению уравнения C) принимать за очередное значение xk+] основного процесса. Или же можно потребовать, чтобы вспомогательный итерационный процесс за- заканчивался тогда, когда его i-я итерация, хкл, удовлетворяет не-
7.6 Гл. 7. Общие итерационные методы 235 которому предписанному условию сходимости, например, условию \Нк(*\ х\ ..., *-*+1)||<е,. В любом случае исследование вопроса о существовании и поведе- поведении решения [xk] разностного уравнения C) можно рассмат- . ривать как исследование «идеального», обычно недостижимого, итерационного процесса. Но есть надежда, что это исследование дает представление о характере поведения конкретных итерацион- итерационных процессов, которые можно в каком-то смысле трактовать как аппроксимации идеального процесса. Хотя все эти рассмотрения продиктованы тем обстоятельством, что мы не можем найти решение нелинейной задачи за конечное число шагов, они сохраняют силу и при анализе тех реальных итерационных процессов (например, метода Ньютона), в которых для выполнения каждого шага нужно решать лишь линейные уравнения. Действительно, за исключением самых тривиальных случаев, последовательность итераций [xk)y получающаяся в ре- результате счета по методу Ньютона на ЭВМ, только приближенно удовлетворяет исходному уравнению D) из-за ошибок округле- округления, так что анализ разностного уравнения D) в области действи- действительных чисел представляет собой лишь идеализацию реальности. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 7.6.1. Определение 7.6.1 близко к определению численного процесса^ предло- предложенному Прагером и Витасеком [1963]. ЗС 7.6.2. Для того чтобы xkJrX можно было представить в явном виде, вовсе не обязательно, чтобы отображение Hk из C) было линейным относительно я*"*. Рассмотрим, например, одношаговый метод ПВР — Ньютона G.4.28), который задается разностным уравнением Н (xk~^~\ х^) = О, k = 0, 1, . . . , где компонен- компоненты hi оператора Н определены соотношениями и xk>l = (x*+1 , . . . , *?tj, xf, ...,**). Здесь оператор Я, вообще говоряэ нелинеен относительно xk+\ но, по крайней мере в принципе, явное выражение xk'^{ через xk, можно легко получить с помощью G.4.28) (см также § 10.3).
Глава 8 МЕТОДЫ МИНИМИЗАЦИИ 8.1. МЕТОД ПАРАБОЛОИДОВ Как было показано в гл. 1 и 4, задача решения системы нелиней- нелинейных уравнений может быть заменена эквивалентной задачей ми- минимизации некоторого функционала g: D cz Rn ->¦ R1. В этой главе мы опишем наиболее часто используемые итерационные ме- методы такой минимизации. Как указывалось в введении к части III, исследование сходимости большинства рассматриваемых здесь методов минимизации будет предметом обсуждения гл. 14, хотя и в данной главе в тех случаях, когда это необходимо для лучшего по- понимания рассматриваемого метода, мы уделяем внимание вопросу о существовании очередного значения итерации. Рассмотрим квадратичный функционал g: Rn->R\ g(x) = c-bTx + -±-xTAx. A) Если матрица А ? L (Rn) симметрична и положительно опре- определена, то функционал g имеет единственный глобальный миними- затор **, являющийся решением линейной системы g'(x)T = Ax-b = 0. B) В этом параграфе мы обсудим различные итерационные методы минимизации неквадратичных функционалов g: Rn ->¦ R1, в кото- которых g заменяется на k-м шаге итерации квадратичным функциона- функционалом gki аппроксимирующимg в некоторой окрестности^-го значения итерации xk. Минимизатор функционала gk принимается затем за следующее значение xk+\ Один из простейших способов получить квадратичный функцио- функционал gk — разложить функционал g по формуле Тейлора в точке хк. Предположим, что функционал g: D с Rn -+ R1 дважды F- дифференцируем в точке xk g D, и пусть Hg (x) — матрица Гессе C.3.2) функционала g. Тогда, согласно 3.3.12, для каждого х ? D справедливо соотношение g(x) = g (xk) + g' (xk) (x -xk) + ±-(x- xk)T Hg (xk) (x - xk) + + R(x-xk),
S.I Гл. 3. Методы минимизации 237 где lim R(h)/\\hf = 0. Следовательно, для х, достаточно близких к xkf квадратичный функционал gk (*) = g (xk) + gf {xk) (x -Xk) + -L(x- xk)T Hg (xk) (x - xk) C) аппроксимирует функционал g вблизи xk. Согласно 3.3.4, вторая производная g" (xk), а следовательно, и матрица Гессе Hg (xk) симметричны. Если матрица Гессе к тому же положительно определена, то единственный глобальный мини- мизатор функционала gk является решением линейной системы и можно взять xh+x = xk-Hg(xkrxg'(xk)\ D) Заметим, что это просто метод Ньютона для уравнения Fx = g' (x)T = = 0 и, следовательно, ньютонов шаг для этой системы эквивален- эквивалентен нахождению вершины соприкасающегося параболоида gk в точке xk. Если матрица Гессе Hg (xk) не является положительно определенной, но и не вырождена, то ньютонов шаг D) соответст- соответствует определению единственной критической точки соприкасаю- соприкасающегося квадратичного функционала gk. В случае когда матрица Гессе Hg (xk) вырождена или не является знакоопределенной, иногда оказывается полезным рассматривать вместо C) квадратич- квадратичную аппроксимацию вида gu (х) = g И + g' (**) (х -xk) + ±(x- xk)T [Hg (xk) + + VH*-**)- E) Если скаляр Xk выбран так, что матрица Hg (xk) + kkl положительно определена, то gk имеет единственный глобальный минимизатор xk+l. При Fx = gf {x)T это соответствует модифицированному методу Ньютона /+1 = х* - [F' (xk) + Xkirl Fx\ k = 0, 1, ..., F) упоминавшемуся в § 7.1. Более общим образом можно рассмотреть квадратичную ап- аппроксимацию вида g* (х) = g (xk) + bl(x- xk) + 4" (x - xkf Ak (x - *k)> G) где матрица Ak симметрична. В частности, по аналогии с дискрет- дискретным методом Ньютона и методами секущих из § 7.1 и 7.2 квадрат- квадратный функционал G) можно получить с помощью интерполяции. При этом, вообще говоря, необходимо использовать п + -z-п (п + + 1) точек интерполяции хкл, для того чтобы вычислить неизвестные
238 Часть III. Итерационные методы 8.1 компоненты вектора bk и матрицы Ak, решая систему линейных уравнений fo(^) = «f(A i=l •..» \+п+~п(п+ 1). (8) В общем случае решить систему (8) трудно, и мы ограничимся здесь лишь одним специальным выбором точек интерполяции. Рассмотрим 1 + п + -о" л (п + 1) точек xk, xk + hte\ i = 1, ... , n, x* + V + ft/*', / == 1, ... , n, /=1, ..., л, (9) и соответствующие им разности А* И = *(** + V' + V) - g (х* + V') -?(** + V)+ Легко проверить (У 8.1.1), что значения интерполяционного квад- квадратичного функционала 8ы (*) = 8 И + 2 ^Г1 [А 1 |2 Мл И (^ - 4 (^/ - 4) совпадают с gr в точках (9). С помощью функционала gk мы полу- получаем итерационный процесс #fe+1 = xk — A~j^xbk, в котором и 61 = (hT{ [Alg (xk) - 4- ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 8.1.1. Идея добавления скалярной матрицы X^I к Hg (xk) в E) восходит к Левенбергу [1944], использовавшему ее в несколько иной ситуации (см. ЗС 8.5.2). В последствии она несколько раз открывалась заново (см., например, Гольдфельд, Куандт и Троттер [1966]). Чтобы гарантировать невырожденность матрицы Hg (xk) + %kl* достаточно взять коэффициент, удовлетворяющий условию Xk > || Нё (х*) ||, хотя при таком выборе Xk может оказаться гораздо больше, чем это желательно. ЗС 8.1.2. Интерполяционный квадратичный функционал A0) был рассмотрен Шмидтом и Тринкаусом [1966]. ЗС 8.1.3. Шпет [1967] составил программу, использующую аппроксимацию C).
8.2 Гл. 8. Методы минимизации 239 УПРАЖНЕНИЯ У 8.1.1. Пусть g: Rn -* R1 — заданный функционал, a g^— квадратичные функционалы вида A0), где hl9 ..., hn — любые отличные от нуля числа. Показать, что значения функционалов g и gk совпадают в 1 + п + -^-п (п + 1) точках (9). 8.2. МЕТОДЫ СПУСКА Весьма широкий и важный класс алгоритмов минимизации составляют те алгоритмы, в которых значение функционала умень- уменьшается на каждом шаге итерации, т. е. для которых * = 0, 1, ... . A) Такие алгоритмы мы будем называть методами спуска для функ- функционала g. Глава 14 будет посвящена исключительно алгоритмам этого класса. Как показывают простые примеры, методы, описанные в предыдущем параграфе, не обязательно удовлетворяют условию A) (см. У 8.2.1). Однако обычно их можно так видоизменить описывае- описываемым ниже способом, что они превращаются в методы спуска. Рассмотрим, например, метод Ньютона (8.1.4) для системы Fx = = g' (x)T = 0, но с дополнительным параметром ak: /+1 = х* - akF (xk)~l Fx\ k = 0, 1, ... . B) Если Fxk Ф 0, то параметр ak можно выбрать так, что будет вы- выполняться условие A). Это утверждение вытекает из следующей леммы. 8.2.1. Предположим, что функционал g:DczRn->R1 является G- дифференцируемым в точке х ? int (D) и что g' (х) р > 0 при неко- некотором р ? Rn. Тогда существует такое б > 0, что g(x — ap)<g(x), Va<E@, б). Доказательство. Поскольку Нт A /a) [g (х - ар) - g (х)\ + g' (х) р = 0 и ё' (*) Р > 0» можно найти такое б > 0, что х —=• ap ? D для всех а б @, б) и (I/a) [g (х - ар) -g (x)] + g' {x)p<gf (x)p. I Для метода Ньютона положим pk = F' (xk) ] Fxk. Тогда неравен- неравенство g'(x*)ph>0 C) выполняется, например, если матрица Гессе Hg (xk) положительно определена, ибо тогда матрица F' (xk)~~l также положительно опре- определена и g' (xk) pk = (Fxk)T F' (xkrl Fxk > 0, D)
240 Часть III. Итерационные методы 8.2 при условии, что Fxk Ф 0. В этом случае в силу леммы 8.2.1 па- параметр ak > 0 можно выбрать так, чтобы значение xk+\ определен- определенное по формуле B), удовлетворяло условию A). Но если положить схЛ = 1, то может оказаться, что условие A) не выполняется, и тогда говорят, что метод Ньютона дает «перелет». Модификацию B) метода Ньютона с достаточно малым ak называют иногда демп- демпфированным методом Ньютона. Итерация B) есть итерация следующего общего вида: xk+l = xk-akpk, k = 0, 1, ... . E) Очевидно, что в таком виде можно записать любой итерационный метод при подходящих векторах рки скалярах ak. В контексте этой главы удобно мыслить вектор —pk как определяющий направле- направление, вдоль которого выбирается новое значение хк+\ а скаляр ak — как определяющий длину шага от xk до xk+l. Если ||/?fe||= 1, то величина ak равна просто расстоянию между точками хк и xk+l. Метод Ньютона, равно как и все остальные методы предыду- предыдущего параграфа, дает нам способ определения направляющих векторов — рк. Но, вероятно, концептуально наиболее про- простыми методами минимизации являются методы покоординатной релаксации, когда в качестве рк выбираются координатные векторы е1, ..., еп и, следовательно, итерации {#*} изменяются на каждом шаге только в одной компоненте. В классическом варианте такого метода в качестве координатного вектора на k-м шаге итерации выбирается тот, для которого локальное уменьшение максимально. Иными словами, номер i вектора е1 выбирается из условия Если знак при векторе е[ выбрать так, чтобы g' (хк) (±е{) > 0, то, очевидно, будет выполнено условие C) и в силу леммы 8.2.1 шаговую длину ak можно выбрать так, чтобы выполнялось неравен- неравенство A). Другим часто используемым способом является циклический выбор координатных векторов: /?*=±e*(modn)+1, й = 0, 1, ... . F) В этом случае функционал g уменьшается циклически отдельно по каждой переменной. Может случиться так, что g' (хк) рк = 0, даже если g' (xk) Ф 0. Но тогда, если критическая точка еще не достигнута, найдется номер k + т, т < п — 1, для которого gf (хк+т) рк+т > 0. Заметим, что выбор координатных векторов е1, ..., еп в качестве основных направлений носит лишь иллюстративный характер. С таким же успехом можно использовать любое множество q\ ..., qm ненулевых векторов, порождающих Rn> и выбирать на-
8.2 Гл. 8. Методы минимизации 241 правляющие векторы рк из числа векторов qi одним из указанных выше способов. Другой естественный способ выбора векторов рк, при котором выполняется условие C), таков: рк = g' (хк)т> если только g' (xk)T Ф фО. Иными словами, направление pk совпадает с направлением градиента функционала g. Такие методы принято называть гради- градиентными. К описанному классу тесно примыкает класс методов, в кото- которых —рк выбирается как направление максимального локального уменьшения функционала g. Если функционал g дифференцируем в точке хку то это то направление, для которого—g' (хк) pl\p\ как функция от р Ф 0 достигает своего минимума. Поскольку g' (хк) р является непрерывной функцией от р и множество {р \ \\р || = = 1} компактно, то такое «наилучшее» направление рк всегда существует, хотя оно не обязательно будет единственным. Так как g' (xk) б L (Rn, R1), то из B.2.9) следует, что таким образом, вектор рк определяет наилучшее направление, если \\g'(xk)\\ = g'(xk)pk/\\pk\\. Эти направления мы назовем направлениями наискорейшего спуска, и любой метод E), в котором используются только такие направ- направления, будем называть методом наискорейшего спуска. Очевидно, что неравенство C) выполняется для этих направлений, если gr{xk) Ф Ф0. Направление наискорейшего спуска зависит от вида исполь- используемой нормы. Для эллиптических норм справедлив следующий простой результат. 8.2.2. Если матрица С ? L (Rn) симметрична и положительно определена, а функционал g: D ? Rn -> R1 является G-дифферен- цируемым в точке х, то направлением наискорейшего спуска для функционала g в точке х при норме || х || = (хТСхI/г будет -C~lg'(x)\ G) Доказательство. Напомним, что если матрица С по- положительно определена, то существует действительная симметрич- симметричная матрица В, обозначаемая через Cv% для которой В2 = С (см. У 2.1.8). Для любого р Ф 0 в силу неравенства Коши — Шварца [g' (х) С~1С1/21 [gf (x) C'lCl/2)T (Cl/2p)T
242 Часть III. Итерационные методы 8.2 и очевидно, что, когда вектор —р имеет вид G), здесь имеет место равенство. | Заметим, что если в качестве С взять единичную матрицу, то р == g' (х)т. Таким образом, направление наискорейшего спуска в /2-норме противоположно направлению градиента. Как следует из 8.2.2, итерация /+1 = д*_akC-lg' {xk)\ Л = 0, 1 является методом наискорейшего спуска для нормы | х [| = (хтСх)х/*. Это наводит на мысль рассматривать методы аида /+1 в xk _ akCTig> {xk)\ Л = 0, 1 (8) в которых матрица Ck меняется в процессе итерации, но всегда остается симметричной и положительно определенной. Одна из интерпретаций итерации (8) состоит в том, что на k-м шаге новое зна- значение xkJrX выбирается в направлении наискорейшего спуска при норме | х \k = (xTCkxL\ Частным случаем итерационного процесса (8) является демпфи- демпфированный метод Ньютона B), для которого Ck = Hg (xk) при усло- условии, что матрица Гессе Hg (xk) положительно определена для всех хк. В качестве другого примера можно указать метод Давидона — Флетчера — Пауэлла (см. § 7.3), для которого x^\ (9) а матрицы Вк определяются рекуррентным соотношением Здесь В0 — произвольная симметричная положительно определен- определенная матрица (обычно берут единичную матрицу) и г* = /+1_**, 9* = 7'(/+1)T--<7'(*V, * = 0f I, .... A1) Для того чтобы убедиться в том, что (9) имеет вид (8), и даже прос- просто в том, что матрицы Bk корректно определены, необходимо пока- показать, что все Bk являются положительно определенными. Достаточ- Достаточное для этого условие дается приводимой ниже теоремой 8.2.4, которая основана на следующей лемме. 8.2.3. Пусть В б L (Rn) — симметричная положительно опреде- определенная матрица иг, q ? Rn удовлетворяют условию rT q > 0. Тогда матрица в = в + -^- —(Bq) (Bq)T rTq qTBq симметрична и положительно определен^.
8.2 . Гл. 8. Методы минимизации 243 Доказательство. Симметричность очевидна. Для дока- доказательства положительной определенности возьмем произвольную точку х ФОк положим у = В4' ху z == B4iq. Тогда, согласно нера- неравенству Коши — Шварца и условию rTq > О, zlz I Но (zTz)(/j/)--(*/TzJ>0 при уф$г% т. е. при В1/*хф$В1/% или л:=7^=р<7- В этом случае E=^0 (поскольку хфО) и, следовательно, (rTx)a = pa(rT<7)a>0, так что хтВх>0, | 8.2.4. Пусть функционал g: Rn -> R1 является G-дифференцируе- мым и удовлетворяет условию [?' (х) -g' (У)] (х-у)>0, Vх, у g /?", х#f/. A2) Тогда для любого а:0 существует такая последовательность чисел ak > 0, что итерации (9) — A1) корректно определены для всех k (если только при некотором k не окажется выполненным равенство g' (xk)T = 0, в случае чего итерационный процесс останавливается) и g (*H-i) < g (**). Доказательство. Будем рассуждать по индукции. Предпо- Предположим, что g[ (х*)тф0 и Bk — положительно определенная матрица. Тогда g' (xk) Bkg' (xk)T>0 и, согласно лемме 8.2.1, существует ak> >0, для которого g (xk+l) <g(xk). Очевидно что х/*~^1фхк, а тог- тогда ввиду A2) r[qk>§. Следовательно, матрица Bk+\ положительно определена по лемме 8.2.3. 1 Если g — квадратичный функционал вида A/2) хтАх — Ьтх + с, где матрица А б L (Rn) симметрична и положительно определена, а <xk выбраны так, что g минимизируется вдоль направлений {х \ х = = хк — aBkg' (xk)T\ a ? (—- оо, оо)}, то метод Давидона — Флетчера — Пауэлла сходится к A~lb не более чем за п шагов. Доказательст- Доказательство этого результата дано в приложении 1 (§ 8.6) к этой главе. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 8.2.1. Многие из основных идей минимизации восходят к работе Коши [1847], где впервые рассмотрены градиентный метод и метод наискорейшего спуска, а так- также некоторые из излагаемых в следующем параграфе алгоритмов выбора шаговой длины. ЗС 8.2.2. Демпфированный метод Ньютона описан в работе Крокетта и Черно- Чернова 1955], но, вероятно, он еще до этого использовался в вычислительной практике.
244 Часть III. Итерационные методы 8.2 ЗС 8.2.3. Интерпретация итерации (8) как метода наискорейшего спуска в неко- некоторой последовательности норм была использована Нашедом [1964, 1965] для анализа этой итерации. Наш анализ этих методов в гл. 14 основан на том наблю- наблюдении, что если матрица С^ положительно определена, то вектор pk = CjfV (xk)T не ортогонален градиенту g' (х ) . ЗС 8.2.4. Существует и другая интерпретация алгоритмов вида с симметричной положительно определенной матрицей С как градиентных методов в некотором другом базисе (см. Крокетт и Чернов [1955]). А именно, пусть С" = РРТ. Сделаем замену переменных у = Р"** и рассмотрим новый функцио- функционал g(y) = g (Ру), У ? Rn. Тогда g' (у) = gf (Py) P и итерационный процесс при- принимает вид Преобразование вида у = Р~хх> где Р — диагональная матрица, широко исполь- используется на практике для изменения масштаба переменных. ЗС 8.2.5. Основная идея метода Давидона — Флетчера — Пауэлла была пред- предложена Давидоном [1959], а сам метод в представленной здесь форме — Флет- чером и Пауэллом [1963], из работы которых и взята лемма 8.2.3. Вывод этого метода с помощью другого подхода дан в § 7.3. Давидон [1967] предложил также еще один, близкий метод. Последний вновь имеет вид модифицированного метода в смысле § 7.3 и задается соотношениями ' (xk)T, k = О, 1, . .. , ' (xk+l)T]T [Bkgf (xk+l)T] где xkJrX = xk — Bkg' (*т), со/г = 1, если g (xk^1) < g (xk), и щ = 0 в противном случае. Множители Я& должны быть выбраны подходящим образом. Этот метод никогда не использовался в вычислительной практике, и сам Давидон утвержда- утверждает, что предложенный им выбор множителей ^ может привести к «зацикливанию». ЗС 8.2.6. Стьюарт [1967] рассмотрел модификацию метода Давидона — Флет- Флетчера — Пауэлла, в которой не фигурирует производная g'. УПРАЖНЕНИЯ У 8.2.1. Пусть функционал g: Rl -> R1 определен равенством g (х) = A + + х2I!*. Показать, что итерации Ньютона для уравнения g' (x) = 0 обладают следующими свойствами: (а) если | х° \ < 1, то ^(^+1) < g (xk), k = 0, 1, . . . , и lim xk = 0; (б) если | х° | > 1, то g (xk+l) > g (xk), k = 0, 1, . . . , и lim | ** | = + oo. У 8.2.2. Пусть отображение F: Rn -> Rn непрерывно дифференцируемо и про- производная F' (х) невырождена при всех xS. Rn- Используя лемму 8.2.1, показать, что существует последовательность ай, k = 0, 1, ..., для которой демпфированный метод Ньютона B) удовлетворяет условию что сущету плдательность ай, k 0 метод Ньютона B) удовлетворяет условию
8.3 Гл. 8. Методы минимизации 245 (Заметим, что это упражнение служит дополнением к У 7.1.1.) [Указание: приме- применить лемму 8.2.1 к функционалу g (х) = (Fx)T Fx.] У 8.2.3. Показать, что алгоритм Давидона — Флетчера — Пауэлла не обладает свойством инвариантности относительно изменения масштаба функционала. Точнее, если {xk} — последовательность итераций для функционала g: Rn -» 7?1, a {xk} — последовательность итераций для g = eg, с Ф\, то хк Ф хк (Бард [1968]). 8.3. АЛГОРИТМЫ ВЫБОРА ДЛИНЫ ШАГА Рассмотрим теперь более подробно различные способы выбора длины шага ak в общем итерационном процессе x*+] = x*-akpk, 6 = 0, 1, ..., A) в предположении, что последовательность направляющих векторов {рк\ задана. (а) Принцип минимизации. Мы видели выше (лемма 8.2.1), что если gf (xk) pk > 0, то длину шага ak всегда можно выбрать так, чтобы g (xk+l) <.g (xk). Максимально возможное уменьшение при за- заданном направлении рк имеет место тогда, когда ak подбирается так, чтобы минимизировать функционал на прямой {x\x = xk— apk, a? ?R1}, т. е. когда ak удовлетворяет следующему принципу миними- минимизации: g (xk — akpk) = min {g (xk — apk) \x* — apk?D). B) Для многих целей множество значений а, по которым осущест- осуществляется минимизация в B), оказывается слишком большим, и мы рассмотрим сейчас другие возможности. Пусть через Lk обозначено множество уровня {х ?D \ g (х) < g (xk)}, и пусть L°k — линейно связ- связная компонента множества Lfe, содержащая хк. Тогда возможны такие две естественные модификации принципа B): g (xk - akpk) = min [g (xk - apk) \x*-apk?Ll), C) g (xk — akpk) = min {g (xk — apk) \ [xky xk — apk] a L°k). D) Здесь, как обычно, через U, у] обозначен отрезок [z\z = tx+(\-t)yy /e[0, 1]}. Различие между принципами B), C) и D) иллюстрируется рис. 8.1: минимизация D) осуществляется на отрезке Ль а минимизации C) и B) — на множествах Л2 U Л3 и Лх [) Л2 U Л3 соответ- соответственно. В случае когда имеет место ситуация, изображенная на рис. 8.1, численная реализация принципов B) и C) затруднена, так как не- необходимо как-то «выбраться» из множества L\. Кроме того, в неко- некоторых задачах требуется найти минимум функционала g только на компоненте bl, так что алгори может оказаться непригодным. компоненте L°, так что алгоритм, построенный на принципе B),
246 Часть III. Итерационные методы 8.3 Отметим, что если g — связный функционал (см. определение 4.2.3), то все его множества уровня линейно связны и принципы B) и C) идентичны. Аналогично, если функционал квазивыпукл (см. определение 4.2.5), то, согласно У 4.2.4, все множества уровня функционала выпуклы и все три принципа B) — D) идентичны. Рис. 8.1. (б) Принципы Карри и Альтмана. Если для одного из миними- зационных принципов B) — D) точка хк — akpk оказывается внут- внутренней точкой множества D, то ak является корнем производной от функции: ф (а) = ?(** — ар*), т. е. ak есть решение одномерного уравнения g'(#-ap*)pk = 0. E) Здесь мы предполагаем, что функционал g непрерывно дифферен- дифференцируем на D. Если, например, функционал g строго выпуклый в D, то уравнение E) имеет не более одного решения и ak будет ре- решением тогда и только тогда, когда выполняется B). Более общим образом, в связи с наиболее ограничительным принципом миними- минимизации D) заметим, что если функционал g строго выпукл на отрезке Ах (рис. 8.1), то снова ak — единственное решение уравнения E) на множестве {а | хк — apk ? Аг}. Для функционалов более общего вида уравнение E) может иметь решения, не являющиеся минимизаторами функции ф, как это пока- показано на рис. 8.2. Тем не менее в качестве шаговой длины ak по-преж- по-прежнему можно брать любое решение уравнения E). Действительно, при выборе (8.2.6) направляющих векторов это даст просто нелиней- нелинейный метод Гаусса — Зейделя G.4.26), примененный к уравнению Fx = g' (x)\ С другой стороны, желательно точно указывать, какой именно из корней уравнения E) берется. Если предположить, что знак век- вектора pk выбирается так, чтобы выполнялось условие gf (xk) pk > 0, то, согласно принципу Карри в качестве ak, следует взять наименьший
8.3 Гл. 8. Методы минимизации 247 положительный корень уравнения E). Тогда по теореме о среднем 3.2.7 1 g (xk — akpk) = g (xk) —ak[g' (xk — sakpk) pkds < g (**), ибо gf (xk — apk) pk > 0 для всех а ? [0, ak) и принцип Карри при- приводит к методу спуска. и а - минимизатор <х длина шага Карри Рис. 8.2. Согласно принципу Альтмана, весьма близкому к принципу Карри, при некотором фиксированном \х ? [0, 1) в качестве ak выбирается наименьший положительный корень уравнения \g' (xk - apk) - дет' (xk)] pk = 0. F) В случае \i = 0 F) сводится к E); если |и > 0, то, согласно принци- принципу Альтмана, ak — это первое положительное а, для которого g' (xk — apk) pk равно \х-и части своей первоначальной величины g' (x)kpk. Как нетрудно показать, такой выбор шага ak снова приводит к методу спуска при тех же условиях на функционал g (см. У 8.3.2). Принцип Альтмана дает немного, и вряд ли можно рекомен- рекомендовать его как практическую процедуру, но, как мы увидим в гл. 14 он является полезным теоретическим инструментом при иссле- исследовании других алгоритмов выбора длины шага. (в) Аппроксимальная минимизация и нахождение корней. Для применения принципов минимизации, равно как и принципов Кар- Карри — Альтмана, надо знать точное решение одномерных задач, но на практике мы должны обычно довольствоваться только их приближенным решением. В приложении 2 к этой главе (§ 8.7) приведено несколько одномерных алгоритмов поиска решения для задачи минимизации D); здесь мы рассмотрим другие приемы. Для того чтобы найти приближенное решение одномерной задачи минимизации, можно, конечно, следуя методам § 8.1, принять за ak минимизатор соприкасающейся параболы (а) = g (xk) - ag' (xk) Pk + 4- <*?g" (xk) pkp". G)
248 Часть III. Итерационные методы 8.3 Если g" (xk) pkpk > 0, то ak корректно определено и вычисляется явно по формуле *k = g'(xk)p4g"(xk)pkpb. (8) В случае когда величины g" (xk) и g' (xk) трудно вычислить, может быть желательно вместо соприкасающегося многочлена G) ис- использовать интерполяционный многочлен 2-го порядка г|), совпа- совпадающий с g (xk — apk) в трех точках Яь #2> #з (обычно аг = 0), и брать его минимизатор в качестве ak. Точная фор- формула для получающейся • таким образом шаговой длины дана в У 8.3.3. Минимизацию величины g (xk — apk) можно осуществлять итерационно — путем последовательной минимизации соприкасающихся (или интерполяцион- интерполяционных) парабол. С другой стороны, можно начать с принципа Карри и попытаться решить уравнение E) одним из одномер- одномерных итерационных методов, например ме- методом Ньютона. Если в этом случае с^ берется равным значению, полученному ровно за один шаг метода Ньютона, начинающегося с а = 0, то очевидно, что ak опять дает- дается формулой (8). Отсюда следует, что, когда направлениями pk служат направления (8.2.6), мы снова приходим к одношаговому методу ПВР — Ньютона G.4.28) (с со = 1), записывающемуся те- теперь так: соприка- соприкасающаяся параоола Рис. 8.3. (9) Аналогично, если направление pk совпадает с направлением гра- градиента, то при выборе длины шага (8) мы получаем (одношаговый) градиентный — Ньютона метод **+i e Xk _ [g> {J^ g {xkflg» {xk) g (xkfg> (^t, g, (^)Tj A=0, 1, ... . A0) Очевидно, что, используя другие одномерные алгоритмы отыс- отыскания корней, можно построить множество различных методов та- такого типа. Например, выполнив один шаг по методу секущих с начальной точкой а, получим шаговую длину ak - agf (xk) pk/[gf (xk - apk) - g' (xk)] pk. Алгоритм (8) для ak не обязательно приводит к методу спуска, даже если g" (xk) pkpk > 0, как это видно из рис. 8.3. Однако если цг (xk) pk > 0, то в силу леммы 8.2.1 всегда можно выбрать демп-
8.3 Гл. 8. Методы минимизации 249 фирующий множитель (множитель нижней релаксации) coft так, чтобы g(xk-ukakpk)<g(xk). Ясно, что возможность введения множителя cok не ограничивается лишь частным случаем шаговой длины (8); этот множитель можно точно также использовать при применении принципов минимизации или Карри — Альтмана. Так как в этих случаях мы имеем дело уже с методами спуска, то основанием для введения множителей со* служит обычно стремление увеличить скорость сходимости, и нам может понадобиться взять cok > 1. (г) Принцип мажорирования. Как только что отмечалось, ал- алгоритмы выбора длины шага, рассмотренные в разделе (в), не обя- обязательно приводят к методам спуска, если не использовать множи- множитель нижней релаксации. Как видно из рис. 8.3, затруднение воз- возникает из-за того, что график функции г|), минимизатор которой при- принимается за значение ak, может лежать ниже графика функции g (xk — apk). Этим подсказывается следующий принцип мажориро- вания. Если функция ty: [О, а] -> R1 такова, что g (xk - apk) < гр (а)< g (**), V а ? @, а), A1) то любая шаговая длина а* € @, а) A2) уменьшает значение функционала g. Один из способов построить такую функцию, по крайней мере в принципе, дается следующей леммой. 8.3.1. Предположим, что функционал g: D cz Rn -> R1 непрерыв- непрерывно дифференцируем HaD0 czD и модуль непрерывности производной g'\ DocnRn ->- L(Rn, R1) определен и непрерывен на [О, оо). Тогда для любых x?D0 и рфО 1 g(x-apL,g(x)-*g'(x)p + ajpl^(talpDdt A3) о при всех а, таких, что U, х — ар] cz Do. В частности, если g' удов- удовлетворяет при некотором X ? @, 1] неравенству tg'(x)-g'(y)l<ytx-yt Vx, tj?D0, A4) то ^г (х - ар) < g (х) - ag' (x) p + [Y/(l + Я)] (|| р || аI+\ A5) Доказательство. Для любого а, для которого х — ар ? ? Do, имеем в силу определения нормы || g' (x) — g' (у) ||
250 Часть 111. Итерационные методы S.3 Поэтому если U, х — ар] aD0, то по теореме о среднем 3.2.7 g (х — ар) = g (х) — ag' (х) р + а Г [g' (x) —g'(x — tap) ] pdt < о i <g{x)-agf{x)p + a,\\p\\^{at\p\)dL Наконец, если выполнено A4), то со(^)<7^ и неравенство A5) не- непосредственно следует из A3). | минимизатпор а первый минимизатор д ф г д для р нуль срг для ср Рис. 8.4. Пусть выполнены все предположения леммы 8.3.1 и xk?D0. Предположим, далее, что g' (xk) pk > 0, и возьмем a = sup {a > 01 [x\ xk — apk] d Do, ц (a) < g' (xk) pk\, где Поскольку т| @) = 0 и функция т) изотонна и поскольку gr (xk) pk > ЛЧ /Ч > 0, то а корректно определено и, очевидно, a > 0. Следовательно, /\ если U\ xk — apk]cD, то ввиду леммы 8.3.1 неравенство A1) выполняется при \р (а) = g (xk) — ag' (xk) pk + ат] (а). Допустимый выбор длины шага определяется теперь условием A2). В частности, в качестве ak можно взять то значение a ? @, a), которое минимизирует -ф, т. е. ae@, a)}. A6) Этот случай изображен на рис. 8.4. Заметим, что ни первый нуль производной g' (xk —- apk) pkt ни минимизатор функции ф (а) =
8.3 Гл. 8. Методы минимизации 25 = g (xk — a>pk) не обязаны лежать в интервале @, а). Если проиа водная g' непрерывна по Гёльдеру bD0, т. е. если выполняется не равенство A4), то в силу леммы 8.3.1 в качестве функции -ф можн взять г|) (а) = g И - ag' (xk) pk + [P/(l + X)] fl|p*||aI+\ В этом случае шаговая длина, для которой выполнено A6), даете явно формулой «k = D\pk\\)lgr (*k) Рк/Ф\\ркЫщ- (п (д) Допустимые множества шаговых длин и принцип Гольдсте* на. Принцип мажорирования позволяет найти допустимый интер вал A2) для шаговой длины ak, в котором выполняется условие спус ка A). Рассмотрим теперь несколько иной способ построения таки допустимых множеств шаговых длин. Предположим опять, что функционал g является G-дифференщ руемым в точке хк ? int (D) и g' (xk) pk > 0. Касательная к криво g (xk — apk) в точке a = 0 описывается уравнением t(a) = g(xk)-ag'(xk)pk. Таким образом, для произвольных ц1э \i2y удовлетворяющих услови] 0 < Hi < Иг < 1» кривые °t (a) - g (xk) - ViOLg' (xk) p\ i = 1, 2, лежат выше касательной; более точно, т (а) < а2 (а) < а1 (а), V а > 0. Рассмотрим теперь множество Jk = {a> 01 [xk, xk - apk] сД a2 (a) < g (xk — apk) < аг (a)}. Очевидно, что для любого a ? Jk имеет место соотношение g' (xk) pk<g (xk) -g(xk- apk) < ii2agf (xk) p\ которое показывает, в частности, что при любом выборе ал ^ J функционал g уменьшается, и мы получаем метод спуска. Это прш цип Гольдсгпейна. Здесь множество «/ — не обязательно интервал не обязательно пересекается с интервалом A2) из принципа мажор! рования. Соответствующая ситуация изображена на рис. 8.5. Заметим, что чем меньше разность ц,2 — (л1э тем меньше Jk\ предельном случае \i± = \i2 = \х имеем at (а) = а2 (а), так что ak дрпъ но удовлетворять уравнению g (xk — akpk) + \iakg' (xk) pk = g (xk). Первоначально принцип Гольдстейна был предложен в связи итерациями другого типа (типа метода Ньютона) в следующе формулировке. Пусть на fe-м шаге итерации направление рк таков< что g' (xk) pk>0, и задана пробная шаговая длина ак. Пуст]
252 Часть III. Итерационные методы 8.3 далее, 0 < \хг < \i2 < 1 — фиксированные постоянные. Если g (xk) -g(xk- akpk) > a^g' (xk) p\ A8) то в качестве очередной итерации мы берем точку мажорирующая (кривая интервал длина шага мажори- Карри рования мини- Jk a мизатор Рис. 8.5. Если же условия A8) не выполняются, то мы выбираем параметр соЛ так, чтобы О < ^сздг' (**) pk < g (xk) —g(xk— akakpk) < \i2(okakg' (xk) p\ A9) и полагаем Приводимая ниже лемма показывает, что всегда можно выбрать со/г так, чтобы A9) выполнялось. 8.3.2. Пусть функционал g: Dcz^-^R1 непрерывно дифференци- дифференцируем вДи пусть xk, ak > 0 и pk удовлетворяют условиям g' \xk) x X pk > 0, [xk, xk — akpk] c D и ИГ И -*(**- ^/?fe) < ИЛйГ' И Р* B0) для некоторого jLtx g @, 1). Тогда для любого \х2 € I^i» 1) сущест- существует такое сод, ? @, 1), что выполняется соотношение A9). Доказательство. Определим функцию -ф: [0, 1] -> i?1 равенствами -ф @) = 1 и ф (©) = [g (;*) - g(xk -<оаЛр*)]/[©сад' И р*], со ? @, 1]. Согласно правилу Лопиталя, lim<ip(a) = 1, так что функция «ф не- aO прерывна на отрезке [0, 1]. Поскольку ^(l)<fXi, T0 'Ф принимает все значения, заключенные между \их и 1. В частности, существует
8.3 Гл. 8. Методы минимизации 253 такое G)fe? @, 1), что \ix < \f> (cofe) < ц2, а это равносильно соотноше- соотношению A9). | Условие B0) показывает, что ак было выбрано слишком большим. Есть естественный способ уменьшения aki основанный на геометри- геометрических соображениях. Простейшая возможность состоит в исполь- использовании постоянного множителя \/q> где q > 1. Это означает, что в качестве соЛ берется наибольшее число из последовательности {q4}, для которого g (xk) — g{xk — (ok<*kpk) > №kakg' И Pk- Этот способ будет проанализирован в § 14.2. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 8.3.1. В некоторых случаях принципы минимизации (пункт (а)) дают очень медленную сходимость. Так, например, если g (х) = A/2) хт Ах— Ьт х + с — квадратичный функционал с симметричной положительно определенной матрицей А ? L (Rn) и у — отношение наименьшего и наибольшего собственных значений матрицы Л, то при pk = Axk — b и ct/j, выбранном, согласно B), скорость схо- сходимости градиентного метода A) при малых у приблизительно пропорциональна A — yI/z- Как легко показать для случая двух переменных, такая низкая ско- скорость сходимости получается из-за колебаний итераций туда и обратно поперек «узкого оврага» функционала g. ЗС 8.3.2. Глейзал [1959] предложил выбирать шаг а^ в демпфированном методе Ньютона (8.2.1) с помощью принципа минимизации B). В неявном виде это пред- предложение имеется также у Крокетта и Чернова [1955]. ЗС 8.3.3. Принципы Карри и Альтмана предложены соответственно Карри [1944] и Альтманом [1966а]. ЗС 8.3.4. Первым, кто привлек внимание к итерационному процессу A0) был Коши [1847], а в последнее время им занимались Альтман [1957], Кивистик [1960] и Красносельский и Рутицкий [1961]. ЗС 8.3.5. Для случая когда функционал g: Rn -* R1 удовлетворяет условию g (x) > 0 при всех х ? Rn (см., например, § 8.5), Коши [1847], а позднее Бут [1949] предложили вычислять шаговую длину с^ с помощью одного шага по Нью- Ньютону для уравнения g (xk — apk) = 0; иными словами, При pk = g' (xk)T итерационный процесс A) принимает тогда вид x*+i ejc*_[g (xk)l\\ g' (xk) |g] g' (хк)т , Л = 0, 1 что приводит к градиентному методу специального вида, изучавшемуся Альтма- Альтманом [1961г]. ' ЗС 8.3.6. Правило A7) выбора шаговой длины щ для частного случая pk = = g' (xky впервые рассмотрел Гольдстейн [1962]. При таком выборе векторов рк и при непрерывной по Липшицу производной gf формула A7) приводит в /2- норме к шагу щ = 1/C. Этим способом пользовался также Островский [1966] для по существу произвольных направлений pk. В обоих случаях под Р подразу- подразумевается здесь верхняя граница для g" (x), а не постоянная Липшица для g-t
254 Часть III. Итерационные методы 8.4 УПРАЖНЕНИЯ У 8.3.1. Пусть задан квадратичный функционал g (х) = хтАх — Ьт х+ с, где А — симметричная положительно определенная матрица. Если при произвольных р Ф 0 и х ? Rn выполнено соотношение g (х — ар) = min {g (x — 0р) | Р ? ? (—оо, оо), тс а = рт (Л* — 6) /рт Ар. У 8.3.2. Пусть функционал g: D с /?n -> R1 непрерывно дифференцируем на D и для xk ? D и pfe, таких, что g' (**) pk > 0, шаговая длина о^ выбирается по принципу Альтмана (и существует) при некотором \i ? [0, 1). Показать, что g(xk-akpk)<g(xk). У 8.3.3. Показать, что квадратичную функцию -ф == я|? (а), совпадающую с функ- функцией g (x — ар) в трех различных точках аъ а2, аЗУ можно представить в виде (а — ga) (а — а8) (а -~ а,) (а — д8) , (« — fli) (а — д8) „ V («1 - о%) («1 - «a) ' (я. - fli) («2 - «в) 2 («з - aj («з - Д2) ^3> где gi = g (х — atp)y i = 1, 2, 3. Показать далее, что а|) имеет минимизатор а тогда и только тогда, когда 2gj 2^2 . 2g3 и что тогда 1 D - «I) ft + D - аЬ ?2 + (Д1 - 4 a = 2 (a2 — «з) ^i + («з ~ ai) Я2 +(«i Записать выражения для ф и а" для частных случаев ах = 0, а3 = 2а2 и а2 = О, fli = — as. У 8.3.4. Пусть функционал g: D a Rn-> R1 непрерывно дифференцируем и ||g' W — g' (у) ||< vII^~ УII Для всех х> У ? ^о» гДе Д) — выпуклое подмножест- подмножество в D. Пусть Л? L(Rn) — симметричная матрица. Используя лемму 8.3.1, по- показать, что для любого х ? Do, для которого g' (x)T Ф 0, существует такое Я, что матрица А + XI невырождена и g(x-(A + Xirlg' (x)T)<g(x) (Маркардт [1963]). У 8.3.5. Пусть функционал g: D с Rn -> Rl равномерно выпукл на выпуклом множестве Do с D, и пусть у него существует непрерывная F-производная g', удовлетворяющая на множестве Do условию Липшица с постоянной /С. Показать, что найдутся такие постоянные 0 < \хг < ц2 < 1, что если g' (х) р > 0 при х ? Do и || р || = 1 и [A - е)//С] g*(x)p<y<[(l+ г)!К] gf (x) р, то ' (x)P<g W — g (x — ap) < jli3y^' (л:) р. 8.4. МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ Методы сопряженных направлений, первоначально разработан- разработанные для решения систем линейных уравнений, в явном или неявном виде служат основой ряда общих методов минимизации. Сначала мы рассмотрим основные свойства этих методов для случая мини-
8.4 Гл. 8. Методы минимизации 255 мизации квадратичного функционала c-bTx + ±-xTAx, A) где Л ? L (Rn) — симметричная положительно определенная мат- матрица. 8.4.1. Определение. Пусть А ? L (Rn) —симметричная положи- положительно определенная матрица. Два ненулевых вектора р, q ? Rn называются сопряженными (по отношению к матрице Л), если рт Aq = = 0. Система п векторов р1, ..., рп называется сопряженным ба- базисом, если векторы р1 и р> сопряжены друг с другом при всех / Ф Ф1 ¦ Поскольку матрица А положительно определена, можно ввести скалярное произведение (х, у)л = х1Ау. Следовательно, р и q со- сопряжены по отношению к матрице А тогда и только тогда, когда они А-ортогональны, т. е. ортогональны относительно этого скалярного произведения. Таким образом, векторы р1, ..., рп образуют сопря- сопряженный базис в том и только в том случае, когда они попарно орто- ортогональны относительно введенного скалярного произведения. Метод сопряженных направлений для функционала A) имеет вид xk+l = xk-akp\ * = 0, I, .... B) где рк суть Л-ортогональные векторы в Rn, а с^ определяется по принципу минимизации (см. У 8.3.1): ak = (Axk — b)T pk/(Apk)T pk. C) Основной результат о методе сопряженных направлений для случая квадратичного функционала состоит в том, что последовательность итераций {хк} сходится к единственному минимизатору функциона- функционала g за самое большое п шагов. 8.4.2. Пусть функционал g задается формулой A) с положительно определенной симметричной матрицей А ? L (Rn), и пусть р°, ... ... , рп~х — сопряженный относительно А базис. Тогда векторы хк, найденные по формулам B) — C), удовлетворяют уравнению хт = = A~lb при некотором т < п. Доказательство. Из B) и C) следует, что (Л/+1 _ ЬO р1 = (Ах* - ЬУ р1 - [(Ахк - b)T pk/(Apky pk] (Apk)T p1 для любых 0 < / < п — 1. Поэтому из взаимной Л-ортогональнос- Л-ортогональности векторов pi вытекает, что (Л/+1 - Ь)Т р1 = 1<<Ахк - Ь? Р1> IФ k> D) 10, / = k.
256 Часть til. Итерационные методы 8.4 - % Следовательно, (Ахп - Ъ)т р1 = (Ахп-1 - bf р! = • • • = (Axf+l - ЪI р1' = О при / = 0, ... , п — 1. Поскольку векторы р1 линейно независимы, то Ахп = Ь. Конечно, может случиться, что для некоторых пг<С.п Ахт = Ь. Тогда ат = О и, значит, хт = хт+1 = • • • = хп. | Основной момент алгоритма сопряженных направлений — найти сопряженные направления р°, ..., рп~{. Непосредственный способ их вычисления состоит в том, чтобы применить процесс ортогонали- зации Грама — Шмидта относительно скалярного произведения (я, у)л. Однако этот способ крайне неэффектен. Гораздо элегант- элегантнее метод сопряженных градиентов, в котором направление р] получается одновременно с xj по формулам ak = (Axk - b)T pk/(Apk)T p\ E) РК F) Здесь снова ak — шаговая длина, полученная по принципу миними- минимизации, а рл выбирается из условия (pk)T Apk+l = 0. Вот основной результат для метода сопряженных градиентов E) — F) (доказательство приведено ниже в приложении 1 к этой главе (§ 8.6)). 8.4.3. Если задан квадратичный функционал A) с симметричной положительно определенной матрицей Л, то итерации, полученные по методу сопряженных градиентов E) — F), удовлетворяют при некотором т < п соотношению хт = А~~ХЬ. Кроме того, (V)V = 0, [Фи 0<i\ /<m. G) Равенства G) показывают, что направления р\ полученные с помощью соотношений F), действительно являются попарно сопря- сопряженными. Рассмотрим далее несколько обобщений метода сопряженных градиентов E) — F) на случай неквадратичных функционалов. В первом из этих обобщений предполагается, что функционал g: D с Rn -+• R1 дважды F-дифференцируем. Тогда алгоритм Дэниэла определяется следующим образом: *= min (g {xk — apk) | xk — apk ? D}, (8) Если g (x) = с — frx + -i- xTAx, то g' (x)T = Ax — b и g" (x) hk = = b?Ah, так что алгоритм (8), очевидно, сводится к алгоритму E). Заметим в связи с алгоритмом (8), что матрица g" (x) положительно
8.4 Гл. 8. Методы минимизации 257 определена для всех х\ это гарантирует, что знаменатели в выр аже- ниях для Ря не обращаются в нуль. Другое обобщение метода сопряженных градиентов берет начало от эквивалентной формы соотношения F) для CА (см. § 8.6), а именно §k = — (Axk+] — by (Axk+l — b)/(Axk — by (Axk — b). (9) В соответствии с этим алгоритм Флетчера — Ривса определяется так: = xk — akpk, g {xk+]) = min {g (xk — apk) \ xk — apk ? D}, P° = *' (*У, P*+1 = g' (xk+ly - $kPk> A0) P* = - Заметим, что алгоритм (И) по сравнению с (8) имеет то преимуще- преимущество, что для вычисления очередного направления рк требуется толь- только g\ 6e3g-". Отметим также, что pk+l всегда можно вычислить, если g' (xk)T Ф 0 (если же g' (xky = 0, то минимум найден и вычисле- вычисления заканчиваются). Мы завершим этот параграф описанием процесса, который хотя и не сводится для случая квадратичных функционалов к методу со- сопряженных градиентов, но тем не менее носит черты определенного сходства с предыдущими алгоритмами. Это метод Розенброка. Предположим для простоты, что функционал g: Rn ->- R1 опре- определен на всем пространстве Rn. Процесс начинается с п взаимно ортогональных векторов ^0«°, ..., q°>n-1 и начального приближения х°. В конце k-ro шага итерации эти п + 1 векторов преобразуются в xk и п ортогональных векторов qk*°9 ..., qk>n~l\ шаг алгоритма со- состоит из двух этапов: I. Вычислить t j я о, . .., n - 1, A2) где akj определяются по принципу минимизации: g {ykti+l) = min {g (yk>i - aqbi) \ a g (—oo, oo)}. A3) II. Взять xk+{ =s yk'n и определить новый набор ортогональных векторов <7*+1'0, ..., qk+l* п~х, произведя процесс ортогонализации (Ррама — Шмидта) над векторами **+1-*/Ч / — О п —1. A4) Если векторы A4) линейно зависимы, то ортогонализуется система векторов хМ-1 - 0*.о, ..., x*+i — ^.«-'-1, е\ ..., е1у A5) где / — наименьший индекс, для которого наши векторы линейно независимы.
258 Часть III. Итерационные методы 8.4 Обычно в качестве первоначальной системы ортогональных век- векторов принимаются векторы q°>f = &+x, j = О, ..., п — 1, так что y*>j\ /= 1, ..., л, суть не что иное, как векторы, получающиеся с помощью нелинейного метода Гаусса — Зейделя. Цель ортогонали- зации системы векторов A5) состоит в том, чтобы получить множе- множество направляющих векторов ^+lf/» аппроксимирующих, в случае когда g является квадратичным функционалом уЛ^Ак — frx-^c, n собственных векторов матрицы А. Поскольку собственные векторы этой матрицы образуют сопряженный базис (см. У 8.4.4), метод Розенброка можно рассматривать как метод «асимптотически сопря- сопряженных направлений». ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 8.4.1. Впервые методы сопряженных направлений и, в частности, метод сопря- сопряженных градиентов были применены для решения систем линейных уравнений Хестинзом и Штифелем в ряде совместных и индивидуальных работ (см., напри- например, Хестинз и Штифель [1952]). ЗС 8.4.2. На первый взгляд удивительная теорема 8.4.2 на самом деле геометри- геометрически очевидна. Ясно, что для «диагонального» квадратичного функционала последовательная минимизация по координатным направлениям е\ .. ¦, еп приво- приводит к минимуму не более чем за п шагов. Для общего квадратичного функцио- функционала g(x)=z — хтАх— Ьтх-\-с замена переменных х = Ру, где Р*=я(р°, ... .,., р"""*1), приводит к новому функционалу / (У) S g (Ру) = -J- утРтАРу - ЬтРу + с. Но в силу определения сопряженного базиса матрица РТАР диагональна, так что / (у) имеет «диагональный вид». Следовательно, ввиду того что g(x- ар!) =*g(Py — aPel) = / (у - о*'), минимизация функционала g по направлениям р( эквивалентна минимизации функ- функционала / по координатным направлениям. ЗС 8.4.3. Для диагонального функционала из ЗС 8.4.2 последовательные шаги дают минимум функционала g в образующих возрастающую последовательность афинных подпространствах V (х°, ё1, ..., ek), k = 1, ..,, п, где в общем случае & у\ ..., yb) = \ Соответственно для общего квадратичного функционала g мы последовательно находим минимум в подпространствах V (х°; р1, ..., pk) (см. 8.4*2). ЗС 8.4.4. Метод Давидона — Флетчера — Пауэлла (8.2.9) — (8.2.11) можно рас- рассматривать как метод сопряженных направлений в том смысле, что направления х^1 — я*, k = 0, ..., п — 1, являются попарно сопряженными, если g — квад-
8.4 Гл. 8. Методы минимизации 259 ратичный функционал. Это будет показано в § 8.6. Аналогичная ситуация возни- возникает в предложенном Шахом, Бюлером и Кемптхорном [1964] методе параллель- параллельных касательных ^ив близком методе Пауэлла [1962]. Для дифференцируемых функционалов g: Rn ~+ R1 метод параллельных касательных представляет собой процедуру следующего вида: (а) Для заданного х° выбирается такое р1 ? Rn, что g' (x°) р1 Ф 0, и нахо- находится х1 как корень уравнения g (x1) = min {g (x° — ар1) | а ? R1}. (б) Выбираем такое р1 ? Rn, что g' {х°) р1 = 0 и g' (х1) р1 Ф 0, и находим х1 из условия g (х1) = min {g (х° — ар1) | а ? R1}. После этого полагаем р1 =r *° —. л;1 и находим х2 из условия g (х2) = min f g (x1 — ар1) | а ? Я1}. (в) На &-м шаге итерации, k < п — 1, р* выбирается из условия 0, / = 0, ..., k—l ?(хк)ркфЪ. fe fe Полагаем xk = xk — a^pfe, pfe = л^^ — л;/е и xk+l =xk — <Xkpk, где аи и а^ также выбираются по принципу минимизации. Можно показать, что если g — положительно определенный квадратичный функционал с единственным минимумом **, то х™ — х* для некоторого т < п и pk = д^"^ — xk, k = 0, 1, ..., m — 1 — попарно сопряженные векторы по от- отношению к матрице А. Если функционал g не является квадратичным, вообще говоря, алгоритм за конечное число шагов не оканчивается и после шага (в) итера- итерационный процесс продолжают, начиная с k = п — 1, или по следующему пра- правилу: (г) если k > л, то выбираем такое pft, что и продолжаем процесс, как указано в (в). Относительно элементарной геометрической интерпретации метода параллельных касательных см. Уайлд [1964]. ЗС 8.4.5. Алгоритм (8) принадлежит Дэниэлу [1967а], а алгоритм A0) — A1) — Флетчеру и Ривсу [1964]. Другой способ выбора коэффициентов рд- — определять их из условия g' (xk^~2) pk — 0. Этот способ был предложен Такахаси [1965]. ЗС 8.4.6. Метод Розенброка был описан в его работе [1960] в форме, несколько отличной от указанной в тексте. В частности, мы использовали предложение Сванна [1964] выбирать величины akt}- согласно принципу минимизации A3), а ортогонализовать систему векторов A5), в случае когда множество A4) ли- линейно независимо, предложил Элкин [1968]. На ортогонализацию в методе Розен- Розенброка расходуется основная масса времени. В связи с этим Пауэлл [1968] разра- разработал недавно более эффективную по сравнению с обычным методом Грама — Шмидта процедуру. Метод, близкий к методу Розенброка, был предложен также Баэром [1962а]. ЗС 8.4.7. Пауэлл [1964] придумал метод типа сопряженных направлений, обла- обладающий тем преимуществом, что в нем не нужны производные функционала g. Было заявлено, что для случая квадратичного положительно определенного функ- функционала g метод будто бы сходится за конечное число шагов, но Зангуилл [1967] построил контрпример, опровергающий это заявление. Кроме того, Зангуилл рассмотрел видоизмененную форму алгоритма, основываясь на одном предложении из статьи Пауэлла. * В оригинале «Partan (parallel tangents) method»,— Прим,
260 Часть 111. Итерационные методы 8.4 Для того чтобы описать алгоритм Зангуилла, допустим для простоты, что функционал g: Rn -* R1 определен на всем пространстве Rn> Так же как и в ме- методе Розенброка, итерационный процесс начинается с некоторой начальной точки х° я п линейно независимых единичных векторов д0'0, ..., q°tn~~{, а индекс/По при- принимается равным 1. По окончании (k— 1)-го шага (k > 1) определяется индекс m/г и п + 1 исходных векторов преобразуются в хк и п линейно независимых еди- единичных векторов qk'°f..., qk>n~l. Очередной шаг алгоритма состоит из двух этапов: I. Пусть mfe+1 —такой наименьший индекс, следующий за m/г (mod п) + 1, что где % определяется по принципу минимизации g (у*-0) = min {g (x* - fcmk+l)\ p e (- оо, + оо)}. Тогда yktI\ / = 1, ..., /г, вычисляется согласно A2) и A3). # II. Положим где g (/+1) = min {g (xk - ар)*) / а ? (~oo, + оо)}, и переобозначим векторы qk'! следующим образом: ^+1./ в ^./+if j=s0 п _ 2, /+1' "-1 = р*. Зангуилл показал, что, в случае когда g — квадратичный функционал с симмет- симметричной положительно определенной матрицей Л, векторы qk> n~k-\ qk> n-\ . . ., qk* «-\ k = О, 1, попарно сопряжены относительно А и, следовательно, итерационный процесс дает решение не более чем за п шагов. Зангуилл доказал также теорему о сходи- сходимости этого метода для случая, когда функционал g строго выпукл и непрерывно дифференцируем, а все точки у >0, ..., yk'n, x остаются все время в некотором ком- компактном множестве. Другая модификация метода Пауэлла рассмотрена Коваликом и Осборном [1968]. ЗС 8.4.8. Бокс [1966] и Леон [1966] провели численное сравнение нескольких рассмотренных здесь алгоритмов, в частности алгоритмов Давидона — Флет- чера — Пауэлла, Розенброка, наискорейшего спуска и параллельных касатель- касательных. УПРАЖНЕНИЯ У 8.4.1. Пусть g: Rn -» R1 — квадратичный функционал, задаваемый фор- формулой g (х) = — хтАх — Ьтх + с, где Л ? L (Rn) — симметричная положительно определенная матрица. Для произвольных точки х° ? Rn и линейно независимых векторов р°, ... pk~~l пусть Vk = V (х°, р°, . . . , pk~~l) — аффинное подпро- подпространство, определенное в ЗС 8.4.3. Показать, что единственным минимизатором сужения функционала g на подпространство Vu служит где Я/? ? L (R , Rn) — матрица, образованная столбцами р° р*".
8.5 Гл. 8. Методы минимизации 261 У 8.4.2. В условиях и обозначениях У 8,4.1 пусть р°, ..., р"" — сопряженный относительно матрицы А базис. Показать, что итерации B) — C) метода сопряжен- сопряженных направлений удовлетворяют соотношению У 8.4.3. Пусть ?(*) — — хтАх — Ьтх + с, где A?L(Rn) — симметричная положительно определенная матрица, и V — произвольное линейное подпростран- подпространство в Rn* Для любых z1, z2 ? Rn определим векторы у\ у2 условием = min g & + *), i=l, 2. ?V Показать, что вектор у2 — у1 Л-ортогонален любому вектору w?V. У 8.4,4. Пусть А ? L (Rn) — симметричная положительно определенная мат- матрица. Показать, что любые п линейно независимых отличных от нуля собственных векторов матрицы А образуют сопряженный относительно А базис. Вообще пока- показать, что векторы р1, ..., рп образуют сопряженный относительно А базис тогда и только тогда, когда Р = QUD, где Р = (р1 рп)> Q — матрица, образован- образованная собственными векторами матрицы Л, нормированными так, что QTAQ= /, U — произвольная ортогональная матрица, a D — произвольная невырожденная диагональная матрица. 8.5. МЕТОДЫ ГАУССА — НЬЮТОНА И СВЯЗАННЫЕ С НИМИ МЕТОДЫ Для заданных отображений F: DdRn' -> Rm к f: Rm -+ R1 опре- определим функционал g: DczRn-+Rl равенством , Vx?D. A) Как отмечалось в § 4.1, если f есть квадратичный функционал "Хтх1 то минимизатор функционала g(x)=*±(FxrFx B) дает решение по методу наименьших квадратов уравнения Fx = 0. С другой стороны, если m = пи х = 0 — единственный глобальный минимизатор функционала /, то функционал g, задаваемый форму- формулой A), имеет глобальный минимизатор л;* тогда и только тогда, когда Fx* = 0. Следовательно, алгоритм минимизации функционала A) является алгоритмом решения уравнения Fx = 0. Конечно, к функционалу A) можно применить любой из описан- описанных в предыдущих параграфах методов, и в этом параграфе мы рассмотрим лишь некоторые дополнительные методы, использующие специальный вид функционала A). Предположим, что отображение F является ^-дифференцируе- ^-дифференцируемым bD и xk — некоторое приближение к минимизатору функциона- функционала A). Тогда естественный способ получения следующего прибли- приближения х*+1 состоит в минимизации функционала C)
262 Часть III. Итерационные методы 8.5 полученного линеаризацией функционала F вблизи точки хк. Если функционал / дважды ^-дифференцируем, то в качестве мини- мизатора функционала C) можно приближенно взять значение, получаемое после одного шага итерации Ньютона (8.1.4), начинаю- начинающейся с точки xk. Поскольку *; w=f (Fxk + F и (* -xk))F и и матрица Гессе задается формулой Hgk (х) = F' (xky Hf (F* + F (xk) (x - xk)) F' (**), мы приходим к алгоритму = xk— [F' (xk)J Hf (Fxk) F' (х*)Г1 F' (xky f (Fxky, D) где, конечно, предполагается, что указанные обратные матрицы су- существуют. В частном случае / (х) = -у хтх алгоритм D) сводится к методу Гаусса — Ньютона: = xk — [F' {xky Ff [хк)Гх Fr (xky Fxk, k = 0, 1,¦ ... . E) Поэтому метод D) мы будем называть обобщенным методом Гауе- ей — Ньютона. Заметим, что хк+х из E) есть просто единственный глобальный минимизатор квадратичного функционала [Fxk + F' {xk) (x — xk)Y [Fxk + Fr (xk) (x — xk)\ и, следовательно, метод E) для функционала B) является методом параболоидов в смысле §8.1. Наряду с E) можно также рассматривать модифицированный метод Гаусса — Ньютона с параметрами соЛ и Xk: XW = xk _ ^ ^ (Xky f' (xk) + Xkir] F' (xky FxK F) Поскольку матрица Fr (xk)T F' (xk) симметрична и положительно по- полуопределена, то обратная к ней матрица, используемая в F), всегда существует, если только A,fe>0. Как и в § 8.2, параметр щ можно подобрать так, чтобы g (xk+x) < g (xk). Этого можно достичь также и за счет выбора параметров Xk (см. У 8.3.4). Если вычислить F' (х) трудно, то можно, как и в § 7Л, аппрок- аппроксимировать производные разделенными разностями. В этом случае получается дискретный метод Гаусса — Ньютона. Или же, как в § 7.2, можно воспользоваться аппроксимацией производной F' (х), применя- применяемой в методе секущих. Пусть на k-u шаге п + 1 точек я*»/, / = 0, 1, ..., п, находятся в общем положении (см. определение 7.2.1). Рассмотрим интерполяционное аффинное отображение Lk\ Rn-> ->#", задаваемое формулой * G)
8.5 Гл. 8. Методы минимизации 263 где ak ? #" и Ak? L {Rn, Rm) выбраны так, что Lkx*J = FxW9 / = 0, 1, ..., п, (8) (см. У 8.5.1). Далее, аппроксимируем квадратичный функционал B) функционалом J (9) и за л;**1 примем минимизатор для gk. Если т>/г и точки Fxk>i, j = 0, 1, ..., я, находятся в общем положении в Rn\ то, как и в п. 7.4.3, мы найдем, что ранг матрицы А равен п и, следовательно, матрица ATkAk невырождена (см. У 8.5.1). Таким образом, функцио- функционал (9) имеет единственный глобальный минимизатор, определяемый формулой хш = _ (AUk)'1 Afrk. A0) Для того чтобы представить (9) в форме метода Гаусса — Нью- Ньютона E), поступаем, как и в § 7.2. Введем матрицы Hk = (xk>1 — xk>\ ..., х*-п — xk>% Tk = (Fxk>1 — Fxk*°, ..., Fxk>n — Fxk>°). Как и в п. 7.2.6, из G) и (8) следует, что где положено хк^ = хк. Поэтому A0) можно переписать так: l ll (ГкНь1у Fx* = A1) Это основная форма метода Гаусса — секущих. Мы можем воспользоваться здесь любым из указанных в § 7.2 способов выбора точек, что, как и в методе секущих, может привести к значительному уменьшению вычислительной работы. Так, на- например, если выбрать некоторый номер /0 и взять д*Ш = **./, / = о, ..., л, / Ф /о, х^'/о = xk+\ то матрицы rj+iIV|_i и Г^Г^ будут отличаться друг от друга толь- только /0-й строкой и /-м столбцом. Следовательно, матрицу (rj^iIVj-ip1 можно получить из (Г^Г^)-1, дважды применяя формулу Шермана — Моррисона B.3.14). Однако, как и в методе секущих, такая про- процедура может оказаться неустойчивой и пользоваться ею следует с осторожностью. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 8.5.1. Метод Гаусса — Ньютона E), называемый иногда также методом Гаусса или методом дифференциальных поправок, рассматривался целым рядом авторов: см. например, Хартли [1961], где обсужден метод F) для ^ <= 0 и со*,
264 Часть III. Итерационные методы 8.5 выбираемых исходя из принципа минимизации. Заметим, что метод E) не являет- является методом Ньютона, примененным к градиентному уравнению для функционала g (х) = — (Fx)T Fx. Действительно, если отображение F: Rn -> Rm дважды диф- дифференцируемо, то g' (x)r = F' (x)TFx, Hg (x) - F" (x) Fx + F' (x)T F' (x) и, следовательно, метод Ньютона для g' (*)T = 0 имеет вид х*+х = xk — [F" (xk) Fxk + F' (xkf F' (jc*)]-1 F' (xkf Fxk. A2) Заметим также, что если т= п и производная F' (xk) невырождена, то метод E) сводится к методу Ньютона для уравнения Fx = 0, а метод A2) нет. ЗС 8.5.2. Введение параметра А# в методе F) было предложено Левенбергом [1944]. Маркардт [1963J использовал также этот параметр для того, чтобы добить- добиться выполнения условия g (xk+l) ^ g (xk) (см. У 8.3.4). ЗС 8.5.3. Существует много различных алгоритмов выбора длины шага, пригод- пригодных для применения в связи с минимизацией функционала g (х) = / (Fx) и исполь- использующих специальный вид этого функционала. От точного принципа минимизации, требующего, чтобы был минимизирован функционал / (F (xk — ос/?*)), можно отойти, потребовав, вместо этого, как и в методе Гаусса — Ньютона, чтобы миними- минимизировался функционал f (Fxk—aF' (xk) pk). В этом случае f (x) = хТх и а* находится явно: ak = (Fxkf F' (xk) pk/[F' (xk) pk]J Ff (xk) pk. При другом способе ад» выбирается как минимизатор функционала / (xk — apk — — х*), где х* — решение уравнения Fx = 0. Так как х* не известно, то этот минимизатор не может быть найден точно. Но если xk близко к **, то хк — х* = F' (xkyx Fxk и ос? можно определить как минимизатор функционала f(F' (xk)~~l Fxk — ар*). Снова в случае f(x) = x*x шаговая длина ад находится явно: a^O^Wr1 Fxkf(pk)T pk\ при pk «=s g' (xk)T s= F' (xk)T Fxk получаем алгоритм xk+l =xk— [(Fxk)T Fxkl(Fxkf F' (xk) F' (xk)T Fxk] Ff (xkf Fxk, исследованный Фридманом [ 1961 ]. ЗС 8.5.4. Если F: Rn -* Rm, m> n и ранг матрицы F' (xk) меньше п, то мат- матрица F' (xk)TFf (xk) вырождена и очередной шаг итерации Гаусса — Ньютона E) не определен. Бен-Израэль [1965] предложил в этом случае заменить E) соотно- соотношением **+* = xk — F' (xk)+ Fx\ A3) где для произвольного A f L (Rn} Rm) через Л+ обозначен обобщенный обрат- обратный к нему, определяемый как единственный линейный оператор в L (Rm, /?п), удовлетворяющий соотношениям АА+А = А, Л+ ЛЛ+ = Л+, (Л+Л)т « А+ А, (ЛЛ+)Т » АА+
8.6 Гл. 8. Методы минимизации 265 (см., например, Пенроуз [1955]I*. В частности, если матрица ЛТА невырождена, то А^ = (АТА)"~1АТ, так что всякий раз, когда ранг матрицы F' (Xй) равен /г, итерация A3) сводится к E) (см. также ЗС 7.3.9). ЗС 8.5.5. Модифицированные методы в смысле § 7.3 легко строятся и в контексте этого параграфа. Рассмотрим, например, итерацию xk _ (BTkBk)-1 BTkFxk, k = О, 1, где F: Rn -> Rm и Bk?L{Rn, Rm). Если Bk+l получается заменой одного столбца в матрице Bk на вектор 6fe, то матрицу (В\^хВк^х]~~х легко вычислить по матрице (В^Б^)", дважды применяя формулу Шермана — Моррисона B.3.14). Так же как и в § 7.3, в качестве bk можно взять F' (xk)(xkJrX —xk). Аналогич- Аналогичный способ с заменой производных на разностные отношения был предложен Пауэллом [1965]. ЗС 8.5.6. Вычислительные аспекты методов, представленных в этом параграфе, обсуждались Пауэллом [1965], Мэддисоном [1966], а также другими авторами. УПРАЖНЕНИЯ У 8.5.1. Пусть точки *°, ..., хп? Rn находятся в общем положении и У0, • • •, Уп? Rm* tn^ п. Используя метод доказательства теоремы 7.2.3, пока- показать, что существуют такие a?Rm и А? L(Rn, Rm), что а-\-Ах*=у1, /«= е= 0, . . ., п. Показать, далее, что ранг матрицы А равен п тогда и только тог- тогда, когда точки у0, ..., уп находятся в общем положении. 8.6. ПРИЛОЖЕНИЕ 1. СХОДИМОСТЬ АЛГОРИТМОВ СОПРЯЖЕННЫХ ГРАДИЕНТОВ И ДАВИДОНА — ФЛЕТЧЕРА — ПАУЭЛЛА ДЛЯ СЛУЧАЯ КВАДРАТИЧНЫХ ФУНКЦИОНАЛОВ В этом приложении мы покажем, что метод Давидона — Флет- чера — Пауэлла, рассмотренный в §8.2, и метод сопряженных гра- градиентов, рассмотренный в § 8.4, в случае квадратичных функциона- функционалов сходятся за конечное число шагов. Доказательство следующе- следующего результата для метода сопряженных градиентов заимствовано нами у Хестинза [1956]. 8.6.1. Для квадратичного функционала g (х) = -=- хтАх — Ьтх + с, где А ? L(Rn) — симметричная положительно определенная матрица, итерации, полученные по методу сопряженных градиентов (8.4.5) — (8.4.6), удовлетворяют соотношению хгп = A~lb с m < п. Кроме того, (V)TP'=0, 1Фи 0<i\ /<m. A) Доказательство. Прежде всего заметим, что ak и |3fe, а сле- следовательно, xk+l и pk+l корректно определены при условии, что р* Ф 0. Если р° = Ах° — 6 = 0, то а:0 является искомым решением и A) выполняется тривиальным образом. Предположим теперь, что ^ Фаддеев и Фаддеева [1974]*,— Прим. ред.
266 Часть III. Итерационные методы 8.6 ркФО, k = О, ..., пг — 1, при некотором пг < n, и введем векторы гк = Ал;* —-6, & = 0, ..., пг. Ясно, что rk ф О, а следовательно, и а* =? 0 для k --= 0, ..., m — 1, ибо если г' -= 0, то §нх = 0, что приводит к противоречию: р> = г' = 0. Заметим, что соотношение jc'+i = х' — а;р>, / = 0, , пг — 1, эквивалентно соотношению = г/ _ а/Лр/, / = 0, ..., m — 1, B) и, следовательно, по определению величин а/ (гЖ)т pi = (г/)т р/ _ ((гу)т р//(Лр0т Р''] (Ар'У pf - 0, C) / = 0, .... /n—1. Точно так же по определению величин р; (Apf+*)Tpi = (i4r/+1)T p7' — Р/ (Л/?/)т /?/ = 0, / = 0, ..., m — 1. D) Рассуждая по индукции, допустим, что E) и л при fe < m. Очевидно, из C) и D) следует, что равенства E) и F) выполняются для k = 1. Далее, из E), F) и B) вытекает, что (г*+1)т г/ = (rfc _ akApky ri в (r*)T r/ _ ал (i4p^)T (р/ + р7_1р/-1) = О, /-0, ..., k — l. G) Здесь мы принимаем соглашение, что P_i == 0. Кроме того, в силу C)E) Таким образом, F) выполняется для k + 1. Для того чтобы показать, что и E) выполняется для k -|- 1, заметим, что )T Api = (г*+»)т Ар/ = /а/) (г/ - гЖ)] = 0, / = 0 Л— 1, так как а/ Ф 0. В то же время в силу D) (Лр^1O pk = 0. Тем са- самым индукция завершена и равенство A) доказано. Теперь докажем первое утверждение теоремы. Предположим, что m < п и рт == 0. Тогда из C) следует, что 0 = {рту рт = {rmy rm _ 2p + Р^_, (Pm~J)T Pm~l Следовательно, .к™ = А~~ХЬ. Если же пг = п, то векторы р°, ..., р"*1 образуют сопряженный относительно А базис и наше утверждение следует из теоремы 8.4.2. |
8.6 Гл. 8. Методы минимизации 267 В качестве следствия из E) и F) мы установим справедливость формулы (8.4.9) для вычисления f^. 8«6«2« Вычисление величин рЛ по формулам (8.4.6) эквивалентно их вычислению по формуле рЛ = — (Axk+l — by (Axk+{ - b)/{Axk — by (Axk — b). Доказательство. В силу C) а согласно F) и E), Следовательно, pfe = — (р*+1)т rk+l/(pky rk = — В заключение этого приложения покажем, что итерации Дави- дона — Флетчера — Пауэлла сходятся не более чем за п шагов, если g: Rn -> R1 есть квадратичный функционал 8 W = 4"хТАх ~ bTx + с' (8) В этом случае итерационный процесс (8.2.9) — (8.2.11) принимает вид = xk — akHk {Ax* - b)9 (9) где г* = л*+1 — jc*f qk = Ark. A1) Мы предположим, кроме того, что ak определяется по принципу ми- минимизации, т. е. ak = (Axk - bI Hk (Axk - b)/(Axk - 6)т Я^^ И** - Ь). A2) Флетчер и Пауэлл [1963] доказали следующее утверждение. 8,6.3. Пусть Л, Но? L (Rn) — симметричные положительно опре- определенные матрицы. Тогда для любого х° ? Rn итерации (9) — A2) корректно определены и хт = РГХЬ при некотором m < п. Кроме того, если х* Ф A~lb при ^ = 0, ..., п — 1, то #„ = Л"*1. Доказательство. Предположим, что матрица Hk корректно определена и является симметричной и положительно определенной и что xk ф A~~lb. Тогда а^>0 и, значит, (rk)rqk>Q. Поэтому в силу леммы 8.2,3 матрица Hk+i корректно определена и также является симметричной и положительно определенной. Следовательно, по индукции все ^ корректно определены при условии, что х*-1 Ф
268 Часть III. Итерационные методы 8.6 Ф А~~1Ь, и мы можем предположить, что хк =? Л~!6, k = О, ... ..., п — 1, ибо в противном случае наше утверждение доказано. Прежде всего заметим, что ak является единственным миними- затором функции % и, значит, корнем уравнения ф' (а) = 0. Итак, (Axk+* - b)Trk = 0, k = 0, ..., п— 1. A3) Кроме того, из A0) и A1) видно, что НшАг* = Hkqk + rk-Hkqk = r\ k = 0, 1, ..., n- 1, A4) так что, в частности, НгАг°9 = г° и, согласно A3), (Г1)т Лг° = - ах \Н1 {Ах1 - Ь)? Аг° = - ах {Ах1 - Ь)т г° = 0. Докажем теперь по индукции, что HkAri = n\ / = 0, 1, ..., k-l9 A5) и (гОМг/ = 0, 1Ф1% 0<f, /<ft, A6) для k = 1, ..., «. Для & = 1 справедливость равенств A5) и A6) уже доказана. Предположим, что они выполняются для k < п. Тогда для 0 < / < k — 1 мы имеем в виду A0) (rfe)T i4r^ = ; В силу A4) это верно также и для / —k. Следовательно, A5) оста- остается справедливым при замене k на k -f-1. Далее, заметим, что и, значит, согласно A5) и A3), (г/)т (Л**+1 _ ft) = (Г/)Т (ЛЛГ/+1 - Ь) = 0, V / < к. A7) Таким образом, - b)T Hk+xAri = для /==1, ...» &. Тем самым индукция завершена и установлена справедливость соотношений A5) и A6) для всех &<я. По предположению xk Ф A~~lb для k = 0, ..., /г — 1, поэтому гкф0, k = 0y ...Уп—1. Следовательно, по теореме 8.4.2 хп ~ = A~~lb. Наконец, A5) показывает, что матрица НпА имеет п ли- линейно независимых собственных векторов г°, ..,, гп~1 с собствен- собственным значением единица, так что НпА ** I. ¦
87 Тл. 8. Методы минимизации 269 8.7. ПРИЛОЖЕНИЕ 2. МЕТОДЫ ПОИСКА ДЛЯ ОДНОМЕРНОЙ МИНИМИЗАЦИИ В пункте (а) § 8.3 мы ввели принципы точной минимизации для определения длины шага. В этом приложении мы обсудим несколь- несколько методов приближенной минимизации функций одной переменной и, в частности, функций следующего специального класса. 8.7.1. Определение. Функция ср: [а> b] a R1-+R1 называется строго одновершинной на отрезке [а, 6], если существует такое t* € [а, 6], что ф(/*) = min {ф (f)\t? [а, Ь]} и для любых а < tx< из условия ?2</* следует, что ф&)>ф(/2), из условия <*</х следует, чтоф(^а)>ф(/1). | * ' Очевидно, что для любой строго одновершинной на отрезке [а, 6] функции существует единственный глобальный минимизатор на [а, 61. Как показывает следующий результат Эл-кина [1968], строгая одновершинность эквивалентна строгой квазивыпуклости (см. опре- определение 4.2.5). 8.7.2. Предположим, что для функции ф: [а, 61с:/?1-*/?1 суще- существует такое I* ? [а, 6], что ф (/*) = min {ф (t)\t ? [а, 6]}, Функция Ф строго одновершинна на [а, 6] тогда и только тогда, когда она строго квазивыпукла. Доказательство. Предположим, что ф строго квази- квазивыпукла и а < tx < t2 < 6. Тогда если tx < t2 < t*, то ф (t2) < max {ф (tj9 ф (t*)} = ф (^), и если /* < tY < /2, то ф (tj < max {ф (^2), ф (/*)} = ф (/2), откуда вытекает, что функция ф строго одновершинна. Обратно, предположим, что ф строго одновершинна на [а, 6], и положим ta = A — а) tx + at2, 0 < а < 1. Тогда если t*>ta> tv то ф (ta) <ф [tt) < max (ф (tt)t ф (/2)}, и если f < ta < t29 то ф (ta) < ф (/2) < max {ф (у, ф (/2)}, откуда вытекает, что ф строго квазивыпукла. | Пусть функция ф строго одновершинна на [а, 6] с минимизато- ром /* и tx и /2 — Две произвольные точки, такие, что а < /х < /2 < < 6. Тогда если ф(/1)>ф(/8)| то /*б(^, 6), - если ф (/J = Ф (/2), то /* б (/,, /2), B) если ф (/t) < ф (Q, то /* ? (а, /2). Следовательно, вычисляя значения функции ф в точках tx и tt и сравнивая их между собой, можно с помощью соотношений B)
270 Часть III. Итерационные методы 8.7 уменьшать размеры интервала, про который известно, что он со- содержит /*. Эту идею нетрудно использовать для построения последователь- последовательности, сходящейся к /*. Простейший способ такой. Начинают с се- середины отрезка /0 = (а + 6)/2, и если ср, скажем, убывает при t > to> то затем просматривают значения функции в точках t0 + -\-jho, / =1, 2, ..., до тех пор, пока не находят точку tv начиная с которой ф снова возрастает (или пока не достигают концевой точки Ь). Затем повторяют эту процедуру, начиная с точки tx и с уже меньшей шаговой длиной hv На рис. 8.6 приведена блок-схема алгоритма такого типа, принадлежащего Берману [1966]. Общее число вычисляемых значений функции, необходимых для выполнения k шагов алгоритма, зависит от расположения минимиза- тора t* на отрезке [а, Ь]. Если, например, t*= b, то, очевидно, Ввод Вывод ) h:=h/c? w:=.FALSE. S:=+l ик-TRUE. да, нет sh da jL w = .TRUE, У+ ( y<p \нет w: = TRUE. v:*x+±sh да уем Рис. 8.6.
8.7 Гл. 8. Методы минимизации 271 требуется максимальное число вычислений значений функции ф на каждом шаге, скажем, q, так что за k шагов мы вычисляли значения функции kq раз. Число вычислений значений функции будет тем меньше, чем ближе /* к t0. Берман [1966] показал, что, например, для q =4 «ожидаемое» число вычислений равно трем, и асимптоти- асимптотически при q -»» оо это ожидаемое число вычислений стремится к q/2. Другим важным процессом минимизации является метод по- поиска Фибоначчи. Основная идея этого метода состоит в построении некоторой последовательности двухточечных поисков для уменьше- уменьшения интервала неопределенности, причем поисковые точки t\, /2, k = 0, 1, ..., выбираются так, что если, например, первым умень- уменьшенным интервалом неопределенности является отрезок [а> $1, то точка t\ используется как одна из следующих поисковых точек. Другими словами, мы полагаем t[ = й и т. д. Задача состоит в вы- выборе такой последовательности {/?, /<•>}, для которой уменьшение длины интервала неопределенности было бы максимальным. Кифер [1953] показал, что оптимальный способ выбора точек. tu й таков. Пусть xfe+i= xk + тЛ_ь т0 = хх = 1, k = 1, 2, ..., C) — последовательность Фибоначчи и М > 0 — максимальное число двухточечных поисков. Тогда мы используем точки t\+x = {xM-i-khM+x-k){bk-ak) + a\ \ ... и /г = 0, 1, ..., М — 2. D) *2+1 - (хм-kfrM+i-k) (bk - ak) + а\ j Здесь а° = а, Ь° = ft и Mi = tp-\ если ф ^ < ф E) для k = О, 1, ..., М — 2. Для k = М — 1 формулы D) нужно ви- видоизменить. А именно, если е > 0 — максимальная ошибка округле- округления при вычислении функции ф, то ' ^^^(ам + Ьм'1)-в9 t? = ±-(aM-l + bM~l) + B. F) Легко доказать, что для & = 1» 2, ..., Af — 2 tf+1 = ak + {й — t\)y /2+1 = й, если ф {t\) < ф (/г), G) H s== *2> *2 SO — (*2 — И], еСЛИ ф (t\) ^ ф A2).
272 Часть III. Итерационные методы 8.7 Это показывает, что на каждый шаг процесса требуется только одно вычисление значения функции, за исключением шага, соответст- соответствующего k = 0. Наконец, легко проверить, что |(тл1_*/тл!+1_*) Фк — ak) для k < M — 2, откуда Ьм-ам=*Bтм+хГ1Ф-а) + в. Таким образом, можно определить число М, исходя из верхней оценки желаемой длины интервала. Оверхолт [1965] показал, что вычисление последовательности Фибоначчи с помощью G) приводит к численной неустойчивости. Поэтому для вычислений следует использовать исходные формулы D). Интересно сравнить эффективность алгоритма Бермана и мето- метода поиска Фибоначчи. Если в первом случае использовать q =4, то, как отмечалось выше, «ожидаемое» число вычислений значений функции на шаг равно трем и, следовательно, на одно вычисление приходится уменьшение длины интервала неопределенности в 4"/3 « 0,63 раза. Уменьшение длины интервала в методе поиска Фибоначчи равно 2/A +1^5) да 0,62. Коэффициент уменьшения 0,63 в методе Бермана представляет собой, конечно, лишь среднюю величину; он может быть значительно меньше, но может быть и столь большим, как 4~/4 « 0,87.
Часть IV ЛОКАЛЬНАЯ СХОДИМОСТЬ Как отмечено во введении, двумя из наиболее важных проблем при изучении итерационных процессов являются следующие: (а) Когда итерации сходятся? (б) Как быстро они сходятся? В по- последующих трех главах мы будем изучать эти задачи с «локаль- «локальной» или «асимптотической» точек зрения. Если последовательность [хк] сходится к **, то иногда отно- относительно легко сделать заключения об асимптотическом поведении вектора ошибки хк — х*, т. е. о его поведении при k, стремящемся к бесконечности, и в то же время мы мало что можем сказать о нем, когда k мало. Аналогичным образом, часто бывает значительно лег- легче доказать сходимость итерационного процесса, если начальные приближения предполагаются близкими к искомому пределу #*, чем в том случае, когда им позволено изменяться в некоторой боль- большей области. Эти два наблюдения служат основой всех рассмотре- рассмотрений, проводимых в этой части. Получающиеся в результате локаль- локальные теоремы весьма важны не только потому, что они служат пер- первыми, а возможно единственными, утверждениями о сходимости*, но и, что имеет еще большее значение, потому, что они характери- характеризуют с теоретической точки зрения поведение определенных итера- итерационных процессов в окрестности решения. Сходимость итерацион- итерационных процессов с «нелокальной» точки зрения мы будем изучать в следующей части. Материал этой части организован так. В гл. 9 мы вводим две различные меры асимптотической скорости сходимости последо- последовательностей и итерационных процессов, аналогичные соответст- соответственно признакам корня и отношения в теории сходимости рядов ^. Эти меры дают точный способ сравнивать асимптотические скорости сходимости различных итерационных процессов и тем самым опре- определять, какой из двух процессов сходится «быстрее». В гл. 10 и 11 изучаются скорость сходимости и локальная схо- сходимость, сначала с общей точки зрения, а затем применительно к некоторым важным конкретным процессам. В частности, в гл. 10 рассматриваются одношаговые процессы вида xk+{ = Gxk, k = = 0, 1, ..., а в гл. 11 проводится более сложный анализ нестацио- нестационарных и многошаговых методов. Большинство результатов о скорости сходимости, фигурирующих в этой книге, появляется именно в этой части. Однако некоторые результаты, требующие специальной техники, помещены в часть V. В частности, большинство результатов о скоростях сходимости ме- методов минимизации содержится в гл. 14. 1) Имеются в виду признаки Коши и Даламбера.— Прим. ред.
Глава 9 СКОРОСТИ СХОДИМОСТИ (ОБЩИЕ РАССМОТРЕНИЯ) 9.1. МНОЖИТЕЛИ СХОДИМОСТИ ПО ЧАСТНЫМ Пусть 7 — общий итерационный процесс в смысле определения 7.6.1 и х* — одна из его предельных точек. Для целей этой главы достаточно рассматривать такой процесс просто как совокупность последовательностей в Rn безотносительно к тому, как эти последо- последовательности порождаются. Наша цель — приписать процессу У некоторые точные характеристики асимптотической скорости его сходимости к х*. Определение характеристик, изучаемых в этом параграфе, мотивируется тем фактом, что при исследовании многих итерационных процессов естественно возникают оценки вида II yk+\ V* II <Г V II Yk Г* ИР \/Ь\Ь (]\ как мы это увидим, например, в гл. 10. Сначала мы определим эти характеристики для произвольной сходящейся последовательности, не обязательно порожденной ка- каким-нибудь итерационным процессом. 9.1.1. Определение. Пусть [хк] cz Rn —любая сходящаяся после- последовательность с пределом х*. Тогда величины 0, если хк = х* для всех, кроме конечного числа, индексов k, QP [xk] = { ]im sup Jl* — **ll ^ если хкфх? для всех, кроме б-юо \\xk—x*f ' конечного числа, индексов k, + оо в остальных случаях, определенные для всех р ? [1, оо), называются множителями схо- сходимости по частным, или, короче, Q-множителями1) для {xk} по отношению к норме || * || в Rn. | Заметим, что если Qp =QP {xk} < оо для некоторого р ? [1, оо), то для любого 8 > 0 существует такое ko> что A) выполнено с у = Qp + 6. В случае когда рассматривается не одна последовательность, а итерационный процесс 7, желательно, чтобы характеристика ско- скорости его сходимости к некоторой точке измерялась по наихудшей 1) От английского «quotient» (частное).— Прим. ред.
9.1 Гл. 9. Скорости сходимости 275 из возможных асимптотических скоростей сходимости всех последо- последовательностей процесса F с этой предельной точкой. 9.1.2. Определение. Пусть СGУ **)—множество всех последо- последовательностей с пределом **, порожденных итерационным процес- процессом 7. Тогда величины Qp GУ **) = sup {Qp {xk} | {x*} k С G, x*)}, 1 < p < + оо} называются Q-множипгелями процесса 7 в точке х* по отношению к норме, в которой вычисляются Qp \xk). I Важно отметить, что, вообще говоря, Q-множители процесса зависят от предельной точки х*: для различных предельных точек процесса они могут быть различными (см. У 9.1.5). Для последующего заметим, что принятая нами интерпретация итерационного процесса позволяет нам связать с одной отдельно взятой последовательностью [xk] cz Rn1 сходящейся к #*, искус- искусственный процесс 7, для которого С G, х*) состоит из одной последо- последовательности {xk}. Поэтому все определения и результаты этой гла- главы, сформулированные в терминах итерационных процессов, до- дословно переносятся на последовательности, так что нет никакой необходимости формулировать соответствующие утверждения для отдельной последовательности. Рассмотрим сначала поведение множителя Qp G, х*) как функ- функции.от р при заданных итерационном процессе 7 и предельной точке **. Следующий основной результат показывает, что Qp является изотонной функцией от р, которая принимает только значения 0 и оо, за исключением, возможно, одной точки. 9«1«3« Пусть Qp G, **), р ? [1, оо), суть Q-множители итерационного процесса в точке х* для некоторой фиксированной нормы в Rn. Тогда выполнено в точности одно из следующих утверждений: (а) QpG, **) = 0, Vpefl, оо); (б) QPG, x*) = oo, Vpgfl, оо); (в) существует /?0?[1, оо), такое, что Qp{7y лг*) = О, V/?6 ? П, Ро)> и Qp G, х*) - оо, Vp e (р01 оо). Доказательство. Пусть {xk}?CG, л?) — любая сходящая- сходящаяся к х* последовательность, порожденная процессом 7, и пусть ek = = || xk — г* ||, k = О, 1, ... . Если 8^ = 0 для всех, кроме конечного числа &, то Qp{jt*}=0, /??[l, оо). Поэтому предположим, что е^>0 при &>&0 и Qp {xk} <оо для некоторого р? A, оо). Тогда для любого б/g [1, /7) - Q, {**} = lim sup (вл+^^/eg) < QP {^ft} lim sup еГ'7 « О, fe-юо /г->оо откуда в свою очередь следует, что Qp [хк] = оо всякий раз, когда QQ{xk}>0 и /?>^>1 Фактически если Qp<oo, то, как мы только что видели, Q^ = 0. Поэтому для любой последовательности \хк}?СG, х?) выполнено одно и только одно из свойств (а) — (в).
276 Часть IV. Локальная Сходимость 9.1 Допустим теперь, что ни (а), ни (б) не выполнено, и положим Пусть имеется р>р(), такое, что QpG, л;*)<оо, т. е. Qp{xk)<oo для каждой порожденной процессом 7 последовательности {**}, ко- которая сходится к х*. Тогда по определению числа р0 существует такое р' ? [р0, р), что Qp- G, лг*) = оо и, следовательно, мы имеем Qp' {**} > 0 для некоторой последовательности {.*;*}? С G, **). Отсюда Qp {#*} = оо, что противоречит нашему предположению. Поэтому QpG, jc*) = оо для всех р ? (р0, оо). С другой стороны, если ро> >1 и QpG, л:*) Ф О для некоторого р ^ [1, р0), то аналогичные рассуждения дадут Qp> G, х*) = оо при р' е (р, Р<Л а это противо- противоречит определению р0. Следовательно, Qp G, х*) = О для всех Р(=[1, Ро)-1 Главной мотивировкой для введения Q-множителей итерацион- итерационных процессов является желание иметь точный способ сравнивать между собой скорости сходимости различных процессов. Мы ис- используем для этого Q-множители следующим образом. 9.1.4. Определение. Пусть 7Х и 72 — два итерационных процесса с одной и той же предельной точкой х* и Qp GЬ х*) и Qp G2> х*) — соответствующие им Q-множители, вычисленные в одной и той же норме в Rn. Будем говорить, что 7Х Q-бысгпрее, чем 72, в точке л:*, если имеется /??[!, оо), такое, что QPGV x*)<QpG2> х*).Щ Заметим, что по теореме 9.1.3 понятие «Q-быстрее» определено корректно, т. е. нельзя найти такие р, р' е [1, °о), что QPGV x*) < <QPG2, л:*), но QP'Glf л:*) > Qp- G2i x*). Это следует из того фак- факта, что если, скажем, р''> р и QpG2, x*)>QpGv **), то Qp(^2» ^*)>0 и, следовательно, QP'G2, ^) = оо. Заметим, далее, что теорема 9.1.3 показывает также транзитивность отношения «Q-быстрее», т. е. если 7Х Q-быстрее 72 и 72 Q-быстрее t73, то 7г Q-быстрее 73. Понятие «Q-быстрее» зависит от нормы в Rn и может быть, что в одной норме процесс 7г Q-быстрее процесса 72, а в другой норме 72 Q-быстрее, чем 7V Это просто отражает тот факт (см. У 9.1.2), что если \xk)—произвольная сходящаяся последовательность, такая, что 0<Qp {xk} <оо, то величина Qp{xk) зависит от нормы. Однако имеется очень важная не зависящая от нормы характеристика, ко- которую мы сейчас введем. 9.1.5. Определение. Пусть Qp G, х*) есть Q-множитель итерацион- итерационного процесса 7 в точке х* в некоторой норме в Rn. Тогда величина О „ ^)==j°°J если Q,G,x*) = 0, Vpe[l,oo), Q ' jinf {p e [1, oo) | Qp G, **) = оо} в противном случае, называется Q- по рядком процесса 7 в точке х*. |
9.1 Гл. 9. Скорости сходимости 277 9.1.6. Пусть QpG, **) есть Q-множитель итерационного процесса 7 в **." Тогда три соотношения QpG, х*) = 0, 0<QpG, л^)<оо и Qp G, лг*) = оо не зависят от нормы в Rn Следовательно, Q-порядок процесса 7 в х* также не зависит от нормы. Доказательство. Пусть {xk} ? /?п —- произвольная последо- последовательность, которая сходится к jc*. Обозначим Q-множители после- последовательности {xk} в нормах 0 -1| и ||*||' через Qp{xk) и Q'p{xk). Предположим, что xk Ф х* для всех k > k0. В противном случае мы име- имели бы по определению либо Qp {xk} = 0, либо Qp [xk] = оо в каждой норме. Согласно 2.2.1, существуют постоянные d>c>0, такие, что d\\x\\>\\x\V>c\\xi Чх?ЯГ. B) Значит, == lim sup ii?Lz*l < Hm sup Отсюда Qp {х*} = 0, если Qp [xk] = 0, и Qp {х*} = оо, если Qp {я*} = = ex). Это показывает, что соотношения Qp {л:^} =0 не зависят от нормы и, следовательно, неравенство 0<.QP{xk) <oo тоже от нор- нормы не зависит. Допустим теперь, что Qp G, **) = 0 в норме \\ • ||. Тогда для любой последовательности {xk}, порожденной процессом 7 и сходя- сходящейся к #*, мы должны иметь Qp{xk) =0. Но мы только что ви- видели, что это остается справедливым в любой норме, следовательно, Qp G, х*) = 0 в любой норме. С другой стороны, предположим, что Qp G, х?) = 00 в норме || • ||. Тогда C) немедленно дает противоре- противоречие с предположением, что Qp G, х*) < оо в другой норме || • ||\ Отсюда следует, что множество {р ? [1, oo)|QpG, х*) = оо}, а по- потому и Q-порядок Oq (J, **) не зависят от нормы. | Как непосредственное следствие определения 9.1.4 и теоремы 9Л .6 получаем следующие два важных утверждения. 9eb7i Пусть 7Х и 72 — итерационные процессы с пределом х*. Если OqGv x*)>OQG2t x*), то 7Х Q-быстрее, чем 72 в точке #* в любой норме. 9.1.8. Пусть 7 — итерационный процесс с пределом х*. Если QpG, x*)<oo для некоторого /??П> °°)> то 0q{7, x*)>/7. Если QqG, х*)>0 для некоторого q g [1, 00), то 0qG, л;*)<<7. Следо- Следовательно, если 0<QpG, x*)<oo для некоторого р?[1> оо), то 0qG, **)=*р. Теперь мы можем интерпретировать полученные до сих пор ре- результаты следующим образом. Сравнение между собой двух итера-
278 Часть IV. Локальная сходимость 9.1 ционных процессов 7Х и 72 с одним и тем же пределом л^ состоит из двух этапов. Во-первых, мы сравниваем Q-порядки 0qGv л;*) и Oq{72, л:*). Если они различны, то процесс с большим Q-порядком Q-быстрее другого процесса в любой норме. Если Oq Gv а:*) = = Oq G2, а:*) = р, мы сравниваем два Q-множителя. Если, скажем, Qp Gi, **) = 0 < Qp (?*. **) или Q, G1Э **) < Qp G2, *•) = оо, то 7г Q-быстрее У2 в каждой норме. Однако, если Q<QPGV **)< < Qp (^2» **) < °° в некоторой норме, то в этой норме 7t Q-быстрее 72, но могут существовать другие нормы, в которых дело обстоит наоборот. Когда мы имеем Qp G, х*) < оо для некоторого итерационного про- процесса U с пределом я*, то выполняется оценка вида A) с y = Q/? + + е и любым е > 0 для любой порожденной 7 последовательности {xk}, которая сходится к я*. Заметим, что индекс &0, вообще гово- говоря, зависит от {**}. Итерационные процессы с Q-порядками 1, 2 и 3 играют особенно важную роль в теории, и мы введем соответствующую дополнитель- дополнительную терминологию, которая будет при случае полезна. Если Qi (Э\ х*) =0, то мы говорим, что процесс имеет Q-сверхлинейную сходимость в точке х*9 а если 0 < Qx G, х*) < 1 в некоторой норме, то сходимость называется Q-линейной. Заметим, что любой процесс Q-порядка, большего единицы, Q-сверхлинеен и что по теореме 9.1.6 понятие Q-сверхлинейности не зависит от нормы. Напротив, Q-линейность сходимости процесса 7 зависит от нормы. Но мы мо- можем сказать, что для Q-линейно сходящегося процесса 7 всегда существуют у ? @, 1) и такая норма, что выполнено A) для любой порожденной 7 последовательности, сходящейся к **, т. е. сущест- существует норма, в которой вектор ошибки начиная с некоторого момента убывает на каждом шаге с множителем у <С 1. Любой процесс 7, для которого Qx G, х*) > 1 в некоторой норме, называется Q- сублинейным в этой норме. Аналогично любой процесс 7 Q-порядка два, для которого называется ({-квадратичным в точке х*, а при Q2 G, х*) =0 или Q2 G, х*) = оо мы говорим соответственно о 0,'Сверхквадратичной или Q-субквадратичной сходимости. Наконец, аналогичная терми- терминология иногда применяется к сходимости Q-порядка три с заменой «квадратичный» на «кубический». ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 9.1.1. Множители сходимости для последовательностей и итерационных процессов, рассмотренные в этой главе, зависят только от действительных чисел &k — II ^ — х* II» а не от самих векторов хк. Следовательно, эти понятия незави- независимы от размерности пространства и применимы равным образом в бесконечномер- бесконечномерных нормированных линейных пространствах. Исключением являются теоремы об инвариантности норм 9.1.6 и 9,2.2, которые, конечно, существенно конечно-
9.1 Гл. 9. Скорости сходимости 279 мерны. Все остальные результаты главы остаются верными и в бесконечномерном случае. ЗС 9.1.2. Понятие Q-порядка ранее использовалось Шмидтом [1963а], а также Фельдстейном и Файерстоуном [1967]. Трауб [1964] и многие другие авторы вво- вводили вместо Qp постоянные асимптотической ошибки \\xk-x*f D) К) в предположении, что хк Ф х* при всех k. Говорят, что последовательность {хк} имеет порядок р, если 0 < Ср < со. Однако простые примеры показывают, что предел в D) может не существовать, хотя Qp конечно. Поэтому такое опреде- определение несколько ограничительно. Заметим тем не менее, что по определению из равенства Qp = 0 вытекает, что Ср = 0, а существованием постоянной Ср гаран- гарантируется существование множителя Qp и равенство Ср = Qp. Более того, если О < Ср < сю для некоторого р?[\, со), то Q-, R- и С-порядки все тождественны друг другу (см. У 9.3.4). УПРАЖНЕНИЯ У 9.1.1. Пусть {х*}, {ук} С Rn — последовательности, которые сходятся к неко- некоторому **, и || • ||— произвольная норма в Rn. Введем «масштабированную» норму -||' = с || • ||, где с> 0, и обозначим через Qp и Qp Q-множители по отношению к || • || и || • ||'. Доказать следующие утверждения: (а) Если 0 < Qp {хк} < оо при р > 1, то Qp {хк} = Qp {хк} тогда и только тогда, когда с = 1. (б) Имеется такое р, что Qp {xk} < Qp {ук} тогда и только тогда, когда Qp [хк] < Qp {ук}} т. е. отношение «Q-быстрее» инвариантно относительно мас- масштабирования нормы. У 9.1.2. В пространстве R2 рассмотрим векторы ег=*(\,0)т и w=(l, l)T и две последовательности: при нечетных k, l/2)k и при четных kt = \~) и, fe = 0, 1, ... . Показать, что Qx {xk} < Qx {yk} при норме ||*||а = (Jcf + д|I/«, но Qx {yk} < <Qi{xk} при норме 11*11^= max (\x1\t 1хг\). У 9.1.3. Вычислить Q-мыожители и соответствующие порядки следующих по- последовательностей в R1: (а) xk = 2~р ; (б) xk = 4~pfe; (в) xk = 2 . 2""р/г; (г) ^/г = У^~р/г; (д) дЛ = 2~"р для четных k и *fe s= 3"*р для нечетных /г; (е) xk = k~~p для четных Л и xk = a{k— 1)""р ~ для нечетных 6, где 0<<1
280 Часть IV. Локальная сходимость 9.2 (ё) ** = _222*; (ж) xk = (Щ~к при четных k я xk = Bk)~*k при нечетных k) (з) xk = cPk 2~pk, где с> 0 и р > 1; (и) xk = c~~k\ где с > 1. У 9.1.4. Пусть {**} С Я" сходится и для некоторого W > 1 определена последовательность f/* = /+fe\ &=0, 1, ... .Показать, что в любой норме Qp{xk)=Qp{yk), VPG[1, оо). У 9.1.5. Рассмотреть метод Ньютона 7 для одномерной задачи f(x) — x2x X A—#). Показать, что этот процесс имеет предельные точки 0 и 1 и что Q(r o) v ar iJ 9.2. МНОЖИТЕЛИ СХОДИМОСТИ ПО КОРНЯМ В этом параграфе мы рассмотрим другую меру скорости сходи- сходимости итерационного процесса. Она получается при помощи взятия корней подходящей степени из последовательных ошибок, а не их отношений. Напомним, что определение Q-множителей мотивирова- мотивировалось оценкой (9.1.1), которая при р = 1 и k0 =0 дает Соотношение A) показывает, что если у <. 1, то норма вектора ошибки хк — х* убывает, как геометрическая прогрессия со знаме- знаменателем у. Поэтому аналогия с признаком Коши сходимости рядов подводит нас к рассмотрению корней из нормы || хк — х* (|. 9.2.1. Определение. Пусть {xk} a Rn — произвольная последо- последовательность, сходящаяся к jc*. Тогда числа lim sup || xk — а:* ||1/а, если р = 1, lim supI**-х*111/р\ если р> 1, называются множителями сходимости по корням, или, короче, R-множителями Х) этой последовательности. Если 7—итерацион- 7—итерационный процесс с предельной точкой х* и С G, х*) — совокупность всех порожденных 7 последовательностей, сходящихся к х*, то числа RP G, х*) = sup {Rp {xk) | {**} g С G, x*)}, 1 < p < oo, называются /^-множителями процесса 7 в точке **. | Заметим, что если [xk] сходится к **, то всегда имеется k0 > > 0, такое, что и, следовательно, 0 < Rp {xk} < 1 для всех р > 1. х> От английского «root» (корень).--*Прим. ред.
9.2 Гл. 9. Скоросчи cxq6umoctu 281 В отличие от Q-множителей никакие /^-множители не зависят от нормы. 9«2.:2« Пусть {xk} a Rn — произвольная последовательность, схо- сходящаяся к х*. Множитель Rp {xk} не зависит от нормы в Rn ни для какого р ? [1, оо). Доказательство. Пусть || • || и || • ||' — любые две нормы в R" и {yk} — любая последовательность положительных действительных чисел с Пгп7л = 0. Тогда снова выполнено (9.1.2) с некоторыми определенными постоянными d>c>0, и, так какНтат*=1 для всякого действительного а>0, мы имеем lim sup | xk — x* fk < lim sup (—] * lim sup || xk — x* |f v* < < lim sup (—) lim sup \\xk — д*р* = lim sup||*ft — л;* f*. | Из теоремы 9.2.2 немедленно следует, конечно, что множители Rp (^, х*) также все не зависят от нормы. Приводимый далее результат показывает, что /?-множители как функции от р ведут себя аналогично Q-множителям. 9«2«3« Пусть 7— итерационный процесс с пределом х*. Тогда вы- выполнено в точности одно из следующих условий: (а) RpG, x*) = 0, V/?€ [1, оо); (б) RpG9 x*) = l, V/?6[l> оо); (в) имеется ро?[\, оо), такое, что Rp G, а:*) = 0, Vp^[l,p0) и RpGy jc*) = 1, Vpe(p0, oo). Доказательство. Пусть [хк] — произвольная сходящаяся к х* последовательность и y^^ljk, ypk=l/pk при р>1, k = = 1, 2, .... Тогда lim (у k/ypk) = оо для всех 1 <9<р. Предпо- ложим, что Rp {xk} < 1 для некоторого р ? A, оо), и выберем е> О, такое, что Rp{xk) + е = а < 1. Далее, положим гк = \\ хк — х* || и выберем kQ^>0 так, чтобы Тогда для любого q ? [1, р) будет lim sup (8J^)V^/V^ < lim аУ^рь = О, т. е. ^{а;л} = 0, если q<p и /?р{^}<1. Это в свою очередь доказывает, что RQ{xk) = 1, если q>p и #р {**}>(). Значит, для любой сходящейся последовательности выполнено одно и только одно из свойств (а) — (в). Предположим теперь, что не выполнено
282 Часть IV. Локальная сходимость 9.2 ни (а), ни (б). Тогда определено число р0 = inf [р 6 [1, °°)\RPX X G, jc*) = 1}. Предположим, что имеется р>р0» такое, что RP (?, **)< 1. Тогда Rp G, **) < 1 для всех {**} б С G, **), и в то же время по определению р0 существует р' ? [р0, р), такое, что #р'G, х*)=1. Следовательно, в частности, Rp>{xk}>0 для неко- некоторой последовательности из С G, х*). Следовательно, согласно пер вой части доказательства, для этой последовательности Rp {xk} = 1 Мы получили противоречие. Таким образом, Rp{7y х*) = 1 при р> >р0, и аналогично получаем, что RpG, х*) = 0 при р<р0- I Теперь мы продолжим в том же духе, что и в § 9.1. 9.2.4. Определение. Пусть 7Х и 72 — два итерационных процесса с пределом х*. Тогда 7Х R-быстрее, чем 72 в точке л:*, если суще- существует р?[1, оо), такое, что RPGV x*)<RpG2, x*). | Теорема 9.2.3 показывает, что понятие «Я-быстрее» определено корректно, а теорема 9.2.2 гарантирует, что если 7± ^-быстрее 72 в какой-то одной норме, то так будет и в любой другой норме на Rn. 9.2.5. Определение. Пусть 7 — итерационный процесс с предельной точкой х*. Величина оо, если Rp G, х*) =5 О, О* (ЯГ,**) [1, оо), inf {р ? [ 1, оо) | Rp G, х*) == 1} в противном случае, называется R-порядком процесса 7 в точке х*. Теоремы 9.2.2 и 9.2.3 снова показывают, что понятие /^-порядка определено корректно и является независимым от нормы. Кроме того, из теоремы 9.2.3 немедленно вытекают следующие резуль- результаты. 9.2.6. Пусть 7Х и ^-—итерационные процессы с одной и той же предельной точкой х*. Если Or Gv x*) > Or G2, л:*), то 7Х /?-бы- стрее, чем 72 в х*. 9.2.7. Пусть 7 — итерационный процесс с пределом х*. Если RpP, **)<1 для некоторого р?[1, оо), то 0RG, x*)>/?. Если RqP> а:*)>0 для некоторого q?[l, оо), то 0RG, x*) < р. Если Rqfi> а^)>0 для некоторого <7б[1» °°)» т0 OrG, х*)<<7- Следо- Следовательно, если 0<,RpGi х*)<1 для некоторого р^[1, оо), то 0rG, x*) = p. Это показывает, что, как и в случае Q-множителей, сравнение между собой двух итерационных процессов 71У 72 при помощи /?- множителей вновь состоит из двух этапов. Сначала мы сравниваем /?-порядки О# (?!, д:*) и OrG2, ^*). Если они различны, то процесс с большим Я-порядком /^-быстрее. Если же Or G1у х*) = Or G2у х*) = = р0, то мы сравниваем затем Умножители для р0. Если, скажем, Rpofiv ^*)<^po(^2» **)i то 7L /^-быстрее, чем 72.
9.2 Гл. 9. Скорости сходимости 283 Заметим, что когда Rp = Rp G, х*)<\, то для любого е > 0, для ко- которого Rp^\-г<\, найдется такое k0 > 0, зависящее от последова- последовательности {л:*} ?СG, л:*), что либо |, Oi если либо Ц** —**!<(/?,+ е)*, V&>?0, если р=1. В этом последнем случае сходимость любой сходящейся кх* после- последовательности, порожденной процессом 7> с некоторого момента так же быстра, как сходимость геометрической прогрессии со зна- знаменателем Яг + е < 1. Если 0 < /?! Gу х*) < 1, то будем говорить, что сходимость процесса 7 в точке х* R-линейна, а если /?х = 1 или Rl = 0, то назовем сходимость соответственно R-сублинейной или R-сверхли- нейной. Аналогично, если 0<Я2(ЭГ, **)<1, то мы говорим, что сходимость R-квадратична в точке х*. Заметим, что все эти понятия не зависят от нормы. Мы завершим этот параграф одним результатом относительно /?-порядков, который будет иметь значение в связи с многошаговы- многошаговыми итерационными процессами. Для доказательства этого резуль- результата нам понадобится следующая лемма. 9.2.8. Для любого целого т > 1 многочлен рт (t) =* fm+l —f1 — — 1 имеет единственный положительный корень %т. Кроме того, *«€A. 2), т/п>тт+1 и Пттш=1. m-voo Доказательство. Так как ртA) = — 1 и /7тB) = 2т — —1>0, то в A, 2) имеется корень тт и по правилу знаков Де- карта других положительных корней нет. Чтобы убедиться в том, что тш монотонно убывает при возрастании т, достаточно заметить, что рт+\ (т/й) =тт— 1 >0, так что rm+i g (I, xj. Наконец, пред- предположим, что Нттт = т>1. Тогда для достаточно больших т и, следовательно, рт имеет корень в A, т) — противоречие. | 9<2fl9« Пусть 7 — итерационный процесс и С G, х*) — множество порожденных им последовательностей, которые сходятся к обще- общему пределу х*. Далее, пусть у0, у1$ ..., ут — некоторые неотрица- неотрицательные постоянные. Если для любой последовательности \xk) ? ? С G, х*) имеется k0 > m, такое, что | S7/1]*-/-**||, V/г>?0, B)
284 Часть IV. Локальная сходимость 9.2 то О/? G, **)>т, где т — единственный положительный корень уравнения Если, кроме того, существует такое Р>0 и такая последователь- последовательность {xk}?C(V, г*), что при 60>т |jc»+i-jK»|>p||^-jc*l.|x*-^-^l>Ol V?>?0, C) то ORGf **)=т. m Доказательство. Мы можем считать, что y = 2y/>0» ибо /=о в противном случае первый результат тривиален, а C) не может выполняться. Пусть [хк}?С{У, «к*). Положим 8fc = ||xk — л:*||, r]fe = m = yek и б/ = V//Y- Тогда 2 6/= 1 и последовательность {%} удо- /=о влетворяет условию m < Ли S в/П*-/, V k > ^0 > т. D) /i Так как {е^} сходится к нулю, мы имеем /П?<11<1 при ^'(^)- Отсюда в силу D) т T|fc'+m+i < TJ Ц в/Т| = YJ, /о и по индукции Л^+/<г)Ч / = 0, 1, ..•, E) где |ii+J = \jLt + ^_т, i == т, т + 1, ..., ^0 = ^1= ••• =!*„= 1. F) Действительно, если E) выполняется вплоть до некоторого i > > m, то /«о поскольку ^ монотонно возрастают. Покажем теперь, что уц удовлетворяют условию t = 0,1, ..., G) где a =T-m. Действительно, так как по лемме 9.2.8 т > 1, то не- неравенство G) выполнено при i =0, 1, ..., /п, и если оно справедли- справедливо для некоторого i > m, то
9.2 Гл. 9. Скорости сходимости 285 чем индукция и завершается. Из неравенств E) и G) следует, что e*'-W < y~lr\k>+i < у-1т\ат\ V i > О, так что Rx {xk} = lim sup etf?+/ < yf*k' < 1. Поэтому для любого е>0 мы имеем /?т_е{я*} = 0 при всех {xk} ? €СG, л:*). Таким образом, /?т_еG, **) = 0, и по теореме 9.2.7 ввиду произвольности е 0^ (U, г*)>т. Предположим теперь, что для некоторой последовательности {xk}?CG, х*) выполнено C). Тогда мы имеем при r)ft = peft = Р|**1 , V k > &0. (8) Пусть &'>&0 таково, что t]A:<ri<l для всех &>&'. Положим г] = min(т]а-', ..., TiAj'+m)- Тогда таким же образом, как и ранее, по индукции получим Чл'+^тД / = 0, 1, ..., (9) где последовательность {ц,} определяется соотношением F). Дей- Действительно, очевидно, что (9) выполнено при i =0, ..., m, и если оно справедливо для i > m, то Кроме того, мы имеем /=0, 1, ..., (Ю) поскольку это заведомо так при I = 0, ..., m ввиду условия т> 1. Таким образом, если A0) выполнено для некоторого / > т, то |х/+1 = ^ + fi^m < т< + т^^ = т'-Ь1 (х-1 + т-^) Нi Следовательно, ri^+t>ri^>riTs V/>0, или так что i?TG, л:*)>0, и по теореме 9.2.7 0^ G, х*) > т. | Заметим, что для Q-порядка теорема 9.2.9 неверна; в частности, из B) не следует, что OQ G, х*) > т (см. У 9.2.8). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 9.2.1. /^-множитель неявно использовался во многих работах, посвященных итерационным процессам для систем линейных уравнений (см., например, Варга [1962]). Для нелинейных систем он был использован явно Ортегой и Рокоффом [1966].
286 Часть IV. Локальная сходимость 0.2 ЗС 9.2.2. Уолл [1956] (см. также Торнхейм [1964]) ввел в качестве порядка по- последовательности {xk} величину г = lim (In || **+] - х* И /In ||** - х* ||) A1) /г-юо при условии, что этот предел существует. Легко видеть, что при этом условии г равно ^-порядку последовательности \xk] (см. У 9.2.5). ЗС 9.2.3. Островский [1966] рассмотрел множители сходимости, более общие, чем Qv введя величины ar = lim sup (|| xk+r — х* || /1| xk — х* \\), xk ф х* при всех k, A2) /г-voo где т > 1 — некоторое целое число. Последовательность {xk} называется слабо линейно сходящейся к х*, если существует такое г, что <хг < 1. В отличие от Q- линейности, это свойство инвариантно относительно выбора нормы; более точно (см. У 9.2.6), если аг < 1 и || • ||' — другая норма в Rn, то существует целое число /я, такое, что lim sup (|| xk+mr — х* ||' /1| xk — х* ||') < 1. fc-*oo Слабо линейно сходящаяся последовательность не обязана быть Q-линейно схо- сходящейся, но она всегда R-линейно сходится (см. У 9.2.7). Обратное неверно, что видно на примере последовательности ~А, в остальных случаях. Здесь #! {**} = г/2> а а = оо для любого г > 1. ЗС 9.2.4. Теорема 9.2.9 представляет собой по существу результат об асимпто- асимптотическом поведении решений системы разностных неравенств m Относительно дальнейших результатов о подобных разностных неравенствах и разностных уравнениях см. Островский [1966], Торнхейм [1964] и Трауб [1964]. В частности, решающий шаг в доказательстве теоремы 9.2.9, а именно оценка № > ест1, является частным случаем более общего результата Островского [1966, теорема 12.3], а лемма 9.2.8 — частный случай более общих результатов Остров- Островского [1966] и Трауба [1964] о корнях уравнения *m+1 = ат1™ + am_ltm~~l + + ... + tfo с а/ > 0, / = 0, 1, ,.., т. УПРАЖНЕНИЯ У 9.2.1. Вычислить /^-множители сходимости для последовательностей из У 9.1.3. У 9.2.2. Пусть {**} и {yk} определены, как и в У 9.1.4. Показать, что (а) /?!{**}«/?,{**}; (б) **{**}= [Яр {**}]'*' прир>1. У 9.2.3. Показать, что для процесса gr из У 9.1.5 Rx (J, 0) = V2» а ВД> 0 = 2.
9.3 Гл. Р. Скорости сходимости 287 У 9.2.4. Пусть {**} с Rn — сходящаяся последовательность с пределом ** и IJC* — д* Ц =* вЛ = уГЛ" * "Г*. * = °> 1. ¦••> где 0<y< 1 и lim^ = г > 1. Показать, что ^-порядок для {xk} равен г. У 9.2.5. Пусть {xk} с Rn— сходящаяся последовательность с пределом **. причем xk ф х* при всех k > 0, и пусть существует г = lim (In || xk+l — а;* || /In || ** — *•(). ft-юо Показать, что Я-порядок последовательности {xk} равен r. У 9.2.6. Пусть {xk) cz Rn — сходящаяся последовательность с пределом х* и lim sup (И***'-** || /||**-x*||) = ar <1 fe-юо при некотором целом г > 1. Показать, что если Ц «Ц' —другая норма в Rn, такая, что то lim sup (|| A:fe+WA — **|J/||*fe — *?i)<(d/c)am, m=l, 2, ..., fe-t-oo при некотором a < 1. У 9.2.7. Пусть ar < 1 определено, как в У 9.2.6. Показать, что Rx [xk] < 1. У 9.2.8. Определим последовательность {**} С R1 соотношениями xk^=a =я xkxk"~xy если ^ нечетно, и xk~^1 = (*feJ х^"^1, если k четно, где | х° |, | л:11 < 1. Показать, что выполняется B) с k0 = m= I, Vo = ^, Yi = 1 и, следовательно, OR {xk} > A +/5)/2, но что OQ < з/2 (Войгт [1969]). 9.3. СООТНОШЕНИЯ МЕЖДУ /?- И Q-МНОЖИТЕЛЯМИ СХОДИМОСТИ Обратимся теперь к важному вопросу о связи между Qp G,**) n-Rp G, х*). В случае когда последовательность {xk} cz Rn сходится к х* и 0 < Qp [xk] < оо, а 0 < Rp {xk} < 1 для некоторого р > > 1, мы всегда можем добиться выполнения любого из соотноше- соотношений Rp {xk} < Qp {**} или Rp \xk) > Qp {xk}> выбирая подходя- подходящую норму (см. У 9.3.1). Это важный факт, однако для р = 1 этого сделать нельзя. 9вЗ«Ц Пусть [xk] a Rn — последовательность, сходящаяся к х*. Тогда i{}<Qi{} во всякой норме. Следовательно, если 7 — итерационный процесс с предельной точкой **, то /?х G, х*) < Qx G, х*) во всякой норме. Доказательство. Пусть Qx {xk} < оо. Положим ek = — **||. Тогда для любого е>0 и y^Ql[xk] +г найдется Л такое, что ek < ve/,-1 < • • • < Y*~*ee*0» V ft
288 Часть IV. Локальная сходимость 9.3 Поэтому # {*} 'i JkY/k fc-юо и так как 8 произвольно, отсюда следует, что R1 [xk] < Ql {xk}. Но тогда, если вновь С (J, х*) обозначает совокупность всех порожден- порожденных 7 последовательностей, сходящихся к х*, то мы видим, что R, G, х*) = sup [Rx {%*} | {х*} 6 С G, **)} < < sup (Q, {x*} I {**} € С G, %*)} = Ql G, x*). | Как немедленно следует из теоремы 9.3.1, Rx {xk} является ниж- нижней границей для все~х возможных постоянных у в оценке Как отмечено выше, при р > 1 соотношение между Rp и Qpt вообще говоря, зависит от нормы. Тем не менее всегда можно сравнить R- и Q-порядки. 9»;3,2« Пусть U — итерационный процесс с пределом х*. Тогда OQ (J, jc*) < OR G, x*). Доказательство. Пусть последовательность [xk}dRn схо- сходится к х*. Покажем прежде всего, что из неравенства Qp {xk} < <оо при р>\ следует, что Rp{xk}<.\. Положим гк = ||xk — х*||, & = 0, 1, ..., и для данного е> 0 пусть у = Qp [xk] + 8. Найдет- Найдется такое &0, что поэтому где у' = max(l, у1/(р~!))- Но, поскольку lime^ = 0, мы можем счи- считать, что k0 было выбрано так, что у'^0<1. Тогда #р {**} < {у'г1*оI/рко < 1- Предположим теперь, что q = OQ G, л:*) > О# G, я*) = г. Из теорем 9.1.3 и 9.2.3 и определений порядков немедленно следует, что Qp G, х*) = 0 и /?р G, **) = 1 для всех р g (г, q). Значит, для любой порожденной 7 последовательности [xk)> сходящейся к **, мы имеем QP' [xk] =0 при pf = (г + <j)/2 и, согласно первой части доказательства, Rp>{xk}<.\. Но тогда в силу теоремы 9.2.3 Яр {хк} — 0 для любого р ? (г, р') и всех последовательностей {л:*}, порожденных 7, т. е. Rp G, **) = 0,— мы пришли к противо- противоречию. 1 В У 9.3.3 мы дадим пример, который показывает возможность неравенства OQ G, х*) < 0R G, **). Однако во многих важных слу-
9.3 Гл. 9. Скорости сходимости 289 чаях эти порядки одинаковы. Простое достаточное условие для этого дается следующей теоремой, подобной теореме 9.2.9. 9*3 А Пусть7 — итерационный процесс и С G, х*) —совокупность порожденных им последовательностей, сходящихся к х*. Предпо- Предположим, что существуют р ? П» оо) и постоянная съ такие, что для любой последовательности {xk} ? С G, х*) ||^+1-х*||<^||^-^|Г, v*>*o = *b({*»}). 0) Тогда 0^G, лг*)>О<з(Эг, **)>р. С другой стороны, если имеются постоянная с2>0и последовательность [xk}$CG, **), такие, что |дсИ-1-^||>с1|х*-дс»|р>Оэ VA>fto«fte({x»}), B) то Oq G, а:*) < О/? G, х*) < /?. Следовательно, если выполнены од- одновременно A) и B), то 0qG, л?) 0G ?) Доказательство. Если выполнено A), то Qp {**}<&> Для всех {xk}?CG, х*), так что Qp(Jt л:*)<с{)<оо и по теоремам 9.1.8 и 9.3.2 Предположим теперь, что для некоторой последовательности {xk}? б С G, **) выполнено B). Тогда efe = ||xfe — x*||>0 при k^k0 и Поэтому при р = 1 а при р > 1 , с!Л"-'>) еУр"' > О, так что снова Rp{xk}>0. Значит, RP G, лг14) > 0 и по теоремам 9.2.7 и 9.3.2 0QG, ^*HG *) УПРАЖНЕНИЯ У 9.3.1. Пусть выполнены условия У 9.1.1. Показать, что если 0 < R рХ X [xk] < 1 и 0 < Qp {xk} <oo для некоторого р> 1, то любое из соотношений Q/e (^} < ^р {**}» Qp {^) ^* ^/? {^) выполняется при подходящем выборе мас- масштабирующего множителя с. У 9.3.2. Пусть последовательность {хп} с R1 определена формулой хк = l/k. Показать, что Rx {xk} — Qt {xk} = 1. Таким образом, в случае р= 1 из неравен- неравенства Qp {xk} <со не вытекает, что Rp [xk] < 1.
290 Часть IV. Локальная сходимость У 9.3.3. Рассмотрим в R1 последовательность / k (а/2)р при k четных, при k нечетных, где 0<а< 1 и 1 <q<p. Показать, что OR({xk})=*p, a OQ({xk}) <?• У 9.3.4. Предположим, что для последовательности {xk} с Rn имеется та- кое Р?П> °°)» что предел существует и 0 < Ср < оо. Показать, что Q- и /^-порядки для {xk} равны р. У 9.3.5. Пусть последовательность {xk} с Rn удовлетворяет условию ||хН-1_**||^а*||х*-д:*||, ^==0, 1 где lim а/г = а ^ @, 1), Показать, что \\mxk = x* и что
Глава 10 ОДНОШАГОВЫЕ СТАЦИОНАРНЫЕ МЕТОДЫ ЮЛ. ОСНОВНЫЕ РЕЗУЛЬТАТЫ В этой главе мы рассмотрим результаты относительно локальной сходимости и скорости сходимости для одношаговых стационарных итераций вида xk+i^Qx*, Jfe = 0, I, ..., A) где G: D a Rn -> Rn. Сюда относятся, конечно, метод Ньютона, m-шаговый метод Ньютона — ПВР, m-шаговый метод ПВР — Ньютона, а также некоторые методы минимизации гл. 8. Результа- Результаты для конкретных методов вида A) даны в § 10.2 и 10.3. Под локальной сходимостью процесса A) к точке л:* мы понима- понимаем сходимость итераций A) к х* при условии, что х° достаточно близко к х*. Точный смысл этому придается с помощью следующе- следующего понятия. 10.1.1. Определение. Пусть G: D d Rn -+ Rn. Точка ** называ- называется точкой притяжения итерации A), если имеется такая откры- открытая окрестность 5 этой точки, что S a D и для любой точки х° ? ? S все итерации xk, определенные по формуле A), лежат все в D и сходятся к х*. | Находить точки притяжения и оценивать скорости сходимости мы будем в этой главе обычно, проверяя, что выполнены условия следующей простой леммы. В ней и во всех последующих резуль- результатах 7 обозначает итерацию A), a Rp G, **), Qp G, х*) и Од G, **)> Oq (IT, **) являются соответственно R-, Q-множителями схо- сходимости и порядками итерации 7 в точке х*, определенными в преды- предыдущей главе. 10.1.2. Пусть G: DaRn-+ Rn и имеются шар S = S (**, б) с D и постоянная а < 1, такие, что 1G* —x*J<a||* —*»|, V*GS. B) Тогда для любой точки х° ? S итерации, определенные формулой A), лежат в S и сходятся к х*. Таким образом, х* является точкой притяжения для процесса A) и, кроме того, /?2 G, х*) < Q± G, **) < < a. Доказательство. Если х° ? S, то
292 Часть IV. Локальная сходимость 10А Следовательно, xl? S и по индукции легко показывается, что и все остальные итерации xk лежат в 5 и удовлетворяют условию (I ** — х* I < vk II -*0 —-х* II- Таким образом, lim xk = х* и х* является fe-юо точкой притяжения для процесса A). Далее, пусть [xk]— любая порожденная этим процессом последовательность, такая, что lim xk = лг*. Тогда xk ? S при & >&0 и, следовательно, \\xk+l — **[< < а || хЛ — х* || при ? > &0. Отсюда немедленно следует, что Qi(V> **)<<x, и теорема 9.3.1 показывает, что /^G, **)< < Qi G, х*). I Один из способов обеспечить выполнение условия B) — предпо- предположить, что производная G'(x*) существует и имеет достаточно ма- малые собственные значения. 10.1.3. Теор ема Островского. Пусть отображение G: DaRn-* -> Rn имеет неподвижную точку х* ? int (D) и /^-дифференцируемо в х*. Если спектральный радиус матрицы G' (л:*) удовлетворяет усло- условию p(G' (я*)) = а> 1, то ** является точкой притяжения ите- итерации A). Доказательство. В силу теоремы 2.2.8 для произволь- произвольного е > 0 существует норма в Rn> такая, что ||G' И||<а + 8. C) Далее, ввиду /^дифференцируемое™ отображения G в точке х* существует такое б > 0, что S =S (х*, 8) a D и \\Ох— G** — G'(**)(* — ^*)||< е||^ — х*\\, VxgS. Следовательно, ||G* — х*|| <||Gx —Gx*-G'(x*) (x—x*)\\ + |G'(jc*)| \\x — x*\\ < < (а + 28)||*-х*||, Vxe5. E) Так как а < 1, то мы можем считать, что 8 выбрано таким, что а + + 2в< 1, поэтому наш результат вытекает из леммы 10.1.2. | Заметим, что при выполнении условий теоремы 10.1.3 лемма 10.1.2 дает верхнюю границу для Rx G, х*) и Qx G, **). Более важ- важно, что условий теоремы 10.1.3 уже достаточно для точного нахож- нахождения Rt G, х*). 10.1.4. Теорема о линейной сходимости. Пусть выполнены усло- условия теоремы 10.1.3. Тогда Rt G, л;*) » p(G' (л:*)). Кроме того, если Р (С (**)) > 0, то OR Gt x*) = OQ G, х*) - 1. Доказательство. Ввиду оценки (б) из леммы 10.1.2 сле- следует, что RtGy x*)<a + 2e. Но для произвольного е > 0 имеется норма в Rn, для которой вы- выполнено C)> а следовательно и E). А поскольку по теореме 9.2.2
10.1 Гл. 10. Одношаговые стационарные методы 293 Rx G, jc*) не зависит от нормы, то Rt G, х*) < а. Если а = 0, то доказательство закончено. Пусть а > О и Ai, ..., Кп — собственные значения матрицы G' (л:*), упорядоченные так, что | Xt / = a, i = 1, ..., m, | A,t- I <а, i = m + 1, ..., п. Положим а ~ max {| Xt \ \ i = m + 1, ..., п) или а = 0, если пг = п. Очевидно, а<а и мы можем выбрать е>0 так, чтобы а + Зе < а — Зе, а + 2е < 1. Выберем теперь базис и\ ..., ип комплексного пространства Сп так, чтобы матрица G' (**) имела в этом базисе представление К Ч 0 \ •.':.e«-i , F) о '-л У где 6; или 0, или е и, в частности, ет = 0. Это просто модифика- модификация жордановой формы из 2.2.7. Мы можем представить любой вектор y?Rnc помощью и1, ..., ип в виде # = 2j У^1* гАе> в0°б- ще говоря, коэффициенты yt комплексные, и определить норму |lf/|l= 2|#*1- Непосредственное вычисление показывает, что в этой норме ||С (л:*)||<а+ е. Поэтому, если б>0 выбрано так, что Gx — Gx* — G' (х*) (х—х*I < еЦ* — **|, Vх б 5 = S (х*> б)с Д G) то в силу леммы 10.1.2 для любой точки x??S мы имеем хк = в= Ga:^ ? S при всех 6 и lim х* = jc*. Теперь положим m •ч Л хч ^ = *»-*•, * = о, 1, ..., v*-Sl^l. P*= 1=1 где снова г/f, ..., у* — коэффициенты вектора yk в базисе и\ ... ..., ип, и выберем а;0 ? 5 так, чтобы |50 < y0- Покажем по индук- индукции, что Pp<Yp> Р = 0, 1, ... . (8) Пусть (8) выполнено для р = 0, 1, ..., k. Тогда где R (х) = Ga: — G** — G' (х*) (л: — л?), и из представления F) для G' (л:*) видно, что
294 Часть IV. Локальная сходимость 10.1 Поскольку \yk\\~ yk + Рл> из неравенства G) и предположения ин- индукции следует поэтому, что Аналогично, вспоминая, что ет — О, получаем \> >Y* (9) т •Я Значит, при подходящем е Рн-i < К» + Зе)/(а — Зе)] y*+i < Yh-ь так что (8) выполнено при р = k + 1 и тем самым, по индукции, для всех k. Следовательно, (9) выполнено для всех kt и потому Отсюда /?i{jc*}>a—Зе, и так как е произвольно, то 1{)^1 так что RiG, x*)>a. Таким образом, /?iG, л:*) = а. Наконец, если оф0% то по теореме 9.2.7 Од G, **) = 1. Кроме того, теоре- теорема 9.3.1 гарантирует, что Ql(V, Jt*)>0, а в доказательстве тео- теоремы 10.1.3 представлена норма, в которой ^G, л:*)<1. Значит, 0QG, x*) = 1. | Размеры той открытой окрестности точки л:*, в которой началь- кые приближения дают сходимость, зависят, вообще говоря, от степени нелинейности отображения G вблизи точки х*. В крайнем случае аффинного оператора сходимость имеет место для любой на- начальной точки. 10.1.5. Пусть В б L (/?"), b?Rn. Определим отображение G: Rn-+ -*Rn равенством Gx= Bx+ b, x?Rn. Если р(В)<1, то G имеет единственную неподвижную точку лс*, итерации xk+l = Gxk, k = = 0, 1, ..., сходятся к х* при любом х° ? Rn и Доказательство. По лемме Неймана 2.3.1 существует единственная неподвижная точка х*. Поэтому при любом х° мы имеем и в силу теоремы 2.2.9 lim (xk —х*) =0. Утверждение о ско- рости сходимости является следствием теоремы 10.1.4. | Заметим, что теорема 2.2.9 показывает также, что условие р (В) < 1 является как необходимым, так и достаточным для схо- сходимости итераций xk+x = Bxk + b, k ¦= 0, 1, ..., при любом х° ? Rn. Однако если отображение G не аффинно, то х* может быть точкой притяжения итерации A), даже когда р F' {х*)) = 1 (см. У 10.1.2).
10.1 Гл. 10. Одношаговые стационарные методы 295 Теорема 10.1.4 показывает, что если р (G'(x*)) = 0, то скорость сходимости ^-сверхлинейна. Тем не менее это не обязательно озна- означает, что сходимость также Q-сверхлинейна (см. У 10.1.6). Следую- Следующая простая лемма дает достаточные условия для Q-сверхлинейной сходимости, а также для сходимости высшего порядка. 10.1.6. Пусть отображение G: DcRn->Rn, имеет неподвижную точку #* ? int (D) и /^-дифференцируемо в ней, причем G' (а:*) = 0. Тогда а:* является точкой притяжения процесса A) и Rx G, а;*) = = Qi G, я*) = 0. Кроме того, если в некотором шаре 5 = S (л:*, 6) с: ClD выполнено неравенство S, A0) при некотором р>\, то 0RGt a:*)>0qG, д:*)>р. Если допол- дополнительно выполнено условие [G*-G**||>pj*--*Yf Vx?S9 (И) при некотором Р > 0, то О^ G, лг^) = Oq G, л:*) = р. Доказательство. По теореме 10.1.3 а:* — точка притяжения. Пусть {xk} — любая порожденная процессом V последовательность, такая, что lim xk = я*. Так как G' (а:*) = 0, то lim (|) Ga: — Gx*||/ /1| х — а:* ||) =Г? откуда lim ([| х^1 — а:* || / || xk — хЦ) = lim (|| Gxk — k-'fOQ fe-ЮО — Gx*||/1|xk — a:*I) = 0, так что Q± G, a:*) = 0. Предположим те- теперь, что выполнено A0), и пусть снова [xk]—любая порожденная 7 последовательность, такая, что lim xh = а^. Тогда имеется та- кое &0, что xk f 5 при всех k > &0 и, следовательно, Аналогично, если выполнено A1), то \\xk+l — **|| >Р||а:й — х*\\ для всех k > kQ и наш результат следует непосредственно из теоремы 9.3.3. | С помощью теоремы 3.2.12 легко показать (см. У 10.1.9), что оцен- оценка A0) выполнена, если G /^-дифференцируемо в шаре S (х*, г) с центром в a:*, G' (а:*) = 0 и G' удовлетворяет оценке вида с\\х-х*\Г\ Vx?S(x\ r), с постоянными с>0ир> 1. Однако в следующем параграфе при исследовании метода Ньютона мы увидим, что можно получить A0) и без предположения о дифференцируемости G в окрестности точки х*. Мы завершим этот параграф, дав одно важное конкретное при- применение леммы 10.1.6. 10.1.7. Предположим, что а:* ? int (D) — неподвижная точка ото- отображения G: DcRn-*Rn и что это отображение непрерывно диф-
296 Часть IV. Локальная сходимость 10А ференцируемо на некотором открытом шаре 5 = 5* (х*, б) cz D. Если G' (х*) == 0 и G дважды /^дифференцируемо в #*, то х* является точ- точкой притяжения итерационного процесса 7, определенной формулой A), и OR G, **) > OQ G, л:*)>2. Если, кроме того, , A2) то ОяC, x*) = Oq(:7, **) = 2. Доказательство. Положим Н(х) = G' (х) —G' (х*) - G" (^*) (х —х*), V х б 5. Ясно, что Я непрерывно на S и по определению G' (#*) для любого е > 0 найдется б' ? @,6), такое, что ||#(х)||<е||х-х*||, V*GS'=S(**, б'). A3) По теореме о среднем значении 3.2.7 с учетом того факта, что G' (**) = 0, мы получаем, что для любого х ? S' — G'(x*)](x—x*)dt 1 = = f [^ (**) (х — х*) + Н (л* + / (х — *•))] (^ - л:*) ±г\\х-х*Г = а\\х--х*\Г, A4) где а = ^/a) (||G" (x*)|| + е). Первая часть теоремы теперь непосред- непосредственно следует из леммы 10.1.6. Допустим, далее, что выполнено также A2). Тогда, поскольку || G" (**) hh | является непрерывной функцией от Л, не обращающейся в нуль на компактном множестве существует постоянная с>0, такая, что Мы можем предположить, что постоянная е в A3) удовлетворяет неравенству г < с/2; оценивая снизу вторую строку в A4), получим — &) (х — х*) [tdtl —
10.1 Гл. 10. Одношаговые стационарные методы 297 Таким образом, наш результат снова следует из леммы 10.1.6. | Заметим, что Oq G, х*) может быть больше двух, если снять условие A2) или даже если лишь ослабить его некоторым естест- естественным образом (см. ЗС 10.1.8 и У 10.1.12). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 10.1.1. Понятие точки притяжения было введено Островским [1957], который анонсировал теорему о достаточности условия р (G' (я*)) < 1 для того, чтобы точка х* была точкой притяжения. Доказательство теоремы 10.1.3 дано было Островским [I960] при условии, что производная G' непрерывна в некоторой окрестности точки дс*. Это требование дифференцируемости было ослаблено до тре- требования, фигурирующего в теореме 10.1.3, Островским [1966], Ортегой и Рокоф- фом [1966] и Китченом [1966]. Однако этот результат по существу был получен еще Перроном [1929] при изучении возмущенных линейных разностных уравнений вида Azk + ф (г*), 6 = 0, 1 A5) Здесь A?L(Rn)f аф: SczRn -* Rn удовлетворяет условию в некоторой открытой окрестности 5 точки 0. Перрон показал, что если р ()< и норма || г° || достаточно мала, то lim Zk = 0. В условиях теоремы 10.1.3 итера- цию a^+1 = Gxk можно записать в виде A5), где А = G' (**), zk=*xk — x* и ф (х) ==» G' (х*) (x — x*) + Gx — Gx*. Следовательно, F-дифференцируемость отображения G в точке х* обеспечивает выполнение условия A6). ЗС 10.1.2. Понятие точки притяжения дословно переносится на случай банахо- банаховых пространств. Теорема 10.1.3 также обобщается на случай произвольного бана- банахова пространства, но требует несколько иного доказательства (см. Китчен [1966]). ЗС 10.1.3. Лемма 10.1.2 дословно переносится на случай банаховых пространств. Заметим еще, что в У 10.1.1 приведены различные предположения о нелинейной функции ф: R1 -» 7?1, гарантирующие, что х* является точкой притяжения, если справедлива более общая оценка II<?*-*• ||< ф(||*-**||), vx?S(x*t 6). ЗС 10.1.4. Первое утверждение теоремы 10.1.4 было установлено Ортегой и и Рокоффом [1966] в предположении, что || Gx - Gx* - Gf (x*) (x - **)||< с || х - х* И1*8, v х ? S (**, г), A7) при некотором е > 0. Это условие выполнено, например, если G' удовлетворяет условию Гёльдера || G (х) —¦ G' (х*) ||< а || х —- х* \\8 в точке х*. Кроме того, было показано, что при выполнении условия A7) существует такая постоянная Р, что Vk>kQ, A8)
298 Часть IV. Локальная сходимость 10.1 для любой последовательности {xk}, для которой xk+x = Gxk, k — 0, 1, . . . , и lim xk = x*. Здесь а = p (Gf (**)), ko зависит отданной конкретной последователь- ности {xk} ир+ 1 — размерность наибольшего блока жордановой формы матрицы (/'(**), который ассоциирован с а. Оценка A8) является лучшей (с точностью до постояной Р) оценкой, какая может быть получена для линейного итерационного процесса, и, кроме того, она не выполняется при более слабых требованиях диффе- ренцируемости из теоремы 10.1.4 (см. У 10.1.5). Данное в тексте доказательство теоремы 10.1.4 возникло в результате переработки доказательства одной теоремы Коффмана [1964] об асимптотическом поведении решений возмущенных линейных разностных уравнений (см. также Панов [1964]) и было дано Ортегой и Рейнболд- том [1970а]. ЗС 10.1.5. Теорема сходимости 10.1.4 дает скорость сходимости только в /?-мере. Однако уже доказательство теоремы 10.1.3 показывает, что при любом е > 0 мы можем выбрать такую норму, что Qx G, **) < a + 8, где снова a = p (G' (#*)). Следующего дополнительного предположения о G' {х*) достаточно для того, чтобы гарантировать равенство с а: Пусть G удовлетворяет условиям теоремы 10.1.4 и матрица G' (х*) подобна блочно диагональной матрице с блоками Нх и #2, где матрица Нх диагональна и Р (#i) > Р (#г)- Тогда существует норма в Rn, для которой Qx (J, х*) = о. В доказательстве используется только тот факт, что существует такая норма, для которой || G' (х*) || = а (см. Хаусхолдер [1964]), а также то обстоятельство, что Указанное условие на G' (**) эквивалентно тому, что любая жорданова клетка, соответствующая собственному значению с модулем а, диагональна. ЗС 10.1.6. Теорема 10.1.5 является стандартным результатом для итераций xk+\ _ gxk _j_ ^ k= 0> 1, .... Дальнейшее обсуждение линейных итераций см., например, у Форсайта и Вазова [1960] и Варги [1962]. ЗС 10.1.7. Лемма 10.1.6 и ее доказательство дословно переносятся на случай банаховых пространств. ЗС 10.1.8. Первое утверждение теоремы 10.1.7 является по существу стандартным результатом, хотя обычно отображение G предполагают дважды непрерывно диф- дифференцируемым в окрестности точки х* и получают лишь скорость сходимости в Q-мере (см., например, Дюран [1960], Кунцманн [1959], Корганов [1961] и Трауб [1964]). Второе утверждение теоремы о достаточном условии для получе- получения порядка в точности два ранее нигде не появлялось, хотя Трауб [1964] по определению полагает порядок равным двум, если G" (х*) Ф 0. Однако легко ви- видеть, что условие G" (х*) Ф 0 еще не достаточно для того, чтобы порядок сходи- сходимости, согласно нашему определению, в точности равнялся двум [см. У 10.1.11, где дан пример, когда G" (**) Ф 0, но оба порядка сходимости равны бесконеч- бесконечности]. В действительности не достаточно даже более сильного условия, что G" (х*) как линейный оператор из Rn в L (Rn) является взаимно однозначным (см. У 10.1.12). ЗС 10.1.9. При доказательстве леммы 10.1.6 фактически доказано больше, чем утверждается. Действительно, доказательство показывает, что 0 < Qp G, х*) < < со. Аналогичное замечание относится и к теореме 10.1.7. ЗС 10.1.10. Теорема 10.1.7 и метод ее доказательства распространяются на случай итераций высших порядков. Более точно, если отображение G р раз не- непрерывно дифференцируемо на ?>, х* = Gx*> G{l)(x*) = Q> /=1, ...,p, и q(p+1) (х*) существует как F-производная и удовлетворяет условию 6(р+!) (х*) X X hp+l ф 0 для всех h ? Rnf пфЪ, то
10.1 Гл. 10. Одношаговые стационарные методы 299 Это я-мерный аналог знаменитой теоремы Шредера [1870] для п= 1. Войгт [1969] показал, что, заменив в теореме 10.1.7 условие G' (х*) = 0 условием р (G' (л;*)) = 0, нельзя утверждать даже Q-сверхлинейной сходимости, даже если дополнительно потребовать бесконечной дифференцируемое™ отображения G в х* и выполнения равенств G(p) (**) = 0 при всех р > 2. ЗС 10.1.11. Теорему 10.1.7 и ее доказательство можно распространить на случай банаховых пространств, если условие G" (**) ИкфО заменить условием UG"(*)//[|||/||2 0 УПРАЖНЕНИЯ У 10.1.1. Пусть G: Ос^->^и(р: [0, оо) с R1 -» R1. Предположим, что для некоторого х* f int (D) имеет место неравенство ||Gx — х*||< ф (||х — х*\\) при всех х? S(x*> 6) с D. Показать, что х* будет точкой притяжения для итерации л^Ь1 = Gxk, k = 0, 1, ..., если функция ф удовлетворяет любому из следу- следующих условий: (а) Существует такое s0 ? @, 6), что для всякой последовательности {o>}, такой, что 0 < afe_|_j < ф (а&), k = 0, 1, . . ., и а0 < s0, выполнены соотношения о^ < s0, k = 1, 2, . . . , и lim а/j = 0. (б) Существует такое s0 f @, 6), что ф(з) <s при всех sf @, s0). (в) функция ф изотонна на некотором интервале [0, s], и существует такое s0 ? @, min (s, 6)), что ф (s0) < s0 и lim s^ = 0, где sk ,, = ф (s^), /г = 0, 1, — У 10.1.2. Пусть отображение G: R1-*• R1 определено равенством Gx = x — — xz. Показать, что х* = 0 является точкой притяжения итерации 7: х ~^~ = =**Gxk, & = 0, 1,..., хотя G'(;t*) = l. Показать также, что R1('jtx*) = ^QiiUi **) = 1. С другой стороны, показать, что если Gx = # + *3, то 0 не является точкой притяжения. У 10.1.3. Определим отображение G: Rn -> Rn равенством Gx = Hx, где оператор H?L(Rn) нильпотентен (т. е. Нт = 0 для некоторого т). Показать» что Qx (J, 0) = 0, хотя производная G' {х) = Н и не обязательно равна нулю. У 10.1.4. Определим отображение G: R1 -> R1 равенствами Gx = — */ln|*|, a;=^=0, G@) = 0. Показать, что Qx G, 0) = Rt G, 0) = 0, но Qp (?, 0)=oo для любого р > 1. (Это показывает, что из Q-сверхлинейной сходимости совсем не обязательно следует сходимость какого-нибудь более высокого порядка.) У 10.1.5. Определим отображение G: R1 -> R1 равенствами Gx = Kx — — (х/\п | х |), х Ф 0, G @) = 0 при некотором Я f @, 1). Показать, что х* = 0 является точкой притяжения, но оценка вида | xk | < §№, /г>&0, невозможна, если х° Ф 0. У 10.1.6. Определим отображение G: R2-* R2 равенствами gx (х) = atj — д:2, g2 (х) = д:|. Показать, что х* = 0 является точкой притяжения процесса 7: л:*"* = =» Gxk и что /?! G, л*) =0, но (?! G, **) > 0 в любой норме (Войгт [1969]). У 10.1.7. Определим отображение G: R1 -> R1 равенствами Gx = ехр (—х~~\ 0, G @) = 0. Показать, что х* = 0 является точкой притяжения процесса ?• * = Gxk и что
300 Часть IV. Локальная сходимость 10.1 У 10.1.8. Пусть отображение F:DczRn-*Rn F-дифференцируемо в точке ), для которой Fx* = 0, и пусть матрица B?L(Rn) такова, что о =* p(F(*))< (а) Показать, что х* является точкой притяжения итерации о\ х ^ = xk — — BFxk, k = 0, 1, . . ., и что /?х G> х*) = а. (б) Показать, что Rt G» **) = 0 тогда и только тогда, когда матрицы F' (х*) и В невырождены и B = JF' (x*)~\ где все собственные значения матри- матрицы J?L(Rn) равны 1. У 10.1.9. Пусть G: D<zRn-+Rn и х* ? int (D) является неподвижной точкой для G. Пусть, далее, на некотором шаре S = S(;t*, r)<zD отображение О G-дифференцируемо, G' (**) = 0 и Показать, что х* является точкой притяжения процесса *7: д^+! *= G*fe и Од G, **)>0QG, а:*) > 1 + V- У 10.1.10. Определим отображение G: R1 -> R* равенством Gx = xp при не- некотором р> 1. Показать, что х* = 0 является точкой притяжения процесса 7: **+* «в G*fe и что Од G, **) = 0qG, ^*) = р. (Это показывает, что одношаго- вые итерации, вообще говоря, могут иметь любой порядок сходимости.) У 10.1.11. Определим отображение G: R2 -> R2 равенствами ^ (л) = 0, g2 (х) = х\. Показать, что G" @) ^=0, но х*^0 есть точка притяжения про- процесса 7: я*"* = Gxk, такая, что OR G, **) = 0QG, a;*) = cx). У 10.1.12. (а) Определим отображение G: /?2-»/?2 равенствами gr2 (x) = х1-\~ х2хг + х^1 при некотором m > 3. Показать, что ** = 0 является точкой притяжения процесса 7: xk~^1 = Gxk и что Oq G, х*) > m — 8, е > 0, хо- хотя G' (**) ^Ои^М^О, v /i =? 0. (Это показывает, что условие G' (х*) = 0 не является необходимым для сходимости высшего порядка и что условие взаим- взаимной однозначности G" (х*) не является достаточным для того, чтобы 0qG>**)> >2.) (б) Заменить g2 на g2 (х) == хгх2 + х$ и показать, что справедливы те же самые заключения, хотя теперь G' (х*) = 0 (Войгт [1969]). У 10.1.13. Пусть G: DczRn-»Rn дважды F-дифференцируемо в точке х*? int(D). Показать, что G" (х*) как отображение из Rn в L(Rn) не является взаимно однозначным тогда и только тогда, когда все матрицы Гессе H1(x*)f .,• . . ., Нп (х*) вырождены и имеют общий нуль-вектор х). У 10.1.14. Рассмотрим отображение G: R2 -> R2, определяемое равенствами gx(x) = g2(x) = х\ — х\. Показать, что каждая из двух матриц Гессе для G не- невырождена, но существует такой вектор h Ф 0, что G" (*) hh = 0. У 10.1.15. Пусть отображение F: DczRn->Rn F-диффенцируемо в точке x*?int(D), для которой Fx* = 0. Определим отображение G: DaRn + Rn соотношением Gx =г х — (uFx, где со — некоторый действительный параметр. !) То есть собственный вектор, отвечающий собственному значению нуль.— Прим. ред.
10.2 Рл. 10. Одношаговые стационарные методы 301 Показать, что p(G' (x*)) < 1 тогда и только тогда, когда выполнено одно из следу- следующих условий: (а) Собственные значения^, . . ., Кп матрицы F* (**) удовлетворяют усло- условиям Re К( > 0, i = 1, . . ., л, и 0 < со < B Re kt) /1 Xi j2, / = 1, . . . , п. (б) Re^<0, Ы я, и BRe^)/| ^|2<со<0, /= 1, . . . , п. У 10.1.16. Рассмотрим частный случай У 10.1.15, когда 0 < кг < К2 < ••• < кп. Показать, что р (G' (х*)) достигает минимума как функция от со при + Я) У 10.1.17. Пусть B?L(Rn), р(В)>1. Сформулировать в терминах задан- заданного вектора х и собственных векторов матрицы В необходимые и достаточные условия того, что lim Bkx = 0. У 10.1.18. Пусть матрица A?L(Rn) симметрична и положительно опреде- определена. Рассмотрим процессы Х*+2 = G(Хк), &=0, 1, .,.> вычисления квадрат- квадратного корня В = А1/* из А, где (а) 0(Х)Х + (ЛХ2 (б) ()() (/2)( + лх). лг I. Используя формулу дифференцирования, данную в У 3.1.15, доказать, что для этих процессов (а) G' (В) = (/ X /) - а [(/ X В) + (В X /)]; (б) G' (В) = (/ X /) - Р [(А-1 ХВ) + (Б-1 X /)]; (в) G'(B) = ^-(/X/)-(BXB-1)]; где X обозначает тензорное произведение, определенное в У З.Ы5. II. Показать, что если /^ > ... > ЯЛ — собственные значения матрицы Л, го собственные значения наших трех производных G' (В) будут /, / = 1, .,., п. (б) iHj «= 1 - р (/Г/А/ + 1/J/T,); (в) R/--f [1-( Следовательно, соответственно при а = 1/B1/%) и Р = Я^//^ процессы (а) и (б) локально сходятся, в то время как в процессе (в) \iij могут быть как угодно большими по модулю, если матрица А плохо обусловлена. Показать, однако, что если Х°А = ЛХ°, то процесс (в) сходится локально и Я-сверхлинейно (Либль [1965]). 10.2. МЕТОД НЬЮТОНА И НЕКОТОРЫЕ ЕГО МОДИФИКАЦИИ Конкретизируем теперь результаты предыдущего параграфа для итераций вида xH-i = xk - А (хкГ1 Fx\ k = 0, 1, ..., A) где А — отображение подходящего подмножества пространства Rn в L (Rn). Конечно, наиболее важным частным случаем итерации A) является метод Ньютона, в котором А (х) = F' (х). Но прежде чем приступить к детальному рассмотрению метода Ньютона, мы
302 Часть IV. Локальная сходимость 10.2 начнем с основной леммы относительно процесса A), которая будет полезна нам во всей остальной части главы. 10.2.1. Пусть F: D с Rn->Rn F-дифференцируемо в точке х*? ?int(D), для которой Fx* = 0. Пусть, далее, A: S0-*L(Rn) опре- определено на некоторой открытой окрестности SoczD точки х* и не- непрерывно в х* и матрица А (х*) невырождена. Тогда существует шар S = S (х*, б) с 50, б > 0, на котором корректно определено отобра- отображение G:S-+Rn, Gx = x—A(xrlF{x), Vx?S. Это отображение F-дифференцируемо в х* и G' (х*) =* / — Л (х*Г! F (х*). B) Доказательство. Положим р ==JА(х*)^11| и выберем е, 0< <е < BР)" и б > 0 такими, что S = S (х*, б) с50 и (|Л(х)-Л(х*)||<е, VxG5. C) Тогда по лемме о возмущении 2.3.3 для всех х ? S существует А (хГ1 и ИМ^КР/О-РеХЗР, Vx?S. D) Следовательно, отображение G корректно определено на S. Так как F F-дифференцируемо в х*,,мы можем считать б выбран- выбранным настолько малым, что \Fx — Ff — F{f)(x — *)\<*\x — #l Vx^5. E) Ясно, что х* = Gx*; поэтому, используя C) — E), мы получаем оценку || Gx — Gx* — \I — A (xV1 F (x*)] (x — x*) || =* - IA (x*)-1 F (x*) (x - x*) - A (x)-1 F (x) || < <|| — А (хГ1 [Fx — Fx* — F (x*) (x~ x*)]|| + +1А (хГ1 [Л (х*) - A (x)] Л (х*Г! F (x*) (x - x*) || < <[2р8 + 2р28||Г(^)||]|1^-^|1, VxgS. F) Поскольку 8 произвольно, a IF' (x*)|| и р — фиксированные ве- величины, эта оценка показывает, что G является F-дифференцируе- мым и что выполнено B). | Из леммы 10.2.1 и теоремы 10.1.4 следует, что если в допол- дополнение к условиям леммы 10.2.1 потребовать, чтобы а = р(/ — — А (х*)"~! F' (х*))< 1, то х* будет точкой притяжения для процесса 7, определенного формулой A) и Rx G, х*) = ст. В частности, если F G-дифференцируемо в некоторой окрестности точки х* и А (х) = ^^'(х), то леммы 10.2.1 и 10.1.6 показывают, что метод Ньютона имеет как R-, так и Q-сверхлинейную сходимость. Это уточняется
10.2 Гл. 10. Одношаговые стационарные методы 303 в следующей основной теореме, которая также утверждает, что не- некоторые дополнительные предположения о регулярности отображе- отображения F обеспечивают сходимость высшего порядка. 10.2.2. Теорема о ньютоновом притяжении. Пусть отображение F: DczRn-*Rn G-дифференцируемо в некоторой открытой окрест- окрестности SQaD точки х* ? Д для которой Fx* = 0, причем произ- производная F непрерывна в х* и матрица F' (х*) невырождена. Тогда х* является точкой притяжения для итерации Ньютона 7: xk+l = xk — F' (хкГ1 Fxk, k =* 0, 1, ..., G) и /?! G, a:*) = Qx G, #*) = 0. Если, кроме того, существуют такие постоянные а<оо и р 6@,1], что <S0, (8) то 0^G, x*)>0qG, a:*) > 1 + р. Наконец, если F непрерывно дифференцируемо на 50, а в точке х* существует вторая Лпроиз- водная, удовлетворяющая условию Р(**)йЛ^0, VAg/?", h^09 (9) то О(ЭГ *) 0CT *) 2 Доказательство. По теореме 3.2.8 F является F-дифферен- цируемым в f, и потому по лемме 10,2.1 с А (х) = F' {х) при х ? So итерационная функция Ньютона Gx = х — Fr (xf~l F (х) кор- корректно определена на некотором шаре 5 = S (г*, б) cz So, б > 0 и С'(л;*) = 0. Лемма 10.1.6 показывает теперь, что /?х (^7, AT*') = = C,G, **) = 0. Предположим, далее, что выполнено (8). Тогда по теореме 3.2,5 л \\Fx-Fx* — F' (х*) (х — х*) || < а\\х — х*(+\ Ух g S, и, следовательно, в силу первого неравенства в F), мы получаем с учетом D) Поэтому из леммы 10.1.6 немедленно следует, что О/?EГ, x*)>0QGf х*)>1ф/7. Наконец, предположим, что F непрерывно дифференцируемо на So и выполнено (9). Тогда по теореме 2.3.3 F' (х)~~1 также непре- непрерывно на S, и так как и S компактно, то существует постоянная ? > 0, такая, что l S. A0)
304 Часть IV. Локальная сходимость 10.2 Выберем теперь б' > 0, такое, что S' = S (х*, б')сб'и |F (х) - F' (х*) -F" (х*) (х- х*) || < с(8РГ1 \х-л*|, V* ? S, и положим R (х) = F (х) - F (х*) - F' (х*) (х-х*) --^F" (х*) (х - **) (х-х*), Тогда Я' (х) = f (ж) — F (х*) — F" (х*) (х — х*) непрерывно на S' и, следовательно, • о Следовательно, для любого х ? S' ||Gjc- **Ц = If (х)-1 \-~Fff (x*) (х-х*) (х-х*) + R(x)- - [F' (х) - F (x*) - Г (x*) (x - x*)} (x- x*) j >~\\F (x)-1 Г (x*) (x - x*) (x - x*) || - и наш результат вытекает из леммы 10.1.6. | В оставшейся части этого параграфа мы рассмотрим некоторые распространенные модификации метода Ньютона. Одной из про- простейших модификаций является следующая итерация, изученная в §7.1: **+i *=**-© [F И + К1Г1 Fx\ k = 0,1, ..., 0 *) где со и X — фиксированные постоянные. Ясно, что если со = 1 и X =0, то A1) сводится к методу Ньютона. 10«2«3. Пусть F: D с Rn -> Rn является G-дифференцируемым в некоторой открытой окрестности Socz D точки **, для которой Fx* = 0, причем производная F' непрерывна в х*, а матрица F' (л:*) невырождена. Пусть, далее, [гх, ..., [in — собственные зна- значения матрицы F (х*) и = min {| ь р/(- 2 Re ^) | Re ^
10.2 Гл. 10. Одношаговые стационарные методы 305 где (S =оо или г) =оо, если нет собственных значений, для кото- которых соответственно Re |д^ > 0 или Re \i( < 0. Тогда х* является точкой притяжения процесса A1) для любой пары (к, со) из множе- множества Л =*{(*,, со)|0<со<2, — р — VB — ш) <л}. Доказательство. Для любой фиксированной пары (А,, со) ? Л определим отображение A: S0-+L(Rn) формулой Д (#) = AДо) х X [F' (х) + М], а: б So. Ясно, что А непрерывно в я*. Предположим, что матрица А (**) вырождена. Тогда для некоторого / будем иметь [Лу 4-^ = 0 и, следовательно, Х=^0. Если А,>0, то мы получаем Ь/B — <о)< т|< ii2/(- 2 Re ц7) - Я/2, что невозможно. Аналогично обстоит дело и со случаем к << 0. Таким образом, матрица Л (jc*) должна быть невырожденной, и по лемме 10.2.1 отображение Gx=zx — g>IF'{x) + МГ1 F (х) корректно определено на некотором шаре S=S(jc*, 8) си So и /^-дифференцируемо в х* и G' (**) = / — ю lf' (^*) + МГ1 F1 Поэтому собственными значениями матрицы G' (х*) служат v, - [Я + A -со) ъ]1(К + ^), I = 1, ..., п. A2) Условие | vt |2 < 1 эквивалентно следующему: Я2 + A -соJ1 [Л;|2 + 2 A - со) ^Re ц, <Я2 + I ^ Г + 2XRe ^ или — B — со) со | (Л, |2 <С 2Л,со Re fxt, t=l, ,.., n, что, очевидно, выполнено при (Я, со) ? Л. Значит, р (G' (#*)) < 1 и применима теорема 10.1.3. | Заметим, что итерация 7, определенная формулой A1), вообще говоря, не обладает сверхлинейной скоростью сходимости метода Ньютона. Фактически, согласно A2), условие /^ G, х*) = = max|vj = 0 эквивалентно условию |А, -f A — со) ^| =0, i = ==1, ..., /г, которое выполняется тогда и только тогда, когда К = = 0 и со = 1 или \xt = (со — I)" А, при всех и Первый случай дает, конечно, метод Ньютона. Заметим также, что множество Л, введен- введенное в формулировке теоремы 10.2.3, не наилучшее из возможных. (Относительно необходимых и достаточных условий на К и со, при которых р (G' (**)) < 1, см. У 10.2.3.) Рассмотрим теперь другую модификацию метода Ньютона, изу- , ченную в § 7.1, в которой упрощенный шаг по Ньютону комбини-
306 Часть IV. Локальная сходимость 10.2 руется с обычным шагом по Ньютону: хИ-i = xk — F' (xk)~l [Fxk + F(xk — F1 (xk)~{ Fxk)], k = 0, 1, ... . A3) Хотя упрощенный метод Ньютона обладает сверхлинейной сходи- сходимостью лишь при весьма ограничительных условиях (см. У 10,2.1), комбинированная итерация A3) имеет по крайней мере кубическую сходимость. 10.2.4. Пусть F: D cr Rn -> Rn ^-дифференцируемо в открытом шаре S == 5(л;*, 8)сВи удовлетворяет условию Пусть, далее, Fx* =0 и матрица F' (х*) невырождена. Тогда х* является точкой притяжения итерации 7, определенной формулой A3), и Доказательство. Из доказательства теоремы 10.2.2 следует, что функция Ньютона Nx =х — Fr (x)~x Fx корректно определена и удовлетворяет оценке вида II КГ у у* II ^ -п II у v* ||2 У/у Г Q на некотором шаре Sx = S (**, бх) с: S. Следовательно, отображение Gx=Nx — F'{xrlF{Nx) также корректно определено на шаре 52 = S (#*, 62) с Sv где 62 < <б1/г]. Поэтому если \\Ff (x)~~l\\ <р для всех x?S2, то 11| IF (x) Nx — F {Nx) — F' (x) x* || < P || F (Nx) — Fx* — F' (x*) {Nx — x*) || + it: 11 ^ * для всех х ? S2. Таким образом, наш результат следует из леммы 10.1.6. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 10.2.1. Квадратичная сходимость метода Ньютона для одномерных уравнений была установлена Коши [1829]. Теорема о точках притяжения для уравнений в Rn была доказана Рунге [1899], который также делал упор на квадратичной схо- сходимости. Независимо этот результат был получен для п = 2 Блютэлем [1910]. (Относительно результатов о сходимости для случая, когда существование решения не предполагается, см. гл. 12 и, в частности, ЗС 12.6.1.) • Некоторые авторы, например Трауб [1964], доказывают квадратичную схо- сходимость метода Ньютона непосредственным дифференцированием функции
10.2 Гл. 10. Одношаговые стационарные методы 307 Ньютона. При этом требуется значительно большая гладкость отображения F, чем в теореме 10.2.2 (см. У 10.2.6). Фактически теорему 10.2.2. можно слегка усилить: не требовать G-дифференцируемости отображения F в окрестности точки л*, а лишь предположить, что существует (и по-прежнему непрерывна в **) матрица Якоби. Утверждение теоремы 10.2.2, относящееся к случаю, когда производная лишь непрерывна по Гёльдеру, есть результат Шмидта [1968] (см. также ЗС 11.2.4). Условия, обеспечивающие в точности второй порядок сходимости по-види- по-видимому, ранее нигде не встречались. ЗС 10.2.2. Теорема 10.2.4 принадлежит Траубу [1964], хотя снова наши предпо- предположения дифференцируемости слабее. Более общим образом, соответствующий m-шаговый метод х*>° = Д & в л^-1 - F' (хкГ1 Л*-'-1, i = 1, . ,. t m + 1, (изучавшийся в §7.1), в котором делается m упрощенных ньютоновых шагов между обычными ньютоновыми шагами, имеет порядок сходимости m + 2, а точнее, удовлетворяет условию О^ (J, х*) > OQ G, х*) > т+ 2. Набросаем здесь дока- доказательство этого факта, которое является простой модификацией доказательства теоремы 10.2.4. Мы уже видели, доказывая эту теорему, что Поэтому — *¦ И < IIF' (хкГ11| {|| Fxk^ - Fx* - F' (x*) (xk*2 - **) || + +1| [Г (х*) - F' Продолжая таким же образом, легко показать, что || Г — X II ^ М'т—2 И Х — " По существу этот результат является частным случаем совсем общего результата Шаманского [1967а], который будет обсуждаться в ЗС 11.2.5. ЗС 10.2.3. Итерационные процессы высшего порядка могут быть порождены комбинацией двух процессов меньшего порядка (подробное обсуждение вопроса см. у Трауба [1964]). Пусть G, и G2 удовлетворяют условию \\Gix — х* || < уц я — х* |f\ i= I, 2, в некоторой окрестности точки х*. Тогда композиция = Gi о О2 удовлетворяет условию так что процесс имеет порядок по крайней мере рхр2. Например, можно взять ком- композицию функции Ньютона с самой собой и получить итерацию четвертого поряд- порядка. Однако при этом мы просто удваиваем работу на каждом шаге, так что ничего этим не выигрывается. Теорема 10.2.4 и ее обобщение, обсуждавшееся в ЗС 10.2.2, интересны в том отношении, что они позволяют строить методы высокого порядка, требующие лишь одного вычисления F' и совсем не использующие высших про- производных. ЗС 10.2.4. При доказательстве теоремы 10.2.2 мы получили оценку погрешности \\xk+l - х* И < 4 Ра И xk - х* f+1. A4)
308 Часть IV. Локальная сходимость 10.2 Эта оценка не имеет существенного значения с точки зрения фактического вычис- вычисления границы ошибки, так как, даже если бы нам были известны все константы, лг*-то не известно. Однако эта оценка важна с теоретической точки зрения, по- поскольку она показывает, как осуществляется сходимость вблизи х*. В частности, чем больше C или а, тем хуже сходимость. Такое положение дел типично для результатов о точке притяжения: факти- фактически они никогда не оказываются полезными при установлении того, что для дан- данной конкретной точки х° начинающаяся с нее последовательность сходится. Над- Надлежащее толкование теоремы 10.2.2 таково: в предположении, что F удовлет- удовлетворяет некоторым определенным условиям, метод Ньютона должен сходиться, и с определенной скоростью, если точка х° (или любая итерация хк) достаточно близка к х*. Таким образом, теорема 10.2.2 описывает некоторые внутренние свойства метода Ньютона, а не является средством для установления сходимости. С другой стороны, результаты, подобные теореме 10.2.2, дают возможность находить области несуществования решений. Рассмотрим частный случай оценки A4), когда р = 1 (т. е. F' удовлетворяет условию Липшица). Тогда теорема 10.2.2 гарантирует, что последовательность Ньютона {л:*2} сходится к **, если || х° — — х* Ц < 1/4Р«. Поэтому если итерации не сходятся, то в шаре 5 (a:0, V4 P&) решений нет, и если можно получить оценки для Р и а, то тем самым мы получаем область несуществования решений уравнения Fx = 0. Пока эта идея еще не раз- развита до практического применения. ЗС 10.2.5. В теоремах § 10.2, как и последующих параграфов, предполагается, что в точке х* производная F' (х*) невырождена. Ролл [1966] дал для метода Нью- Ньютона теорему о точке притяжения, где предполагается невырожденность F' (х) лишь для точек х Ф х* из некоторой окрестности точки х*, но не в самой этой точ- точке. Кавана [1970] указал на неточность в доказательстве Ролла и доказал следую- следующий уточненный результат. Пусть отображение F: D с Rn -> Rn дважды F-дифференцируемо в неко- некоторой открытой окрестности S d D решения х* уравнения Fx = 0, F" удовлетво- удовлетворяет условию Липшица на 5 и производная F' (х) невырождена для всех х Ф х *, х ? S. Предположим, далее, что существует такое у > 0, что \\F"(x*)uv\\>y\\u\ где N a Rn — ядро отображения F' (я*). Тогда х* — точка притяжения для ме- метода Ньютона. Кроме того, если М — ортогональное дополнение к N, a PN и Рм — соответствующие (естественные) проекторы в Rn на N и М соответственно, то последовательность [Рм (х/* — х*)} сходится ^-квадратично к нулю, а ^-мно- ^-множитель для последовательности {PN (xk — **)} равен по крайней мере 1/2. Заметим, что Степлмэн [1969] рассмотрел модифицированный метод Ньютона, который при определенных условиях сохраняет квадратичную сходимость, даже когда F не дифференцируемо в я*. УПРАЖНЕНИЯ У 10.2.1. Применив результат У 10.1.8, показать, что упрощенный метод Ньюто- Ньютона xkJrl = xk — F' (а:0)/7^ имеет /?-сверхлинейную сходимость тогда и только тогда, когда F' (х*)~~1 существует и Ff (*°) = F' (х*) У, где все собственные зна- значения матрицы / равны 1. У 10.2.2. Рассмотреть метод Ньютона 7 в применении к отображению /t R1 -» -> R\ определенному формулой / (t) = ехр (—f~2), /*? 0, /@) = 0. Показать, чтоб является точкой притяжения, но Rt (?Г, 0) = Qx {J> 0) = 1.
10.2 Гл. 10. Одношаговые стационарные методы 309 У 10.2.3. Предположим, что выполнены условия теоремы 10.2.3. Пусть [Х/, / = 1, ..., я,— собственные значения матрицы F' (х*). Положим + 0}. Если Г+ непусто, то положим pm = min Г+, рм = max Г+, Аналогично, если Г__ непусто, то положим т^ == min Г_ и цм = max Г__. Показать, что \F' (x*) + + А,/]" существует и р (/ — <o[F' (х*) + XI]~~l F' (**)) < 1 тогда и только тогда, когда действительные параметры со и X принадлежат множеству Л, определяе- определяемому одним из следующих условий: (а) если Re \ц > 0, i = 1, . . . , п, то Л = {со > 0, 0 > X > ртсо - 2рт} U (со > 0, X > 0, X > Эмсо - 2р^} (J 1){со<О, (б) если Re щ < 0, I = 1, ,.., п, то Л = {со>0, 0 < Я< - щт + 2цт) U {со>О, Я< 0, Ь< U {со<0, Ь>— (в) если существуют \ii и р,/, такие, что Rejij >0 и Re \ij < 0, то Л={О<со<2, сорт-2рт<Ж-сог]т + 2Лт}; г) если Re|if>0, /= 1, ..., /г, и Re^ = O для некоторого /, то Л={0<со<2, Я>шрт —2рт}; (д) если Re щ < 0, i = 1, ..., /г, и Re jxt- = 0 для некоторого /, то Л = {О<со<2, Ж — ють + 2т]т}; (е) если Re щ = 0, i = 1, ..., л, то Л = {0 < со < 2, — оо < Ж + оо}. Показать также, что Л обязательно пусто, если производная F' (х*) вырождена. У 10.2.4. Определим отображение /: R1 -» R1 формулой / (х) = х + *1+а при некотором а ? @, 1]. Доказать, что для метода Ньютона О^ (J, 0) = QQ G, 0) = =1 + а (это показывает, что точный порядок метода Ньютона может быть любым числом, заключенным между 1 и 2, в зависимости от регулярности /). У 10.2.5. Предположим, что в контексте леммы 10.2.1 отображение A: So -> -> L (Rn) (J-дифференцируемо. Вычислить явно G' (х) в окрестности точки х* и снова получить отсюда, что У 10.2.6. Предположим, что выполнены условия теоремы 10.2.2 и, кроме того, что F трижды непрерывно дифференцируемо в Do. Показать, что функция Ньютона Gx = х —- F' (x) Fx дважды F-дифференцируема в некоторой окрестности S точки x*t причем G' (х) = F' (хГ1 F" (х) [Ff (X) Fx], v x ? 5, Gn (x*)=Ff (x*rlFn(x*)t Вывести отсюда с помощью теоремы 10.1.7 заключительное утверждение теоре- У 10.2.7. Предположим, что функция /: R1 -* R1 трижды непрерывно дифферен- дифференцируема на R1 и что для некоторого х* выполнены условия / (лг) = /* (х*) = 0,
310 Часть IV. Локальная сходимость 10.3 /' (**) Ф 0. Показать, что для метода Ньютона У 10.2.8. Предположим, что х* ? R1 является нулем кратности р для функции /: R1 -> R1. Показать, что при соответствующих предположениях о дифферен- цируемости функции / мы имеем для метода Ньютона У 2.10.9. Пусть отображение G: D a Rn -> Rn /^-дифференцируемо в некоторой открытой окрестности точки х* = Gx* и р (G' (**)) < 1. Показать, что х* явля- является точкой притяжения для метода Ньютона, примененного к Fx = х — Gx. У 10.2.10. (Сходимость Гаусса — Ньютона.) Пусть отображение F: DczRn-* -> R, m > п, дважды F-дифференцируемо в окрестности такой точки х*, для которой F' (х*)г Fx* = 0, а (ранг F' (х*)) = п. Показать, что итерационная функ- функция Гаусса — Ньютона (§ 8.5) Gx = x — [Ff (x)T F' (a;)]-1 F' {х)т Fx корректно определена в некоторой окрестности точки х* и F- дифференцируема в этой точке, причем G' (х*) = — [F' (x*)T F' (х*)Г1 F" (*•) Fx*. Вывести отсюда, что Rx G, х*) = Qx G, *•) = 0, если Fx* = 0, т. е. если рас- рассматриваемая система совместна. У 10.2.11. Определим отображение F: R1 -> R2 соотношениями /х (я) == 1 + а2х2* f^(x) =х. Показать, что х* = 0 является точкой притяжения итерации Гаусса — Ньютона из У 10.2.10 тогда и только тогда, когда 2а2 < 1, и что Rx (J, х*) = 0 тогда и только тогда, когда а =» 0. У 10.2.12. Пусть ф: Rn -> Rn непрерывно дифференцируемо, A?L(Rn) и вы- выполнено одно из следующих условий: (а) Матрица А симметрична и положительно определена, а матрица ф' (х) симметрична и положительно полуопределена для всех х ? Rn. (б) А есть М-матрица, а ф' (*) неотрицательна и диагональна для всех х ? Rn. Тогда в силу теорем 4.4.1 и 5.4.1 соответственно уравнение Fx == Ах + фх = = 0 имеет единственное решение **. Показать, что х* является точкой притяжения для метода Ньютона и что сходимость Q-сверхлинейна. У 10.2.13. Пусть отображение F: D с Rn -> Rn имеет удовлетворяющую усло- условию Липшица производную в открытой окрестности So С D такой точки х*, для которой Fx* = 0 и производная F' (х*) невырождена. Показать, что существует 6 > 0, такое, что S = 5 (**, 6) С 50 и | F (х _ /?' (a:)-1 Fx) 11 < (I Fx ||, V* 6 5. Вывести отсюда, что в случае, когда итерации Ньютона G) сходятся кх*, сущест- существует такое k0, что (| Fa^+1 || < [| F^ (| для всех k > fa. 10.3. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ ИТЕРАЦИИ Применим теперь результаты предыдущих параграфов к неко- некоторым из обобщенных линейных итераций, описанных в § 7.4. Нач- Начнем с результата об общем процессе xk _ [/ + ... + Н {xk)™~{\ В {xk)~l Fx\ k = 0,1,...! A)
10.3 Гл. 10. Одношаговые стационарные методы 311 где В и Я определены соотношениями F' (х) = В(х)-С (*), Н(х) = В (хГ1С (х). B) 10.3.1. Пусть отображение F: DczRn-+Rn G-дифференцируемо в открытой окрестности So cz D точки х*, причем производная F' не- непрерывна в этой точке и Fx* = 0. Пусть, далее, отображение В: S0-+L(Rn) непрерывно в **, матрица В(х*) невырождена и р(Я(л;*)) < 1. Тогда для любого m > 1 точка х* является точкой притяжения итерации 7, определенной формулами A) и B), и R1G,x*)=p(H(x*)>"). Доказательство. Так как матрица В (#*) невырождена и отображение В непрерывно в х*, то по теореме 2.3.3 В (х)~~1 суще- существует на некотором шаре S = S (х*9 б) cz So и как функция от х непрерывна в х*. Поэтому Я также существует в S и непрерывна в х*. Рассмотрим тождество I-H (х*)т = [/ - Я (**)] [/+...+ Я (x*)m~lh C) Так как р (Я (х*)) < 1, то матрица / — Я (jc*)m невырождена и, следовательно, второй сомножитель в правой части C) также невы- невырожден. Из непрерывности Я в точке х* следует, что отображение А(х) = В (х) [1 + Н(х)+ ... + Я (х)-1}-1 корректно определено на некотором шаре Sx = S (**, 6j) cz S и непрерывно в х*. Очевидно, А (л:*)-1 существует и лемма 10.2.1 показывает, что отображение Gx =х — А (х)~х Fx корректно опре- определено в окрестности точки х* и является /^-дифференцируемым в х*, причем l Но = /-[/+ • • • + Я (jc*)m~1] В (я*)-1 В (**) [/ — Я (**)] = Я (x*)wt так что наш результат следует из теорем 10.1.3 и 10.1.4. | Этот результат применим к любому из обобщенных линейных методов гл. 7, который можно записать в виде A). В качестве приме- примера приведем здесь соответствующую теорему о точке притяжения Для итерации G.4.12). Ю.3.2. Теорема о методе Ньютона — ПВР. Пусть для отображения Pi D е: Rn -> Rn и точки х* выполнены условия теоремы 10.3.1, и пусть F'(x) = D(x)-L(x)-U(x) D) — разложение матрицы F' (х) на ее диагональную, строго нижнюю треугольную и строго верхнюю треугольную части. Предположим,
312 Часть IV. Локальная сходимость 10.3 что матрица D (л:*) невырождена. Рассмотрим метод Ньютона — ПВР: 57: хИ-1 = Xk _ со [/ + ... + #ffl (^)m-1] [D (**) - (oL(xk)rlFx^f E) 6 = 0, 1, .•., где со > 0, m > 1 и Я0 (х) = [D (x) — coL (х)Г! [A - со) D (x) + (oU (x)]. F) Если p (#0 (x*)) < 1, то х* является точкой притяжения итерации U и /?х<эг, ^==p(#e(**)w). Доказательство. Чтобы применить теорему 10.3.1, по- положим В (х) = ± [D (*) - coL (х)], С (х) = ± [A _со) D (х) + ©?/ (*)]. Непосредственно видно, что Т7' (х) — В (х) — С (х), и ввиду непре- непрерывности F' в х* как В, так и С непрерывны в х*. Поскольку L (х*) — строго нижняя треугольная матрица, невырожденность В (**) непосредственно следует из невырожденности D (х*). Таким обра- образом, все условия теоремы 10.3.1 выполнены. | Мы можем интерпретировать теорему 10.3.2 следующим образом: Н (х*) — это просто матрица ПВР-итерации для линейной системы F' (х*) х = Ь. Следовательно, при m = 1 асимптотическая скорость сходимости процесса E) в точности такая же, как и для ПВР-итера- ПВР-итерации, примененной к системе F' (**) к = Ь. Поэтому нужно ожидать, что m-шаговый процесс Ньютона — ПВР E) в m раз быстрее, чем одношаговый процесс, так как для соответствующей линейной за- задачи одна итерация m-шагового процесса составляет m ПВР-ша- гов. Аналогичную интерпретацию можно дать общему методу A). Конкретные результаты, аналогичные теореме 10.3.2, могут быть получены из теоремы 10.3.1 и для различных других методов, скажем для процесса Ньютона — Якоби. В этой связи см. У 10.3.2 и У 10.3.3. Заметим, однако, что теорема 10.3.1 неприменима, на- например, к общему процессу Ньютона — ПВР, в котором множите- множителю релаксации со или числу m разрешено изменяться вместе с k. См. по этому поводу теорему 11.1.5, которая, кстати, дает несколько иное доказательство теоремы 10.3.1, не использующее леммы 10.2.1. Наконец, важный вопрос о выборе со, максимизирующем скорость сходимости, изучается в приложении к этой главе (§ 10.5). Рассмотрим, далее, одношаговый процесс ПВР — Ньютона. Как описывалась в § 7.4, эта итерация задается соотношением = X* - Ю/<(ДС?+'1 •••¦ *?!'*' *& ,7» ' зЛ(*}+', ...,*?{.** 4) ' {) k = 0, 1, ..., i=* I, 2, .... п,
id.3 Гл. 10. Одношаговые стационарные методы 313 где, как обычно, /lf ..., fn — компоненты отображения F: D с cz Rn -> Rn. Очевидно, G) можно записать в виде xk+l = Gxk, хотя отображение G здесь весьма сложно. Фактически наиболее простое представление получится, если определять компоненты gl9 ... ... , gn отображения G рекуррентно по формуле fl>/<(gl(*)> • - * , gj-\ (*)> Хи . • - , Хп) . (8) 10.3.3. Теорема о методе ПВР —Ньютона. Пусть F: DczRn->Rn> Fx* = 0 для некоторой точки х* ? int (D) и Т7 непрерывно дифферен- дифференцируемо в некоторой открытой окрестности So c= D точки х*. Пусть, далее, Dx, — L (х) и — ?/ (х) — соответственно диагональ- диагональная, строго нижняя треугольная и строго верхняя треугольная части матрицы F' (х). Предположим, что матрица D(x*) невырожде- невырождена и а = р (#(,) (**)) < 1, где матрица Н^ (х) определена формулой F) и со>0. Тогда отображение G с компонентами, задаваемыми соотношением (8), корректно определено на некотором открытом шаре 5 = 5 (х*, 6) в So, x* является точкой притяжения итерации 7: x*+i = Gxkt k = 0, 1, ..., и Rx G, х*) = а. Доказательство. Введем множества Di={x^So\difi(x)^0}> t = l, ..., n, где 71 (x) = x и V' W = fei (*). • • •» ff/-i W. ^. • • •. xn)\ i = 2> • • •. л- Ясно, что 5Х = Di и, согласно (8), каждая функция g; корректно определена на Sh i=l, ..., п. Таким образом, G корректно определено на Sn9 и так как х* = gi (x*), i = 1, ..., п, то мы имеем Gx* = х* б 5„. Из непрерывности 5^f на So и из условия д^{ (х*) =^= 0 следует, что каждое Dt- открыто. В частности, открыто 5Х, и посколь- поскольку функция gj непрерывна на Si, то найдется открытая окрестность Si с: Sx точки х*, такая, что у2 (х) ? D2 для всех х ? 5ь Очевидная индукция показывает, что S^ содержит некоторую открытую окрест- окрестность S точки х*. Следовательно, достаточно показать, что G: S-> -> Rn ^-дифференцируемо в х* и что G' (х*) = Н^ (х*). Тогда наш результат будет следовать из теорем 10.1.3 и 10.1.4. Положим U М = Л W - ft (^) - /I (**) (х ~ ^*), Vx б 50. Соотношение (8) можно переписать в виде Уд; ? S.
3i4 Часть IV. Локальная сходимость 10.3 Пусть теперь S' = S (л:*, б') cz S, б' > 0 — какой-нибудь замкнутый шар в 5. В силу непрерывности dtft и теоремы 3.2.5 существует такая постоянная г), что Поэтому мы получаем из соотношения (9) для i = 1, снова исполь- используя непрерывность djv что где сх — некоторая постоянная. Предположим, что существуют такие постоянные с19 ..., q_i, что \gi(x)-gi(x*)\<cj\\x-x*l V*?S', A0) при / = 1, ..., i— 1. Тогда, очевидно, имеется такая постоянная С/, ЧТО \ Поэтому из (9) с учетом непрерывности djc и yS а также условия Липшица для rt следует, что существует такая постоянная ch что A0) выполнено при / = i. Значит, по индукции оценки A0) и A1) справедливы для всех /, / = 1, ..., п. Заметим теперь, что из (9) вытекает, что (xt - <.) - со/! (x*) (Y (x) - x*) - qt (x) A2) при х ? S, t = 1, ..., n, где = Idift (y{ (x)) -a,/, (^*)] [gi (x) - Si (x*) - (xt - <)] - -<*)). A3) Очевидно, соотношение A2) эквивалентно соотношению + со 2 ^ W (ST/ W ~ ft W) = которое в свою очередь эквивалентно соотношению — со! (л*)] (Gx - Gx*) = [A — со) D (**) + cot/ (^*)] (х — **) — где Q(a:) = (?1(a:), ..., 9л(л:))т. Теперь из (9), A0), A3) и непрерыв- непрерывности dJi следует, что lim [| 9, (л:) 1 /1| х — х* ||] = 0, t=l, ,.., п.
10.3 Гл. 10. Одношаговые стационарные методы 315 Поэтому l = Hm ' I (D (л:*) - со/, (г*))"' Q (*) II = О, x-+x* И * — * I' чем и доказано, что G' (л;*) = #ш(л;*). | Рассмотрим теперь нелинейный процесс ПВР G.4.26): Решить уравнение /j(*f+1, ¦.., х?Ц, #t-, д^+1> .». ... 9 х*) = 0 относительно */в Взять **+* = л:^ + со (xt — ^)» * = ^ • • •» п» ft = 0, 1, .... В этом случае итерации не определены явно. Несмотря на это, мы можем все же применить теорему 10.1.4 к некоторой подходящей (но, по всей вероятности, неизвестной) функции G, чтобы получить скорость сходимости. Прежде чем формулировать следующий более л. общий результат, напомним (см. определение 5.2.2), что если G : D х DczRn х Rn -> Rn, то dxG (x, у) обозначает частную производ- ную от G по первой векторной переменной, a d2G (x, у) — произ- производную по второй векторной переменной. 10.3.4. Пусть отображение G: D x D с: Rn x Rn ->Rn имеет непре- рывные частные производные dfi и d2G на множестве 50 х «So, где SQczD — открытая окрестность такой точки я* ? D, для которой А Л G (л:*, л:*) = 0. Предположим, далее, что производная dtG (**, ^*) невырождена и а = р (— 5XG (**, л;*)" E2G (а*, л;*)) < 1. Тогда имеется открытый шар S = S (х*> б) с: So, такой, что при любом у ? S уравнение G (л:, у) = 0 имеет единственное решение х = Gy в S. Следовательно, последовательность **+i=G**, ft = 0, 1, ..., A4) корректно определена для любого x°?S и удовлетворяет условию G Точка х* является точкой притяжения для итерации U, определен- определенной формулой A4), и Rx G, **) = а. Доказательство. По теореме о неявной функции 5.2.4 найдутся открытые окрестности «Sj и 52 точки ^*, такие, что для /ч любого у ? S2 уравнение G (х, у) = 0 имеет единственное решение х^Оу в Sv В частности, а;* == G**. Теорема 5,2.4 показывает
316 Часть IV. Локальная сходимость 10.3 также, что отображение G: «Sa—>-*Sx /^дифференцируемо в л;* и G' (*•) = — дгд (**, *•)-* d2G(x*, **). Далее, как и при доказательстве теоремы 10.1.3, для всякого за- заданного 8>0, такого, что а + 2е<1, найдутся такая норма и такое б > 0, что S = S (**, 6) cz Sx Л S2 и Значит, GS с S. Тем самым первое утверждение доказано, а по построению для любого х° ? S последовательность A4) удовлетво- /\ ряет условию G (xk+\ xk) =0, k =0, 1, .... Остальные утвержде- утверждения немедленно следуют из теорем 10.1.3 и 10.1.4. | Чтобы применить теорему 10.3.4 к нелинейному процессу ПВР, /ч заметим, что в этом случае отображение G может быть определено формулами .... */-ь yi + ^lXi — Utlf f/i+u ...» /= 1, ..., n, при любом со > 0. Ясно, что последовательность {**} удовлетворя- ет предписаниям метода ПВР тогда и только тогда, когда G (**+1, **) = о, k = 0, 1 10.3.5. Теорема о нелинейном методе ПВР. Пусть отображение F: D cz Rn -> Rn непрерывно дифференцируемо в открытой окрест- окрестности So cz D точки х* ? D, для которой Fx* = 0. Рассмотрим снова разложение D) матрицы Т7' (х) на диагональную, строго ниж- нижнюю треугольную и строго верхнюю треугольную части и предпо- предположим, что матрица D (х*) невырождена и р (Н® (х*)) <С 1, где матрица Яо (х) определена формулой F) и со > 0. Тогда существует открытый шар S = S (**, б) в So, такой, что при любом х° ? S имеется единственная последовательность {**} с: S, удовлетворяю- удовлетворяющая предписаниям нелинейного метода ПВР. При этом lim xk == = х* и Rx G, х*) = р (Н„ (х*)). Доказательство. Из непрерывной дифференцируемости /ч F на «So следует, что отображение G, определенное соотношением A5), обладает непрерывными частными производными на множестве S' X S', где S' — некоторое открытое подмножество в So вида
10.3 Гл. 10. Одношаговые стационарные методы 317 Далее, непосредственные вычисления показывают, что дгд (**, л*) = со-1 [D (*•) — coL (л:*)], д2д (**, х*) = со-1 [A — со) D (**) + erf/ (л:*)], и так как матрица D (х*) невырождена, то dj} (х*, х*) также невы- невырождена. Но тогда Ясо (л*) = дг6 (**, л:*) 32G (**, л:*), и наш результат непосредственно следует из теоремы 10.3.4. | Нелинейную ПВР-итерацию можно рассматривать как предель- предельную форму m-шаговой итерации ПВР — Ньютона при т-^оо. Так как одношаговый метод и бесконечношаговый метод имеют одинаковые асимптотические скорости сходимости, то разумно предположить, что m-шаговый метод также имеет Я-множитель сходимости, равный р (Я^ (х*)). Это действительно так (см. У 10.3.5). Следовательно, беря более чем один шаг по Ньютону, мы не увеличи- увеличиваем асимптотической скорости сходимости. Противоположная кар- картина наблюдается в случае m-шаговой итерации Ньютона — ПВР, в которой ^-множитель сходимости убывает в геометрической про- прогрессии с ростом числа вторичных итераций. Наши результаты подытожены в табл. 10.1. Метод Нелинейный метод ПВР /n-шаговый метод ПВР — Ньютона m-шаговый метод Ньютона —ПВР R-множитель [Р(#<0 Таблица сходимости (**)) 10.1 Даже когда нельзя заранее убедиться, что р (Я@ (х*)) < 1, эти результаты дают тем не менее полезную априорную информа- информацию. С другой стороны, иногда совсем легко гарантировать, что р (#о) (х*)) < 1, даже когда х* не известно. Простым примером служит приводимая ниже теорема 10.3.7, вытекающая из следую- следующего результата. 10.3.6, Пусть отображение F: D cs Rn -> Rn непрерывно дифферен- дифференцируемо в открытой окрестности So cr D точки х* с D, для кото- которой Fx* = 0. Пусть, далее, F' (х*) является М-матрицей. Тогда ** есть точка притяжения любого из методов типа ПВР, фигурирую- фигурирующих в теоремах 10.3.2, 10.3.3 и 10.3.5, при условии, что о б Ф> П-
318 Часть IV. Локальная сходимость 10.3 Доказательство. Рассмотрим разложение D) матрицы F' (х) на диагональную, нижнюю треугольную и верхнюю треуголь- треугольную части. По теореме 2.4.8 матрица D (**) неотрицательна и обра- обратима, а по теореме 2.4.7 L (х*) и U (х*) также неотрицательны. По- Поэтому для любого со > О теорема 2.4.6 обеспечивает обратимость матрицы D (х*) — coL (#*) и неотрицательность обратной матрицы. Следовательно, F' (**) = 4 [D (**) - ©L (**)] - -L [A - со) D (х*) + со?/ (х*)\ 0 представляет собой регулярное разложение (см. определение 2.4.16) матрицы Fr (х*) для любого со ? @, 1]. Поэтому теорема 2.4.17 показывает, что р (Яо (**)) < 1, где матрица Н^ (х*) опреде- определена формулой F), и, применив теоремы 10.3.2, 10.3.3 или 10.3.5, мы приходим к искомому результату. | В качестве немедленного следствия получаем упомянутую выше теорему. 10.3.7. Пусть А ? L (Rn) есть М-матрица и ф: Rn -> Rn — не- непрерывно дифференцируемое отображение, такое, что матрица ф' (х) диагональна и неотрицательна при всех х ? Rn. Тогда для любого со ? @, 1] единственное решение х* уравнения Ах + фх = = 0 является точкой притяжения любого из методов типа ПВР, рассмотренных в этом параграфе. Доказательство. Положим Fx = Ах + фх, х ? Rn. Теорема 5.4.1 обеспечивает существование единственного решения х* уравнения Fx = 0, а теорема 2.4.11 показывает, что F' (**) = = А + ф' (х*) является М-матрицей. Наш результат непосредст- непосредственно следует поэтому из 10.3.6. | Мы завершим этот параграф рядом результатов о точках притя- притяжения для итераций Писмэна — Рэкфорда, изучавшихся в § 7.4, Рассмотрим сначала одношаговую итерацию Ньютона — Писмэ- Писмэна — Рэкфорда G.4.25): дсИ-1 = xk — 2а [V (xk) + air1 [H (xk) + a/p1 Fxk, k = 0, 1, .... A6) 10.3.8. Теорема о методе Ньютона —Писмэна—Рэкфорда. Пусть отображение F: D с: Rn -> Rn F-дифференцируемо в открытой окрестности So a D точки х* , для которой Fx* = 0, и пусть ото- отображения Я, V: So -> L (Rn) таковы, что F' (х) = Н (х) + V (х) при всех х ? So. Предположим, что Н и V непрерывны в х*, что матрицы Н (х*) и V (л**) положительно пол у определены и что по крайней мере одна из них положительно определена. Тогда х* при любом а > 0 является точкой притяжения итерации 7, определен- определенной формулой A6). Кроме того, /?j G, х*) = р (В) < 1, где В = [V (х*) + а!Г1 [Н (**) — а/1 [Н (**) + а/р1 [V (х*) - а!\.
10.3 Гл. 10. Од пошаговые стационарные методы 319 Доказательство. Определим отображение G: S0-+Rn равенством Gx = х — А (х)" Fx, где А (х) = Bа)-1 [Н (х) + а/] [V (х) + а/]. Тогда итерация A6) запишется в виде xk+x = Gxk, k =0, 1, ... . Очевидно, отображение А непрерывно в **, и так как Я (х*) -f-a/ и V (х*) + а/ положительно определены, а значит, обратимы, то существует А (х*)-1. Из леммы 10.2.1 немедленно следует, что G корректно определено в некоторой окрестности S с: SQ точки х* и /^-дифференцируемо в этой точке, причем G'(**) = /— Л (я*) F'(л;*). Вспомним теперь, что, согласно G.4.19), А (*•) — Bа) [Я (х*) — а/] [У (**) — а/] = Я (х*) + V (х*) = F (д^), так что ввиду перестановочности матриц Я (л:*) — а/ и [Я (х*) + + а/]-1 С (**) = Л (л;*)^1 [Л (х*) — F' (х*)] = В. Таким образом, чтобы завершить доказательство, достаточно по теореме 10.1.4 доказать, что р(В)<1. Положим Я = Я(д:*), V = = К (х*), S = {H— a/) (Я + а/) и Г = {V — а/) (V + а/). Тогда т. е. матрица S71 подобна В. Поэтому достаточно показать, что ||5Г||1 Пусть U ? L (Rn) — любая положительно пол у определенная матрица. Для произвольного х Ф 0 положим у = (а/ + (У)***. Тогда в эвклидовой норме Ц (U - а/) (I/ + а/Г1л: II2 ^ Ц F/ - а/) у Ц2 = ут (U - al)T (U - а!) у = «* И2 II (^ + «/) у Ц2 ^ (t/ + а/)Т )Т II Щ t — 2ЩТУУ + а2\\У II2 < j / j уч так что || (?/ — a/) (U + a/) * ||< 1. При этом если yTUy > 0, то выполняется строгое неравенство. Поэтому если xTUx>0 при всех х б #\ х Ф 0, то || ((У — а/) (?/ + а/)1| < 1, поскольку значение, рав- равное норме, достигается на некотором х ? Rn. Но это показывает, что ||S||||71<1. ¦ Заметим, что теорему 10.3.9 можно было бы видоизменить, за- заменив предположение о положительной полуопределенности мат- матриц Я (х*) и V (х*) и условие a > 0 предположением, что суще-
320 Часть IV. Локальная сходимость 10.3 ствуют [Я (х*) + а/] и [V (*•) + а/]-1 и р (В)< 1. На этом пути мы приходим к следующему результату, которым охватывает- ся случай нелинейных итераций Писмэна — Рэкфорда G.4.35) и Писмэна — Рэкфорда — Ньютона G.4.36). 10.3.9. Пусть F: D cz Rn -> Rn. Предположим, что в некоторой открытой окрестности So a D точки х* ? D для которой Fx* = О, существуют F-дифференцируемые отображения Kiy Ht\ So->/?", i = 1, 2, такие, что Fx = KiX — H±x = /C2* — Я2*, V л: б 50. Предположим, далее, что /(!, Я/, /= 1, 2, непрерывны в х*9 мат- матрицы /Ci (x*) и /Сг (лс*) невырождены и а = р (К2 (хТ'Яг И К! (х*) Я| (х*)) < 1. Тогда х* является точкой притяжения для итерации агх: Кх^^ = Ях^, /СаА^^1 = H2xk+W>\ k = 0, 1, а также для соответствующей комбинированной итерации xk+\ == Кроме того, /?! (:7Ь х*) = /?! G2, x*) = a. Доказательство. Так как производная К\ непрерывна в л:*, то теорема об обратной функции 5.2.1 показывает, что отоб- /ч ражение К\ локально обратимо в #*, т. е. имеется шар Sx = •Ч /Ч Л = «S (л:*, бх) с: So, такой, что сужение Кг отображения Кг на Sx /ч взаимно однозначно и /С^ содержит некоторый открытый шар с центром /Ci**. Поскольку //jje* = /Ci^* и Я! непрерывно в **, то /ч существует также такой шар Sx = 5(х*, бх), что Ягл: ^/С^ для •ч . всех х ? 51# Следовательно, композиция G2 = /СГ Ях корректно опре- определена на Sx и G±x* = K~lKiX* = х*. Кроме того, теорема 5.2.1 также обеспечивает F-дифференцируемость отображения КТ1 в точке Кхх* и равенство (/СГ; (^Ci^*) = К\ (х"I^ . Поэтому из цеп- цепного правила 3.1.7 следует, что Gt F-дифференцируемо в я* и Точно таким же образом показывается, что существует шар S2 ~ = S(x*, б2), сужение /С2 на который отображения К2 взаимно одно- /ч , значно, и что отображение G2 = /B Я2 корректно определено на S2 и F-дифференцируемо в х* с G2 (х*) = /С2 1^
10.3 Гл. 10. Одношаговые стационарные методы 321 Далее, Gx непрерывно в лг*, поэтому найдется еще один шар S = S (я*, б) С Si, такой, что G±S с: 52. Следовательно, композиция G = G2oG1 корректно определена на S, и так как я* = Gxx^9 то из теоремы 3.1.7 опять следует, что с (**) = с; (^) с; <**) = /Сз (х*)-1 я; (**) *; (**г! н\ (Х% По предположению р (С (я*)) = а< 1, и теорема 10.1.3 гарантирует, что л;* является точкой притяжения итерации xk+l —- Gxk, k = 0, 1, .... Но по построению эта итерация эквивалентна такой: *fc+<V.) = Gxx\ xk+i = G2**+G2), т. е. итерации 7L. To, что R± G, х*) = а, следует из теоремы 10.1.4. В случае итерации 72 рассмотрим отображения G±x = х — К\ {x)~lFx, G2x = x — K'2 (x)~~lFx. По предположению существуют К\ (•^*)~1 и К'2 (^*)~1 и /Ci и /С2 непрерывны в х*. Поэтому по лемме 10.2.1 Gx и G2 корректно определены на шарах Si = S (л:*, 6t), / = 1, 2, и F-дифференцируемы в х*, причем с; *¦ = / - /с; (х*г1 рг и = /с; ^г1 я; и, / = i, 2. Очевидно, Gt- (л:*) = л:*, /=1, 2. Дальнейший ход доказательства таков же, как и в случае итерации 7V | Чтобы применить теорему 10.3.9 к нелинейной итерации Писмэ- на — Рэкфорда G.4.35) ад:Ж72) + F и к одношаговой итерации Писмэна — Рэкфорда — Ньютона G.4.36) , й = 0, 1, надо положить K±x = ax + FHx, K<lX = a/ + />*, Я!^ = х — Fvx, H2x = x — FHx. Чтобы теорема была применима, необходимо гарантировать сущест- существование матриц [а/+ /?я(^*)]~1 и [а/ + Fy (x*)]~~] и выполнение усло- условия р([а/ + Fv (х*)Г1 [F'H (**) - a/] [FH (х*) + a/]] [Fy (л;*) - -а/])<1. A8) Одним из способов обеспечить это — предположить, что матрицы Fh (х*) и Fy (x*) обе положительно полуопределены, причем одна
322 Часть IV. Локальная сходимость 10.3 из них положительно определена и а > 0. Тогда так же, как и при доказательстве теоремы 10.3.6, можно показать, что A8) выпол- выполнено. Заметим также, что если F = F# + /V, то F (х) = Fh (х) -f -+- Fy (х). Таким образом, при таком выборе отображений Н и V, фигурирующих в теореме 10.3.8, /^-множитель одношагового ме- метода Ньютона — Писмэна — Рэкфорда задается левой частью неравенства A8). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 10.3.1. Теоремы 10.3.3—10.3.5 были впервые доказаны Ортегой и Рокоффом [1966] при несколько более сильных предположениях о дифференцируемое™. В частности, теорема 10.3.3 была доказана в предположении, что отображение F дважды непрерывно дифференцируемо в некоторой окрестности точки х*. Для этого случая доказательство теоремы 10.3.3 можно упростить, применяя теорему 10.3.4 (см. У 10.3.4). Теоремы 10.3.1, 10.3.2 и 10.3.9 доказаны в работе Ортега и Рейнболдт [1970а]. Теорема 10.3.8 новая. ЗС 10.3.2. В теореме 10.3.6 предположение, что F' (х*) является УИ-матрицей, можно, конечно, заменить любым условием, обеспечивающим, что соответствую- соответствующая ПВР-матрица удовлетворяет условию р (Н^ (**)) < 1. Например, если мат- матрица F' (jc*) симметрична и положительно определена, то р (Н^ (х*)) < 1 для лю- любого со ? @, 2) (см., например, Варга [1962, стр. 77]). В частности, заключение теоремы 10.3.7 выполнено при со ? @, 2), если матрица А симметрична и положительно определена, а матрица ф' (jc) симметрична и положительно полу- полуопределена при всех х. В этом случае существование решения обеспечивается теоре- теоремой 4.4.1. Более общо, результаты этого параграфа о точках притяжения, включая результаты о методе Писмэна — Рэкфорда, применимы к любой из задач, изучав- изучавшихся в § 4.4, для которой доказано, что матрица F' (х*) положительно опреде- определена. ЗС 10.3.3. Теоремы 10.3.2, 10.3.3 и 10.3.5 немедленно распространяются на слу- случай блочных методов ПВР, обсуждавшихся в ЗС 7.4.10, в предположении, конеч- конечно, что блочная ПВР-матрица, соответствующая F), имеет спектральный радиус, меньший единицы. ЗС 10.3.4. Тот факт, что если U — симметричная положительно полуопределен- полуопределенная матрица, то l является стандартным результатом линейной алгебры (см., например, Варга [1962, стр. 213]). Доказательство этого факта в теореме 10.3.8 для случая несиммет- несимметричных матриц U заимствовано у Келлога [1964]. УПРАЖНЕНИЯ У 10.3.1. Применить теорему 10.3.1 к m-шаговой блочной итерации Ньютона — ПВР, в которой итерационная функция G определяется формулами E) и F), причем D) является разложением F' (х) в блочно диагональную, строго нижнюю блочно треугольную и строго верхнюю блочно треугольную части с одинаковыми размерами блоков при всех х (см. ЗС 7.4.10). У 10.3.2. Рассмотрим m-шаговую итерацию Ньютона — Якоби J: **+* =**-[/+ •¦• +H(xk)m~'l]D(xkrlFxk, Л = 0, 1, ,..,
10.3 Гл. 10. Одношаговые стационарные методы 323 где F' (х) = D (х) — L (к) — U (х) есть разложение на диагональную, нижнюю треугольную и верхнюю треугольную части и Н (х) = D (x)~~l [L (х) + U (*)]. Применив теорему 10.3.1, установить результат, аналогичный теореме 10.3.2. Кроме того, показать, что при условиях теорем 10.3.6 или 10.3.7 х* есть точка притяжения. У 10.3.3. Рассмотрим одношаговую итерацию Якоби — Ньютона Усмотреть, что она тождественна с одношаговой итерацией Ньютона — Якоби, и отсюда сделать заключения о скорости сходимости. У 10.3.4. Пусть отображение F: Rn -> Rn дважды непрерывно дифференцируемо на множестве S= {*| \xi — xi\ <6, i= 1, . . . , n}, где Fx* =r 0, и пусть матрица D (л:*) невырождена и р (Я^ (л:*)) < 1. Определим отображение G: S X S d Rn X Rn -> Rn соотношением gi(x, У) = ЭД (*lf . . . , *,_,, у и • . •, yn) {Xi—уд + + (afi(xlf . . . , xc__v yit . . . , (/Л) при I = 1, ..., гг. Применив к G теорему 10.3.4, доказать, что заключение теоремы 10.3.3 справедливо для одношаговой итерации ПВР — Ньютона. У 10.3.5. Пусть отображение F: Rn -> Rn удовлетворяет условиям предыдущего упражнения. Показать, что m-шаговая итерация ПВР — Ньютона при любом це- целом т > 1 имеет такой же Rx-множитель, как и одношаговая итерация. У 10.3.6. Пусть F: Rn -> Rn дважды непрерывно дифференцируемо на Rn и и Fx* = 0. Рассмотрим итерацию 7» обсуждавшуюся в ЗС 7.4.9: k со 2 iu () (/ j) п () . /= j=\ J где xkti — (*i+1, . . . , rf+\t x\, . . . , xffi. Предположим, что существует D(x*)-1 и р(Я)<1, где Н = [D (**) — 2coL (л:*)]" [A — со) D {х*) — coL (л:*) + <dU (x*)]. Показать, что х* является точкой притяжения и Rt (J, х*) = р (Я). У 10.3.7. Пусть отображение G: Rn -> #п непрерывно дифференцируемо в неко- некоторой окрестности своей неподвижной точки х*. Рассмотрим итерацию 4 . ... **), Л = 0, 1 i = lf ..., п. Показать, что х* будет точкой притяжения, если р {(/-L)-1 [<?'(*•)-4} <1. где L — строго нижняя треугольная часть матрицы G' (^*). У 10.3.8. Пусть F: D с Rn -> /?п непрерывно дифференцируемо в некоторой от- открытой окрестности решения х* уравнения Fx* = 0. В обозначениях У 10.3.2 предположим, что матрица D (х*) невырождена и что р (Я (х*)) < 1. Показать, что если г — фиксированный вектор, достаточно близкий к **, то х* является точкой 11*
324 Часть IV. Локальная сходимость 10.4 притяжения для итерации Якоби — ложного положения <jx **+* = х\ - д. tf)/ht (A z), k = 0, 1, . . ., i = 1, . . . , n, где [fi (* + (*t — *i) ei\ ~ U (x)]/(Zi — xt) при xi Ф zu hi (x, z) =s; difi (x) при xt = zt. Вычислить множитель Rx G, x*) и показать, что, вообще говоря, он отличен от Я-множителя для процесса Якоби — Ньютона из У 10.3.3. Записать соответст- соответствующую итерацию ПВР — ложного положения и доказать аналогичный резуль- результат (Войгт[ 1969]). 10.4. МЕТОДЫ ПРОДОЛЖЕНИЯ В этом параграфе мы применим некоторые результаты о точках притяжения к методам продолжения, изучавшимся в § 7.5. Пред- Предположим прежде всего, что гомотопия, определяющая процесс продолжения, задана в виде Н(х, f) = x-G(x, 0 = 0, *g [0,1], A) где G: D х [0, 1] с= Rn+l -> Rn, и что существует непрерывный путь х: 10, 1] -> Rnf такой, что Н (х (/), /) =0 при всех t ? [0, 1]. Если начальная точка х° —х @) известна, то, как это обсуждалось в § 7.5, мы можем «двигаться вдоль» этой кривой решений, исполь- используя последовательность итераций jU+i = G(*"*,), й = 0, 1, ,.., m,-l, i=l, 2, ,,., Л/~1, Bа) *i.o = х\ xiJr^ = ^>ms B6) xN.k+\ssQ(xNtk9 1), k = 09 1, ..., BВ) где 0 = *0<<1<'2< ••• <^ = 1 C) — некоторое разбиение отрезка [0, 1]. Проблема состоит в том, чтобы дать достаточные условия, обеспечивающие, что корректно опреде- определена вся последовательность {**•*} и lim xN*k =x A). 10.4.1. Пусть отображение G: D х [оГ°1] cz Rn\ R1 -> Rn F-диффе- ренцируемо по первой переменной и частная производная dfi не- непрерывна на D х [0, 1]. Предположим, далее, что A) имеет непре- непрерывное решение х: [0, l]-*int(D) с известной начальной точкой х° = х @) и а, = р (^G (л: (*), /) < 1 при всех / g [0, 1]. Тогда су- существуют разбиение C) отрезка [0, 1] и целые числа mlf m2, ... ..., niN^i, такие, что последовательность {**»*}, определяемая соотноше- соотношениями B), остается все время в D и Штис^* = *A). Доказательство. Так как множество С = {х? Rn\x = = а:(^), / б [0, l]}c:int(D) компактно, то существует компактное
10.4 Гл. 10. Одношаговые стационарные методы 325 подмножество DoczD, такое, что Cc=int(D0). Далее, по теореме 2.2.8 для каждого t? [О, 1] существует норма || • |,, такая, что IIdiG(#(/)> 0lk^°7 + 8- Пусть 8>0 выбрано так, что ot + 3г<1. Поскольку частная производная dxG равномерно непрерывна на Do x X [0, 1] в любой норме, то мы можем выбрать бх = 6Х (/) >0 таким, что V*, y?DOt \х-у%<619 V/lf /* € [0, 1], \t1-t2\<8l. Снова в силу равномерной непрерывности существует б2 = б2 (t) > > 0, для которого \х{Ц-хШ<Ьц V/lf /,€ [0f l]f Ui — ^К62. Пусть б' < min (бь б2) таково, что х ? Do, если \\х — х (s) ||; < б' при некотором s? [0, 1]. Тогда, согласно неравенству треугольника, P1G(x(s),s)l<ot + 2e9 Vse [0, 1], |s-*|<6', так что по теореме о среднем 3.2.5 < {(а, + 2е) + sup || dfi (x (s), s) - dfi (x (s) + + Q(x-x(s))t 8)\ для каждого s?[0, 1], такого, что \s — /|<б', и каждого x?JRn, такого, что || л: — х (s) \\t < б'. Поэтому лемма ,10.1.2 гарантирует, что для любого s с \s — 11 < б' итерация **+1 = G(**,s), * = 0f 1, .>., D) начинающаяся с любого *°, для которого || х° — х (s) |/ < б' оста- остается все время в Do и сходится к х (s). В силу теоремы об эквивалент- эквивалентности норм 2.2.1 это верно для любой нормы, т. е. для всякой фик- фиксированной нормы, не зависящей от t, существует б = б (/) > 0, такое, что итерация D) все время остается в Do и сходится к x(s) для любого s ? [0, 1] с | s — /|<би для х° с \\ х° — х (s) || < б. Так как этот результат выполняется для любого t из ком- компактного интервала [0, 1], то существует такое покрытие этого интервала конечным множеством интервалов [t \ | / — tj \ < б G/)}, /=1, ..., М9 что если 60 = min6(fy), то итерации D) остаются все время в Do и сходятся к х (s) при любом х0 с || х° — х (s) || < < б0 и любом s? [0, 1]. Пусть теперь разбиение C) выбрано так, что max [ и предположим, что мы уже получили я*»0, такое, что
326 Часть IV. Локальная сходимость 10.4 Для /= 1 это верно, ибо я1*0 =л^ = х@). Неравенство II vi 0 v (i \ II ^ II w\0 V //. Л II _L II y It, А y It \ II ^* Л || х ' — X [l{j || ^5. || Л ~~~ л \t>i—\) || -|- || л ^/—\) л ^^ || ^, Uq показывает, что итерация Bа) все время остается в Do и сходится к x(tt). Таким образом, мы можем выбрать целое mh для которого ц дН-i.o _ х (/.) || ^ б0 — бо, где х?+1»0 = xl'mK Следовательно, процесс B) можно продолжить вплоть до / = N, все xl>k лежат в Do и ите- итерация Bв) сходится к л:A). | Обратимся теперь к использованию метода Ньютона для движе- движения вдоль кривой решений х =х (t) уравнения # (*,*) = 0t *€[0, 1], E) уже не обязательно имеющего специальный вид A). Таким образом, вместо B) мы рассмотрим последовательность ньютоновых итера- итераций G.5.10) —G.5.11): = xl*k — дгН (*<'*, tt)~x Я {х1*, ti), I k = 0, ..., tnl — 1, Fa) = 1, ..., ЛГ—1, F6) = xN,k _ 5ХЯ (^.*, I)" Я (^.*, 1), k = 0, 1, ..., Fв) где {//} — снова разбиение C) отрезка [0, 1]. Следующий результат является по существу следствием теоремы 10.4.1. Однако, как и в случае теоремы 10.2.2, непосредственное доказательство позволя- позволяет ослабить предположения относительно Я. 10.4.2. Пусть Я: D х [0, 1] czRn x R1-^^ F-дифференцируемо по первой переменной и частная производная дгН непрерывна на D х X [0, 1]. Предположим, далее, что существует непрерывное решение х: [0, l]->int(D) уравнения E) и что матрица дхН(хA), t) невырож- невырождена при всех t?[0, 1]. Тогда существуют разбиение C) отрезка [0, 1] и целые числа пг19 ..., гпм-и такие, что последовательность {*''*}, определяемая соотношениями F), остается все время вОи \imx">k = x(\). fc-юо Доказательство. По теореме 2.3.3 дхЯ(*(/), О" непре- непрерывно зависит от t? [0, 1], и так как [0, 1] — компакт, то суще- существует Р<оо, такое, что \dJHx®, trl\\<$, V/6[0f 1]. G) Пусть множество С определено, как и при доказательстве теоремы 10.4.1, и DoczD —любой компакт, такой, что Ccint(ZH). Тогда производная дхН равномерно непрерывна на Do X [0, 1] и, значит, для всякого е? ^0, ~^-$\ найдется 8>0, для которого S(x(t)y 8)czDo при всех t? [0, 1] и y?DQ, Jx-уКб, /€Ю, 1]. (8)
10.4 Гл. 10. Одношаговые стационарные методы 327 Поэтому лемма о возмущении 2.3.2 гарантирует существование d1H{s,t)"x для каждого t? [О, 1] и каждого x?S(x(t), б). Кроме того, \\дхН (х, trl || < Р/A - ре), V х ? S (х (А, б), t 6 [0, 1]. (9) Для любого фиксированного /? [0, 1] рассмотрим теперь процесс Ньютона , 0, k = 0, 1, ..., A0) с jc° ? S (х (/), 6). Мы утверждаем, что имеет место неравенство (** —*@||<а*6, fe = 0, 1, ..., а = ре/A-ре)<1. A1) Действительно, по предположению A1) верно для k = 0, и если оно справедливо для некоторого k > 0, то xk ? S (л: @, S), откуда в силу (8), (9) и теоремы 3.2.12 < || дхн (#, trl || || я (х @, 0-я №> 0 - ^я (**, 0 (х @ - < №/A — РеI е|х@ — х*1 <a*+!6. A2) Следовательно, последовательность Ньютона A0) все время остается в S (х (t)y б) и сходится к х (f). Выберем теперь разбиение C), для которого и пусть mi= m > 1, t = 1, ..., N — I, где m таково, что am < < 1 — (б'/б). Предположим, что х*>° ? S (x (/i~i), б — б'); это, конечно, верно для * = 1. Тогда снова по неравенству треугольника получаем ||л;'»0 — *&)||<б и, таким образом, в силу (И) _ X{ti)|| = |х?'"-х чем и доказано, что процесс F) может быть продолжен вплоть до I = N, что все х1* лежат в Do и что наша заключительная итерация Fв) сходится к х A). | Установим теперь один специальный результат такого типа. Рассмотрим гомотопию G.5.3), а именно Н (xf t)=Fx + (t- 1) FA t g [0, 1], A3) и для нее процесс G.5.12), который получается из F) при mt = m = = 1. 10.4.3. Пусть отображение F: Rn-+Rn коэрцитивно по норме и дважды непрерывно дифференцируемо на Rnf а производная F' (х) невырождена для всех х g Rn. Тогда для всякого х° б Rn су- существует такое целое число WO>1, что при любом Л^>ЛГ
328 Часть IV. Локальная сходимость 10.4 комбинированный процесс xk+\ = xk — F (xkrXFxk, k = Ny N + 1, ..., A4) сходится к единственному решению х* уравнения Fx =0 в Rn. Доказательство. По теореме 7.5.1 существует единст- единственное непрерывно дифференцируемое отображение х: [0, 1]-> -»- Rn, для которого Н (х (t)t t) —6 при всех t ? [0, 1], где Н задано формулой A3), и х' @ = - F (х (О) Fx°, / g [0, 1], х @) = ^. A5) Пусть Do cz Rn — выпуклое компактное множество, такое, что {x\x = x{f)y *€ [0fl]} dint(Do). Тогда ибо F" и по теореме 2.3.3 F' (-) непрерывны на Do. Далее доказательство следует доказательству теоремы 10.4.2. Положим б = BPY)" и 8 = у8. Так как dji {xy t) = F' (дс) и по тео- теореме 3.3.5 \\F{x)-F(y)\\^y\\x-yi Ух, y?D09 то неравенство (8) справедливо при указанном выборе е и б. Кроме того, Цс^ЯМГ'КР, V*?D0, /g[0, 1], так что выполнено A1) с а = ре = V2- Выберем теперь N0^4$2y\\Fx0\\ и для любого фиксированного Л/>ЛГО положим б' = |31|/\*° Ц/ЛЛ Тогда A5) с учетом теоремы 3.2.7 дает || х (ti+l) - х (tt) I = | J *' (tt + s (ti+i - tt)) (ti+i - U) ds I < <б'<Dр7Г!<б. A6) Далее, при этом выборе б' мы имеем 1 6" >l~~W=z так что допустимо mt =1, i = 1, ..., N. Но при таком выборе mi и гомотопии A3) итерация F) в точности совпадает с A4). | Заметим, что коэрцитивность по норме использовалась здесь только для того, чтобы обеспечить существование кривой х (/). С равным успехом может быть использовано любое другое пред-
10.4 Гл. 10. Одношаговые стационарные методы 329 положение, гарантирующее это существование, например равно- равномерная ограниченность F {х)-х. Мы закончим этот параграф аналогичным результатом относи- относительно процесса G.5.18) ^** — hF'(xkrlFx0, & = 0, ..., ЛГ— 1, h = \/Ny A7а) получающегося применением метода Эйлера к дифференциальному уравнению A5). Так как A7а) дает лишь аппроксимациюх^ к реше- решению х* = х A) уравнения Fx = 0, естественно продолжить процесс методом Ньютона, начиная с xN: xk+i ==xk_f> (xk)~lFxk, k = N, N + 1, ... . A76) 10.4.4. Пусть отображение F: Rn -> Rn дважды непрерывно диф- дифференцируемо на Rn и удовлетворяет условию | F' (х)-11 < р при всех х ? Rn. Тогда для любого х° ? Rn существует такое No > 1, что при любом N ^> No комбинированный процесс A7) сходится к единственному решению х* уравнения Fx = 0 в Rn. Доказательство. Из теоремы 7.5.1 снова следует, что дифференциальное уравнение A5) имеет единственное непрерывно дифференцируемое решение х: [0, 1] -* Rn и что #(*(*), t) = Fx(t) + (t-\)Fx<> = Oy W?[0, 1]. A8) По теореме 10.2.2 хA) является точкой притяжения итерации Ньютона A76). Пусть 6>0 выбрано так, что при любом xN ? ?S(#A), б)_эта итерация сходится к #A), и пусть г = $\\Fx°\\ + + 8 и S = S (х?у г). Тогда, согласно A5), | V*G[O, 1], и для любого N > 1 ЦдИ-1 _ доц< 2 ||jc/+i - х/|| < (fe + 1) MFx«\\/N<г, 7t=o, l, .,., yv-i, а это показывает, что не только сама кривая х =х (/), / g [0, 1], но также и все итерации {xk}t получаемые по формуле A7а), лежат в S при любых N. Положим у = max || F" (х) ||, и для произвольного, но фиксирован- ного N рассмотрим разбиение ti=ih, i = 0, 1, ..., N, h=\IN. В силу теоремы 3.2.12, а также соотношений A8), A6) и A5) || х (**+!) - х (tk) - hx' (tk) 1 < || F (x (tk)rl 11 hFx? - F (x (tk)) [x (tk) - ~x(tk+\)\\ <PIF(x(tk+l)) -F(x(tk))-F (x(tk)) [xD+i)-x{tk)\||< <
330 Часть IV. Локальная сходимость 10.4 откуда - **+> || < |х(Q - х*|| +1| л;D+0 - х(tk) - hx' (tk)| + + h\\F' (х&))-1 -F (х*Г1 + P\\b\\(k)\\ Следовательно, при eK = \\x(tk) —xk\\, k = 0, 1, ..,., N, мы имеем et+i < A +rioft) zk + %А2, ? = 0, 1, ..., N— 1, A9) где' Покажем теперь, что Ч < М/Ло) fexp (V*) - 1Ь fe = 0, 1, ..., iV. B0) Очевидно, B0) выполнено при k = 0, ибо е0 = 0, и если B0) справед- справедливо для некоторого k < /У — 1, то (%/*Я) [0 + ЧоА) exp (r\otk) — 1] < — П, так как ехр (Ло4+0 = exp(r\otk)ехр(г|0Л) >A + rfoft)exp(V*). Значит, || х A) - х" ||< ch, с = (Лх/Ло) [ехр (л0) - 11, и ясно, что если мы выберем Л^>с/б, то л;^ ? 5 (л:A), б), так что процесс Ньютона A76) сходится к x(l). | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 10.4.1. Литература по методам продолжения была обсуждена в ЗС 7.5.1 — ЗС 7.5.5. ЗС 10.4.2. Теорема 10.4.1 является упрощенным вариантом одного результата Авилы [1970]. Она распространяется на случай банаховых пространств, надо только заменить условие р (dtG (x (/), 0) < 1 соответствующим условием на норму. ЗС 10.4.3. Теорема 10.4.2 также принадлежит Авиле [1970] и также распростра- распространяется на случай банаховых пространств в предположении, что линейные опера- операторы дхН имеют ограниченные обратные. Близкие результаты, использующие тео- теорему Ньютона 12.6.2, были получены Шидловской [1958]. ЗС 10.4.4. Теорема 10.4.4 доказана Мейером [1968] в более общей форме; близкие результаты имеются у Кляйнмихеля [1968] и Босаржа [1968]. Эта теорема тоже может быть распространена с очевидными видоизменениями на случай банаховых пространств. ЗС 10.4.5. Теорему 10.4.2 можно модифицировать так, чтобы разрешалось иметь mi = 1, i = 1, ..., W — 1. В этом случае 6 в доказательстве выбирают так, что
10.5 Гл. 10. Одношаговые стационарные методы 331 а < 1 — 676. Этим иллюстрируется естественный баланс между числом проме- промежуточных ньютоновых шагов и шагом сетки. Такая же процедура может быть ис- использована в случае теоремы 10.4.3; фактически эта теорема справедлива, даже если F лишь один раз непрерывно дифференцируемо. Однако приведенное доказа- доказательство теоремы 10.4.3 дает оценку шага сетки, а именно No > 4E2у || Fx° ц , чего нельзя получить, если не требовать qt F' хотя бы непрерывности по Липшицу. 10.5. ПРИЛОЖЕНИЕ. ТЕОРЕМЫ СРАВНЕНИЯ И ОПТИМАЛЬНОЕ w ДЛЯ МЕТОДОВ ПВР Результаты § 10.3 не дают ответа на важный вопрос о поведении скорости сходимости методов как функции от со. В этом приложении мы приведем без доказательства две хорошо известные теоремы сравнения для спектральных радиусов и покажем, как их можно применить к нелинейным уравнениям в ситуации § 10.3. 10.5.1. Пусть А — Вх — С± = В2 — С2 — два регулярных разложения матрицы A?L(Rn). Пусть эта матрица обратима и Л~!>0. Если C2>CV то р(ВГ1С1)<р(В2С1)<1. A) Более того, если С2 Ф Сг и А~1 > 0 (т. е. если все элементы матрицы Л-1 положительны), то в A) выполняется строгое неравенство. Доказательство теоремы 10.5.1 можно найти у Варги [1962, стр. 90]. Заметим, что данное там доказательство переносится до- дословно на случай слабо регулярных разложений (определение 2.4.15). В качестве следствия теоремы 10.5.1 мы установим сейчас сле- следующую теорему сравнения (см. Варга [1962, стр. 92]) для ПВР- матриц H = (D — coL)*-1 [(I — со) D + cot/]. B) 10.5.2. Пусть А есть УИ-матрица с диагональной, строго нижней треугольной и строго верхней треугольной частями D, —L и —U соответственно, и пусть матрица Н определена формулой B). Если 0 < (Oj < со2 < 1, то <р(Я^<1. C) Более того, если матрица А неприводима, то в C) имеет место стро- строгое неравенство. Доказательство. Как и в случае теоремы 10.3.6, соот- соотношение lDuL] является регулярным разложением при любом со ? @, 1]. Далее, если О<сог<02< 1,
332 Часть IV. Локальная сходимость 10.5 то -5- [A - сох) D + (oJJ] >-L [A _ оJ) D + щЦ] и знак равенства невозможен, если D имеет положительные элемен- элементы. Известно (Варга [1962, стр. 84]), что неприводимая М-матрица имеет положительную обратную. Поэтому наш результат следует из теоремы 10.5.1. | Выше мы показали (теорема 10.3.6), что х* является точкой притяжения для любого из методов типа ПВР, если F' (х*) есть М-матрица. С помощью теоремы 10.5.2 мы можем теперь до- дополнить этот результат теоремой сравнения скоростей сходимости. 10.5.3. Пусть отображение F: D a Rn -> Rn непрерывно диффе- дифференцируемо в некоторой окрестности решения х* уравнения Fx = = 0 и F' (л:*) — неприводимая М-матрица. Обозначим через 7t итерацию ПВР — Ньютона A0.3.7) с параметром релаксации сох ^ @, 1], а через 72 такую же итерацию с параметром со2 ? (со1э 1]. Тогда х* является точкой притяжения каждой из этих итераций и R1G2,x*)<R1G1,x*)< 1. Эта теорема немедленно следует из теорем 10.3.3, 10.3.6 и 10.5.2. Основной момент здесь заключается просто в том, что теорема 10.5.2 гарантирует строгую изотонность р (Яш) как функции от со на интервале @,1]. Поэтому со =1 дает максимальную скорость сходимости по сравнению со всеми другими со из интервала @,1]. Теорема 10.5.3 сохраняется дословно для m-шаговой Ньютона — ПВР и для нелинейной ПВР-итераций, ибо, как показывают теоре- теоремы 10.3.2 и 10.3.5, их скорости сходимости зависят от спектральных радиусов точно так же, как и в случае итерации ПВР — Ньютона. Теорема 10.5.3 непосредственно применима к задаче /\к=з = Ах + фх ПРИ условиях теоремы 10.3.7. Здесь также интересно сравнить скорости сходимости нелинейной и линейной задач. Это можно сделать с помощью следующего результата, который является следствием теорем 2.8 и 3.3 и леммы 2.3 из книги Варги [1962]. 10.5.4. Пусть А ? L (Rn) — некоторая М-матрица и D ? L (Rn) — произвольная неотрицательная диагональная матрица. Положим Л /ч /ч /ч А =А +D. Если #о) и //о — ПВР-матрицы для А и А при неко- некотором со ? @, II, то р(Я„)<р(Яв)<1. ^ D) Более того, если матрица А неприводима и D Ф 0, то в D) имеет место строгое неравенство. Аналогично, если В =D~l (L + U) и /\ Л /Ч В —(D +D)~l (L + U) — якобиевы матрицы для А и А, то р(?)<р(?)<1, E) где снова имеет место строгое неравенство, если А неприводима и
10.5 Гл. 10. Одношаговые стационарные методы 333 С помощью теоремы 10.5.4 мы получаем, что в условиях теоре- теоремы 10.3.7 скорость сходимости итерации ПВР — Ньютона (а также Ньютона — ПВР и нелинейной ПВР-итераций) при любом со ? ? @, 1] по крайней мере так же велика, как для метода ПВР с тем же со, примененного к линейной задаче с матрицей Л. При этом если матрица А неприводима и фг (а:*) Ф 0, то скорость сходимости для нелинейной задачи больше. Возможно также сравнение между собой различных итераций, как показывает следующий пример. 10.5,5. Пусть отображение F: Rn -> Rn удовлетворяет условиям теоремы 10.5.3. Обозначим через 7Х итерацию ПВР — Ньютона с со = = 1 и через U2 — итерацию Якоби — Ньютона G.4.30). Тогда Это утверждение является немедленным следствием теоремы 10.3.2, результата У 10.3.2 и теоремы Штейна — Розенберга (см. Варга [1962, стр. 701). До сих пор мы рассматривали только нижнюю релаксацию, т. е. случай со < 1, но известно, что для многих линейных задач верхняя релаксация заметно улучшает скорость сходимости ПВР- итераций. Мы начнем с краткого обзора соответствующих понятий и обозначений линейной теории. Относительно дальнейших подроб- подробностей и обобщений этой теории см. Форсайт и Вазов [1960, гл. 22] и Варга [1962, гл. 41. Пусть опять A =D — L — V — разложение матрицы А ? ? L (Rn) на диагональную, строго нижнюю треугольную и строго верхнюю треугольную части. Пусть, далее, В = D~l (L + U) F) — итерационная матрица метода Якоби. Матрица А называется 2-циклической (или обладающей свойством А), если существует та- такая матрица перестановки Р, что г 0 где диагональные блоки квадратны. Матрица А называется согла- согласованно упорядоченной, если собственные значения матрицы —1 г 1 -^lf/ не зависят от а при а^0. Известно, например (см. Варга [1962, теорема 6.4]), что матрицы A.1.8) и A.2.7) дискретных краевых за- задач A.1.7) и A.2.6) для уравнений и" =/(и)иД«=/ (и) соответ- соответственно являются 2-циклическими и согласованно упорядоченными. Ниже мы приводим основной результат линейной теории; его до- доказательство см. у Варги [1962, стр. 111].
334 Часть IV. Локальная сходимость 10.5 10*5.6. Пусть матрица А ? L (Rn) имеет ненулевые диагональные элементы, 2-циклична и согласованно упорядочена, а В — якобие- ва матрица F). Предположим, что все собственные значения матрицы В2 лежат в интервале [0,1), и положим Тогда спектральный радиус ПВР-матрицы Н®, задаваемой форму- формулой B), удовлетворяет соотношениям р (Нсо) = 4~ I®»* + И*2 ~ 4 (со - I)]72}2, 0 < со < coL, (8) ___ 1 г 1 ^" ri ^" 9 (Q\ р (Яа/) = min p (Я©). Формулы (8) и (9) показывают, между прочим, что график р (Я(о) как функции от со имеет вид, показанный на рис. 10.1. На основании теоремы 10.5.6 можно заключить, что существует со, минимизирующее /^-множитель сходимости любого метода типа ПВР из § 10.3, в предположении, что F' (**) удовлетворяет услови- условиям этой теоремы. Мы установим здесь результат Ортеги и Рокоффа [19661 для уравнений вида Ах + фх =0. 10.5.7. Пусть А ? L (Rn) есть 2-циклическая согласованно упоря- упорядоченная матрица Стильтьеса (см. определение 2.4.7) и отображение ф: D с: Rn -> Rn непрерывно дифференцируемо в некоторой окрестности решения х* уравнения Ах + фх =0. Предположим, что ф' (**)—неотрицательная диагональная матрица. Тогда х* является точкой притяжения итерации ПВР — Ньютона при лю- любом со ? @,2) и существует со# ^ col, минимизирующее /^-мно- /^-множитель сходимости. Здесь col — оптимальное со для линейной зада- задачи с матрицей коэффициентов Л, определяемое формулой G). Кроме того, /^-скорость сходимости итерации ПВР — Ньютона для любо- любого со ? @,2) по крайней мере так же велика, как и у ПВР-итерации, примененной к линейной задаче с матрицей Л.
10.5 Гл. 10. Одношаговые стационарные методы 335 Доказательство. Положим D = ф' (х*) и А =б + -f- А. Очевидно, матрица А также симметрична, положительно опре- определена, 2-циклична и согласованно упорядочена. Пусть В и В — якобиевы матрицы, определенные в теореме 10.5.4: В = D-1/2 [D~1/2 (L + U) D~4i) Dlf\ 1 Рис. 10.2. " так что матрица В подобна симметричной матрице и потому имеет действительные собственные значения. Следовательно, по теореме 10.5.4 собственные значения матрицы В2 лежат в интервале [0, 1). Аналогично в силу E) собственнные значения матрицы В2 лежат в интервале [0, ц,] с [0, 1), где \i =p (В). Теорема 10.5.6 применима как к Л, так и к Л. Действительно, если со*, и со* —оптимальные значения со, даваемые теоремой 10.5.6 для Л и Л соответственно, то col = 2/[1 + A - (х2I/21 >2/[1 + A - tf)l/>] = со*, A0) где Д = р (В). Наш результат следует поэтому из теоремы 10.3.3. Наконец, чтобы доказать последнее утверждение, мы просто заме- заметим, что явное представление (8), (9) показывает, что р (Н^) явля- является при фиксированном со изотонной функцией от \i. Значит, р (Яш (*•))< р(Я„), Vco6@,2), A1) причем для со ? [col, 2) обязательно имеет место знак равенства. | Заметим, что если матрица А к тому же неприводима, то и В неприводима и теорема 10.5.4 показывает, что в E) имеет место стро- строгое неравенство, а следовательно, строгое неравенство имеет место и в A0) и в A1) при со ? @, colI. Поэтому в этом случае графики р (Ясо) и р (Яо) (х*)) как функций от со имеют вид, показанный на рис. 10.2. В частности, поскольку со* < col, to оптимальное со для линейной задачи является разумным кандидатом для аппроксима- аппроксимации со*. Теорема 10.5.7 применима также, конечно, без всяких изменений к нелинейной ПВР-итерации и к /л-шаговой итерации Ньютона — ПВР.
Глава 11 МНОГОШАГОВЫЕ МЕТОДЫ И ДОПОЛНИТЕЛЬНЫЕ ОДНОШАГОВЫЕ МЕТОДЫ 11.1. ВВЕДЕНИЕ И ПЕРВЫЕ РЕЗУЛЬТАТЫ В предыдущей главе были получены результаты о точках при- притяжения и скоростях сходимости для стационарных одношаговых методов xk+l =Gxk, k = 0, 1, ... . Теперь мы рассмотрим соответст- соответствующие результаты для многошаговых методов, а также для од- одношаговых итераций, либо нестационарных, либо таких, в которых x*+i зависит от xk столь сложным образом, что техника предыдущей главы неприменима. Главными примерами многошаговых методов, которые здесь будут анализироваться, являются методы типа секу- секущих, описанные в § 7.2. Примерами нестационарных рдношаговых методов могут слу- служить модифицированные методы Ньютона вида дН-i = х> -щ [F' (*) + VF1 Fx\ k = 0, 1, ... f A) описанные в § 7.1, или изученные в § 7.4 обобщенные линейные мето- методы с переменным шагом xk+l = xk — [I + H(xk)+ •-. +tf(**pr1]B(**-»)F**f B) * = 0, 1,..., в предположении, что параметры заданы заранее, например, если задано, что тк =k + 1. Но A) и B) могут быть и стационарными одношаговыми методами, если со^, Xk и тк представляют собой задан- заданные функции от xk. Наконец, некоторые итерации Стеффенсена § 7.2 дают пример стационарных одношаговых методов, для кото- которых сложная зависимость xk+l от xk препятствует использованию результатов гл. 10. Как указывалось в § 7.6, большинство общих итерационных процессов может быть записано в виде fe = 0, 1, ..., C) где Gk: Dkcz(Rn)k'hP^Rn> й = 0, 1, ..„—данные отображения и имеется р начальных точек хгр+19 ..., х°. На случай этих общих методов определение 10.1.1 точки притяжения можно распростра- распространить следующим образом. 11.1.1. Определение. Точка х* ? Rn называется тонкой притяже- притяжения итерационного процесса C), если существует такая ее открытая окрестность S, что для любых р начальных точек л^*1, ..., х° 6
11.1 Гл. 11. Многошаговые методы 337 ? S последовательность {хк) итераций, порожденная соотношением C), корректно определена и сходится к х*. | В большинстве практических случаев итерации C) имеют вид * = 0, 1, ..., D) где G: D x DhczRn x Rm->Rn и gy Dkс: (Rп)ш->Dhc= Rm, k = = 0, 1, .... Это не менее общий вид, чем C), так как ' при G (x,h) = h и gk s= Gk D) сводится к C). Однако структура соотно- соотношений D) позволит нам концентрировать основное внимание на G и несколько меньше внимания уделять gk. Как мы увидим, это раз- разделение удобно и дает возможность охватить широкий класс мето- методов. Так как с соотношениями D) иметь дело довольно трудно, то фактически в большинстве случаев мы будем для простоты прене- пренебрегать зависимостью hk от xk, ..., х~р+1 и формулировать большин- большинство результатов этой главы в терминах последовательности, опре- определенной соотношением *№=G(**f ft*), Л = 0, 1 E) Здесь {hk} — последовательность в Rm, которую можно рассмат- рассматривать как сокращенное обозначение для {gk (xk, ..., х~р+1)}, или, иначе, как последовательность векторов-параметров. В любом слу- случае мы будем предполагать, что hk заданы, и потому будем получать результаты о точках притяжения не для общего процесса D), а лишь для частного случая E). Соответствующие результаты о точках притяжения при различных специальных предположениях об отоб- отображениях gk вынесены в упражнения. Начнем со следующей простой леммы, которая является анало- аналогом леммы 10.1.2. 11.1.2. Пусть G: D X Dh?Rn x Rm-+Rn. Предположим, что имеют- ся множества 5 = 5 (х*, 6)cz D и D^cz DhJ а также постоянная а< 1, такие, что \G(x,h)-**l<a\x-jt*\t Vx<E5, Vh?Dh. F) Тогда для любой точки л:0 ? S и любой последовательности {hk} a cuDh итерации {^}, порожденные соотношением E), остаются все время в S и сходятся кх*. Кроме того, /M**{<Qi {**}<«. G) Доказательство. Доказательство получается немедлен- немедленно. Простая индукция показывает, что поэтому xk все лежат в S и сходятся к х*. Первое неравенство в G) следует из теоремы 9.3.1, а второе — из F) и определения Qv |
338 Часть IV. Локальная сходимость 11.1 Выполнения оценки F) можно достичь различными путями. В качестве демонстрации первой возможности мы установим сле- следующее обобщение теоремы Островского 10.1.3. 11.1.3. Определение. Набор отображений Gh: D с: Rn -> Rn, где вектор-параметр А — принимает значения из некоторого множества Dh a Rm, называется равномерно дифференцируемым в точке х ? int (D)y если каждое из отображений Gh, A ? Dht F-дифферен- цируемо в х и если для любого г > 0 существует такое б = б (Ь) > > 0,-не зависящее от А, что S (х, б) cz D и \\Ghy-Ghx-G'h(x)(y-x)\\<Bly-xl Vy?S(x,6)t Vh?Dh. | (8) 11.1.4. Обобщенная теорема Островского. Предположим, что для отображения G: D х Dhd Rn X Rm->Rn и точки х* ? int (D), такой, что jc* = G (г*, Л) при всех h ? Dft, набор отображений Gh: Dc=Rn-+ Rn, Ghx = G (x9 h), ^D, h 6 DA, (9) равномерно дифференцируем вх*и где Я ? L (/?*) удовлетворяет условию р (Я) < 1, а ^ (А) — целое положительное число. Тогда имеется открытая окрестность S точки х*, такая, что для любой точки л? ? S и любой последовательности {А*} с Dh итерации {xk}, задаваемые формулой E), корректно опре- определены и сходятся к х*. При этом р (Ят), m = lim inf 9 (Afe)f Доказательство. Теорема 2.2.8 гарантирует существо- существование для данного 8 >> 0 такой нормы в /?л, для которой ||Я||<а + 8, а = р(Я). В этой норме равномерная дифференцируемость набора отображе- отображений Gh позволяет нам выбрать б =б (е) > 0 так, что S =S (x*, 5)сОи \\ при x?S и h$Dh. Поскольку а<1, мы можем предположить, что 8 удовлетворяет условию а -f- 2е<С 1. Тогда из того, что q(h) > > 1, следует, что 8 + (а + г)т < а + 2е < 1, а потому по лемме 11.1.2 Нт** = ** и < lim sup [е + (а + e)«^l < е + (а + е)т.
//./ Гл. И. Многошаговые методы 339 Но е>0 произвольно, и, так как Rx{xk) не зависит от нормы (см. 9.2.2), мы видим, что Rx {л*} < om. | Заметим, что в том частном случае, когда Dh состоит в точности из одной точки h и q (h) = 1, теорема 11.1.4 сводится к теореме 10.1.3 и что при Dh ={1, 2, 3, ...} в R1 и hk = k итерация E) явля- является просто одношаговым нестационарным процессом Л = 0, 1, .... A0) где Gkx = G (х, k). Теорема 11.1.4 имеет несколько ограниченную применимость вследствие требования, чтобы производные Gh {x*) были степенями одной и той же матрицы Я. Но прежде чем рассматривать другие средства для достижения основной оценки F), дадим одно полезное приложение теоремы 11.1.4 к итерации B). Это даст нам обобщение теоремы 10.3.1, которая имеет дело с соответствующим стационарным процессом. 11.1.5. Пусть F:DczRn-+Rn G-дифференцируемо в открытой окре- окрестности SoczD точки х* ? Д в которой производная F' непрерывна и Fjc* = 0. Предположим, что F' (х) = В(х) — С (х), где 5, С: So -> -+L(Rn), причем В непрерывно на 50, матрица В(х*) невырождена и р (Н (х*)) < 1, где Н (х) = В (х)~~1 С (х). Тогда существует откры- открытая окрестность S точки г*, такая, что при любом х? ? S и любой последовательности положительных целых чисел ть k = 0, 1, ..., итерации {**}, порожденные соотношением B), корректно определены и сходятся к л^. При этом R, {**} < р [Я (х*)]т\ т' = \\т inf mk. В частности, если lim mk ==сх>, то скорость сходимости #-сверх- k-?OQ линейна. Доказательство. Как и при доказательстве теоремы 10.3.1, мы видим, что найдется такое г*> 0, что S =S (**, г) с: с: So и В (л:)-1 существует на S и является непрерывной функцией от х в точке х*. Следовательно, отображение G: S x N-+Rn, где N — множество положительных целых чисел и G(x,h)=x-Ah(x)Fx, Ah(x)^(I+ ... Н(х)н~1)В(хГ\ корректно определено для всех х ? S и h ? N и, очевидно, jc* = = G(x?, К) при всех h?N. Кроме того, поскольку р (#(**))< 1, теорема 2.2.8 гарантирует существование такой нормы в Rn, что ||#(х*)||< 1. Поэтому в силу непрерывности Я в г" мы можем вы- выбрать 0<г1<г и А,<1 такими, что ЦЯ(х)||<А, при всех х? S, = = S*(x*, rj. Таким образом, 1—Н(х) и F' (х) невырождены при
340 Часть IV. Локальная сходимость 11.1 всех х ? S, и, используя матричное тождество (I + H+ ••• +Hm)(I-H)=I-Hm+\ мы получаем Ah(x)Г (х) = (I- Н(xf(I- Н (х)Г1 В(хГ1 F (х) = = 1-Н(х)\ Vx?Sv (И) Следовательно, + Ah (х*) F' (х*) (х - **) | < || Ah (x) [F (x) - Fx* - _ F' (**) (*-**)] |+ IIЛ, (x) (F' (x*) - F' (x)) (x - **) |] + +1| [Ah (x) F' (x) - Ah (x*) F' (x*)] (x - я*) 1, A2) где Gh x =G (xy h). Пусть теперь Существование такого р < oo следует из построения шара S с по- помощью теоремы 2.3.2. Имеем Поэтому ^-дифференцируемость отображения Z7 и непрерывность производной F' в точке х* гарантируют, что для данного 8 > 0 мы можем выбрать такое 0 < ra < rl9 что каждый из первых двух чле- членов в правой части A2) ограничен величиной [рв/A — К)] \\ х — — х*| при л: ? Sa =S(x*, r2). Оценим третий член. Мы утверждаем, что \\H(x)h-H(x")h\\^h},h-l\\H(x)-H(^)l Vx?Sv A3) Действительно, это тривиальным образом верно при h =1, и если это верно для некоторого h =&, то чем A3) по индукции и доказано. Так как Л<1, то множество {й^" U == 1, 2, ...} ограничено и, следовательно, ввиду непрерыв- непрерывности Я мы можем предположить, что 0 < б < г2 выбрано столь малым, что \H{xf — Я(х*)Л||<е при всех x?S(x*rb) и всех h?
//./ Гл. 11. Многошаговые методы 341 ?N. Комбинируя все эти оценки, мы получаем из A2) Это показывает, что набор отображений {Gh}9 h ? N, равномерно дифференцируем в х* и, кроме того, что G/> (#*) =# (x*)h. Теперь наш результат немедленно следует из теоремы 11.1.4, если положить отображение q в этой теореме равным q (k) = k, k ? N. I В частности, мы можем взять в теореме 11.1.5 mk =k -f- 1, так что итерации будут иметь вид xW=tf —|/+Я(л*)+ ... +H(xk)k]B(xkrlFxk, 6 = 0,1 ..., т« 'е. для получения xk+l берется в точности k -f 1 шагов вторичной линейной итерации. В этом частном случае lim mk = оо и теоре- ма 11.1.5 гарантирует, что скорость сходимости /?-сверхлинейна. Заметим, что теорема 11.1.5. применима при условиях теоремы 10.3.2 к итерации Ньютона — ПВР. Точную формулировку этого результата мы дадим в У 11.1.8. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 11.1.1. Результаты этого параграфа, включая определения 11.1.1 и 11.1.3, в таком виде являются, по-видимому, новыми. Однако если каждое отображение Gk ^-дифференцируемо в точке **, для которой х* = G^jc*, то итерацию л^"* = = G***, & = 0, 1, ..., можно записать как г**1 = Akzk + Фк (Л к = 0, 1, ..., A4) где Ak=G'k(x% zb = xk-x* и - фк (х - х*) = GkX - Gkx* - G'k (х*) (х - х*). Вопрос о том, когда решение {zk} системы разностных уравнений A4) удовлетворя- удовлетворяет условию lim zk = 0, изучался многими авторами, в том числе Ли [1934], Ханом [1958] и Смитом [1966], и теорема 11.1.4 представляет собой по существу частный случай их результатов. Дальнейшее обсуждение соотношения A4) в связи с итера- итерационными процессами см. у Каваны [1970]. ЗС 11.1.2. Другой подход к анализу последовательных m-шаговых методов вида ЗГ; я**1 =, G (Д . . . , xk-m+l), k=*0t I, . . ., A5) где Gi (Rn)m -> Rn9 состоит в том, чтобы трактовать их как одношаговые мето- методы в (Rn)ms А именно определим отображение G: (R)n)m ->(Rn)m соотношением G(y\ . . ., ym) - (G (y\ . . ., ym), y*,...t ym~l). Тогда итерация A5) эквивалентна итерации d*+l = GA ^ = 0, 1, ..,, где zk = (x^, . . . , ^"~т+!) f (Rn)m. Предполагая, что G /^дифференцируемо в точ- точке z* = (**, ..., х*)у можно применить теоремы 10.1.3—10.1.4 и получить, что х* является точкой притяжения для итерации A5), если р (Я) < 1, где Я — блочная
342 Часть IV. Локальная сходимость 11.1 матрица -', Н2... Нт\ О ••• О о ' о A6) Hi = diG(x*> ..., х*) 1=з 1, ..., m; при этом ^G, **) = р(#). (Соответствую- щий линейный результат представлен в У 11.1.7.) Легко видеть (У 11.1.7), что т простым достаточным условием неравенства р (//) < 1 является условие 2 а* < < 1, где а*=||#г||, или, более общо, условие, что все корни многочлена Хт = = аг 1т~~1 + • • • + ат по модулю меньше 1. В общем случае недостаточно потребовать, чтобы т Однако, как вытекает из одного результата Поляка [1964а], неравенство р (Я) < 1 следует из A7), если Hl9 ..., Нт взаимно коммутируют. Приведенные выше результаты получены Войгтом [1969], который также при- применил их к таким итерационным процессам, как методы Якоби — секущих или ПВР — секущих, обсуждавшиеся в § 7.4. Например, если F: D с Rn -> Rn дважды непрерывно дифференцируемо в некоторой окрестности решения х* и р (Н^ {х*)) < 1, где Н^ (х*) задается формулой A0.3.6), то х* является точкой притяжения метода ПВР"^— секущих G.4.31). Кроме того, Rx множитель для этой итерации снова равен р (Н^ (**)), так что асимптотическая скорость сходимости такова же, как и у метода ПВР — Ньютона A0.3.7). УПРАЖНЕНИЯ У 11.1.1. Пусть G удовлетворяет условиям леммы 11.1.2 и g^. Dk<Z(Rn)k^~p -> -* Rn, &=rO, 1, ..., —последовательность отображений, таких, что Sk~^p с aDk и gk(Sk~*~p)CZDh, k =0, 1, ..., где 5 и Dh такие же, как и в этой лем- лемме. Показать, что х* является точкой притяжения итерации 7: x*+l = G(xk, gk (xk х~р+1)), k = 0, 1, У 11.1.2. Предположим, что для отображения G выполнены условия теоремы И. 1.4 и отображения gk'. Dk С (Rn)k~^p -* Rn удовлетворяют условию gk {Dk) С czDh, k = 0, 1, .... Показать, что х* является точкой притяжения итерации *J из У 11.1.1. У 11.1.3. Пусть Gk: DczRn-+Rn> k = Q, 1, ..., —последовательность отобра- отображений, которые удовлетворяют условию GkX*=x*, k = Q, I, ..., для некоторой точки х* ? int (D), и yx?S(x*, б)сД где Р > 0 и р > 1. Показать, что 0^G, х*) = 0Q G, х*) = р, где 7 есть про- процесс xk+l =>Gkxk, fe = 0, 1
11.2 Гл. И. Многошаговые методы 343 У 11.1.4. Пусть отображения % D a Rn -* Rn удовлетворяют условию GkX = **. Предположим, что имеется такое б >0, что S (x*t 6) с D и каждое Gk G- дифференцируемо в шаре S(jc*, 6) с || Gk (х) ||< а < 1, *?S(x*, 6), к = = (t, 1, .... Показать, что ** является точкой притяжения для итерации A0). У 11.1.5. Пусть отображения G& D a Rn-* Rn равномерно дифференцируемы в точке х*?int(D), причем x*=GkX*, & = 0, I, ..., и пусть <1, k = 0, 1, .... A8) Показать, что х* является точкой притяжения для процесса A0). Проверить также на примере G^x = Вх при четных k и GkX = BTx при k нечетных, где -с :>¦ что условие A8) нельзя заменить условием p(G*(**))<a<L 6 = 0, 1, У 11.1.6. Сформулировать и доказать результат, соответствующий результату У 10.1.1, для последовательностей {С^} и {ф^}. m У 11.1.7. Пусть Hi?L(Rn), i= I, ..., п. Предположим, что ^\]Hi\}< 1. /=1 Показать, что уравнение х = Нхх + ... + Нтх + Ь имеет единственное решение х* и что последовательность = H1xk+ •.. + #mx*-m+1 + fc, 6 = 0, 1, . ,.:, сходится к х* при любых х°, ..., *~m"* ? Rn. Вывести отсюда, что R1Gtx*)=p(H)<\, где Н ?L (Rmn) определено формулой A6). У 11.1.8. Сформулировать и доказать теорему 11.1.5 для частного случая процес- процессов Ньютона — ПВР с переменным шагом и, используя теорему 10.3.2, дать непо- непосредственное доказательство для этого случая. 11.2. КОНСИСТЕНТНЫЕ АППРОКСИМАЦИИ Методы A1.1.1) и A1.1.2) имеют оба вид x*+i = Xk _ j (д*э ft*)-1 Fx\ k = 0, 1, ..., A) где J — некоторое отображение из Rn x Rm в L (Rn). Более важно то обстоятельство, что формулой A) охватывается широкий класс других методов, таких, например, как дискретный метод Ньютона, двухточечный метод секущих и методы Стеффенсена из § 7.1. и 7.2. Рассмотрению этого общего процесса A) и посвящен данный пара- параграф. У большинства конкретных процессов вида A) то общее свойство .с методом Ньютона, что, когда ||Л[| -> 0, J (x, h) стремится к F1 (х). Это наблюдение служит основанием для следующего определения. 11.2.1. Определение. Пусть отображение F: DaRn->Rn G-диф- ференцируемо на DoczD и «/: Ц/ х DhdRn X Rm-+ L (R%
344 Часть IV, Локальная сходимость ' 11.2 Отображение J называется консистентной аппроксимацией для Fr на DQ cz DJt если О ? Rm является предельной точкой для Dh и lim / (x, h) = F {х) равномерно по х ? DQ. B) h0h?D Если существуют такие постоянные с, г > О, что ||F'(x)-/(x,/i)||<c||/i||, V^?D0, h?Dh{)S@9r)t C) то </ называется строго консистентной аппроксимацией для F' на Do |. Основой для всех результатов этого параграфа является следую- следующая оценочная лемма. 11.2.2. Предположим, что отображение F: DczRn-^Rn G-дифферен- цируемо в открытой окрестности SocD точки х*сД для которой Fx* = 0, причем производная F' непрерывна в х* и матрица F' (а:*) невырождена. Пусть /: Д/ X DhczRn x Rm ->• L(Rn) — консистент- консистентная аппроксимация для F' на So. Тогда существуют такие б > 0 и г> 0, что отображение G(xth)=x — J(x,h)-lFx D) корректно определено при всех х ? S =S (х*9 б), h ? Dh —Dh f] П S @, г) и удовлетворяет соотношению 5, h?D'h, E) где (о(л:, Л)->0, когда х-+х* и Л->0, AgDi. F) Кроме того, если / является строго консистентной аппроксимацией для F' на «So и если \\F'(x)-F'(x*)\<Cy\\x-x*l VxtS0, G) то существуют постоянные а1г а2, такие, что (8) Доказательство. Положим р = ||F(х*)1, и пусть eg € @. (х/г) Р)- Так как У — консистентная аппроксимация на 50, то имеется г>0, такое, что Dh непусто и Далее, в силу непрерывности F' в х* найдется б>0, такое, что S = S(x*,b)czS0 и
11.2 Гл. 11. Многошаговые методы 345 Отсюда и по лемме о возмущении 2.3.2 / (#, А)-1 существует и удовлетворя- удовлетворяет оценке Поэтому G корректно определено на S x Dhr и || G (х, Л) - х* || = || J (х, ИГ1 [J (х, К) (х - **) - Fx] || F* (x*) (x - **) ||, откуда следует, что справедливо E) с co(x,h) ^MU(*,h)-F (x)\\ + \\F' (x)-F (x*)\\ + q(x)], (9) где Чтобы показать, что выполняется F), достаточно заметить, что ввиду непрерывности F' в х* мы имеем q (х) -»• 0 и F' (х) — — Fr (х*) -> 0 при х -> л:*, а из требования равномерной сходимости • в определении 11.2.1 вытекает, что J (x, h) — F' (х) -»- 0 при h ->• О и х -> х*. Предположим теперь, что выполнено G). Тогда по теореме 3.2.5 и из E) и (9) немедленно следует (8) с ах = 2уц и а2 = v\c, где с — постоянная из C). I В качестве первого приложения леммы 11.2.2 приведем следую- следующий простой результат, показывающий, что скорость сходимости последовательности A) сверхлинейна, если lim hk =0. 11.2.3. Предположим, что отображение F: D cz /?"->- Rn G-диффе- G-дифференцируемо в открытой окрестности SoaD точки х*, где Fx* = 0, причем производная f непрерывна в л:*, а матрица F' (л:*) невырож- невырождена. Пусть J: Djr xDhczRn xRm-+L (Rn) — консистентная ап- аппроксимация для F' на So. Тогда существуют такой шар Sx = = 5 (л:*, 6i) cz 50 и такое гх > 0, что при любом x°czS1 и любой последовательности {hk} cz Dh П S @, гг) итерации {/}, определяе- определяемые формулой A), остаются все время в Si и сходятся к х*. Кроме того, если lim А* = 0, то Rx {/} == Qx {/} = 0. Доказательство. Пусть б>0 иг>0 — постоянные из леммы 11.2.2. Соотношение F) гарантирует, что для всякого данного а ? @, 1) мы можем выбрать бх < б и гг < г, такие, что ю(*, А)<а, VjceS(x*,6x), h?Db П S@, rj.
346 Часть IV. Локальная сходимость 11.2 Таким образом, существование и сходимость последовательности {xk} следуют из леммы 11.1.2. Если lim hk = 0, эта лемма вместе с соотношениями E) и F) показывает, что < Qi {**} < Hm sup со (х\ hk) = 0.1 Чтобы применять лемму 11.2.2 или теорему 11.2.3 к конкретным итерациям, необходимо, конечно, обеспечить, чтобы соответствую- соответствующее / было консистентной аппроксимацией. Вот одна из возможнос- возможностей для модифицированного метода Ньютона A1.1.1). 11.2.4. Пусть F и х* удовлетворяют условиям теоремы 11.2.3. Тогда существуют такие постоянные 1 > сг > 0, с2 > О и такой шар Sx = S (лг*, 8Х) cz So, что для любого л? ? St и любых последователь- последовательностей {соЛ}, {А^}, удовлетворяющих условиям 1 — сх < cofe < 1 + съ — с2 < %k < с2, & = 1, 0, ,.., итерации x*+i = х* - cofe [f (jc*) + lkirlFx\ k = 0, 1, ..., остаются все время в Sx и сходятся к я*. Кроме того, если lim соЛ == = 1 и WrnXk = 0, то Rx {xk} = Qx {xk} = 0. fe-»>oo Доказательство. Определим отображение /: So X X Dh с: i?" X R2 -> L (/?«), где Dh = {ft g R21 ^i ?» 1}, формулой Так как производная F' непрерывна в х*у то для всякого i найдется такое б > 0, что || F' {х) \ < | F' (х*) 1 + 11 = % при всех х ? S (**, б). Следовательно, а это показывает, что J является консистентной аппроксимацией для F' на S (л;*, б). Наш результат следует поэтому из теоремы 11.2.3. | В остальной части этого параграфа наш интерес будет сосредото- сосредоточен на консистентных аппроксимациях, которые возникают как разностные аппроксимации производных. Рассмотрим, например, матрицу J (xf h) ? L (Rn), элементы которой определены формулой если " \fi [x + Р 2 W + Ы A -fJx если /ty^O, (И) л-1 /
11.2 Гл. 11. Многошаговые методы 347 где Р ? [О, 1] и, как обычно , е1, ..., еп обозначают координатные векторы. Если р = 1, то A1) соответствует аппроксимации G.1.15) для djf^x), а при Р = 0A ^соответствует G.1.16). Если отображение F F-дифференцируемо в некоторой окрестности точки х, то, очевид- очевидно, J {х, A) -> F' (х) при А -> 0. Следующая лемма показывает, что при стандартных условиях этот предел достигается равномерно, так что J является фактически консистентной аппроксимацией для F'. 11.2.5. Предположим, что отображение F: DdRn-^Rn непрерывно дифференцируемо на открытом множестве D. Тогда для любого компактного множества DoaD существует такое г > 0, что зада- задаваемое формулой A1) отображение J: DQ х Dh cz Rn х Rn* -> L (Rn), где Dh = {h ? Rn*\ \кц\ < г, /, / = 1, ..., n), корректно определено для любого Р ? [0, 1] и является консистентной аппроксимацией для F' на Do. При этом если \F'(x)-F'{y)\<y\x-yl Vx, yGD, A2) то J является строго консистентной аппроксимацией для F' на D. Доказательство. Мы докажем результат лишь для ^-нормы. Его справедливость для других норм легко следует тогда из теоремы 2.2.1 об эквивалентности норм. Так как Do компактно, a D открыто, существует такое б > 0, что компактное множество D1 = {х\х — у\г < б для некоторого у ? DQ) содержится в D. Ясно, что производная F' равномерно не- непрерывна на D, поэтому для всякого заданного е > 0 найдется та- такое бх ? @, б), что (х) - d,U (у) |< е, /, / = 1, ..., п, Ух, у 6 Dl9 Положим г = bjn и А*/(А) = Р2 ^'/^- Тогда для любого h?Dh II А,-/ (А) + Ai/в/Ц! < nr < бх < б, *, / = 1, ..., n, а это показывает, что л; + А// (А) + Л//е' ? Dlf каково бы ни было х g Do. Далее, в силу теоремы о среднем 3.2.12 -i- [/, (х + Д,у (А) + h4ei) -ft(x + Д,у (Л))] - diU (х) -i- [ft (x + Av (A) + Л/уе0 - Л (^ + ДО Ш - dift (x + А/у (A)) + A3) откуда Поскольку е произвольно, этим доказано, что J является конси- консистентной аппроксимацией для Ff на?>0. Если выполнено также A2),
348 Часть IV. Локальная сходимость 11.2 то, очевидно, и теорема 3.2.12 показывает, что правую часть оценки A3) можно п заменить на ух[\ hq \ + | Д^ (Л) |]< Yi 2 Ihik Iе Следовательно, чем и доказано, что J является строго консистентной аппроксима- аппроксимацией для F' на Do. | Заметим, что в доказанной теореме мы вынуждены были огра- ограничиться множеством Dh, состоящим из достаточно «малых» точек h, лишь для того, чтобы гарантировать, что отображение / коррект- корректно определено. В случае когда F определено на всем R\ можно взять Dh = Rn\ В качестве непосредственного следствия теоремы 11.2.3 и леммы 11.2.5 мы получаем следующий результат. 11.2.6. Теорема о дискретном методе Ньютона. Предположим, что отображение F: Rn-*Rn непрерывно дифференцируемо и у уравнения Fx = О имеется решение #*, для которого матрица F' (i*) невырож- невырождена. Определим отображение J: Rn x Rn*-> L (Rn) формулой A1). Существуют такие rL> 0 и бх> 0, что для любого х° ? S (л:*, бх) и любой последовательности {hk}czS@, r^cR*1* итерации [xk}y даваемые формулой A), корректно определены и сходятся к х*. Кроме того, если \imhk = 0, то Rx \xk) = Qx \xk) = 0. До сих пор в этом параграфе мы касались лишь вопроса о полу- получении сверхлинейной сходимости. Чтобы получить сходимость выс- высшего порядка, необходимо, вообще говоря, ввести следующие три дополнительных условия: F достаточно гладко; J — строго кон- консистентная аппроксимация; скорость стремления к нулю векторов hk достаточно велика. Если F' удовлетворяет условию Липшица G) и У — строго кон- консистентная аппроксимация, то, как показывает наша основная оценка (8), Если бы а2 было равно нулю, это давало бы по крайней мере квад- квадратичную сходимость последовательности {xk}9 но при а2 Ф 0 до- доминирующую роль в оценке скорости сходимости играет поведение hk при k ->- оо. Приводимый ниже результат указывает два возмож- возможных условия на hk, обеспечивающих сходимости высшего порядка. 11.2.7. Предположим, что отображение F: DaRn-+Rn G-дифферен- цируемо в открытой окрестности SoaD точки х* ? D, где Fx* = 0,
11.2 Гл. И. Многошаговые методы 349 причем выполнено условие Липшица G), а матрица F' (х) невырож- невырождена. Пусть «/: Dj х Dhc:Rn х Rm-*L (Rn) — строго консистент- консистентная аппроксимация для F' на 50. Предположим, что для некоторой последовательности {hk}czDh итерации {xk}y даваемые формулой A), корректно определены и сходятся к л:*. Если при этом выпол- выполнено условие \М\<Мр*к1 V?>?0, , A4) то 0R {xk) > 0Q [xk] > 2, а если A5) Доказательство. По лемме 11.2.2 существуют б > 0, г > 0, та- такие, что щя любых х ? 5 = 5 (**, б) d 50 и h ? Dh = Dh f| S @, г) спра- справедлива оценка (8). Предположим, что выполнено A4). Тогда, поскольку lim** = **, то Y\mFxk = 0, откуда xk ? S, hk?D'h при всех &> o- Таким образом, согласно (8), Но 1 Fx*||<||Fx*-Fx*-F' (x*) (xk-x*)\\ +1|F' (x*)(л» — < [e* +1| f'(^) IP II**-** II. где lim ek = 0, и наш результат непосредственно следует из fe-»-co теоремы 9.3.3. Аналогично, если выполнено A5), то A6) Поэтому теорема 9.2.9 (с m = 1) показывает, что Or {xk} > т, где х = A/2) A + |A5) — положительный корень уравнения t2 — t — -1=0. | Оценкам A4) и A5) можно удовлетворить различными способами. Например, если hk рассматриваются как векторные параметры, то A4) и A5) могут рассматриваться как ограничения на выбор hk, так как величины \\Fxk\\ или \\xk — л:^! легко вычисляются. Во всех полученных до сих пор в этом параграфе результатах последовательность {№) предполагалась удовлетворяющей неко- некоторым предположениям, а в остальном не уточнялась. Вследствие этого мы не в состоянии были рассматривать теоремы о точках при- притяжения. Мы сделаем это в следующей теореме для двух простых
350 Часть IV. Локальная сходимость 11.2 явных выборов hk, которые возникают в методах Стеффенсена и се- секущих. 11.2.8. Предположим, что отображение F: D с Rn ->• Rn G-диффе- ренцируемо в открытой окрестности SoczD точки л:* ? Д где Fti* = = 0, причем производная F' непрерывна вх*, а матрица F' (л?) не- невырождена. Пусть J: D х DhaRn х Rn->L (Rn) — консистентная аппроксимация для F' на 5g и 0 ? int (Dp. Тогда ** является точ- точкой притяжения для каждой из итераций xk—J (**, Fxk)-1 Fx\ k = 0, 1, ..., A7) = xk — J (xk, xk-x — a:^ Fxk, k = 0, 1, ..., A8) и /?i G/f x*) = Q2 G/э a:*) = 0, i = 1, 2. Кроме того, если f" удов- удовлетворяет условию Липшица G), a J — строго консистентная ап- аппроксимация, то ORGV x*) >OQGъ х*) >2, a ORG2, л:*) A + Доказательство. Рассмотрим сначала итерацию 72. В си- силу леммы 11.2.2 и рассуждений, использованных при доказательстве теоремы 11.2.3, мы можем выбрать такие а<1, бх>0 и г?>0, что S@, rl)dDh и при х? St = S (лг*, 6j) и || х— #|| < г±. Очевидно, можно считать бх < <гх/2, так что A9) будет выполнено при х, у ? Sx = 5 (jk*, бх). Тогда из A9) немедленно следует, что, каковы бы ни были х°, лГ1 ? Slf последовательность A8) корректно определена, лежит в S и сходится к #*. Значит, х* является точкой притяжения. Анало- Аналогично в силу непрерывности F в х* мы можем считать 8г настолько малым, что \\Fx || < гг при х ? Sx. Отсюда следует, что х* является точкой притяжения для итерации Эг1. Утверждения о скорости сходи- сходимости вытекают из теорем 11.2.3 и 11.2.7. | Примерами итераций A7) и A8) могут служить двухточечные методы секущих и соответствующие методы Стеффенсена, описанные в § 7.2. Рассмотрим частный случай матрицы / (л;, К) (см. A1)), когда hif = hh it j = 1, ..., п. В этом случае столбцы Jt матрицы «/ (л:, h) определяются так: /-1 7' (х + Р У л=1 если А/т^О, B0) Ji(x,h) i /-1 \ если А/ = 0, при / = 1, ..., п, где снова Р ? [0, 1]. Здесь мы можем рассматривать векторный параметр h как принадлежащий Rn% а не Rn\ так что
11.2 ?л. 11. Многошаговые методы 351 V: Dj X Dhcz Rn X Rn -> L (Rn). Для этого J при р = 0 итера- итерация A8) сводится к двухточечному методу секущих, определяемому формулой G.2.20, 19), а при р = 1 — к двухточечному методу G.2.20, 22). (Отметим, что теперь допустимо положить /i/= 0). Ана- Аналогично A7) сводится к одному из методов Стеффенсена G.2.31, 19) или G.2.31, 22) в зависимости от того, Р = 0 или 1. В качестве следствия леммы 11.2.5 и теоремы 11.2.8 мы получаем следующий конкретный результат. 11.2.9. Теорема о двухточечном методе секущих —Стеффенсена. Пусть отображение F: DaRn-+Rn непрерывно дифференцируемо в открытой окрестности Socz D точки .к* ? D, где Fx* = 0, причем матрица F'(х*) невырождена. Тогда при любом р ? [0, 1] сущест- существуют 6>0 и г>0, такие, что отображение J: Dj x DhaRn x X Rn-*L(Rn), задаваемое формулой B0), корректно определено при Dj =5(х*, б)с:50 и Dh = {h? Rn\\\h\\<r), a x* является точкой притяжения для каждой из итераций A7), A8). При этом RxGt9 л?) = Q1(Ji, х*) = 0, i = 1, 2, а если выполнено условие Липши- Липшица A2), то OrGlt x*) > OQ CTlf x*) >2, О* (t72, **) > ±- A + Т/б). Доказательство. По лемме 11.2.5 / корректно опреде- определено на Dj X Dh и является консистентной аппроксимацией для F' на Dj. Поэтому наш результат непосредственно следует из теоре- теоремы 11.2.8. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 11.2.1. Определение 11.2.1 консистентной аппроксимации и результаты 11.2.2—11.2.4 и 11.2.8 немедленно распространяются на случай банаховых про- пространств. ЗС 11.2.2. Теорема 11.2.9 для аппроксимации J, задаваемой по формуле B0) с Р == 0, была получена для двухточечного метода секущих A8) Коргановым [1961 ] и для метода Стеффенсена A7) Веггом [1966]. Оба эти результата были установлены с помощью непосредственного анализа, в котором существенно использовались условия дифференцируемости. Сходный результат для метода A7), B0) с Р = 0 был доказан также Маер- гойзом [1967]. Независимо Шмидт [1966а] получил по существу теорему 11.2.9 для Р = 1 и для методов секущих и Стеффенсена как частный случай более общего результата для банаховых пространств, в котором используются разделенные раз- разности (см. ЗС 7.2.6 и ЗС 11.2.3). (См. также ЗС 11.2.6 и Шмидт и Шветлик[ 1968].) Порядок сходимости A + 1^5)/2 для метода секущих A8), B0) с Р = 1 Шмидт вывел еще в своих ранних работах [1961, 1963а], действуя в постановке гл. 12, т. е. не предполагая существования решения. Чень [1964] рассмотрел затем аналог метода Стеффенсена в той же постановке, также используя разделенные разности в банаховом пространстве. Им была доказана квадратичная сходимость, правда при ограничительном предположении, что || F' (х*) [| < 1. В одновременно опуб- опубликованной работе Ульм [1964в] не предполагал, что || F' (х*) \\ < 1, но принял даже более ограничительное предположение, что оператор разделенных разностей
352 Часть IV. Локальная сходимость 11.И симметричен (см. ЗС 7.2.7). Это условие в дальнейшем было несколько ослаблено Ульмом [1965а] и полностью снято Джонсоном и Шольцем [1968]. (См. также ЗС 12.6.4.) Сверхлинейная сходимость одного специального дискретного метода Ньютона для случая градиентного оператора F была установлена Гольдстейном и Прайсом [1967]. ЗС 11.2.3. Консистентные аппроксимации были введены Ортегой [1967]; они тесно связаны с разделенными разностями, причем понятие консистентной аппрок- аппроксимации является более общим. Напомним (см. ЗС 7.2.6), что оператор разделенных разностей У: Rn X Rn -> L (Rn), как он определен у Шмидта [1961], удовлетворя- удовлетворяет условиям J(x,h)h = F(x + h)—F (x), B1) У(х,к)-/(х + Н,к)\\^а\\Н + к\\ + Ь(\\Н\\ + \\Ц), B2) где а и Ь — некоторые постоянные, а векторы х, h и k в B2) принадлежат надлежа- надлежащим компактным множествам. Условие B2) является по существу нашим условием строгой консистентности аппроксимации. Действительно, заметим прежде всего, что если B1) и B2) выполнены для всех х ? S (г, б) и h, k ? S (О, г), то F имеет ^-производную на 5 (г, б — г), удовлетворяющую условию Липшица. Это сле- следует из соотношения lF(x + h)-Fx — J(x, О)Л||=И[/(*, А)-/(*, 0)] h К (« + Ь) II й||2, показывающего, что Fr (x) = J (х, 0), и соотношения \\F' (х) - F' (y)\\ = \\J (х, 0) - J (у, 0Ц<У(х9 0)-/(*, у-х\\ + Из соотношения \\F' (х) h- J (х, h) h\\ = \\F (x + h)- F (х) - F' (х) Н\\<, (а + b)\\h\\ видно теперь, что / — строго консистентная аппроксимация для F. Обратно, если J является строго консистентной аппроксимацией для F' и F' удовлетворя- удовлетворяет условию Липшица, то U(x,h)-J(x + h, k)l<U(x,h)-.F'(x)i + lF'(x+h)-F'(xn + -J(x + h, хЦ< y\\h + k\\+y\\k\\ так что выполнено B2) ca = ynb=c+y. Таким образом, все наши результаты, в которых требуется, чтобы J было сильно согласованной аппроксимацией и про- производная F' удовлетворяла условию Липшица, можно перефразировать в терми- терминах условия B2), предполагая, конечно, что/: Rn X Rn -> L (Rn). Однако мы не нуждаемся в ограничительном условии B1) и не требуем, чтобы Dh было подмно- подмножеством того же самого пространства Rn. ЗС 11.2.4. Шмидт [1968] дал обобщение своих более ранних результатов (Шмидт [1966а], см. ЗС 11.2.2) с помощью одной теоремы об итерациях вида х*-Н exfc_ А (Д . . # , xk-mrl F(xk[ . . . , л^-т), k -0, 1, в банаховых пространствах. Мы сформулируем здесь этот результат только для итераций вида = xk — А (Д xk~1)-1 Fxk, ? = 0, 1, lf,, B3) где Fi Rn-*Rn и Л: Rn X Rn -> L (R%
112 Гл. 11 Многошаговые методы 353 Предположим, что Fx* = 0, существует А (**, я*)"" и для некоторого шара S = S (х*, г) выполнены следующие оценки при всех х, у ? S: || А (*•, х*) - А (*, у) 1 < 2 «< 1 * ~ ** fП IIУ - У* f". B4) р# _ л (*, у) (jc — **) II < 2 М * — х* llPf'! III/ — У* ti2> B5) где все постоянные неотрицательны. Положим а = min {ссп + а?-2 I щ > 0}, а = 0, если аа = • • • => ар = 0, = min и предположим, что 6 > 1 и b — а > 1. Тогда ** является точкой притяжения для итерации B3) и при некоторой постоянной с 2 I* Эта теорема содержит в качестве частных случаев более ранние результаты Шмидта [1966а] о методах секущих и Стеффенсена (см. ЗС 11.2.2), а также результат о точ- точке притяжения для метода Ньютона, в котором используется лишь непрерывность производной по Гёльдеру (см. ЗС 10.2.1). Сам Шмидт применил эту теорему к ме- методам секущих и Стеффенсена только при своем предположении.© разделенных разностях. Интересно отметить, что более общую теорему 11.2.7 также можно «воз- «возвратить» к такой постановке (см. У 11.2.14). ЗС 11.2.5. Шаманский [1967а] обобщил теорему 10.2.4 (и результат из ЗС 10.2.2), заменив производную в методе Ньютона оператором /: Rn X R1 -> L (Rn) с ком- компонентами [J(x /i)].. = ( Vt(x + hel)^ft(x)]/h9 если h Ф 0, it J-lf ..,, h, ^ 4 1 difi(x), если /i = 0. Точнее, он показал, что при соответствующих условиях итерации сходятся к решению х*, и если | hk | ^ c\\ Fxk jj, то порядок сходимости равен т+ 1. Частный случай m = 1 разобран ниже в УЧ 1.2.6. ЗС 11.2.6. Важно отметить, что в теоремах 11.2.6 о дискретном методе Ньютона и 11.2.9 о методе секущих — Стеффенсена требуется, чтобы разностная аппрокси- аппроксимация J (см. A1)) была определена при НГ] = 0. Легко видеть, что лемма 11.2.5 остается справедливой, если J определено лишь при Нг] Ф 0, в предположении, что на множество D^ наложено то же самое ограничение. Это делает возможным соответствующую модификацию теоремы 11.2.6, но, чтобы получить результат о сходимости для, скажем, двухточечного метода секущих, необходимо было бы гарантировать, что х*~х — х\ Ф 0, k = 1, 2, ..., i = 1, ,.., п. Никаких сущест- существенных результатов в этом направлении не известно. ЗС 11.2.7. По аналогии с точными результатами о скорости сходимости, содержа- содержащимися в теоремах 10.1.7 и 10.2.2, Войгт [1969] установил следующую теорему ля двухточечного метода секущих.
354 Часть IV. Локальная сходимость tl.2 Предположим, что для F выполнены условия теоремы 11.2.9 и, кроме того, F дважды непрерывно дифференцируемо на 5о и удовлетворяет соотношению \\F"(x)-F"(x*)\\<;c IU-**1I, Vx?S0. Предположим, далее, что F' (х*Г1 (д]д$х (х*), . ,. , d]fn (x*))T > 0, i = 1, ..,, п, B7) и рР (х*Г1 (did jf\ (х*), . , ,, did ifп (х*))т >0, I, j = 1, . . . , n, I < /, B8) где строгое неравенство в B7) означает, что все элементы вектора положительны. Тогда для итерации 72» задаваемой формулами A8), B0), Од (J2t х*) = (! + ]/5)/2. Заметим, что B8) автоматически выполнено, если Р = 0, и что при п = 1 условие B7) сводится к условию F" (х*) Ф 0. [Знаки в B7) и B8) можно заменить соответственно на < и <.] Заметим также, что, как легко видеть, B7) и B8) выполняются в силу A.2.5), когда, например, / (s, /, и) = е" . Войгт показал также, что неравенства B7) и B8) необходимы для предотвра- предотвращения сходимости высшего порядка в том смысле, что если левые части этих нера- неравенств одновременно обращаются в нуль, то 0% (СГг» **) > 2. Заметим, что в одно- одномерном случае это сводится к требованию, чтобы F" (х*) = 0, но в случае большей размерности это не так. ЗС 11.2.8. В ЗС 7.2.11 мы упоминали об итерациях типа ложного положения xk+\ = xk_j (Д ~х _ xkr\ Fxkf k = Of j B9) где х — фиксированно, а отображение / определяется формулой A1), или, более общо, является консистентной аппроксимацией для F'. Войгт [1969] доказал теоре- теорему о точке притяжения для этой итерации (см. У 11.2.13) и показал, что скорость ее сходимости, вообще говоря, не более чем /?-линейна. ЗС 11.2.9. С помощью методов этого параграфа можно установить сверхлинейную сходимость итерации A1.1.2) в случае, когда lim ть = оо. Для этого нужно показать, что отображение J: Rn X [1, со) -*> L(Rn), определенноэ соотношением J(x, h) = B(x){l + H(x)+ ... +Ж*)*-1]-1. является консистентной аппроксимацией для F' на некотором шаре с центром х*. УПРАЖНЕНИЯ У 11.2.1. Пусть F:DczRn-+Rn удовлетворяет условиям леммы 11.2.2. Рассмотрим отображение J: Dj х ?>л ? Rn X Rn -> L (Rn) и предположим, что || F' (х*) - J (x, h) |1< a < — || F' (х*Г11|, V x ? S (x*, 6), h ? Dh. Показать, что имеется такое д1 < 6, что для любой точки *? S(x*y 6X) и любой последовательности {hk}czDh последовательность A) корректно определена и сходится к х*. При этом если lim / (Д hk) = F' (х*)> то Rt [xk] = Qt {xk} = 0. У 11.2.2. Предположим, что F и J удовлетворяют условиям теоремы 11.2.3, отображение g: Dh с (Rn)p -»- Rm непрерывно в точке (**, ..., х*) ? D/,, g (x*,x* ... • *» х*)=0 и D/, содержит некоторую окрестность нуля. Показать, что х
tl.2 Гл. 11. Многошаговые методы 355 является точкой притяжения для итерации У 11.2.3. Предположим, что F и / удовлетворяют условиям теоремы 11.2.7 и отображение g: Rn С Rm таково, что || g (х) || < r\ || Fa: || при всех х из некоторой окрестности точки х*. Показать, что х* является точкой притяжения итерации j: %*+* = ** - / (xk% g (xk)) -1 Fx\ k = 0, 1, У 11.2.4. Предположим, что для F и J выполнены условия теоремы 11.2.7 и ото- отображение g: Rn X Rn -> /?п удовлетворяет неравенству || ? (*, у) ||< т| J * — у || при всех ху у из некоторой окрестности точки х*. Показать, что х* является точкой притяжения итерации \ fe kllk k = 0, 1, s .., и Од G, х*)>A+|/5)/2. У 11.2.5. Доказать лемму 11.2.5 для произвольной нормы. У 11.2.6. Предположим, что F: DczRn-*Rn удовлетворяет условиям теоремы 11.2.9 и соотношению A2), и пусть J\ Rn X R1 -*L(Rn) определено форму- формулой B6). Показать, что последовательность A) сходится к лс*, если |U°—х*\\ и Л*|, k = 0, 1, ..., достаточно малы. Если, кроме того, существуют постоянные с и k0, такие, что либо | hk \ < с || д:^1 — xfe ||, либо | hk \. < с || Fxk || при всех [Заметим, что первое из этих двух условий вытекает из второго ввиду соотноше- соотношения | /**|< c\\Fxk\\=* c\\ J (Л Л*Их*+! -**)||, если имеет место равномерная ограниченность J С*\ hk).] (Шаманский [1966а].) У 11.2.7. Предположим, что F удовлетворяет соотношению A2). Показать, что отображение / из теоремы 11.2.4 является строго консистентной аппроксимацией для F' на некотором шаре 5 (х*, 6), если Dh задать так: У 11.2.8. Пусть F: Dcz Rn -+Rn удовлетворяет условиям теоремы 11.2.3 и, кроме того, || F' (х) — F' (х*) || < К\\ х — х* f, р ? @, 1]. Предположим, далее, что {Ak}<zL{Rn) и что для последовательности xk+l = xk — Aj^lFxk, k=*0, 1, ..., имеют место соотношения lim xk « х* и ц А^ — F' (х*) |К с\\ х — х* №, q? @, 1]. Показать, что OR {xk}^.OQ {хк} > 1 + min (p, q). У 11.2.9. Пусть F удовлетворяет условиям теоремы 11.2.7, и пусть Л^: Rn -> -* L (Rn), k = 0, 1, ...,— данная последовательность операторов, таких, что II Ak (хГ11| < р, || Ак (х) - F' (х) Ц < ak (x) < B0Г1, Yx?S(x*> 6), /^ = 0, 1
356 Часть IV. Локальная сходимость 11.3 где отображения ak: Rn -> R1 удовлетворяют условию lim о^ (х) = 0 равномер- /г-юо но по х? S(x*, б). Показать, что х* является точкой притяжения итерации X xk+l =xk — Ak (xk) Fxk, k = 0, 1, . . . , и QiG, **) = 0. У 11.2.10. Пусть F: Rn -> Rn F-дифференцируемо. Определим отображение J:RnX {heRn\hi*Of /=1, ... , n) -*L(Rn) формулой J(x, /x) ^ ding f bW-Mx + M1) _t fn(*)-fn(x+hnen) \ \ ^ ' hn j ' Показать, что lim У {x, h) = F' (x) тогда и только тогда, когда матрица F' (х) Л-vO диагональна. Следовательно, / является консистентной аппроксимацией для F' только на тех множествах, где F' (х) диагональна. У 11.2.11. Заменить /вУ 11.2.10 на "п и вывести то же самое заключение. Замечание. С отображением /, определенным, как в У 11.2.10 или как в У 11.2.11, процесс A8) можно рассматривать как наивное обобщение одномерного метода секущих на случай п измерений. Указанные упражнения показывают, что эти обобщения не сохраняют свойств, присущих одномерному методу. Заме- Заметим, однако, что для У из У 11.2.10 процесс A8) — это просто процесс Якоби — секущих, изучавшийся в § 7.4. У 11.2.12. Пусть F: Rn -> Rn F-дифференцируемо в решении х*, и пусть /: Rn X X Rn таково, что для некоторых фиксированных h ? Rm и 6 > 0 матрица J (х, /г)"" определена и ограничена при всех х ? S (г*, б). Показать, что итерация ^^ = xk — / (xky /г)" Fxk является /?-сверхлинейно сходящейся к х* тогда и только тогда, когда все собственные значения матрицы J (x*, Н)ГХ F' (**) равны единице. У 11.2.13. Пусть F и J удовлетворяют условиям теоремы 11.2.4. Показать, что имеется такое б > 0, что х* для любого х? S (x*t б) является точкой притяже- притяжения итерации B9) (Войгт [1969]). У 11.2.14. Предположим, что F: D с Rn ~* Rn удовлетворяет соотношению A2) и что для J: DxDhc:Rn X Я -> L (Rn) h?S@,2r)czDh. Положим A (x, у) = J (x, у — x) и предположим, что 5 (x*, г) с D. Показать, что выполнены оценки B4) и B5) с р = 2, ах = у + с, а2 =з с, аи = а22 = 1, а1а = а21 = 0, рп - 2, р12 = 0 и р21 = р22 = 1. 11.3. ОБЩИЙ МЕТОД СЕКУЩИХ В предыдущем параграфе мы получили результаты о точках притяжения для некоторых частных двухточечных методов секу- секущих и Стеффенсена. Теперь мы рассмотрим общий метод секущих,
11.8 Гл. 11. Многошаговые методы 357 который задается (см. § 7.2) соотношением /+1 = / - J (/, Hk)-]Fx\ k = 0, 1, ... ; A) здесь Fxi ..., F(x + Hen)-Fx)H~x B) Ял = (**•» - х\ ... , &» — х% C) где л;*'', / = 1, ..., ft, — заданные вспомогательные точки. Заметим, что, как и в случае аппроксимации A1.2.11), J зависит от п2 пара- параметров htj элементов матрицы Я. Как и в предыдущем параграфе, мы могли бы рассматривать отображение / как определенное на не- некотором подмножестве в Rn X tRn\ Но теперь удобнее думать об Rn* как об L (Rn), т. е. положить J: Dj X Dha Rn X L (Rn) -> + L (Rn). Мы покажем, что J является консистентной аппроксимацией для F', если предположить, что Н пробегает лишь следующие под- подмножества пространства L (Rn). 11.3.1. Определение, Положим для всякого а > О К (а)={я = , 1—\, ... , п; *" ">.}. D) Семейство матриц Q cz L (Rn) называется равномерно невырожден- невырожденным, если Q cz К (о) при некотором а > 0. | Заметим, что если /< (а) непусто, то все матрицы из К (о), конеч- конечно, невырождены. Заметим также, что К (о) может быть и пусто, если а слишком велико, но оно всегда непусто, если а достаточно мало (см. У 11.3.2). Ясно, что любое множество невырожденных диагональных матриц равномерно невырождено. Более общим образом полезный критерий равномерной невырожденности некоторых подмножеств пространства L (Rn) дается следующей леммой. 11.3.2. Пусть Q a L (Rn) — некоторое семейство невырожденных матриц. Оно равномерно невырождено тогда и только тогда, когда существует такая постоянная а, что ||(Л1/!ЛД ••¦¦ hn/\\hn\r]\\<a, YHZQ. E) Кроме того, Q равномерно невырождено, если существует такая постоянная р, что || Я || • || H~x || < Р при всех Н ? Q. Доказательство. Предположим, что Q ? К(о) при не- некотором а > 0, и пусть = 1, /=1, .... п).
358 Часть IV. Локальная сходимость 11.3 Очевидно, Кг ограничено. Далее, если {Ak} а Кг — сходящаяся последовательность с пределом \imAk = A?L (Rn), то \\ai\\ =1, / = = 1, ..., /г, и так как определитель является непрерывной функцией своих элементов, то | det А | > а. Значит, А ? К19 так что /Сх замкнуто. Отображение /: K1-+R1y / (А) = || А~х || непрерывно, следовательно, существует такая постоянная а, что || А-1 \\ < а при всех А ? ^а- Но для любой матрицы Я ? Q матрица принадлежит /Clf поэтому || Я-11| < а. Обратно, предположим, что выполняется E). Множество компактно, и снова в силу непрерывности определителя существует такая постоянная т > 0, что | det А \ < т для всех А ? S. Но Н~х ? ? S при всех Н ? Q, следовательно, |det#|= l/|det/H|>l/T, V#?Q, так что Q ? /С A/т). - Для доказательства второго утверждения леммы заметим, что Я = HD-\ где D = diag (ЦА1], ..., ||АП||). Далее, в /гнорме мы имеем Ц-ОЦх =5 max/JA/ji = ||Я||Г и, следовательно, согласно 2.2.5, имеется постоянная с, такая, что||Ь||<с||Я||. Таким образом, а отсюда по первому утверждению вытекает, что Q равномерно не- невырождено. | Отметим, что обратное ко второму утверждению леммы невер- неверно, как показывает У 11.3.1. Докажем теперь, что отображение «/, определенное формулой B), является консистентной аппроксимацией для F', если ограни- ограничиться Я, принадлежащими равномерно невырожденному множе- множеству. 11.3.3. Пусть отображение F: D cz Rn -> Rn непрерывно диффе- дифференцируемо на открытом множестве D и Q cz L (Rn) — такое равномерно невырожденное семейство, для которого нулевая матри- матрица является предельной точкой. Тогда для любого компактного подмножества Ьо множества D существует такое г > 0, что отобра- отображение У, задаваемое формулой B), корректно определено на Do X X Dft, где?>а = {Я g Q| || Я || < г}, и является консистентной аппроксимацией для F' на Do. При этом если №'(*)-*" {уЦ<у[х-у\9 Vxyy?D, (б) то У — строго консистентная аппроксимация.
11.3 Гл. 11. Многошаговые методы 359 Доказательство. Как и при доказательстве леммы 11.2.5, выберем такое б > 0, что DY = {х11|х — #||< б для некоторого у ? Do) cD. Ясно, что производная F' равномерно непрерывна на Dx и теорема 3.2.5 гарантирует, что для всякого данного е > 0 мы можем выбрать такое г ? @, б), что Г (A) = F(x + h) — F(x)-F'(x)h удовлетворяет неравенству ||Г (А) || < в| А||, каковы бы ни были х ? Do и||Л||<л Пусть теперь р — такая постоянная, что || Л || < ртахЦа'Ц, V А = (а\ ... , a") ? L (#«); i Р зависит только от выбора нормы, причем для /х-нормы р = 1 (см. У 2.2.2). Далее, пусть а — такая постоянная, что для всех Н Z Q выполнено E). Тогда для любых точек х ? Do и для матриц Н ? Q, таких, что |) Ы || < г, i = 1, ..., п> мы получаем 1|(Г (А1), ... , Г (A-)) [diag (ЦА1!, ... , ЦА^Г1 (^ , ..,, ~ Значит, J — консистентная аппроксимация для F' на Do. Если дополнительно выполнено F), то, как показывает теорема 3.2.12, II Г Ф) II < A/2) у | h ||2, так что G) принимает вид || J (х, Н) - F' (х) || < 4- apv max || Ы ||. I Заметим, что, как и в лемме 11.2.5, если F определено на всем Rnt то ограничение || Н || < г можно снять и можно брать Dh = Q. В силу теоремы 11.3.3 теорема о консистентной аппроксимации 11.2.3 применима к общему методу секущих A), B) при условии, что матрицы [Hk] оразуют равномерно невырожденное множество. п 11.3.4. Теорема об общем методе секущих. Пусть F: D cz Rn ->• R непрерывно дифференцируемо на открытом множестве D и сущест- существует точка х* ? D, для которой Fx* =0 и матрица F' (х*) невы- невырождена. Пусть, далее, а > 0 выбрано так, что К {о) непусто. Тогда имеется такая постоянная гг > 0, что для любой последовательности {Hk} а К (о) с \\Нк || < гъ k = 0, 1, ..., последовательность A), B) корректно определена и lim xk = я* в предположении, что II х° — х*\\ достаточно мало. При этом если lim Hk = 0, то Rx {xk} =» = о.
360 Часть IV. Локальная сходимость 11.3 Доказательство. Заметим прежде всего, что множество К (о) инвариантно относительно гомотетий с ненулевыми коэффи- коэффициентами, т. е. если Н ? К (а), то с Н ? К (а) при любом с Ф 0. Поэтому нулевая матрица является предельной точкой множества К (сг). Выберем теперь б > 0 так, чтобы S = «S (#*, 6) с: D. Теоре- Теорема 11.3.3 показывает, что найдется такое г > 0, что J корректно определено на S X Dft, где Dh = {Н ? К (о) | || Н || < г}, и явля- является консистентной аппроксимацией для F' на 5. Поэтому наш ре- результат непосредственно следует из теоремы 11.2.3. | ! Теорема 11.3.4 не специфицирует механизм выбора вспомога- вспомогательных точек хкл, ..., xk'f\ которые, согласно C), определяют Hh в общем методе секущих. Далее мы исследуем несколько конкрет- конкретных примеров. Рассмотрим прежде всего выбор вспомогательных точек **' = ** +(я?-1-*?)*', f = 1 л, *=1, 2, .... обсуждавшийся в § 7.2. В этом случае Hk = diag (я?-1 - xku ... , xtl - 4. ^ = 1, 2, .., , и мы можем задать множество Dh> на котором определено У, соотно- соотношением Dn= {Н ? L (Rn) | матрица Н невырождена и диагональна}. Из результата У 11.3.2 следует, 4ToDh cz К (о) для некоторого а > > 0, и, следовательно, применима теорема 11.3.4 в предположении, что || Hk || достаточно малы, х* Ф xkt~\ k = 1, 2, ..., i = 1, ..., n, и отображение F удовлетворяет условиям теоремы. Заметим, однако, что для этого выбора вспомогательных точек мы уже получили ре- результат в теореме 11.2.9 (с р = 0). Настоящий интерес теоремы 11.3.4 — в возможности применения ее к другим методам секущих. Рассмотрим теперь (п + 1)-точечный последовательный метод секущих G.2.24): xk+l = /_ J (Х\ Hk)-'Fx\ Hk = (я* - *\ ... f x*~" - Д (8) ft = 0, 1, .... и близкие к нему методы Стеффенсена G.2.33) и G.2.34) l = / _ J (/, Hk)-lFx\ Hk = (Fx\ .,. , Fk~n+lu (9) xk-J {x\ Hk) Fx\ Hk - (GX*- x\ ... , GV- x\ A0) Gx = x — Fx, ft = 0, 1, ... . Заметим, что итерация A0) — это стационарный одношаговый ме- метод для уравнения неподвижной точки х = Gxf a (9), конечно,— многошаговый метод.
11.3 Гл. П. Многошаговые методы 361 11.3.5. Теорема об {п + 1) -точечном методе секущих — Стеффен- сена. Пусть F удовлетворяет условиям теоремы 11.3.4. Тогда су- существую г постоянные а > 0 и г > 0, такие, что если последо- последовательность [хк] корректно определена формулой (8), \\х0 — я*|| достаточно мало и соответствующие Нк все лежат в множестве [Н?КЩ\Щ<г},то ton** =х*и R^x*} = QAxk] = 0. В точ- ности то же самое утверждение верно для каждой из итераций (9), A0). Если, кроме того, выполнено условие Липшица F), то для последовательности A0) Or [xk] >Oq {xk} >2, а для после- последовательностей (8) и (9) соответственно Or {xk) > т„ f = 1, 2, где хг — положительный корень уравнения /"+1 — tn — 1=0, а т2 — по- положительный корень уравнения Vх — tn~l — 1=0. Доказательство. Утверждения о сходимости следует немедленно из теоремы 11.3.4, в части ее, касающейся сверхлиней- сверхлинейной скорости сходимости, поскольку во всех трех случаях из lim xk = х* следует, что lim Hk = 0. Предположим теперь, что Fr удовлетворяет условию F). Тогда теорема 11.3.3 показывает, что J является строго консис- консистентной аппроксимацией для Fr на некотором шаре Sx = S (х*, бх) cz cz S. Поэтому в силу леммы 11.2.2 последовательности (8) — A0) удовлетворяют оценкам вида Ъх^-хЦ^аЛхЬ-хЦь + аАх'-^ЦНЛ Yk>k0. A1) Рассмотрим теперь матрицу Hk из (8). Согласно 2.2.6, существует такая постоянная р, что /-1 так что A1) принимает вид Следовательно, утверждение о порядке сходимости является пря- прямым следствием теоремы 9.2.9. Аналогично для метода (9) Hk удовлетворяет оценке H\\i Л —0* К.... A2) Так как производная F' непрерывна на Su имеется такая постоян- постоянная т), что [| F' {х) || < г] при всех х ? Sv Поэтому теорема о сред- среднем 3.2.3 гарантирует, что -yl Vx, y?Sv A3)
362 Часть IV. Локальная сходимость ' ' 'у 11.3 Поскольку Нтл^= л:*, мы можем предположить, что k0 в A1) выбрано настолько большим, что xk ? Sx при k>ko — n. Тогда, согласно A3), В совокупности с A1) и A2) это дает м-1 »2 /=о и наш результат снова вытекает из теоремы 9.2.9. Наконец, рассмотрим итерацию A0). Положим б2 = бх/A + + ч)п> где г] — постоянная из A3). Мы покажем, что Gx = х — Fx для любой точки х ? S2 = S (х*, б2) удовлетворяет условию IG:'jc-Jc[<[(l+T|)'~l]lx-^If /=1, ..., п. A4) Для i = 1 A4) немедленно следует из A3). Предположим, что A4) выполнено для i = 1, ..., р < я. Тогда в силу выбора б2 мы имеем Gp х ? Sx и, следовательно, в силу A3) откуда видно, что A4) выполнено для / = р + 1, а значит, для всех / = 1, ..., п. Таким образом, при любых xk ? S2 матрица Hk из A0) удовлетворяет соотношению и наше утверждение о скорости сходимости непосредственно следу- следует из A1) и теоремы 9.2.9. | Теорема 11.3.5 — слабый результат в том отношении, что в ней требуется, чтобы вся последовательность [xk] была корректно определена, чтобы соответствующая последовательность [Hk\ оста- оставалась все время в некотором К (о) и чтобы все \\Hk || были достаточно малы. В действительности утверждение о сходимости в этой теоре- теореме мало интересно, хотя утверждения о скорости сходимости пред- представляют интерес. Важно заметить, однако, что теорема 11.3.5 будет также спра- справедлива в случае, когда Hk остаются все время в каком-нибудь множестве D^, таком, что J является строго консистентной аппрок- аппроксимацией для F' на Dj X Dh. Хотя теорема 11.3.3 и утверждает, что J будет консистентной аппроксимацией для F', если Н разре- разрешено изменяться лишь в некотором множестве К (а), это только достаточное условие и никоим образом не необходимое условие на
Ц.З Гл. 11. Многошаговые методы 363 Я. В самом деле, рассмотрим множество jjih = [Н ? L (Rn) J Я = DP, матрица D диагональна и невырождена}, где Р есть матрица (е1, е1 + в2, ..., е1 + • • • + еп). Очевидно, матри- матрица Я невырождена, если Я? ?>а, но легко видеть (У 11.3.3), что inf {| det (А1/! Л11|, ... , Ай/Ц Ая I) | Я g Di} = О, откуда следует, что Dh не содержится ни в каком К (о). Однако лем- лемма 7.2.7 показывает, что. если J определено формулой B), причем предполагается, что Я принадлежит Dл, то J можно записать в виде J(Ху Н) = (dVl [F(х + dx e1) -Fx], ... , dnl [z7(x + | !'«<# а это в точности У, определяемое формулой A1.2.11) при dt ^ О, i = 1, ..., п. Поэтому, как вытекает из простой модификации лем- леммы 11.2.5, </ является консистентной аппроксимацией для F\ Приведенное замечание наводит на мысль, а нельзя ли доказать, что J будет консистентной аппроксимацией для F', даже если Dh разрешено быть всем множеством [Н ? L (Rn) \ существует Я-1}. Следующий результат показывает, что все-таки нельзя, за исключе- исключением тривиального случая, когда F — афинный оператор. 11.3.6. Пусть отображение F: DaRn-+Rn, я>2, дважды F-диф- ференцируемо в точке х б D, причем F" (х) Ф 0, и J определено формулой B). Тогда, каковы бы ни были постоянные у>0 и г\> >0, существует невырожденная матрица Я ? L (Rn), такая, что ||Я7 и lF'(x)-J(H)\ Доказательство. Мы докажем результат только для /i-нормы. Доказательство для случая общей нормы легко получается тогда из теоремы об эквивалентности норм 2.2.1. Итак, во всем доказательстве || • || будет обозначать /гнорму. Пусть <?* = (<W*W), A=l я, — матрицы Гессе для производной F" (х). По предположению не все Qt нулевые и мы можем допустить, что Qx Ф 0. Так как, согласно теореме 3.3.4, матрица Qx симметрична, существует и ? Rn, такое, что j^Qx и| =а,>0 и \\и\\= 1. A5) Пусть теперь с — постоянная из соотношения, связывающего меж- между собой матричные /г и /2- нормы, т. е. || А) < с) А ||2 при всех A?L(Rn). Выберем °<в<
364 Часть IV. Локальная сходимость 11.3 По теореме 3.3.12 для этого е можно выбрать такое б>0, что для любой матрицы Я = (А1, ..., А") ? L (Rn)c\\H\\ < б F'(x)H + -!rP + il, A6) где P = (F"(x)h1h\ ilt, F"(x)h»hn) = (p\ „., />«) и ||/?||<е||Я||2. Выберем, далее, матрицу Я так, чтобы вектор Л1 был пропор- пропорционален вектору и, для которого выполнено A5), и, кроме того, чтобы || А'|| = ||A1||<minF, у), i = 1, ... , /г, и векторы Л1, ..., hn были взаимно ортогональны. Ясно, что матрица Н невырождена и [#|| = IАХК б и по теореме 2.2.3 \\Н-1\\, = с\ A7) Фиксировав эту выбранную матрицу Н, введем в рассмотрение матрицы Ht = (Л\ 4 Л1 + th\ h\ ... , А») = Я + [4- А1 + (/ - 1) А2 для / ^ @, -у- . По формуле Шермана — Моррисона B.3.14) Г1 = Я 1 + (e*)TH~l JL Ai + (/ — 1) Л« откуда + ця-1 - е* (еГН-11| < -1-ЦЯ-11 + й. A8) Матрицу Р из A6) можно представить с помощью матриц Гес- Гессе Qt как Р = {(hfYQfi); следовательно, если Ht означает i-столбец матрицы Ht, то Р, = ((Al)^) = Р + [4" Р1 + (Р - 1) Р2 + ^] (е2)т, где q = ((A^Qi/i8, .... (hYQnh*)*. В силу выбора А1 из условия A5) и общего соотношения для норм 'Ц' вытекает, что Ш
11.3 Гл. 11. Многошаговые методы 365 Отсюда 1 + [- D0""У + (t - 1) р2 + q] (e*)TH~l \\ > а, A9) где || РЯ-1 + [(t -l)p* + q] (e*fH~l ||< а, V /6 10, 1/2]. Далее, ясно, что ||Я?|| = || Я ||< б при всех t ? @, V21, и A6), примененное к Я/, дает с учетом оценок A8) и A9) (*, Я,) - Г МI _ | -i- Р,«Г' + ЪНГ11 > . B0) Но в силу A7) и выбора е поэтому правая часть B0) стремится к оо при / -> 0. Отсюда следует, что найдется такое t ;> 0, что Хотя теорема 11.3.4 и показывает, что нельзя ожидать, чтобы оператор «/, задаваемый формулой B), был консистентной аппрок- аппроксимацией, если не накладывать на Я никаких ограничений, все же вопрос о том, действительно ли в этом случае (п + 1)-точечный ме- метод секущих (8) терпит неудачу, остается открытым. Мы закончим этот параграф следующим примером. Определим отоб- отображение F: R2 -> R2 соотношениями f1(x) = x11 f2(x) =&——хъ и пусть х~2 = @, - а)т, х = (- а, 2а2)т, х° = (а, 2а2)т, 0 < а < 1. Тогда /2а а \ = "" \0 а + 2а2/ ' и начальные точки х0, х 1 и х 2 «размещены хорошо» в том смыс- смысле, что Яо ? К (о) при некотором а, когда a -> 0, Первая итерация л:1, согласно A), равна i-(a \-Bа а )Bа а Yl(a\-I° \ Х ~~ \2a2/ \0 a + 2a2/ \0 — a/2 / \0 Г \2a2 /% Следовательно, х1 значительно ближе к х* = 0, чем любая из на- начальных точек, но теперь лг, х° и х1 коллинеарны и матрица Нх вырождена.
366 Часть IV. Локальная сводимость tl.S ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 11.3.1. Результаты этого раздела по существу новые, но часть их близко связана с результатами, имеющимися в литературе. Утверждение о сходимости в теореме 11.3.5 для точечного последовательного метода секущих (8) было впер- впервые доказано Биттнером [1959], а утверждение о скорости сходимости—Торн- хеймом [1964] (при несколько отличных условиях). Утверждения этой теоремы относительно методов Стеффенсена (9) и A0) являются новыми, но процесс A0) изучался также Кравчиком [1966]. Теорема 11.3.6 была инициирована одним ре- результатом Торнхейма [1964], утверждающим, что если F дважды непрерывно диф- дифференцируемо в некоторой окрестности решения **, то в любой меньшей его окрест- окрестности существуют различные точки х°, ..., xnt такие, что Fx°, ..., Fxn не находятся в общем положении. Это в свою очередь подсказывается тем геометрическим фак- фактом, что секущая плоскость не обязательно стремится к касательной плоскости. ЗС 11.3.2. Заметим, что если в примере, приведенном после теоремы 11.3.6, отбросить точку дГ" или х° вместо лГ~2, то итерации можно было бы продолжать. Другими словами, хотя *~*, х°> х1 и коллинеарны, точки любого из множеств {*~~2, х°у х1} или {х~2у л;", х1} находятся в общем положении. Это наводит на мысль использовать следующую процедуру, по существу принадлежащую Бит- тнеру [1959]. Получив новую аппроксимацию xk^~\ мы определяем матрицы и выбираем такой индес /°, для которого величина |det(/ii/l|/iML ...» hnl\\hn\\)\ максимальна. Если ok^_{ обозначает эту максимальную величину и то полагаем **+2 = **+!-/ (Х*+\ Hky если же ok+{ < о^, то полагаем **+2 = л>-Н-У(**, Hk% т. е. снова используем У, вычисленное на предыдущем шаге. В предельном случае J остается фиксированным в течение всего процесса и итерация вырождается в метод фиксированных хорд. Заметим, что вычисление на каждом шаге п опреде- определителей с вычислительной точки зрения мало привлекательно. ЗС 11.3.3. С помощью наших результатов о скорости сходимости можно попытать- попытаться сравнить относительную эффективность различных методов секущих или Стеф- Стеффенсена. Как говорилось в § 7.2, метод A1.2.18, 20) требует п + 1 или п вычисле- вычислений F при соответственно р = 0 или 1. Поскольку теорема 11.2.9 показывает, что порядки сходимости в этих двух случаях одинаковы, отсюда следует, что р == 1 предпочтительнее. Для соответствующих методов Стеффенсена A1.2.17) требуется в обоих случаях одно и то же число вычислений и теорема 11.2.9 уже не может служить основанием для какого-либо предпочтения. Сравнить двухточечные методы секущих с (п + 1)-точечным методом (8) по- посложнее. Двухточечный метод гарантирует локальную сходимость порядка 1,61... при Р = 1 и требует п вычислений F. Оценка снизу порядка сходимости метода (8), даваемая теоремой 11.3.5, быстро убывает вместе с п (например, для я= 100 наибольший корень уравнения tn+l —- *п —• 1 = 0 равен 1,03...), и нет гарантиро- гарантированной локальной сходимости. Однако требуется лишь одно вычисление F на шаг, что привлекательно. Те же трудности возникают и при сравнении методов Стеффенсена A1.2.17, 20) и (9). Однако результат сравнения A1.2.17, 20) с A0) ясен, так как оба^они требуют
lt.3 Гл. 11. Многошаговые методы 367 п+ 1 вычислений F на шаг, но A1.2.17, 20) дает гарантированную локальную сходимость, а A0) нет. Поэтому было бы не очень разумным предпочесть A0). ЗС 11.3,4. Войгт [1969] рассмотрел итерацию ложного положения A), B), в ко- которой Нк=*(х-{-хк> ... , *~П-Л Л = 0, 1 B1) т. е. п вспомогательных точек C) сохраняются постоянными (см. ЗС 7.2.11), Он показал, что если п + 1 точек л:", ..., х**п> х* находятся в общем положении, и точки х~*9 /= 0, ..., я, достаточно близки к x*t то при Z7, удовлетворяющем условиям теоремы 11.3,4, х* является точкой притяжения итерации A), B), B1) УПРАЖНЕНИЯ У 11.3.1. Пусть матрица Н =* (Л1, h2) ? L (Я8) невырождена и || Н \\г = \\ hl ||t. Рас- Рассмотрим семейство матриц 0, 1)}. Показать, что оно равномерно невырождено, но || Ht \\ \\ Hfx \\ -> со при / -> 0- У 11.3.2. Пусть К (о) определено формулой D). Используя неравенство Адамара |det#|<ri ||A'|tf показать, что для всякой данной нормы имеется такое ао, что К (о) пусто при всех а > ао. Показать, далее, что для всякой данной нормы имеется такое ао, что К (а) при всех а ^ ао непусто и содержит по крайней мере все матрицы вида PDt где матрица Р ортогональна, a D диагональна и невырождена. У 11.3.3. Показать, что taf m1 и \\h^+... +hnen\\ У 11.3.4. Пусть F удовлетворяет условиям теоремы 11.3.4 и Pk — некоторая последовательность ортогональных матриц. Определим Hk = || х^ — xk~~l \\ Р^, ^=0, 1, ... . Показать, что если *° и х1 выбраны достаточно близкими к **, то последовательность A), B) сходится к х* и Qt {xk) = 0. Кроме того, если F) выполнено для всех х, у из некоторой окрестности точки x*t то Q^ [xk] > A + + уЪ)/2 (Робинсон [1966]). У 11.3.5. Доказать теорему 11.3.6 для случая произвольной нормы. У 11.3.6. Пусть матрица А = (а1, ..., ап) ? L (Rn) невырождена. Положим a = |det Л/П lla'i. f-i Показать, что для любой невырожденной диагональной матрицы D ? L (Rn) имеет место включение AD ? К (о), где К (р) определено формулой D) (Войгт [1969]),
Часть V ПОЛУЛОКАЛЬНАЯ И ГЛОБАЛЬНАЯ СХОДИМОСТИ В предыдущей части для различных итерационных процессов были получены результаты о сходимости и ее скорости в предполо- предположении, что решение х* системы Fx = О существует, а начальное приближение xQ достаточно близко к #*. Эти результаты позволяют нам характеризовать и сравнивать между собой различные итераци- итерационные процессы с точки зрения асимптотических свойств сходимо- сходимости, что очень полезно для теоретических целей. Тем не менее они не дают ответов на три весьма важных вопроса: 1) Вытекает ли существование решений непосредственно из фак- факта сходимости итерационного процесса? 2) Можно ли при заданном начальном приближении х° дать критерий, гарантирующий сходимость итерационного процесса с этим именно начальным приближением? 3) Как получить оценку вектора ошибки** — **, если итерацион- итерационный процесс обрывается на k-u шаге? Последний вопрос тесно связан с важной задачей о числе итера- итераций, необходимых для получения заданной точности. Действитель- Действительно, если получена оценка для вектора ошибки, то ее можно исполь- использовать, по крайней мере в принципе, для построения критерия оста- остановки итераций. В гл. 12 мы начнем исследовать эти вопросы с помощью теоремы о сжимающих отображениях, для чего более подробно обсудим теорему 5.1.3 о сжатиях и ее многочисленные варианты. Получен- Полученные результаты будут применены для более обстоятельного анализа метода Ньютона, а также связанных с ним методов. В то время как гл. 12 основана на использовании некоторых норм в Rnf в гл. 13 пространство Rn рассматривается как частично упорядоченное ли- линейное пространство; в этой главе излагаются результаты о моно- монотонной сходимости итераций. Наконец, в гл. 14 мы будем говорить о сходимости методов минимизации функционалов в Rn.
Глава 12 СЖАТИЯ И НЕЛИНЕЙНЫЕ МАЖОРАНТЫ 12.1. НЕКОТОРЫЕ ОБОБЩЕНИЯ ТЕОРЕМЫ О СЖИМАЮЩЕМ ОТОБРАЖЕНИИ В гл. 5 была доказана теорема 5.1.3 о сжимающем отображении, которая затем последовательно использовалась для получения дру- других теорем существования. В то время как остальные теоремы су- существования гл. 5 носят в общем неконструктивный характер, тео- теорема о сжимающем отображении конструктивна по самой своей природе. В самом деле, доказательство теоремы 5.1.3 показывает, что последовательность **+i =о**, ft = 0, 1, ..., A) сходится к неподвижной точке отображения G. В этой главе мы ис- исследуем несколько разновидностей теоремы о сжимающем отобра- отображении, уделяя особое внимание вопросам сходимости итерации A). Мы начнем с одного обобщения теоремы 5.1.3, закладывающего основу для дальнейших обобщений и дающего новый подход к ней. Напомним, что через Gp обозначается р-я степень оператора G, определяемая соотношениями G0 = / и Gxp =* G (Gp-lx), p > 1. 12.1.1. Пусть G: DczRn-*Rn отображает некоторое замкнутое множество DoczD в себя, и пусть при некотором целом р > 1 ajx-0||f Vx,y?D0t A-1,2, ..., B) оо гДе Р =¦ 2 ak < + °°- Тогда отображение G имеет единственную k=\ неподвижную точку х* ? Do, причем для любого х° ? Do последо- последовательность A) сходится к ;с*. Более того, справедлива следующая оценка ошибки: |x*-*4<P|*-x*-p|f ft-lf2 C) Доказательство. Пусть г*? Do — произвольная неподвиж- неподвижная точка отображения G? при некотором q > 1. Тогда G?^* = = G? (G?2*) = G<*z* = г* и по индукции Gk<^z* = г* для всех k > 1. Таким образом, если **, у* ? Do — две любые неподвижные точки отобра- отображения Gpy то ||x*~f/*|| = ||G^^-G^*ll<^||^-/||, ?=1,2, ... , Dа) || х* — Gx* || = || G*px* — GkP (G**) || < a* || x* — G** ||. D6) Так как limafe = 0, из Dа) следует, что х* = j/*, а из D6), что fe-юо х* = Ga:*. Отсюда вытекает, что неподвижные точки отображений
370 Часть V. Полулокальная и глобальная сходимости 12.1 Qp и G совпадают между собой и что существует не более одной такой точки. Заметим теперь, что в силу включения GD0 d Do последователь- последовательность {**}, задаваемая формулой A), корректно определена и при- принадлежит множеству Do, если только х° ? ?>0, Для фиксированного 0 < i < р —- 1 рассмотрим подпоследовательность yk = y(>k = '+* k = 0, 1, .... Имеем yk+l = Gpyky k >0 и, следовательно, || yk+i _ yk+HX || = I Qjpyk _ Qlpyk-\ I < a . | yk _ yk-X I " V, > откуда _ yk || < | Ц yk+i _ ||i/1-^l, Vfe,m>l. E) Поэтому, ввиду того, что lim ak = 0, последовательность {у1*} яв- ляется последовательностью Коши, а так как множество Do замк- замкнуто, она имеет своим пределом у1 б Z)o. Из соотношения I у1 - ор7 и < g - yl'k+l и+* y вытекает, что у1 = Gp^, 't =^_0i 1» ... p— 1, ив силу первой час- части доказательства #° = • • • = у^" = х* и х* = Ga:*. Ясно, что равен- равенство limy1* = **, i = 0, ..., р— 1, эквивалентно равенству limx* = = лг11 Наконец, оценка ошибки C) получается из E) при m-^oo. | Если при некотором р > 1 отображение Gp удовлетворяет усло- условию a\\x-yi x,y?D0> a<l, F) то, очевидно, имеет место B) с ak == ak и р = а/A — а). Заметим, что если в дополнение к F) отображение G непрерывно по Липшицу: то условия теоремы 12.1.1 выполнены при р = 1 (см. У 12.1.1). С другой стороны, вполне возможно, что B) или даже F) выполняют- выполняются, несмотря на то что отображение G не является даже непрерывным на Do (см. У 12.1.2). Частный случай р = 1 в F) возвращает нас к условию сжимаю- щести 5.1.2, и в качестве немедленного следствия теоремы 12.1.1 мы получаем теорему о сжимающем отображении 5.1.3, но на этот раз вместе с оценкой ошибки. 12.1.2. Теорема о сжимающем отображении. Предположим, что (?: D d Rn -> Rn отображает замкнутое ограниченное множество
Гл. 12. Сжатия и нелинейные мажорант D0CZ D в себя и что при некотором а < 1 |jGx-Cr/!|<a||x-t/||, V*. y?D0. (!) Тогда при любом х° ? Do последовательность A) сходится к единст- единственной неподвижной точке х* отображения G в Do и ^-^Кгггг^-**!. * = 1. 2 (8) Заметим, что неравенство (8) дает нам реально вычислимую оцен- оценку ошибки: при известной постоянной сжатия а истинная ошибка xk — л:* после &-го шага итерации оценивается сверху через норму последнего шага хк — хк-{. Эта возможность отсутствует в теоремах о точках притяжения части IV. Заметим также, что в теореме 12.1.2 требуется не только, чтобы отображение G было сжимающим на Do, но также чтобы оно отображало множество Do в себя. (Отметим, что справедлива тривиальная модификация теоремы 12.1.2, состоящая в том, что это последнее требование заменяется более слабым требо- требованием, чтобы при некотором х0 вся последовательность A) лежала в Do.) Один критерий для выбора подходящего множества Ьо в тер- терминах начальных точек х° дается приводимой в следующем пара- параграфе леммой 12.2.3 (см. также лемму 12.4.4). Однако в том важном частном случае, когда Do = D = Rny т. е. когда отображение G является сжатием на всем Rn теорема 12.1.2 превращается в гло- глобальную теорему сходимости: при любом х° ? Rn последовательность A) сходится к единственной неподвижной точке отображения G в Rn. В качестве примера того, как можно удовлетворить этому условию, мы приведем следующий простой результат. 12.1.3. Пусть матрица А ? L (Rn) симметрична и положительно определена, а отображение 0: Rn -> Rn непрерывно дифференци- дифференцируемо, причем матрица ф' (х) симметрична и положительно полу- полуопределена для всех х ? Rn и существует постоянная Р < оо, такая, что !0'(*I2<Р, УхбЛ11. (9) Тогда уравнение Ах + фх имеет единственное решение х* и при любом х° ? Rn последовательность {xk}9 определяемая итерацион- итерационным процессом Пикара (А + yl) xk+l = у**- фх\ k = 0, 1, ..., у - Р/2, сходится к л:*. Доказательство. Определим отображение G: Rn -> -> Rn равенством Gx = (A + yl)~l [ух - фх]9 V* 6 ЯГ. Очевидно, что отображение G корректно определено и что оно имеет неподвижную точку х* тогда и только тогда, когда Ах* + фх* = 0. Кроме того, ясно, что отображение G непрерывно дифференцируемо
372 Часть V. Полу локальная и глобальная сходимости 12.1 на Rnt а учитывая, что у = р/2, получаем IIG' (х) ||2 = || (А + y/Г1 [yl - ф9. (х)] ||2 < 7/G + *)< 1, V* 6 #\ где Л > О— минимальное собственное значение матрицы Л. В силу теоремы о среднем 3.2.5 отображение G является сжатием на Rn, и наше утверждение следует из теоремы 12.1.2. | Отметим, что утверждение о существовании и единственности в теореме 12.1.3 не представляет для нас особого интереса, так как оно уже было доказано выше (теорема 4.4.1) без дополнительного условия (9). Заметим также, что теорема 12.1.3 непосредственно применима к разностным аналогам A.1.7) и A.2.5) дифференциаль- дифференциальных уравнений и" = / (и) и Аи = f(u) при условии, что 0 < fl (и) < < р для и ? R1 (см. У 12.1.5). Теорема 12.1.3 иллюстрирует общий факт, состоящий в том, что обычно бывает трудно получить глобальное сжатие, пока не наложе- наложены достаточно жесткие условия, такие, как, например, (9). Многие из дальнейших* результатов настоящей главы представляют собой попытку обойти условие сживдающести, но так, чтобы сохранить схо- сходимость итераций. Фактически уже теорема 12.1.1 дает нам пример такого рода. Рассмотрим теперь две другие возможности, позволяю- позволяющие ослабить условие сжимающести, которые, несмотря на почти самоочевидность, являются иногда полезными. 12.1.4. Пусть отображение G: Rn -> Rn обладает тем свойством, что для любого компактного множества С с Rn существует постоянная ас < 1, такая, что IQx — Gyl <ас||х — yl Vx, у?С. A0) Если отображение G имеет (обязательно единственную) неподвиж- неподвижную точку #*, то для любого х° ? Rn итерации A) сходятся к **. Доказательство. При заданном х° возьмем С = S (#*, ||х*—х° (I). Неравенство A0) показывает, что G отображает С в себя, поэтому применима теорема 12.1.2. | Заметим, что условия теоремы 12.1.4 недостаточно для того, чтобы обеспечить существование неподвижной точки (см. У 12.1.7). Следующее наше наблюдение относится к отображениям G, которые «подобны» сжатиям в смысле, аналогичном тому, в каком это слово употребляется в теории матриц. 12.1.5. Пусть дано отображение G: Rn -> Rn. Предположим, что существует гомеоморфизм Т: Rn -> Rn, такой, что отображение T~lGT является сжатием на всем Rn. Тогда отображение G имеет единственную неподвижную точ^у jc* и для любого х° ? Rn итера- итерации A) сходятся к х*. Это немедленно вытекает из теоремы 12.1.2 и следующего обще- общего принципа.
12.1 Гл. 12. Сжатия и нелинейные мажоранты 373 12.1.6. Пусть даны отображение G: DczRn-+Rn и гомеоморфизм Т: D-+D множества D на себя. Отображение О имеет то же самое число неподвижных точек в D, что и T~lGT. Для любого х° ? D итерации A) все принадлежат D и сходятся тогда и только тогда, когда последовательность yk+l = T~lGTyk, k = О, 1, .,. , у0 = T-lx°, вся лежит в множестве D и сходится. Доказательство. Очевидно, что если х* ? D — неподвижная точка отображения G, то у* = Т~1х* — неподвижная точка отобра- отображения T-lGT, и обратно. Далее, поскольку последовательности {yk} и {xk) связаны соотношением xk = Tyk, k = О, 1, ..., то они сходят- сходятся или расходятся одновременно. | В качестве примера применения этих результатов рассмотрим нелинейный метод Писмэна — Рэкфорда G.4.35): Hxk+ <i/2> = \xxk — Vxky k = 0, 1, ,,, A1) Напомним (см. определение 5.4.2), что отображение F: Rn -> Rn равномерно монтонно на Rn, если существует такое у > 0, что (х - уу (Fx -Fy)>y\\x-y f, Vx, y?Rn, A2) и монотонно, если условие A2) выполняется при 7 = 0. 12.1.7. Глобальная теорема Писмэна — Рэкфорда. Пусть отображе- отображения Н, V: Rn -> R" монотонны, причем по крайней мере одно из них равномерно монотонно. Пусть, далее, на каждом компактном множестве в Rn оба отображения непрерывны по Липшицу. Тогда; уравнение Нх + Vx = 0 имеет единственное решение %* и для лю- любых х° g /?", \i > 0, последовательность [xk] корректно определен на формулами A1) и сходится к х*. Доказательство. Отображения Н + У, Н + М<Л и I/ + (Li/ непрерывны и равномерно монотонны на Rn и потому в силу теоремы 6.4.4 являются гомеоморфизмами пространства Rn на себя, В частности, уравнение Нх + Vx = 0 имеет единственное решение х* и итерационный процесс A1) корректно определен и имеет вид A) при Hrl(VLl-V)x, x?R\ A3) Из равенства Ях* + Vx? = 0 следует, что (fx/ + Я)" (|х/ — V) х* = = **, а также (^/ + К)-1 (\л1 — Н) х* = л:*, поэтому точка лг^ яв- является неподвижной точкой отображения G. Предположим для определенности, что отображение Я равномер- равномерно монотонно на Rn с постоянной у > 0, и пусть GaRn — произ- вольное компактное множество. Тогда множество С = (Н + ja/)"* (Q также компактно, и мы обозначим через ц постоянную Липшица
374 Часть V. Полу локальная и глобальная сходимости 12.1 отображения Я на С. Для произвольных *, у ? С, хфу, положим и = (ill -f- Я)"*, у = (fx/ + Я)~* у. Тогда в /2- норме отображе- отображение Gj = (\il — Я) (fx/ + Я) удовлетворяет соотношению _ [I || и — о Ц2 — 2ц (ц — у)т (Яа — Ну) + \\ Ни — Ни Ца ^ ц2|| и _у||2 + 2|Л (ц — у)т (Ни — Ну) +1| Ни — < где неравенство, предшествующее последнему, вытекает из изотон- ности функций вида (а + t)/(b +1) при b — а > 0. Полученное не- неравенство показывает, что отображение Gj является сжатием на С. Если рассмотреть отображение V, которое лишь монотонно, то это же самое доказательство показывает, что отображение G2 = (\il — — V) (\il + V)~x удовлетворяет условию || G2x — G2y || < || х — у \\ для всех ху у б /?п. Следовательно, композиция G^ является сжатием на любом компактном множестве, и то же самое верно при условии, что равномерно монотонно отображение К, а Я лишь монотонно. Поскольку G = (fx/ + V)~l G\G<l {\л1 + V) и G имеет неподвижную точку х*, то по теореме 12.1.6 отображение Gfi^ имеет неподвиж- неподвижную точку у* = (fx/ -f F)x*, и в силу теоремы 12.1.4 последова- последовательность ?/*+* = Gfiiyb, у0 = (\il + V)x°, k = 0, 1, ..., сходится к у*. Но тогда по теореме 12.1.6 последовательность {xk} сходится к г*. | Отметим, что теорема 12.1.7 непосредственно применима к урав- уравнениям вида Ах + фх = 0; см. У 12.1.8. До сих пор мы интересовались только одношаговой итерацией A). Закончим этот параграф теоремой типа теоремы о сжатии для двухшагового процесса вида дМ-i^G(**,**-*). * =1.2, .... A4) 12.1.8. Предположим, что отображение G: D X D с Rn X Rn -> -> /?л удовлетворяет на некотором замкнутом множестве Docz D условию z|, Vjc, у, г g Do, A5) где а + р < 1, и пусть существуют такие точки х°, д^ б Do, что итерации [xk], определяемые равенством A4), все лежат в ?>. Тогда lim xk = **, где х* — единственная неподвижная точка оператора G: ft-* 00 DaRn-+Rn, Gx = G (*, х). При этом существуют такие постоянные
12,1 Гл. 12. Сжатия и нелинейные мажоранты 375 Yi» V2>°> что I xk- **|< у/ + y/2i k = О, 1, ... , A6) где tt и t2 — корни уравнения t2 -*¦ at — р = 0. Доказательство. По предположению последователь- последовательности sk = | xk+l — xk ||, k = 0, 1, ..., корректно определена, и из A4) и A5) следует, что sk+l < ask + ps*_i, k = 1, 2, ...» Линейное разностное уравнение crfe+i = aak + P^«i имеет общее ре- решение ak = y/\ + y2^2, как это легко проверить непосредственно, и простые вычисления показывают, что —1</2<0</1<1. A7) Определим постоянные Vi, V2так» чтобы <*0 = У\ + 72 = SOi O± = Vi^i + Y2^2 = Sv Поскольку определитель этой системы t2 — t± ф 0, постоянные Yi, 72 определены однозначно. Докажем теперь индукцией по k, что при этих постоянных sk < ak9 к = 0, 1, .... Действительно, если это верно вплоть до некоторого k > 1, то Из A7) и соотношения <-пггг''+-г=1Г2' k>°' Р>°> <I8> следует, что последовательность {xk} является последовательностью Коши и потому существует lim xk = л:* ^ Do. Далее, , г*) - G (jc*. х*)| +1G (х*, **) -G (д*. л*-1)И *»| + a|| jc* - xk\ + Цх" - **-»|, и поскольку правая часть сходится к нулю, то Gx* = x*. Единст- Единственность неподвижной точки вытекает из неравенств 1 *• - У* || < IG (х*, х*) - G (х*, у*) || +1G (х*, у*) - G (у*, у*) | < <Цх*-у*\\ + а\\х*-у*\<\\х*~у*\\. A9) Наконец, оценка ошибки A6) получается из A8) при р -*¦ оо. |
376 Часть V. Полу локальная и глобальная сходимости 12.1 Заметим, что оценка, аналогичная A9), показывает, что оператор G является сжатием на DQ. Единственность х* можно было бы вывести и из этого факта. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.1.1. Все теоремы этого параграфа, за исключением теорем 12.1.3 и 12.1.7, остаются в силе для операторов, отображающих полное метрическое пространство в себя, причем все доказательства повторяются дословно. ЗС 12.1.2. Использование условия сжимающести для доказательства сходимости последовательных приближений восходит к прошлому столетию. Основываясь, вероятно, на идеях Коши и Лиувилля, Пикар применил его в своем классическом и хорошо известном доказательстве теоремы существования и единственности решения задачи Коши для обыкновенного дифференциального уравнения. Обсуж- Обсуждение и исторический очерк принципа сжимающих отображений в связи с этой задачей, а также в связи с интегральными уравнениями см. у Вука [1964]. Как уже упоминалось в ЗС 5.1.1, первая абстрактная формулировка принципа сжимающих отображений принадлежит, по-видимому, Банаху [1922]. С тех пор были получены многочисленные обобщения основной теоремы. Частный случай р = 1 теоремы 12.1.1 был рассмотрен Вайсингером [1952]. (Заметим, что этот результат Вук [1964] приписывает Каччополи [1931], но указанная статья Каччополи как будто бы не содержит подобной теоремы.) Колмогоров и Фомин [1954] дали несколько иное обобщение, в котором отображение Gp удовлетворяет условию F) при неко- некотором р > 1; при использовании подходящих банаховых пространств этот резуль- результат особенно полезен для интегральных уравнений типа Вольтерры. Диас [1964] тщательно проанализировал теорему Колмогорова — Фомина и указал различные возможные ее модификации. Комбинированный вариант 12.1.1 теорем Вайсингера и Колмогорова — Фомина представляется новым. Различные другие обобщения будут еще даны в последующих параграфах этой главы и в первом параграфе гл. 13, а также в замечаниях и ссылках на лите- литературу в конце этих параграфов. ЗС 12.1.3. Приложения принципа сжимающих отображений настолько многочислен- многочисленны, что было бы невозможным дать здесь хоть сколько-нибудь полный их обзор. Ряд примеров см., например, у Березина и Жидкова [1959], Коллатца [1964], Канторовича и Акилова [1959] и Келлера [1968]. ЗС 12.1.4. Идея использования итерационного процесса из теоремы 12.1.3 с под- подходящим у встречается в литературе в различных формах; ее использовал, напри- например, Дуглас [1961] при исследовании методов переменных направлений. ЗС 12.1.5. Теоремы 12.1.5 и 12.1.6 принадлежат по существу Чу и Диасу [1964, 1965], применявшим видоизменения норм для изучения интегральных уравнений типа Вольтерры и некоторых функциональных уравнений. ЗС 12.1.6. Теорема 12.1.7 принадлежит Келлогу [1969], а теорема 12.1.4 содер- содержится в доказательстве Келлога. Теоремы сходимости типа теоремы о сжатии для различных других методов переменных направлений, осбуждавшихся в § 7.4, были даны Каспаром [1969]. ЗС 12.1.7. Теорему 12.1.8 установил Вайничке [1964], который получил анало- аналогичные результаты и для m-шаговых методов. Вайничке показал также, что во многих случаях комбинированная итерация k Л =1,2, .,., О < Л>
12 Л Гл. 12. Сжатия и нелинейные мажоранты 377 дает значительное улучшение сходимости по сравнению с одношаговым процессом д^"* = Gxk и двухшаговым процессом xk^ = G(xk, xk~~x). Легко видеть, что если G(x, у) удовлетворяет условию A5), то для — X) G (Jtf выполняется неравенство где теперь а = |ха + |гЯр + A — I*), Р = |*A-Я,)Р. Очевидно, что \х и Я, опять можно выбрать так, чтобы а + Р < 1, и мы получим наилучшую сходимость в случае, когда соответствующие корни tx и t2 минимальны. УПРАЖНЕНИЯ У 12.1.1. Пусть G: D a Rn -* Rh отображает замкнутое множество Do С D в себя, непрерывно по Липшицу на Do и удовлетворяет при некоторых фиксирован- фиксированных q > 1 и а < 1 условию a[*-H Vx, y?D0. Показать, что тогда условия теоремы 12.1.1 выполняются при р = 1. У 12.1.2. Показать,что разрывная функция g: [0, 2] с R1 -» [0, 2], определяе- определяемая равенствами g (*) = 0 при х ? [0, 1] и g(x) = 1 при х ? A, 2], удовлетворяет условиям теоремы 12.1.1. У 12.1.3. Пусть G : Rn -» Rn — аффинный оператор Gx = Нх + Ь, где И ? L (Rn) и b? Rn. Показать, что следующие утверждения эквивалентны: а) оператор G сжимающ относительно некоторой нормы; б) при некотором целом m > 1 оператор Gm сжимающ относительно некоторой нормы; в) р(Н)<1. У 12.1.4. Пусть отображение К'. [О, 1] X [0, 1] X R1 -> R1 удовлетворяет усло- условию |/C(s, U u)-K(st U v)\<t\\u — v\% Vs, t?[0, 1], и, v?R\ п где к] < 1, и пусть Yi, ••• , уп —положительные постоянные, такие, что^ Y/ ^ !• ;=1 . Показать, что разностный аналог интегрального уравнения где flf ... , ^f [0, 1] и -ф: [0, 1] -> ^1 — заданная функция, имеет единственное решение х* и что итерационный процесс п ^+1 = г|)(/;) + 2 yjK{tu th jcf), ? = 1 п, k=0, 1, ... , /=1 сходится к х* при любом *°. Применить полученный результат к дискретному ана- аналогу уравнения Гаммерштейна A.3.10—11), возникающему из двухточечной крае- краевой задачи A.3.9), в предположении, что |/(*. «*)-/(/, u)|<T|ol"-»l. Vutv?R\ t?[09 i], где -По < 8, tj == jh, yj = ht / = 1, .. . , n и h = {n + I).
378 Часть V. Полу локальная и глобальная сходимости 12.2 Указание. Согласно У 1.3.2, ?= — ЛА", где А и В —матрицы A,1*8) к п A.3.10) соответственно. Поэтому вектор г ? Rn с компонентами ц = 2 fy/ являет- ся решением уравнения Аг = —Ле, е = A, ... , 1)т. У 12.1.5. Рассмотрим двухточечную краевую задачу A.1.2) и соответствующую разностную задачу Ах + фх = 0, где А ? L (Rn) и отображение ф: #Л -» /?" определено соотношениями A.1.8) и A.1.9). Предположим, что частная производ- производная dj (s, и) существует, непрерывна по и при любом фиксированном s ? [0, 1] и удовлетворяет условию 0<a2/(s, ы)<р, Vs?[0, 1], u?RK Показать, что итерационный процесс {А + у!) **+1 = ух* ~ фЛ ^ = 0, 1, . . ., у = Л2Э/2 сходится к единственному решению уравнения Ах + фх = 0 при любом *°. Сфор- Сформулировать и доказать соответствующий результат для разностного аналога A.2.5) краевой задачи A.2.1). У 12.1.6. Рассмотрим двухточечную краевую задачу *¦ = /(', у, у'), о<*<1, а0У @) + «10' @) = «. РоУ 0) + Р^ @ = Р, где функция / непрерывна на S= {(t; и, v)?R*\t? [0, 1], «, vf/?1} и удов- удовлетворяет условию \f{t,Utv)-f{t9W,Z)\<kl\u-w\+k%\v-2\ (для всех /f [0, 1]). Для разностной задачи ^_! = h2f (ih, xit B/ip1 (*/+1 — ^_i)), « = 1, . . . , я, — д:0) = а, рЛ+1 + pt A/Л) (д:п+1 — xn) = P, где Л = 1/(/г + 1), дать условия, обеспечивающие возможность применения прин- принципа сжатых отображений (Березин и Жидков [1959]). У 12.1.7. Показать, что функция G: R1 -> /J1, определенная равенством Gx = = In A + 6х), сжимающа на компактных множествах, но не имеет неподвижной точки. У 12.1.8. Пусть отображение ф: Rn -> R" непрерывно дифференцируемо на Rn и мат- матрица ф' (х) положительно полуопределена для всех x?Rn. Положим А = Ах + + Л2, где Аи A2?L (Rn) — положительно определенные матрицы. Зададим для некоторого р ? [0, 1] отображения Я, V: Rn -> Rn формулами Их = Ахх + рфл;, Каг= Л2л: + A — р) ф*, л;?/?п. Показать, что для любого \х > 0 и любого *° f Rn итерационный процесс A1) сходится к единственному решению уравнения 12.2. АППРОКСИМАТИВНЫЕ СЖАТИЯ И ПОСЛЕДОВАТЕЛЬНОСТИ СЖАТИЙ В предыдущем параграфе мы рассматривали итерационный про- процесс 6 = 0,1, A)
12.2 Гл. 12. Сжатия и нелинейные мажоранты 379 при различных допущениях относительно отображения О. В силу ошибок округления и дискретизации при вычислении значений отоб- отображения G точная последовательность {xk} заменяется, вообще го- говоря, некоторой аппроксимирующей ее последовательностью {yk}. В связи с этим возникает вопрос: что можно сказать о поведе- поведении последовательности {ук}, если известно, что точная последо- последовательность {xk} сходится? С этим вопросом тесно связана задача изучения нестационарного процесса вида yk+'=Gky\ ft = Of 1. .... B) где все отображения Gk являются сжатиями. В приводимой ниже теореме содержится основной результат о связи аппроксимирующей последовательности {yk} с точной после- последовательностью A). 12.2.1. Пусть отображение G: DczRn-+Rn сжимающе на множестве D1czD (с постоянной сжатия а) и DoczD — замкнутое множество, для которого GD0 с: Do. (В этом случае в силу теоремы 12.1.2 последовательность A), начинающаяся с любого л;0 ? Do, сходится к единственной неподвижной точке х* отображения G в Do.) Пусть iyk) сД — произвольная последовательность. Положим eb = \\Gyk — *+Ч * = 0,1,.... Тогда ^-^| + вЫ, * = 0, 1, ..., C) _ x* || + 2 а*-/в/ + a*+i flxo -yO^ k = 0, 1, ... D) lim yk = л:* тогда и только тогда, когда lim гк = 0. E) Доказательство. Оценка C) следует из неравенств \\Gy*-GyWI + \\GyW -Gx*\\ < a D) — из неравенств k /==o +1 xfc+i - a:* ||. Предположим теперь, что lim ek = 0, так что для любого заданно- го е>0 мы имеем еЛ<е при ?>&0. Тогда, полагая
380 Часть V. Полулокальная и глобальная сходимости 12.2 имеем откуда видно, что lim yk = 0; таким образом, в силу D), Птг/* = = х*. Обратно, если lim yk = **, то откуда следует, что lim ek = 0. I Заметим, что относительно последовательности [yk\ не делалось никаких предположений, кроме того, что она лежит в области D1czD, в которой отображение G является сжатием. В частности, значения yk не обязаны лежать в Do и не обязательно е* — малые значения. При применении полученных оценок мы будем, конечно, интерпретировать последовательность \yk) как аппроксимирующую для точной последовательности A). Заметим, что в частном случае xk -_ ykf T# e &k = о, оценка C) сводится к оценке ошибки A2.1.8) в теореме 12.1.2 о сжимающем отображении. Отметим также, что оценки C) и D) играют различную роль: оценка D) выражает связь точной последовательности A) с последовательностью {yk} и полезна для таких теоретических целей, как доказательство утверждения E). Оценка же C) позволяет находить ошибку при практических вычис- вычислениях и может быть использована для определения момента оста- остановки вычислений. Теорему 12.2.1 можно применить к нестационарным процессам вида B), как показывает следующий результат. 12.2.2. Пусть отображение G:DczRn->Rn является сжатием на замкнутом множестве Do с Д GD0 cz Do и Gk: Do cz Rn->Rn, k = = 0, 1, ... , — некоторые отображения, такие, что GkD0 cz DQ для всех &>0 и Нт||СЛл:—G*|| = 0 равномерно по х ? Do. F) k Тогда последовательность [yk}9 определенная равенством B), схо* дится к единственной неподвижной точке отображения G в Do. Доказательство получается немедленно. Действительно, из F) следует, что последовательность {ek} = { \\.Gkyk — Gyk\\ } сходится к нулю, поэтому наше утверждение является прямым следствием последней части теоремы 12.2.1. | Отметим, что условие F) нельзя, вообще говоря, ослабить, сохранив при этом сходимость, как показывает следующий простой пример для случая R1: Gx = 0, Gkx = ex/(k + 1) ft = 0, 1, ....
J2.2 Гл. 12. Сжатия и нелинейные мажоранты 381 Накладывая на отображения Gk более жесткие условия, можно получить более сильные результаты. Докажем сначала следующую лемму. 12.2.3. Предположим, что отображение G: D cz Rn -> Rn удовлет- удовлетворяет условию \\Gx-Gy\\ < а||х- у\ + у, V*, у б А где а < 1 и у > 0. Если существуют две точки у0, у1 ? D, такие, что Do = 5 (у\ б)с?>, где то GD0 d Do. Доказательство. Если х ? DOf то Заметим, что если х° = у0 = г/1 и 7 = 0» то ^Do cz Do при условии, что Это последнее условие часто используется в связи с теоремой о сжи- сжимающем отображении 12.1.2. Следующие три результата, основанные на лемме 12.2.3, формулируются в терминах начальных приближе- приближений, удовлетворяющих аналогичным условиям. 12.2.4. Пусть отображение G: DaRn-+Rn является сжатием на множестве D с постоянной а, и пусть при некотором 7>0 опера- операторы Gk: D cz Rn-+ Rn, k = 0, 1, ..., удовлетворяют условию eD. G) Предположим, далее, что существует такой элемент у0 ? D, что S =S(G0/,r)cD, где г = [ 1 /A - а)] [а || Goy« - ^ || + б + у] II О*»0 - Go/1|< б, V А > 0, || Gy« - Go/1 < v + в. (8) Тогда последовательности [xk] и {#*}, определенные равенствами A) и B) с х° = у0, лежат в 5 и \\mxk = x*, где ^-—единственная неподвижная точка отображения G в S. При этом имеют место оценки C) и D) с ek =\\Gkyk— Gyk\\. Кроме того, если у = 0, то каждое отображение Gk имеет "единст- "единственную неподвижную точку zk в «S и следующие четыре утверждения
382 Часть V. Полу локальная и глобальная сходимости. 12.2 эквивалентны: (a) lim yk = Jt*\ (б) lim zk = **, (в) lim sk = О, /г-+оо fc-voo fe-юс (г) lim I Gkx* — Gx* Ц = 0. fe-юо Доказательство. В силу (8) и леммы 12.2.3 GSczS и GkSaS, ft>0. Поэтому {**}, |y*|cS, и теорема 12.1.2 гаранти- гарантирует существование неподвижной точки а:* и сходимость последова- последовательности {xk} к я*. Теперь применимы оценки ошибок C) и D). Если 7 = 0» то каждое из отображений Gk является сжатием, и так как GkSaS, то в силу теоремы 12.1.2 существует единст- единственная точка zk, для которой zk = Gkzk, k > 0. Далее, < 2 *k~j II Gkx* -x*\ Как и при доказательстве последней части теоремы 12.2.1, отсюда следует, что (г) влечет за собой (а). Из неравенства 1 ^-^iKflG^-G^l + IIG^-G^II + \\Gkyk-Qx*\ вытекает нер авенство так что (а) влечет (б). Утверждение (б) влечет (г) в силу неравенства Наконец, по теореме 12.2.1 утверждения (а) и (в) эквивалентны между собой. | В качестве первого следствия мы получаем результат о влиянии на итерационный процесс A) ошибки при вычислении значений ото- отображения G в предположении, что эта ошибка не превосходит не- некоторой определенной величины. 12.2.5. Пусть G: D a Rn ->• Rn — отображение, являющееся сжа- сжатием на множестве D с постоянной а, и пусть G: D a Rn -* Rn — другое отображение, для которого Предположим, что при некотором у° ? D имеет место включение S = S(Gy\ r)czD, где г = [ 1/A — ос)] [ос||Gt/° — t/°|| + 2e]. Тогда последовательность yk+l = Gyk, k = 0, 1, ..., вся лежит в 5и а)]||/ - 0*+i | + е/A - а),
12.2 Гл. 12> Сжатия и нелинейные мажоранты 383 где х* — единственная неподвижная точка отображения G в S. Кроме того, если последовательность [хк] определена равенством A) их° = у\ то || yk+x - ** || < || **+! - х* || + 8/( 1 - а). Доказательство. Это немедленно следует из первой части теоремы 12.2.4, так как В качестве следствия мы получаем следующий результат в духе теоремы 12.2.2. 12.2.6. Пусть отображения Gk: D с Rn -+ R'\ k = О, 1, ..., яв- являются сжатиями на множестве D с одной и той же постоянной сжа- сжатия а, и пусть для некоторого отображения G: D с Rn -> Rn lim Gkx = Gx, Vx?D. (9) fc-юо Если S = S(GQy«, r)cD, где r = [1/A -a)] [a||Gor/°- t/°|| + б] и lGoy° — Gky°\\ < б при k = 0, 1, ..., то последовательности {**} и \yk)y определенные равенствами A) и B) соответственно, лежат в S и сходятся к единственной неподвижной точке х* отображения G в S. При этом имеют место оценки C) и D) с ek z=lGkyk--Gyk\\. Доказательство. Из неравенства и соотношения (9) следует, что отображение G само является сжа- сжатием на множестве D с постоянной а. Поэтому согласно теореме 12.2.4 последовательности {xk} и {yk} лежат в S и {л;*} сходится к х*. При этом справедливы оценки C) и D). В силу (9) выполнено утверждение (г) теоремы 12.2.4 и потому lim yk = **. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.2.1. Как и все теоремы о сжимающих отображениях, результаты настоящего параграфа дословно переносятся на случай операторов в полных метрических пространствах, причем их доказательства также остаются слово в слово теми же самыми. Фактически большинство этих результатов было первоначально получено для так называемых псевдометрических пространств, т. е. пространств, в которых расстояние измеряется с помощью элементов некоторого частично упорядоченного топологического пространства (см., например, Коллатц[1964]). ЗС 12.2.2, Свой вклад в круг обсуждаемых в этом параграфе вопросов внесли многие авторы, в частности Эрманн [1959а], Гарднер [1965], Островский [1967в], Шмидт [1960], Урабе [1956, 1962] и Дж. Варга [1952]. Мы следуем здесь изложе- изложению, данному в статье Ортега и Рейнболдт [19676]. ЗС 12.2.3. Основная теорема 12.2.1 представляет собой незначительное обобще- обобщение результата Островского [1967в]. В ее доказательстве используется так
384 Часть V. Полулокальная и глобальная сходимости 12.2 называемая лемма Теплица в следующей [юрмулировке (более общую форму лировку см. в У 12.2.1). Если последовательность {щ) С Rx сходится к нулю, то для любого а, k | а | < 1, последовательность §k = 2a*~~/'a/» /е = °» *» • ••> также сходится к нулю. /=о На случай псевдометрических пространств эта лемма обобщается лишь при соответствующих дополнительных условиях. Мы укажем одно из таких обобщений при доказательстве теоремы 13.1.2. Некоторые другие относящиеся сюда замеча- замечания см. в той же статье Ортега и Рейнболдт [19676]. ЗС 12.2.4. Условия на область в форме, использованной в лемме 12.2.3, предложе- предложены впервые, по-видимому, Вайсингером [1952]. ЗС 12.2.5. Итерации общего вида xk~^~l = GkXky k = О, 1, ..., изучались различ- различными авторами. В частности, теорема 12.2.6 является главным результатом статьи Эрманна [1959а]. Шмидт [I960] рассмотрел неявный процесс xk = GkXk, ? = = 0, 1, ..., и в теореме 12.2.4 содержится один из его результатов. Теоремы 12.2.3 и 12.2.4 были впервые доказаны в упоминавшейся выше статье Ортега и Рейн- Рейнболдт [19676]. ЗС 12.2.6. Теорема 12.2.5 представляет собой часто цитируемый результат Урабе [1956]. Его интерпретация такова: если на каждом шаге итерационного процесса делается ошибка округления, не превосходящая е > 0, то шар предельной погреш- погрешности имеет радиус е/A — а), где а — постоянная сжатия. Дальнейшее обсужде- обсуждение возможностей использования этой и подобных теорем при изучении ошибок округления см. у Ланкастера [1966]. УПРАЖНЕНИЯ У 12.2.1. Доказать «обобщенную лемму Теплица»: Если последовательность {a/г} с R\ сходится к нулю и коэффициенты y^^R1* 1 = 0, 1, ... , k = 0,1, ...,/, удовлетворяют условиям lim yik = 0 для каждого k и i-юо I i 2 I 4ik I ^ с для вСех ' — 0> *» • • • » то последовательность pt- = 2 ?*ла* схо" k =0 fc=0 дится к нулю. У 12.2.2. Пусть отображение G: D С Rn -> Rn_является сжатием на Do с D. Показать, что для любого *° ? Do, такого, что 5 (Gx°, a [1 — a] \\ Gx° — х° ||) с CD0, последовательность {Gkx0} лежит в Do и сходится к единственнной непод- неподвижной точке отображения G в Do. У 12.2.3. Пусть отображение G: D с Rn -> Rn сжимающе на D с постоянной а< 1, и пусть все G^: D d Rn -> Rn> k =0, 1, ... , отображают множество D в себя.Предположим, далее, что 5= S(Goy°, r) с D, где г = A - a)-* (a И Goy° -y°\\ + J Gy» - Goy<> |J). Показать, что отображение G имеет единственную неподвижную точку х* ? S и что для последовательности B) справедливы оценки C) и D). У 12.2.4. Предположим, что отображения G/?: D a Rn-+Rn, k = 0, 1, ... , яв- являются сжатиями на D с одной и той же постоянной а < 1 и каждое из них имеет (единственную) неподвижную точку yk С- D. Пусть G: D cz Rn -+ Rn — такое отображение, что lGl|*--</||, V*, #??,
Гл. 12. Сжатия и нелинейные мажоранты 385 где Р < 1 — а. Предположим, наконец, что S = S (у1, г) a D, где г = [1 - (а + Р)]-1 (Р11 - </° || +1| Gjfi - Gyo ||). Показать, что отображение G имеет единственную неподвижную точку х* ?S, что || /+1 _ *• J < [ 1 _ (« + Р)]-1 (р || yk+l - yk || +1| %,t/fe - G/1|), * * = 0, 1, ..., и, кроме того, что следующие четыре утверждения эквивалентны: (а) гк = 1 yk+* - Gy* || -> 0, (б) || G*+1 - Gt/fe || -> 0, (в) yk -> х*, (г) || Gtf - — Ga:* И -> 0 (Ортега и Рейнболдт [19676]). 12.3. ИТЕРАТИВНЫЕ СЖАТИЯ И НЕРАСТЯЖЕНИЯ В предыдущих двух параграфах мы рассматривали различные обобщения основной теоремы о сжимающем отображении 12.1.2. В настоящем параграфе мы продолжаем эту программу. Сначала мы обсудим различные типы обобщений, получающиеся выделением множества точек, в которых должно выполняться условие сжимае- сжимаемости. 12.3.1. Определение. Отображение G : D a Rn -> Rn называется итеративным сжатием на множестве Do cz D, если существует такая постоянная а < 1, что \\G(Gx)-Gx\\^a\\Gx-x\\ A) всякий раз, как xkGx лежат в Do. | Ясно, что если отображение G является сжатием на Do, то оно будет также и итеративным сжатием, обратное же неверно, как по- показывает простой одномерный пример Gx = л:2. В самом деле, в этом случае G является сжатием на любом отрезке [a, b] cz ( g-t ~Y) > в то время как итеративным сжатием оно будет на любом отрез- отрезке [а, Ь] с (—1, +1). Заметим, что итеративное сжатие не обя- обязательно непрерывно и не обязательно имеет единственную непо- неподвижную точку (У 12.3.1). Несмотря на отсутствие этих свойств, итеративные сжатия ока- оказываются очень полезными при изучении некоторых итерационных процессов, и в § 12.4—12.6 мы дадим обобщение этого понятия, ко- которое имеет широкие приложения. Пока же мы сформулируем лишь один простой результат, являющийся прямым следствием приводи- приводимой ниже общей теоремы 12.4.3; легко было бы дать и прямое дока- доказательство этого результата по типу доказательства теоремы 12.1.1 (У 12.3.2). 12.3.2. Предположим, что отображение G: D cz Rn -* Rn является итеративным сжатием на замкнутом множестве DocD и что при некотором х° ? Do последовательность Л-0,1, ... , B) 15 Пж. Оптргя. R
386 Часть V. Полу локальная и глобальная сходимости 12.3 вся лежит в Do. Тогда lim xk = х* ? Do и выполняется оценка fe-юо ||х* - **|| < [«/A - аI||^ - я*"!» * = 0э 1 C) Кроме того, если отображение G непрерывно в точке **, то х* =* = Gx*. Простым, но типичным примером приложения теоремы 12.3.2 служит следующий результат о сходимости. 12.3.3. Пусть отображение F: DczRn->Rn F-дифференцируемо на D и \\F'(x)-F'(y)\\<V, Vx,y?D. Пусть, далее, отображение A: D czRn-+L (Rn) удовлетворяет условию |Л(*Г!КР. I^W-^WIKS, V*GD, где а = р (у + 8) < 1, и существует х° ? Д для которого 5 = = S (л:0, г) с: D при г > Р|| Fa:0||/A — а). Тогда итерации все лежат в S и сходятся к единственному решению х* уравнения Fx = 0 в 5. При этом имеет место оценка ошибки C). Доказательство. Положим Gx = х — А (л:)" Fx. Тог- Тогда для любого х ? S, такого, что G# ? S, имеем в силу 3.2.5 - Gx\\ = || Л (Gx)-1 F (Gx) \\ < < p|/? (Gx) -Fx-F (x) (Gx-x) 1 + P||F (x) - - A (x)\\\\Gx-x\\ < P (Y + S) ||G* — *I = a\\Gx- x\. Отсюда следует, что отображение G является итеративным сжатием на S. Если теперь х°, ..., xk ? S, то 1|||2||| /=о /=о D) следовательно, xk+l ? S, и по индукции {xk} cz S. Сходимость последовательности [xk] к некоторому х* ? S и оценка ошибки непосредственно вытекает из теоремы 12.3.2. Так как \\A(x)\\<\\A(x)-F (x)\\ + \\F (x)-F(х*)\\ + то llfMK Л|1^+1 -*I, * = 0, 1, ... , г, = 6+7 + 11 Значит, lim Fxh ==; 0, а поскольку в силу 3.1.6 отображение F не- прерывно в точке л:*, то /^х* = 0. Для доказательства единственности допустим, что Fy* -O^*^j/*f S. Используя 3.2.5, приходим
12.3 Гл. 12. Сжатия и нелинейные мажоранты 387 к противоречию: Fy* II + р II F, (^ _ А »*1- ¦ Имеется много возможных вариантов результатов этого типа; некоторые из них включены в упражнения, и в последующих пара- параграфах мы получим несколько их обобщений. Определенный теоре- теоретический, равно как и практический интерес представляет следую- следующая модификация теоремы 12.3.3, не вытекающая прямо из нее, но доказываемая аналогично.. 12.3.4. Пусть выполнены условия теоремы 12.3.3. Тогда для лю- любой последовательности {zk} a S итерации xk+l = xk — A {zk)-{ Fxk, k = 0, 1, ... лежат все в S и сходятся к лт*. Кроме того, имеет место оценка ошибки C). Доказательство. Если х°, ..., xk ? 5, то опять по тео- теореме 3.2.5 r/+i _/| = || А (гу-1 /7/ц < ^Fxk — F/-X - А (г*-1) (xk- xk"l)\\ < < р {|| Fxk — Fxk~l - F (zk~l) (xk — xk~i +1F (г*-*) - A B*-i) || | xk - **-i 1) < Как и в случае D), отсюда следует, что xk+l ? S, и по индукции {xk) a S. Далее, А+Р-1 так что последовательность {xk} является последовательностью Коши. Поскольку х* — единственное решение уравнения Fx = 0 в 5, то lim д^ = д*, и оценка ошибки C) следует из E) при р-> оо. | В приложениях точки zk обычно выбираются среди предыдущих итераций. При этом zk могут оставаться постоянными в течение не- нескольких шагов, так что A (zk) изменяется не на каждом шаге ите- итерации. Заметим, что при F' (х) = А (х)мы получаем из теорем 12 3.3 и 12.3.4 следствия о сходимости метода Ньютона и одного из его вариантов. Вернемся теперь к общему результату 12.3.2. Интересным его обобщением является следующая теорема, в которой — по аналогии с определением 5.1.1 строгой нерастягивающести — условие A) ослабляется до условия простого строгого неравенства (без коэф- коэффициента а). 13*
388 Часть V. Полулокальная и глобальная сходимости 12.3 12.3.5. Предположим, что G: D d Rn -> Rn отображает множество DqCiDb себя, причем множество GD0 компактно и \\G(Gx)-Gx\\<\\Gx-xl V*GD0, x^Gx. F) Допустим, далее, что отображение G непрерывно на?>0 и имеет не более одной неподвижной точки в Do. Тогда неподвижная точка х* существует и при любом х° ? Do последовательность B) сходится к х*. Доказательство. Для любого х° ? Do последовательность B) корректно определена, причем xk ? GD0 при всех k > 1, и так как множество GD0 компактно, то предельные точки последователь- последовательности {xk} принадлежат GD0. Предположим, что л:* ? GD0 — одна из таких предельных точек и что lim xki = х*. Если х* Ф Gx*, то отоб- i-юо ражение г (х) =\\G(Gx) - Gx\\/\\Gx — x\\ корректно определено и непрерывно в некоторой окрестности точки jc*, поэтому в силу F) г (**) < 1. Следовательно, для любого задан- заданного а? (г(д:*), 1) существует такое б>0, что г(л:)<а для всех х ?S (л:*, б) П Do- Поэтому найдется индекс / = / (б), такой, что г (/О < а при i > /, т. е. 1 - Gxki || < а || xkt+l - xki ||, Из неравенства F) вытекает теперь, что || xk+x — xk || < || xk — xk^x || для всех k. Значит откуда lim (xki+l — xki) = 0. Но тогда в силу непрерывности отоб- t->oo ражения G правая часть неравенства стремится к нулю и потому л;* = Gx*. Мы пришли к противоречию. Таким образом, каждая предельная точка последовательности {#*} является неподвижной точкой отображения G, а так как G имеет не более одной неподвижной точки в Do, то вся последовательность {xk} должна сходиться к х*. | Условие F) выполнено, конечно, если отображение G является стро- строго нерастягивающим. В этом случае вторая часть предположений теоремы 12.3.5 выполняется автоматически и мы приходим к сле- следующему непосредственному следствию этой теоремы. 12.3.6. Теорема Эдельстейна. Предположим, что G: D с Rn -* Rn отображает множество DocD в себя, причем множество GD0 ком- компактно, и является строго нерастягивающим наД0- Тогда при любом х° ? Do последовательность B) сходится к единственной неподвиж- неподвижной точке отображения G в Do.
12.3 Гл. 12. Сжатия и нелинейные мажоранты 389 Заметим, что как в теореме 12.3.5, так и в теореме 12.3.6 непре- непрерывность отображения G позволяет заменить компактность образа GDq более сильным условием компактности самого множества Do- Важно однако напомнить, что в случае, когда G является сжатием, ни одно из этих предположений о компактности не является необ- необходимым. Простой одномерный пример Gx = — х, Do = [—1, 13 показы- показывает, что теорема 12.3.6 перестает быть справедливой, если отобра- отображение G предполагается только нерастягивающим. Действительно, в этом примере последовательность B) сходится к х* = О, только если х° = х*. Тем не менее мы можем доказать следующий результат 0 сходимости для модифицированной итерации, получаемой при по- помощи выпуклой комбинации отображения G и тождественного ото- отображения. 12.3.7. Предположим, что относительно эвклидовой нормы отобра- отображение G: D a Rn -> Rn является нерастягивающим на замкну- замкнутом выпуклом множестве DoczD. Допустим, далее, что GD0 a Do и что множество Do содержит хотя бы одну неподвижную точку отображения G. Тогда для любых со ? @, 1) и я0 ? Do итерация **+! = Шк + A — co)Gx\ k = 0, 1, ... , G) сходится к неподвижной точке отображения G в Do. Доказательство. Выпуклость множества Do гаранти- гарантирует, что последовательность G) корректно определена и лежит в Ьо. Если а:* — неподвижная точка отображения G bD0> to в /2-норме |**+1_ **|« = аJ|**—х*||2 + A — оJ1|Gxk—x*f + + 2@ A — со) (Gxk — х*у (xk - х*) (8) и || xk _ Gxk f = || xk — x* |P +1| Gxk — x* |P — 2 (Gxk _ x*y ^ _ x*y (9) После умножения (9) на со A — со) и последующего сложения с (8) получаем 1 д.И-1 — x*f + со A — со) \\xk — Gxkf = = ©!**—*• ||2 + A - со) || Gxk — Gx* f < \\xk - x* I2. A0) Поэтому при любом m > 0 = \\х0— x* ||2 — 1 xm+l - x* ||2 < || x? — x* I2, откуда вытекает, что ряд, частичные суммы которого стоят слева, сходится. Следовательно, lim \\xk — Gxk\ = 0. Так как ЦяИ-i _ **| = |со (JC*_ х*) + A _ со) (G^- Gjc*)|| < /<ftf A1)
390 Часть V. Полулокальная и глобальная сходимости 12.3 то последовательность {xk} ограничена и потому содержит сходящую- сходящуюся подпоследовательность {/'}, предел которой в силу замкнутости множества Do должен принадлежать этому множеству. Соотноше- Соотношение G) показывает теперь, что lim (/;+' _ у*) = Нт (/< - у*) + A - со) lim (Gxkt - xki) = 0, l-ЮО т. е. ввиду непрерывности отображения G, что у* = Gy*. Значит, верно (И) с л;*, замененным на#*, и, таким образом, вся последова- последовательность {xk} должна сходиться к нашей неподвижной точке у*. | Отметим, что если множество Do к тому же ограничено, то теоре- теорема 5.1.4 (а также теорема Брауэра о неподвижной точке 6.3.2) га- гарантирует существование неподвижной точки. Заметим еще, что итерация G) эквивалентна итерации xk = Gx\ xk+] = х* + со (**—**), k = 0, 1, ... ; иными словами, итерацию G) можно рассматривать как «нижнере- «нижнерелаксационный» вариант основной итерации B). Отметим, наконец, что оператор G == со/ + A — со) G не обязательно будет сжимающим при выполнении условий теоремы 12.3.7, как показывает простой пример оператора Gx = х в R1. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.3.1. Соотношения вида A) и F) использовались Гольдстейном [1967] (см. также Чени и Гольдстейн [1959]), но понятие итеративного сжатия было неза- независимо введено и обобщено Рейнболдтом [1968]. ЗС 12.3.2. Теоремы 12.3.3 и 12.3.4 представляют собой «усредненные» варианты множества теорем, встречающихся в литературе; см., например, Бен-Израэль [1965, 1966], Бартл [1955] и Перейра [1967а]. В частности, теорема 12.3.4 принад- принадлежит по существу Бартлу (см. также У 12.3.3 и У 12.3.4). Бен-Израэль рассмотрел обобщенную итерацию Ньютона * = 0, 1, ..., A2) где/7: DdRn^Rm и В(х) = F'(х)+— обобщенный обратный к оператору F' (х) (см. ЗС 8.5.4). Для этой итерации верна следующая теорема, аналогич- аналогичная теореме 12.3.3. _Пусть отображение F: Da Rn -> Rm F-дифференцируемо в шаре 5 = = 5 (лг°, г) с D и || Fy — Fx — F' (y)(x — у) || < р || х — у% V *, у ? S. Пусть, далее, B:Scz Rn -> L (Rn, Rm) — такое отображение, что \\(В(х) - В(у)) Fy\\<, 6\\x-yl \\B(x)F'(x)-I\\<x, \\В(х)\\^ц для всех х, y?S. Если a = riP + 6 + T<l и г>т]||Рл;0|/A—а), то итера- итерации A2) лежат все в 5 и сходятся к решению х* ? S уравнения B(x)Fx=0. ЗС 12.3.3. Относительно других результатов в духе теоремы 12.3.4 для случая, когда А (х) = Ff (x), см. Деннис [1969]. ЗС 12.3.4. Теорема 12.3.5 является, по-видимому, новым обобщением более ран- ранней теоремы 12.3.6 Эдельстейна [1962]. Другое обобщение, также использующее условие F), дано Гольдстейном [1967] (см, У 12.3.6).
12.3 Гл. 12. Сжатия и нелинейные мажоранты 391 ЗС 12.3.5. У Канторовича и Акилова [1959] приводится следующее интересное доказательство теоремы 12.3.6 в части существования; авторы пишут, что это дока- доказательство сообщил им М. Крейн. Функционал g (х) = || Gx — х || непрерывен на компактном множестве GD0; следовательно, существует такое х* ? GDOi mog (х*) = min {g(x) \ х ? GD0}; если g (x*) >0,rog (Gx*) < g (**), что противоречит выбору элемента х*; поэтому (/** = **. Ясно, что это доказательство можно применить также и в случае теоремы 12.3.5. ЗС 12.3.6. Теорему 12.3.7 впервые доказали Браудер и Петришин [1966] для нерастягивающих операторов, отображающих замкнутое выпуклое подмножество равномерно выпуклого банахова пространства в себя. Среди других авторов, внесших вклад в эту проблему, отметим Красносельского [1955], Шефера [1957], Сарантонелло [I960] и Опяля [1967а]. См. также Диас и Меткалф [1969]. УПРАЖНЕНИЯ У 12.3.1. Показать, что разрывная функция g: [О, 1] с Я1-» Я1, определенная равенствамиg (х) = 0, х? 0, — 1, g(х) = 1, х?\ — ,1 , является итератив- итеративным сжатием и имеет более чем одну неподвижную точку. У 12.3.2. Дать прямое доказательство теоремы 12.3.2. У 12.3.3. Предположим, что отображение F: DczRn -+Rn /^-дифференцируемо в шаре 5 = 5 (*°, г) с D, причем || F' (х)"1| < Р для всех х ? S. Предположим, далее, что выполнено одно из следующих двух условий: (a)\\Fy-Fx-F'(z)(y-x)\\^y\\y-xl Vx,ytz?S; а = pY < 1. г >р||Fx»||/A -a); Vx?S; a = 2Yp<l, г > ?>\\Fx<>\\/(l -a). Показать, что итерационный процесс Ньютона, начинающийся с точки х°, не вы- выводит за пределы шара S и сходится к единственному решению х* уравнения Fx — 0 в 5 и что, кроме того, выполняется C). Показать также, что для любой по- последовательности {zk} с S то же самое утверждение верно для итераций xk+\ =?_р' {zk)-lFxk, k = 0, 1, A3) У 12.3.4. Пусть отображение F: D с Rn -» Rn /^-дифференцируемо в шаре 5 = = S (х°у г) с А причем || Z7' (х0)""1|< р. Пусть, далее, выполнено одно из следую- следующих трех условий: (a)\\Fy-Fx-F'(z)(y-x)\\<y\\y-xl v x, yz?S; a = 3pY < 1, г> РIIFx*||/A -a); (б) IF'W-F'WKY, Vx,y?S; a = 2p7<l, г > РЦ^°||/A - a); Показать, что опять итерационный процесс Ньютона, начинающийся с jc°, не вы- выводит за пределы шара S и сходится к единственному решению уравнения Fx = О в5и что то же самое верно по отношению к итерациям A3). У 12.3.5. Сформулировать и доказать теоремы сходимости, аналогичные теоремам из У 12.3.3 и теореме 12.3.4, для итераций вида xk+\ = xk __ X?xFxk, k =r 0, 1, где Ak ? L (Rn), k = 0, 1, ...,— заданная последовательность невырожденных матриц.
392 Часть V. Полу локальная и глобальная сходимости 12.4 У 12.3.6. Пусть отображение G: D с Rn -*¦ Rn нерастягивающе на множестве Л) С D, причем GDq ей и множество GDo компактно. Предположим также, что выполнено F). Показать, что для заданного х° ? Do предел любой сходящейся подпоследовательности последовательности {(Их0) является неподвижной точкой отображения G, и вывести отсюда, что и вся последовательность сходится к непо- неподвижной точке отображения G (Гольдстейн [1967]). У 12.3.7. Предположим, что отображение F: D с Rn -*• Rn удовлетворяет ус- условию \<y = sup {\\Fx-Fy\\2l\\x —у\\2\х, y?D, хфу). (а) Показать, что если при некотором \л < 1 то отображение Gx = A — <х)х + aFx является сжатием на D при 0 < а < 2(l)Al2 + f) <(|)A| + Y) (б) Показать, что если при некотором \х > 1 (x-y)T(Fx-Fy)>ii\\x-y\\l vx, y?D, то отображение G является сжатием при 2A — ц)/A —2\л -f- \2) <; а < 0 (Са- рантонелло [I960]). У 12.3.8. Пусть дано отображение F: D с Rn -> Rn- Положим Если ju. (*, у)< ц < 1 при всех х, y?D, то отображение Gx = A — а)х + аЛ& является сжатием на D при 2[?- ) 9??? л2 |xtygD, 1 — 2jx (х, у) + Y (х, УJ У 12.3.9. Предположим, что отображение F: DdRn-+Rn удовлетворяет при некоторых |х > 0 и у < оо условию xl Yx,y?D. (а) Показать, что отображение Gx = х — со/7* является сжатием на D с постоян- постоянной сжатия q^ = (у2®2 — 2-усо + 0^2 ПРИ условии, что 0 < со < 2jx/y2. Когда q^ минимально? (Коломи [1964].) (б) Пусть S = 5 (х°, г) с D, где г > \^ГХ + (fx~2 — Y~2)]V2 II F& I Показать, что итерации xk+l = Xй — (|л/у2)^fe, ^ = 0,1, ... , сходятся к единственно- единственному решению уравнения Fx = Q в S (Линьков [1964 б]). У 12.3.10. Пусть В ? L (Rn), р (Б) < 1 и 1 не является собственным значе- значением матрицы В. Показать, что р {со/ +A —со) В} < 1 для всех со? @, 1). 12.4. НЕЛИНЕЙНЫЕ МАЖОРАНТЫ В предыдущих параграфах мы рассмотрели различные модифи- модификации теоремы о сжимающем отображении. Теперь мы продолжим это исследование, введя более общие нелинейные оценки разностей Gy — Gx или G2x — Gx, В настоящем параграфе излагаются основ- основные идеи, а в последующих параграфах эти идеи применяются в об- общих ^уациях. 12.4.1. Определение. Пусть {xk} — произвольная последователь- последовательность в Rn, Всякая последовательность {tk} с [0, оо) с: R1, для
12.4 Гл. 12. Сжатия и нелинейные мажоранты 393 которой \xf+l-#\<tbv-tk, * = 0, 1, ..., A) называется мажорирующей последовательностью для {xk}. | Отметим, что любая мажорирующая последовательность явля- является монотонно возрастающей. Ниже мы часто будем использовать следующую простую лемму. 12.4.2. Пусть {tk} a R1 — мажорирующая последовательность для последовательности [хк] с Rn, пусть существует lim tk = t* < оо. Тогда существует х* = lim хк и /г-юо \#-x*\<t*-tk9 ft = Of I, .... B) Доказательство. Оценка -**К 2 l^+'-^lK 2 (^+,-//) = /ft+m-/fc C) показывает, что {хк} является последовательностью Коши, и оцен- оценка ошибки B) вытекает из C) при т -> оо. | Мажорирующие последовательности будут возникать в дальнейшем как решения некоторых нелинейных разностных урав- уравнений, которые в свою очередь связаны с оценками для разности G (Gx) — Gx. Эта идея реализуется в следующем обобщении теоре- теоремы 12.3.2. 12.4.3. Предположим, что для заданного отображения G: DcRn-*- -> Rn имеются такая изотонная функция <р: [0, оо) cz R1 ->• [0, оо) и такое множество Doc:D, что || G*x — Gx 1 < ф (|| Gx — х||), если х, Gx ? Do. D) Предположим, далее, что при некотором х? ? Do итерации хк = = Gkx?> k = 1, 2, ... , лежат все в ?>0 и последовательность [tk], определенная соотношением ^1='*+Ф(<*-М. ^о = О, /1>|G^-x°|, Aj=1,2, ...,E) сходится к f*<oo. Тогда существует \\тхк — х* и имеет место оценка B). Если при этом г* ? D и отображение G непрерывно в **, то л^ = G^*. Доказательство. Покажем по индукции, что последователь- последовательность {tk} является мажорирующей для последовательности {xk}. По предположению || х1 — л? || < tx —10, и если | xl — х*-х \ < tj — tj^i при / = 1, ... , k, то в силу D), E) и изотонности функции ф ||* ж _ xk | = | G*xk~l — Ох*-11| < ф (|| х* — х*-11[) < <Ф (/*-/*_,) = 4+i-**. F) Наше утверждение вытекает поэтому из леммы 12.4.2. | Заметим, что теорема 12.4.3 содержит в качестве частного слу- случая теорему 12.3.2 об итеративном сжатии, а следовательно, также
394 Часть V. Полулокальная и глобальная сходимости 12.4 и теорему о сжатии 12.1.2. В этом случае мажорирующей функцией Ф будет просто ф (/) = at, где а < 1. Следовательно, разностное уравнение E) принимает вид 4-и - tk = a (tk - 4-i), t0 = 0, tx = || Gx» - х° ||; его решением служит \/=о так что Условие (xk) czDq выполнено, конечно, если GD0 a Do. Дру- Другой способ удовлетворить ему — наложить на начальные итерации условие, аналогичное условию из леммы 12.2.3. 12.4.4. Предположим, что выполнены все условия теоремы 12.4.3, за одним исключением: предполагается, что лишь точки я0, ..., хт ле- лежат в Do. Тогда xk ? Do, k = m + 1, ..., если выполнено одно из следующих соотношений: S (*",**-у c=D0, G) S(n/*-gcD0 и tk<t*, Vk>m. (8) Доказательство. Применим индукцию. Пусть xi? Do, /.= = 0, ..., fe, для некоторого fe>m. Тогда в силу F) ||*ж - Щ < ti+i - th j = о, l, ..., ft, и потому 1**+._*»|<2 ЦЛГ/+1 -х>\\< 2 (</+1 -/,) = 4+1 -/,„. j—m f=m Следовательно, xk+x ? 5 (л:т, /Л+1 — у с= 5 (л:^, /* — у, если 4+1 < < /*, или xk+x ? S (xmt t* — У, если 4+1 < <*, чем индукция и за- завершена. | В качестве приложения теоремы 12.4.3 докажем один результат, аналогичный теореме 12.3.3. 12.4.5. Пусть отображение F: DczRn->Rn F-дифференцируемо на выпуклом множестве Do с: D и Предположим, далее, что отображение A: Do с: Rn -> L (Rn) удов- удовлетворяет условиям где рб < 1. Если точка x°f Do такова, что IIA (x°rlFx» || < л, а = -f Р7Л + Рб < 1
12.4 Гл. 12. Сжатия и нелинейные мажоранты 395 и S = 5 (л:0, т]/A — a)) d Do, то итерации *ft+i = xk — A (xkrl Fxky k = 0, 1, лежат в S и сходятся к решению х* уравнения Fx = 0. Доказательство. Положим опять Gx = х — A (x)~~xFx. Тогда всякий раз как х, Gx ? DOf мы имеем в силу теоремы 3.2.12 |G2x — Gx\ = \A (Gx)~l F (Gx) \\ < x)-Fx-F' (x)(Gx -x)\\ + $\\(Fr (x) - A(x)) (Gx-x)\\*C -x\[ (9) Следовательно, отображение G удовлетворяет условию D) с q> @ = = A/2) $yt2 + рб^. Рассмотрим теперь разностное уравнение E) с начальными условиями t0 = 0, t± = г\. Очевидно, что /а •— /х = ост], и по индукции легко доказать, что fjH., —*Л<е*Ч й=1,2, ... , A0) л—1 Таким образом, tk < т| 2 о' и существует lim ^ = t* < ti A — а). Поэтому лемма 12.4.4 гарантирует, что (^)cS(x°,/*)cD0, и наше утверждение о сходимости вытекает из теоремы 12.4.3. Нако- Наконец, <|(A (xk)-F (**))(х^ -х') 1 +1F' (;•) (xk+>- x')I так что lim Fxk = 0, и Fx* = 0 в силу непрерывности отображе- ния Л | В отличие от теоремы 12.3.3, мы предположили здесь, что отоб- отображение F' непрерывно по Липшицу и получили несколько лучшие условия сходимости. Теорему 12.4.5 можно было бы еще усилить, а именно можно было бы предполагать только, что S (x°, t*) с: Do. Но так как значение t*, вообще говоря, неизвестно, то это улучше- улучшение имеет чисто теоретическое значение. По той же причине оценка ошибки B) представляет в этом случае лишь теоретический интерес. Тем не менее легко получить оценки, пригодные и для вычислитель- вычислительных целей. Действительно, из (9) и A0) вытекает, что для любого
396 Часть V. Полу локальная и глобальная сходимости 12.4 -*1 < D №'-*<- поэтому \ /=o / < fir [4 Р^-'Л + PSJ1 ** - **-' 1, откуда при /л -»- oo получаем II ** - **1 < гггг [-f P^aft~lTi + Н»** ~ **"'»• Очевидно, что эта оценка очень грубая; в частности, она не приводит к ожидаемой квадратичной сходимости, когда А (х) = F' (х). Бо- Более точная оценка ошибки содержится в следующем уточнении теоре- теоремы 12.4.5 для метода Ньютона. 12.4.6. Теорема Мысовских о методе Ньютона. Пусть отображение F: DcRn-+Rn F-дифференцируемо на выпуклом множестве Ц, cz D, причем матрица F' (х) невырождена при всех х g Do и удовлетворяет условию \\Р'(х)-Р'(у)\\<У\\х-у1 I^W^KP, Vx,yGD0. Если точка xP?_DQ такова, что ||F'(х?)~~1 Fx?||<т], где а = A/2) х 1. и S(x?,ro)czDOy где Ol24 /=0 то итерации Ньютона xH-i =xk — F' {xk)~xFx\ k = О, 1, лежат в S (х°, г0) и сходятся к решению х* уравнения Fa: = 0. При этом |*-**|<в*|**-**-Т. k=\92,...9 A1) где Доказательство. Оценка (9) приводит в нашем случае к разностному уравнению t
12.4 Гл. 12. Сжатия и нелинейные мажоранты 397 Покажем по индукции, что tk+\ — tk< w2k-1, k = 0, 1, .... A2) При k = О неравенство очевидно. Если оно выполнено для k = / — — 1, то Значит, k—1 оо t* = lim tk = lim 2 (^/+i — Ь) ^ Л 2 ос27" = /*o> fe-»-oo fe-foo /=0 /=0 и утверждение о сходимости следует из леммы 12.4.4 и теоремы 12.4.3 точно так же, как и в случае теоремы 12.4.5. Чтобы получить оценку ошибки A1), заметим, что в силу (9) мы имеем (так как 6 = 0) где ao = (l/2)Pv- Поэтому k-\-m—1 m /-а 2 (^ - ^_,) < <а[лA-а2»)Г1|дс*-**-1Р, ибо ввиду A2) m m ш—1 . . . 2 «Г & - ^-O27-2 < 2 «Г1 [a2ft-Va0]2/'2 = a0 2 («2V < Ml /=1 /=0 < e, < (а/л) S (a2V" = a h A - a2")]. I /=o Существует много возможных технических вариантов теоремы 12.4.5, а следовательно, также и 12.4.6; два из них представлены в упражнениях У 12. 4. 2 и У 12.4.3. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.4.1. Понятие мажорирующей последовательности было впервые явно опре- определено Ортегой [1968] и Рейнболдтом [1968], которые основывались на идеях, содержащихся в «мажорантном» доказательстве Канторовича [1949] сходимости метода Ньютона (см. ЗС 12.6.1). С геометрической точки зрения оценка /г—1 дает верхнюю границу «длины пути» 2 II */+1 ^ *; II» проделанного итерациями, /=о и, следовательно, сходимость последовательности {4} означает, что эта длина пути остается конечной при стремлении к к бесконечности.
398 Часть V. Полулокальная и глобальная сходимости 12.4 ЗС 12.4.2. Обсуждение теоремы 12.4.3 и более общих результатов § 12.5 см. в ЗС 12.5.1. ЗС 12.4.3. Теорема 12.4.5 имеется по существу у Канторовича и Акилова [1959]. Близкие результаты получили Коломи [1963], Поляк [19646] и Зинченко [1963а, б] (см. У 12.4.3). Теорема 12.4.6 является часто цитируемым результатом Мысовских [1950]; она представлена также у Канторовича и Акилова [1959]. Теоремы 12.4.5 и 12.4.6 вместе с их доказательствами остаются справедливыми в случае произ- произвольного банахова пространства при условии, что обратные к А(х)и F' (х) явля- являются ограниченными линейными операторами, определенными на всем простран- пространстве значений. Дальнейшее обсуждение метода Ньютона см. в ЗС 12.6.1. УПРАЖНЕНИЯ У 12.4.1. Пусть ф: [0, со) -* [0, со) — непрерывная изотонная функция, и пусть при некотором- tx > 0 решение системы — fe = Ф №fe —'*_l), 'o=O> * = удовлетворяет условию lim tk = t* < со. Показать, что <р @) = 0 и что, кроме того, (а) если ф имеет неподвижную точку s* > 0, то tx < s* и ф (s) < s для всех s € [0, s% (б) если ф не имеет ни одной положительной неподвижной точки, то ф (s) < < s для всех s > 0. Показать также, что эти условия не являются достаточными для сходимости последовательности {^}. У 12.4.2. Пусть отображение F: D с Rn -> Rn F-дифференцируемо в шаре S «=S(*°, r)czD и iF'W — F'ly)i<y\\x — yi Для всех *> #?5- Ъу^ъ, да- далее, отображение В: S->L(Rn) удовлетворяет условиям ЦД(*)|<Р, iB(x)F'W-H<6 и UB(x)-.B(y)Fy\\^r)\\x-y[\ для всех х, y?S. Показать, что если а = A/2) Ру II В (х°) Рх° II + Л + ^ < 1 иг> > || В (х°) Fx° ||/A — а), то итерации k = 0, I, ..., лежат в S и сходятся к единственному решению х* уравнения B(x)Fx = 0 в S (А г'), rAer'=min{r, (РуГ1 A - Л - «)}. У 12.4.3. Пусть отображение Z7: DczRn -> R^ непрерывно, а отображение К: Dc Rn -> Rn /^дифференцируемо в шаре S = S (x°, r) czD. Предположим также, что для всех х, y?S и матрица /С' (х) невырождена, причем |] К' (х)~1 \\< р, для всякого х ? S. Показать, что если || Kf {x°)-lFx° || < г\, а = A/2) рут) + рб < 1 иг>т]A — а), то итерации ^- /С' (х^р1 /^Д Л = 0, 1, лежат в S и сходятся к решению уравнения Fjc = 0. (Зинченко [1963а].) У 12.4.4. Показать, что в условиях теоремы 12.4.6 2 ~X/(I ~ *2k). Вывести отсюда, что /?-порядок последовательности {xk} по меньшей мере два.
125 Гл. 12. Сжатия и нелинейные мажоранты 399 У 12.4.5. Рассмотрим фигурирующий в У 12.1.4 дискретный аналог интеграль- интегрального уравнения. Сформулировать и доказать следствие теоремы 12.4.6 для метода Ньютона, примененного к этому уравнению. Сделать то же самое по отношению к разностной двухточечной краевой задаче из У 12.1.5. 12.5. БОЛЕЕ ОБЩИЕ МАЖОРАНТЫ ' В этом параграфе вместо нелинейной оценки A2.4.4) предыду- предыдущего параграфа мы будем использовать более общие оценки, в кото- которых допускается зависимость от начальных данных. А именно, мы будем предполагать, что выполнено неравенство вида \&x-Gxl«p№x-xl, \Gx-jfll, ||х-х°||), A) где х° — заданная точка. Мы увидим, что для некоторых задач с помощью этой оценки можно получить более точные результаты, чем с помощью оценки предыдущего параграфа. Начнем с того, что теорема 12.4.3 допускает следующее обобще- обобщение. 12.5.1. Пусть даны отображения G: DczRn->Rn и <р: ^х^з d/?3->[0, oo) a R1, где каждое из множеств Jt есть интервал ви- вида [0, а], [0, а) или [0, оо) и функция ф изотонна (см. 2.4.3) по каждой переменной. Допустим, что существуют такое множество Do a D и такая точка х° ? Do, что неравенство A) выполняется всякий раз, как ху Gx ? Do, и что при t0 = 0 и tx > || х° — G.*01| реше- решение разностного уравнения tk+] — tk = y(tk- **_,, tk, **_!), к = 1, 2, ... , B) существует и стремится к t* < оо. Наконец, предположим, что ли- либо S"(x°, /*) с= Do, либо S (х°, t*) c= Do и tk < t* для всех к > 0. Тог- Тогда итерации xk+l = Gxk, k = 0, 1,..., корректно определены, лежат в 5 (*°, /*), сходятся к некоторому х* g 5 (л?, t*) и удовлетворяют ус- условию Цд*-;*!!^*-^ k = 0, 1, .... C) Если х* ? D и G непрерывно в **, то ** = Gx*. Доказательство. Как и при доказательстве теоремы 12.4.3, мы покажем, что последовательность {xk} мажорируется последо- последовательностью [tk]. Предположим, что xi g S (х0, /*) czD0 и || д^ — — я71| < Ц — ^/-1 при / = 1, 2, ..., k для некоторого к > 1 (это заведомо верно при к— 1, так как I*1 — «к°|К ^ <I ^*). Тогда, оче- очевидно, значение xk+x корректно определено, и, используя неравенства 211^ - *'¦-' II < S & - fc-i) = th к / < к D) l l
400 Часть V. Полу локальная и глобальная сходимости 12.5 и изотонность функции ф, мы получаем - xk || = || G V-1 — Gx*-11 < < Ф (||x* - **-> ||, || xk - jfl ||, || л*—1— Следовательно, в силу D), Цл;**1 — *°//< 4+i < t*9 и шаг индукции выполнен. Аналогично проводится доказательство в случае, когда выполнено лишь условие S (х°, /*) d Д но tk < /* для всех k. На- Наше утверждение вытекает теперь из леммы 12.4.2. | Анализ разностного уравнения B) значительно упрощается, если существует «первый интеграл» этого уравнения. Под этим мы понимаем, что существует отображение if: J ? R1 ->• R\ такое, что если последовательность [tk] удовлетворяет условию **+i =*('*). 'о = О, fe = 0f 1, ..., E) то для нее выполняется и равенство B). Достаточное условие для этого дается следующей леммой, доказательство которой тривиально. 12.5.2. Пусть заданы функции ф: Jl x J2 X J3 с R3 -> R1 и г|х J CR1-*- -> 7?1, где интервалы /, и У определены, как в теореме 12.5.1. Пред- Предположим, что J a Jx Г) У2 f| У3 и аИ5)-гН0 = фE-/,М), Vs,^A s>^. F) Если последовательность {tk}, задаваемая соотношением E), лежит в У, то последовательность {4} удовлетворяет разностному уравне- уравнению B) с начальными условиями t0 = 0, tx = я|> @). Рассмотрим теперь теорему единственности, основанную на ус- условии F). Сначала мы сошлемся на следующий геометрически оче- очевидный результат, доказываемый в более общей формулировке в гл. 13 (см. 13.2.2). 12.5.3. Лемма Канторовича. Пусть функция г|х [/0, s0] a i?1-^/?1 изотонна и /o^ifW» so>1I)(so)- Тогда последовательности 4-н = = i|)(^), S?+i =1И^), Л = 0, 1, ... , являются соответственно моно- монотонно возрастающей и монотонно убывающей и lim tk = /* < s* = lim sfe. Если при этом функция г|) непрерывна на [/0, s0], то /* и s* суть соот- соответственно наименьшая и наибольшая неподвижные точки функции •ф на [tOi s0]. 12.5.4. Пусть выполнены условия теоремы 12.5.1 и леммы 12.5.2 за тем исключением, что вместо A) имеет место неравенство ||G*-Gr/(|< ф(||*- yl Ц*-*Ч У-#Ъ> Vx, у б Do. G) Положим if> @) = || Gx° — аг° Ц и предположим, что t* = lim /fe = = 'Ф ('¦*) 6 ^. Тогда ^* является единственно возможной неподвиж- неподвижной точкой отображения G в S (л:0, /*).
12.5 Гл. 12. Сжатия и нелинейные мажоранты 401 Если же вместо G) выполняется неравенство \Gx- Gy\<<f$x-yl iy-хЦ), Vx,y?D0, (8) и если функция г|) непрерывна и имеет неподвижную точку t** > i*, t**? «/, такую, что гр(/)</ при t*</<<**, то х* — единственно возможная неподвижная точка отображения G в Do fl 5 (л:0^/**). Доказательство. Пусть выполнено G) и у* = Gy* ? S (x°, t*). Допустим, что ||у* — xf\ </* — // при / = 0, 1, ..., k для некоторо- некоторого k > 0 (ясно, что это верно при k = 0, ибо || у* — х° ||< ^* = /* — /°). Поскольку последовательность {^} мажорируется последовательнос- последовательностью {^}, то из F) и G) вытекает, что Этим завершается шаг индукции, и так как lim tk = /*, то а;* = = lim xk = у*. Рассмотрим теперь второй случай. Если ^/* = Gr/* ? Do f| S(a:°, /**), то — как это вытекает из первой части доказательства — можно считать, что s0 = || r/* — x°|| g (/*,/**). По индукции получаем, что |#* — xk\\*Csk — tk, где sa;+i =ip(sfe). Действительно, в силу (8) Далее, в силу F) и неотрицательности функции ф функция -ф изо- тонна. Кроме того, по допущению t* = гр (/*) и г|) (s0) < s0, так как s0 ? (/*, /**). Поэтому по лемме 12.5,3 lims^ = /*, так что опять = у*. | В качестве первого приложения установленных результатов докажем следующую теорему. 12.5.5. Пусть отображение G: D cz Rn -> Rn F-дифференцируемо на выпуклом множестве Do сОи \\G'(y)-G'(x)l^y\\y-x\l Vx,y(:D0. Предположим, что существует такая точка x°?DOi что ||G'(jk°)||< < б < 1 и а = уц/(\ — бJ < 1/2, где tj = [| *° — Gx° ||. Положим _ A - 2аI/.], /** = -L=A [1 + A _ 2аI/.] ^ [1 A 2а)], / и допустим, что S (х\ /*) с Do. Тогда итерации **+¦ = = 0, 1, ..., лежат в 5(л^, /*) и сходятся к единственной неподвиж- неподвижной точке х* отображения G в Do f| S (jc°, /**). При этом имеет мес- место оценка ошибки C), где последовательность {tk} определяется
402 Часть V. Полу локальная и глобальная сходимости 12.5 соотношением 'ж=4-^ + ^+ть 'о = О, Л = 0, 1 (9) Доказательство. По теореме о среднем значении 3.2.12 для всех х, у ? Do \\Gx-Gy\\^\\Gx-Gy-G'(y)(x-y)\\ + + l(G'(y)-G'(x»))(x-y)\\ + \\ где ф (s, t) = A/2) 7s2 + yst + 8s. Легко проверить, что ф (s — tyt) = = \p (s) — ip (/), гдегр (/) = A/2) yt2 + Ы + т), и что функция ip непре- непрерывна и изотонна на [0, оо) и имеет две неподвижные точки t* и /**, причем y(t)<.t при t ? (/*, /**), за исключением случая а = 1/2, когда t* = /**. В силу лемм 12.5.2 и 12.5.3 последовательность, определенная соотношением (9), удовлетворяет условию tk+\ — tk = = ф(*л — ^-ь 4-0 и сходится к ^.Следовательно, применима тео- теорема 12.5.1. Она показывает, что последовательность \xk) лежит в S (а^, /*), сходится к г* и удовлетворяет условию C). При этом отображение G непрерывно на S (л?, /*), поэтому х* = Gx?. Нако- Наконец, утверждение о единственности является прямым следствием теоремы 12.5.4. | Доказанная теорема непосредственно применима к методам хорд вида l (см. У 12.5.1). В частности, в следующем параграфе мы воспользу- воспользуемся одним результатом этого типа для упрощенного метода Ньюто- Ньютона, когда А = F' (а:0). Заметим, что оценка ошибки C) в ситуации теоремы 12.5.5 при- пригодна для вычислительных целей, поскольку значение t* точно из- известно, в противоположность ситуациям теорем 12.4.5 и 12.4.6, где Р неизвестно. Заметим также, что использование в теореме 12.5.5 не- нелинейной мажорирующей функции приводит к ненамного более сильным результатам, чем теорема о сжимающем отображении 12.1.2. Действительно, при выполнении условий теоремы 12.5.5, если х 6 S (а:0, /*), то \\Gx — x°\\ 4>\\Gx-Gx° — G' (х°) (х-*°)|| +1|Gx? — х°|| + (х-х?)\\ <4 так что G отображает S (;t°, t*) в себя. Далее, так что при xf у ? S (х°, /*) (yt* + 8)\\x-y\\. ' A0)
12.5 Гл. 12. Сжатия и нелинейные мажоранты 403 Следовательно, если а < 1/2, то yt* + б < 1 и G является сжа- сжатием на 3 (х°, t*). Кроме того, неравенство A0) показывает, что G строго нерастягивающе в S(x°, f 1 — б]/y), откуда следует единст- единственность в 5 (х°, [1 — б]/7) П ?>о- Так как A — 6)/у = (/* + ***)/2, то теорема 12.5.5 дает в этом случае более точное утверждение о единственности. Если же а = 1/2,то /* = /** и / + в=1, и тео- теорема о сжимающем отображении просто не применима; из A0) же вытекает единственность в шаре S(x°, t**) = S(x°, t*). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.5.1. Основные «мажорантные» теоремы 12.5.1 и 12.4.3 принадлежат Рейн- болдту [1968] и изложение в § 12.4—12.6 следует его работе. Все основано на трех идеях. Первая из них — идея «мажорирования», принадлежащая Канторовичу [1949]. Она состоит в том, что многомерный итерационный процесс сравнивается с другим одномерным процессом, из сходимости которого вытекает сходимость и первоначального процесса. (В этой связи см. также ЗС 12.6.1.) Вторая идея — это использование нелинейных функций в правой части неравенств A2.4.4) и A). Такие нелинейные оценки были впервые использованы Шредером [19566, 1957] (см. также изложение этих результатов у Коллатца [1964]), но во всех оценках Шредера всегда в конечном счете предполагалось, что процесс, с которым произ- производится сравнение, имеет вид s^ = ij) (s^), k = 0, 1,... . Оценки более общего вида, приводящие к нелинейному разностному уравнению B), были введены Рейнболдтом [1968]. Наконец, третья идея — применение итеративной разности G2x — Gx вместо Gy — Gx. Как уже говорилось в ЗС 12.3.1, такие итеративные разности использовал Гольдстейн [1967] при исследовании нерастяжений. На их важность при изучении сходимости процессов ньютонова типа было указано Ортегой [1968] и Рейнболдтом [1968]. ЗС 12.5.2. Теорема единственности 12.5.4 обобщает результат Шредера [19566] и принадлежит Рейнболдту [1968]. Теорема 12.5.5 также принадлежит Рейнбол- дту [19681. УПРАЖНЕНИЯ У 12.5.1. Пусть отображение F: D czRn -» Rn F-дифференцируемо в шаре S = = S (х°, г) с D и || F' (х) — F' (у) || < v II х — у \\ для всех х, y?S. Пусть, далее, матрица А ? L(Rn) невырождена и || / — A~~lF' (х°) ||< б < 1. Показать, что ес- если || A~l Fjc°||< г), a = Y^II^"ll/(l—6J< 1/2 и г >A — б) [1 — A — 2a)v«]/ /МИ"!), то итерации x*+1 = xk — Л-1/7**, к = 0, 1, . . . , лежат в S и сходятся к единственному решению уравнения Fx = 0 в 5 (х°, г'), где г' = min {г, A - б) [1 + A - 2а)^]1(у \\ А~х ||)}. У 12.5.2. Пусть отображение F: D с Rn -* Rn F-дифференцируемо в эвклидовом шаре 5 = S (х°, г) с D и удовлетворяет условию || F' (х) — F' (у) ||2 < у \\ х — у ^ для всех х, y?S. Предположим, что dhTh > /iTf (jc°) h > chTh, Vh?Rn, где d > с > 0. Показать, что если a = с2у \\ Fx\ < 1/2 и г > с [1 A — 2аУ/*]/у} то последовательность
404 Часть V. Полулокальная и глобальная сходимости 12.6 лежит в 5 и сходится к единственному решению уравнения Fx = 0 в S (#°, г')» где г' = min {r, d [1 + A — 2аI/2]/у} (Линьков, 1964а). 12.6. МЕТОД НЬЮТОНА И РОДСТВЕННЫЕ ЕМУ МЕТОДЫ В этом параграфе рассматриваются приложения развитой выше теории к важному частному случаю метода Ньютона, а также к не- некоторым родственным ему методам. Мы начнем со следствия теоре- теоремы 12.5.5 для упрощенного метода Ньютона Xk+i =xk — F' (x°)~lFxk, k = 0, 1, ... . A) 12.6.1. Пусть отображение F: D cz #"^/^-дифференцируемо на выпуклом множестве Do cz D и №'(х)-Р(уЦ<У1х-УЬ V*,yGD0. B) Предположим, что существует такая точка х° ? Do, что ||f (л0)"1 < <р и а = Ртт|<1/2, где r\>\\F (xo)~l Fx9\\. Положим t* = (Py) [I - A - 2a)V2], e* = фу)'1 [1 + A - 2a)V.] C) и допустим, что S (х°, ?*) cz Do. Тогда итерации A) корректно опре- определены, лежат в S (л:0, /*) и сходятся к решению х* уравнения Fx = = 0, являющемуся единственным в S (л:0, /**) П ?*о- - ; Доказательство. Рассмотрим отображение G: DoczRn-> -> Я", Gx = х — F' (x?)-lFx. Имеем G' (x) = / — F' (x°)~l F' (x), так что IIG' W - G' (y) I = 1F (х?Г1 [F (x) - F (y)] ||< <Ы*-у1 v*>y?D09 и Gf (л;0) = 0. Наше утверждение непосредственно вытекает поэтому из теоремы 12.5.5. Оказывается, что предположения этой теоремы являются также достаточными для доказательства сходимости самого метода Нью- Ньютона. 12.6.2. Теорема Канторовича о методе Ньютона. Пусть выполнены условия теоремы 12.6.1. Тогда итерации Ньютона xW = xk — F {xkylFx\ ft = 0, 1, ... f D) корректно определены, лежат в S (л?, t*) и сходятся к единствен- единственному на множестве S (л:0, t**) f| DQ решению уравнения Fx = 0. При этом имеет место оценка ошибки II** - **К (Р72Г1 BссJ\ ft = 0, 1, ... . E) Доказательство. Положим Dl = S(*°, (Py))П А>« Ясно, -что при х? D1
12.6 Рл. 12. Сжатия и нелинейные мажоранты 405 Следовательно, по лемме о возмущении 2.3.2 матрицы F' (х) не- невырождены при всех х ? Dx и || F (х)-{ || < р/A - pV II х - х» ||), \/xSDv F) В частности, если а<1/2, то **<(Py)"~1, поэтому отображение Gx = х — F' (x)~~x Fx определено на шаре S (x°, t*); если же а = = 1/2, то /* = (Py)" и G определено на шаре 5(а^, t*), В обоих случаях, если ху Gx ? S (х°, /*), то в силу 3.2.12 и F) || GH - Gx \\ = || F' (Gx)-1 F (Gx) \\ = = 1F (Gx)~x [F (Gx) -Fx-F (x) (Gx - x)] || < где Чтобы применить теорему 12.5.1, рассмотрим разностное уравнение Покажем, что уравнение G) имеет «первый интеграл» 4+i = if (tk), t0 = 0, k = 0, 1, ..,, (8) где <Ф (/) = (—Py^2 — t))/(Py/ — О- Действительно, умножая (8) на 1 — Py4> мы получаем после про- стых преобразований, что 4Л. ^ = 0, 1, •„, и, следовательно, Из (8) следует также, что tx = т\. Пусть теперь а< 1/2. Тогда функция г|э изотонна на [0, t*\ с cz [0, (Py)-1) и ^* является наименьшей неподвижной точкой функ- функции гр. Следовательно, в силу теоремы 12,5.3 и непрерывности гр мы имеем lim tk = ^*. Поэтому теорема 12.5.1 гарантирует, что точки хк все корректно определены, лежат в S (*°, t*) и сходятся к х*. Далее, поскольку S (л^, t*) a S (jc°, (Py)"*1), to отображение G
406 Часть V. Полулокальная и глобальная сходимости 12.6 непрерывно в х* и %* = Gx?. Отсюда в свою очередь следует, что F' (я*)" Лк* = 0 и, таким образом, Fx* = 0. Если а = 1/2, то /** = t* = фу) и i|>(/) = -i-tf + т). Ясно, что lk<Lt* при всех &>0, поэтому теорема 12.5.1 опять показывает, что существует lim xk = л? ? S (jc°, /*). Это лг* является решением fe-юо уравнения /\к = 0. В самом деле, || [F* И - f и, значит, в силу непрерывности отображения F, Fx* = lim Fxk = = 0. Утверждение о единственности уже было установлено в теоре- теореме 12.6.1. Чтобы получить оценку ошибки E), заметим прежде всего, что 'fe<ri2-*, fe = 0, 1, ..., (9) откуда сразу следует, что '*+! = 2 (/ +. - //) < Л S 2~7 = 2II - A/2*+*)] Л /=0 /=0 и, значит, 1/A -PY4+0 < 1/[1 -2аA -2"*)] <2fe+1. [Неравенство (9) доказывается по индукции: оно очевидным образом выполнено при k = 0, и так что выполним общий шаг индукции.] Далее, покажем (по индук- индукции) — и тем самым будет установлено E),— что P-tk «№*)'*№*)*, А = 0,1,... , Для k = 0 это вытекает из неравенства 1 — A — 2а)'/« < 2а, а об- общий шаг индукции выполним, поскольку l - Отметим, что функция г|) — это просто итерационная функция Ньютона для многочлена р (t) = A/2) $yt2 — t + г\ с корнями ** и
12.6 Гл. 12. Сжатия и нелинейные мажоранты 407 /**. Следовательно, последовательность {xk} мажорируется нью- ньютоновой последовательностью {tk} для /?. Заметим также, что в случае а < 1/2 возможна оценка ошибки вида \# — xk\<c\& — &-if% k>\. Действительно, из нашего доказательства следует, что в этом слу- случае || F' (xk) ||< р/A — $yt*) Для всех х ? S~(x°, t*)9 так что если то применима оценка A2.4.11) из теоремы 12.4.6. Теорему 12.6.2 можно обобщить на случай родственных ньюто- ньютонову итерационных процессов вида xk+\ = xk — A (xkrl Fxky k = 0, 1, ... . A1) При выполнении условий теоремы 12.6.4 разностное уравнение G) запишется так: 4+1 - /Л = A - рЛГ1 iPi ifk - t^x) + (p2 + aA-iI (tk - 4-0, Л =1,2, ..., A2) и мы сначала докажем следующую лемму, дающую достаточные условия для сходимости последовательности, являющейся решени- решением разностного уравнения A2). 12.6.3. Пусть д>0, *j=l,..., 4, РхХ), р8<1, Рз + Р*^2р1 и 0 < х\ <A — р2J Dрх) \ Тогда последовательность {tk}9 определяе- определяемая соотношением A2) с начальными условиями t0 = 0 и ^ = т), строго возрастает, если только г\ Ф 0, и - lim 4 = /* = BPlrl {(I - Л) - [A - р2J - 4Plr]]V8}. ft-» со Доказательство. Положим «(О = Р/-0-/>*)' +Л. »(/) = 1-М 4»@ = < + «@/о@. Если последовательность {/ft}c:[0, l//>4) удовлетворяет условию *ж = !>(/*), /0 = 0, * = 0, 1 ... , A3) то 4+i - 4 = -^ {« «*) - «D-0 - «' D-.) D - **-i) + + [о' (tk-i) + v (/»_,)] (/, - 4-0}• A4) Следовательно, A3) есть «первый интеграл» уравнения A2). Далее о (t) > 0 при 0 </</*, так как либо р4 = 0 и у (/) = 1, либо />4>0 И [(I - Р2J - 4/>,ti]
408 Часть V. Полулокальная и глобальная сходимости 12.6 Кроме того, v (t*) > 0, за исключением случая /?2 = р3 = 0 и Л = Dpi)~~l\ в этом же случае /* = Bр1)^1 и, применяя правило Лопиталя, мы найдем, что и (t*)/v (t*) = 0. Так как /* является наименьшим корнем уравнения и (f) = 0, то во всех случаях t* бу- будет наименьшей неподвижной точкой функции -ф и t|? (/) > / при 0 </</*. Выкладка, аналогичная A4), показывает, что Если 0 < /х = т] < /*, то по индукции tk< 4+i < ^* Для всех & > 0. Так как функция г|) непрерывна и не имеет неподвижных точек в [0, t*)9 отсюда следует, что lim tk = /*. | /г-юо Используя полученную лемму, мы можем установить следую- следующее обобщение теоремы Канторовича о методе Ньютона 12.6.2. 12.6.4. Пусть отображение F: D с Rn -> R /^дифференцируе- емо на выпуклом множестве DocD и \\F'(x)-F'(y)\\^ylx-yl x,y?D0. Пусть, далее, отображение A: Do с: Rn -> L (Rn) и точка х° ? Do, таковы, что при б0, бх > 0 Предположим также, что матрица А (х°) невырождена и 1Л (х0)-1 Fx° || < ц, \\А (л:0)1| < р, причем рб0 < 1 и а = —р*60J < 1/2, где а = max(l, [ji + бх]/7). Положим _ 1 - A - 2а)^' Л ,** _ 1 + A - 2а/о)У« ал ' ~ а 1-рб0 ' f - а i_pa0 ' A5) Если S (х°, /*) с: Do, то последовательность {я*}, определяемая соотношением = xk — A (xkrl FA k = 0, 1, ..., A6) лежит в S (к0, ^*) и сходится к решению х* уравнения Fx == 0, являющемуся единственным в Do f] S (jc°, t**). Доказательство. При x?S (jc°, /*) имеем \\А (х) - А (**)[ < ix\\x - jfl\ < lit* < oyt* < A - Рбо)/Р < I/P. Следовательно, по лемме о возмущении 2.3.2 матрица А (х) невы- невырождена и 1 А (хГ1
12.6 Гл. 12. Сжатия и нелинейные мажоранты 409 Поэтому Gx = х — А (х)~] Fx определено при х ? 5 (х°, /*), и если х, Gx?S (x°, t*), то \\&х - Gx || = || - А (Ох) F (Gx) || < , _ P|i, j^ _ ^ III F (Gx) - -Fx-F' (x) (Gx -x)\\ + 1 (F (x) - A (x)) (Gx — x)\]< Поскольку Py < PYa и PSi < $yo — Pjli, отсюда следует, что если х, Gx?S {x°f /*), то || GH -Cx|<? A Gx - x ||, || Gx - x°||, \x где Ф (и, v, w) == 1_1p|A0 |4" Pvto + PS0 + P (ay — Случай т) = 0 можно отбросить, так как в этом случае Fx° = 0. Поэтому теорема 12.6.3 показывает, что решение разностного уравнения tk+i — tk = ф (tk — tk-u tk, 4_i), fe = 0, 1, ..., ^ = 0» к = Ч. удовлетворяет условиям lim tk = t* и tk <. t*, k > 0, где /* задается формулой A5). Из теоремы 12.5.1 следуют теперь включение [xk] a S (л;*, /*) и сходимость последовательности A6) к%* g S (jc°, /*). Наконец, из неравенств | [A (xk) - А (х0)] (/+1 - /) 1 + И (*°) (^+1 - **) II < вытекает, что Fa:* = 0. Единственность имеет место в силу теоре- теоремы 12.5.5, примененной к упрощенному процессу xk+x = л^ — -л^г1/7**, * = о, 1, .... | В частном случае А (х) = F' (х) мы получаем |х = у, б0 = 6Х = = 0 и a == 1, так что теорема 12.6.4 сводится к теореме Канторо- Канторовича о методе Ньютона 12.6.2, правда без оценки скорости сходи- сходимости E). В заключение этого параграфа применим теорему 12.6.4 к одно- шаговому итерационному процессу Ньютона — ПВР /+1 = хк - со [D (/) - ©L (хк)Г1 Fx\ k = 0, 1, .,., A7) обсуждавшемуся в § 7.4. Здесь, как обычно, D (x)y —L (х) и —U (х) — соответственно диагональная, строго нижняя треуголь- треугольная и строго верхняя треугольная составляющие матрицы F' (х).
410 Часть V. Полулокальная и Глобальная сходимости 12.6 12.6,5. Пусть отображение F: D с Rn -^ Rn /^-дифференцируемо и удовлетворяет на выпуклом множестве DoczD условию || F' (х) - F(y) I <у\х- у\\ь V х, у 6 Do, . где используется /i-норма. Пусть, далее, при некотором х° g Do выполнены оценки | [D (х°) - coL (х*)]-'1 < р/со, | ?/ (jfi) ||, < б, || D (х«) \\г < б, || [D (х°) - coL (х°)Г] Fx° I < л/со, причем в = Рт8 < 1, а = 2т|3Тл/A - бJ < -i- > где т = 1 + 11 — со1. Положим ,**= Pv ]1/2\ и допустим, что S (х°, /*) с: D. Тогда итерации Ньютона — ПВР A7) корректно определены и сходятся к единственному на Do [) П 5 (х°, /**) решению лс* g 5 (х°, /*) уравнения Fx = 0. Доказательство. Заметим прежде всего, что, в силу выбора нормы, матрицы D (x)y D (х) — L (х) и U (х) непрерывны по Липшицу в Do с той же самой постоянной у, что и у F'. Положим А (х) = со" D(x) — L (х) = D(x)—L (х) + (со" -, 1) D (х). Тогда || Л (*) - А (х«) I < || [D (х) - L (х)] - [D (х°) - L (х0)] \\х + + Ico-1 - 11 \D(x) - IF (х) - А (х) I = 1 (о) -l)D(x) + U (х) I < 11 - со | • •II ?> (*) Hi + W (х) I < | со - 1 | [Ц D (x°) I + \D(x)-D (x°) IJ + Следовательно, применима теорема 12.6.4 с \х = %у, б0 = тб, 8г = = ту, а = 2т, откуда и следует наше утверждение. | Заметим, что теорема 12.6.5 остается справедливой также в /оо-норме или, более общо, в любой норме, для которой || С (| < J В |, если С — подматрица матрицы В.
12.6 Гл. 12. Сжатия и нелинейные мажоранты 411 ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 12.6.1. Исследование сходимости метода Ньютона имеет длинную историю. Как уже говорилось в ЗС 10.2.1, результаты о точках притяжения восходят к про- прошлому веку, но только Файн [1916], по-видимому, первый доказал сходимость метода Ньютона в я-мерном случае, не предполагая существования решения. Его условия похожи на условия теоремы Мысовских 12.4.6, в частности, у него предполагается, что производная F' (х) обратима на некотором подходящем шаре 5. В том же году Беннетт [1916] сформулировал близкие результаты для случая операторов в бесконечномерных пространствах, но за доказательствами отослал к Файну. За этим исключением статья Файна осталась незамеченной, и двадцать лет спустя Островский [1936] получил независимо новые теоремы сходимости и рассмотрел оценки ошибок. Одновременно с ним Уиллерс [1938] также получил похожие теоремы сходимости. Хотя оба эти автора отмечают, что их результаты непосредственно переносят- переносятся на общий случай п измерений, сами они представили их только для случаев п = 2 и п = 3 соответственно. Буссманн [1940] в неопубликованной диссертации доказал эти результаты и некоторые их обобщения для случая произвольного п. Теоремы Буссманна приведены у Ребока [1942]. Затем Канторович [1948а, б] получил свои знаменитые результаты о сходимости метода Ньютона в банаховых пространствах. Главным его результатом является теорема 12.6.2. Годом позже Канторович [1949] дал новое ее доказательство, впервые использующее принцип мажорирования (см. также Канторович [1951а, б] и Канторович и Акилов [1959]). Говорят, что операторное уравнение х — Gx в банаховом пространстве X мажори- Гуется действительным уравнением t = ф (/), если ||С*° — х° || < <р(/°) и G' (*)|К<р' (t) при || х — х° || < t — t°. В предположении такого мажорирования сходимость процесса л^ = Gxk в X выводится из сходимости одномерного про- процесса tk+l = ф (tk) в R1. Хотя этот подход оказывается эффективным при изучении метода Ньютона, он существенно основан на требовании, что мажорирующий процесс имеет тот же самый вид, что и основной процесс, а это является серьезным ограничением, когда дело касается итераций более общего вида. Это обстоятельство привело Ортегу [1968] к новому доказательству сходимости для метода Ньютона, а Рейнболдт [1968] построил общую теорию сходимости для процессов типа Ньютона. Доказа- Доказательство теоремы 12.6.2 взято из этих двух работ, а теорема 12.6.4 впервые была доказана в последней из них. Оба эти результата и их доказательства остаются справедливыми в случае банаховых пространств, при условии, что F' (х)"" и А(х)~~1 являются ограниченными линейными операторами на всем пространстве значений. Относительно других обобщений мажорантного принципа Канторовича см. Альтман [1961 в]. ЗС 12.6.2. Метод Ньютона применялся ко множеству функциональных уравне- уравнений, и здесь не представляется возможным перечислить все относящиеся сюда публикации. Что касается приложений к интегральным уравнениям, см. сборник под редакцией Анселоне [1964] и, в частности, статьи Мура [1964J и Нобла [1964]. По поводу двухточечных краевых задач см., например, книги Хенричи [1962], Келлера [1968] и Э. Ли [1968]. Относительно эллиптических краевых задач см. Беллман и Калаба [1965] и Коллатц [1964]. Отметим, что теорема Канторови- Канторовича о методе Ньютона и близкие к ней результаты часто использовались для уста- установления теорем существования; см., например, Мозер [1966] и Мамедов [1965]. ЗС 12.6.3. Применение теоремы 12.6.2 или аналогичных теорем для получения оценок ошибок требует знания различных величин, таких, как постоянная Лип- Липшица, из B); их вычисление обычно представляет собой нелегкую задачу. Резуль- Результаты в этом направлении, а также машинные программы имеются, например, У Ролла [1969], Лора и Ролла [1967] и Перейры [1967а]. Заметим, в этой связи, что иногда удобно рассматривать х° из теоремы 12.6.2 как последнее вычисленное приближение к **, так что неравенство F) дает оценку ошибки |) х* — х° ||<
412 Часть V. Полулокальная и глобальная сходимости 12.6 < 2oc/(Py). Иными словами, производят вычисления но методу Ньютона до тех пор, пока для итераций не будет выполнен какой-нибудь стандартный критерий сходимости, скажем || Fxk || < е или [| xk — д^"1| < 8, а затем переименовывают найденное приближенное значение решения xk в х° и применяют теорему 12.6.2 для вычисления окончательных узких границ ошибки. Дополнительные сведения обо всем этом, а также изложение вопроса о влиянии ошибок округления при ис- использовании метода Ньютона можно найти у Лэнкастера [1966]. ЗС 12.6.4. Для различных методов типа секущих и Стеффенсена также были полу- получены теоремы, аналогичные теореме 12.6.2. Среди авторов таких теорем упомянем Биттнера [1963], Ченя [1964], Джонсона и Шольца [1968], Коппеля [1966], Шмидта [1963а]и Ульма [1964в, 1965а]. (См. также ЗС 11.2.2.) Однако основанный на прин- принципе мажорирования подход, обсуждавшийся в § 12.4—12.5, вообще говоря, не приводит к успеху в получении этих результатов. Кавана [1970] заметил, что для мажорирования таких процессов нужно рас- рассматривать не одно разностное уравнение, с помощью которого для последователь- последовательности {xk} строится мажорирующая ее последовательность {4}, а систему нели- нелинейных разностных уравнений относительно нескольких переменных. При этом k-e значение какой-либо из этих переменных служит границей для некоторой вели- величины, появляющейся на k-м шаге итерации. Кроме того, одна из этих переменных или комбинация нескольких из них дают оценку вида -** К s*. k = 0, 1, ... . Гаким образом, последовательность 'и-l = sk + tki t0 = 0, tx = s0, k = 0, 1, . . ., снова представляет собой мажорирующую последовательность для {xk} в смысле определения 12.4.1, и возникает задача нахождения для этой системы разностных 00 уравнений подходящих начальных условий, при которых ^sk и, следователь- следовательно но, lim tk остаются конечными. Тогда по лемме 12.4.2 последовательность {xk} k-?0Q СХОДИТСЯ. Так, например, для двухточечного метода секущих xk+l = xk - J (х\ л**1 -**Г! F**, k = О, 1 Шмидт [1963а] доказал, при некотором условии на разделенные разности функции J (см. ЗС 7.2.6), теорему сходимости, основанную по существу на использовании системы разностных уравнений Здесь T]fe дает границы изменения величины J (xkt xr~l — #*) при переходе от k к k + 1, а о роли Sk уже говорилось выше. За подробностями отсылаем читателя к работе Каваны [1970], где с помощью общего мажорантного подхода доказаны также соответствующие результаты Джонсона и Шольца [1968] о сходимости ме- метода Стеффенсена. Разнообразие систем разностных уравнений, которые могут возникать в связи с различными итерационными процессами, препятствует созданию исчерпывающей теории такого общего мажорантного подхода.
12.6 Гл. 12. Сжатия и нелинейные мажоранты 413 УПРАЖНЕНИЯ У 12.6.1. Показать, что в предположениях теоремы 12.6.2 /?-порядок последова- последовательности {***} равен по меньшей мере двум при условии, что а < 1/2. У 12.6.2. Рассмотрим квадратный трехчлен Fx = (у/2) х2— A/Р)* + т]/Р от одной переменной. Взяв х° = 0, показать, что утверждение единственности в теореме 12.6.1 является неулучшаемым. У 12.6.3. Применить теорему 12.6.2 к разностной двухточечной краевой задаче из У 12.1.5. У 12.6.4. Пусть p°it i = 1, . . . , 4, и т]° — какой-либо набор коэффициентов и начальное значение, удовлетворяющие условиям леммы 12.6.3, и {/?} — соот- соответствующее решение разностного уравнения A2). Показать, что если 0 < pt < ^ р9, i = 1, . . . э 4, и 0 < г] < т)° — некоторый другой набор коэффициентов и другое начальное значение, a {tk} — соответствующее решение уравнения A2) при tQ = 0, то lim tk < lim t\ . У 12.6.5. Заменим в теореме 12.6.4 приведенное там условие на А (х) — — F' (х) условием || А (*°) — F' (х) \\ < 60. Показать, что || F' (х) — А (х) || < ^ \ + (V + V) IIх — х° II Для всех х 6 А) и что' следовательно, результат оста- остается верным при а = 1 + 2/ У 12.6.6. Пусть отображение F: D с Rn -* Rn непрерывно, отображение /С: D ClRn -> Rn F-дифференцируемо в шаре S = S (x°, r) cz D, причем || К' (х)— - К' Ш < Y \\Х~У1 и || (Fx - Кх) - (Fy - Ку) || < Цх — у\ при всех х, у ?S. Предположим, далее, что Ц К' (а;0)" || < р, || К (х0)^1 F)fi^r\, Рб < 1, а = Ртл/A - Р6J < 1/2, г > г] [1 - A - 2аI/2]/[а A - Р<5)]. Тогда итерации **+* = х* — /С' (я0) F«* и xfe+1 = х* — /СЧ^) ^Д лежат в 5 и сходятся к единственному решению уравнения Fx = 0 в S (я0, г')> где г' = min {г, т| [1 + A — 2аI/г]/[а A — рб)]} (Зинченко [19636]). У 12.6.7. Пусть отображение F: D a Rn -* Rn F-дифференцируемо в шаре 5 = = 5 (х°, г) с D, причем || F' (х) — F' (у) Ц < у\х — у II для всех х, у ? S, и Р: L(/?n) -> L (i?n) — такой линейный оператор, что (для индуцированной на L (Rn) нормы) || Р || < 1 и || / — Р [| < 1. Предположим, далее, что II (PF (лго))-1 || < р, IF' (*°) || < б, \\ (PF' (х°)Г1 Fx»\\ < г], рб < 1, а = = 2р7Л/A ~ рбJ < 1/2 и г > г\ [1 - A - 2а)^]/[а A - 2рб)]. Тогда итерации л^Н == xk — (PF' (*fe)p! Fxk, k = 0, 1, . . . , лежат в S и сходятся к единственному решению уравнения Fx = 0 в S (х°> г')^ где г' =r min {г, х\ [1 + A — 2аI/2]/[ос A — рб)]}. Применить этот результат к случаю, когда РА = diag А для всех А ? L (Rn), а норма монотонна (Брайян ЦУ64])
Глава 13 СХОДИМОСТЬ И ЧАСТИЧНОЕ УПОРЯДОЧЕНИЕ 13.1. СЖАТИЯ И ЧАСТИЧНОЕ УПОРЯДОЧЕНИЕ В гл. 12 сходимость итерационной последовательности {а*} к своему пределу х* «измерялась» при помощи нормы в Rn. В некото- некотором смысле это означает, что мы интересуемся только поведением наиболее плохо сходящихся последовательностей компонент {**}, i =1, ..., я, и, когда дело касается оценок ошибок, создает опре- определенные неудобства. Для того чтобы получить меру сходимости, отражающую поведение отдельных компонент, удобно использо- использовать вектор абсолютных величин в Rn- 1*1 = (l*i I, I*. I, .... |*n|)T. x?Rn. A) Напомним (см. § 2.4), что естественное частичное упорядочение в Rn определяется так: х < у (х, у? Rn) тогда и только тогда, когда Х( < у^ i = 1, . . . , л. B) Свойства этого частичного упорядочения приведены в п. 2.4.1. Напомним также, что в п. 2.4;2 перечислены следующие свойства вектора абсолютных величин A): |*|^0, V * ? Rn, причем | х \ = 0 тогда и только тогда, когда х = 0;(За) |ах| = |a||*l, V x?Rn, а?/Р; C6) \Х + У\<\х\ + \У\, Yx,y?Rn. (Зв) С помощью этого частичного упорядочения можно теперь опреде- определить соответствующее понятие сжатия. 13.1.1. Определение. Отображение G: D с Rn -> Rn называется Р-сжатием (или Р-сжимающим) на множестве Do с D, если суще- существует линейный оператор Р ? L (Rn), такой, что Р>0, р(Р)<1, D) P\x — y\, V *, y?D0. | E) Теорема о сжимающем отображении 12.1.2 естественным образом распространяется на Р-сжатия. Напомним (см. 2.4.5), что (/ _ Р)-1 « f р > о, 2 р1 < (/ _ Р)-1, у * > 1. F) u0 iO
13.1 Гл. 13. Сходимость и частичное упорядочение 411 13.1.2* Пусть отображение G: D а /?*-> Rn является Р-сжатие1\ на замкнутом множестве Do с: D и GD0 cz Do. Тогда для любоп х° ? Do последовательность /+1 = G/, fe = 0, 1, ..., G сходится к единственной неподвижной точке отображения G в D и имеет место оценка ошибки \xk-x*\<(I-Р)*1 P\xk-xk~ll 6=1, 2, .... (8 Доказательство проводится точно так же, как и в тео реме о сжимающем отображении. В силу F) < (/ - РГ1 Pk | jc1 - х? |, 6, m > 0. (9 Следовательно, {jc*} является последовательностью Коши и, значит сходится к некоторому х* ? Do. Так как то х* =Gjc*. Оценка ошибки (8) немедленно получается непосред ственно из (9) при m ->- оо. Наконец, если у* ? Do — какая-либ( другая неподвижная точка отображения G, то | х* - у* | = | Gx* ~ Gr/* |< Я | ** - */* |, откуда (/ — Р) | лг^ — у* | < 0 или | л:* — у* | < 0, поскольк; (/ _ ру1 > о. Итак, х* = у*. | Вот типичное приложение этой теоремы. Предположим, что ком поненты gi9 i= 1, ..., /г, отображения G: Rn ->• Rn удовлетво ряют условию п I gi (Уи • • • , Уп) — gt (xi9 . .., ^)|<2 Ра | У/ — */|, i = 1, ... , п, ГДе Ри >0, iy / =1, ..., л. Если положить Р —(рц) ? L (Rn) то это эквивалентно неравенству \Gy-Gx\<P\x-y\. Таким образом, если р (Р) < 1, то при любом х° ? Rn итерации G сходятся к единственной неподвижной точке х* отображения G i Rn и имеет место покомпонентная оценка ошибки (8).
416 Часть V. Полулокальная и глобальная сходимости 13.1 В качестве более интересного приложения мы получим теорему глобальной сходимости для нелинейной итерации Якоби, рассмот- рассмотренной в § 7. 4. Напомним, что определения М-матрицы, диагональ- диагонального отображения и изотонного отображения даны в п. 2.4.7, 1.1.1 и 2.4.3 соответственно. 13.1.3. Глобальная теорема о методе Якоби. Пусть A cz L (Rn) — некоторая ЛГ-матрица и ф: Rn ->¦ Rn — непрерывное диагональ- диагональное изотонное отображение. Положим Fx = Ах + Фх- Тогда для любого со ? @, 1] и любого х° ? Rn последовательность Якоби {xk}, задаваемая правилом п решить уравнение аи xi + ф* (л^) + ^ ац */ = О относительно х^ взять xf+l = х\ + со (xi — х\), / = 1, . . . , п\ k = О, 1, . . . , корректно определена и сходится к единственному решению х* урав- уравнения Fx = 0. Доказательство. Пусть D — диагональная часть мат- матрицы А =(%). Положим В =D — Ли ri (f) = aid + ф; (/), i = 1, ..., пу i ? R1. A1) Так как, согласно 2.4.8, аи > 0 и так как все функции ф, изотонны, то каждое rt является взаимно однозначным отображением R1 на R1. Поэтому, в частности, последовательность A0) корректно опре- определена и оператор D -\-ф имеет обратный, определенный на всем Rn- Положим G: Rn -> Rn, Gx = A — со) х + со (D + ф)'1 Вх. A2) Точка х* будет неподвижной точкой отображения G тогда и только тогда, когда Fx* =0. Далее, поскольку A0) можно переписать в виде (D + ф) [xk + A/со) (/+1 - xk)} - Bxk = 0, k - 0, 1, ..., итерации ** удовлетворяют соотношению xk+l =Gxk, k =0, 1, .... Для того чтобы показать, что G является Р-сжатием, заметим, что в силу изотонности функций ф. при всех tl9 t2 g Z?1 и i = 1, ..., п. Следовательно, для произ- произвольных slf s2 g R1 и ^ = гГ1 (sx), ^2 = гГ1 (s2) \rTl (sx) - rTX (s2) | < (\/au)\ s1 — s2\9 i = 1, ..., n, A3) или \(D + фГ1 x - (D + фГ1 y\ < D-1 \*- y\, Vx, y?R\
13.1 Гл. 13. Сходимость и частичное упорядочение 41? Отсюда в свою очередь вытекает, что I Gx - Gy |< | A — со) (х - у) | + со | (D + ф)-1 Вх - -(D + фГ] Ву\ < <[A -со) +<*D-] В]\х-у\ = = Р\х-у\, Vx, y?R\ где Р = A — со) / -f- coZ)" В >- 0. Так как равенство Л = A/©) D — A/со) [A — со) D + cofij представляет собой регулярное расщепление матрицы А иЛ~!>0, то по теореме 2.4.18 р(Р) < 1. Поэтому применима теорема 13.1.2. | Соответствующий результат справедлив также для нелинейной ПВР-итерации. Он будет получен ниже как следствие следующей теоремы для неявного процесса xk = Gk{x\ хкЛ *= 1, 2, .... A4) где операторы Gk определены на R" x Rn> 13.1.4. Пусть отображения Gk\ D x D a Rn x Rn¦-> /?n, ft = = 1, 2, ... , удовлетворяют на некотором множестве Do c= D условиям I <?*(*, z)~Gk(y, z)\KQ\x-y\, A5) V х, у, z ? DOi \Gk(z, x)-Gk(z9 y)\<R\x-y\, A6) где матрицы Q, R ? L (Rn) неотрицательны, p (Q) < 1, p (P) < 1 и P = (/ — Q)" /?. Для заданного отображения G: D a Rn -> Rn положим #*: D^Rn-> Rn, Hkx = | Gk (x, x) — Gx\, k = 1, 2, „., и допустим, что lim Hkx = 0, V* € ?V (I7) Пусть, далее, /f Do- такая точка, что уравнение х = G, (х, х°) имеет решение ^ f Do и S= {Jce/?"|U —Jc4<tt = (/ — P)—J (Я | jc1 — x°\ + + 2A- Qr] v)} с Do, где v > //^ (л:1), & == 1, 2, .... Тогда уравнения x=Gk(x, xk~l)> k= 1, 2, ..., A8) имеют единственные решения xk ? S и lim ** = **, где #* ? 5 — единственная неподвижная точка отображения G в Do, 14 Лж Оотега. В. Рейнболдт
418 Часть V. Полу локальная и глобальная сходимости 13.1 Доказательство. Для х, у ? Do и k > 1 | Gx - Gy |< \Gx - Gk (x, x) | + | Gk (x, x) - Gk (x, у) | + + \Gk (x, y) - Gk (y, y)\+\Gk (y, y)-Gy\< <(Q + R)\x-y\ + Hkx + Hky. Так как k можно взять произвольно большим, из A7) следует, что \Gx — Gy\<T\x — y\, Yx,y?D0, где Т = Q + R. Очевидно, что / — Т = (I — Q) (I — Р), и так как р (Р) < 1, р (Q)< 1 и Р, Q > 0, то (/ _ Г) = (/ - РГ1 (/ - Q)-1 > 0. Следовательно, по теореме 2.4.5 р (Т) <. 1. Таким образом, G явля- является Г-сжатием на Do. Покажем, что G отображает множество S в себя. Пусть х g S. Тогда | Gx — х11 < | Gx — Gx11 + I Gx1 - Gt (*\ л:1) | + + | G, {x\ x1) - Gt (x\ x°) |< < T | x — x11 + Я, (x1) + Я | x1 — x° | < Tu + + v + RU1 — x°\ = [(Q + R)A — P)~] P+ R]x x\xi - xo\ + [2(Q + R) (I -р~1)A -Q)-1 + l]v < < (/ - Я) [P\ xl - x° | + 2 (/ - О) o] = «, поскольку, как показывают простые вычисления, (Q + #)(!- РГ1 A - QF1 +/ = (/- Р)-1 (/ - Q)-1, A9) (Q + R)(I - Р)-1 Р + Я = (У - Р)-1 Р. Следовательно, по теореме 13.1.2 отображение G имеет неподвиж- неподвижную точку х* в S, являющуюся единственной в Do. Докажем теперь, что если х, у ? S, то Gk (x, у) ? S, или, ины- иными словами, что Gk (•, у) для каждого фиксированного #?5 ото- отображает S в себя. Пусть х, у ? S. Тогда, снова используя тождест- тождество A9), получаем \Gk(x, y)-x1\^\Glt(x> y)-Gk(x, x1)\ + \Qk{x, x1) - -Gk(x\ xi)\ + \Gk{xi, *)-Gx1\ + + | Gx1 - d (дс1, x1) | + | G, (x1, x1) - Gx (x1, < R\y- x^ + Qlx- xl\ + Ньх1 + HlX* +R\xi-x < KQ + /?)(/ -РГ1 P + R] \x1-x°\ + + l(Q + R)(l- РГ1 (/ - (/ — РГ1 [PI*1 -*°| + 2 (/ — Q) yj = w.
13Л Гл. 13. Сходимость и частичное упорядочение 419 Таким образом, из A5) и теоремы 13.1.2 вытекает существование решения х* уравнения A8) в S и единственность его в Do. Наконец, | xk - х* |< I Gk {x\ /-1) - Gk (х*, /-1) \ + \Qk (x\ /-1) - - Gk (**, х*) | + I Gk (x*, х*) — или | ** _ **|< P|/-! - ** I + (/ - Qr] Hkx*. Положим для краткости ик= |^— ^* |, vk = (I •— Q)~l Hkx*. Тог- Тогда в силу A7) lim vk = 0 и, кроме того, /г-юо и* < Я^~? + ^ < • • • < Pku» + S ЯЛ-; о'. В силу теоремы 2.2.8 можно выбрать такую норму, что || Р(| < J. Пусть 11>*| < е при k > &0. Тогда откуда lim и" = lim | xk — х* \ = 0. | ?-юо Л-voo Заметим, что, в случае когда операторы Gk не зависят от первой переменной, т. е. Gk (x, у) ^ Gky, мы имеем дело с итерацией / = G^-\ ft=l, 2, .... B0) В этом случае Q =0, Я =/? и теорема 13.1.4 утверждает по суще- существу, что если все отображения Gk являются R-сжатиями и lim Gkx = Gx при каждом х ? Do, то хи сходятся к х*. ?-»-оо В заключение этого параграфа применим теорему 13.1.4 к нели- нелинейной ПВР-итерации решить auxi + ф, (xi) + 2j ai,-xi + 2 aijxi ^ ^ относительно ^, взять *f+1 = Aff + со (xi — a^), i == 1, . . . , n; k = 0, 1, . . ., для уравнения Ах 4- <px == 0. 13.1.5. Глобальная ПВР-теорема. При выполнении условий теоремы 13.1.3 последовательность {л:*}, задаваемая правилом B1), корректно
420 Часть V. Полу локальная и глобальная сходимости 13.1 определена при любых *° ? Rn и со ? @, 1] и сходится к единст- единственному решению х* уравнения Fx = 0. Доказательство. Пусть снова функции rt выбраны, как в A1). Определим компоненты g? отображения Go: /?" х Rn-+Rn соотношением / i—1 п g°i (х, у) = A — со) #, + согГ1 — 2 а*/*/ ~ 2 0i7 I = 1, ..., П. Ясно, что последовательность {xk}, задаваемая правилом B1), удовлетворяет соотношению xk+l = Go (/+1, xk)y k = 0, 1, .... Чтобы применить теорему 13.1.4, заметим прежде всего, что Go (*, х) = A ~ со) х + со (D + 0) Вл: = G^, где опять D — диагональная часть матрицы Л, В =D — Л, а отображение G задается формулой A2). Напомним, что х* будет неподвижной точкой отображения G тогда и только тогда, когда Fx* =0. Так как в нашем случае Gk s Go при & > 1, то условие A7) теоремы 13.1.4 выполняется автоматически. Далее, в силу A3) \g°i(x, z)-gl0(y. г)\ = A—1 П \ / 1—1 /=1 /=Н-1 / \ ,=1 I '-1 CO у - {/,) ?—1 < _S_ g (- at,) \x,-y,\ при i = 1, ..., и, поскольку а/? < 0 при t =5^ /. Поэтому | Go (je, z) - Go (y, z) I < wD-1 L|*-|/|aiQ|;c — y|, V x, у, г б /?" , где —L и —U обозначают строго нижнюю и строго верхнюю тре- треугольные части матрицы А. Аналогично выводим, что \g°i (г, х) - gi (г, у) | < A - со) | х, - у, \ + поэтому |G0 B, I г со аи /= -Go у =1+1 B, у) к — у ю I, -со) V*, / + © «/, 2 D~l U]\x — ZR".
13.1 Гл. 13. Сходимость и частичное упорядочение 421 Следовательно, выполняются условия A5) и A6) с Q = wD"! > О и R =A — со) / + (oD~"xU > 0. Так как матрица А является М-матрицей и равенство А = A/со) (D - coL) - A/@) [A — ш) D + cot/] представляет собой ее регулярное расщепление, то теорема 2.4.18 показывает, что р (Р) < 1, где Р =(/ — Q)" /?, и, очевидно р (Q) =0. Итак, все условия теоремы 13.1.4 выполнены. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 13.1.1. Итерационные процессы в частично упорядоченных пространствах впервые изучались, по-видимому, Канторовичем [1939]. Этому предшествовала работа Канторовича [1937] о топологических свойствах частично упорядоченных линейных пространств. В случае бесконечномерных пространств именно эти топо- топологические свойства, а точнее связь между топологией и частичным упорядочени- упорядочением, играют решающую роль при изучении процессов сходимости. Канторович в своей статье 1939 г. использовал то, что теперь называют «порядковой сходи- сходимостью»; в этой связи см. также Биркгоф [1948]. ЗС 13.1.2. Шредер [1956а] первым доказал обобщенную теорему о сжатии для пространств, метризованных с помощью элементов некоторого частично упорядо- упорядоченного линейного пространства. Такие пространства Коллатц [1964] называет псевдометрическими. Шредер обошел топологические трудности, возникающие в случае использования частично упорядоченных пространств, определив сходи- сходимость последовательностей с помощью некоторого числа явных аксиом. Позднее Боль [1964, 1967], а также Вандерграфт [1967] детально исследовали различные топологии в частично упорядоченных линейных пространствах, обладающие свой- свойствами, удобными при изучении сходимостного поведения итерационных процес- процессов. В случае конечномерных пространств указанных топологических проблем не возникает и все результаты значительно упрощаются. Это позволило нам дать простое доказательство теоремы о Р-сжатии 13.1.2, являющейся частным случаем общей теоремы Шредера [1956а]. ЗС 13.1.3. Теорема 13.1.4 установлена в работе Ортега и Рейнболдт [1967а]. В последнем параграфе этой работы также говорится о некоторых топологических проблемах, связанных с обобщением этой теоремы на случай бесконечномерных пространств. ЗС 13.1.4. Берс [1953] первым получил результаты о глобальной сходимости нелинейных методов ПВР и Якоби для разностных аналогов квазилинейной крае- краевой задачи Аи = / (и, «s, w/), и = g на границе. Теоремы 13.1.3 и 13.1.5 являются в существенном частными случаями результатов Берса. Хотя Берс и считал, что со = 1 и что отображение ф дифференцируемо, он не предполагал, что ф диагонально. Результаты, приведенные в тексте, появились в таком виде в статье Ортега и Рейнболдт [1970а]. ЗС 13.1.5. Теоремы 13.1.2 и 13.1.4 остаются обе справедливыми и в случае, когда рассматриваются некоторые частичные упорядочения более общего вида. В част- частности, можно было бы рассмотреть такое упорядочение: х < у, если 2 сч*1 < 2 °цУЬ 1 = * п> где С = (сц) — невырожденная матрица (см. также ЗС 2.4.3).
422 Часть V. Полулокальная и глобальная сходимости 13.2 УПРАЖНЕНИЯ У 13.1.1. Обобщить все результаты 12.2 на случай Р-сжатий. У 13.1.2. Показать, что в условиях теоремы 13.1.3 отображение F: Rn -> Rn является взаимно однозначным отображением пространства Rn на себя. У 13.1.3. Применить теоремы 13.1.3 и 13.1.5 к уравнениям A.1.7) и A.2.5) в пред- предположениях п. 4.4.2 и 4.4.3 соответственно. У 13.1.4. Показать, что в условиях теоремы 13.1.2 \Gkx-Gky\*ZPk\x-y\, Vx,y?D0, Л = 1. 2 Вывести отсюда, что в /^-норме \\Gkx — Gky\\ < \\Pk\\ \\x — у% и затем дока- доказать сходимость последовательности G) с помощью теоремы 12.1.1. У 13.1.5. Пусть отображение G: Rn -* Rn непрерывно и | G2x — Gx \ < Р | Gx — х I v х ? Rn, где матрица Р ? L (Rn) удовлетворяет условиям D). Показать, что последователь- последовательность G) сходится к неподвижной точке х* отображения G и что выполняется оцен- оценка (8). У 13.1.6. Пусть отображение G: Rn -* R'1 удовлетворяет неравенствам | gt (xv . . . , xit zi+v . . . , zn) — gi (yv ..., Уь zl+v . . . , zj\< i < ^S ft/1 *i ~ У11« I gi (ZV . . . , Zb Xi+\f ...» Xn) — gi fo Ziy УС+\> . . . . Уп) I < < 11 ГЧ\Х,-У,\ для i = 1, ..., n и всех х, у, z? Rn. Указать условия на Цц и r(j-t при которых теоре- теорема 13.1.4 применима к итерационному процессу Гаусса — Зейделя 13.2. МОНОТОННАЯ СХОДИМОСТЬ В этом параграфе будут рассмотрены основные результаты о монотонной сходимости итерационных процессов. Для краткости на протяжении оставшейся части настоящей главы запись xk \ x *, &->оо, означает, что х° > х1 > ... > xk > /+1 > • • • > х*, lim / = jc*. ft-* ©о Аналогичный смысл имеет обозначение х* f x*, fe->co.B обоих случаях мы будем говорить, что последовательность {xk} монотон- монотонно сходится к х*. Далее, для любых х9 у ? Rn, таких, что х < у, определим порядковый интервал формулой
13.2 Гл. 13. Сходимость и частичное упорядочение 423 Наша первая теорема дает способ находить границы решений опера- операторных уравнений. 13.2.1. Пусть /С, Н: D с Rn ->- Rn — изотонные отображения и *° < У°у (*°> У°) <= D. Рассмотрим итерации /+1 = /(/ _ #*Д yk+x = /С/ - Я/, к = О, 1, и предположим, что jc° < л;1, у0 > у1. Тогда найдутся такие точ- точки ** и у*, что л? < л;* < у* < t/° и xk f **, t/* | у* при й -> -> оо. При этом любая неподвижная точка и оператора Gx = = Кх— Нх в (х°, у0) лежит в (л:*, у*). Доказательство. Покажем по индукции, что из неравенств ? < yky ^+I > xk и yk+l < yk вытекают неравенства /+] < ykJrX , 2 ^+1 и yhJr<1 < i/fc+1. В самом деле, в силу изотонности Kxk - Hyk = yw = Kyk+l - Hxk+l < Kyk -Hx>= /+1, поэтому для всех k > О < ^+1 < \t < • • • < У1 < f/J. Будучи монотонными, последовательности {х!\} и [у\) имеют преде- пределы х* и у*, а тогда и векторные последовательности {xk} и {^} также имеют пределы х* и (/*, причем, очевидно, л:* <; у*. Нако- Наконец, если л? < а < \Р и и — Gu, то вновь по индукции доказыва- доказывается, что х? < и < #* при всех ?. Действительно, /+1 = Kxk — Hyk < Ки -Ни - и = Ки-Ни*С <Kyk-H/ = yk+\ чем индукция и завершена. Отсюда следует, что х* < и < t/*. | Точки х* и у* не являются, вообще говоря, неподвижными точ- точками отображения G, но в одном важном частном случае они облада- обладают этим свойством. 13.2.2. Лемма Канторовича. Пусть отображение G: D с: Rn -> R" изотонно на D и х? < у0, (х°, у0) cz Д *° < G*°, r/° > G#°. Тогда для последовательностей /+I = G/, yk+] = Gyk, fe = 0, 1 A) выполнены соотношения ** f ^*, k -> оо, ^ | #*, й -> оо и л:* < < у*. Если при этом отображение G непрерывно на (л?, у°)> то г* = Ga:*, у* = Gy* и любая неподвижная точка и ? (а?, у0) ото- отображения G лежит в (х*, у*).
424 Часть V. Полу локальная и глобальная сходимости 13.2 Доказательство. Первое утверждение является непо средственным следствием теоремы 13.2.1 при К = G и Я == 0, а из A) следует, что если отображение G непрерывно на (х?у г/0}, то х* = G%* и у* = Gy*. I Особый интерес представляет случай, когда х* = #*. Очевидно, что в этом случае х* — единственная неподвижная точка отобра- отображения G в (л:0, у0) и обе последовательности {xk} и [yk] сходятся к ней, причем неравенства xk < х* < yk k = 0, 1, ..., дают верх- верхнюю и нижнюю границы для **. Обратимся теперь к различным способам построения последова- последовательностей, монотонно сходящихся к решению системы Fx = 0. Основой для нашего последующего изложения является следующая теорема. Напомним (см. определение 2.4.4), что матрица Б С L (Rn) называется подобратной к матрице А ? L (/?"), если ВА < / и 13.2.3. Пусть дано отображение F: D си Rn -> Rn, и пусть *° < У°> (*°, У0) <= D, Fx? < 0 < Fy\ B) Допустим, далее, что существует такое отображение А: (л?, у0) -> -> L (Rn), что Fy — Fx^A(y)(y — x),jP4,x4>y< У0- C) Если Pk: (х?, у0) -> L (Rn), k = 0, 1, ... — произвольные отобра- отображения, такие, что Pk (x) есть неотрицательная подобратная к мат- матрице А (х) при всех х ? (х°, у°), то итерации yk+x = yk-Pk{yk)Fy\ Л = 0. 1 D) корректно определены и #* | у*, & -> оо, где у* g (д^, ?/°). Любое решение уравнения Fx = 0 в (л?, у0) лежит в (л*, #*), и если отображение F непрерывно в у* и существует такая неотрицатель- неотрицательная матрица Р g L (^"), что Pk(yk)>P>0, Yk>k0i E) то /ч/* = 0. Доказательство. Покажем по индукции, что У0 > У* >yk>A Fyk > 0. Пусть это верно для некоторого k > 0. Тогда из неравенств Pk (yk) > 0 и Fyk > 0 следует, что yk+l < у*. Далее, используя D) и C), а также то, что матрица Pk (x) подобратна к А (х), получа- получаем при любых х ? (л:0, yk) -(У* -x)+Pk(yk)(Fyk-Fx)< * - К - Pk (y) A (yk)] (yk - x)< (/л+1. F)
13.2 Гл. 13. Сходимость и частичное упорядочение 425 В частности, х? < л? — Рк (yk) Fx9 < yk+x- Аналогично находим, что Fyk+l >Fyk + A (yk) (yk+l - yk) = [I-A (yk) Я, (/)] Fyk > 0. Этим индукция завершена. Последовательность {yk}, будучи ограниченной и монотонно возрастающей, имеет предел у* > х°. Пусть z ? (jt°, y°) — какое- либо решение уравнения Fx = 0. Тогда неравенство F) при k = 0 показывает, что = z — Ро Fz и по индукции z < ук при всех /г > 0, поэтому z < #*. Если теперь выполнено неравенство E), то при k > &0 Но lim (r/fe — = 0, поэтому lim = 0. Из непрерывности отображения F в точке у* и невырожденности матрицы Р вытека- вытекает поэтому, что Fy* = 0. | Заметим, что какое-то условие типа E) необходимо для выполне- выполнения равенства Fy* =0. Действительно, нулевая последователь- последовательность Pk (х) е= 0 при всех х ? (jc°, y°), k > 0, удовлетворяет всем остальным предположениям теоремы 13.2.3, а тем не менее в этом случае ук =у° при всех k. Однако условие E) можно заменить условием типа II Pk (УкГ1 К а, V к > k0 (см. У 13.2.1). Отметим также, что существуют другие варианты теоремы 13.2.3, отвечающие другим сочетаниям знаков. Мы схематически указыва- указываем эти варианты в табл. 13.1, где первый столбец представляет теоре- теорему 13.2.3, как она была сформулирована. Таблица 13.1 *° < У° Fxf> < 0 < Fy° < А (у) (у - х) Pk (х) > 0 >А(у)(у- Рк (х) < 0 yk+x >ук Fy» x) <A Pk У x° < (У) (У (x)< H-i <* г/° 0> Fy° i -x) ;o X? Fx° < >o Рассмотрим теперь другой способ построения монотонно возра- возрастающей последовательности, начинающейся с точки х°. 13.2.4. Пусть для заданного отображения F: D cz Rn -> Rn точки х°, у° ? D удовлетроря{от условию B), а для отображения
426 Часть V. Полулокальная и глобальная сходимости 13.2 A: (xPf у0) -> L (Rn) выполнены условие C) и условие А(х)<А(у) при *° < х < у < *Д G) Пусть, далее, {yk} и у* определены, как в теореме 13.2.3, и пусть Qk? L (Rn), k = О, 1, ..., — неотрицательные матрицы, подобрат- ные к матрицам A (yk). Тогда последовательность ft «о, 1, ..., (8) корректно определена и / f x*> k -> оо, где х* ? (х°, у*). Интер- Интервал (**, у*) содержит все решения уравнения Fx = 0 в (jc°, y°). Если при этом отображение F непрерывно в х* и если существует такая невырожденная матрица Q ? L (/?"), что Q^ > Q > 0 при всех /г > ?0, то Fr* = 0. Доказательство. Покажем по индукции, что х« < я*" < / < у\ Fxk < 0. Пусть это выполнено для некоторого k > 0. Тогда из неравенств F/ < 0 и Qk > 0 следует, что /+1 > /• Далее, в силу C), не- неравенства Fyk > 0 и того факта, что матрица Qk подобратна к А (Д у>у-QkPyk = ^+1 + (yk-**) > **+' + (/ - QH (^)) (/ - xk) Следовательно, ввиду G) Fxk+l ^F/ + A (/+1) (xk+l -/)<(/ - Л так что - pk (yk) f/+i -1^-1 - at - *k+x) + pk (yk) x X {Fyh - Fxk+l) < < yk+l. (9) Этим индукция завершена. Все утверждения нашей теоремы полу- получаются теперь так же, как и в теореме 13.2.3. | Точки у*, х* из теорем 13.2.3 и 13.2.4, являющиеся решениями уравнения Fx =0, мы будем называть соответственно максималь- максимальным и минимальным решениями этого уравнения в (х°, у°). Наибо- Наиболее интересен, конечно, опять случай х* =#*, так как последова- последовательности {yk} и [xk] дают в этом случае верхнюю й нижнюю гра- границы для решения #*, так что мы имеем покомпонентные оценки *? < х\ < yl k = 0, 1, ..., i = 1, 2, ..., nf A0)
13.2 Гл. 13. Сходимость и частичное упорядочение 427 которые могут служить в качестве критерия остановки. Следующая георема дает достаточное условие того, что х* = у*. 13.2.5. Пусть дано отображение F: D cz Rn -> Rn и точки л;0, у0 ? ? D удовлетворяют условию B). Предположим, что существует та- такое отображение 5:(л?, у0) ->- L (Rn)y что Fy - Fx > В (х) (у - х) при х? < х < */ < *Д A1) где матрица В (х) невырождена и В (х)~1 > 0 при всех х ? (л:0, у0). Если уравнение Fx = 0 имеет максимальное или минимальное ре- решение в (х°, у0), то в этом интервале нет никаких других реше- решений ьтого уравнения. Доказательство. Пусть х* — минимальное решение в (х?, у0) и г* ? (jc°, y°) — некоторое другое решение. Тогда О = Fz* — Fx* > В (г*) B* — г*). Так как В (х*)~1 > 0, то г* < г\ следовательно, г* = х*. В слу- чае максимального решения доказательство аналогично. | В заключение этого раздела заметим, что лемма Канторовича 13.2.2 является частным случаем теорем 13.2.3 и 13.2.4. Действи- Действительно, если отображение G удовлетворяет условиям этой леммы, то для отображения Fx = х — Gx мы имеем Fy — Fx = у — х — (Gy — Gx) < у — х при х? < х < у < t/°. Следовательно, для F выполнены все условия теорем 13.2.3 и 13.2.4 при Pk (х) = Р = Л (х) = Q,= Q = /. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 13.2.1. Теорема 13.2.1 является частным случаем одного результата Шредера [1959]; мы следовали в своем изложении Коллатцу [1964]. Результаты Шредера были обобщены Альбрехтом [1961, 1962] и Болем [1967]. ЗС 13.2.2. Лемма Канторовича 13.2.2 была доказана Канторовичем [1939] для случая более общих частично упорядоченных линейных пространств. ЗС 13.2.3. Теоремы 13.2.3—13.2.5 принадлежат Ортеге и Рейнболдту [1967а]. Близкие результаты получены Балуевым [1952, 1956] и Слугиным [1955, 1958а— в], которые исходили из метода Чаплыгина для дифференциальных уравнений (относительно этого метода см., например, Березин и Жидков [1959]). Некоторые модификации теорем 13.2.3, 4 имеются у Ёсиаки [1968]. УПРАЖНЕНИЯ У 13.2.1. Показать, что при замене условия E) на условие || Pk iykY~ II < а при k > ko теорема 13.2.3 остается в силе. У 13.2.2. Дать прямое доказательство леммы 13.2.2. У 13.2.3. Сформулировать и доказать варианты теоремы 13.2.3, указанные в табл. 13.1.
428 Часть V. Полулокальная и глобальная сходимости 13.3 У 13.2.4. Пусть отображение F: L (Rn) -» L (Rn) определено равенством FX = = АХ — /, где А ? L (Rn) — невырожденная матрица и Л" ^> 0. Рассмотрим итерацию Шульца Xk+l =Xk-XkFXki Л = 0, 1, .... Пусть Хо — неотрицательная невырожденная матрица, подобратная к А. Пока- Показать, что все матрицы Х^ неотрицательны, невырождены и подобратны к А и что Xk t А при k -> оо (Альбрехт [1961]). У 13.2.5. Рассмотрим отображение G: Rn -> Rn с компонентами п Si (*) = ! + 2 aixi*h l = l' • • • » n' n где a/ > 0 h^ol, < 1/4. Показать,что G изотонно на множестве D— {x?Rn |*> >0}. Найти какой-нибудь интервал, на котором применима теорема 13.2.2, и показать, что на любом интервале отображение G имеет единственную неподвиж- неподвижную точку. У 13.2.6. Показать, что в условиях теоремы 13.2.1 G <**, yk) с <**+I, yk+l) С <Л */*>, Л = 0, 1 Используя теорему Брауэра о неподвижной точке, вывести отсюда, что если отобра- отображение G непрерывно на (*°, у°)у то оно имеет неподвижную точку в (х*, у*). У 13.2.7. Пусть отображения Нъ Я2: D X D a Rn -> Rn изотонны по первой переменной и антитонны по второй и Нг (х, х) < Я2 (х, х), V x?D. Если х» < t/°, (*», у0) (ZD, х°^ Нх (х», */<>), Я2 (уо, л;0) < у\ то для последовательностей **+* = Ях (д:Л, /), у*+1 = Я2 (/, A;fe), ife = 0, 1, имеем ^ t **> И I У*. Л -» оэ и ^° < х* < v* < f/°. Если при этом G: D a Rn -> Rn — любое непрерывное отображение, такое, что Нг (*, х) < Ga: < Я2 (^, а:), V х? D, то оно имеет неподвижную точку в интервале (**, у*) и любая неподвижная точка отображения G в (х0, у0) лежит в (**, у*) (Шредер [1960 а]). 13.3. ВЫПУКЛОСТЬ И МЕТОД НЬЮТОНА Лемма Канторовича дает лишь один из способов получения отоб- отображения А в теореме 13.2.3. Более интересная возможность связана с обобщением понятия выпуклой функции. 13.3.1. Определение. Отображение F: D a Rn -> Rm называется порядково выпуклым на некотором выпуклом множестве DQa D, если F (Кх + A - I) */)< XFx + A - К) Fy A)
13.3 Гл. 13. Сходимость и частичное упорядочение 429 при любых сравнимых между собой х, у ? DQ и любом X ? @, 1) (хну сравнимы, если х < у или у < л:). Если неравенство A) выполняется при всех х, у ? Д, и Л ? (О, I), то Z7 называется #>/- пуклым на Z?o. | Ясно, что в случае отображения F: D cz Rn -+ R1 это определе- определение выпуклости сводится к определению 3.4.1. Более общим обра- образом, отображение F: D d Rn -> Rm с компонентами flf ..., /m (порядково) выпукло на множестве Do d D тогда и только тогда, когда каждая его компонента (порядково) выпукла на Do. Поэтому теорема 3.4.3 сохраняется и в настоящей ситуации и утверждает, что если отображение F: D cz Rn -> Rm выпукло на открытом вы- пуклом множестве Do с D, то оно непрерывно на Do. Дифференци- Дифференциальные характеризации выпуклости из § 3.4 также допускают есте- естественное обобщение. Хотя доказательства по существу те же, мы для удобства повторяем их здесь. 13.3.2* Пусть отображение F: D с Rn -> Rm G-дифференцируемо на выпуклом множестве Docz D. Тогда следующие утверждения эквивалентны: отображение F порядково выпукло на Do; B) Fy — Fx^ F' (x) (у — x) для всех сравнимых между собой х, у ? Do; C) [F' (У) — F' (х)] (У —х) >0 для всех сравнимых между собой х> y?D0. D) Аналогично F выпукло на Do тогда и только тогда, когда нера- неравенства C) и D) выполняются при всех х, у ? Do. Если F дважды G-дифференцируемо на Do, то оно порядково выпукло на Do тогда и только тогда, когда Г (х) /г/г > 0 E) при всех х ? DQ и h ? Rn, h > 0, и выпукло на Do тогда и только тогда, когда E) выполняется при всех х ? Do и h ? Rn. Доказательство. Предположим сначала, что выполне- выполнено C). Для заданных сравнимых между собой х> у ? Do и заданного X ? @, 1) положим z = X х -f A — X) у. Тогда z сравнимо с х и у и, следовательно, Fx-Fz> F' (z) (х - г), Fy-Fz^ Ff (г) {у - г). Умножая эти неравенства соответственно на А, и 1 — X и затем складывая их, найдем XFx + A — X) Fy — F2 > f" (г) [to + A — Я) f/ — г] = О, так что отображение F является порядково выпуклым. Обратно, если выполнено B) и элементы х> у ? Do сравнимы между собой, то при любом / ? @, 1) элементы х и х + / (у — х) также сравнимы
430 Часть V. Полу локальная и глобальная сходимости 13.3 И Fy — Fx > -р {F (х + t[y — х]) — Fx}. В силу G-дифференцируемости отображения F при * -> 0 получаем C). Для доказательства эквивалентности утверждений C) и D) заметим прежде всего, что если выполнено C), то сложение друг с другом неравенств Fy-Fx>F (x){y-x)y . Fx-Fy>F'(y)(x-y) немедленно дает D). Обратно, если выполнено D), то при всех сравнимых между собой л\ у ? Do [ft (У) - ft Ml (У - х) > 0, (=1 /я, где flt ..., fm — компоненты отображения F. Пусть заданы сравни- сравнимые между собой х, у ? Do. По теореме о среднем 3.2.2 существуют такие tt ? @, 1), что ft (У) - ft (х) = ft (г1) (у-х), i = 1, ... , m, где г' =х -f" U (У — х). Но каждое zl сравнимо с х и у> поэтому {/; (г*) - ft (х)] (у - х) = A/*,) [ft (г) - Д: (х)] (г1 - х) > 0, i= 1, ..., m, откуда /< (У) — /* W = /I {*') (У — *)> ft {x)(y — x)t i - 1, ..., m. Это показывает, что выполнено C). Наконец, если отображение F дважды G-дифференцируемо на Do и выполнено E), то f] (x) hh > 0, i = 1, ..., /п, при всех h > 0 и х ^ Do. Поэтому по теореме о среднем 3.3.10 при любых сравнимых между собой х и у ft (У) — ft М — ft W (У — х) = — # (х + /t. [г/ — л:]) (у — х)х X (у- х) >0, / = 1, ..., т. Следовательно, выполнено C) и отображение F порядково выпукло. Обратно, если F порядково выпукло, то выполнено D) и при любых х б Do, h > Ои t> 0 элементы х -\- th и х сравнимы между собой и При /-> 0 получаем E). Для случая выпуклости доказательство проводится аналогично. | Заметим, что если отображение F' изотонно (т. е. из х < у сле- следует, что F' (х) < F' ((/)), то выполнено D) и, следовательно, отоб- отображение F порядково выпукло (но необязательно выпукло). Если при этом на Do существует вторая G-производная, то достаточным (но не необходимым) условием порядковой выпуклости отображения
13.3 Гл. 13. Сходимость и частичное упорядочение 431 F является условие ft(x)>09 i= I, ..., m, V*(E A>, F) где опять /lf ..., fm — компоненты отображения F, Заметим, что если вторая производная F" непрерывна на Do, то, как показывают теоре- теорема о среднем 3.3.7 и неравенство F), F (у) - F (х) =$F(x + t[y- х]) (y-x)dt>0 6 при х < у у так что производная F изотрнна на Do. С другой стороны, если F дважды G-дифференцируемо на Г>0, то, как вытекает из теоре- теоремы 13.3.2, оно выпукло на Do тогда и только тогда, когда каждая матрица ft (x)> i = 1, ..., m, х ? Do, положительно полуопределена. Отсюда простой пример порядково выпуклой, но не выпуклой функции: квадратичная форма /: Rn -> R}9 f (x) =xT Ax> где мат- матрица А > 0 не является положительно полуопределенной. Теперь мы применим полученные в предыдущем параграфе ре- результаты о сходимости к случаю порядково выпуклых отображе- отображений. 13.3.3. Пусть отображение F: D с Rn -+ Rn G-дифференцируемо и порядково выпукло на интервале (хР, у0), где х? < У0, (*°, У0) с Я Fx» < 0 < Fy\ G) Предположим, далее, что Pft: (jc°, y{)) -> L (R ) — такие отображе- отображения, что для каждого х ? (л:0, у0) матрица Pk {x) является неотри- неотрицательной подобратной к Fr (x). Тогда корректно определена после- последовательность yk+] = yk-Pk{yk)Fy\ k = 0t I, ..., и Ук \ У*у *-*• °°» гДе У* € (^°, У0)- Если при этом отображение F' изотонно на интервале (л?, у°)} то для вспомогательной после- последовательности xk+x = xk - QkFx\ Л = 0, 1, ..., где Qk — неотрицательные подобратные к Fr (yk), справедливо со- соотношение xk \ х?у k-+ оо, х? ? (хР, у*). Любое решение уравне- уравнения Fx = 0 в (хР, у°) лежит в (а:*, у*), и если отображение F непрерывно в у* или л* и существует такая невырожденная матри- матрица Р б L (Rn), что Pk (yk)>P>o, vk >kOy или такая невырожденная матрица Q ? L (Rn)y что Qk > Q > 0 Vk>klt то соответственно Fy* =0 или Fx* =0.
432 Часть V. Полулокальная и глобальная сходимости 13.3 Доказательство. Так как F порядково выпукло и G-дифференцируемо на выпуклом множестве (х°, #°)> то по теореме 13.3.2 Fy~Fx^ F1 (у) (у — х), *° < х < у < *Д Поэтому применимы теоремы 13.2.3 и 13.2.4 с Ах =F' (x)y х? 6 (*°, J/°>. I В качестве частного случая теоремы 13.3.3 мы получаем следую- следующий важный результат для метода Ньютона. 13.3.4. Теорема о монотонности сходимости метода Ньютона. Пусть задано отображение F: D с Rn -> Rn и существуют такие точки х?, i/° ? D, что выполнено G). Будем предполагать, что отоб- отображение F непрерывно, G-дифференцируемо и порядково выпукло на (х°, у0) и что для каждого х ? (х°, г/0} матрица F' (х)~1 сущест- существует и неотрицательна. Тогда для итераций Ньютона /+1 = yk-F' (у*)-] Fy\ k = 0, 1, ..., (8) имеет место соотношение yk \ у* ? (х?у у0) при &-> оо. При этом если производная F' или непрерывна в г/*, или изотонна на (лс°, г/0}, то у* является единственным решением уравнения Fx = 0 в (л^, у0}. Кроме того, в случае когда F' изотонна на (л^, у0), последователь- последовательность xk+l = xk-F' (yk)-1 Fx\ k = 0, 1, ..., (9) удовлетворяет условию xk f у* при fc-> оо. Наконец, если вдоба- вдобавок ко всему I^W-^'@)I<Yl*-H V*. У? (*°, f/°), (Ю) то существует такая постоянная су что || /+1 - /+1 || < с ||/ - ykf, Л = 0, 1, .. . . A1) Доказательство. Так как Pfe (лс) = F' {х)~~х > 0, а:^ € (^ 1/°)> то применима первая часть теоремы 13.3.3, так что yk \ У*, k-+ оо, у* g (а:0, у0}. Докажем равенство Fy* = 0. Пред- Предположим сначала, что отображение /*" изотонно на (л^, у0). Тогда F' (yk) < F' (у0) и в силу предположенной неотрицательности об- обратных матриц Pk (Ук) = F' (У") > F' (УТ1 = P > 0, k = 0, 1, ... . Пусть теперь производная F непрерывна в у*. Тогда существуют такая матрица Е и такое целое число kOf что матрица Р == = ^' (У*) — ? > 0 невырождена и F' (yk)~] > Р при /г > fe0. В обоих случаях по теореме 13.2 3 Fy" = 0. Единственность решения у* в интервале (аЯ, у0) непосредствен- непосредственно следует из теоремы 13.2.5 с В (х) = F' (х), поскольку xk | у*,
13.3 Гл. 13. Сходимость и частичное упорядочение 433 &-> оо, в силу теоремы 13.3.3 с Q = F' (г/0)". Наконец, докажем (И) в предположении, что выполнено A0). Ясно, что производная F' непрерывна на (;с°, у°) и ввиду невырожденности матриц F' (х) найдется такое р, что || F' (л:)" [|< Р, х? (хР, у0). Поэтому по тео- теореме о среднем значении 3.2.12 = ||/_**_ F' (укГ] (Fyk - Fxk) || < < Р I! F> (yk) (yk - xk) - (Fyk - Fxk) ||< -i- p7 « y* - /12. | Отметим, что если при решении линейных систем, возникающих в связи с итерацией (8), используется метод исключения Гаусса, то построение вспомогательной последовательности [xk] требует лишь очень небольшой дополнительной работы. Оценка A1) пока- показывает при этом, что интервалы (xk, yk) «квадратично сходятся» к л:*. Вследствие этого использование последовательности {л:^} не на- нарушает квадратичной сходимости самого метода Ньютона. В самом деле, можно доказать (см. У 13.3.7), что сходимость последователь- последовательности [xk] к х* является квадратичной. Наконец, отметим, что в соответствии с табл. 13.1 можно указать три других естественных варианта теоремы 13.3.4 в зависимости от выбора знаков при Fy — — Fx — F'(x) (у — х)и Ff {хГ] (У 13.3.6). Обратимся теперь к решающему вопросу о выполнении условия G), иными словами, к вопросу о выборе подходящих начальных точек. При использовании этого вопроса иногда бывает полезна следующая лемма. 13.3.5. Пусть отображение/7: D cz Rn ->- Rn порядково выпукло и G-дифференцируемо на выпуклом множестве Do a D, и пусть су- существует такая неотрицательная матрица С (= L (Rn)> что F' (х) С > > /, х 6 Д). Если Fy° > 0 и х? = у0 — CFy° ? Do, то Fx° < 0. Если Fx° < 0 и у0 = а:0 — CFx° g Do, то Fy° > 0. Доказательство. Пусть Fy° > 0 и х? = у0 — CFy° ? Do. Тогда jc°<//°hb силу теоремы 13.3.2 Fx? < Fy» + F' (xP) (jfi - у°) = [/ — F' (jc°) C] Fy« < 0. Аналогично, если Fx° < 0 и у0 = х° — CFy° ? Do, то по той же теореме Fy° > /^ + F' (х?) (у° — х°) = [/ — F' (х°) С] Fx? > 0. | Если выполнены условия леммы 13.3.5, то, зная один из концов интервала (х°> у0), можно найти другой. Одна из возможностей полу- получить первую точку состоит в том, что делается один шаг по Ньюто- Ньютону. 13.3.6. Пусть отображение F: D a R" -> Rn выпукло и G-диф- G-дифференцируемо на выпуклом множестве ?>, и пусть при некотором
434 Часть V. Полулокальная и глобальная сходимости 13.3 x?D существует матрица F' (х)~~] и у0 = х — F (x)~l Fx? D. Тогда /ч/° > 0. Доказательство очевидно, так как в силу теоремы 13.3.2 Ftf >Fx + F' (x) W - х) = 0. | Из теорем 13.3.4 и 13.3.6 вытекает следующая теорема о глобаль- глобальной сходимости. 13.3.7. Глобальная теорема о методе Ньютона. Пусть отображение F: Rn ->- Rn непрерывно, G-дифференцируемо и выпукло на Rn , причгм матрица F' (х) невырождена и F' (х)~х > 0 при всех х? Rn. Предположим, далее, что уравнение Fx = 0 имеет решение я* и производная F" или изотонна, или непрерывна на Rn. Тогда реше- решение х* единственно и при любом у0 ? Rn итерации Ньютона (8; сходятся к л:*, причем Ук>ук+Х>**, k= I, 2, .... A2) Доказательство. Из теоремы 13.3.6 следует, что Fy1 > 0 при произвольном у0 ? Rn. Далее, в силу теоремы 13.3.2 0 = Fx* > Fy1 + F' (f/1) (jc* - yl)y откуда ** < У1 - F' (у1)'1 Fy1 < f/1. Поэтому можно применить теорему 13.3.4, взяв в качестве х° точку #*, а в качестве второго конца интервала точку у1, и эта теорема показывает, что наш процесс сходится к некоторому решению у*. Но х* является единственным решением. Действительно, если у* — любое другое решение, то F> (*•) (х* - у*) > 0 = Fx* - Fy* > F' (у*) (х* - у% откуда следует, поскольку F' {у)~~{ > 0, что jc* < у* и у* < л:*. | Формулировку теоремы 13.3.7 можно, конечно, очевидным спо- способом видоизменить, заменив предположение о существовании решения х* предположением, что, как и в лемме 13.3.5, F' (х) С > / для некоторой неотрицательной матрицы С ? L (Rn) и всех х ? ? Rn. Это гарантирует существование решения, а также начальной точки х° для вспомогательной последовательности. В заключение настоящего параграфа применим теорему 13.3.7 к уравнению Ах + фх =0. 13.3.8, Пусть А ? L (Rn) — некоторая М-матрица. Положим Fx = Ах + 0*, где 0: Rn -> Rn — непрерывно дифференцируе- дифференцируемое диагональное изотонное выпуклое на Rn отображение. Тогда при любом у0 ? Rn итерации Ньютона (8) сходятся к единственному решению х* уравнения Fx =0 и справедливо неравенство A2).
13.3 Гл. 13. Сходимость и частичное упорядочение 435 Доказательство. В нашем случае выполнены условия теоремы 13.1.3, и поэтому уравнение Fx—О имеет единственное решение в Rn. Очевидно, что отображение F выпукло, а поскольку ф изотонно и диагонально, то матрица ф'(х) неотрицательна и диагональна при всех х? Rn.m Таким образом, по теореме 2.4.11 F' (х) является М-матрицей при всех х ? Rn. При этом, так как отображение ф диагонально, то в силу теоремы 13.3.2 производная ф' изотонна. Поэтому наше утверждение непосредственно следует из теоремы 13.3.7. | Заметим, что от предположения о выпуклости отображения ф в теореме 13.3.8 отказаться, вообще говоря, нельзя (см. У 13.3.11). Заметим также, что эта теорема допускает немедленное применение к разностным аналогам краевых задач для уравнений и" = / (и) или Аи =f (и), где отображение / изотонно и Еыпукло, скажем / (и) = = ?* (см. У 13. 3.12). ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 13.3.1. Понятие порядковой выпуклости использовалось в работе Ортега и Рейнболдт [1967а]. В этой же работе доказаны теоремы 13.3.2 и 13.3.3. ЗС 13.3.2. Возможны различные обобщения понятий строгой или равномерной выпуклости функционалов (определение 3.4.1) на случай отображений F: Rn -> -» Rn. Так, например, можно было бы говорить, что отображение F строго (равно- (равномерно) выпукло, если каждая его компонента представляет собой строго (равномер- (равномерно) выпуклый функционал. Несколько иное определение строгой выпуклости дал и использовал Степлмэн [1969]. ЗС 13.3.3. Теорема 13.3.4 без оценки скорости сходимости (И) встречается уже у Балуева [1952], доказавшего ее для случая более общих пространств (см. ЗС 13.2.3). Позднее монотонную сходимость метода Ньютона в частично упорядочен- упорядоченных линейных пространствах рассматривал также Вандерграфт [1967]. Его резуль- результаты применимы, в частности, к методу квазилинеаризации Калабы [1959] для дифференциальных уравнений. ЗС 13.3.4. Леммы 13.3.5 и 13.3.6 дают лишь один из возможных способов выбора подходящих начальных точек х°, у0. Относительно других способов см. теорему 13.4.7 ниже и статью Шмидта [1964]. УПРАЖНЕНИЯ У 13.3.1. Пусть отображение F: Rn -> Rn выпукло и А? L (Rn). Показать, что отображение G = FA выпукло. У 13.3.2. Провести доказательство теоремы 13.3.2 для случая выпуклости. У 13.3.3. Пусть отображение F: Rh -> R дважды G-дифференцируемо, причем производная F' изотонна. Показать, что F" (х) > 0 при всех х, т. е. что при всех х ? Rn выполнено F). У 13.3.4. Пусть отображение F: Rn -+ Rn удовлетворяет условию Fy — Fx<^A (у) (у - х), V х, у ? Д
436 Часть V. Полулокальная и глобальная сходимости 13.4 где множество D выпукло, а Л — произвольное отображение из D в L (Rn). Пока- Показать, что F выпукло на D. У 13.3.5. Пусть -С -',)¦ Показать, что hT Ah ^ 0 при всех h ^ 0. Вывести отсюда, что для отображе- отображения F: Rn -> R* неравенство F" (х) ^0 не является необходимым условием порядковой выпуклости. У 13.3.6. Записать для теоремы 13.3.4 таблицу, соответствующую таблице 13.1. Доказать содержащиеся в ней утверждения. У 13.3.7. Показать, что в предположениях теоремы 13.3.4 Q^ {xk} > 2. У 13.3.8. Пусть отображение F удовлетворяет условиям теоремы 13.3.4. Пока- Показать, что для упрощенных итераций Ньютона yk+l = yk — F' (y°)~~l Fyk спра- справедливо соотношение yk ф **, k -> oo. У 13.3.9. Если отображение F: Rn -» Rn выпукло на интервале (х°, у0) и F' (х)~1 >• 0 для всех х? (*°, у0), то уравнение Fx = 0 имеет самое большее одно решение в (х°, у0), У 13.3.10. Пусть отображение F: D с Rn -* Rn непрерывно, G-дифференцируе- мо и порядково выпукло на интервале (а:0, г/°), где точки х°, у0 удовлетворя- удовлетворяют условию G). Пусть, далее, существует неотрицательная невырожденная мат- матрица С? L(Rn), являющаяся подобратной к F' (х) при каждом х? (х°, у0). Показать, что существует последовательность {yk} с <*°, У0) со следующими свойствами: Ff (yk) (yk+l - yk) + Fyk = 0, yk | y*, k -> oo, Fx* = 0 (Вандерграфт [1967]). У 13.3.11. Определим матрицу A?L (R2) и отображение ф: R2 -> R2 равенствами \ — где а — положительный корень уравнения t2 — 3* — 2 = 0. Показать, что вы- выполнены все условия теоремы 13.3.8, за исключением выпуклости отображения ф, но итерации Ньютона, начинающиеся с точки х° = (я, я)т, удовлетворяют со- соотношению x2k = jc0, k = 1, 2, .... У 13.3.12. Применить теорему 13.3.8 к уравнениям A.1.7) и A.2.5), где соответ- соответственно / (s, и) = еи и / (s, t, и) = еи. 13.4. ИТЕРАЦИИ НЬЮТОНА —ПВР В этом параграфе мы применим полученные ранее результаты о сходимости к исследованию методов Ньютона — ПВР из § 7.4. Это в свою очередь даст нам неотрицательный пример использова- использования понятия подобратной матрицы. Более общим образом, мы рас- рассмотрим обобщенную линейную итерацию вида Ук+1 = У" -[/+•••+ Hk (уГк~\ Bk (/)-' Fy\ k =0, 1 A)
13.4 Гл. 13. Сходимость и шсгичное упорядочение 437 Как мы уже видели в § 7.4, этот процесс получается при использова- использовании метода Ньютона в качестве первичной итерации и при примене- применении к &-му ньютонову шагу F' (Ук) (У - Ук) + Fyk = О mk шагов вторичного линейного процесса, определяемого расщеп- расщеплением F (х) = Bk (х) - Ck (x), Hk (x) = Bk (x)~l Ck (x). B) В связи с итерацией A) было бы интересно знать, когда матрица />* = (' + • • • + Нк) В~\ Н = В С, C) является подобратной к В — С, и мы сначала приводим соответст- соответствующую лемму. Напомним, что, согласно определению 2.4.16, пред- представление матрицы А ? L (Rn) в виде А =В — С называется ее слабо регулярным расщеплением, если В~] >- О, В~]С > 0 и СВ~~1 ;> О 13.4.1. Пусть А — В — С — слабо регулярное расщепление. Тогда для любого целого k > 0 матрица Pk> определенная равенством C), по- добратна к А. При этом если матрица А невырождена и А~х ;> О, то матрица Pk также невырождена и равенство А = Р^1 — (Р^1 —- А) представляет собой слабо регулярное расщепление. Доказательство. Так как Н >- 0, то в силу тождества B.4.10) PkA = (/ + Н + - • • + Нк) В~1 (В - С) = = (/ + .. +Нк)A-Н) = 1- Hk+{ < / D) и аналогично APk = (В - С) (I + .. + Нк) В~] = = В (/ - Нк+1) В~] = / - (СВ~])к+] < /, так как СВ~1 > 0. Следовательно, матрица Pk является подобрат- подобратной к А. Если А~~] >0, то, согласно 2.4.17, р (Я) < 1, и потому р (Нк+Х) < 1. Таким образом, из теоремы 2.3.1 вытекает существо- существование матрицы (/ — Я*"*)", а из D) — существование матрицы /V1. Поскольку Pk > 0, теорема 2.4.16 показывает, что равенство А = РГ1 — (Р^] — А) является слабо регулярным расщеплением. | Вернемся теперь к итерации A). 13Л.2. Пусть дано отображение F: D a Rn -> /?", и пусть х? < у\ (jfi, y°) c= D, Fx° < 0 < Ftf. E) Предположим, что F непрерывно, G-дифференцируемо и порядково выпукло на интервале (х°, у0), а также что равенство F' (х) =
438 Часть V. Полулокальная и глобальная сходимости 13.4 = Bk {х) ~Ck{x), k = О, 1, ... , при каждом к ? « #°) пред- представляет собой слабо регулярное расщепление. Тогда для любой последовательности целых чисел {tnk}, mk > Ц последовательность {yk}, задаваемая формулой A), где Hk (х) = ВЙ (x)~l Ck (x), кор- корректно определена и yk \ у*> k -> оо, где #* ? (х?\ у0). Если, кро- кроме того, существует такая невырожденная матрица В ? L (/?"), что Bk (yk)~l > В > 0, Vk>ko> F) то fy* = 0. Наконец, если отображение F' изотонно на (^°, у°)у то вспомогательная последовательность /+1 = /_[/+ ... + я, (/Г*] в, <</*)-' ^ft. * = о, 1, .... G) удовлетворяет условию xk \ jc*, k -> оо, х* ? (jc°, у*), причем из F) опять следует, что Fx* =0. Доказательство. В силу леммы 13.4.1 матрица ^ (*) = ['+ • • • + Я* М"*"] ^. W"' (8) при любых х ? (х°, у0) и mk > 1 является подобратной к F (х), и так как Я^ (х) > 0, то Pfe (л:) > 0. Таким образом, из теоремы 13.3.3 непосредственно следует, что yk | у*, &->- оо, у* ? (я°, у0), и если производная F' изотонна, то xk \ х*, k-+ оо, х* g (jc°, у*), по той же теореме. Далее, пусть выполнено F). Тогда поскольку Hk (yk) > 0, то Pk (yk) > Bk (yk)~l > В > 0 при всех /г > 60. Сле- Следовательно, опять в силу теоремы 13.3.3 Fy* = 0 и Fx* = 0. | Конкретизируем теперь этот результат применительно к итера- итерации Ньютона — ПВР G.4.12), наложив на отображение F более сильные ограничения. Напомним, что общая итерация Ньютона —- ПВР задается формулами A) и B), где а равенство F' {х) = D(x)-L{x) — U (х) A0) представляет собой разбиение матрицы F' (х) на диагональную, стро- строго нижнюю треугольную и строго верхнюю треугольную части соот- соответственно. 13.4.3. Теорема о монотонной сходимости метода Ньютона — ПВР. Пусть задано отображение F: D с Rn -> Rn. Предположим, что су- существуют точки *°, у0 ? D, для которых выполнено условие E), и
13.4 Гл. 13. Сходимость и частичное упорядочение 439 что F непрерывно, G-дифференцируемо и порядково выпукло на (х°, #°). Предположим, далее, что F' (х) является Af-матрицей при любом х ? (хР, y°). Тогда для любой последовательности целых чисел mk > 1 и любых параметров cofe ? @, 1] итерации Ньюто- Ньютона — ПВР, определяемые соотношениями A), B), (9) и A0), удов- удовлетворяют условию ук \ у*, k -> оо, у* ? (хР, tf*). Если, кроме того, соЛ > со > 0, ? > &0, и производная Z7' или непрерывна в #*, или изотонна на (хР, у0), то у* является единственным решением уравнения Fy = 0 в (хР, у°). Наконец, если Fr изотонна на (х°, #°) и (ofe>co>0, &>&0, то последовательность {xfe}, определяемая формулам;! G), B) и (9), удовлетворяет условию xk \ у*, &->оо. Доказательство. В силу теоремы 2.4.8 D (х)~1 >0 при любом х ? (х°, у°)у и потому cokD (х)~] L (х) > 0. Следовательно, (во всех последующих соотношениях мы не указываем явно зави- зависимость всех матриц от х)у п—1 В^ = ©Л (/ — o)feD~' L)""^ » щ 2 (co/.D" L)' D > 0 A1) i=0 и, значит, tik — Of? Lk = A — ®kLJ L) II* — ®k) ' ~r ^k^ U\ ^ К). Аналогично так что равенство F' (x) = Bk (x) — Ck (x) представляет собой сла- слабо регулярное расщепление при всех х ? (х*\ у0) и fe =0, 1, ... . Первое утверждение нашей теоремы вытекает поэтому из теоремы 13.4.2. Далее, если производная F' изотонна на (л?, у0), то D (yk) < < D (у{)) при всех fe, так что D (ук)~~1 > D (у°)~~1. Следовательно, в силу A1) Bk (ук)~] ^>(oD(y°)~~] при всех k n в теореме 13.4.2 можно взять В = coD (y°)~[. Если же производная F' непрерывна в #*, то llm D (ук)~] = D(y*yl. Значит, существуют такая матрица Е и такое целое число kOy что матрица В = со?> (г/*)" — Е > 0 невырождена и coD {ук)~~х > В при всех k > /г0. Таким образом, тео- теорема 13.4.2 опять гарантирует, что Fy* — 0. Единственность ре- решения г/* в интервале (л?, у0) вытекает непосредственно из теорем 13.2.5 и 13.3.2. Наконец, если производная F' изотонна на (х°, t/°), то сходимость последовательности {л^} вытекает из теоремы 13.4.2. | Мы знаем (теорема 10.3.2), что с увеличением mk итерации Нью- Ньютона — ПВР имеют увеличивающуюся асимптотическую скорость сходимости, которая при mk -> оо стремится к сверхлинейной
440 Часть V. Полулокальная и глобальная сходимости 13.4 сходимости итераций Ньютона. В предположениях предыдущей тео- теоремы мы можем доказать следующий результат о сравнении различ- различных методов Ньютона — ПВР и метода Ньютона. 13.4.4. Пусть дано отображение F: D a Rn -+ R" и точки хР, t/> ? ? D удовлетворяют условию E). Пусть, далее, F непрерывно и G-дифференцируемо, а его производная F' изотонна на (дс°, у0), причем F' (х) является М-матрицей при каждом х ? (хР, у0). Рас- Рассмотрим две производные последовательности Ньютона — ПВР \yk) и \yk), определяемые равенствами A), B) и (9), где 0 < соЛ = /ч /ч = со^ < 1, 1 < mk < tnk и #° = y°f а также соответствующую по- последовательность Ньютона {uk}, начинающуюся в точке у0. Тогда "*</<?> * = 0, 1, .... A2) Доказательство. Так как выполнены все условия теорем 13.3.4 и 13.4.3, то все три последовательности корректно определе- определены, лежат в (х°, у0) и монотонно убывают. Поскольку производная F' изотонна, то матрицы D, —L и —U обладают тем же свойством и при х° < х < у < у0 мы имеем D (уГ{ L(y) < D (х)-1 L (х), [I - cokD (у)'1 L (у)Г] < и i_ [A -©*)/ + coftD (у)-1 U (у)) <-"-[(! -o)ft) / + + cokD (хГ1 U (х)]. Следовательно, Bk (уГ1 < Bk (хГ\ Hk (у) <Hk(x), х? < х < у < ^, /ч и если матрицы Pk (x) и Pk (x) определены формулой (8) с шк и /ч mk соответственно, то К (У) < pk (У) < Pk (х), *?<*<У<!/>. A3) Первое неравенство в A3) является непосредственным следствием неравенства Нк (у) > 0. Далее, Pk W <V~Hk (х)Г] Bk (хГ1 ~ [Bk (х) - Ck {х)Гх = F (хГ1 . Теперь неравенство A2) легко доказать по индукции. В самом деле, пусть оно справедливо для некоторого k >- 0. Тогда из соотношения A3), порядковой выпуклости отображения F неравенства Fyk > 0 И того факта, что матрица Pk (у) является подобратной к F' (у),
13.4 Гл. IB. Сходимость и частичное упорядочение 441 следует, что yk+> - /+' = yk _ yk + [Pk (yk) _ pk Qk)] Fyk _ p^ Qk) {p-yk _ - Fyk] >[1-Pk (?) F (?)] (yk - yk) > 0. Аналогичным образом мы находим, что - Fuk] >V-Pk (yk) F (yk)](yk - и") > 0. | Чтобы дать приложения полученных результатов, рассмотрим опять уравнение Ах + фх = 0. 13.4.5. Пусть А ? L (Rn) — некоторая М-матрица и /\к = Ах + + 0а:, где отображение ф: Rn -> /?" непрерывно дифференцируемо, диагонально, изотонно и выпукло. Предположим, что существуют точки х°, у°, для которых выполняется условие E). Тогда верны все утверждения теорем 13.4.3 13.4.4, причем точка х* =у* является единственным решением уравнения Fx =0. Доказательство получается немедленно, так как отобра- отображение F выпукло, производная F' изотонна и в силу теоремы 2.4.11 F' (х) является М-матрицей при всех х ? Rn. Следовательно, при- применимы обе теоремы 13.4.3 и 13.4.4, апотеореме 13.1.3 у* =х*. I При заданных матрице А и отображении ф, удовлетворяющих условиям теоремы 13.4.5, нужно еще указать подходящие началь- начальные точки х° и {/°. Одна из возможностей состоит в применении тео- теорем 13.3.6 и 13.3.5 с С =А~{. Другие возможности, при которых на А и ф налагаются более слабые условия, указываются следую- следующей леммой. 13.4.6. Пусть Fx = Ах + фх, где матрица A?L(Rn) невырождена, Л-1 > 0 и ф: Rn -> Rn. а) Если — а < фх < а при некотором а > 0 и всех х ? Rn , то Fx? < 0 < Fy« при у0 = А'1 а, х° = — у0. (б) Если 0 @) < 0 и фх > ф @) при всех л: > 0, то /ч/° > 0 при #° = — Л" 0 @). (в) Если 0 изотонно, то Fx° < 0 < F#° при #° = Л | 0 @) | и х? = — у0. Доказательство. (а) Fx* = Лх° + фх? = — а + 0х° <. 0 < а + 0*/° = Fy°. (б) /ч/° = Лу> + 0г/о = _ 0 @) + 0t/> > 0. (в) Очевидно, что #° > 0, поэтому х? < 0 и 0л^ < 0 @) < 0°. Таким образом, F& = - | 0 @) | + фх? < - | 0 @) | + 0@)< 0 < < I 0 @) I + 0 @) < | 0 @) | + 0/ = iV. I
442 ф Часть V. Полулокальная и глобальная сходимости 13.4 Заметим, что в каждом из случаев леммы 13.4.6 нахождение по крайней мере одной из двух точек требует, как и в леммах 13.3.5 и 13.3.6, решения линейной системы уравнений. Теорема 13.4.5 в совокупности с леммой 13.4.6 дает нам эффектив- эффективное средство построения единственного решения уравнения Ах -f -f- 0x=O, а также дает гарантированные двусторонние оценки ошибок. **<**</, Л = 0, 1 Представляет интерес тот факт, что по крайней мере для одношаго- вой итерации Ньютона — ПВР при со = 1 мы в состоянии доказать глобальную сходимость. Это вытекает из следующего более общего результата. 13.4.7. Пусть отображение F: Rn -> Rn непрерывно дифференцируе- дифференцируемо и выпукло, и пусть существует такое отображение В: Rn -> ->• L (Rn)> что матрица В (х) невырождена при всех х ? Rn и 0< В (*)-'< Q. A4) 0<BW-f (х) < СЪ A5) где р (С) < 1, а С = С0Сг. Тогда при любом х° ? Rn итерации /+1 = / — В (**)-' Лс\ k = 0, 1, ... , сходятся к единственному решению х* уравнения Fx = 0. Доказательство. Заметим прежде всего, что 0 < / - В (x)~lFf (х) = В (х)-1 [В {х) - F' (х)] = Н (х) < С, V х 6 Rn . Поэтому в силу теорем 2.4.5 и 2.4.9 матрицы / — Н (#), а следова- следовательно, и F' (х) невырождены и 0 < F' (хГ1 = (/ - Я (*)Г! В (хГ1 < (/ - С) Со, V х ? RT . Отсюда видно, что величина || F' (x)~l | равномерно ограничена при любой норме, и по теореме Адамара 5.3.10 уравнение Fx =0 имеет единственное решение х*. Очевидно, что последовательность {xk} определена корректно, и в силу выпуклости отображения F = jc* — jc* — -в (A >[1-В (хкГ1 F' (А\ [ I х*) = Н (xk) (/ - jc*) > [П Я (*;)I (^ -
13.4 Гл. 13. Сходимость и частичное упорядочение 443 Так как р (С) < 1, то правая часть стремится к нулю и, следователь- следовательно, последовательность \xk) ограничена снизу. Таким образом, xk>w, Л = 0, 1 A6) при некотором w ? Rn. Аналогично получаем хк+] - х* = В (/Г1 (— Fxk) < < B(xk)-] l— Fxk — F (xk~l) (** - /-1)] = = В (xk)~] IB {xk~l) — Fr (/-1)] (/ — /-1) в где О < Kk = В (хкГ] [В (xk~l) - F' (/-1)] < С, k = 1, 2, ... Отсюда следует, что **Н _ / < m /С/) (х1 - х°) < Ck \ х1 - х° |; в частности, при любом k > m > 1 ]S Cy | x1 - jc° | < Cm (I — СГ1 | x1 - *<> |, A7) /=m J так как С > 0. При фиксированном m неравенство A7) означает, что последовательность [хк\ ограничена сверху. В совокупности с A6) это показывает, что последовательность \xk) ограничена. Поэ- Поэтому множество предельных точек Q этой последовательности ком- компактно и непусто. Пусть v — какая-нибудь точка из Q и {х *} — сходящаяся к v подпоследовательность последовательности {xk}. Тогда для любого заданного е > 0 найдется такое *0, что хк{ < v + + A/2) ее> е =A, ..., 1)т, при i > /0, и если i0 выбрано достаточ- достаточно большим, то /< хт+ СтA — СГ1\х1-х^\^ v + ee, Vfe>m = kio. Так как е > 0 может быть выбрано произвольно, то любая другая предельная точка и ? Q последовательности [хк] должна удовлетво- удовлетворять соотношению и < v. Но v ? Q также произвольно, поэтому множество Q может содержать только одну точку v и, значит, lim xk =v. Для доказательства равенства v =х* заметим, что fe-voo в силу A5)
444 Часть V. Полулокальная и глобальная сходимости 13.4 так что ввиду непрерывности производной F' последовательность {В (xk)} ограничена. Следовательно, Fv = lim Fxk = lim В (xk) (xk+l — xk) = 0 и v =**. I Отсюда почти непосредственно получаются упомянутые выше результаты для уравнения Ах -f- фх = О, 13.4.8. Глобальная теорема о сходимости метода Ньютона — ПВР. Пусть матрица А и отображение ф удовлетворяют условиям тео- теоремы 13.4.5 и равенство A =D — L — V представляет собой рас- расщепление матрицы А на диагональную, нижнюю треугольную и верхнюю треугольную части. Тогда при любом х° ? Rn одношаго- вые итерации Ньютона — ПВР х*Н = л* - [D + ф' (xk) — L] Fxkt k = 0, 1, ... , A8) сходятся к единственному решению х* уравнения Fx = 0. Доказательство. Чтобы применить теорему 13.4.7, по- положим В (х) = D + 0' (х) — L. В силу теорем 2.4.10 и 2.4.11 В (х) является М-матрицей и 0 < В (хГ] < (D - L)-1, V jc ? /?77 . Кроме того, 0< В (*) — F' (х) = (/. Так как равенство А = (D — L) — U представляет собой регуляр- регулярное расщепление, то, согласно теореме 2.4.17, р ((D — L)" U) < 1, и наше утверждение непосредственно вытекает из теоремы 13.4.7. | Как и в теореме 13.3.8, от предположения о выпуклости отобра- отображения ф здесь нельзя отказаться (см. У 13.4.5). Отметим, что при выполнении условий теоремы 13.4.8 у нас есть выбор: мы можем либо выбрать сначала подходящие началь- начальные точки и применить теорему 13.4.5 для получения двусторонней оценки ошибки **<**<{/*, * = 0, 1, ..,, A9) либо начать с произвольной точки. В этом последнем случае нам по-прежнему гарантирована сходимость, но, вообще говоря, она уже не обязательно будет монотонной. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 13.4.1. Теоремы 13.4.1—13.4.6 были получены в статье Ортега и Рейнболдт [1967] как обобщения результатов Гринспэна и Партера [1965], изучавших раз- разностные аналоги эллиптических краевых задач. ЗС 13.4.2. Теорема 13.4.8 принадлежит Гринспэну и Партеру [1965]. Более об- общая теорема 13.4.7, доказательство которой является модификацией доказатель- доказательства Гринспэна и Партера, взята из статьи Ортега и Рейнболдт [1970а]. Стоит,
13.5 Гл. 13. Сходимость и частичное упорядочение 445 однако, отметить, что и теорема 13.4.7 все же не обладает достаточной общностью, чтобы ее можно было применить при выполнении условий теоремы 13.4.8 к т-ша- говым методам Ньютона — ПВР или даже к одношаговому методу при со Ф 1. ЗС 13.4.3. Теоремы 13.4.5 и 13.4.8 допускают непосредственное применение к краевым задачам для уравнения Да = / (и) при условии, что функция / изотон- на и выпукла (см. У 13.4.4). Более общим образом, как показано в статье Ортега и Рейнболдт [1967а], соответствующие результаты верны для уравнения Аи = = / (и, us, щ), скажем при условии, что / — выпуклый функционал на R3. УПРАЖНЕНИЯ У 13.4.1. Пусть матрица А ? L (Rn) имеет положительную строку или столбец. Показать, что нулевая матрица является единственной неотрицательной подоб- ратной к А. У 13.4.2. Построить пример, показавший, что из условий: АВ > /, ВА > /, В > О и матрица В невырождена, не следует, что А > В. У 13.4.3. Обобщить теорему 13.4.3 на случай блочных расщеплений матрицы F'(x) (см. ЗС 7.4.10). У 13.4.4. Применить теоремы 13.4.5 и 13.4.8 к уравнениям A.1.7) и A.2.5), где соответственно / (s, и) = еи и / (s, /, и) = еи. У 13.4.5. Пусть матрица A?L{R2) и отображение ф: Я2 -> R2 задаются форму- формулами /2*, + 2 sin хЛ U ) Показать, что для Лиф выполнены все условия теоремы 13.4.8, за исключением выпуклости ф, но при х° = (я, п)т имеют место равенства x2k = x°, k = 1, 2, ... . У 13.4.6. Применив теорему 13.4.7, дать еще одно доказательство глобальной теоремы о методе Ньютона 13.3.7 при более сильных ограничениях на отображение F: Rn -> Rn, а именно, предполагая, что это отображение непрерывно дифферен- дифференцируемо, выпукло и 0 < F' (л:)"" < С для некоторой матрицы С ? L (Rn) и всех х? Rn. 13.5. ^-ОТОБРАЖЕНИЯ И НЕЛИНЕЙНЫЕ ПВР-ПРОЦЕССЫ В настоящем параграфе мы получим теоремы о монотонной и гло- глобальной сходимости для нелинейного ПВР-процесса {решить /t(^+1, . . . , *?t}i xit *f+1, . . . , x^) = bi относительно xf, ВЗЯТЬ AT?*1 = х\ + G)(Xi — *J); / = 1. . . , tl\ k = 0, 1, . . . , рассматривавшегося в § 7.4, а также для нелинейных процессов Якоби | решить fi{xkv . . . , *?_j, xit xki+v . . , x*) = bt относительно */; I f + ( % il k 0 1 I взять д^+1 = xf + со (xi — x% i=l, ,.,,«; k = 0, 1, . . . ; в обоих случаях предполагается, что со ? @, 1]. Следующим определением выделяется полезный класс функций F.
446 Часть V. Полулокальная и глобальная сходимости J3.5 13.5.1. Определение. Отображение F: Rn -> Rn называется диа- диагонально изотопным, если при любом х ? Rn изотонны п функций Ч>«: R1-* R\ %i (t) = U (x + te% i = 1, ... , /г. C) Отображение F называется строго диагонально изотопным, если при любом х ? Rn эти функции ура> i — 1, ..., пу строго изотонны. Наконец, F называется внедиагонально антитонным, если при лю- любом х ? Rn функции ty,: R1 -» R\ Ус, (t) = U {x + tei), 1ф'и /, / - 1, ... , /г, D) антитонны. | 13.5.2. Пусть отображение F: Rn-+Rn непрерывно, внедиагонально антитонно и строго диагонально изотонно, и пусть для некоторого Ь б Rn существуют такие точки дс°, у0 ? Rny что ^°<^°, F*0 < Ь < Fy\ E) Тогда при любом со?@, 1] однозначно определены ПВР-итерации [yk] и {л:*}, определяемые соотношениями A) и начинающиеся с то- точек j° и i° соответственно, и xk f x*, yk | if, k-> со, x* < #*, Fjk* = Fy* = b. F) Соответствующий результат справедлив также для итераций Яко- би B). Доказательство. Мы дадим доказательство толькодля ПВР-итерации. Аналогичное доказательство для процесса Якоби служит предметом упражнения У 13.5.1. В качестве предположения индукции допустим, что при k > О и i > 1 х° < х* < yk < y\ Fxk < b < Ff/fe, G) /=1, ..., t-1, (8) где при i = 1 множество значений /, для которых выполнено (8), пусто. Очевидно, что неравенства G) и (8) выполнены при k = О, I = 1. В силу внедиагональной антитонности для функций a (s) = ь ..., ykn) выполняются неравенства P(s)<a(s), Vsg/?1, (9) a(^. (Ю) В силу непрерывности и строгой изотонности функций а и р из не- неравенства A0) вытекает существование единственных значений
13.5 Гл. 13. Сходимость и частичное упорядочение 447 yi и Хс, для которых Р (УЬ = &i = <* $), ДС? < X? < */? < у? , где вследствие (9) xi < */*. Так как со ? @, 1], то У* >У**1 = У* + ®(yki — У*) > Это показывает, что при t= 1, ..., я выполнено (8) и, следователь- следовательно, xk < xk+l < #*+' < у*. Но тогда и аналогично ^(^ft+1)<^, ^==1, •••, л. Этим завершается индук- индукция, а с ней и доказательство неравенства G). Очевидно, что су- существуют пределы **<#*, и так как (о>0, то lim i? = — lim (л:?+1 — *?) + Шп *? = **, t = 1, ..., п. Аналогично находим, что lim yk == t/*. Теперь из определения A) ПВР-процесса и непрерывности отображения F вытекает, что Лс*-= F^ ь Теорему 13.5.2 можно применить к уравнению Лх -\-фх =0. Но прежде чем приступать к этому, мы введем одно дополнительное понятие. 13.5.3. Определение. Отображение F: Rn-+Rn будем называть об- обратно изотопным, если при любых х, у ? Rtl из неравенства Fx < <^ следует, что 13.5.4. Отображение F: Rn-+Rn обратно изотонно тогда и только тогда, когда оно взаимно однозначно и обратное отображение Z^1: FRn aRn->Rn изотонно. Доказательство. Если F обратно изотонно, то из равенства Fx = Fy следует, что х < у и х > у, поэтому х = у и отображение F взаимно однозначно. Далее, если и = Fx, v =Fy и и < у, то Fa~J = x < # rsrF"-1^, поэтому отображение F" изотонно. Анало- Аналогично, если F взаимно однозначно и F" изотонно на FRn, то из соотношения v =Fy > Fx —и следует, что у =F~"lv^F~~lu= = лг. | Другое интересное свойство обратно изотонных отображений выражается следующей теоремой.
448 Часть V. Полулокальная и глобальная сходимости 13.5 13.5.5. Всякое непрерывное обратно изотонное отображение F: Rn->R'\ для которого FRn=Rn> является гомеоморфизмом пространства Rn на себя. Доказательство. В силу теоремы 13.5.4 достаточно пока- показать, что непрерывно отображение F~l: Rn-+Rn. Пусть [yk)aRn — такая последовательность, что lim yk = у. Тогда она ограничена, fc-ЮО и если, скажем, и < yk < v, то в силу обратной изотонности F~~lu < ^ xk = F~V < F~Xv ПРИ всех ?>0, а потому ограничена последо- последовательность [xk]. Если * —некоторая предельная точка последова- последовательности [xk] и если lim xki = x, то в силу непрерывности отобра- отображения F мы имеем Fx = lim Fxk( = lim yk[ = у или х = F"]y. Итак, последовательность {xk} имеет единственную предельную точку F~xyy откуда lim F~lyk = F~]yy т. е. отображение F~~l непрерывно. | Применим теперь предыдущие результаты к уравнению Ах + -(- фх = 0. 13.5.6. Пусть А ? L (/?")— некоторая М-матрица, а отображение 0: /?п -> /?п непрерывно, изотонно и диагонально. Положим Fx = = Ах + 0л:, л: g Rn . Тогда отображение Z7 обратно изотонно и яв- является гомеоморфизмом пространства Rn на себя. Кроме того, если при произвольном b ? Rn взять то ПВР-итерации A) с любым со ? @, 1] и с начальными точками х° и у0 соответственно удовлетворяют условиям где х* — единственное решение уравнения Fx = b. Точно такие же утверждения о сходимости справедливы и для итераций Якоби B). Доказательство. Покажем сначала, что отображение F обратно изотонно. Пусть Fx < Fy при некоторых х, у ? Rn, таких, что х < у. Положим S = {1 < / <. п \ xf > у/}. Тогда ввиду изотонности отображения ф и неположительности внедиаго- нальных элементов матрицы А 0<fi(y)-f,(x) =ijfl/*(y*-^ fe=i <2>ajk{yk-xd, j?S. A3) Но в силу теоремы 2.4.10 подматрица (ay* |/, k ? S) также является М-матрицей, и потому из A3) следует, что *// > яу при всех / 6 5.
13.5 Гл. 13. Сходимость и частичное упорядочение 449 Мы пришли к противоречию, следовательно, отображение F обрат- обратно изотонно. Пусть теперь произвольно выбрано b ? Rn, а точки х° < у° определены равенством A1). Тогда в силу теоремы 13.4.6 (в) Fx° < < b < Fy°. Очевидно, что отображение F удовлетворяет условиям теоремы 13,5.2 (см. 2.4.8); следовательно, для ПВР-итераций вы- выполнено F). Но по теореме 13.5.4 Z7 взаимно однозначно, значит, х* = у*. Таким образом, показано, что F является отображением на Rn, и из теоремы 13.5.5 вытекает, что F — гомеоморфизм. Доказательство сходимости для итераций Якоби также получа- получается непосредственным применением теоремы 13.5.2. | Отметим, что для конкретного выбора точек A1) мы воспользо- воспользовались теоремой 13.4.6, но любой другой выбор, для которого вы- выполнено E), дал бы, конечно, тот же самый результат. Заметим также, что в теореме 13.1.3 мы уже показали, что отображение А + ф является взаимно однозначным отображением на. Однако теорема 13.5.6 дает другое доказательство этого результата и в со- сочетании с теоремой 13.5.5 приводит к более сильному утверждению, что отображение F является гомеоморфизмом. С другой стороны, теоремы 13.1.3—13.1.5 позволяют установить глобальную сходи- сходимость итераций Якоби и ПВР. Мы покажем далее, что глобальная сходимость в нашей тепереш- теперешней ситуации также может быть получена, если на отображение F из теоремы 13.5.2 наложить несколько более сильные условия. По аналогии с понятием М-матрицы введем следующее понятие. 13.5.7. Определение. Отображение F: Rn -> Rn называется М- опгображениеМу если оно обратно изотонно и внедиагонально анти- тонно. | Очевидно, что аффинное отображение Ax+b, A ? L (Rn)9 b ? Rn является Af-отображением тогда и только тогда, когда матрица А есть 7И-матрица (У 13.5.4). Далее, из теоремы 13.5.6 сле- следует, что если выполняются все условия этой теоремы, то отобра- отображение A -f- ф будет М-отображением. Диагональные элементы М-матрицы обязательно положительны. На случай М-отображений это свойство обобщается следующим образом. 13.5.8. Всякое М-отображение F: Rn-*Rn является строго диаго- диагонально изотонным. Если при этом FRn=Rn, то для любых x?Rn и 1 < i < п lim ft (х + tef) = + оо, lim /. (х + tel) = — ос. A4) Доказательство. Допустим, что для некоторого х ? ? Rn найдутся такой индекс i и такие числа t > s, что
450 Часть V. Полу локальная и глобальная сходимости 13.6 В силу внедиагональной антитонности fi(x + sei)'^ff(x + t^)t l^U /=1. ...,/г, я, следовательно, также F(x + se*)>F(x + te*). Последнее неравенство приводит в силу обратной изотонности к неравенству s > /. Мы получили противоречие. Таким образом, отображение F строго диагонально изотонно. Пусть теперь FRn=Rn. Допустим, что не выполнено первое из условий A4), т. е. для некоторого х ? Rn и некоторого индекса i найдется такая последовательность \tk) cR1 с lim tk = + оо, что M teO<°. ? = 0, 1, .... Если 4 > U k = 0, 1, ..., то, опять используя внедиагональную антитонность, получим, что * = 0, 1, .... ИЛИ F(x + t#*) < a = (alf ... , an)T, ft = 0, 1, ... . Так как F/?n = Rn, то найдется такое г/ ? /?", что Fy = а, и в си- силу обратной изотонности Это показывает, что последовательность {tk} ограничена сверху,— противоречие. Доказательство второго соотношения A4) проводится аналогично. | По теореме 13.5.8 для любого непрерывного М-отображения выполняются условия теоремы 13.5.2. При дополнительном предпо- предположении, что F является отображением на, мы можем доказать гло- глобальную сходимость итераций ПВР или Якоби. 13*5*9, Пусть отображение F: Rn -> Rn является непрерывным М-отображением пространства Rn на себя. Тогда при любом Ь ? ? Rn, любой начальной точке х° ? Rn и любом со ? @, 1] ПВР-ите- рации A), а также итерации Якоби B) сходятся к единственному решению х* уравнения Fx = b. Доказательство. Докажем наше утверждение опять только для ПВР-итераций. При заданных х°, b ? Rn положим и« = F~l (max [/, (л*), Ьг]9 ... , max [fn (x0), bn])9 (J5) v° = F~] (min [fx (x»)t ftj, ... , min [fn (x°), bj).
13.5 Гл. 13. Сходимость и частичное упорядочение 451 В силу обратной изотонности Fu° > Ь > Fv\ и0 > х° > о°э а0 > %* > о0. Обозначим через {ufe}, [vk] и {л;*} ПВР-последовательности, начина- начинающиеся с точек а0, и0 и х° соответственно, причем каждая из этих последовательностей построена с одним и тем же со ? (О, 1]. Из тео- теоремы 13.5.8 и непрерывности отображения F вытекают существова- существование и единственность решений и?, v* и xl уравнений i= 1, ..., rt, * = 0, 1, .... f (jc*~^ A/"* x^ x^ xk) = 6 Поэтому все три ПВР-последовательности корректно определены. Далее, по теореме 13.5.2 имеем v° < vk < t^1 < lim vk = x* = lim a* < ^+] < uk < a0, A6) 6 </=•«*, A = 0, 1 Пусть для некоторых & > 0 и t > 1 о* <** < ы^, t^1 < ^+1 < t4+\ / = 1 г- 1. A7) Это неравенство справедливо при k =0 и, тривиальным образом, при i =1. Из соотношения М«?+1, .... «&!,«?,«?+ , ««) = &,= и строгой диагональной изотонности отображения F следует, что >х?. Анал следует, что ?. Аналогично найдем, что i>?< xf. Так как cog @, 1], отсюда Этим завершается индукция, и неравенства A6) и A7) в совокупно- совокупности показывают, что lim xk =х*. | В качестве немедленного следствия теоремы 13.5.9, а также тео- теоремы 13.5.6 мы получаем теоремы о глобальной сходимости 13.1.3 и 13.1.5 для итераций ПВР и Якоби, примененных к уравнению Ах + фх = 0.
452 , Часть V. Полулокальная и глобальная сходимости 13.5 ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 13.5.1. Теорема 13.5.2 для частного случая Fx ^ Лх + фх, где А и ф опреде- определены, как в теореме 13.5.6, была получена в статье Ортега и Рейнболдт [1970а]. Эта теорема улучшает более ранний результат статьи Ортега и Рейнболдт [1967а], где отображение ф предполагалось непрерывно дифференцируемым и выпуклым. Для одного класса отображений, возникающих в теории тепловых сетей, Биркгоф и Келлог [1966] установили результат, близкий к теореме 13.5.2 в случае процес- процесса Якоби, а Поршинг [1969] распространил его на случай ПВР-процессов. Пор- шинг получил также результат о сравнении итераций ПВР и Якоби. Пользуясь введенной нами терминологией, можно сформулировать следующий несколько более общий результат, позволяющий сравнивать между собой процессы с раз- различными со. Пусть выполнены условия теоремы 13.5.2 и 0<со<со< 1. Пусть, далее, {yk} и {yk}—ПВР-итерации A) с параметрами со и со соответственно, а у0 => = у°. Обозначим соответствующие последовательности Якоби через {vk) и {vk}. Тогда yk>yk>y\ vk>lk>y*, u*>*A л = о, 1 где у* — максимальное решение уравнения Fx=*b в (х°, у0). По поводу доказательства этого утверждения, а также соответствующего ре- результата о последовательностях, начинающихся с точки *°, с заменой #* на **, см. Рейнболдт [19696]. , ЗС 13.5.2. Понятие обратно изотонного оператора на частично упорядоченном линейном пространстве введено Коллатцем [1952], использовавшим термин «опе- «оператор монотонного типа». С тех пор появилась обширная литература об условиях, гарантирующих обратную изотонность особенно для дифференциальных операто- операторов. Краткое изложение вопроса имеется у Коллатца [1964], а некоторые наиболее важные результаты приведены у Шредера [1962, 1966]. ЗС 13.5.3. Теорема 13.5.5 является частным случаем следующего результата, если F: Rn -> Rn непрерывно и обратно изотонно, то F" непрерывно на FRn- Это следует из теоремы 13.5.5: в силу теоремы об инвариантности области (см- ЗС 6.2.1) множество FRn открыто, и потому в качестве и и v можно взять вершины гиперкуба 5 с FRn, такого, что и < yk < v при всех k > ko. ЗС 13.5.4. Понятие М -отображен и я было введено Ортегой в одной неопублико- неопубликованной заметке и затем применено Рейнболдтом [19696]. В этой последней работе содержатся, в частности, теоремы 13.5.8 и 13.5.9, а также некоторые дополнитель- дополнительные результаты,с применениями к задачам о нелинейных сетях и к краевым задачам для уравнения и" = / (t, и, и'). Поршинг [1969] доказал глобальную сходимость ПВР-процесса для упомянутого в ЗС 13.5.1 класса отображений, возникающих в теории тепловых сетей. Поскольку, как показал Рейнболдт, эти отображения являются М-отображениями, теорема Поршинга покрывается теоремой 13.5.9. УПРАЖНЕНИЯ У 13.5.1. Доказать теоремы 13.5.2, 13.5.6 и 13.5.9 для процесса Якоби B). У 13.5.2. Пусть даны отображения F, G: Rn -> Rn* Показать, что FG обратно изотонно, если F и G обратно изотонны, и что G обратно изотонно, если F изотонно, a FG обратно изотонно. У 13.5.3. Обратно изотонное отображение F: R" -> Rn называется строго обрат- обратно изотопным, если из неравенства Fx < Fy следует, что х < у. Показать, что всякое непрерывное обратно изотонное отображение строго обратно изотонно (Шредер [19621).
13.5 Гл. 13. Сходимость и частичное упорядочение 453 У 13.5.4. Доказать, что аффинное отображение Ах+ b, A? L (/?"), b? Rnt является М-отображением тогда и только тогда, когда А есть М-матрица. У 13.5.5. Построить одномерный пример М-отображения, не являющегося ото- отображением на. У 13.5.6. Пусть G: Rn -> /?п — некоторое М-отображение на Rn и F = G". Показать, что выполнено A4). У 13.5.7. Применить теорему 13.5.6 к уравнениям A.1.7) и A.2.5) в предположе- предположениях теорем 4.4.2 и 4.4,3 соответственно.
Глава 14 СХОДИМОСТЬ МЕТОДОВ МИНИМИЗАЦИИ 14.1. ВВЕДЕНИЕ И СХОДИМОСТЬ ПОСЛЕДОВАТЕЛЬНОСТЕЙ В этой главе мы рассмотрим сходимость итерационных методов общего вида xk+\ = ^_ ща^, k = 0, 1, ... , A) применяемых для нахождения минимизаторов или критических точек заданного функционала g: D сг Rn -> R1. Здесь, как и в гл. 8, pk — «направляющий» вектор, ak ~— основная длина шага и щ — релаксационный параметр. Мы ограничим свое внимание методами спуска, т. е. методами, для которых последовательность A) удовлетворяет условию grt, fc = o, i, ... B) На самом деле многие из алгоритмов гл. 8 построены как раз так, чтобы это условие выполнялось. Для других необходимо подходя- подходящим образом ограничить значения параметра сол в A). В любом случае нужно проверить, что условие B) выполнено. Проверка условия B) всегда является первым шагом при анали- анализе сходимости, и если функционал g ограничен снизу, то, очевидно, из B) вытекает сходимость последовательности {g(xk)}. Важно, однако, понимать, что само по себе это еще ничего не говорит о спра- справедливости заключительного утверждения о сходимости lim xk = x*f g' (x*f = 0. C) Наши исследования, относящиеся к соотношению C), будут основаны на использовании двух основных вспомогательных пред- предположений, а именно Нт ?'(**) pV II Pi = 0 D) fe-юо И lim g' (xk)T = 0. E) В гл. 8 мы видели, что выбор вектора рк и выбор длины шага ak осуществляются в значительной степени независимо друг от друга. Важность технического условия D) состоите том, что эта независи- независимость сохраняется при анализе сходимости и что фактически спра- справедливость условия D) зависит только от алгоритма выбора шага
14.1 Гл. 14. Сходимость методов минимизации 455 при очень слабых предположениях относительно самого функциона- функционала g. Следующий параграф посвящен исключительно анализу раз- различных алгоритмов выбора длины шага, включающему в себя в ка- качестве первичного этапа проверку условия D). Для одного очень важного класса методов — градиентно согла- согласованных методов, которые будут рассмотрены в § 14.3 и частично в § 14.4 и 14.5,— выполняется неравенство вида g'(xk)pk>c\\gf(xk)T\\\\pki О О, Vk>kQ. F) Это неравенство гарантирует, что из D) следует E). Справедливость неравенства F) — это, главным образом, свойство направляющих векторов pfe. Интуитивно можно сказать, что векторы g'(xk)T и pk «ограничены от ортогональности». С другой стороны, для таких важных методов, как метод покоординатной релаксации (метод Гаусса — Зейделя), который будет рассмотрен в § 14.6, неравенст- неравенство F) не выполняется. В этом случае возможность вывода соотноше- соотношения E) из D) по-прежнему существенно зависит от свойств вектора pk, но в то же время требуются дополнительные предположения отно- относительно функционала g, и кроме того часто мы будем предполагать, что выполнено другое вспомогательное предположение lim (xk+l — xk) = 0. G) Проверка условия G) в свою очередь для некоторых алгоритмов выбора длины шага производится непосредственно, для других же требует дополнительных предположений относительно функцио- функционала g. Условие C) является обычно следствием одних лишь условий B) и E), при надлежащих предположениях относительно g. Так может быть и при более слабых предположениях относительно g, но при условии, что выполняется G). Оставшаяся часть этого парагра- параграфа посвящена вопросу о выводе условия C), а также основным тео- теоремам о скорости сходимости. Начнем с двух определений. 14«1«1с Определение. Функционал g: D a Rn ->- R1 называется линейно непостоянным^ на множестве Doa D, если он не является постоянным ни на каком отрезке, лежащем в Do, т. е. если не су- существует двух различных точек х> у ? Do, таких, что (l-t)x + ty?D0 и g([\-t]x + ty)=g(x) при всех t ? [О, П. | Очевидно, что строго квазивыпуклый функционал (определение 4.2.5) является линейно непостоянным на всяком выпуклом под- подмножестве множества D (см. также У 14.1.4). ]) В оригинале hemivariate. Было сочтено целесообразным отойти от букваль- буквального перевода («полупеременный») ввиду его явной неудачности.— Прим. pea.
48б Часть V. Полу локальная и глобальная сходимости 14.1 Второе наше определение получается усилением условия спуска B), присущего всем методам вида A), рассматриваемым в этой главе. 14.1.2. Определение. Пусть задан функционал g: D d Rn -> R1. Последовательность {xk}, лежащая в некотором подмножестве Do cz d D, называется сильно понижающей в Do, если DOi V<6[0fl], (8) g И >g (П - П x* + txW) >g(xW), V t? [0, 1J. | (9) Располагая этими определениями, мы можем доказать следую- следующие утверждения относительно условия G). 14.1.3. Пусть функционал g: Dd/?'1-*/?1 непрерывен и линейно непостоянен на компактном множестве DoczD. Тогда каждая силь- сильно понижающая последовательность \xk) cz Do удовлетворяет усло- условию lim (xk — xk+l) = 0. Доказательство. Пусть найдется такая подпоследова- подпоследовательность {xki}, что ||//+1_/t||>8>o, V/>0. В силу компактности множества Do можно, не ограничивая общнос- общности, считать, что Нтд^ = ** и limx*t+l = х**. Тогда ||х* — л?*|| > >8> 0 и, конечно, л:*, л;** g Do. По предположению g (xk) и так как функционал g ограничен снизу на множестве ?>0, то lim (g(^)—gr поэтому g (л^) = g (x**). Наконец, из (8) и замкнутости множества Do следует, что (\—t)x* + to** g Do при <е [0, 1]. Из (9), в силу непрерывности функционала g, вытекает, что g (х*) = g ([I -1] x* + tx**) = g (x**), V/ €"№, i|. Таким образом, функционал g постоянен на отрезке, соединяющем точки х* и х**, что противоречит линейной непостоянности этого функционала. | Вернемся теперь к нашему заключительному утверждению о сходимости C) и докажем следующий простой, но основополагаю- основополагающий результат. 14.1.4. Пусть функционал g: DaRn-+Rx непрерывно дифференци- дифференцируем на компактном множестве DocD и \xk) dD0 — произвольная последовательность, удовлетворяющая условию lim g' (xk)T= 0. Тогда множество Q = [х ? Do \ g' (xT = 0} критических точек функциона-
14.1 Гл. 14. Сходимость методов минимизации 457 ла g в Do непусто и lim [inf ||д* — *[] =0. (Ю) fe-юо x?Q ' Если, в частности, множество Q состоит из одной единственной точки **, то g' (х*)т = 0 и lim xk = х*. Доказательство. В силу компактности множества Do по- последовательность {xk} содержит сходящуюся подпоследовательность, и если lim xki = x, то в силу непрерывности gr мы имеем gf (x)T = 0, а потому x?Q. Теперь положим 6ft = inf |я* —*| и допустим, что lim 6^ = 8. Последовательность {л;'} содержит сходящуюся подпо- следовательность, и так как предельные точки этой последователь- последовательности лежат в Q, то б = 0, чем A0) и доказано. | Главное значение полученного результата состоит в том, что в случае, когда множество Q состоит только из одной точки, рассма- рассматриваемая последовательность сходится. Если же множество Q состоит из конечного числа точек, то сходимость все еще сохраня- сохраняется, если выполнено условие G). 14.1.5. Пусть функционал g: DczR*1-*!? непрерывно дифференци- дифференцируем на компактном множестве DoaDy и пусть множество Q кри- критических точек этого функционала в Do конечно. Если {xk} с Do — произвольная последовательность, для которой lim (xk — л;**1) = О и lim g' (xk)T = 0, то lim** = х* и g' (х*)т = 0. Доказательство. Пусть Л — множество предельных то- чек последовательнсти {**}. Как и в теореме 14.1.4, любая предель- предельная точка является критической точкой функционала g, поэтому Лег Q, так что множество Л конечно. Пусть Л = {г1, ...э гт}, где m > 1. Тогда */[||t=^/, i\ / = 1, ..., т}>0 т и можно найти такое &0>0, что xk ? [j S(z\ 6/4) и \\xk— < 6/4 при всех k > k0. Значит, если xki б 5 (г1, 6/4) при некотором ki>kQi то > б — 26/4 = 6/2, />2,_ и, следовательно, xk*+l g 5 (г1, 6/4). Отсюда по индукции получаем, что xk?S(zl, 6/4) при всех k^kv Но это противоречит тому фак- факту, что г2, ,.., zm — предельные точки последовательности {**}. По- Поэтому /ft ас 1. |
458 Часть V. Полу локальная и глобальная сходимости 14.1 Мы закончим настоящий параграф основным результатом о ско- скорости сходимости. Напомним, что в соответствии с определением 9.2.1 /^-множитель сходимости для последовательности {xfe},cxo- дйщейся к **, определяется равенством /?!{**} = lim sup [| jcfe — х* ||1/fe и что в случае, когда Rx [xk] < 1, говорят, что последовательность имеет по меньшей мере /^-линейную скорость сходимости. 14.1.6. Пусть функционал g: DcRn-+Rl G-дифференцируем на открытом множестве DocD и последовательность {xk}(nD0 схо- сходится к точке лс* ? Do. Предположим, что g' (#*)T= 0, функционал g имеет вторую /^производную в **, матрица Гессе Нй (х*) имеет об- обратную и существуют такие г|>0 и &0, что ?(**)-?(**+') >Л||?'(*УР, Vk>k0. A1) Тогда Rt {xk} < 1. Доказательство. Положим a =\Hg(x*)~x\~x. Для любого заданного г ? @, а) можно найти такое б > 0, что 5 = 5 (х*, 5)cD0 и Отсюда Следовательно, ввиду A1), найдется такое kx > k0, что при ?о = = [г)(а-8JГ' \х*-x*\f < (а-гГ2\\ё' (*VIP < Vo{§И -8{*+% Vk>kv A2) Теперь заметим, что по теореме о среднем 3.3.12 где Yi = С/г)!^"^)! + е и k2 >^x достаточно велико. Используя A1) и A2), находим О < g (xk+l) -g{x*)<g И - g (х*) - ц || g' (х*)т |Р < < g (xk) -g(x*)- A/Vo) II x" - x* f < <b[g(xk)-g(x*)], Vk>k2, A3) где % = 1 — (YoVi)"' • Очевидно, 0<Х<1, и по теореме 9.3.1 из A3) вытекает, что Н% i\g ixk) - g (x*)]4'} < Qx {[g (x") - g (x*)]4') < I4' < 1.
14.1 Гл. 14. Сходимость методов минимизации 459 Поэтому, учитывая A2) и неравенство g (xk) — g (xk+l) < g(xk) — — ?(**)» мы получаем «i {**} < Ri Us (**) - g (**)]'/2> < ^ < 1. I ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.1.1. Идея явного использования основного соотношения D) принадлежит Элкину [1968], хотя неявно оно использовалось и раньше (см., например, Гольд- стейн [1967] или Островский [1966]). Элкину же принадлежат и теоремы 14.1.1— 14.1.3 (правда, у нас другая терминология). ЗС 14.1.2. Теоремы 14.1.4 и 14.1.5 взяты из книги Островского [1966]. Теорема 14.1.5 является.на самом деле частным случаем более общего утверждения о том, что множество предельных точек любой ограниченной последовательности {л^} с С Rn, удовлетворяющей условию lim (xk — л^) = 0, замкнуто и связно. ЗС 14.1.3. Для случая, когда множество критических точек функционала g не является конечным, Островский [1966] доказал следующую теорему. Пусть функ- функционал g: D с Rn -> R1 дважды ^-дифференцируем на открытом множестве Do с D и последовательность {xk} с Do удовлетворяет условиям lim (xk~^rl — fc-юо — xk) == 0 и lim g' (xkf s= 0. Если эта последовательность имеет предельную fe-юо точку х*> для которой матрица Гессе Hg(x*) невырождена, то HmA^=**. fc-юо Эта теорема утверждает, в частности, что если при указанных условиях на g и {л^} последовательность {xk} расходится, то матрица Гессе Hg (x) вырождена в каждой предельной точке. Островский [1967а] доказал даже более сильное утверждение, а именно, что если функционал g четырежды непрерывно дифферен- дифференцируем на Do, то (ранг Hg (х)) < п — 2 в каждой предельной точке. УПРАЖНЕНИЯ У 14.1.1. Пусть функционал g: DciR1'^Ri непрерывно дифференцируем, стро- строго выпукл и ограничен снизу на выпуклом компактном множестве Do С D. Показать, что любая последовательность {**} с Do, для которой g(xk) > g(xk^~l) и lim g' (xk) (xk — л^) = 0, удовлетворяет условию lim (xk — х*"^1) = 0. Рас- смотрев примеры D0 = [—l, \)CZR\ g(x)=*ext xk показать, что условие lim g' {xk) (xk — xk+l) = 0 нельзя, вообще говоря, отбро* fe-*co сить, а также что предел последовательности {хк} не обязательно является ло- локальным минимизатором. У 14.1.2. На примере функции g: Rl -> Rl. я (х) = ехр (— х2). и последователь- ности xk = ^i Г1 Убедиться, что теорема 14.1.5 перестает быть справедливой, если множество Do не компактно.
460 Часть V. Полулокальная и глобальная сходимости 14.2 У 14.1.3. Показать, что следующие функционалы линейно непостоянны: (а) g: /?2 -> tf1, g(xv х2) = а* (х\ — *2J + A — хг? (Розенброк [I960]); (б) g: /?* -». Л1, g(xv *2, *3> xt) - (Xl + 10*2)a + 5 (x3 - x4J + (*, - 2*8)«+ + 10 (jfj — x4L (Пауэлл [1962]). У 14.1.4. Пусть функционал g: D с #п -*• Z?1 квазивыпукл на выпуклом мно- множестве Do С D. Показать, что он лин ейно непостоянен тогда и только тогда, когда строго квазивыпукл. У 14.1.5. Построить пример компактной последовательности {xk}dR1} для которой lim (xk — xk+l) = 0, но lim xk не существует. 14.2. АНАЛИЗ ВЫБОРА ДЛИНЫ ШАГА В этом параграфе мы докажем, что наше основное предположе- предположение 0 A) выполняется для некоторых алгоритмов выбора шага при произ- произвольных направлениях pk Ф 0. Уже простые одномерные примеры (см. У 14.1.1) показывают, что из одного только условия спуска B) условие A), вообще говоря, не вытекает, даже если при всех k > О выполняется строгое неравенство. Только «достаточно» быстрое убывание функционала g на каждом шаге может гарантировать нам выполнение условия A). Для того чтобы иметь способ измерения достаточности этого убывания, введем следующий класс функций. 14.2.1. Определение. Отображение а: [0, оо) -> [0, оо) называется вынуждающей функцией (F-функцией), если для любой последова- последовательности {tk} С [0, оо) lim a (tk)=0 влечет lim tk = 0. | C) Отметим, что любая неубывающая функция а: [0, оо) -> [0,оо) с а @) = 0 и а (t) > 0 при t > 0 обязательно будет ^-функцией. Напомним, что функции такого вида уже использовались в опреде- определении 4.3.5 равномерно связного функционала. Все последующие результаты о справедливости равенства A) сводятся к следующему простому принципу достаточного убыва- убывания. 14*2,2, Пусть функционал g: D a Rn -> Rl является G-дйффе- ренцируемым и ограниченным снизу на некотором множестве Do с С D и векторы *«0, 1, ...f D)
14.2 Гл. 14. Сходимость методов минимизации 461 все лежат в Do. Если существует такая F-функция о, что g(xk)-g(xk+i)>o(\g'(xk)p*\/\\pk\\), *>0, E) то lim g' (xk)pk/1| р* || = 0. fe-юо Доказательство. Так как функционал g ограничен снизу на Do, а из E) следует, что g(xk) >g(Jt*+1)> то \im(g(xk) — g()) — Q, и условие A) выполняется в силу определения /^функции. | Наша цель теперь — получить оценки вида E) для различных алгоритмов выбора длины шага, рассмотренных в гл. 8. Но для применимости теоремы 14.2.2 нужно гарантировать, что последо- последовательность D), порожденная данным конкретным алгоритмом^ лежит в Z)o. Для большинства из этих алгоритмов мы сможем дока- доказать, что последовательность [xk] является сильно понижающей, т. е. g(xk + t(xW-xk))^g(xb), V*6[0,l], Л = 0э 1 F) так что {xk} cz L° (g (x0)). Здесь, как и в гл. 8, HgW)) = {x?D\g(x)<gWh G) a L° (g (л:0)) — линейно связная компонента множества уровня L (g (х0)), содержащая саму точку #°. (Если нет опасности путаницы, то мы будем писать L и L0 вместо L (g (x0)) и L° (g (л?)) соответст- соответственно.) Проверка неравенства F) будет обычно осуществляться так: мы /ч будем показывать, что для любого / ? @, 1] найдется такое / ? б @, 0, что g (xk - tcokakpk) - g (xk) = - tk<ukakg' (xk - t(»kakpk) pk< 0. (8) Равенство в (8) получается, конечно, с помощью теоремы о среднем, а заключительное неравенство будет следовать из свойств самого ал- алгоритма. Но теорему о среднем нельзя применять до тех пор, пока мы не убедимся, что [xk, xk — takakpk] d D. (9) Следующая важная лемма позволяет гарантировать выполнение этого условия. 14.2.3. Пусть функционал g: Dcz^-^R1 непрерывен на открытом множестве D и G-дифференцируем на компактном множестве L0 = = L° (g (х0)) при некотором х° ? D. Тогда для любых х ? L0 и р ? € Rn с g' (х) р > 0 найдется такое а* > 0, что g (х) = g (x — а*/?) и [х, х — а*р] d L°. Если, в частности, г\ > 0 — произвольное число, обладающее тем свойством, что g (х —ар) < g (х), V (х — ар) ? (х, х — r\p] f] L°, то [х, х — т)р] d L°#
462 Часть V. Полу локальная и глобальная сходимости 14.2 Доказательство. Положим а* = sup У, где J = {a>O\[x,x-ap)czD и g(x — $p)<g(x), VP?@,a]}. Из леммы 8.2.1 следует, что множество J непусто и, следователь- следовательно, а* определено корректно. В силу компактности множества L0 мы имеем а* < + оо и [х, х — a*/?] d /Л Допустим теперь, что g(x — а*р) <g{x). Тогда, поскольку множество D открыто, а функ- функционал g непрерывен, можно выбрать такое 6>0, что x — ap?D и g (х — аР) < ё М ПРИ a € Ia*> a* + б]. Это * противоречит опре- определению величины а*, и поэтому g(x) = g(x— а*р). Последнее утверждение леммы очевидно, так как ясно, что ri<a*. | Мы начнем наш анализ выбора длины шага с рассмотрения прин- принципа мажорирования, обсуждавшегося в § 8.3 (г). В следующей теореме, как и во всех дальнейших результатах, последовательность {pk} предполагается заданной и в существенном произвольной. Напомним еще, что g'(x) ? L (Rn, R1) —- вектор-строка и что нор- {ма в L (Rn, R1) определяется соотношением B.2.9). Следовательно, при любой норме в Rn имеет место неравенство | g' (x) h \ < всех x?D, h?Rn. 14*2«4яПусть функционал g: D с Rn -»- Rl непрерывно дифферен- дифференцируем на открытом множестве D. Пусть, далее, множество L° = = L° (g (л:0)) компактно и \g'(x)-g'(y)\<V\*-yl V^, y?L\ Рассмотрим итерацию D) с некоторой последовательностью {pk} ненулевых векторов и предположим, что когда уже найдено xk? ? D, знак вектора pk выбирается так, чтобы gr (xk) pk > 0. Пусть длина шага и релаксационный параметр удовлетворяют соотноше- соотношениям где eg @, 1] задано. Тогда последовательность {**} лежит вся в L° li(^^+1) = 0 и li'(*)*/l*ll O Доказательство. Применим индукцию. Предположим, что xk ? ZA Если g' (xk) pk = 0, то xk+l = xk, поэтому можно считать, что g'(xk)pk>0. По лемме 8.3Л g И -g(*- tpk) > tg' (xk) Ph--Y yt2 II Pk f A0) всякий раз, как [xk, xk — tpk]aD, и из леммы 14.2.3 с т) = B — — е) ak вытекает, что k+x L° Далее, в силу A0)
14.2 Гл. 14. Сходимость методов минимизации 463 8 И - 8 (*k+l) > ЭД*' (**) Рк ~ Т- ибо 2(dk — cof = 1 — A — со*J > 1 — A — еJ = 8 B — е). Очевидно, что функция а (/) == G2) (г/у) B — г) t2 является /^функцией, и спра- справедливость условия A) следует из принципа 14.2.2. Наконец, из соотношения Y (x)pk/\\pk\\ вытекает, что lim (xk — л:^1) == 0. | В доказательстве теоремы 14.2.4 участвует чрезвычайно простая вынужденная функция, а именно ct2. В большинстве дальнейших результатов понадобятся более сложные F-функции, и большая часть этих функций получается тем или иным путем из следующей функции. 14.2.5. Определение. Пусть функционал g: D с Rn -> ^непрерыв- ^непрерывно дифференцируем, и пусть для некоторого множества Docz D а - sup {Цйг' (х) -g1 ДО I |*f у б ZH}>0. Функция б: [0, оо)->[0, оо), определенная формулой {\\х-у\\\х,у?Ой, \g'{x)-g'(y)\\>t), <€[0,a), lim б (s), /€[«,+ «>), называется обратным модул м непрерывности производной g': Dcz d^n->L(/?n, R1) на множестве DQ. I Заметим, что функция б всегда корректно определена и изотонна и б @) = 0. Мы хотим, однако, исключить возможность тождествен- тождественного равенства нулю. 14«2„6« Пусть функционал g: D cz Rn -> R1 имеет равномерно непрерывную производную на множестве Docz D, и пусть величина а из определения 14.2.5 положительна. Тогда б (/) > 0 при всех t > 0 и, следовательно, б является F-функцией. Доказательство. Еслиб(/) = О при некотором />0, то для любого заданного г > 0 найдутся такие точки х, у ? Ц,, что II g' (х) ~* g' (У) II > t и II -^ — УII < е» в противоречие с равномерной не- непрерывностью. | Принцип достаточного убывания E) по существу эквивалентен требованию, чтобы величина g' (xk+l) pk была «достаточно малой»
464 Часть V. Полу локальная и глобальная сходимости 14.2 по сравнению с g' (xk) pk. Это высказывание можно сделать точным, если воспользоваться принципом Альтмана из § 8.3 (б). Зафиксиро- Зафиксировав |л ? [0, 1), определим ak как наименьшее неотрицательное реше- решение уравнения 8'(х»-арЬ)рЬ = М'(хк)рК A1) Напомним, что при \х = 0 это приводит к принципу Карри из § 8.3 (б). Хотя при fi > 0 принцип Альтмана в качестве вычислитель- вычислительной процедуры и не представляет большого интереса, следующий результат все же полезен как средство для исследования других алгоритмов. 14.2.7. Пусть функционал g: Dcz^-^R1 непрерывно дифференци- дифференцируем на открытом множестве D, и пусть множество L° = L° (g (x0)) компактно. При заданных |л? [0, 1) и 8 g @, 1 ] рассмотрим итера- итерацию D), где {pk} — произвольная последовательность, такая, что g' (xk) pk > 0, ркф0 и кроме того е < со* < 1 и ak = min {a > 01 g' (** - ар*) р* = \ig' (xk) pk). A2) Тогда {xk} cz L°, последовательность {xk} является сильно пони- понижающей в L0 и lim ?'(**) Р7IIР* 1 = 0. Доказательство. Опять применим индукцию. Предполо- Предположим, что xk ? L°. Если g' (xk) pk == 0, то ak = 0 и xk+l = xk. Пусть теперь g' (xk) pk >> 0. Лемма 14.2,3 гарантирует нам существование такого tk > 0, что [**, xk — tkpk] c= L° и g (xk) = g (xk — tkpk). Сле- Следовательно, по теореме о среднем найдется такое t ? @, tk), для которого g'(xk-bk)Pk = 0- A3) Поэтому в силу непрерывности g' уравнение A1) имеет решение в @, tk)f а так как g' (xk) pk>0, то должно существовать наименьшее решение afe>0. Поскольку сол<1, то xk+l корректно определено и принадлежит L0. Далее, очевидно, что *'(*-«P*)/*>W'(*)P*. Va6[0,co,a,), A4) так что g(xk — apk) монотонно убывает на [0, (okak]. Следовательно, g (**) > § ((! - 0 ** + ^fe+1) >^ (^+1), V ^ [0, И, и последовательность {х*} является сильно понижающей в L0. Докажем последнее утверждение. Предположим сначала, что [х > 0. Тогда, используя опять теорему о среднем и неравенство A4), получаем ? И - ? (**+1) = co^g' (** - a/?') Pk > *kWg' (*k) Pk* A5)
14.2 Гл. 14. Сходимость методов минимизации 465 Без ограничения общности можно считать, что g' (х) ф О при х ? L0, ибо в противном случае утверждение теоремы тривиально. Поэтому по теореме 14.2.6 обратный модуль непрерывности б про- производной g' на L0 будет F-функцией. Из соотношения <\\g'(xk)-g'(xk-«kPk)t вытекает по определению функции S, что Следовательно, неравенство A5) можно продолжить и получить g (xk) - g (*+*) > ak«p* || еде' И -^ > a [g> И -J^L-J , A6) где a (^ s= (Liet6 (A — |i)<), / >0. Немедленно проверяется, что a также является /^-функцией, и наше утверждение следует из прин- принципа 14.2.2. Этим завершается доказательство для случая [г > 0. Пусть теперь \i = 0. Рассмотрим наряду с длиной шага ak соот- соответствующую ей длину шага <xky получаемую по формуле A2) при (л = г/2. Если положить xk+l = xk — a>kakPk> T0 очевидно, что g (xk+l) > g (xk+l). При этом для функции о (t) = (х/2) е/б (t/2) выпол- выполняется оценка A6) с xk+x, замененным на xk+l. Значит, для этой F-функции g И - g (^+1) > «г И - * (^+1) > a te' и pfe/ll Pfe II), A7) и наше утверждение снова вытекает из принципа 14.2.2. | Рассуждения в последней части этого доказательства чрезвы- чрезвычайно примечательны. Их можно было бы назвать «принципом сравнения». Пусть мы имеем два различных алгоритма выбора дли- длины шага I и II, и пусть в точке хк после применения алгоритмов I и II мы получаем точки х\+{ и x\tX соответственно. Если g(xk)-g(xki+l)>o(\g'(xk)pk\/\\pk\\), где a — некоторая F-функция, то для того, чтобы установить соот- соотношение достаточно показать, что g(;rf+) g() В теореме 14.2.7 допускаются лишь релаксационные множите- множители cofe< 1. Для получения соответствующих результатов при <ok > > 1 нужно наложить на функционал g более сильные условия. 14.2.8. Пусть функционал §": Dcn^-^R1 дважды непрерывно диф- дифференцируем на открытом множестве D, и пусть множество
466 Часть V. Полулокальная v глобальная сходимости 14.2 Z,0 = L° (g (xQ)) компактно. Предположим, далее, что r\0\\hf<gff(x)hh^y]l\\hl\ Vx?L\ h?R\ A8) где 0 < г]0 < Hi- При заданных (л ? [0, 1) и е ? @, 1) рассмотрим итерацию D) с g' (xk) pk > 0, pk Ф О, длиной шага akf определяемой формулой A2), и 1 < со^ < ш = 1 + (т1о/11I/2 A — е). Тогда {xk} cz L°, lim g' {xk) pk /1| pk \\ = О и lim (** — xk+l) = 0. Доказательство. Опять применим индукцию. Предполо- Предположим, что xk?L° и g' (xk) pk>0 (случай g' (xk) pk = 0 тривиален). Как уже было доказано в теореме 14.2.7, ak определено корректно, [xkf xk — akpk] dL° и g (xk — akpk) < g (xk). Следовательно^ в силу непрерывности функционала g, найдется такое а ? (аь соаЛ], что [xk, xk — apk] cz L°. Для любого такого а с помощью теоремы о среднем 3.3.11 мы получаем, используя сокращения zk = xk — akpk и yk = xk — $pk при некотором p g @, ? o^), что («* - PJ J + («* - PJ J A ~ 0 g" (г* + j о > 5 И - 8 (У") + (« - P) *' (г - g № - PPft) + A - e) o-kg' (xk - + -i-al|p»f [A - 8)гц,- (tie/гц)(I -eJтц] = = g (xk) -g(xk- ppft) + A - e) \iakg' (x") p* > 0. A9) Поэтому лемма 14.2.3 показывает, что [xk, xk — (оа4]с1°н,в част- частности, xk+* ? L°. Заметим теперь, что О ~ I*) g' (xk) Pk = g' (xk) pk - g' (x* - akp*) pk = l - «* [ g" (xk — takpk) pkpkdt B0)
14.2 Гл. 14. Сходимость методов минимизации 467 и, значит, ^%llpfell>(l~^)g4^)pV||pfe«>%aJ|p1l>rioll^-^+1l. B1) Таким образом, из A9) вытекает, что при \х > О 8 (**) - 8 (**+1) > A - е) илл | р* || g' (xk) р*/1 p* 1 > >A - e) |x [A -|i)/%]fe' (x»)p*/IP*II1. Но в силу принципа 14.2.2 это означает, что выполнено A). __ В случае \i = 0 опять применяем принцип сравнения. Пусть ak 6 @, аЛ) — длина шага A2) при \i = 7г- Положим (J = eafe g @» еал)- Тогда A9) вместе с B1), примененным к ak% показывают, что при не- некотором р ? (О, Р) Следовательно, по той же лемме 14.2.2 справедливо A). Последнее утверждение о том, что lim (jc* — xk+l) = 0, является непосредственным следствием из (Г) и B1). | Как уже указывалось в § 8.3, обычно длину шага выбирают так: «* = *Ч*)Р*/«Г(**)Р*Р*. B2) Эта длина шага получается, если сделать ровно один шаг по методу Ньютона для решения уравнения ?'(**—егрЛ) Р* = 0. B3) Для такого выбора длины шага справедлив следующий результат, опять при соответствующих релаксационных множителях %. 14.2.9. Пусть функционал g: Dd/?n->/?1 дважды непрерывно диф- дифференцируем на открытом множестве D, множество L0 = L° (g (х°)) компактно и выполнено условие A8). Рассмотрим итерацию D) с g'(*k)Pk>0, Pfe?=0, ak9 определяемым формулой B2) и 0<е< < со^ < со^ = B/7fe) — е, где в ? @, 1] и yk = sup 0, g(** - B4) Тогда {л:*}с:?0, limgf (^*)P*/||P*I = ° и Ит(х» — a:^1) =0. Доказательство. Пусть {л:^} g L°. Тогда в сиду A8) ве- величины ак и y^ обе корректно определены. Мы можем снова пред- предположить, что g'{xk)pk>0 и, следовательно, ak>0. Пусть U*, хк — apfe]cz:L0, a 6@, юаЛ). Тогда по теореме о среднем 3.3ДО
468 Часть V. Полулокальная и глобальная сходимости 14.2 мы имеем при некотором а ? @, а) Pk {1 - ~ [^ - е] ?" (х* - ар*) p 4 B5) откуда в силу леммы 14.2.3 следует, что [xk, xk — &akpk] с. L° и, в частности, xk+l g L°. Поэтому из B5) непосредственно получаем, что 8 (**) - Я (*k+l) > Т ea^S' (**) Pk > -у е2 [?' (^ft) Pftl2/g" (**) Р*Р* > и справедливость условия A) вытекает из принципа 14.2.2. Заклю- Заключительное утверждение теоремы является следствием соотношения ||д*-**+!|| = а,со,||р*|| < [B -e)/nolg' И PV1Р*|. I Заметим, что 1 < yk < %/% и, значит, 1/y^>t1o/t1i- Поэтому традиционный выбор множителей со^ таков: О <е < соЛ < Если величина ?"(** — apk)pkpk является невозрастающей по а, то, конечно, Yfe = 1 и> следовательно, е <>. со^ < 2 — 8. Это относит- относится, в частности, к квадратичным функционалам g. Заметим, далее, что в методе ПВР — Ньютона (8.3.9) в роли pk выступают координатные направления и потому g"(x) pkpk пред- представляет собой диагональный элемент матрицы Гессе Hg функциона- функционала g\ Следовательно, если положить Q = sup [d]g(x)\x? L°), Ci = inf {dig(x)\x? L0}, i = 1, ... , n, то в этом случае yk < Q/q, что дает такие допустимые границы для множителей a>k: е< щ < 2 [max fa/C,)l — е. B6) Обратимся теперь к принципам минимизации для выбора длины шага. Как мы уже видели в § 8.3 (а), имеются три возможности для такой минимизации. Им и посвящены следующие три результата. Наряду с множеством L° (g (x0)) нам понадобятся связные компонен- компоненты L° (g (xk)) множеств уровня L (g (xk)), k =1,2, ..., содержащие точки xk. 14«2«10« Пусть функционал g: D a Rn ->¦ R1 непрерывно дифферен- дифференцируем на открытом множестве D и множество
14.2 Гл. 14. Сходимость методов минимизации 469 L° = L° (g (x0)) компактно. Рассмотрим итерацию Xk+i = xk-akp\ /5 = 0, 1, . „ , B7) где ркФ0, a ak выбрано так, что 8(** - <*kPk) « min {g (x*- apk) | [**, x*- ар*] с L°(g(**))}. B8) Тогда {л;*} cz L°, последовательность {x*} — сильно понижающая и Hm ?'(**)/>*/1P* 1 = 0. Доказательство. Если xk? L°(g(л;0)), то L°(g(xk)) также компактно и найдется по крайней мере одно ak, для которого вы- выполнено B8). Поэтому xk+l ? L°(g(xk)). He ограничивая общности, можно считать, что gr (xk) pk > 0. Пусть теперь xk+l получено по принципу Карри A2) (при |ш = 0). Тогда, очевидно, g(#*+1)< <g{*k+l), и в силу A7) где a (t) = (V2) zt8 (t/2) есть ^-функция из теоремы 14.2.7. Поэтому из принципа 14.2.2 вытекает справедливость условия A). Наконец, поскольку [xk, xk+l] cz L° (g (xk)), то 8(*)>8(V--n* + t*+l)>8(*+1), V<6[0, 1], так что последовательность {xk} является сильно понижающей. | В качестве немедленного следствия из этой теоремы мы получаем, используя принцип сравнения, что условие A) выполняется для любой из других возможностей, рассмотренных в § 8.3 (а), т. е. для минимизации по всей компоненте L° (g (xk)) или по всему множеству уровня L (g (xk)), (Ясно, что ни в одном из этих случаев последова- последовательность {xk} не обязана быть сильно понижающей.) Зафикси- Зафиксируем это в виде следующих двух теорем. 14.2 Л К Пусть функционал g удовлетворяет условиям теоремы 14.2.10. Рассмотрим итерацию B7), где рк Ф 0 и <xk выбирается из условия g (Xk _ akpk) = min {g {xk _ apk) | Xk _ apk g Lo (g {xk))y B9) Тогда {xk}c:L0(g(x»)) и \img'(xk)pk/\\pb\\ = Q. ft-* oo 14«2.12« Пусть функционал g удовлетворяет условиям теоремы 14.2.10, причем само множество уровня L = L (g (jc0)) компактно. Рассмотрим итерацию B7), где pk Ф 0 и ак выбирается из условия g (д* _ akpk) = min {g (xk — apk) \xk — apk?L {g (xk))}. C0) Тогда {**} с L (g (x0)) ulimg' (x*) pk/ \\ pk \\ = 0. При выполнении условий теоремы 14.2.10 мы не можем, вообще говоря, уменьшить шаг, вводя нижнерелаксационный множи- множитель, так как возможно, что g (xk — apk) =g (xk) при некотором
470 Часть V. Полулокальная и глобальная сходимости 14.2 а € @» ak) (Рис- 14.1) и потому оценка E) может не выполняться. Но если функционал g квазивыпукл, то это исключено. 14.2.13. Пусть функционал g: D d Rn ->• R1 непрерывно диффе- дифференцируем и квазивыпукл на открытом множестве D и множество уровня L (g (х0)) компактно. Рассмотрим итерацию xk+\ ==xk — «>kakpk, ? = О, 1, где g' (xk) pk > 0, ркф0, 0 < 8 < щ < 1 и ак определяется усло- условием B8). Тогда {xk}dL°y limg' (xk) pk/\\pk\\ = 0 и последователь- последовательное ность {xk} является сильно понижающей. (X Доказательство. Пусть ak — дл^на шага Карри из теоре- теоремы 14.2.7. Поскольку множество D открыто, то g' (xk — akpk) pk = 0 и, следовательно, по определению шага ал, ал>ал. Пусть g'(xk)x X pk>0. Тогда afe>0, и мы получаем неравенство A7), а именно, g (х*) -g(**- co,a,p^) > a (^ (**) pV 1 р^ ||), где o(t) = A/2)et6(t/2). С другой стороны, в силу предположенной квазивыпуклости g (х* - ukakpb) < g (^ - ю^р*) и, значит, «Г И - g (*w) > а («г' И pV 1 p* ||). Поэтому, согласно принципу 14.2.2, выполнено условие A), и из квазивыпуклости g вытекает, что последовательность {#*} является сильно понижающей. | Во всех рассмотрениях, касавшихся алгоритмов выбора длины шага, мы должны были заботиться о том, чтобы, с одной стороны, функционал g убывал достаточно быстро, а с другой — чтобы вели- величина | xk — xk+x || была не слишком мала. Эти два требования указы- указывают некоторый диапазон «допустимых» длин шагов. Вместо того чтобы находить шаг ал по определенному алгоритму, мы можем счи- считать заданным лишь допустимый интервал для длины шага и выби- выбирать ak в этом интервале более или менее произвольно.
14.2 Гл. 14. Сходимость методов минимизации 471 Одна из таких возможностей — применить принцип Гольдстей- на, рассмотренный в § 8.3 (д): если g' (xk) рк — О, взять о^ = 0; в противном случае выбрать сс/j > 0 так, чтобы (**) Pk < § (**) - 8 (** ~ <**Р*) < ШВДГ' (**) Р* . C1) где 0 < цг < fx2 < 1 — некоторые фиксированные числа. 14«2Л4« Пусть функционал g: D cz Rn-+ R1 непрерывно диффе- дифференцируем на открытом выпуклом множестве D, и пусть множество уровня L —L(g(x0)) компактно. Рассмотрим итерацию где g' (xk) pk > 0, р^ =7^= 0 и afe > 0 — любое число, удовлетворяющее условию C1) с фиксированными 0<р1<[42<1. Тогда {xk} cz L и H '(*) */II *|| 0 Доказательство. Пусть xk?L и ^'(х*)рл>0. Используя лемму 14.2.3, легко доказать, что afe, удовлетворяющие условию C1), существуют. Для любого такого ak выполнено неравенство g ixk) — g (^fe+1) > 0 и, следовательно, **+i ? L. В силу выпуклости множества D мы имеем хк — apk ? D при всех a ? [0, ал]. Пусть со — модуль непрерывности производной g' на некотором компактном выпуклом множестве DociD, содержащем L. По тео- теореме 3.1.11 этот модуль непрерывности корректно определен и не- непрерывен на [0, оо). Поэтому функция r(s)= fco(s/)d/ корректно определена при всех s>0. По лемме 8.3Л так что, ввиду C1), откуда V || р^ || > ссл || р^ Ц йг' (л:^) рV || р^ |] — ос ft В р^ || г C2) Здесь г. [0, оо) -> [0, оо) — произвольная строго изотонная функция, такая, что г (/) > г @ при всех ^>0. Из C1) и C2) следует, что Поскольку г-1 существует и является /^-функцией, то функция a (/) = \ix tr~x ([1 — \i2]t) также является F-функцией и применим принцип 14.2.2. |
472 Часть V. Полу локальная и глобальная сходимости 14.2 Алгоритм Гольдстейна не дает конструктивного способа для нахождения длины шага ak, но, как отмечалось в § 8.3 (д), он мо- может служить основой для поисковой поцедуры. Вот одна из таких процедур: Алгоритм Гольдстейна — Армихо. Пусть а — некоторая фик- фиксированная /^-функция, a \i ? @, 1) и q > 1 — заданные постоян- постоянные. I. Основной выбор длины шага. Если g1 (xk)pk = 0, взять ak = = 0. В противном случае в качестве ak берется любое дей- действительное неотрицательное число, для которого ocft||pfe|> >°(g'(xk)pk/\\pk\\). II. Выбор релаксационного множителя. Если xk — akpk?D и g (xk) -?(**- akPk) > Wkg' (**) Pfe, C3) то взять cDfc = 1. Если xk — akpk($D или если не выполнено C3), то в качестве сол взять наибольший из членов последо- последовательности {<7~~'}Гэ Для которых xk — (dkakpk?D и g (xk) — g (xk - Щ*кРк) > W*iPk8' (xk) Pk- C4) Отметим, что если множество D открыто, то xk — qrfttkPk€ D при достаточно больших /, и из леммы 8.3.2 следует, что условию C4) всегда можно удовлетворить. 14.2.15. Пусть функционал g: Dcz^-^R1 непрерывно дифферен- дифференцируем на открытом выпуклом множестве D, и пусть множество L = L(g(x0)) компактно. Рассмотрим итерацию D), где #'(#*)р*> ^>0, /)*=й=0 и величины ak, сол выбраны в соответствии с алгорит- алгоритмом Гольдстейна — Армихо. Тогда {xk)czL и Yimg' (xk) pk/lpk\\ = 0. fe-voo Доказательство. Пусть xk$L и* g'(xk)pk>0. Из C3) и C4) следует, что тогда g(xk) — g(xk+l)>0 и, значит xk+l g L. Если,выполняется C3), то g (*k) - g (*k+l) > W (gf (xk) Pkl 1 Pk ||) fff (xk) pk/1 pk |. C5) Это неравенство имеет вид основной оценки из принципа 14.2.2. Предположим поэтому, что применяется C4). Тогда по определению величины (ofe, либо xk — q(uk<xkpk$Dy либо В [xk) — g{xk — q®kakpk) < М<йко<кё (**) Pfe- C6) Пусть опять б обозначает обратный модуль непрерывности произ- производной g' на множестве L. В силу теоремы 14.2.6 б является F-функцией, за исключением случая, когда g' (х) = 0 при всех х ? ? L\ этот случай можно исключить из рассмотрения. Предположим, что xk — qa)kakpk $ D и возьмем шаг Карри
t4.i /"л. 14. Сходимость методов минимизации 473 Из теоремы 14.2.7 вытекает, что xk — akpk§ L, а из соотношения 8* (xk) pkl || Pk || = g' (**) рЧ II Pk I - g' {xk - akP») p*/1 p* I < — что Так как xk — qaikakpk($D и (в силу выпуклости множества D) [xk, xk — акрк] cz D, то да>ко,к > ак и, следовательно, C7) это неравенство опять имеет вид оценки из принципа 14.2.2. Наконец, предположим, что xk — q(ukakpk($D, но при этом вы- выполняется C6). Если xk — q<ukakpk§L, то вновь Qa)kak>ak1 и мы снова приходим к C7). Если же xk — qa)kakpk ? L, то найдется та- такое а ? @, q<ukbk), что g' (jfi _ apfe) р^ = —J_ [gr (^) _ g {xk или О - rt §' M -^ < [§' И - g' (*» - Отсюда вытекает, что ,\\pk . 11/11 и, следовательно, что C8) IIP"И / Соотношения C5), C7) и C8) показывают, что где а есть F-функция, определяемая равенством * I 1 1 о (t) = min j \ito (/), ~ \t>t6 (t), — \it8 (A - Таким образом, в силу принципа 14.2.2 условие A) выполнено. |
474 Часть V. Полулокальная и глобальная сходимости \4.i ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.2.1. Теорема 14.2.4 содержится по существу в книге Островского [1966, теорема 27.1]. Остальные результаты этого параграфа взяты у Элкина [1968], хотя следует отметить, что некоторые алгоритмы выбора длины шага анализиро- анализировались и раньше в связи с рассмотрением специальных направлений. В частнос- частности, Карри [1944] и Альтман [1966а] исследовали принципы, носящие теперь их имена, в связи с изучением градиентных направлений, а Гольдстейн [1967] анали- анализировал принцип Карри, а также принцип минимизации A2), опять-таки для слу- случая градиентных направлений. Теорема 14.2.15 представляет собой обобщение результатов Армихо [1966], Гольдстейна [1967], а также Элкина [1968]. ЗС 14.2.2. Результаты этого параграфа носят по сути дела одномерный характер и потому непосредственно переносятся на случай общих банаховых пространств. Однако условие, что множество L° (g (х0)) (или L (g (х°)) является компактным, становится при этом слишком ограничительным, и его надо заменить условием, что L° (g (x0)) замкнуто и ограничено, в сочетании с условием, что функционал g ограничен снизу. УПРАЖНЕНИЯ У 14.2.1. Пусть функционал g: D с Rn -> R1 непрерывно дифференцируем на открытом множестве D. Предположим, что множество L° = L°(g (л:0)) компактно и что при некотором Я ? @, 1 ] Рассмотрим итерацию л^"* = xk —- ща^, где gf(xk) pk > 0, pk Ф О и Показать, что {xk} сL\ Hm (xk — x*+1) =0 и lim g' (xk)pk/1|pk\\ = 0. У 14.2.2. Пусть функционал g: Da Rn -> Rl непрерывно дифференцируем на открытом множестве D и ограничен снизу на замкнутом множестве L°(g(x0)). Рассмотрим итерацию xfe+1 ~xk — юдевдА где g' (xk) pk > 0, || pk\\ = 1, 0 < г < <о>*< 1, и ak = sup {a ? [0, [i2gf (xk) pk\ \ g' (xk - §pk) pk > ^g' (xk) pk при p ? [0, a]}, где 0 ^ \ix < jx2. Показать, что {**} С L\ lim g' (xk) pk = 0 и lim (xh — xk+l) = 0 /г-)-оо fe-»-oo (Элкин [1968]). У 14.2.3. Пусть функционал g: Rn -» Rl непрерывно дифференцируем на Rn и ограничен снизу на некотором множестве уровня L. Рассмотрим итерацию х*"^1— =:xk — akpk, ^ = 0, 1, х° ? L, где pk = g' (xkf и a^ ? @, 1] выбирается так, чтобы kII2 \\PII- Показать, что последовательность {xk} корректно определена, lim g' (xk)T = 0 и lim (jc* — jc*+1) = 0.
14.3 Гл. 14. Сходимость методов минимизации 475 14.3. ГРАДИЕНТНЫЕ И ГРАДИЕНТНО СОГЛАСОВАННЫЕ МЕТОДЫ В предыдущем параграфе мы рассматривали итерацию хИ-и^-одр*. & = 0, 1, ..., A) и для различных алгоритмов выбора длины шага было показано, что при подходящих условиях W^r-O. B) IP || Как уже отмечалось в § 14.1, эти результаты носят лишь промежуточ- промежуточный характер, и в окончательных, «полных» теоремах сходимости должна, конечно, учитываться как зависимость от алгоритма вы- выбора длины шага, так и зависимость от выбора направлений pk. В этом и трех следующих параграфах мы получим такие «полные» теоремы сходимости для различных алгоритмов, а сейчас начнем с изучения следующего общего класса направлений. Напомним, что согласно определению 14.2.1 функция а: [0, оо) -* [0, оо) назы- называется F-функцией, если из равенства lim a (tk) = 0 следует, что lim 4=0. fe-voo 14.3.1. Определение. Пусть функционал g: D a Rn -> R1 G-диф- ференцируем на множестве D и \xk) a D — заданная последова- последовательность. Последовательность [pk] cz Rn ненулевых векторов на- называется градиентно согласованной с последовательностью {**}, если существует такая F-функция а, что g'(xk)-^>°(\\g'(*k)\\), * = 0f I, ... . I C) Заметим, что понятие градиентной согласованности не зависит от выбора нормы в Rn, поскольку изменение нормы всегда можно «за- «запрятать» в ^-функцию а (см. У 14.3.1). Если .последовательность {**} с D удовлетворяет условию B) при некоторой градиентно согласованной последовательности {pfe}, то, очевидно, в силу C) и определения ^-функции, Urn*' Для того чтобы иметь возможность сделать отсюда вывод о сходи- сходимости самих итераций к критической точке функционала g, нужно наложить дополнительные условия на g или на последовательность {xk). Такого типа результаты уже были доказаны в § 4.1 и теперь мы скомбинируем их с результатами о длине шага, установленными в предыдущем параграфе, с тем чтобы получить некоторые общие утверждения. Напомним, что через L° (g (x0)) обозначается связная компонента множества уровня L (g (х0)) = {л: g D \ g (х) < § (*°)Ь содержащая точку *<\
476 Часть V. Полулокальная и глобальная сходимости 14.3 14.3.2. Теорема о градиентностной согласованности. Пусть функцио- функционал g: D a Rn -+ R1 непрерывно дифференцируем на открытом множестве D, и пусть существует такая точка х° ? D, что множество L° = L° (g (х0)) компактно. Предположим, что функционал g имеет единственную критическую точку х* в L0, и рассмотрим итерацию A), где оЛ и ak выбираются согласно некоторому алгоритму выбора длины шага, такому, что xk ? L° при Ёсех k и выполнено условие B). Пусть, наконец, последовательность [pk] градиентно согласо- согласована с последовательностью {xk}. Тогда lim xk = х*. Доказательство получается немедленно: как было по- показано выше, из условия B) и градиентной согласованности последо- последовательности {pk} следует равенство D), и наше утверждение выте- вытекает из теоремы 14.1.4. | Отметим, что теорема 14.3.2 применима к любому из разобран- разобранных в предыдущем параграфе алгоритмов выбора длины шага, если только выполнены условия соответствующих теорем преды- предыдущего параграфа. Определение градиентно согласованных направлений мотиви- мотивируется, в частности, рассмотрением градиентной итерации Xk+i = xk_ща^' (д*)тэ k = 0, 1, ... , E) хотя, как мы увидим в последующих двух параграфах, область при- применимости этого понятия значительно шире. В случае E) pk = — ft (**)*» так что в /2-норме *'(*)^4*4**)TUp*b. * = о, 1, ..., F) а для любой другой нормы, как это вытекает из теоредоы об эквива- эквивалентности норм 2.2.1, существует такая постоянная с > 0, что g'(xk)Pk>c\\g'(xkn\\pkl ft = 0, I, ... . G) Следовательно, в первом случае вынуждающая функция а из опре- определения 14.3.1 есть просто а (t) =t, a в случае G) о (t) =w ct. В связи с рассмотрением в предыдущем параграфе алгоритмов выбора длины шага приведем следующий результат, относящийся к итерации E). 14.3.3. Теорема о градиентной итерации. Пусть функционал g: D a Rn-+Rl и точки х° ? D, х* ? D удовлетворяют условиям теоремы 14.3.2. Тогда итерации E) корректно определены и limx*=x*, при условии, что сок и ak выбираются по любому из следующих алгоритмов выбора длины шага: алгоритму Карри — Альтмана (как он определен в теореме 14.2.7), алгоритму минимиза- минимизации (теоремы 14.2.10, 11с <оЛ = 1) и, если множество D к тому же и выпукло, алгоритму Гольдстейна (теорема 14.2.14) и Гольдстей- на — Армихо (теорема 14,2.15). Более общо, теорема справедлива
14.3 Гл. 14. Сходимость методов минимизации 477 для любого алгоритма выбора длины шага, для которого {а*} с с L0 и условие B) выполняется при pk = g' (xk)T. Доказательство. Рассмотрим сначала алгоритм Кар- ри — Альтмана и предположим, что *°, ..., xk корректно определены и лежат в ZA Тогда согласно первой части доказательства теоремы 14.2.7 xk+x корректно определено и лежит в L0. Следовательно, по индукции, и вся последовательность {xk}, задаваемая соотноше- соотношением E), корректно определена и лежит в L0. Если gr (У) т ==0 пои некотором /. то xJ =х* и доказательство завершено. В против- противном случае последовательность pk = g"'(x*)T, k = 0, 1, ..., удовле- удовлетворяет неравенству G) и является градиентно согласованной с по- последовательностью {xk}. Поскольку в силу теоремы 14.2.7 выполне- выполнено условие B), наше утверждение следует из теоремы 14.3.2. Доказательство для любого из других алгоритмов производится точно таким же образом с использованием соответствующих теорем § 14.2. | Заметим, что теорема 14.3.3 не является прямым следствием тео- теоремы 14.2.7 (или других теорем § 14.2), так как в теореме 14.2.7 суще- существование последовательности направляющих векторов {pk} пред- предполагалось заранее, в то время как для итераций типа E) последо- последовательность [pk] определяется по самой последовательности {xk}. Поэтому для доказательства существования векторов рк необходи- необходимо повторить рассуждение по индукции из теоремы 14.2.7, как это только что было сделано в доказательстве теоремы 14.3.3. Если функционал g имеет более одной критической точки в L0, то мы еще можем заключать о сходимости на основании теоремы 14.1.5 при условии, что число критических точек конечно и *-юо (О) Как было показано в теореме 14.1.3, условие (8) выполняется для всякой сильно понижающей последовательности (определение 14.1.2), если функционал g линейно непостоянен (определение 14.1.1). Тем самы^ мы получаем следующий результат, дополняю- дций теорему 14.3.2. 14«3«4« Пусть выполнены все условия теоремы 14.3.2, за тем исклю- исключением, что предположение о единственности точки х* заменено предположением о том, что функционал g является линейно непо- непостоянным и имеет конечное число критических точек в L0, а последо- последовательность [xk] является сильно понижающей. Тогда последова- последовательность {xk) сходится к некоторой критической точке функциона- функционала g. Отметим, что теорема 14.3.4 непосредственно применима к алго- алгоритмам Карри — Альтмана и ограниченной минимизации, посколь- поскольку, как показывают теоремы 14.2.7 и 14.2.10 соответственно, для
478 Часть V. Полулокальная и глобальная сходимости 14.3 этих двух алгоритмов выбора длины шага последовательность {xk} будет сильно понижающей. Отметим также, что для этих двух алго- алгоритмов возможна немедленная модификация теоремы 14.3.3 в духе теоремы 14.3.4 (см. У 14.3.6). Ни теорема 14.3.2, ни теорема 14.3.3 не применимы непосред- непосредственно к сверхрелаксационному алгоритму Карри — Альтмана, одношаговому алгоритму Ньютона или алгоритму аппроксиматив- аппроксимативной минимизации, фигурирующим в теоремах 14.2.8, 14.2.9 и 14.2.4 соответственно, ибо во всех этих теоремах на функционал g накла- накладываются более сильные условия. Ниже мы приводим две теоремы, в которых эти алгоритмы используются для общих градиентно со- согласованных методов. / 14«3..5« Предположим, что функционал g: D с Rn -> R1 непрерыв- непрерывно дифференцируем на открытом множестве D, множество L0 = = L° (g (х0)) компактно и y?L*. (9) Рассмотрим итерацию A), где щ> ak выбираются, как и в теореме 14.2.4, a pk — ненулевые векторы, удовлетворяющие условию G) при некотором с > 0. Если g имеет лишь конечное число критических точек в L0, то последовательность {xk} сходится к некоторой крити- критической точке х*. Если при этом функционал g имеет в х* вторую /^-производную и матрица Гессе Hg (**) невырождена, то скорость сходимости по меньшей мере R-линейна. Доказательство. Из теоремы 14.2.4 следует, что {xk} cz a L° и выполнено B), так что в силу G) имеет место D). Но та же теорема показывает, что выполнено (8), и наше утверждение о схо- сходимости вытекает из теоремы 14.1.5. Что касается утверждения о скорости сходимости, то заметим, что при доказательстве теоремы 14.2.4 было получено неравенство Поэтому ввиду G) В (**) - В (*k+X) >^[гB-г) с*/у] \\ g' (**)* ||2, k = 0, 1, ...., и наше утверждение следует из теоремы 14.1.6. | 14€3€6в Пусть функционал g: D a Rn -> R1 дважды непрерывно дифференцируем на открытом выпуклом мнржестве D, множество L°=L°(g(x0)) компактно, а производная' g" (x) положительно определена при всех х ? D. Рассмотрим итерацию A), где парамет- параметры щ и ak определяются по сверхрелаксационному алгоритму Кар- Карри — Альтмана (теорема 14.2.8), либо по одношаговому алгоритму Ньютона (теорема 14.2.9), и предположим, что pk — ненулевые век-
14.3 Гл. 14. Сходимость методов минимизации 4?9 торы, удовлетворяющие условию G) при некотором с > 0. Тогда lim xk = **, где х*— единственная критическая точка функцио- нала g в L0, причем скорость сходимости по меньшей мере /?-ли- нейна. Доказательство. Из теоремы 14.2.8 или 14.2.9 следует, что итерации A) лежат в L0 и удовлетворяют условию B). При этом, так как L0 компактно, a D открыто, то теоремы 4.1.3, и 4.2.2 и 4.2.9 показывают, что функционал g имеет единственную критическую точку в L0, а из неравенства G) вытекает, что последовательность {pk} является градиентно согласованной. Поэтому сходимость следу- следует из теоремы 14.3.2. Что касается оценки скорости сходимости, то заметим, что, как было показано при доказательстве теорем 14.2.8 и 14.2.9, ]\ fc = 0f I, ..., A0) где р =8 Dy|1)~1 в первой из этих теорем 14.2.8 и р = е2 Bг]1)*~1 во второй. Следовательно, в силу G), *-0, 1, ... A1) и опять применима теорема 14.1.6, ибо матрица Гессе Hg(x*) не- невырождена. | Заметим, что как теорема 14.3.5, так и теорема 14.3.6, представ- представляют собой результаты о скорости сходимости. Ключом к этим результатам является то, что алгоритм выбора длины шага дает при некотором р > 0 неравенство вида A0), вследствие чего при выполнении условия G) на векторы pk имеет место неравенство A1) и можно'применить теорему 14.1.6. На самом деле неравенство A1) выполняется для всех алгоритмов выбора длины шага, рассмотрен- рассмотренных в § 14.2, если выполнены предположения соответствующих теорем. Проверка этого для алгоритмов Гольдстейна, Гольдстей- на — Армихо и минимизации составляет предмет упражнения У 14.3.8. В последующем нам понадобится следующий результат об алгоритме Карри — Альтмана. 14#3.7« Пусть g, x° и х* удовлетворяют всем условиям теоремы 14.3\2, и пусть кроме того функционал g дважды непрерывно диф- дифференцируем в некоторой окрестности точки х*, а матрица Гессе Hg (л-*) невырождена. Пусть [pk] — некоторая последовательность ненулевых векторов, удовлетворяющих условию G). Рассмотрим итерацию A), где параметры со* и ak выбираются по алгоритму Кар- Карри — Альтмана из теоремы 14.2.7. Тогда последовательность {*} сходится к х* по меньшей мере R-линейно. Доказательство. Сходимость последовательности к х* следует из теоремы 14.3.2. Что касается скорости сходимости, то заметим, что, как было показано при доказательстве теоремы
480 Часть V. Нолу'локальная и глобальная сходимости 14.3 14.2.7, g (**) - g (**+1) > eiv***' (**) p\ A2) где |n0 = |x, если \i > 0, и (x0 = 1/2 в противном случае. Пусть б > > 0 и &0 выбраны так, что функционал g дважды непрерывно диф- дифференцируем в шаре S =S (**, б) cz D и xk ? S при всех k > &0- Тогда по теореме о среднем 3.3.5 и по определению величин ak и \х0 мы получаем, рассуждая как в теореме 14.2.7, g' (xk) Pk - g' (** A3) где71=тах {||g"(*)||l*G S}. СопоставляяA2), A3)и A7), видим, что g (**) - g (**+1) > e (I*o/Ti) A - Ю ^2II ^ (^)T II 2> V Aj > Ao, и наше утверждение следует из теоремы 14.1.6. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.3.1. Градиентный метод был предложен еще Коши [1847], но сам Коши не дал никаких теорем о его сходимости. Первые результаты такого рода получил, по-видимому, Темпл [1939] для квадратичных функционалов и Карри [1944] для функционалов общего вида. С тех пор этим вопросом занимались многие ав- авторы, среди них Канторович [19486], Крокетт и Чернов [1955], Лумисте [1955], Вайнберг [I960], Гольдстейн [1962], Поляк [1963], Нашед [1964, 1965], Глазман [1964], Альтман [1966а], Армихо [1966], Блум [1966], Бресс [1966], Любич [1968]. Во многих из перечисленных работ рассматривается градиентная итерация с использованием различных алгоритмов выбора длины шага; в частности, теорема 14.3.3 представляет собой результат такого рода. Далее, многие из названных авторов изучали сходимость в гильбертовом или банаховом пространстве. См., например, Гольдстейн [1967] и Поляк [1966]. ЗС 14.3.2. Предложение рассматривать рп общего вида, удовлетворяющие усло- условию G), принадлежит Островскому [1966], который по существу доказал теорему 14.3.5. Однако в неявном виде оценки вида G) встречались еще раньше при анали- анализе конкретных методов, таких, как метод Ньютона. С другой стороны, идея исполь- использования градиентно согласованных направлений независимо от частного выбора длины шага принадлежит Элкину [1968], указавшему на большую независимость «шагового анализа». ЗС 14.3.3. Утверждения о сходимости из теоремы 14.3.6 получены Элкином [1968], а утверждения этой теоремы о скорости сходимости, а также теоремы 14.3.5 и 14.3.7 являются обобщениями и модификациями результатов Островского [1966, 1967а]. * ЗС 14.3.4. Определение 14.3.1 градиентной согласованности можно обобщить, заменив неравенство C) неравенством \g'(xk)pk\>ak(\\g'(xkf\\), * = 0. 1 где Ok'- [0, со) -*- [0, оо), /е = 0, 1, ..., —последовательность функций, такая, что из равенства lim 0^@0 = 0 следует равенство lim tk =0. Все результаты feo k+oo этого и последующих параграфов, относящиеся к градиентной согласованности, повторяются при этом слово в слово.
14.4 Гл. 14. Сходимость методов минимизации 481 УПРАЖНЕНИЯ У 14.3.1. Пусть последовательность {pk} С Rn градиентно согласована в не- некоторой норме с последовательностью \xk). Показать, что {pk} градиентно со- согласована с {xk} в любой норме. У 14.3.2. Пусть функционал g: D с Rn -> R] G-дифференцируем и последова- последовательности {xk}czD, {pk}dRn, ркф0, удовлетворяют условию g'(xk)pk = = l<*>k II g' (хк) II — fa] II Рк ||. где 0<а<| ak\ и lim fa = 0. Показать, что по- последовательность {рк} градиентно согласована с {хк} в смысле обобщенного оп- определения из ЗС 14.3.4 (Альтман [1966а]). У 14.3.3. Пусть функционал g: D a Rn -+ R1 G-дифференцируем и последова- последовательность {рк} с Rn градиентно согласована с последовательностью {xk} d D. Показать, что последовательность дк = (| g'(xk) pk\/\\pk\\) рк также градиентно согласована с {хк}. У 14.3.4. Пусть функционал g: D с Rn -> Rl непрерывно дифференцируем на открытом выпуклом множестве D, х° ? D и множество L (g (*0)) компактно. Предположим, что g имеет лишь конечное число критических точек в L, и рассмот- рассмотрим итерационный процесс Якоби хк~^х = д^ — щаьрк, гдесо^иа^ определяются с помощью алгоритма Гольдстейна — Армихо из теоремы 14.2.15, а рк — следую- следующим образом: если положить ajk = min {a > 0 |хк —V??>, g' (xk — aV)V = 0}, / = 1, , . . , п, где eJ = sgn (gf(хк) e1)eJ\ то pk = ^ a/ ^7« Показать, что lim хк =? >;*, где ^r' (**)T = 0 (Элкин [1968]). У 14.3.5. Показать, что алгоритмы выбора длины шага, фигурирующие в тео- теоремах 14.2.7, 14.2.10 и 14.2.11, могут быть использованы и в теореме 14.3.2 и что там же можно использовать алгоритмы из теорем 14.2.12, 14.2.14 и 14.2.15, если предположить, что само множество уровня L — L (g (x0)) компактно, а кри- критическая точка х* единственна и в L. У 14.3.6. Пусть функционал g: DczRn-*R1 удовлетворяет условиям теоремы 14.3.4, а щ и ak в итерации E) получаются по алгоритму Карри — Альтмана из теоремы 14.2.7. Доказать, что последовательность {%*} сходится к некоторой критической точке функционала g. Доказать то же самое для итерации хк+г = = хк — a/jg' (xkf, где а/? определяются с помощью алгоритма минимизации из теоремы 14.2.10. У%14.3.7. Показать, что теорема 14.3 сохраняет силу, если алгоритм Карри — Альтмана заменить алгоритмом Гольдстейна (теорема 14.2.14), алгоритмом Гольд- Гольдстейна — Армихо (теорема 14.2.15) или алгоритмом минимизации (теорема 14.2.10). 14.4. МЕТОДЫ ТИПА НЬЮТОНА Как уже говорилось в гл. 8, метод Ньютона не уменьшает, вообще говоря, значения функционала в каждой точке, поэтому результа- результаты этой главы не применимы к нему непосредственно. Однако, о чем также говорилось в гл. 8, мы можем добиться выполнения неравенства g (хк) > g (xk+l) с помощью введения множителей аА, Ifi Лж. Оптегя. В. Рейнболлт
482 Часть V. Полулокальная и глобальная сходимости 14.4 с тем чтобы получить демпфированный метод Ньютона Xk+i = ^ _ akHg(дЛ)-1 g' {xky> k = o, 1, ... , (l) где вновь Hg (x) — матрица Гессе функционала g в точке х. Наша программа такая: показать, что ньютоновы направления У B) являются градиентно согласованными, и затем применить общие результаты предыдущего параграфа. Начнем со следующей основ- основной леммы. 14.4.1. Пусть функционал g: D с:/?"->/?* G-дифференцируем на ком- компактном множестве DoczD и Л: D-+L(Rn) — такое непрерывное отображение, что матрица А(х) положительно определена при лю- любом х ? Do. Положим р(х) = А (х)~] g' (x)T, x ? Do. Тогда существу- существует такая постоянная с>0, что g' (х) р (х) > с | ?' (*)т 11 р (х) ||, V х € Do. C) Доказательство. Мы будем работать с /2-нормой. Для любой другой нормы наш результат просто вытекает из теоремы об эквивалентности норм 2.2.1. Так как отображение А непрерывно на компактном множестве Do, то найдутся такие постоянные |ы2 > \лх > 0, что Далее, в силу неравенства Коши — Шварца И(*)Л||>МН Vx?Dot h?Rn. Поэтому \к\ = \А(х)А(хГ1Ц>^\А(хГ1Ц, Vx$D0, h^R\ D) и аналогично Следовательно, если положить h =A (x) h, то ftM (хГ1 A = AM (x)* A - AM (jc) A > |i! IA p > v IA ||2, где введено обозначение у = ^/{Jtl. Используя D), находим, что ff' (х) р(х)>у | g' (*)т I2 >ч№ WII Hi II р WI. так что имеет место C) с с = |ii/nJ. I Рассмотрим теперь итерацию ! * = 0, 1 E)
14.4 Гл. 14. Сходимость методов минимизации 483 Если матрица А удовлетворяет условиям теоремы 14.4.1 и {xk} cz a Do, то, как показывает неравенство C), направления градиентно согласованы с {**}. Поэтому результаты о сходимости для итерации E) немедленно следуют из теоремы о градиентной со- согласованности 14.3.2. Подытожим все это в виде следующей теоремы. 14.4.2. Пусть функционал g: DczRn->R1 непрерывно дифференци- дифференцируем на открытом множестве D, и пусть существует такая точка х° ? D, что множество L° = L° (g (x0)) компактно и функционал g имеет единственную критическую точку jc* в L. Предположим, да- далее, что отображение Л: L°-+L(Rn) непрерывно и матрица Л (л:) по- положительно определена при всех х ? Lo. Тогда итерации E) сходят- сходятся к х* для любой последовательности {ал}, такой, что {xk}czL° и = 0f (О) где р* = Л(**ГУ(**)т- В условиях теоремы 14.4.2 допустимые способы выбора длины шага ak указаны в теореме 14.3.3, и, как и там, для итерации E) можно использовать релаксационные множители со^. Существует много вариантов теоремы 14.4.2, в частности вариан- вариантов, соответствующих аналогичным вариантам теоремы 14.3.4. Мы не будем повторять все их (часть вариантов представле- представлена в упражнениях У 14.4.3, 4), а дадим несколько образцов кон- конкретных теорем. Подчеркнем, что эти результаты, особенно в том, что касается выбора длины шага, носят сугубо иллюстративный характер; некоторые варианты также вынесены в упражнения. 14.4.3. Теорема о глобальной сходимости демпфированного метода Ньютона. Пусть функционал g: Rn -> R1 равномерно выпукл и дважды непрерывно дифференцируем. Тогда для любой заданной точки х° существует такая последовательность {ak}, что итерации A) сходятся к единственной критической точке х* функционала g. При этом существует такое k0J зависящее от х°, что при k > k0 мож- можно взять ak = 1; в этом случае скорость сходимости последователь- последовательности {xk} к х* по меньшей мере (R- или Q-) суперлинейна. Доказательство. По теореме 4.3.9 функционал g имеет единственную критическую точку х*9 а по теореме 4.3.7 множество уровня L =L (g (jc0)) компактно при любом х°. Для определения ak мы можем применить любой из алгоритмов выбора длины шага § 14.2. Рассмотрим, например, алгоритм минимизации из теоремы 14.2.12. Рассуждая по индукции, точь вточь, как при доказательстве теоремы 14.3.3, мы убеждаемся, что все xk корректно определены и лежат в L, а из теоремы 14.2.12 вытекает справедливость равенства 16*
484 Часть V. Полулокальная и глобальная сходимости 14.4 F). Поэтому утверждаемая сходимость вытекает из теоремы 14.4.2, ибо L =L°. Для доказательства последнего утверждения рассмотрим такой шар S =.S (**, б), б > 0, что сами ньютоновы итерации сходятся к х*, каково бы ни было xk ? S; существование такого шара, а также суперлинейная скорость сходимости следуют из теоремы 10.2.2. Сходимость последовательности A) гарантирует, что xk° ? S при некотором k0, и, начиная с этой точки, можно брать аЛ =1. I Как было сказано в доказательстве, для получения ak можно взять любой алгоритм выбора длины шага из § 14.2 (см. У 14.4.5). Хотя мы выбрали алгоритм минимизации, с вычислительной точки зрения иногда предпочтительней алгоритм Гольдстейна — Армихо: взять в качестве ak первое число в последовательности {q1: j = = 0, 1, ...}, для которого g(**) -g№- *kPk) >\u*kg'(**)P*. G) где |л, q ? @, 1) фиксированы, a pk — ньютоново направление. (Здесь мы отклоняемся от обозначений теоремы 14.2.15.) Этот алгоритм предпочтительней, когда функционал g определен только на некотором подмножестве D, а не на всем пространстве, и ньютонов шаг выводит за пределы множества D. Формулировки процедур выбора длины шага в контексте теорем 14.4.2, 3 даны в упражнениях У 14.4.6, 7. Кроме того, в У 14.4.8 указаны достаточ- достаточные условия того, что в A) все ak можно взять равными единице. Теорему 14.4.3 можно было бы, конечно, сформулировать в локальной, а не в глобальной форме (см. У 14.4.5). Мы сделаем это сейчас для демпфированного процесса Гаусса — Ньютона яН-1 = xk — ak [F' (xk)T Ff (х*)Г1 Ff (xky Fx\ ? = 0,1,..., (8) обсуждавшегося в § 8.5. 14.4.4. Теорема о демпфированном методе Гаусса — Ньютона. Пусть отображение F: DaRn-+ Rm, m^n, непрерывно дифференцируемо на открытом множестве D. Определим отображение g: DczRn-> R1 соотношением g(x) = A/2) (Fx)TFx и предположим, что имеется та- такая точка х° ? D, чго множество L° = L°(g(x0)) компактно. Предпо- Предположим, далее, что (ранг Ff (х)) = п при всех х ? L0 и что уравнение F' (x)TF (х) = 0 имеет единственное решение х* в L0. Тогда суще- существуют такие ak, 6 = 0, 1, ..., что последовательность (8) лежит в L0 и \\mxk = х*. fe-юо Доказательство. По предположению отображение A: L°-+L (Rn)y А (х) = Ff (x)T F' (х\ х 6 L\ непрерывно и, так как (ранг Fr (x)) = я, матрица А (х) положительно определена при всех х ? L0. Далее, функционал g непрерывно
14.4 Гл. 14. Сходимость методов минимизации 485 дифференцируем и g' (xf = F' (xO Fx. Возьмем какой-нибудь допустимый алгоритм выбора длины шага ak9 например алгоритм Карри — Альтмана из теоремы 14.2.7. Рассуждая по индукции, как при доказательстве теоремы 14.3.3, мы покажем, что все хк ле- лежат в L0 и выполнено равенство F), так что применима теорема 14.2.2. | Как в теореме 14.4.3, так и в теореме 14.4.4, матрица А (х) сим- симметрична. Дадим еще один, последний пример использования тео- теоремы 14.4.2, в которой матрица А (х) не симметрична, но по-прежне- по-прежнему положительно определена. Рассмотрим итерацию Ньютона — ПВР xk+\ =xk — akio [D (xk) — coL (xk))~x g' (xk)\ (9) обсуждавшуюся в § 7.4, с дополнительными демпфирующими мно- множителями ak. Здесь D (х) и —L (х) — диагональная и строго ниж- нижняя треугольная части матрицы Гессе Hg (x). 14.4.5. Теорема о демпфированном методе Ньютона — ПВР. Пусть функционал g: D d Rn -> Rl дважды непрерывно дифференцируем в открытом выпуклом множестве Д и пусть существует такая'точка х° ? Д что множество L° = L° (g (x0)) компактно. Предположим, да- далее, что производная g" (x) положительно определена при всех х ? ? Д что со ? @, 2) и что множители ak в (9) выбираются с помощью алгоритма минимизации из теоремы 14.2.10. Тогда {л:*} cz L°, lim** = = x*, где л;* — единственная критическая точка функционала g в L0, и скорость сходимости по меньшей мере /?-линейна. Доказательство. Положим A(x) Тогда А(х) + А(ху = ±D(x)-L(x)-L(xY = (~- i)D(x) +. Hg (x). Поскольку (о g @, 2) и то матрица А (х) положительно определена при всех х ? ZA Как и в теореме 14.3.6, функционал g имеет единственную критическую точку в L0, и по теореме 14.4.4 lim xk =x*. Наконец, из положи- тельной определенности производной g"(x) вытекает, что принципы минимизации и Карри для выбора длины шага а совпадают, поэто- поэтому утверждение о скорости сходимости является следствием теоре- теоремы 14.3.7. | Заметим, что теорема 14.4.5 сформулирована для одного конкрет- конкретного алгоритма выбора длины шага ak. Это позволило нам дать
486 Часть V. Полулокальная и глобальная сходимости 14.4 утверждение о скорости сходимости, но сам факт сходимости может быть, конечно, установлен и для других алгоритмов. До сих пор мы добивались того, что рассматриваемая итерация превращается в метод спуска, с помощью введения демпфирующих множителей ak. Другой возможный подход состоит в использовании множителей Xk на манер Левенберга (см. § 8.5): g' (xk)\ * = 0, 1 A0) При подходящем выборе множителей Xk мы также приходим к методу спуска, как показывает следующая теорема. 14.4.6. Пусть функционал g: DczRn-*R1 дважды непрерывно диф- дифференцируем на открытом множестве D и существует такая точка х° ? Д что множество L° = L° (g (x0)) компактно, а функционал g имеет лишь конечное число критических точек в /Л Предположим, что A: L°-+L (Rn) — непрерывное отображение, такое, что матрица Ах симметрична при всех х ? L0 и МОАТЛ < AM (х)А < 1ф% g" (x) hh < YtATA, V x ? L°, h?Rn, (U) где величины (i0, ^ и уг не обязательно положительны. Рассмотрим итерационный процесс A0), где Y fA<rl<4<%<00 V max@7i), ^ = 0, 1 A2) Тогда {xk) cz L°, limx/2 = Af|e, где gr'(^)T = O, и если матрица Гессе Нг(х*) невырождена, то сходимость по меньшей мере /?-линейна. Доказательство. Заметим прежде всего, что (х0 + т]0*>0 и что при любых % ? [ri0, %] и х ? L0 (Ио + По) ЛТА < Ат [А (х) + XI]h< (ii, + г)х) frh A3) Поэтому если xk g L°, то вектор корректно определен и в /2-норме Следовательно, g' (xk) pk > 0, если только не выполняется равенство g' (xk)T = 0, т. е. если процесс не оканчивается в точке xk. Пусть теперь а?@, 1] таково, что [xk, xk — apk] cz L°. Тогда по теореме /ч о среднем 3.3.10 найдется такое сс?(О, а), что g (xk) -g(xk- ар") = ag' (дс») р» - -i- «У (** - «/?*) Р*Р* >
14.4 Гл. 14. Сходимость методов минимизации 487 ибо g' (xk) pk = (pk)T [A (xk) + %kI] pk. Из леммы 14.2.3 следует, что яН-i = xk~- pk ? L°, и по индукции [xk] с Lo. Поскольку в силу A3) (ft + %Г* \g' Ит1к < \\Pkl < (Ио + Ли)1*' (**)Tk. A5) то из A4) вытекает, что Так как множество L0 компактно, то левая часть последнего нера- неравенства стремится к нулю и потому \img'(xk)T = 0. Поскольку р*= = хк — хк+\ соотношение A5) показывает, что lim(**+i— xk)=*0, k-*OQ и наше утверждение следует из теорем 14.1.5 и 14.1.6. | Заметим, что можно было бы доказать, что последовательность векторов {pk} в теореме 14.4.6 является градиентно согласованной с последовательностью {хк} (см. У 14.4.10). Однако в рассматривае- рассматриваемом случае проще получить заключительное неравенство A6) непо- непосредственно. Заметим также, что теорема 14.4.6 непосредственно применима к случаю, когда А (х) =F' (x)TFf (х) и Ах =Hg (x) (см. У 14.4.11). В частности, если 0 < Vi/2 < [х0, то в итерации A0) можно взять Xk =0, и в этом случае теорема 14.4.6 приводит к соответствующим результатам о процессах Ньютона и Гаусса — Ньютона без демпфи- демпфирующих множителей. ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.4.1. В литературе встречаются различные результаты, аналогичные теоре- теореме 14.4.2. Нашед [1964], например, рассмотрел итерацию xk+l ~хк- akAfg' (xk)\ к« 0, 1, ... , A7) где Ak — симметричные линейные операторы, удовлетворяющие условию [h.hTh < hrAkh < vjFh, V h g Dn , A8) a 0 < ^ < (li2. Однако Нашед предполагал выполненным чрезвычайно ограни- ограничительное требование, чтобы каждый оператор Ak коммутировал с Hg (x) при всех х. Нетрудно показать, что из A8) следует градиентная согласованность последо- последовательности pk = A^lg'(xk)Tt k = 0, 1, ..., с последовательностью [xk]. Поэтому для итерации A7) немедленно получаются теоремы сходимости типа теоремы 14.4.2 (см. У 14.4.2). Условие A8) использовал также Яковлев [1964] при изучении итерации A7) в случае, когда ak выбираются по принципу минимизации. Он полу- получил результаты, близкие к теореме 14.4.2. ЗС 14.4.2. Идея применения демпфирующего множителя а# в A) была предло- предложена Глейзалом [1959] и Крокеттом и Черновым [1955], но никакой сходимости они не доказывали. Теорема 14.4.3 в неявном виде содержится в работе Яков- Яковлева [1964], который доказал также, что если о^ выбираются с помощью принципа минимизации, то lim ak = 1 и для итерации A) получается сверхлинейная сходи- сходимость. Похожие результаты установили Гольдстейн [1967], использовавший свой
488 Часть V. ПЪлулокальная и глобальная сходимости 14.4 собственный алгоритм выбора длины шага и показавший, что а^ = 1 при k > ko, и Элкин [1968], проанализировавший процедуру, описанную в теореме 14.4.3 (см. У 14.4.6, а также У 14.4.7). ЗС 14.4.3. Теорема 14.4.4, по-видимому, новая, хотя Хартли [1961] доказал частную теорему сходимости для процесса (8) в случае, когда о^ выбираются по принципу минимизации. См. также Торнхейм [1963], где показано,что направле- направления Гаусса — Ньютона pk удовлетворяют условиюg' (xk) pk > 0, если g' (xk)T ф Ф О, и Бресс [1966]. ЗС 14.4.4. Теорема 14.4.5 принадлежит Степлмэну [1969]. Теорема 14.4.6, по- видимому, новая, хотя введение параметра А* в A0) восходит к Левенбергу [1944]. Этот вопрос изучал также Маркардт [1963]. УПРАЖНЕНИЯ У 14.4.1. Пусть функционал g: D с Rn -* R1 G-дифференцируем, {x}k с D — произвольная последовательность, а {В^} с L (Rn) — такая последовательность матриц, что при некоторых Р < со и ji> 0 Показать, что последовательность pk = Bkg' (xk)Tt k = 0, 1, ... , градиентно со- согласована с последовательностью {xk}. Сформулировать и доказать теорему схо- сходимости, аналогичную теореме 14.4.2. У 14.4.2. Пусть g и {xk} таковы же, как и в У 14.4.1, a {Ak} с L (Rn) — та- такая последовательность матриц, что где 0 < [ix ^ \i2. Показать, что последовательность pk = A^~lgf (xk)T, k = 0,1,... , градиентно согласована с {*fe}. Сформулировать и доказать теорему сходимости, аналогичную теореме 14.4.2. У 14.4.3. Пусть функционал g: D с Rn -> R1, точка х° и отображение A: L0 -> -> L (Rn) удовлетворяют условиям теоремы 14.4.2. Показать, что итерации E) сходятся к А'*, если а# выбираются по любому из алгоритмов выбора длины шага, указанных в теореме 14.3.3. У 14.4.4. Заменить предположение о единственности в теореме 14.4.2 следую- следующим: функционал g линейно непостоянен и имеет не более конечного числа крити- критических точек в L0, а последовательность {xk} — сильно понижающая. Показать, что при этом теорема остается в силе. У 14.4.5. Доказать утверждение о сходимости из теоремы 14.4.3 для случая, когда ak выбираются по любому из алгоритмов, разобранных в § 14.2. Сформули- Сформулировать и доказать локальный вариант теоремы 14.4.3, в котором множество L0 = = L° (g (x0)) компактно, функционал g дважды непрерывно дифференцируем, а производная g" (x) положительно определена на L0. У 14.4.6. Пусть функционал g: D с Rn -> R1 непрерывно дифференцируем на открытом выпуклом множестве D и х° ? D — такая точка, что множество L0 = = L° (g (x0)) компактно. Предположим, что g имеет лишь конечное число крити- критических точек в L0. Пусть далее отображение A: L° -> L (Rn) непрерывно, а мат- матрица А (х) симметрична и положительно определена при всех х ? Lo. Рассмотрим процесс E), где в качестве а^ берется первое число в последовательности {q}: j = 0, 1, ...}, для которого *fc - akpk ? D, g (xk) -g (x* - akpk) > над' (**) p\
14.5 Гл. 14. Сходимость методов минимизации 489 где \л, <7?@,1) фиксированы и pk = A(x )~~lgf (х )т. Показать, что \\mxk = х*, к-*оо где g' (x*)T = 0 (Элкин [1968]). У 14.4.7. Пусть функционал g: Rn -> R1 удовлетворяет условиям теоремы 14.4.3, и пусть <Xk в A) выбираются с помощью алгоритма из У 14.4.6, где Л (х) = Hg(x)> \х? (О, q). Показать, что найдется такое k0, что а^ = 1 при всех k > k0. У 14.4.8. Пусть функционал g: Rn -> R1 удовлетворяет условиям теоремы 14.4.3, и пусть для некоторой точки х° x) hh < ii2hTh, Vh?Rn, x?L( где jLi^/fXj < У2 . Показать, что итерации Ньютона, начинающиеся с точки х°, удовлетворяют неравенству g (xk~^]) < g (xk), k = 0,1 , ... . У 14.4.9. Пусть отображение F: D cz Rn -> Rn дифференцируемо и g (x) = Пусть, далее, Р: D cz Rn-* Rn непрерывное отображение, для которого (Fx) TF' (x) Px = g (*J || Px 11| F' (x) Fx ||2 < r|^ W2, V^D. Показать, что для любой последовательности {xk}czDy такой, последовательность р = Рх , 6 = 0,1, ... , градиентно согласована с {xk}. У 14.4.10. Показать, что последовательность направляющих векторов {рк} из теоремы 14.4.6 является градиентно согласованной с последовательностью У 14.4.11. Применить теорему 14.4.6 к итерациям /-Н _ xk _ [Hg (д*} + л^/]-V (xk)r xk+l = / - [f (/)TF' (xk) + Vr1^ (atV/7^. 14.5. МЕТОДЫ СОПРЯЖЕННЫХ НАПРАВЛЕНИЙ В этом параграфе мы применим результаты предыдущих парагра- параграфов к методам сопряженных направлений. Сначала рассмотрим алгоритм Дэниэла, обсуждавшийся в § 8.4: y g (дл+i) ^ mjn {g(xk _ apk)\xk — apk g D}, A) 14.;5.;1.: Пусть функционал g: D cz Rn-+R1 дважды непрерывно дифференцируем на открытом выпуклом множестве D, причем производная g" (х) положительно определена для всех х ? D. Пред- Предположим, далее, что в D имеется такая точка *°, что множество уровня L = L (g (x0)) компактно. Тогда итерации A) корректно определены и все лежат в L и lim xk = х*> где х* — единственная критическая точка функционала g в L. Доказательство. Как и в теореме 14.3.6, функционал g имеет в L единственную критическую точку. Далее, множество L
490 Часть V, Полулокальная и глобальная сходимости 14.5 выпукло, и все алгоритмы минимизации из теорем 14.2.10— 14.2.12 тождественны между собой. Применяя теорему 14.2.10 и рассуждая по индукции, как и при доказательстве теоремы 14.3.3, мы убеждае- убеждаемся, что xk корректно определены, все лежат в L и удовлетворяют условию Нт/Ир*/||р*|==0, B) fe-4-OO если нет pk = 0. Но если pk = 0, то в силу алгоритма для. выбо- выбора длины шага g' (xk) pk~l = 0, k > 1, так что _ $k__lg> {xk) pk-i = || g> {xky§2. C) Таким образом, если pk =0, то xk =x* и теорема в этом случае доказана. Следовательно, мы можем считать, что pk Ф 0 при всех fe, и по теореме 14.3.2 достаточно показать, что последовательность [pk] градиентно согласована с последовательностью {xk}. Так как множество L компактно, а вторая производная g" (x) непрерывна и положительно определена, найдутся такие постоян- постоянные 0 < |л0 < Hi» что И<ЛТЛ < g" {х) hh < |У*Я V х б L, h 6 Rn- D) В силу определения величин рй и симметричности g" (xk) Далее, из D) следует, что Hi II г' ИТ1 > «Г И г' -«Г (**) PfeP' + PLi^H p*"^ > «Г И P"Pfe > ^о II Pk у. Поэтому ввиду C) |^ (*Г%\ g' т. е. последовательность {pk} является градиентно согласованной с последовательностью {xk}. В В качестве следствия теоремы 14.5.1 мы получаем следующую глобальную теорему сходимости. 14.5.2. Пусть функционал g: Rn-+Rl дважды непрерывно диффе- дифференцируем, производная g" (x) положительно определена при всех х 6 Rn и lim g(x) = oo. E) ЦхЦ-voc \°) Тогда для любого х° g Rn итерации A) корректно определены и схо- сходятся к единственной критической точке функционала g в Rn. Доказательство. Из теоремы 4.3.2 следует компакт- компактность при любом х° множества уровня L (g (x0)), а из теоремы 4.2.9 —
14.$ Тл. 14. Сходимость методов минимизации 491 единственность критической точки, так что применима теорема 14.5.1. | Теперь мы обратимся к обсуждавшемуся в § 8.4 алгоритму Флет- чера — Ривса в следующем модифицированном виде: О, если k + 1 = 0(modm), m>0, F) (xk+l) ft (xk+{)T -—/ . — в остальных случаях. g' (**) g' (xk)T Такое определение величин $k означает, что мы «стартуем заново» после каждых т шагов. Обычно выбирают т равным п. Теорему 14.5.1 мы доказали, показав, что последовательность направляющих векторов {рк} из A) градиентно согласована с после- последовательностью {хк}. Этот способ доказательства для итерации F) уже не работает, но используя близкие рассуждения, мы можем доказать следующий результат. Напомним, что через L° = L° (g (x°)) обозначается связная компонента множества уровня L (g (x°))f со- содержащая точку х0, и что функционал называется линейно непо- непостоянным, если он не является постоянным ни в каком отрезке (см. определение 14.1.1). 14#5«3« Предположим, что функционал g: D с: /?n-> Z?1 непрерыв- непрерывно дифференцируем на открытом множестве D и существует точка х° ? D, для которой множество L° компактно, причем функционал g линейно непостоянен в L° и имеет там лишь конечное число кри- критических точек. Тогда итерации F), где <xk выбираются с помощью алгоритма ограниченной минимизации из теоремы 14.2.10, коррект- корректно определены, лежат в L0 и сходятся к некоторой критической точ- точке функционала g. Доказательство. Предположим, что х* ? L0. Тогда по теореме 14.2.10 дс**1 корректно определено и лежит в ZA Очевид- Очевидно, что вектор pfe+I также корректно определен, и точно так же, как и в теореме 14.5.1, рк Ф 0, если только хк не является критической точкой, в каковом случае доказательство закончено. Если оставить в стороне этот случай, то по индукции {хь} cr L0, и по теореме 14.2.10 последовательность {**} является сильно понижающей и = 0. G) При этом согласно теореме 14.1*3 Шп(д^+!—xk)=Q> Для заданного k > 0 обозначим через k0 наибольшее целое чис- число, не превосходящее k и сравнимое с нулем по модулю mf и
492 Часть V. Полу локальная и глобальная сходимости 14.5 положим v7 = II g' (x*)% / = 0, 1,.... Тогда и при ri = max 1 g' (x)T ||2, yfk = min мы получаем ||pi2 < (k — k0 + 1) yky\lyik < (m Заметим теперь, что согласно алгоритму выбора длины шага g' (xf) pi-1 = 0 и, следовательно, ё' И Р = / И ё' Ит - P/~ig' И Р7'-1 = Т/, / = 0, 1,.... Поэтому Это соотношение вместе с G) показывает, что lim g' (x'ky = 0. fe->oo Так как производная g' равномерно непрерывна на L0 и lim || л:^ — л^Ц — О, то для любого заданного е>0 найдется та- кой номер k' > 0, что \<s, k>k'. Значит, И g' Ит II < II «Г Ит II + II g' Ит - g' (^)т 1 < 1 g' (*ikr«+ откуда и следует равенство limg-' (xk)T = 0. Наше утверждение вытекает теперь из теоремы 14.1.5. | Заметим, что в выборе алгоритма длины шага в теореме 14.5.3 мы не ограничены одним алгоритмом минимизации из п. 14.2.10. Все, что требуется, это чтобы последовательность [xk] была сильно понижающей и чтобы выполнялись условия g' (xk) pk~l > 0, pk~x Ф Ф 0 и, конечно, условие G). В частности, теорема остается справед- справедливой для алгоритма Карри — Альтмана из теоремы 14.2.7. В качестве следствия теоремы 14.5.3 мы получаем следующую теорему о глобальной сходимости, соответствующую теореме 14.5.2. 14.5Л, Пусть функционал g: Rn -> R1 удовлетворяет условиям теоремы 14.5.2. Тогда при любом х° итерации F) с длиной шага
14.5 Гл. 14. Сходимость методов минимизаций 493 ак, удовлетворяющей условию g (xk+l) = minjg (xk — ар*) lag/?1}, (8) сходятся к единственной критической точке функционала g в Rn. Доказательство опять получается мгновенно: функцио- функционал g1, будучи строго выпуклым и потому линейно непостоянным, имеет единственную критическую точку, и, как и в теореме 14.5.2, множество L0 компактно при любом х°. | ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.5.1. Теорема 14.5.1 принадлежит Дэниэлу [1967а], рассмотревшему этот метод для случая гильбертова пространства. Теорема 14.5.3 получена в статье Ортега и Рейнболдт [1970а] в несколько менее общем виде. ЗС 14.5.2. Вопрос о скорости сходимости обоих методов сопряженных направле- направлений, рассмотренных в этом параграфе, остается до сих пор открытым. Легко пока- показать (У 14.5.2), что при выполнении условий теоремы 14.5.1 сходимость итерации A) по меньшей мере /^-линейна, но тот факт, что для квадратичного функционала итерация A) сходится за конечное число шагов, служит сильным эвристическим доводом в пользу того, что и в общем случае имеет место сверхлинейная сходимость. (На самом деле некоторые авторы ошибочно предполагают, что из сходимости за конечное число шагов в квадратичном случае следует квадратичная сходимость и в общем случае.) Дэниэл [19676] анонсировал результат, согласно которому при выполнении, по существу, условий теоремы 14.5.1 порядок сходимости итера- итерации A) равен по крайней мере 21/п. К несчастью, его доказательство ошибочно. (Замечание при корректуре: уточненный результат, устанавливающий сверх- сверхлинейную сходимость, будет опубликован в одном из номеров журнала SIAM J. Num. Anal, за 1970 г.1)) УПРАЖНЕНИЯ У 14.5.1. Пусть функционал g: Rn -> R1 дважды непрерывно дифференцируем и равномерно выпукл на Rn. Показать, что сохраняют силу заключения теоремы 14.5.2. У 14.5.2. Показать, что при выполнении условий теоремы 14.5.1 скорость сходи- сходимости последовательности {xk} по меньшей мере R-линейна. У 14.5.3. Пусть отображение F: Rn -» Rn непрерывно дифференцируемо и про- производная F' (х) симметрична и удовлетворяет условию hT F' (х) h > ctfh, Ух, h?Rn> при некотором с > 0. Показать, что каждая из итераций A) или F), (8), cg'{xf% замененным на Fx, глобально сходится к единственному решению уравнения Fx =* = 0. У 14.5.4. Применить результат У 14.5.3 к отображению Fx ss Ax + фх в усло- условиях теоремы 4.4.1 (а). ]) См. Дэниэл [1970] *, где для последовательности в m-мерном пространстве и достаточно больших п получена оценка || xnJ[_m — х* « const Ц хп — х*\\ + m ,— Прим. ред.
494 Часть V. Полу локальная и глобальная сходимости 14.6 У 14.5.5. Показать, что для функционала gt определенного в теореме 4.4.4, каждая из итераций A) или F), (8) глобально сходится. Используя теорему 4.4.6, получить глобальную теорему сходимости для дискретного аналога D.4.7) задачи Плато D.4.16). 14.6. ПОКООРДИНАТНАЯ РЕЛАКСАЦИЯ И РОДСТВЕННЫЕ ЕЙ ПРОЦЕССЫ В трех предыдущих параграфах мы устанавливали теоремы о сходимости, доказывая, что последовательность направляющих векторов pk в общем итерационном процессе х^ = хк-щакрЬ, /г = 0, 1,..., A) является градиентно согласованной. В этом заключительном пара- параграфе мы будем рассматривать главным образом другие алгоритмы выбора направления, в которых последовательность [pk] состоит лишь из конечного числа различных векторов, чередующихся по определенному закону. Следующее определение выделяет два ос- основных класса последовательностей этого типа, которые будут представлять для нас интерес. 14.6.1. Определение. Последовательность {pk} cz Rn, содержащая лишь конечное число различных векторов, называется существенно периодической, если существуют такое целое число т > п и такой номер kQt что т векторов pk+\ ..., pk+rn при любом k > k0 порожда- порождают Rn, и свободно шатающейся 1), если при любом k > О векторы pl9 j =k, k -f- 1, ..., порождают Rn. В Прототип существенно периодической последовательности — последовательность периодически повторяющихся координатных векторов el, i = 1, ..., п: рк^еЧто<1п)+^ ft e 0,1,.... B) Напомним, что это есть последовательность направляющих векто- векторов для метода циклической покоординатной релаксации, рассмот- рассмотренного в § 8.2. Те же векторы е\ i =1, ..., м, дают пример свобод- свободно шатающейся последовательности, если каждый из них встреча- встречается в последовательности {pk} бесконечное число раз. Разумеется, это относится и к любому другому линейно независимому множе- множеству векторов q1, ..., qn. Отметим, наконец, что любая существенно периодическая последовательность является и свободно шатающей- шатающейся, обратное же неверно (У 14.6.1). Помимо последовательностей {pk}, содержащих лишь конечное число различных векторов, мы будем рассматривать также последо- последовательности, содержащие бесконечно много различных членов, но характеризующиеся таким же поведением, как и существенно периодические последовательности. *) В оригинале free-steering (свободно рулящий).— Прим. ред.
14.6 Гл. 14. Сходимость методов минимизации 495 14.6.2. Определение. Последовательность {pk} си Rn9 ркФ о, на- называется равномерно линейно независимой, если можно указать та- такую постоянную у > 0 и такие номера пг > пу k0 > 0, что для каж- каждого k > k0 V х ? Rn, C) Связь между существенно периодическими и равномерно ли- линейно независимыми последовательностями устанавливается следую- следующей леммой. 14*6*3* Последовательность {pk} a Rn, pk Ф 0, содержащая лишь конечное число различных векторов, существенно периодична в том и только том случае, когда она равномерно линейно независима. Доказательство. Пусть {pk} — равномерно линейно независимая последовательность. Если при некотором k >> k0 век- векторы pk+l, ..., pfe+m порождают лишь линейное подпространство V cz Rn размерности меньшей п, то Xsр] = 0, j =k +!»••.» k -f-m, для любого х Ф 0 из ортогонального дополнения к подпространству У, в противоречие с C). Обратно, пусть последовательность \pk) является существенно периодической. Обозначим различные век- векторы этой последовательности через qL9 ..., qr. Так как они порожда- порождают /?",|[то формула | х ||' = max {| xr q> \I || q' \\ | / = 1, ..., г) опре- определяет норму в Rn. В силу теоремы 2.2.1 найдется такая постоян- постоянная у > 0, что при всех х ? Rn выполнено неравенство || х J' > > у || х ||, т. е. имеет место C). | Возвращаясь к общему процессу A), приведем следующий ос- основной результат для равномерно линейно независимых, а тем са- самым и для существенно периодических последовательностей {pfe}. 14«6.4« Пусть функционал g: D cz Rn -> Rl непрерывно диффе- дифференцируем ла компактном множестве Do с: D и последовательность [рк] cz Rn, p* Ф 0, равномерно линейно независима. Пусть, далее, \хк.\ cz Do — произвольная последовательность, для которой D) p/l| = 0. E) Тогда lim g' (xk)* = 0. fe-voo Доказательство. Обозначим через со модуль непре- непрерывности производной g' на Do. Можно считать, что со It) > 0 при ? > 0, так как случай g' (х) = 0, х ? Do, тривиален. При заданном 8 > 0 выберем &0 так, чтобы
496 Часть V. Полулокальная и глобальная сходимости 14.6 Тогда || xk+i — xk || < е для / < пг, и потому W (**+0 -*' (jc*)K®(8). /=1.2 m. Отсюда следует, что 18' (**)Pk+>I/1Pk+iII <\g' (xk) -g' (xl+i) f + \g' (**+0pM-i|/1рь+i| < <2co(e), и, таким образом, в силу C), 2о) (е) > max | g' (**) р*+/1/|| р*+/1 > V | g' (x% Поскольку (о (е) -> 0 при 8 -> 0, то lim g' (xk)J = 0. | fe-»-oo Отметим, что если функционал g имеет в Do лишь конечное число критических точек, то теорема 14.1.5 гарантирует сходимость по- последовательности {xk} из теоремы 14.7.4 к некоторой критической точке этого функционала. Мы используем это наблюдение в следую- следующем следствии.'Как обычно, L0 обозначает связную компоненту множества L (g (х0)), содержащую точку х°. 14.6..5* Пусть функционал g: D a Rn -> R1 непрерывно дифферен- дифференцируем на открытом множестве D и существует точка х° ? D, та- такая, что множество L0 компактно. Предположим также, что g ли- линейно непостоянен на L0 и имеет там лишь конечное число крити- критических точек. Пусть qxy ..., qn—заданные линейно независимые векторы. Тогда итерации A) с pk = Sgn (gf (xk) ф) ?fe, qk = qk(mo6 ">+1, F) 0<e<co,<l, G) и afe, определяемыми алгоритмом Карри — Альтмана из теоремы 14.2.7, корректно определены, лежат в L°h сходятся к некоторой критической точке функционала g. Доказательство. Точно так же, как и в теореме 14.3.3, мы находим, что последовательность {xk} корректно определена и вся лежит в L0. Теорема 14.2.7 показывает, что выполнено усло- условие E) и что последовательность {xk} — сильно понижающая. Поэтому теорема 14.1.3 гарантирует справедливость равенства D). Ясно, что последовательность [pk] существенно периодична, а значит, по теореме 14.6.3, равномерно линейно независима. Следо- Следовательно, применима теорема 14.6.4, и сходимость последователь- последовательности {xk} вытекает из теоремы 14.1.5. | Использование в теореме 14.6.5 именно алгоритма Карри — Альтмана не является существенным моментом. Можно взять лю- любой другой алгоритм, для которого последовательность [xk] сильно понижающая или lim J xk — xk~l | =0, при условии, конечно, k
14.6 Гл. 14. Сходимость методов минимизации 497 что выполнено E). В частности, можно использовать алгоритм огра- ограниченной минимизации из теоремы 14.2.10 (У 14.6.4). Имеется много различных вариантов и следствий теоремы 14.6.5. Некоторые из них вынесены в упражнения. Здесь же мы приведем только следующие два результата о глобальной сходи- сходимости. Напомним, что строго квазивыпуклые функционалы были определены в п. 4.2.5. 14.6.6. Теорема о глобальной сходимости для существенно периоди- периодической последовательности направляющих векторов. Пусть функцио- функционал g: Rn ->¦ R1 непрерывно дифференцируем, строго квазивыпукл и удовлетворяет условию Umg(x) = oo. (8) Тогда для любого х° ? Rn последовательность A) при рк и cofe, удовлетворяющих условиям F) и G), и ak, удовлетворяющем усло- условию g (л* — akpk) = min {g {хк — apk) | — оо < а < оо }, (9) корректно определена и сходится к единственному (локальному и глобальному) минимизатору функционала g. Доказательство. В силу теорем 4.2.7 и 4.3.3 функционал g имеет единственный минимизатор **, являющийся также и един- единственной критической точкой. Ввиду теоремы 4.3.2 при любом х° множество уровня L (g (x0)) компактно. Из строгой квазивыпук- квазивыпуклости функционала g вытекает, что он линейно непостоянен, а также что длина шага ak, определенная исходя из условия (9), в точности равна длине шага, найденной по алгоритму Карри. Следователь- Следовательно, применима теорема 14.6.5. | Обычно в теореме 14.6.5, а значит и в 14.6.6, векторы qk выбира- выбирают так: ql =el, i = 1, ..., п. В этом случае мы получаем следующий результат. 14.6.7. Глобальная ПВР-теорема. Предположим, что отображение F: Rn -> Rn непрерывно дифференцируемо, причем производная F' (х) симметрична при всех х ? Rn и существует такая постоянная с > 0, что hTF' (x) h > ch% V x, h g Rn. A0) Тогда при любых х° ? Rn и со ? @, 1] нелинейные ПВР-итерации решить fi (*f+1, ,. . , *?+/, xif *f+1, . . . , **) = 0 относительно х$ (И) взять x^+l = x^ + (o(xi — x^)t k = 0,1, . . . , i = 1, . . . , n, однозначно определены и сходятся к единственному решению урав- уравнения Fx = 0 в Rn.
498 Часть V. Полулокальная и глобальная сходимости 14.6 Доказательство. По принципу симметричности 4.1.6 существует отображение g: Rn -> R}y для которого g' (х) = (Fxf при всех х ? Rn. В силу A0) и теоремы 3.4.6, функционал g равно- равномерно выпукл, и по теореме 4.3.6 выполнено условие (8). После пе- перенумераций мы видим, что алгоритм A1) совпадает с алгоритмом из теоремы 14.6.6 с ql —e\ i = 1, ..., п, откуда и следует наше ут- утверждение. | Мы закончим этот параграф следующей теоремой о свободно шатающихся последовательностях. 14«6«8« Пусть функционал g: D cz Rn -+ R1 непрерывно дифферен- дифференцируем на открытом множестве D и равномерно выпукл на компакт- компактном выпуклом множестве Do cz D, и пусть [pk] — свободно шатаю- шатающаяся последовательность ненулевых векторов. Предположим, что итерации A) существуют, лежат в Do и удовлетворяют условию g (xk+l) < g (xk)y k = 0, 1, ..., а также условию E). Тогда последо- последовательность {xk} сходится к единственному глобальному минимиза- тору функционала g на Do. Доказательство. Пусть Л — множество предельных то- точек последовательности {xk}. Допустим, что g' (x) Ф 0 при некото- некотором х ? Л. Так как последовательность {pk} свободно шатающая- шатающаяся, то множество имеет наименьший положительный элемент а. Обозначим через ш модуль непрерывности производной g' на множестве Do и выберем г > 0 так, чтобы со (г) < а/2. В силу E) найдется такое kOt что и потому если || xk — х || < г при k > kOi то По определению величины а отсюда следует, что g' (x) pk = 0. Если Л с 5 (х, г), то xk ? S (х, г) при всех k > kx > ko\ следова- следовательно, g' (x) pk = 0 при k >&i. Но тогда в силу свойства «свобод- «свободного шатания» g' (х) = 0, и множество Ax = {у g А [ || у — х | > г) не может быть пустым. Пусть у ? Лх. Из того факта, что последо- последовательность {g(xk)} сходится, вытекает, что g(x) = g (у). Поэтому по теореме 3.4.4 2y, A2) где с>0 — постоянная равномерной выпуклости. Отсюда находим, что если \\xk — y\\<y/\\g'(x)i то \8'' (W-*)\>\g* (x)(x-!/)\-\g' №-
14.6 Гл. 14. Сходимость методов минимизации 499 Так как у ? Ла было произвольным, то мы можем выбрать k2 > &3 так, что ||х* — xj<r или \g'(x)(x — х*)\>у, V?>ft2. A3) Поскольку Aj непусто, последнее соотношение справедливо при некотором &>fe2- Если || xk+l — х \\ < г, то |g' W (д._ д*+1) i^i^ {х)(х_ ^) | >т§ ибо g' (*)(** — ^+!) = ©*a*g' (jc) р* = 0. Если же || x*+t _ х | > г% то ввиду A3) опять |g' (*) (* — *fe+1) |> у. Следовательно, \g'(x)(x-xk+i)\y, / = 0,1, ..., в противоречие с предположением, что х ? Л. Таким образом, множество Лх обязано быть пустым, а, как уже было отмечено, это означает, что gr (х) =0. Итак, g'(x) =0 при каждом х ? Л. Но в силу теоремы 4.2.8, множество Л может состоять лишь из одной точки х*, являющейся единственным глобальным минимизатором функционала g на множестве Do. Следовательно, lirnx* =x*. | ft-voo ЗАМЕЧАНИЯ И ССЫЛКИ НА ЛИТЕРАТУРУ ЗС 14.6.1. Теоремы 14.6.4 и 14.6.5, равно как и само понятие равномерно линей- линейно независимой последовательности, принадлежат Элкину [1968]. Они были сти- стимулированы результатами Шехтера [1962] для метода покоординатной релакса- релаксации (см. ЗС 14.6.2). Один близкий результат имеется также у Гольдстейна [1967, стр. 33]. ЗС 14.6.2. Теорема 14.6.8 для случая дважды дифференцируемого функционала g, длины шага сс^, определяемой по алгоритму Карри, и последовательности {pk}> состоящей из координатных векторов е1, каждый из которых встречается бесконечное число раз, принадлежит Шехтеру [1962]. Приведенный нами более общий результат принадлежит Элкину [1968J. Данное нами доказательство явля- является модификацией доказательства Элкина, которое в свою очередь представляет собой модификацию доказательства Шехтера. Более общим образом, Элкин полу- получил этот результат для функционалов, удовлетворяющих условию ? М > 8 (У) влечет g' (х){х — у) > с || х — у ||2. A4) По аналогии с определениями из ЗС 4.2.4 такие функционалы можно назвать равно- равномерно псевдовыпуклыми. Они включают в себя класс непрерывно дифференцируе- дифференцируемых равномерно выпуклых функционалов. Доказательство теоремы 14.6.8 для этого класса функционалов проводится точно так же, ибо равномерная выпук- выпуклость была использована только для установления соотношения A4), а также един- единственности критической точки; последняя же вытекает из A4) (см. У 4.2.17). Элкин рассмотрел также более общие методы «блочно покоординатной релак- релаксации», в которых задается последовательность подпространств, а не направлений, и алгоритм состоит в минимизации функционала g на этих подпространствах в определенном порядке. Похожие блочные методы рассматривал Шехтер [1968]. ЗС 14.6.3. Сходимость алгоритма Розенброка из § 8.4 легко доказывается, если заметить, что направляющие векторы равномерно линейно независимы (см. У 14.6.3). Аналогичным образом может быть рассмотрен и алгоритм Зангуилла, описанный в ЗС 8.4.7. ЗС 14.6.4. Процессы со свободным шатанием в чистом виде используются сравни- сравнительно редко. Чаще очередной направляющий вектор выбирают на основе
500 Часть V. Полулокальная и глобальная сходимости 14.6 некоторого критерия, скажем такого: | g' (xk) em\ = \ max g' (xk) ej |, pk = sgn (gf (xk) em) em. Получающаяся при этом последовательность не будет, вообще говоря, ни суще- существенно периодической, ни свободно шатающейся. Однако неравенство g'(xk)pk>n-l?2\\g'(xk)\\2 показывает, что последовательность {/У2} будет градиентно согласованной, и по- поэтому сходимость можно установить с помощью методов § 14.3. Результаты подоб- подобного рода были получены Гольдстейном [1967] и Элкином [1968]. ЗС 14.6.5. Тем же способом, что и в теореме 14.2.9, можно получить теоремы схо- сходимости, аналогичные теоремам 14.6.7 и 14.6.8, для итерации ПВР — Ньютона, рассмотренной в § 7.4. Впервые результаты для этой итерации были получены Шехтером [1962]; впоследствии он значительно обобщил их в работе [1968]. УПРАЖНЕНИЯ У 14.6.1. Построить пример свободно шатающейся последовательности в Rn f не являющейся существенно периодической. У 14.6.2. Заменить в теореме 14.6.4 условие равномерной линейной независимос- независимости на условие существенной периодичности последовательности {pk}. Дать пря- прямое доказательство этой теоремы без использования теоремы 14.6.3. У 14.6.3. Пусть функционал g: Rn -> R1 непрерывно дифференцируем, строго выпукл и имеет единственную критическую точку х*. Показать, что итерации Розенброка (8.4.12) — (8.4.15) сходятся к х* (Элкин [1968]). У 14.6.4. Показать, что теорема 14.6.5 остается справедливой, если а/г определя- определяется по алгоритму минимизации из теоремы 14.2.10. У 14.6.5. Пусть функционал g: Rn -> R1 дважды непрерывно дифференцируем и g" (x) hh > chTh при всех x,h?Rn, где с > 0. Показать, что заключения тео- теоремы 14.6.6 остаются при этом в силе. Предположим дополнительно, что при заданном х° g" (х) hh < dhTh, yh?Rn, x?L(g (x0)). Показать, что заключения теоремы 14.6.6 сохраняют силу, если 1 < щ < 2d/Bd — с). У 14.6.6. Пусть функционал g: D a Rn-> R1 непрерывно дифференцируем на D, а множество L0 компактно и \\g'(x)-g'(y)\\<y\\x-yl xfX,y?U>. Предположим также, что g имеет лишь конечное число критических точек в L0. Рассмотрим итерацию A) с pfe, задаваемыми формулой F), щ, удовлетворяющими условию G), и с Показать, что заключения теоремы 14.6.5 остаются при этом в силе. У 14.6.7. Пусть функционал g: Rn -» R1 непрерывно дифференцируем и равно- равномерно выпукл. Показать, что заключения теоремы 14.6.6 сохраняют при этом силу. На примере функционала
14.6 Гл. 14. Сходимость методов минимизации 501 и начальной точки х° = A/4, 1/4)т убедиться, что дифференцируемость является необходимым условием (Элкин [1968]). У 14.6.8. В условия п. 4.4.1 (а) применить теорему 14.6.7 к отображению Fx s= ss Ax + фх- У 14.6.9. Применить теорему 14.6.6 к задачам из У 14.5.5. У 14.6.10. Пусть A ?L (Rn) —симметричная положительно определенная матри- матрица с диагональной и строго нижней треугольной частями D и —L. Используя теорему 14.6.7, доказать, что если со ? @, 1], то p{(D — coLnMo — co)D+ coLT]} < I. С помощью теоремы 14.2.9 убедиться, что это справедливо и тогда, когда ©СП, 2).
АННОТИРОВАННЫЙ СПИСОК ОСНОВНЫХ МОНОГРАФИЙ 1) Anseione P. (ed.), Nonlinear integral equations, University Press, Madison, Wis- Wisconsin, 1964. Сборник, содержащий несколько важных статей о применении методов по- последовательных приближений и метода Ньютона к интегральным уравнениям и краевым задачам. Apostol Т., Mathematical analysis, Addison-Wesley, Reading, Massachusetts, 1957. Превосходный курс анализа повышенного типа, имеются ссылки на литера- литературу. * Бахвалов Н. С, Численные методы, т. I, «Наука», М., 1973. Курс численных методов, предназначенный для студентов университетов. Особое внимание уделяется вопросам оптимального выборя алгоритма при реше- решении задач на ЭВМ. * Березин И. С, Жидков Н. П., Методы вычислений, т. I, II, Физматгиз, М., 1959. Систематическое изложение численных методов анализа и алгебры. Книга предназначена для студентов университетов и всех лиц, занимающихся теорией и практикой численных методов. Вазов В., Форсайт Дж., Разностные методы решения дифференциальных урав- уравнений в частных производных, ИЛ, М., 1963. Обзор численных методов решения дифференциальных уравнений в частных производных. В частности, рассматриваются итерационные процессы, связанные с решением систем линейных уравнений. Вайнберг М. М., Вариационные методы исследования нелинейных операторов, Гостехиздат, М., 1956. В книге рассматриваются вариационные задачи в гильбертовом простран- пространстве. Varga R., Matrix iterative analysis, Prentice-Hall, Englewood Cliffs, New Jersey, 1962. Обзор теории линейных итерационных методов. Goldstein A., Constructive real analysis, Harper and Row, New York, 1967. Важный материал по решению нелинейных операторных уравнений, а также по задачам условной оптимизации. Greenspan D., Introductory numerical analysis of elliptic boundary value problems, Harper and Row, New York, 1965. В монографии наряду с краевыми задачами рассматриваются также нелиней- нелинейные уравнения и, в частности, обобщенные линейные методы для дискретных ана- аналогов. Дьёдонне Ж., Основы современного анализа, «Мир», М., 1964. Курс анализа, написанный на современном уровне. Содержит, в частности, теорию дифференцирования в банаховых пространствах. 1) Звездочкой отмечены монографии, добавленные при переводе.— Прим» ред.
Аннотированный список основных монографий 503 Канторович Л. В., Акилов Г. П., Функциональный анализ в нормированных про- пространствах, Физматгиз, М., 1959. Оозор работ советских авторов в этой области. В последней части книги рассматриваются итерационные методы и излагается теория метода Ньютона, основанная на технике мажорант Канторовича. Keller H., Numerical methods for two-point boundary value problems, Ginn (Blai- sdell), Boston, Massachusetts, 1938. В книге содержится много результатов по краевым задачам для обыкновен- Fibix дифференциальных уравнений. Kowalik J., Osborne M., Methods for unconstrained optimization problems, Ameri- American Elsevier, New York, 1968. Обзор методов минимизации. Есть численные примеры. Коллатц Л., Функциональный анализ и вычислительная математика, «Мир», М., 1969.] О5зор применения теоретико-функциональных методов в численном анали- анализе. В частности, рассмотрены итерационные методы, включая численные примеры. Ссылки на работы немецких авторов в этой области. Красносельский М.А., Топологические методы в теории нелинейных интеграль,- ных уравнений, Гостехиздат, М., 1956. Анализ нелинейных интегральных уравнений с использованием, в частности, теории степени отображения. Островский А., Решение уравнений и систем уравнений, ИЛ, М., 1963. Книга посвящена в основном рашению уравнений с одним неизвестным. В то же время рассматриваются и важные аспекты численного решения систем уравнений. Особый интерес представляет обсуждение вопроса о точках притяже- притяжения и о сходимости метода наискорейшего спуска. Rail L., Computational solution of nonlinear operator equations, Wiley, New York, 1969. Руководство по итерационным методам в банаховом пространстве, особое внимание уделяется методу Ньютона. Рассматриваются различные вычислитель- вычислительные аспекты этих методов. Vraub J., Iterative methods for the solution of equations, Prentice-Hall, Engle wood Cliffs, New Jersey, 1964. Подробный обзор итерационных методов для одного уравнения с одним не- неизвестным. Householder A., The theory of matrices in numerical analysis, Ginn (Blaisdell), Boston, Massachusetts, 1964. Обширный материал по линейной алгебре и линейным итерационным мето Дам; в частности, обсуждается вопрос о нормах в Rn. Книга содержит большую библиографию. Schwartz J., Nonlinear functional analysis A963/64), Lecture Notes, Courant Inst. Math. Sci., New York University, New York, 1964. Хороший подбор материала по нелинейному функциональному анализу, включая, в частности, теорию степени отображения.
504 СПИСОК ЛИТЕРАТУРЫ1) Аальто (Aalto S.) [1968] An iterative procedure for the solution of nonlinear equations in a Banach space, J. Math. Anal. AppL, 24, 686—691. Авила (Avila J.) [1970] Continuation methods for nonlinear equations, Ph. D. Diss., Univ. of Maryland, College Park, Maryland. Агаев Г. Н. [1967] О разрешимости нелинейных операторных уравнений в пространстве Банаха, ДАН, 174, 1239—1242. Адамар (Hadamard J.) [1906] Sur les transformations ponctuelles, Bull. Soc. Math. France, 34, 71—84. [1910] Sur quelques applications de d'indice de Kronecker, сб. «Introduction a la theorie des fonctions d'une variable», by J. Tannery, pp. 437—477, Herman, Paris. Адати (Adachi R.) [1955] On Newton's method for the approximate solution of simultaneous equa- equations, Kumamoto J. Sci.t ser. A, 2, 259—272. Аксельсон (Axelson 0.) [1964] Global integration of differential equations through Lobatto quadrature, BIT, 4, 69—86. Александров, Хопф (Alexandroff P., Hopf H.) [1935] Topologie, Springer-Verlag, Berlin. Аллен (Allen B.) [1966] An investigation into direct numerical methods for solving some calculus of variations problems, Comput. J., 9, 205—210. Альбрехт (Albrecht J.) [1961] Bemerkungen zum Iterationsverfahren von Schulz zur Matrix inversion, Z. Angew. Math. Mech., 41, 262—263. [1962] Fehlerschranken und Konvergenzbeschleunigung bei einer monotonen oder alternienden Iterationsfolge, N timer. Math., 4, 196—208. Альтман (Altman M.) [1955] A generalization of Newton's method, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 3, 189—193. [1957a] A fixed point theorem in Hilbert space, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 5, 19—22. [19576] A fixed point theorem in Banach space, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 5, 89—92. [1957b] On the approximate solution of nonlinear functional equations, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 5, 457—460, 461— 465. l) Для'переводных книг цифры в квадратных скобках указывают год выхода в свет оригинального издания. Год выхода в свет перевода приводится, как обыч- обычно, в конце описания. Если он меньше года в квадратных скобках, то это озна- означает, что перевод делался с более раннего издания, чем то, которое указывает автор.— Прим. ред.
Список литературы 505 [1957г] On the approximate solution of operator equations in Hilbert spaces Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 5, 605—609, 711—715, 783—787. [1957д] On a generalisation of Newton's method, Bull. Acad. Polon Sci., Ser Sci. Math. Astronom. Phys., 5, 789—795. [1957e] Connection between the method of steepest descent and Newton's method, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 5, 1031—1036. [1958] On the approximate solution of nonlinear functional equations in Banach spaces, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 6, 19-24. [1960] Functional equations involving a parameter, Proc. Amer. Math. Soc, 11, 54—61. [1961a] A generalization of Laguerre's method for functional equations, Bull Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 9, 581—586. [19616] Concerning the method of tangent hyperbolas for operator equations, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 9, 633—637. [1961b] A general majorant principle for functional equations, Bull. Acad. Polon Sci., Ser. ScivMath. Astronom. Phys., 9, 745—750. [1961r] Connection between gradient methods and Newton's method for functio- nals, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 9, 877—880. [1966a] Generalized gradient methods of minimizing a functional, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 14, 313—318. [19666] A generalized gradient method for the conditional minimum of a functio- functional, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 14, 445- 451. [1966b] A generalized gradient method of minimizing a functional on a Banach space, Mathematica (Cluj), 8, 15—18. [1967a] A generalized gradient method with self-fixing step size for the conditio nal minimum of functional, Bull. Acad. Polon. Sci., Ser. Sci. Math Astronom. Phys., 15, 19—24. [19676] A generalized gradient method for the conditional extremum of a func tional, Bull. Acad. Polon. Sci., Ser. Sci. Math. Astronom. Phys., 15, 177—183. Андерсон (Anderson D.) [1965] Iterative procedures for nonlinear integral equations, J. Assoc. Comput. Mach., 12, 547—560. Анселоне (Anselone P.) [1964] (ed.) Nonlinear integral equations, Univ. of Wisconsin Press, Madison, Wisconsin. [1965] Convergence and error bounds for approximate solutions to integral and operator equations, in «Error in digital computation. II» (L. Rail, ed.), Wiley, New York, 231—252. Анселоне, Мур (Anselone P., Moore R.) [1964] Approximate solutions of integral and operator equations, У. Math. Anal. AppL, 9, 268—277. [1966] An extension of the Newton—Kantorovich method for solving nonlinear equations with an application to elasticity, J. Math. Anal. AppL, 13, 476—501. Анселоне, Ролл (Anselone P., Rail L.) [1968] The solution of characteristic value-vector problems by Newton's me- method, Numer. Math., 11, 38—45. Антосевич (Antosiewicz H.) [1968] Newton's method and boundary value problems, J. Comput. System Sci., 2, 177—203. Антосевич, Рейнболдт (Antosiewicz H., Rheinboldt W.) [1962] Functional analysis and numerical analysis, in «Survey of numerical ana- analysis» (J. Todd, ed.), Wiley, New York, 485—517.
606 Список литературы Апостол (Apostoi Т.) [1957] Mathematical analysis, Addison—Wesley, Reading, Massachusetts. Армихо (Armijo L.) [1966] Minimization of functions having Lipschitz — continuous first partial de- derivatives, Pacific J. Math., 16, 1—3. Асплунд (Asplund E.) [1968] Frechet differentiability of convex functions, Ada Math., 121, 31—47. Ахамед (Ahamed S.) [1965] Accelerated convergence of numerical solution of linear and nonlinear vector field problems, Comput. J., 8, 73—76. Ахиезер Н. И. [1955] Лекции по вариационному исчислению, ГИТТЛ, М. Балакришнан, Нойштадт (Balakrishnan A., Neustadt L.) [1964] (eds.) Computing methods in optimization problems, Academic Press, New York. Балуев А. Н. [1952] К абстрактной теории метода С. А. Чаплыгина, ДАН, 83, 781—784. [1956] О методе С. А. Чаплыгина, Вестник ЛГУ, 13, 27—42. [1958] Применение полуупорядоченных норм при приближенном решении нелинейных уравнений, Уч. зап. ЛГУ, 271, сер. матем. н., 33, 18—27. Банах (Banach S.) [1922] Sur les operations dans les ensembles abstraits et leur applications aux equations integrates, Fund. Math., 133—181. Бард (Bard Y.) [1968] On a numerical instability of Davidon-like methods, Math. Сотр., 22, 665—666. Барнз (Barnes J.) [1965] An algorithm for solving nonlinear equations based on the secant method, Comput. J., 8, 66—72. Барт и ш М. Я. [1968] Некоторые итерационные методы решения нелинейных операторных уравнений, Укр. матем. ж., 20, 104—113 (на укр. яз.). Бартл (Bartle R.) [1955] Newton's methods in Banach spaces, Proc. Amer. Math. Soc, 6, 827—831. Баэр (Baer R.) [1962a] Note on an extremum locating algorithm, Comput. J., 5, 193. [19626] Nonlinear regression and solution of simultaneous equations, Comm. ACM, 5, 397—398. Безлюдная Л. А. [1968] Об исследовании одного общего итерационного процесса методом ма- мажорант, ДАН УССР, сер. А, № 10, 867—-870 (на укр. яз.). Бейлй, Шампин (Bailey P., Shampine L.) [1968] On shooting methods for two-point boundary value problems, J. Math. Anal. AppL, 23, 235—249. Бейли, Шампин, Уолтмэн (Bailey P., Shampine L., Waltman P.) [1968] Nonlinear two-point boundary value problems, Academic Press, New York. Беллман (Bellman R.) [1953] Теория устойчивости решений дифференциальных уравнений, ИЛ, М., 1954. [1960] Введение в теорию матриц, «Наука», М., 1969. [1961] Successive approximations and computer storage problems in ordinary differential equations, Comm. ACM, 4, 222—223. [1965] A new approach to the numerical solution of a class of linear and nonlinear integral equations of Fredholm type, Proc. Nat. Acad. Sci. USA, 54, 1501—1503. Беллман, Джанкоза, Калаба (Bellman R., JuncosaM., Kalaba R.) [1961] Some numerical experiments using Newton's method for nonlinear para- parabolic and elliptic boundary value problems, Comm. ACMf 4, 187—191,
Список литературы 507 Беллман, Кагивада, Калаба (Bellman R., Kagiwada H., Kalaba R.) [1962а] Orbit determination as a multi-point boundary value problem and quasi- linearization, Proc. Nat. Acad. Sci. USA, 48, 1327—1329. [19626] A computational procedure for optimal system design and utilization, Proc. Nat. Acad. Sci. USA, 48, 1524—1528. [1965] Nonlinear extrapolation and two-point boundary value problems, Comm. ACM, 8, 511—512. Беллман, Кагивада, Калаба, Васудеван (Bellman R., Kagiwada H., Kalaba R., Vasudevan R.) [1968] Quasilinearization and the estimation of differential operators from ei- eigenvalues, Comm. ACM, 11, 255—256. Беллман, Калаба (Bellman R.f Kalaba R.) [1965] Квазилинеаризация и нелинейные краевые задачи, «Мир», М., 1968. Беллюс, Кёрк (Belluce L., Kirk W.) [1966] Fixed point theorems for families of contraction mappings, Pacific J. Math., 18, 213—217. [1967] Nonexpansive mappings and fixed points in Banach spaces, Illinois J. Math., 11, 474—479. [1969] Fixed point theorems for certain classes of nonexpansive mappings, Proc. Amer. Math. Soc, 20, 141—146. Бельтюков Б. А. [1965a] Построение быстросходящихся итерационных алгорифмов для решения интегральных уравнений, Сиб. машем, ж., 6, 1415—1419. [19656] Об одном методе решения нелинейных функциональных уравнений, Ж. вычисл. матем. и матем. физики, 5, 927—931. [1966] К решению нелинейных интегральных уравнений методом Ньютона, Дифференц. уравнения, 2, 1072—1083. Бен-Израэль (Ben-Israel A.) [1965] A modified Newton— Raphson method for the solution of systems of equa- equations, Israel J. Math., 3, 94—99. [1966] A Newton — Raphson method for the solution of systems of equations, J. Math. Anal. Appl., 15, 243—252. Беннетт (Bennett A.) [1916] Newton's method in general analysis, Proc. Nat. Acad. Sci. USA, 2, 592—598. Берез и н И. С., Жидков Н. П. [1959] Методы вычислений, т. 1 и 2, Физматгиз, М. Берж (Berge С.) [1959] Espaces topologiques, fonctions multivoques, Dunod, Paris. Берман (Berman G.) [1966] Minimization by successive approximation, SI AM J. Numer. Anal., 3, 123—133. [1969] Lattice approximations to the minima of functions of several variables, J. Assoc. Comput. Mach., 16, 286—294. Берс (Bers L.) [1953] On mildly nonlinear partial difference equations of elliptic type, J. Res. Nat. Bur. Standards, Sect. B, 51, 229—236. Берс, Джон, Шехтер (Bers L., John F., Schechter M.) [1964] Уравнения с частными производными, «Мир», М., 1966. Бил (Beale ?.) [1964] Numerical methods, в сб. «Nonlinear programming» (NATO Summer School, Menton), North-Holland Publ., Amsterdam, 133—205. Биркгоф (Birkhoff G.) [1948] Теория структур, ИЛ, М., 1952. Биркгоф, Диас (Birkhoff G., Diaz J.) [1956] Nonlinear network problems, Quart. Appl. Math., 13, 431—443. Биркгоф, Келлог (Birkhoff G.f Kellogg R.) [J966] Solution of equilibrium equations in thermal networks, Proc. Symp.,
508 Список литературы Generalized Networks, Brooklyn Polytechnic Press, Brooklyn, New York, 443_452. Биркгоф, Шульц, Варга (BirkhoffG., SchultzM., Varga R.) [1968] Piecewise Hermite interpolation in one and two variables with appli- applications to partial differential equations, Numer. Math., 11, 232— 256. Биркгоф Дж., Келлог О. (Birkhof G., Kellogg О.) [1922] Invariant points in function space, Trans. Amer. Math. Soc, 23, 96—115. Биттнер Л. (Bittner L.) [1959] Eine Verallgemeinerung des Sekantenverfahrens zur naherungsweisen Be- rechnung der Nullstellen eines nichtlinearen Gleichungssystems, Wiss. Z. Techn. Univ. Dresden, 9, 325—329. [1963] Mehrpunktverfahren zur Auflosung von Gleichungssystemen, Z. Angew. Math. Mech., 43, 111—126. [1967] Einige kontinuierliche Analogien yon Iterationsverfahren, в сб. «Funktio- nalanalysis, Approximationstheorie, Numerische Mathematik, ISNM 7», Birkhauser Verlag, Basel, 114—135. Биттнер Э. (Bittner E.) [1965] Numerical analysis of Laplace's equation with nonlinear boundary conditi- conditions, Ph. D. Diss., Case Inst. of Techn., Cleveland, Ohio. Бланделл (Blundell P.) [1962] A method for solving simultaneous polinomial equations, Proc. IFIP Congr. 1962, North Holland, Amsterdam, 39—42. Блисс (Bliss G.) [1925] Лекции по вариационному исчислению, ИЛ, М., 1950. Блок (Block H.) [1953] Construction of solutions and propagation of errors in nonlinear problems, Proc. Amer. Math. Soc, 4, 715—722. Блум (Blum E.) [1966] A convergent gradient procedure in pre-Hilbert spaces, Pacific J. Math., 18, 25—29. [1968] Stationary points of functionals in pre-Hilbert spaces, У. Comput. Sys- System ScL, 1, 86—90. Блютэль (Blutel E.) [1910] Sur l'application de la methode d'approximation de Newton a plusiers inconnues, С /?., 151, 1109—1112. Бокс (Box M.) : [1965] A new method of constrained optimization and a comparison with other methods, Comput. J., 8, 42—52. [1966] A comparison of several current optimization methods and the use of trans- transformations in constrained problems, Comput. «/., 9, 67—77. Боль (Bohl E.) [1964] Die Theorie einer Klasse linearer Operatoren und Existenzsatze fur Lo- sungen nichtlinearer Probleme in halbgeordneten Banachraumen. Arch. Rational Mech. Anal, 15, 263—288. [1967] Nichtlineare Aufgaben in halbgeordneten Raumen, Numer. Math., 10, 220-231. Бондаренко П. С. [1961] О выборе погрешностей округления при решении разностных уравнений сходящимся итерационным методом, Вестн. Киевского ун-та, сер. ма- тем.,4, № 1,27—31. [1964] Вычислительные алгорифмы приближенного решения операторных урав- уравнений, ДАН, 154, 754—756. Босарж (Bosarge W.) [1968] Infinite dimensional iterative methods and applications, IBM Houston Sci. Center Rept. 320. 2347, Houston, Texas. Босарж, Фалб (Bosarge W., Falb P.) [1968] Infinite dimensional multipoint methods and the solution of two-point
Список литературы 509 boundary value problems, IBM Houston Sci. Center Rept. 320. 2349, Ho- Houston, Texa;>. Брайян (Bryan C.) [ 1964] On the convergence of the method of nonlinear simultaneous displacements, Rend. Circ. Mat. Palermo, 13, 177—191. Брайянт (Bryant V.) [1968] A remark on a fixed-point theorem for iterated mappings, Amer. Math. Monthly, 75, 399-400. Брандлер (Brandler F.) [1966] Numerical solution of a system of two quadratic equations by the method of smoothing planes, Apl. Mat., 11, 352—361. Браннин, Ван (Brannin F., Wang H.) [1967] A fast reliable iteration method for the analysis of nonlinear networks, Proc. IEEE, 55, 1819—1825. Браудер (Browder F.) [1963a] The solvability of nonlinear functional equations, Duke Math. J., 33, 557—567. [19636] Nonlinear elliptic boundary value problems, Bull. Amer. Math. Soc, 69, 862—874. [1964] Remarks on nonlinear functional equations, Proc. Nat. Acad. Sci. USA, 51, 985—989. [1965a] Nonlinear elliptic boundary value problems. II, Trans. Amer. Math. Soc, 117, 530—550. [19656] Nonexpansive nonlinear operators in Banach space, Proc. Nat. Acad. Sci. USA, 54, 1041-1044. [1965b] Existence and uniqueness theorems for solutions of nonlinear boundary value problems, Proc. Symp. Appl. Math., 17, 24—49. [1967] Convergence of approximants to fixed points of nonexpansive nonlinear mappings in Banach spaces, Arch. Rational Mech. Anal., 24, 82—90. Браудер, Петришин (Browder F., Petryshyn W.) [1966] The solution by iteration of nonlinear functional equations in Banach space, Bull. Amer. Math. Soc, 72, 571—575. [1967] Construction of fixed points of nonlinear mappings in Hilbert space, J. Math. Anal. Appl., 20, 197—228. Браун (Brown K.) [1966] A quadratically convergent method for solving simultaneous nonlinear equations, Ph. D. Diss., Purdue Univ., Lafayette, Indiana. [1967] Solution of simultaneous nonlinear equations, Comm. ACM, 10, 728—729. [1969] A quadratically convergent Newton-like method based upon Gaussian eli- elimination, SIAM J. Numer. Anal, 6, 560—569. Браун, Деннис (Brown К., Dennis J.) [1968] On Newton-like iteration functions: general convergence theorems and a specific algorithm, Numer. Math., 12, 186—191. Браун, Конт (Brown K., Conte S.) [1967] The solution of simultaneous nonlinear equations, Proc. 22nd Nat. Conf. Assoc. Сотр. Mach., Thompson Book Co., Washington, D. C, 111—114. Брауэр Л. (Brouwer L.) [1912] Uber Abbildungen von Mannigfaltigkeiten, Math. Ann., 97—115. Брауэр Ф. (Brauer F.) [1959a] A note en uniqueness and convergence of successive approximations, Canad. Math. Bull, 2, 5—8. [19596] Some results on uniqueness and successive approximations, Canad. J. Math., 11, 527—533. Брауэр Ф., Стернберг (Brauer F., Sternberg S.) [1958] Local uniqueness, existence in the large, and the convergence of successive approximations, Amer. ,/. Math., 80, 421—430. Бресс (Braess D.) [1966] Uber Dampfung bei Minimalisierungsverfahren, Computing, 1, 264—272.
510 Список литературы Бройден (Broyden С.) [1965] A class of methods for solving nonlinear simultaneous equations, Math. Сотр., 19, 577—593. [1967] Quasi-Newton methods and their application to function minimization. Math. Сотр., 21, 368—381. [1969] A new method of solving nonlinear simultaneous equations, Comput. J., 12, 94—99. Брумберг В. А. [1962] Численное решение краевых задач небесной механики методом наи- наискорейшего спуска, Бюлл. ин-та теорет. астрономии АН, 8, 269—282. Брэмбл (Bramble J.) [1966] (ed.) Numerical solution of partial differential equations, Academic Press, New York. Брэмбл, Хаббард (Bramble J., Hubbard B.) [1962] A theorem on error estimation for finite difference analogues of the Dirich- let problem for elliptic equations, Contr. Diff. Eqn., 2, 319—340. [1964] On a finite difference analogue of an elliptic boundary value problem wich is neither diagonally dominant nor of non-negative type, /. Math, and Phys., 40, 117—132. Будак Б. М., Гольдман Н. Л. [1967] О применении метода Ньютона к решению нелинейных краевых задач, сб. работ ВЦ МГУ, 6, 17-33. Буссманн (Bussmann К.) [1940] Ph. D. Diss., Inst. of Techn. Braunschweig, Germany. Бут Р. (Booth R.) [1967] Random search for zeroes, J. Math. Anal Appl., 20, 239—257. Бут Э. (Booth A.) [1949] An application of the method of steepest descent to the solution of systems of nonlinear simultaneous equations, Quart. J. Mech. Appl. Math., 2, • 460—468. Бюкнер (Bueckner H.) [1952] Die praktische Bechandlungen von Integralgleichungen, Springer — Ver- lag, Berlin. Вайнберг /VI. M. [1956] Вариационные методы исследования нелинейных операторов, ГТТИ, М. [1960] О сходимости метода наискорейшего спуска для нелинейных уравнений, ДАН, 130, 9—12. [1961] О сходимости процесса наискорейшего спуска для нелинейных уравне- уравнений, Сиб. матем. ж., 2, 201—220. Вайничке (Weinitschke H.) [1964] Uber eine KJasse von Iterationsverfahren, Numer. Math., 6, 395—404. Вайсингер (Weissinger J.) [1951] Uber das Iteratiosverfahren, Z. Angew. Math. Mech., 31, 245—246. [1952] Zur Theorie und Anwendung des Herat ions ver fa hrens, Math. Nachr., 8, 193-212. Вакспресс (Wachspress E.) [1966] Iterative solution of elliptic systems, Prentice Hall, Englewood Cliffs, New Jersey. Вандерграфт (Vandergraft J.) [1967] Newtons method for convex operaters in partially ordered spaces, SI AM J. Numer. Anal., 4, 406—432. [1968] Spectral properties of matrices which have invariant cones, SI AM J. Appl. Math., 16, 1208—1222. Варга Дж. (Warga J.) [1952] On a class of iterative procedures for solving normal systems of ordinary differential equations, J. Math, and Phys., 31, 223—243.
Список литературы 511 Варга P. (Varga R.) [1962] Matrix iterative analysis, Prentice Hall, Englewood Cliffs, New Jersey. [1969] Accurate numerical methods for nonlinear boundary value problems, сб. «Numerical solution of nonlinear problems» (J. Ortega and W. Rhein- boldt, eds.), Soc. Ind. Appl. Math., Philadelphia, Pennsylvania, 99— 113. Варюхин В. А., Касьянюк С. А. [1966] Об одном методе решения нелинейных систем специального вида, Ж. вычисл. машем, и машем, физики, 6, 347—352. Васшер (Wasscher E.) [1963] Steep 1, Сошш. АСМ, 6, 517—519. Berr^Wegge L.) [1966] On a discrete version of the Newton — Raphson method, SI AM J. Nu- mer. Anal., 3, 134—142. Вейнсток (Weinstock R.) [1952] Calculus of variations with applications to physics and engineering, McGraw-Hill, New York. Вертгейм Б. А. [1953] О решении нелинейных функциональных уравнений, Уч. зап. Пермского гос. ун-та, матем., мех., 103, 160—163. [1965] О некоторых способах линеаризации и приближенного решения нелиней- нелинейных функциональных уравнений, Сиб. матем. м., 6, 686—691. Веттерлинг (Wetterling W.) [1963] Anwendung des Newtonschen Iterationsverfahrens bei der Tschebyscheff — Approximation. I, II, Math.-Tech.-Wirtschaft 1963, 61—63, 112—115. Витте, Холст (Witte В., Hoist W.) [1964] Two new direct minimum search procedures for functions of several variab- variables, Proc. 1964 Spring Joint Сотр. Conf., Spartan Books, Baltimore, Ma- Maryland, 195—209. Воеводин В. В. [1961] Применение метода спуска для определения всех корней алгебраическо- алгебраического многочлена, Ж. вычисл. матем. и матем. физики, 1, 187—195. Войгт (Voigt R.) [1969] Rates of convergence for iterative methods for nonlinear systems of equa- equations, Ph. D. Diss., Univ. of Maryland, College Park, Maryland. Вольф fWolfe P.) [1959] The secant method for simultaneous nonlinear equations, Comm. ACM, 2, 12—13. Вук (Wouk A.) [1964] Direct iteration, existence, and uniqueness, сб. «Nonlinear integral equa- equations» (P. Anselone, ed.), Univ. of Wisconsin Press, Madison, Wisconsin, 3—34. Выханду Л. К. [1955] Обобщение метода Ньютона для решения нелинейных систем уравне- уравнений, Уч. зап. Тартуского ун-та, 37, 114—117. Гавурин М. К. [1958] Нелинейные функциональные уравнения и непрерывные аналоги ите- итеративных методов, Изв. вузов, Математика, 5, 18—31. [1963] К теоремам существования для нелинейных функциональных уравне- уравнений, сб. «Методы вычислений», 2, 24—28. Гавурин М. К., Фарфоровская Ю. Б. [1966] Об одном итеративном методе разыскания минимума суммы квадратов, Ж. вычисл. матем. и матем. физики, 6, 1094—1097. Галанов Б. А. [1965] Об одном общем способе получения методов решения нелинейного урав- уравнения, ДАН УССР, 12, 1553—1558 (на укр. яз.). Гальярдо (Gagliardo E.) [1965] A method that combines known methods of solution for systems of equa- equations, Calcolo, 2, Supp. No. 1, 81—83.
512 Список литературы Ганн (Gunn J.) [1964а] On the two-stage iterative method of Douglas for mildly nonlinear ellip- elliptic difference equations, Numer. Math., 6, 243—249. [19646] The numerical solution of у (а щ) = f byasemi-explicit alternating direction method, Numer. Math., 6, 181—184. [1965] The solution of elliptic difference equations by semi-explicit iterative techniques, SIAM J. Numer. Anal., 2, 24—45. Гантмахер Ф. P. [1953] Теория матриц, Гостехиздат, М. Гарднер (Gardner G.) [1965] Numerical errors in iterative processes, Div. of Appl. Math. Report, Brown Univ., Providence, Rhode Island. Гато (Gateaux R.) [1913] Sur les fonctionelles continues et Ies fonctionelles analytiques, C. R., 157, 325—327. [1922] Sur les fonctionelles continues et les fonctionelles analytiques, Bull. Soc. Math. France, 50, 1—21. Гейл, Никайдо (Gale D., Nikaido H.) [1965] The Jacobian matrix and global univalence of mappings, Math. Ann., 159, 81—93. Генджоян Г. В. [1964] О двусторонних чаплыгинских приближениях решения двуточечной гра- граничной задачи, ИАН АрмССР, сер. физ.-матем. н., 17, 21—27. Геращенко СМ. [1967] О выборе правых частей в системе дифференциальных уравнений гра- градиентного метода, Дифф. уравнения, 3, 2153—2159. Гильдебрандт, Грейвс (Hildebrandt Т., Graves L.) [1927] Implicit functions and their differentials in general analisis, Trans. Amer. Math. Soc, 29, 127—153. Гиня (Ghinea M.) [1964] Sur la resolution des equations operationnelles dans les espaces de Banach, С R., ser. A — B, 258, 2966—2969. [1965] Sur la resolution des equations operationnelles dans les espaces de Banach, Rev. Francaise Traitement Information Chiffres, 8, 3—22. Глазман И. М. [1964] О градиентной релаксации для неквадратичного функционала, ДАН, 154, 1011—1014. [1965] Релаксация на поверхностях с седловыми точками, ДАН, 161, 750— 752. Глазман И. М., Сенчук Ю. Ф. [1966а] Об одном прямом методе минимизации некоторых функционалов ва* риационного исчисления, Теория функций, функц. анализ и их прило- приложения, 3, 7—20. [19666] О минимизации квазиквадратичных функционалов в гильбертовом про- пространстве, ДАН УССР, 8, 981—985 (на укр. яз.). Глейзал (Gleyzal A.) [1959] Solution of nonlinear equations, Quart. J. Appl. Math., 17, 95—96. Голаб (Golab S.) [1966] La comparison de la rapidite de convergence des approximations succes- sives de la methode de Newton avec la methode de «regula falsi», Mathe- matica (Cluj), 8, 45—49. Гольдстейн (Goldstein A.) [1962] Cauchy's method of minimization, Numer. Math., 4, 146—150. [1964] Minimizing functionals on Hilbert space, сб. «Computing methods in optimization problems» (A. Balakrishnan and L. Neustadt, eds.), Acade- Academic Press, New York. [1965a] On Newton's method, Numer. Math., 7, 391—393. [19656] On steepest descent, SIAM J. Control, 3, 147—151.
Список литературы 513 [1966] Minimizing functionals on normed linear spaces, SIAM J. Control, 4, 81—89. [1967] Constructive real analysis, Harper & Row, New York. Гольдстейн, Прайс (Coldstein A., Price J.) 11967] An effective algorithm for minimization, Numer. Math., 10, 184—189. Гольдфельд, Куандт, Троттер (Goldfeld S., QuanJt R., Trotter H.) [1966] Maximization by quadratic hill climbing, Econometrica, 34, 541—551. Готуссо (Qotusso L.) [1965] Su un metodo iterativo per la risoluzione di sistemi non lineari, 1st. Lombardo Accad. Sci. Lett. Rend., A, 99, 933—949. [1967] Sull'impiego dell'integrale di Kronecker per la separazione delle radici di sistemi non lineari, 1st. Lombardo Accad. Sci. Lett. Rend., A, 101,8—28. Гребенюк В. С. [1966] Применение принципа мажорант к одному классу итерационных про- процессов, Укр. матем. ж., 18, 102—106. Грей, Ролл (Gray J., Rail L.) [1967] NEWTON: A general purpose program for solving nonlinear systems, Math. Res. Center Rept. 790, Univ. of Wisconsin, Madison, Wisconsin. Гринспэн (Greenspan D.) [1965a] Introductory numerical analysis of elliptic boundary value problems, Harper & Row, New York. [19656] On approximating extremals of functionals. I, ICC Bull., 4, 99— 120. [1966] (ed.) Numerical solution of nonlinear differential equations, Wiley, New York. [1967] On approximating extremals of functionals. II, Internat. J. Engrg. Sci., 5, 571—588. Гринспэн, Джейн (Greenspan D., Jain P.) [1967] Application of a method for approximating extremals of functionals to compressible subsonic flow, /. Math. Anal. AppL, 18, 85—111. Гринспэн, Ёхе (Greenspan D., Yohe M.) [1963] On the approximate solution of Аи = F(u), Comm. ACM, 6, 564—568. Гринспэн, Партер (Greenspan D., Parter S.) [1965] Mildly nonlinear elliptic partial differential equations and their nume- numerical solution, II, Numer. Math., 7, 129—147. Гринштадт (Greenstadt J.) [1967] On the relative efficiences of gradient methods, Math. Сотр., 21, 360— 367. Гройб (Greub W.) [1967] Multilinear algebra, Springer — Verlag, Berlin. Грошафтова (Groschaftova Z.) [1967] Approximate solutions of equations in Banach spaces by the Newton iterative method. I, II, Comment. Math. Univ. Carolinae, 8, 335—358, 469—501. Груда (Hrouda J.) [1966] Метод оврагов для минимизации функций нескольких переменных, Apl. Mat., 11, 271—277 (на чеш. яз.). Гурр (Gurr S.) [1967] Uber ein neues Matrizen-Differenzenverfahren zur Losung von einigen nichtlinearen Randwertaufgaben der Mechanik, Z. Angew. Math. Mech.t 47, T47—48. Давиденко Д. Ф. [1953a] Об одном новом методе численного решения систем нелинейных урав- уравнений, ДАН, 88, 601—602. [19536] О приближенном решении систем нелинейных уравнений Укр. матем. ж., 5, 196—206. [1955] О приложении метода вариации параметра к теории нелинейных функциональных уравнений, Укр. матем. ж., 7, 18—28- 17 Дж. Ортегз, В. Рейнболдт
514 Список литературы [1965а] О применении метода вариации параметра к построению итерацион- итерационных формул повышенной точности для определения элементов обрат- обратной матрицы, ДАН, 162, 743—746. [19656] О применении метода вариации параметра к построению итера- итерационных формул повышенной точности для определения численных решений нелинейных интегральных уравнений, ДАН, 162, 499—502. Давидон (Davidon W.) [1959] Variable metric methods for minimization, A. E. C. Res. and Deve- Develop. Rept. ANL-5990, Argonne Nat'l Lab., Argonne, Illinois. [1967] Variance algorithm for minimization, Comput. /., 10, 406—411. Далли, Питвей (Dulley D., Pitteway M.) [1967] Finding a solution of n functional equations in n unknowns, Comm. ACM, 10, 726. Даугавет И. К., Самокиш Б. А. [1963] Об апостериорной оценке погрешности численного решения диффе- дифференциального уравнения, сб. «Методы вычислений», 1, 52—57. Данфорд, Шварц (Dunford N., Schwartz J.) [1958] Линейные операторы, Общая теория, ИЛ, М., 1962. Дейст, Сифор (Deist F., Sefor L.) [1967] Solution of systems of nonlinear equations by parameter variation, Comput. /., 10, 78—82. Деннис (Dennis J.) [1967] On Newton's method and nonlinear displacements, SIAM J. Numer. Anal, 4, 103—108. [1968] On Newton-like methods, Numer. Math., 11, 324—330. [1969] On the Kantorovich hypothesis for Newton's method, SIAM J. Numer. Anal, 6, 493—507. Дерендяев И. М. [1958] Об одной модификации метода Ньютона решения нелинейных функ- функциональных уравнений, Уч. зап. Пермского ун-та, 16, 43—45. Джонсон, Шольц (Johnson L., Scholz D.) [1968] On Steffensen's method, SIAM J. Numer. Anal, 5, 296—302. Диас (Diaz J.) [1964] Solution of the singular Cauchy problem, NATO Inter. Summer Inst. of Theory of Distributions, Lisbon, Portugal. Диас, Меткалф (Diaz J., Metcalf F.) [1967] On the structure of the set of subsequential limit points of successive approximations, Bull. Amer. Math. Soc, 73, 516—519. [1969] On the set of subsequential limit points of successive approximations, Trans. Amer. Math. Soc, 135, 1—27. Долф, Минти (Dolph С, Minty G.) [1964] On nonlinear integral equations of Hammerstein type, сб. «Nonlinear integral equations» (P. Ancelone, ed.), Univ. of Wisconsin Press, Ma- Madison, Wisconsin, 99—154. Дрейпер, Смит (Draper N., Smith H.) [1966] Applied regression analysis, Wiley, New York. Дрейфус (Dreyfus S.) [1962] The numerical solution of variational problems, /. Math. Anal. Applt 5, 30-45. Дубовик Л. И. [1965a] Общий вид итерационного процесса третьего порядка для нелинейных функциональных уравнений (на укр. яз.), сб. «Первая республ. конф. молодых исследователей», ч. I, Матем. инст. АН УССР, Киев, 219—225. [19656] О сходимости обобщенного процесса Ньютона для функциональных уравнений и его применение к решению матричных уравнений, сб. «Первая республ. конф. молодых исследователей», ч, I, Матем. инст. АН УССР, Киев, 225—232 (на укр. яз.).
Список литературы 515 Дуглас (Douglas J., Jr.) [1961] Alternating direction iteration for mildly nonlinear elliptic difference equations, Numer. Math., 3, 92—98; 4 A962), 301—302. [1962] Alternating direction methods for three space variables, Numer. Math, 4, 41—63. Дьёдонне (Dieudonne J.) [1960] Основы современного анализа, «Мир», М., 1964. Дьяконов Е. Г. [1966] О построении итерационных методов на основе использования опе- операторов, эквивалентных по спектру, Ж. вычисл. матем. и матем. физики, 6, 12—34. Дэви с (Davis J.) [1966] The solution of nonlinear operator equations with critical points, Ph. D. Diss., Oregon State Univ., Corvallis, Oregon. Дэниэл (Daniel J.) [1967a] The conjugate gradient method for linear and nonlinear operator eguations, SIAM J. Numer. Anal, 4, 10—26. [19676] Convergence of the conjugate gradient method with computationally convenient modifications, Numer. Math., 10, 125—131. Дюк (Duck W.) [1966] Iterative Verfahren und Abanderungsmethoden ztir Inversion von Mat- rizen, Wiss. Z. Karl Marx Univ. Leipzig, Math.-Natur. Reihe, 8, 259—273. Дюло (Duleau J.) [1963] Resolution d'un systeme d'equations polynomiales, С R., ser. A—B, 256, 2284—2286. Дюран (Durand E.) [1960] Solutions numeriques des equations algebriques. I, II, Masson et Cie. Paris Емелина Л. В. [1965] Об одном двухточечном итерационном процессе решения нелинейных функциональных уравнений, сб. «Первая республ. матем. конф. молодых исследователей», ч. I. Матем. инст. АН УССР, Киев, 233—240 (на укр. яз.). Ёсиаки (Yoshiaki M.) [1968] Practical monotonous iterations for nonlinear equations, Mem. Fac. Sci. Kyushu Univ., ser. A, 22, 56—73. Жидков Е. П., Пузынин И. В. [1967] Об одном методе введения параметра при решении краевых задач для нелинейных обыкновенных дифференциальных уравнений второго порядка, Ж- вычисл. матем. и матем. физики, 7, 1086—1095. [1968] Применение непрерывного аналога метода Ньютона для приближен- приближенного решения одной нелинейной краевой задачи, ДАН, 180, 18—21. Загускин В. Л. [1960] Справочник по численным методам решения алгебраических и транс- трансцендентных уравнений, Физматгиз, М. Зангуилл (Zangwill W.) [1967] Minimizing a function without calculating derivatives, Comput. /., 10, 239—296. Заплитная А. Т. [1965] Об одном приближенном методе решения нелинейных операторных уравнений, ДАН УССР, И, 1434—1437 (на укр. яз.). Зелезник ((Zeleznic F.) [1968] Quasi-Newton methods for nonlinear equations, /. Assoc. Comput Mach., 15, 265—271. Зильке (Zielke G.) [1968] Inversion of modified symmetric matrices, /. Assoc. Comput. Mach., 15, 402—408. Зинченко А- И. [1963a] О некоторых методах приближенного решения уравнений с недиффе- ренцируемыми операторами, ДАН УССР, 2, 156—161 (на укр. яз.).
516 Список литературы [19636] Об одном классе приближенных методов решения операторных урав- уравнений с недифференцируемыми операторами, ДАН УССР, 7, 852— 856 (на укр. яз.). Зубер (Zuber R.) [1966] A method of successive approximation, Bull. Acad. Polon. ScL, Ser. Sci. Math. Astronom. Phys., 14, 559—563. Зуев А. И. [1966] Об одном алгоритме решения нелинейных систем методом прогонки, Тр. Матем. ин-та АН СССР, 74, 152—155. Иванов В. В. [1962] Об алгоритмах быстрого спуска, ДАН, 143, 775—778. Исаев В. К., Сонин В. В. [1963] Об одной модификации метода Ньютона численного решения крае- краевых задач, Ж. вычисл. матем. и матем. физики, 3, 1114—1116. Каазик Ю. Я* [1957] О приближенном решении нелинейных операторных уравнений ите- итеративными методами, УМН, 12, № 1, 195—199. Кавана (Cavanagh R.) [1970] Difference equations and iterative methods, Ph. D. Diss., Univ. of Ma- Maryland, College Park, Maryland. Калаба (Kalaba R.) [1959] On nonlinear differential equations, the maximum operation, and mo- monotone convergence, /. Math. Mech., 8, 519—574. [1963] Some aspects of quasi-linearization, сб. «Nonlinear differential equa- equations and nonlinear mechanics», Academic Press, New York, 135—146. Калайда А. Ф. [1964] Новый метод решения функциональных уравнений, Вестн. Киевского ун-та, сер. матем., 6, 123—129 (на укр. яз.). [1966] Об одном новом методе численного решения функциональных уравне- уравнений, ДАН УССР, № 1, 20—23 (на укр. яз.). Канторович Л. В. [1937] Lineare halbgeordnete Raume, Матем. сб., 2, 121 — 168. [1939] The method of successive approximations for functional equations, Ada Math., 71, 63—97. [1948a] О методе Ньютона для функциональных уравнений, ДАН, 59, 1237— 1240. [19486] Функциональный анализ и прикладная математика, УМН, 3, 89— 185. [1949] О методе Ньютона, Труды Матем. ин-та АН, 28, 104—144. [1951а] Принцип мажорант и метод Ньютона, ДАН, 76, 17—20. [19516] Некоторые дальнейшие приложения принципа мажорант, ДАН, 80, 849—852. [1956] Приближенное решение функциональных уравнений, УМН, 11, № 6, 99—116. [1957] Некоторые дальнейшие приложения метода Ньютона, Вестник ЛГУ, сер. матем., мех. и астр., 7, № 2, 68—103. Канторович Л. В., Акилов Г. П. [1959] Функциональный анализ в нормированных пространствах, М. Канторович Л. В., Вулих Б. 3., Пинскер А. Г. [1950] Функциональный анализ в полуупорядоченных пространствах, Гос- техиздат, М. Карри (Curry H.) [1944] The method of steepest descent for nonlinear minimization problems, Quart. Appi Math., 2, 258—261. Каспар (Caspar J.) [1969] Applications of alternating direction methods to mildly nonlinear pror blems, Ph. D. Diss., Univ. of Maryland, College Park, Maryland.
Список литературы 517 Касриэль, Нашед (Kasriel R., Nashed M.) [1966] Stability of solutions of some classes of nonlinear operator equations, Proc. Amer. Math. Soc, 17, 1036—1042. Катетов (Katetov M.) [1967] A theorem on mappings, Comment. Math. Univ. Carolinae, 8, 431—433. Kai И. С, Маергойз М. Д. [1967] Решение нелинейных алгебраических и трансцендентных уравнений в комплексной области, Ж. вычисл. матем. и матем. физики, 7,654—661. Качуровский Р. И. [1960] О монотонных операторах и выпуклых функционалах, УМН, 15, № 4, 213—215. [1962] О монотонных операторах и выпуклых функционалах, Уч. зап. Моск. обл. пед. ин-та, 110, вып. 7, 231—243. [1965] Монотонные нелинейные операторы в банаховых пространствах, ДАН, 163, № 3, 559—562. [1966] Нелинейные операторы с ограниченным изменением, монотонные и выпуклые операторы в банаховых пространствах, УМН, 21, № 5, 256—257. [1967] Нелинейные уравнения с монотонными и другими операторами, ДАН, 173, № 3, 515—518. [1968] Три теоремы о нелинейных уравнениях с монотонными операторами, ДАН, 183, № 4, 33—36. Каччополи (Cacciopoli R.) [1930] Un teorema generale sull'esistenza di elementi uniti in una trasformazione funzionale, Atti Accad. Naz. Lincei Rend., Cl. Sci. Fis. Mat. Natur., ser. 6, 11,794—799. [1931] Sugli elementi uniti delle trasformazioni funzionali: un'osservatione sui problemi di valori ai limiti, Atti. Accad. Naz. Lincei Rend., Cl. Sci. Fis. Mat. Natur., ser. 6, 13, 498—502. [1932] Sugli elementi uniti delle trasformazioni funzionali, Rend. Sent. Mat. Univ. Padova, 3, 1—15. Келлер (Keller H.) [1968] Numerical methods for two-point boundary value problems, Ginn (Blaisdell), Boston, Massachusetts. Келлер, Рейсе (Keller H., Reiss E.) [1958] Iterative solutions for the nonlinear bending of circular plates, Comm. Pure Appl. Math., 11, 273—292. Келлог (Kellog R.) [1964] An alternating direction method for operator equations, SIAM J. Appl. Math., 12, 848—854. [1969] A nonlinear alternating direction method, Math. Сотр., 23, 23—28. Кеннет, Мак-Гилл (Kenneth P., McGill R.) [1966] Two-point boundary value problem techniques, сб. «Advances in con- control systems», 3, Academic Press, New York, 69—109. Кернер (Kerner M.) [1933] Die Differentiate in der allgemeinen Analysis, Ann. Math., 34,546—572. Kepp (Kerr D.) [1967] On some iterative methods for solving a class of nonlinear boundary value problems, Ph. D. Diss., Purdue University, Lafayette, Indiana. Кёрк (Kirk W.) [1965] A fixed point theorem for mappings wich do not increase distance, Amer. Math. Monthly, 72, 1004—1006. Кивистик Л. А. [1960a] О методе наискорейшего спуска для решения нелинейных уравнений, МАИ ЭССР, сер. физ.-матем. и техн. н., 9, 145—159. [19606] О некоторых итерационных методах для решения операторных урав- уравнений в пространстве Гильберта, И АН ЭССР, сер. физ.-матем. и техн н., 9, 229—241.
518 Список литературы [1960в] Об одном обобщении метода Ньютона, ИАН ЭССРУ сер. физ.-матем, и техн. н., 9, 301—312. [1961] Об одной модификации итерационного метода с минимальными не- невязками для решения нелинейных операторных уравнений, ДАН, 136, 22—25. [1962] Об одном классе итерационных процессов в гильбертовом простран- пространстве, Уч. зап. Тартуского ун-та, 129, 365—381. Кивистик Л. А., Устаал А. Я. [1962] Некоторые теоремы сходимости для итерационных процессов с мини- минимальными невязками, Уч. зап. Тартуского ун-та, 129, 382—393. Кизнер (Kizner W.) [1964] A numerical method for finding solutions of nonlinear equations, SIAM J. Appl. Math., 12, 424—428. Кинкейд (Kincaid W.) [1948] Solution of equations by interpolation, Ann. Math. Statist., 19, 207— 219. [1961] A two-point method for the numerical solution of systems of simulta- simultaneous equations, Quart. Appl. Math., 18, 313—324. Китчен (Kitchen J.) [1966] Concerning the convergence of iterates to fixed points, Studia Math., 27, 247—249. Кифер (Kiefer J.) [1953] Sequential minimax search for a maximum, Proc. Amer. Math. Soc, 4, 503—506. [1957] Optimum sequential search and approximation methods under mini- minimum regularity assumptions, SIAM J. Appl. Math., 5, 105—136. Кляйнмихель (Kleinmichel H.) [1968] Stetige Analoga und Iterationsverfahren fur nichtlineare Gleichungen in Banachraumen, Math. Nachr., 37, 313—344. Ковалик, Осборн (Kowalik J., Osborne M.) [1968] Methods for unconstrained optimization problems, American Elsevier, New York. Коган Т. И, [1964a] Построение итерационных процессов высоких порядков для систем алгебраических и трансцендентных уравнений, Ж. вычисл. матем. и матем. физики, 4, 545—546. [19646] Построение итерационных процессов высоких порядков для систем алгебраических и трансцендентных уравнений, Научн. тр. Ташкент- Ташкентского ун-та, матем. н., 245, № 28, 37—46. [1964в] Модифицированный метод Ньютона для решения систем уравнений, Научн. тр. Ташкентского ун-та, матем. н., 265, № 29, 64—67. Кошелев А. И. [1962] О сходимости метода последовательных приближений для квазили- квазилинейных эллиптических уравнений, ДАН, 142, № 5, 1007—1011, Коллатц (Collatz L.) [1952] Aufgaben monotoner Art, Arch. Math., 3, 365—376. [1953] Einige Anwendungen functionalanalytischer Methoden in der prakti- schen Analysis, Z. Angew. Math. Phys., 4, 327—357. [1958] Naherungsverfahren hoherer Ordnung fur Gleichungen in Banach Rau- men, Arch. Rational Mech. Anal., 2, 66—75. [1960a] Application of the theory of monotonic operators to boundary value problems, сб. «Boundary problems in differential equations» (R. Lan- ger, ed.), Univ. of Wisconsin Press, Madison, Wisconsin, 35—45. [19606] The numerical treatment of differential equations, Springer — Verlag, Berlin. [1961] Monotonie und Extremal-prinzipen beim Newtonschen Verfahren, Nu* mer. Math., 3, 99—106. [1964] Функциональный анализ и вычислительная математика, «Мир», М., 1969.
Список литературы 519 [1965] Applications of functional analysis to error estimation, сб. «Error in digital computation. II» (L. Rail, ed.), Univ. Wisconsin Press, Madi- Madison, Wisconsin, 253—269. Колмогоров А. Н., Фомин С. В. [1954] Элементы теории функций и функционального анализа, вып. 1. Ме- Метрические и нормированные пространства, Изд. МГУ, М., 1954. Коломи (Kolomy J.) [1963] Contribution to the solution of nonlinear equations, Comment. Math. Univ. Carolinae, 4, 165—171. [1964] Remark to the solution of nonlinear functional equations in Banach spaces, Comment. Math. Univ. Carolinae, 5, 97—116. [1965] On the solution of functional equations with linear bounded opera- operators, Comment. Math. Univ. Carolinae, 6, 141—143. [1966] Some existence theorems for nonlinear problems, Comment. Math. Univ. Carolinae, 7, 207—217. [1967] Solution of nonlinear functional equations in linear normed spaces, Casopis Pest. Mat, 92, 125—132. [1968] On the differentiability of operators and convex functionals, Com- Comment. Math. Univ. Carolinae, 9, 441—454. Конкус (Concus P.) [1967a] Numerical solution of the nonlinear magnetostatic field equation in two dimensions, /. Computational Phys., 1, 330—342. [19676] Numerical solution of Plateau's problem, Math. Сотр., 21, 340—350. Коппель Х. [1966] О сходимости обобщенного метода Стеффенсена, И АН ЭССР, сер, физ.-матем. и техн. н., 15, 531—539. Корганов (Korganoff A.) [1961] Methodes de calcul numerique, vol. 1. Algebre nonlineaire, Dunod, Pa- Paris. Котце (Kotze W.) [1964] Iterative solution of equations in linear topological spaces, Ph. D. Diss., McGill Univ., Montreal, Canada. Коффман (Coffman C.) [1964] Asymptotic behavior of solutions of ordinary difference equations, Trans. Amer. Math. Soc, 110, 22—51. Коши (Cauchy A.) [1829] Sur la determination approximative des racines d'une equation algeb- rique ou transcendante, Euvre Complete (II), 4, 573—609, Gauthier — Villars, Paris, 1899. [1847] Methode generate pour la resolution des systems d'equations simulta- nes, С R., 25, 536—538. Кравчик (Krawczyk R.) [1966] Ober ein Verfahren zur Bestimmung eines Fixpunktes bei nichtlinea- ren Gleichungssystemen, Z. Angew. Math. Mech., 46, T67—69. Крайер (Сгуег С.) [1967] On the numerical solution of a quasi-linear equation, /. Assoc. Corn- put. Mach., И, 363—375. Красносельский М. A. [1954] Некоторые задачи нелинейного анализа, УМН, 9, № 3, 57—114. [1955] Два замечания о методе последовательных приближений, УМН, 10, № 1, 123—127. [1956] Топологические методы в теории нелинейных интегральных уравне- уравнений, Гостехиздат, М. [1962] Положительные решения операторных уравнений, Физматгиз, М. Красносельский М. А., Рутицкий Я* Б. [1961] О некоторых приближенных методах решения нелинейных оператор- операторных уравнений, основанных на линеаризации, ДАН, 141, 785—788.
520 Список литературы Кривонос Ю. М. [1968] О применении средних функций к решению уравнений, ДАН УССР, сер. А, 304—308 (на укр. яз.). Крокетт, Чернов (Crokett J., Chernoff H.) [1955] Gradient methods of maximization, Pacific J. Math., 5, 33—50. Кронекер (Kronecker L.) [1869] Ober Systeme von Funktionen mehrerer Variablen, Monatsb. Deutsch A cad. Wiss. Berlin, 159—193, 688—698. Кронин (Cronin J.)* [1964] Fixed points and topological degree in nonlinear analysis, Mathem. Surveys II, Am. Math. Soc, Providence, Rhode Island. Куан (Kwan C.) [1956] A remark on Newton's method for the solution of nonlinear functional equations, Advancement in Math., 2, 290—295. Куикен (Kuiken H.) [1968] Determination of the intersection points of two plane curves by means of differential equations, Comm. ACM, 11, 502—506. Кулик (Kulik S.) [1964] The solution of two simultaneous equations, Duke Math. J., 31, 119— 122. Кунцманн (Kuntzmann J.) [1959] Methodes numeriques interpolation derivees, Dunod, Paris. Kyo (Kuo M.) [1968] Solution of nonlinear equations, IEEE Trans. Сотр., 17, 897—898. Курпель Н. С. [1964] О некоторых приближенных методах решения нелинейных уравне- уравнений в координатном банаховом пространстве, Укр. матем. ж., 16, 115—120 (на укр. яз.). [1965] Сходимость и оценки погрешности некоторых общих итеративных методов решения операторных уравнений, ДАН УССР, 11, 1423—1427 (на укр. яз.). Курпель Н. С, Мигович Ф. М. [1968] Приближенное решение некоторых нелинейных операторных уравне- уравнений проективно-итерационным методом, ДАН УССР, сер. А, 13—16 (на укр. яз.). Кусакин И. А. [1965а] О сходимости некоторых методов приближенного решения опера- операторных уравнений, ДАН УССР, 7, 830—834 (на укр. яз.). [19656] О сходимости некоторых итерационных методов, Уч. зап. Азерб. ун-та, сер. физ.-матем. н., 6, 19—23. [1967] О сходимости метода хорд приближенного решения операторных уравнений, ДАН УССР, сер. А, 9, 786—790 (на укр. яз.). Кушнер (Kushner H.) [1968] On the numerical solution of degenerate linear and nonlinear ellip- elliptic boundary value problems, SIAM J. Numer. Anal, 5, 664—679- Кэннэн (Kannan R.) [1969] Some results on fixed points. II, Amer. Math. Monthly, 76, 405—408. Лаврентьев И. М. [1967] О разрешимости нелинейных уравнений, ДАН, 175, 1219—1222., Ладыженская О. А., Уральцева Н. Н. [1964] Линейные и квазилинейные уравнения эллиптического типа, «Наука», М, Ланглуа (Langlois W.) [1966] Conditions for termination of the method of steepest descent after a finite number of iterations, IBM J. Res. Develop., 10, 98—99. Ланс (Lance G.) [1959] Solution of algebraic and transcendental equations on automatic di- digital computer, /. Assoc, Сотр. Mach., 6, 97—101,
Список литературы 521 Лаптинский В. Н. [1965] Об одном методе последовательных приближений, ДАН БССР, 9, 219—220. Ластмэн (Lastman G.) [1968] A modified Newton's method for solving trajectory optimization prob- problems, AIAA J., 6, 777—780. Лаэй (Lahaye E.) [1934] Une methode de resolution d'une categorie d'equations transcendantes, С /?., 198, 1840-1842. [1935] Sur la representation des racines systemes d'equations transcendantes, Deuxieme Congres National des Sciences, 1, 141—146. [1948] Solution of systems of transcendental equation, Acad. Roy. Belg. Bull., Cl. Sci., 5, 805—822. Левенберг (Levenberg K.) [1944] A method for the solution of certain nonlinear problems in least squa- squares, Quart. Appl. Math., 2, 164—168. Леви (Levy M.) [1920] Sur les fonctions de lignes implicites, Bull. Soc. Math. France, 48, 13—27. Левин А. Ю. [1965] Об одном алгоритме минимизации выпуклых функций, ДАН, 160, 1244—1247. Левин А. Ю., Стрыгин В. В. [1962] О быстроте сходимости метода Ньютона — Канторовича, УМН, 17, № 3, 185—187. Лезанский (Lezanski Т.) [1967] Uber die Methode des «schnellsten Falles» fur das Minimumproblem von Functionalen in Hilbertschen Raurnen, Studia Math., 28, 183—192. Леон (Leon A.) [1966] A comparison among eight known optimizing procedures, сб. «Recent advances in optimization techniques» (A. Lavi and T. Vogl, eds.), Wi- Wiley, New York, 28—46. Лерэ (Leray J.) [1950] La theorie des points fixes et ses applications en analyse, Proc. Intern. Congr. Math. 1950, Am. Math. Soc, Providence, Rhode Island, 1952, 202. Лерэ, Шаудер (Leray J., Schauder J.) [1934] Topologie et equations fonctionelles, Ann. Sci. Ecode Norm. Sup., 51, 45-78. Ли Т. (LI Т.) [1934] Die Stabilitatsfrage bei Differenzengleichungen, Лс/а Math., 63,99—141. Ли Э. (Lee E.) [1968] Quasilinearisation and invariant imbedding, Academic Press, New York. Либерстейн (Lieberstein H.) [1959] Overrelaxation for nonlinear elliptic partial differential equations, Math. Res. Center Rept. 80, Univ. of Wisconsin, Madison, Wisconsin. [1960] A numerical test case for the nonlinear overrelaxation algorithm, Math. Res. Center Rept. 122, Univ. of Wisconsin, Madison, Wisconsin. Либль (Liebl P.) [1965] Einige Bemerkungen zur numerischen Stabilitat von Matrizeniteratio- nen, Apl. Mat., 10, 249—254. Лиз (Lees M.) [1966] Discrete methods for nonlinear two-point boundary value problems, сб. «Numerical solution of partial differential equations» (J. Bramble, ed.), Wiley, New York, 59—72. Лиз, Шульц (Lees M., Schultz M.) [1966] A Leray — Schauder principle for Л-compact mappings and the nume- numerical solution of two-point boundary value problems, «Numerical solu- solution of nonlinear differential equations» (D. Greenspan, ed.), Wiley, New York, 167—180.
522 Список литературы Лика Д. К. [1965] Один итерационный процесс для нелинейных функциональных урав- уравнений, сб. «Исследов. по алгебре и матем. анализу», Кишинев, 134—139, [1967] Принцип мажорант в некоторых итерационных процессах, Матем, исследования, 2, Кишинев, 26—44. Лин (Lin С.) [1962] On approximate methods of solution for a certain type of nonlinear differential equation, Chinese Math. Ada, 1, 374—379. Линьков Е. И. [1964a] О сходимости некоторых итерационных методов, Уч. зап. Мое. обл. пед. ин-та, Матем. ан., 150, № 9, 71—80. [19646] О сходимости метода типа наискорейшего спуска в пространстве Гильберта и в Lp, Уч. зап. Мое. обл. пед. ин-та, 150, 181—187. Лич (Leach E.) [1961] A note on inverse function theorems, Proc. Amer. Math. Soc., 12, 694— 697. Лор, Ролл (Lohr L., Rail L.) [1967] Efficient use of Newton's method, ICC Bull., 6, 99—103. Лоренц (Lorentz G.) [1953] Bernstein Polynomials, Univ. of Toronto Press, Toronto. Лоткин (Lotkin M.) [1955] The solution by iteration of nonlinear integral equations, /. Math, and Phys., 33, 346—355. Лумисте Ю. Г. [1955] Метод наискорейшего спуска при нелинейных уравнениях, Уч. зап. Тартуского ун-та, 37, 106—113. Лучка А. Ю. [1963] Теория и применение метода осреднения функциональных поправок, Изд. АН УССР, Киев. Лэви, Вогл (Lavi A., Vogl L.) [1966] (eds.) Recent advances in optimization techniques, Wiley, New York. Лэнгер (Langer R.) [I960] (ed.) Boundary problems in differential equations, Univ. of Wisconsin Press, Madison, Wisconsin. Лэнкастер (Lancaster P.) [1966] Error analysis for the Newton — Raphson method, Numer. Math., 9, 55—68. Любич Ю. И. [1966] О скорости сходимости стационарной градиентной релаксации, Ж- вычисл. матем. и матем. физики, 6, 356—360. [1968] О сходимости процесса наискорейшего спуска, ДАН, 179, № 5, 1054—1056. Любченко И. С [1961] Приближенное решение краевой задачи для нелинейного обыкновен- обыкновенного дифференциального уравнения второго порядка с малым пара- параметром при старшей производной на основе метода Ньютона, ДАН, 138, 39—42. Людвиг (Ludwig R.) [1952] Verbesserung einer Iterationsfolge bei Gleichungssystemen, Z. Angew. Math. Mech., 32, 232—234. [1954] Uber Iterationsverfahren fur Gleichungen und Gleichungssystemen. I, II, Z. Angew. Math. Mech., 34, 210—225, 404—416. Люксембург (Luxemburg W.) [1958] On the convergence of successive approximations in the theory of or- ordinary differential equations I—III: (I) Canad. Math. Bull., 1, 9—20; (II) Nederl. Acad. Wetensch. Proc, ser. A 61 (Indag. Math.), 20, 540- 546; (III) Nieuw Arch. Wisk. C), 6, 93—98,
Список литературы 523 Лященко Н. Я. [1963] О численном решении нелинейных интегральных уравнений, ДАН УССР, 9, 1139—1144 (на укр. яз.). [1964] О численном решении одного класса нелинейных интегро-дифферен- циальных уравнений, ДАН УССР, 1, 3—7 (на укр. яз.). Мадорский В. М. [1967] Об одном варианте метода спуска для решения нелинейных функцио- функциональных уравнений, ИАН БССР, сер. физ.-матем. н., 3, 121—124. Маергойз Л. С. [1967] Об одном методе решения систем нелинейных алгебраических и транс- трансцендентных уравнений, Ж. вычисл. матем. и матем. физики, 7,869—874. Майерс (Myers G.) [1968] Properties of the conjugate gradient und Davidon methods, /. Optimi- Optimization Theory AppL, 2, 209—219. Майстровский Г. Д. [1967] Локальная теория релаксации для нелинейных уравнений, ДАН, 177, 37—39. Мак-Аллистер (McAllister G.) [1964] Some nonlinear elliptic partial differential equations and difference equations, SIAM J. AppL Math., 12, 772—777. [1966a] Quasilinear uniformly elliptic partial differential equations and diffe- difference equations, SIAM J. Numer. Anal., 3, 13—33. [19666] Difference methods for a nonlinear elliptic system of partial differen- differential equations, Quart. AppL Math., 23, 355—360. Мак-Гилл, Кеннет (McGill R., Kenneth P.) [1964] Solution of variational problems by means of a generalised Newton — Raphson operator, AIAA J., 2, 1761—1766. [Русский перевод: Решение вариационных задач с помощью обобщенного оператора Ньютона — Рафсона, Ракетная техника и космонавтика, 10 A964), 112—119.] Мамедов А. М. [1965] О приближенном решении нелинейных интегральных уравнений, ИАН АзССР, сер. физ.-техн. и матем. н., 3, 41—48. Мангасарян (Mangasarian О.) [1965] Pseudo-convex functions, SIAM J. Control, 3, 281—290. Мансино (Mancitio О.) [1967] Resolution by iteration of some nonlinear systems, /. Assoc. Comput. Mach., 14, 341—350. Маркардт (Marquardt D.) [1963] An algorithm for least squares estimation of nonlinear parameters, SIAM J. AppL Math., 11, 431—441. Мартош (Martos B.) [1967] Quasi-convexity and quasi-monotonicity in nonlinear programming, Studia Sci. Math. Hungar., 2, 265—273. Марчук Г. И., Кузнецов Ю. А. [1968] К вопросу об оптимальных итерационных процессах, ДАН, 181, 1331. Марчук Г. И., Сарбасов К. [1968] Об одном методе решения стационарной задачи, ДАН, 182, 42—45. Маслова Н. Б. [1968] Об одном методе решения релаксационных уравнений, ДАН, 182, 760—763. Матвеев В. А. [1964) Метод приближенного решения систем нелинейных уравнений, Ж- вычисл. матем. и матем. физики, 4, 983—994. Мейер (Meyer G.) [1968] On solving nonlinear equations with a one-parameter operator imbed- imbedding, SIAM J. Numer. Anal., 5, 739—752. Мейерс (Meyers P.) П965] Some extensions of Banach's contraction theorem. /. Res. Nat. Bur. Standards, sect. В, 69В, 179—185,
524 Список литературы [1967] A converse to Banach's contraction theorem, J. Res. Nat. Bur. Stan- Standards, sect. В, 71В, 73—76. Мейнардус (Meinardus G.) [1964] Approximation von Funktionen und ihre numerische Behandlung, Springer — Verlag, Berlin. Мелон (Melon S.) [1962] On nonlinear numerical iteration processes, Comment. Math. Univ. Ca- rolinae, 3, 14—22. Мертвецова М. A. [1953] Аналог процесса касательных гипербол для общих функциональных уравнений, ДАН, 88, 611—614. Минковский (Minkovski H.) [1892] Theorie der konvexen Кбгрег, insbesondere Begriindung ihres Oberfla- chenbegriffs, Gessammelte Abhandlungen, 2, Teubner, Leipzig, 1911, 131—229. Минти (Minty G.) [1962] Monotone (nonlinear) operators in Hilbert space, Duke Math. J., 29, 341—346. [1963] Two theorems on nonlinear functional eguations in Hilbert space, Bull. Amer. Math. Soc, 69, 691—692. [1964] On the monotonicity of the gradient of a convex function, Pacific J. Math., 14, 243—247. [1965] A theorem on maximal monotonic sets in Hilbert space, /. Math. Anal. Appl., 11, 434—440. [1967] On the generalization of a direct method of calculus of variations, Bull. Amer. Math. Soc.t 73, 315—321. Мираков В. Е. [1957] Принцип мажорант и метод касательных парабол для нелинейных функциональных уравнений, ДАН, 113, 977—979. Митер (Meeter D.) [1966] On a theorem used in nonlinear least squares, SIAM J. Appl. Math., 14, 1176-1179. Михлин С. Г. [1957] Вариационные методы в математической физике, ГИТТЛ, М. Мозер (Moser J.) [1966] A rapidly convergent iteration method and nonlinear partial differen- differential equations. I, II, Ann. Scuola Norm. Sup. Pisa, 20, 265—315, 499— 535. Мозес (Moses J.) [1955] Solution of systems of polynomial equations by elimination, Comm. ACM, 9, 634—637. Морозов В. А. [1966] О решении функциональных уравнений методом регуляризации, ДАН, 167, 510—512. Моррисон (Morrison D.) [1962] Multiple shooting method for two-point boundary value problems, Comm. ACM, 5, 613—614. Моцкин, Вазов (Motzkin Т., Wasow W.) [1953] On the approximation of linear elliptic differential equations with po- positive coefficients, /. Math, and Phys., 31, 253—259. Мошыньский (Moszynski K.) [1965] The Newton's method for finding an approximate solution to an eigen- eigenvalue problem of ordinary linear differential equations, Algorytmy, 3, 7—33. Мур Дж. (Moore J.) [1967] A convergent algorithm for solving polynomiai equations, /. Assoc. Comput. Mach., 14, 311—315.
Список литературы 525 Мур P. (Moore R. Н.) [1964] Newton's method and variations, сб. «Nonlinear integral equations» (P. Anselone, ed.), Univ. of Wisconsin Press, Madison, Wisconsin, 65—98. [1966] Differentiability and convergence for compact nonlinear operators, /. Math. Anal. AppL, 16, 65—72. [1968] Approximations to nonlinear operator equations and Newton's method, Numer. Math., 12, 23—34. Мысовских И. П. [1949] К вопросу о сходимости метода Ньютона, Труды Матем. ин-та АН СССР, 28, 145—147. [1950] О сходимости метода Канторовича решения функциональных урав- уравнений и его применениях, ДАН, 70, 565—568. [1953] О сходимости метода Л. В. Канторовича для решения нелинейных функ- функциональных уравнений и его применениях, Вестник ЛГУ, 11,25—48. [1963] Оценка ошибки численного решения нелинейного интегрального уравнения, ДАН, 153, 30—33. Мыор (Muir Т.) [1933] A treatise on the theory of determinants, Longman, Green, and Co., New York; republished by Dover, New York, 1960. Мэддисон (Maddison R.) [1966] A procedure for nonlinear least squares refinement in adverse practi- practical conditions, /. Assoc. Comput. Mach., 13, 124—134. Нагумо (Nagumo M.) [1951] A theory of degree of mappings based on infinitesimal analysis, Amer. J. Math., 73, 485—496. Нашед (Nashed M.) [1964] The convergence of the method of steepest descents for nonlinear equa- equations with variational or quasi-variational operators, /. Math. Mech., 13, 765—794. [1965] On general iterative methods for the solutions of a class of nonlinear operator equations, Math. Сотр., 19, 14—24. [1967] Supportably and weakly convex functional with applications to app- approximation theory and nonlinear programming, /. Math. Anal. AppL, 18, 504—521. Нел дер, Мид (Nelder J., Mead R.) [1965] A simplex method for function minimization, Comput. J., 7, 308. Немыцкий В. В. [1960] Об одном методе разыскания всех решений нелинейных операторных уравнений, ДАН, 130, 746—747. Нечепуренко М. И. [1954] О методе Чебышёва для функциональных уравнений, УМН, 9, № 2, 163—170. Николовиус (Nicolovius R.) [1956] Das Extrapolations-Verfahren von J. Albrecht fur nichtlineare Aufga- ben, Z. Angew. Math. Mech., 45, 65—67. Никула (Nicula A.) [1963] The method of successive approximation in solving systems of equa- equations, Bui. Sti. Inst. Politehn. Cluj, 6, 43—48. Нилл (Knill R.) [1965] Fixed points of uniform contractions, /. Math. Anal. AppL, 12, 449— 456. Нобл (Noble B.) [1964] The numerical solution of nonlinear integral equations and related topics, сб. «Nonlinear integral equations» (P. Anselone, ed.), Univ. of Wisconsin Press, Madison, Wisconsin, 215—318. Ньюмэн (Newman D>) [1965] Location of the maximum on unimodal surfaces, J. Assoc. Comput. Mach., 12, 395—398,
526 Список литературы Оверхол (Overholt К.) [1965] An instability in the Fibonacci and golden section search methods, BIT, 5, 284—286. Опяль (Opial Z.) [1967a] Lecture notes on nonexpansive and monotone mappings in Banach spaces, Div. of Appl. Math. Lecture Notes 67-1, Brown Univ., Provi- Providence, Rhode Island. [19676] Weak convergence of the sequence of successive approximations for nonexpansive mappings, Bull. Amer. Math. Soc, 73, 591—597. Ортега (Ortega J.) [1967] Notes on Newton and secant methods in n dimensions, Tech. Note, IBM Federal Systems Div., Bethesda, Maryland. [1968] The Newton — Kantorovich theorem, Amer. Math. Monthly, 75, 658— 660. Ортега, Рейнболдт (Ortega J., Rheinboldt W.) [1966] On discretization and differentiation of operators with application to Newton's method, SI AM J. Numer. Anal, 3, 143—156. [1967a] Monotone iterations for nonlinear equations with application to Gauss — Seidel methods, SIAM J. Numer. Anal., 4, 171—190. [19676] On a class of approximate iterative processes, Arch. Rational Mech. Anal., 23, 352—365. [1970a] Local and global convergence of generalized linear iterations, сб. «Nu- «Numerical solution of nonlinear problems» (J. Ortega and W. Rheinboldt, eds.), Soc. Ind. Appl. Math., Philadelphia, Pennsylvania, 122—143. [19706] (eds.) Numerical solution of nonlinear problems, Studies in numerical analysis. II, Soc. Ind. Appl. Math., Philadelphia, Pennsylvania. Ортега, Рокофф (Ortega J., Rockoff M.) [1966] Nonlinear difference equations and Gauss — Seidel type iterative met- methods, SIAM J. Numer. Anal., 3, 497—513. Островский (Ostrowski A.) [1936] Konvergenzdiskussion und Fehlerabschatzung fur die Newton'sche Me- thode bei Gleichungssystemen, Comment. Math. Helv., 9, 79—103, 1936/37. [1957] Les points d'attraction et de reppultion pour l'iteration dans Fespace a n dimensions, С R., 244, 288—289. [1960] Решение уравнений и систем уравнений, ИЛ, М., 1963. [1967а] Contributions to the theory of steepest descent, Arch. Rational Mech. Anal., 26, 257—280. [19676] General existence criteria for the inverse of an operator, Amer. Math. Monthly, 74, 826—827. [1967b] The round-off stability of iterations, Z. Angew. Math. Mech., 47, 77—82. Панов А. М. [1959] О поведении решений системы разностных уравнений вблизи непо- * движной точки, Изв. вузов, Математика, № 5, 174—183. [1960] Качественное исследование траекторий разностных уравнений в окрест- окрестности неподвижной точки, Изв. вузов, Математика, № 1, 166—174. [1964] Качественное поведение траекторий системы разностных уравнений в окрестности особой точки, Изв. вузов, Математика, № 3, 111—115. Пармет, Сайбел (Parmet I., Saibel E.) [1968] The Newton — Raphson approximation applied to the Navier — Sto- Stokes equations with application to the base flow problem, Z. Angew. Math. Mech., 48, 1—11. Партер (Parter S.)« [1965] Mildly nonlinear elliptic partial differential equations and their nume- numerical solution. Numer. Math., 7, 113—128. Пауэлл (Powell M.) [1962] An iterative method for finding stationary values of a function of se- several variables, Comput. /., 5, 147—151.
Список литературы 527 [1964] An efficient method for finding the minimum of a function of several variables without calculating derivatives, Comput. /., 7, 155—162. [1965] A method for minimizing a sum of squares of nonlinear functions without calculating derivatives, Comput. /., 7, 303—307. [1966] Minimization of functions of several variables, сб. «Numerical analysis, an introduction» (J. Walsh, ed.), Academic Press, New York, 143—157. [1968] On the calculation of orthogonal vectors, Comput. J., 11, 302—304. Пенроуз (Penrose R.) [1955] A generalized inverse for matrices, Proc. Cambridge Philos. Soc, 51, 406—413. Перейра (Pereyra V.) [1967a] Iterative methods for solving nonlinear least square problems, SIAM J. Numer. Anal, 4, 27—36. [19676] Accelerating the convergence of discretization algorithms, SIAM /. Numer. Anal., 4, 508—533. Перрон (Perron O.) [1929] Uber Stabilitat und asymptotisches Verhalten der Losungen eines Systems endlicher Differenzengleichungen, /. Reine Angew. Math., 161, 41—64. Петжиковский (Pietrzykowski T.) [1963] On a certain class of iteration methods for nonlinear equations, Algo- rytmy, 1, 21—27. Петри (Petry W.) [1965] Das Iterationsverfahren zum Losen von Randwertproblemen gewohnli- cher, nichtlinearer Differentialgleichungen zweiter Ordnung, Math. Z., 87, 323—333. Петришин (Petryshyn W.) [1966a] On nonlinear P-compact operators in Banach space with applications to contructive fixed-point theorems, /. Math. Anal. Appl., 15, 228—242. [19666] On the extension and solution of nonlinear operator equations, Illi- Illinois J. Math., 10, 255—274. [1967a] Remarks on fixed point theorems and their extensions, Trans. Amer. Math. Soc, 126, 43—54. [19676] Projection methods in nonlinear numerical functional analysis, /. Math. Mech., 17, 353-372. [1968a] On the approximation-solvability of nonlinear equations, Math. Ann.y 177, 156—164. [19686] On the iteration, projection, and projection-iteration methods in the solution of nonlinear functional equations, J. Math. Anal. Appl., 21, 575—607. Петяну (Peteanu V.) [1964] Simultaneous equation for wich the iterative process is convergent, Ma- thematica (Cluj), 29, 101—104. [1965] Sur le mode de convergence d'un proces iteratif, Mathematica (Cluj), 30, 67—70. Писмэн, Рэкфорд (Peaceman D., Rachford H.) [1955] The numerical solution of parabolic and elliptic differential equations, SIAM J. Appl Math., 3, 28—41. Полль В. [1967a] О некоторых методах нахождения стационарных точек функций не- нескольких переменных, ИАН ЭССР, физика, математика, 16, 35—44. [19676] О сходимости некоторых методов нахождения стационарных точек функций нескольких переменных, ИАН ЭССР, физика, математика, 16, 157—167. [1967в] К методам нахождения стационарных точек, ИАН ЭССР, физика, математика, 16, 382—384. Поляк Б. Т. [1963] Градиентные методы минимизации функционалов, Ж- вычисл. матем. и матем. физики, 3, 643—654.
528 Список литературы [1964а] О некоторых способах ускорения сходимости итерационных методов, Ж. вычисл. матем. и матем. физики, 4, 791—803. [19646] Градиентные методы решения уравнений и неравенств, Ж. вычисл. матем. и матем. физики, 4, 995—1005. [1966] Теоремы существования и сходимость минимизирующих последова- последовательностей для задач на экстремум при наличии ограничений, ДАН, 166, 287—290. [1967] Один общий метод решения экстремальных задач, ДАН, 174, 33—36. Понстейн (Ponstein J.) [1967] Seven kinds of convexity, SI AM Rev., 9, 115—119. Поршинг (Porsching T.) [1969] Jacobi and Gauss — Seidel methods for nonlinear network problems, SI AM J. Numer. Anal., 6, 437—449. Прагер, Витасек (Prager M., Vitasek E.) [1963] Stability of numerical processes, сб. «Differential equations and their applications», Academic Press, New York, 123—130. Прайс (Price H.) [1968] Monotone and oscillation matrices applied to finite difference appro- approximations, Math. Сотр., 22, 489—516. Пугачев Б. П. [1962а] Об ускорении сходимости итеративных процессов второй степени, Ж. вычисл. матем. и матем. физики, 2, 703—705. [19626] Замечания по обоснованию некоторых итерационных процессов, Ж. вычисл. матем. и матем. физики, 2, 912—915. Радемахер (Rademacher H.) [1922] Ober eine funktionale Ungleichung in der Theorie der konvexen Kor- per, Math. Z., 13, 18—27. Радо (Rado T.) [1951] On the problem of Plateau, Chelsea, New York. Райе (Rice J.) [1969] Minimization and techniques in nonlinear approximation, сб. «Nume- «Numerical solution of nonlinear problems» (J. Ortega, W. Rheinboldt, eds.), Soc. Ind. Appl. Math., Philadelphia, Pennsylvania, 80—98. Ребок (Pehbock F.) [1942] Zur Kon\ergenz des Newtonschen Verfahrens fur Gleichungssysteme, Z. Angew. Math. Mech., 22, 361—362. Рейнболдт (Rheinboldt W.) [1968] A unified convergence theory for a class of iterative processes, SI AM J. Numer. Anal., 5, 42—63. [1969a] Local mapping relations and global implicit function theorems, Trans. Amer. Math. Soc, 138, 183—198. [19696] On M-function and their application to nonlinear Gauss — Seidel ite- iterations and to network flows, Geselschaft fur Mathematik und Daten- verarbeiterung m. b. H., Tech. Rept. 22, Birlinghoven, Germany; так- также /. Math. Anal Appl, 32 A970), № 2, 274—307. Роберте, Шипмэн (Roberts S., Shipman J.) [1966] The Kantorovich theorem and two-point boundary value problems, IBM J. Res. Develop., 10, 402—406. [1967a] Some results in two-point boundary value problems, IBM J. Res. De- Develop., 11, 383—388. [19676] Continuation in shooting methods for two-point boundary value prob- problems, /. Math. Anal. Appl, 18, 45—58. [1968] Justification for the continuation method in two-point boundary value problems, /. Math. Anal Appl, 21, 23—30. Роберте, Шипмэн, Рот (Roberts S,, Shipman J., Roth C)
Список литературы 529 [1968] Continuation in quasi-linearization, J. Optimization Theory Appl.t 2, 157—163. Робинсон (Robinson S.) [1966] Interpolate solution of systems of nonlinear equations, SIAM J. Numer. Anal., 3, 650—658. Розенблум (Rosenbloom P.) [1956] The method of steepest descent, Sixth Symp. Appl. Math., Am. Math. Soc, Providence, Rhode Island, 127—176. Розенброк (Rosenbrock H.) [1960] An automatic method for finding the greatest or least value of a function, Comput. J., 3, 175—184. Рокафеллар (Rock af el la г R.) [1967] Monotone processes of convex and concave type, Math. Mem., 77, Am. Math. Soc, Providence, Rhode Island. Ролл (Rail L.) [1961a] Quadratic equations in Banach spaces, Rend. Circ. Mat. Palermo^ 10, 314—332. [19616] Newton's method for the characteristic value problem Ax = XBx, SIAM J. Appl. Math., 9, 288—293. [1965] (ed.) Errors in digital computation, vol. II, Wiley, New York. [1966] Convergence of the Newton process to multiple solutions, Numer. Math.j 9, 23—37. [1969] Computational solution of nonlinear operator equations, Wiley, New York. Роте (Rothe E.) [1937] Zur Theorie der topologischen Ordnung und der Vectorfelder in Banach- schen Raumen, Composito Math., 5, 177—197. Рунге (RungeC.) [1899] Separation und Approximation der Wurzeln von Gleichungen, Enzykl. d. Mathem. Wissensch., vol. 1, Teubner, Leipzig, 405—449. Саати (Saaty T.) [1967] Modern nonlinear equations, McGraw-Hill, New York. Савенко С. С. [1964] Об одном итерационном методе решения алгебраических и трансцендент- трансцендентных уравнений, Ж. вычисл. матем. и матем. физики, 4, 738—744. Сапаговас М. П. [1965] К вопросу о решении квазилинейных эллиптических уравнений методом конечных разностей, Литое, матем. сб., 5, 637—644. Сарантонелло (Zarantonello E.) [1960] Solving functional equations by contractive averaging, Math. Res. Center Rept. 160, Univ. of Wisconsin, Madison, Wisconsin. [1964] The closure of the numerical range contains the spectrum, Bull. Amer. Math. Soc, 70, 781—787. [1967] The closure of the numerical range contains the spectrum, Pacific J. Math., 22, 575—595. Сард (Sard A.) [1942] The measure of the critical values of differentiable maps, Bull. Amer. Math, Soc, 48, 883—890. Саугвелл (Southwell R.) [1946] Relaxation methods in theoretical physics, Oxford Univ. Press (Claren- (Clarendon), London and New York. Сванн (Swann W.) [1964] Report on the development of a new direct searching method of optimi- optimization, Research Note, I. C. I. Ltd. Седа (Seda V.) [1968] A remark to quasi-linearization, J. Math. Anal. Appl., 23, 130—138. Сен (Sen R.) [1966] A modification of the Newton — Kantorovich method, Mathematica (Cluj), 31, 155—161.
530 Список литературы Сергеев А. С. [1961] О методе хорд, Сиб. машем, ж., 2, 282—289. Сиарле (Ciarlet P.) [1966] Variational methods for nonlinear boundary value problems, Ph. D. Diss., Case Inst. of Techn., Cleveland, Ohio. Сиарле, Шульц, Варга (Ciarlet P., Schultz M., Varga R.) [1967] Numerical methods of high order accuracy for nonlinear boundary value problems, 1, Nutner. Math., 9, 394—430. Силвестер, Мейер (Sylvester R., Meyer F.) [1965] Two-point boundary problems by quasilinearization, SI AM J. Appl. Math., 13, 586—602. Симеонов С. В. [1961] Об одном процессе последовательных приближений и его применении для решения функциональных уравнений с нелинейными операторами монотонного типа, ДАН, 138, 1033—1034. [1963] О применении одного процесса последовательных приближений к ре- решению некоторых типов функциональных уравнений, ДАН, 148, 534—537. Симпсон (Simpson R.) [1968] Approximation of the minimizing element for a class of functional, SI AM J. Numer. Anal, 5, 26—41. Скарф (Scarf H.) [1967] The approximation of fixed points of a continuous mapping, SI AM /. Appl. Math., 15, 1328—1343. Слугин С. Н. [1955] Приближенное решение операторных уравнений на основе метода С. А. Чаплыгина, ДАН, 103, 565—568. [1956] Неограниченно применимый метод типа С. А. Чаплыгина для обык- обыкновенных дифференциальных уравнений /1-го порядка, ДАН, ПО, 936—939. [1957] Итерационный~метод односторонних приближений решения оператор- операторных уравнений, И АН, сер. матем., 21, 117—124. [1958а] К теории методов Ньютона и Чаплыгина, ДАН, 120, 472—474. [19586] Видоизменение абстрактного аналога метода Чаплыгина, ДАН, 120, 256—258. [1958в] Некоторые применения методов двусторонних приближений, Изв. вузов, Математика, 6, 244—256. Смит (Smith R.) [1966] Sufficient conditons for stability of a solution of difference equations, Duke, Math. J.t 33, 725—734. Спиридонов В. [1968] О применении градиентного релаксационного метода для решения си- систем нелинейных уравнений, Ж. вычисл. матем. и матем. физики, 8, 872—873. Спэнг (Spang H.) [1962] A review of minimization techniques for nonlinear functions, SIAM Rev., 4, 343—365. Стейн (Stein M.) [1952] Sufficient conditions for the convergence of Newton's method in complex Banach spaces, Proc. Amer. Math. Soc, 3, 858—863; 13 A962), 1000. Степлмэн (Stepleman R.) [1969] Finite dimensional analogues of variational and quasilinear elliptic Di* richlet problems, Ph. D. Diss. Univ. of Maryland, College Park, Mary- Maryland.
Список литературы 531 Стеффенсен (Steffensen J.) [1933] Remarks on iteration, Skand. Aktuarietidskr., 16, 64—72. Стеценко В. Я. [1968] Об одном методе ускорения сходимости итерационных процессов, ДАН, 178, 1021—1024. Стьюарт (Stewart G.) [1967] A modification of Davidon's minimization method to accept difference approximations of derivatives, J. Assoc. Comput. Mack., 14, 72—83. Такахаси (Takahashi I.) [1965] A note on the conjugate gradient method, Information Processing in Japan, 5, 45—49. Такота (Takota M.) [1966] A numerical method for boundary value problems of nonlinear ordinary differential equations, Information Processing in Japan, 6, 16—23. Тамме Э. 3. [1958] Об одном классе сходящихся итерационных методов, Изв. вузов, Мате- Математика, 5, 115—121. Тамме Э. Э., Хейнла Л. Э. [1959] О приближенном решении операторных уравнений, зависящих от пара- параметра, Изв. вузов, Математика, 3, 229—232. Талия (Tapia R.) [1967] A generalisation of Newton's method with application to the Euler — Lag- range equation, Ph. D. Diss., Univ. of California, Los Angeles, Califor- California. Тейлор (Taylor A.) [1958] Introduction to functional analysis, Wiley, New York. Темпл (Temple G.) [1939] The general theory of relaxation methods applied to linear systems, Proc. Roy. Soc, ser. A, 169, 476—500. Tojw(Todd J.) [1962] (ed.) Survey of numerical analysis, McGraw-Hill, New York. Торнхейм (Tornheim L.) [1963] Convergence in nonlinear regression, Technometrics, 5, 513—514. [1964] Convergence of multipoint iterative methods, J. Assoc. Comput, Mach., 11, 210—220. Трауб (Traub J.) [1964] Iterative methods for the solution of equations, Prentice Hall, Englewood Cliffs, New Jersey. Тэрнер (Turner L.) [1960] Solution of nonlinear systems, Ann. New York Acad. Sci., 86, 817—827. Тэрстон (Thurston G.) [1965] Newton's method applied to problems in nonlinear mechanics, Trans. ASME, ser. E, J. Appl. Mech., 32, 383—388. Уайлд (Wilde D.) [1964] Optimum seeking methods, Prentice Hall, Englewood Cliffs, New York. [1965] A multi-variable dichotomous optimum seeking method, IEEE Trans. Automatic Control AC-10, 85—87. [1966] Objective function indistinguishability in unimodal optimization, сб. «Recent advances in optimization techniques» (A. Lavi and T. Vogl, eds.), Wiley, New York, 341—349. Уайлд, Бейтлер (Wilde D., Beightler C.) [1967] Foundation of optimization, Prentice Hall, Englewood Cliffs, New Jer- Jersey. Уайтсайд (Whiteside D.) [1961] Patterns of mathematical thought in the latter seventeenth century, Arch. History Exact Sci., 1, 179—388; изложение истории метода Ньютона — Рафсона см. на стр. 207. 18*
532 Список литературы Уилкинсон (Wilkinson J.) [1963] Rounding errors in algebraic processes, Prentice Hall, Englewood Cliffs, New Jersey. [1965] Алгебраическая проблема собственных значений, «Наука», М., 1970. Уиллерс (Willers F.) [1938] Zur Konvergenz des Newtonschen Naherungsverfahrens, Z. Angew. Math. Mech.,18, 197—200. Уинслоу (Winslow A.) [1966] Numerical solution of the quasilinear Poisson equation in nonuniform triangle mesh, J. Computational Phys., 1, 149—172. Ульм С. [1956] О сходимости некоторых итерационных процессов в пространстве Ба- Банаха, Учен. зап. Тартуского ун-та, 42, 135—142. [1963а] Об одном классе итерационных методов в пространстве Гильберта, ИАН ЭССР, сер. физ.-матем. и техн. н., 12, 132—140. [19636] Об итеративных методах решения нелинейного уравнения, основанного на линеаризации при помощи интерполяционной формулы Ньютона, ИАН ЭССР, сер. физ.-матем. и техн. н., 12, 384—390. [1964а] Принцип мажорант и метод хорд, ИАН ЭССР, сер. физ.-матем. и техн. н., 13, 217—227. . ~1 [19646] Итерационные методы с разделенными разностями второго порядка, ДАН, 158, 56-58. [1964в] Обобщение метода Стеффенсена для решения нелинейных операторных уравнений, Ж- вычисл. матем. и матем. физики, 4§ 1093—1097. [1965а] Алгоритмы обобщенного метода Стеффенсена, ИАН ЭССР, сер. физ.- матем. и техн. н., 14, 435—443. [19656] О классе итерационных методов со скоростью сходимости третьего порядка, ИАН ЭССР, сер. физ.-матем. и техн. н., 14, 534—539. [1967а] Об обобщенных разделенных разностях. I, II, ИАН ЭССР, физика, математика, 16, 13—26, 146—156. [19676] Об итерационных методах с последовательной аппроксимацией обратного оператора, ИАН ЭССР, физика, математика, 16, 403—411. Ульм С, Полль В. [1968] О некоторых методах решения задач на минимум, ИАН ЭССР, сер. физ., матем., 17, 151—163. Уолл (Wall D.) [1956] The order of an iteration formula, Math. Сотр., 10, 167—168. Уолш (Walsh J.) [1966] (ed.) Numerical analysis, an introduction, Academic Press, New)-York. Урабе (Urabe M.) [1956] Convergence of numerical iteration in solution of equations, J. Sci. Hiro- Hiroshima Univ. Ser. A-I Math., 19, 479—489. [1962] Error estimation in numerical solution of equations by iteration process, J. Sci. Hiroshima Univ., Ser. A-I Math., 26, 77—91. Уэллс (Wells M.) [1965] Function minimization, Comm. ACM, 8, 169—170. Фаддеев Д. К., Фаддеева В. Н. [1960] Вычислительные методы линейной алгебры, Физматгиз, М. Файн (Fine H.) [1916] On Newton's method of approximation, Proc. Nat. Acad. Sci.s USA, 2, 546—552. Федер (Feder D.) [1966] Lens design viewed as an optimization problem, сб. «Recent advances in optimization techniques» (A. Lavi and T. Vogl, ed.), Wiley, New York, 5—21. Фельдман И. А. [1966] Несколько замечаний о сходимости метода последовательных прибди- w жений, ИАН МССР> 4, 94-96.
Список литературы 533 Фельдстейн, Файерстоун (Feldstein A., Firestone R.) [1967] Hermite interpolatory iteration theory and parallel numerical analysis, Div. Appl. Math. Report, Brown Univ., Providence, Rhode Island., Фенхель (Fenchel W.) \ [1953] Convex cones, sets, and functions, Dept. of Math. Report, Princeton Univ., Princeton, New Jersey. Феньё (Fenyo I.) [1954] Uber die Losung der Banachschen Raume definierten nichtlinearen Glei- chungen, Ada Math. Acad. Sci. Hungar., 5, 85—93. Фиакко, Мак-Кормик (Fiacco A., McCormic G.) [1968] Нелинейное программирование, «Мир», М., 1972. Фигейредо, де (de Figueiredo D.) [1967] Topics in nonlinear functional analysis, lnst. Fluid Dyn. and Appl. Math., Lecture Series, 48, Univ. of Maryland, College Park, Maryland. Фикен (Ficken F.) [1951] The continuation method for functional equations, Comm. Pure Appl. Math., 4, 435—456. Филиппи (Filippi S.) [1967] Untersuchungen zur numerischen Losung von nichtlinearen Gleichungs- systemen mit Hilfe der LIE-Reihen von W. Grobner, Elektron. Daten- verarbeiterung, 9, 75—79. Филиппи, Глазмахер (Filippi S., Glasmacher W.) [1967] Zum Verfahren von Davidenko, Elektron. Datenverarbeiterungj 9, 55—58. Флад, Леон (Flood M., Leon A.) [1966*1 A universal adaptive code for optimization (GROPE), сб. «Recent ad- advances in optimization techniques» (A. Lavi and T. Vogl, ed.), Wiley, New York, 101—130. Флеминг (Fleming W.) [1965] Functions of several variables, Addison — Wesley, Reading, Massachu- Massachusetts. Флетчер (Fletcher R.) [1965] Function minimization without evaluating derivatives; a review, Comput J.x 8, 33—41. [1968] Generalized inverse methods for the best least squares solution of systems of nonlinear equations, Comput. J.t 10, 392—399. Флетчер, Пауэлл (Fletcher R., Powell M.) [1963] A rapidly convergent descent method for minimization, Comput. J.t 6, 163—168. Флетчер, Ривс (Fletcher R., Reeves C.) [1964] Function minimization by conjugate gradients, Comput. J.t 7, 149— 154. Фокс (Fox L.) [1957] Numerical solution of two-point boundary value problems, Oxford Univ. Press (Clarendon), London and New York. [1962] (ed.) Numerical solution of ordinary and partial differential equations, Addison — Wesley, Reading, Massachusetts. Форсайт, Вазов (Forsythe G., Wasow W.) [1960] Разностные методы решения дифференциальных уравнений в частных производных, ИЛ, М. Форстер (Forster P.) [1967] Existenzaussagen und Fehlerabschatzungen bei gewissen nichtlinearen Randwertaufgaben mit gewohnlichen Differentialgleichungen, Numer. Math., 10, 410—422. Фрей (Frey T.) [1967] Fixpunktsatze fur Iterationen mit veranderlichen Operatoren, Studia Sci. Math. Hungar.t 2, 91—114. Фрейденстейн, Рот (Freudenstein F., Roth B.)/
534 Список литературы [1963] Numerical solution of systems of nonlinear equations, J. Assoc. Comput i Mach., 10, 550—556. Фреше (Frechet M.) [1925] La notion de differentielle dans Panalyse generate, Ann. Sci. Ecole Norm. Sup., 42, 293—323. Фридман В. М. [1961] Итеративный процесс с минимальными ошибками для нелинейного опе- операторного уравнения, ДАН, 139, 1063—1066. Фридрих Ф. [1966] Об одном видоизменении методов Ньютона и градиентного для решения нелинейных функциональных уравнений, сб. «Методы вычисл.», 3, Л., 22-29. Фрэнк (Frank Т.) [1967] Error bounds on numerical solutions of Dirichlet problems for quasilinear equations, Los Alamos Rept. LA-3685, Los Alamos, New Mexico. Фудзии (Fujii M.) [1963] Remarks on accelerated iterative processes for numerical solution of equa- equations, У. Sci. Hiroshima Univ., ser. A-I Math., 27, 97—118. Хаббард (Hubbard B.) [1966] Remarks on the order of convergence in the discrete Dirichlet problem, сб. «Numerical solution of partial differential equations» (J. Bramble, ed.), Academic Press, New York, 21—34. Хаделер (Hadeler K.) [1968] Newton — Verfahren fur inverse Eigenwertaufgaben, Numer. Math., 12, 35—39. Хазелгроув (Haselgrove C.) [1961] Solution of nonlinear equations and of differential equations with two- point boundary conditions, Comput. J., 4, 255—259. Хайнц (Heinz E.) [1959] An elementary theory of the degree of a mapping in «-dimensional space, J. Math. Mech.t 8, 231—247. Хайтман (Hajtman B.) [1961] On systems of equations containing only one nonlinear equation, Ma- Magyar Tud. Acad. Mat. Fiz. Oszt. KozL, 6, 145—155. Хан (Hahn W.) [1958] Uber die Anwendung der Methode von Liapunov auf Differenzenglei- chungen, Math. Ann., 136, 430—441. Хардэвей (Hardaway R.) [1968] An algorithm for finding a solution of simultaneous nonlinear equations, Proc. AFIPS 1968 Spring Joint Computer Conference, Thompson Book Co., Washington, D. C, 105—114. Харт, Моцкин (Hart H., Motzkin T.) [1956] A composite Newton — Raphson gradient method for the solution of systems of equations, Pacific J. Math., 6, 691—707. Хартли (Hartley H.) [1961] The modified Gauss — Newton method for the fitting of nonlinear regres- regression functions of least squares, Technometrics, 3, 269—280. Хаусхолдер (Householder A.) [1964] The theory of matrices in numerical analysis, Ginn (Blaisdell), Boston, Massachusetts. Хенричи (Henrici P.) [1962] Discrete variable methods for ordinary differential equations, Wiley, New York. [1964] Elements of numerical analysis, Wiley, New York. Хестинз (Hestenes M.) [1956] The conjugate-gradient method for solving linear systems, Proc. Sixth Symp. Appl. Math., Am. Math. Soc, Providence, Rhode Island, 83—102. [1966] Calculus of variations and optimal control theory, Wiley, New York.
Список литературы ' 533 Хестинз, Штифель (Hestenes JYl., Stiefel E.) [1952] Methods of conjugate gradients for solving linear systems, J. Res. Nat. Bur. Standards, 49, 409—436. Хилл, Хантер (Hill W., Hunter W.) [1966] A review of response surface methodology, Technometrics, 8, 571—590. Хирасава (Hirasawa Y.) [1954] On Newton's method in convex linear topological spaces, Comment. Math. Univ. St. Paul, 3, 15—27. Холт(НоИ J.) [1964] Numerical solution of nonlinear two-point boundary value problems by finite difference methods, Comm. ACM, 7, 366—377. Хомма (Homma T.) [1964] On an iterative method, Amer. Math. Monthly, 71, 77—78. Хомут (Homuth H.) [1967] Eine Verallgemeinerung der Regula Falsi auf Operatorgleichungen, Z. Angew. Math. Mech., 47, T51—52. Хорвиц, Сарачик (Horwitz L., Sarachik P.) [1968] Davidon's method in Hilbert space, SIAM J. Appl. Math., 6, 676—695. Хук, Дживз (Hooke R., Jeeves T.) [1961] Direct search solution of numerical and statistical problems, J. Assoc. Comput Mach., 8, 212—229. Хукер, Томпсон (Hooker W., Thompson G.) [1962] Iterative procedure for operators, Arch. Rational Mech. Anal., 9, 107—110. Хэнсон М. (Hanson M.) [1964] Bounds for functionally convex optimal control problems, J. Math. Anal. Appl. 8, 84—89. Хэнсон Э. (Hanson E.) [1968] On solving systems of equations using interval arithmetic, Math. Сотр. 22, 374—384. Цуда, Итида, Киёно (Tsuda Т., Ichlda К., KiyonoT.) [1967] Monte Carlo path-integral calculations for two-point boundary problems, Numer. Math., 10, 110—116. Цуда, Киёно (Tsuna Т., Kiyono Т.) [1964] Application of the Monte Carlo method to systems of nonlinear algebraic equations, Numer. Math., 6, 59—67. Чандрасекхар (Chandrasekhar S.) [1950] Перенос лучистой энергии, ИЛ* М., 1953. Чезари (Cesari L.) [1966] The implicit function theorem in functional analysis, Duke Math. J.t 33, 417—440. Чени (Cheney E.) [1966] Introduction to approximation theory, McGraw-Hill, New York. Чени, Гольдстейн (Cheney E., Goldstein A.) [1959] Proximity maps for convex sets, Proc. Amer. Math. Soc, 10, 448—450. ЧеньВ.(Спеп W.) [1957] Iterative processes for solving nonlinear functional equations, Advan- Advancement in Math., 3, 434—444. Чень К. (Chen К.) [1964] Generalization of Steffensen's method for operator equations, Comment. Math. Univ. Carolinae, 5, 47—77. Чу, Диас(СЬи S., Diaz J.) [1964] A fixed point theorem for in-the-large application of the contraction prin ciple, Atti Accad. Sci. Torino, Cl. Sci. Fis. Mat. Natur., 99, A964/65), 351—363. [1965] Remarks on a generalization of Banach's principle of contraction mappings, J. Math. Anal. Appl., 11, 440—446.
536 Список литературы Шаманский В. Е. [1966а] Об одной реализации метода Ньютона на ЭЦВМ, Укр. машем, ж., 18, 135—140. [19666] Методы численного решения краевых задач на ЭЦВМ, ч. 2, «Наукова думка», Киев. [1967а] Об одной модификации метода Ньютона, Укр. машем, ж., 19, 133—138. [19676] О применении метода Ньютона в особом случае, Ж. вычисл. машем, и машем, физики, 7, 774—783. [1968] О методе линеаризации для решения нелинейных краевых задач, Укр. машем, ж., 20, 218—227. Шанно (Shanno D.) [1966] A modified Newton — Raphson technique for constrained nonlinear es- estimation problems, Ph. D. Diss., Carnegie — Mellon Univ., Pittsburgh, Pennsylvania. Шарковский А. Н. [1961] Быстро сходящиеся итерационные процессы, Укр. машем. ж., 13, 210— 215. Шаудер (Schauder J.) [1930] Der Fixpunktsatz in Funktionalraumen, Studia Math.,. 2, 171—180. Шафиев Р. A. [1963a] О методе касательных гипербол, ДАН, 149, 788—791. [19636] Об одной модификации метода Чебышева, Ж. вычисл. машем, и машем, физики, 3, 950—953. [1963в] Об одном итерационном процессе для нелинейного операторного урав- уравнения, ДАН АзССР, 19, 3—9. [1964] О некоторых итерационных процессах, Ж. вычисл. машем, и машем, физики, 4, 139—143. [1965] Некоторые итерационные методы для нелинейных интегро-дифферен- циальных уравнений, ИАНАзССР, сер/физ.-техн. и матем. 6, 3—10. [1967а] О некоторых итерационных методах решения нелинейных уравнений с недифференцируемыми операторами, Ж. вычисл. машем, и машем, физики, 7, 425—429. [19676] О некоторых итерационных методах решения функциональных урав- уравнений, сб. «Функц. анализ», Изд. АН АзССР, Баку, 173—179. Шах, Бюлер, Кемптхорн (Shah В., Buehler R., Kempt home О.) [1964] Some algorithms for minimizing a function of several variables, SI AM J. Appl. Math., 12, 74—92. Шах, Син (Shah M., Syn W.) [1965] A search technique for functional approximation, Internat. J. Comput. Math., 1, 193—198. Шварц Дж. (Schwartz J.) [1964] Nonlinear functional analysis A963/64), Lecture Notes, Courant Inst. of Math. Sci., New York Univ., New York. Шефер (Schaefer H.) [1957] Uber die Methode der sukzessiven Approximationen, Jber. Deutsch. Math. Verein., 59, 131—140. Шехтер С. (Schechter S.) [1962] Iteration methods for nonlinear problems, Trans. Amer. Math. Soc, 104, 179—189. [1968] Relaxation methods for convex problems, SI AM J. Numer. Anal., 5, 601—612. Шехтер Э. (Schechter E.) [1965] Observations relative to the method of Chaplygin for systems of equations, Studia Univ. Babes-Bolyai, ser. Math.-Phys., 10, 45—49. Шидловская Н. A. [1958] Применение метода дифференцирования по параметру к решению не- нелинейных уравнений в банаховых пространствах, Л., Уч. зап. ЛГУ, 271, сер. матем. н., 33, 3—17.
Список литературы 537 Шинброт (Shinbrot M.) [1964] A fixed point theorem and some applications, Arch. Rational. Mech. Anal 17, 255—271. Шислер (Sister M.) [1961] Об одном итерационном процессе для решения системы нелинейных уравнений, Casopis Pest. Mat., 86, 439—461 (на чеш. яз.). [1964] Об одном итерационном процессе для решения приближенно линейной системы уравнений, Casopis Pest. Mat., 89, 36—52 (на чеш. яз.). [1965] Решение одной системы нелинейных уравнений с функциональной мат- матрицей специального типа, Casopis Pest. Mat., 90, 344—352 (на чеш. яз.). [1967] Approximative Formeln fur den Fehler bei Iterationsverfahren von ho- herer Ordnung, Apl. Mat., 12, 1—14. Шметтерер (Schmetterer L.) [1968] Uber ein Iterationsverfahren, Arch. Math. (Basel), 19, 195—200. Шмидт (Schmidt J.) [1960] Konvergenzuntersuchungen und Fehlerabschatzungen fur ein verall- gemeintertes Iterationsverfahren, Arch. Rational Mech. Anal., 6, 261—276. [1961] Die Regula Falsi fur Operatoren in Banachraumen, Z. Angew. Math. Mech.,J\, 61—63. [1963a] Eine Ubertragung der Regula Falsi auf Gleichungen im Banachraum. I, II, Z. Angew. Math. Mech., 43, 1—8, 97—110. [19636] Zur Fehlerabschatzung naherungsweiser Losungen von Gleichungen in halbgeordneten Raumen, Arch. Math. (Basel), 14, 130—138. [1963b] Extremwertermittlung mit Funktionswerten, Wiss. Z. Techn. Univ. Dresden, 12, 1601—1605. [1964] Ausgangsvektoren fur monotone Iterationen, Numer. Math., 6, 78—88. [1965a] Konvergenzbeschleunigung bei monotonen Vektorfolgen, Ada Math. Acad. Sci. Hungar., 16, 221—229. [19656] Fehlerabschatzung und Konvergenzbeschleuningung zu Iterationen bei linearen Gleichungssystemen, Apl. Mat., 10, 297—301, [1966a] Konvergenzgeschwindigkeit der Regula Falsi und des Steffensen Ver- fahrens im Banachraum, Z. Angew. Math. Mech., 46, 146—148. [1966b] Asymptotische Einschliessung bei konvergenzbeschleunigenden Ver- fahren, Numer. Math., 8, 105—113. [1968] Ein Konvergenzsatz fur Iterationsverfahren, Math. Nachr.t 37, 67—83. Шмидт, Дрессел (Schmidt J., Dressel H.) [1967] Error estimations in connection with polynomial equations using the fixed point theorem of Brouwer, Numer. Math.t 10, 42—50. Шмидт, Тринкаус (Schmidt J., Trinkaus H.) [1966] Extremwertermittlung mit Funktionswerten bei Funktion von mehreren Veranderlichen, Computing, 1, 224—232. Шмидт, Шветлик (Schmidt J., Sch wet lick H.) [1968] Ableitungsfreie Verfahren mit hoherer Konvergenzgeschwindigkeit, Com- Computing, 3, 215—226. Шмидт, Шёнхайнц (Schmidt J., Schoenheinz H.) [1962] Fehlerschranken zum Differezenverfahren unter ausschliesslicher Benut- zung verfugbarer Grossen, Arch. Rational Mech. Anal., 10, 311—322. Шпет (Spath H.) [1967] The damped Taylor's series method for minimizing a sum of squares and for solving systems of nonlinear equations, Comm. ACM» 10, 726—728. Шредер И. (Schroder J.) [1956a] Das Iterationsverfahren bei allgemeinerem Abstandsbegriff, Math. Z.t 66, 111—116. [19566] Nichtlineare Majoranten beim Verfahren der schrittweisen Naherung, Arch. Math. (Basel), 7, 471—484.
538 Список литературы [1956в] Neue Fehlerabschatzungen fur verschiedene Iterationsverfahren, Z. An- gem. Math. Mech., 36, 168—181. [1956r] Ober das Differenzenverfahren bei nichtlinearen Randwertaufgaben, I., II, Z. Angew. Math. Mech.f 36, 319—331, 443—455. [1957] Cber das Newtonsche Verfahren, Arch. Rational Mech. Anal., 1, 154—180. [1959] Anwendungen von Fixpunktsatzen bei der numerischen Behandlung nichtlinearer Gleichungen in halbgeordneten Raumen, Arch. Rational Mech. Anal., 4, 177—192. [1960] Error estimates for boundary value problems using fixed point theorems, сб. «Boundary problems for differential equations» (R. Langer, ed.), Univ. of Wisconsin Press, Madison, Wisconsin. [1962] Invers-monotone Operatoren, Arch. Rational Mech. Anal. 10, 276—295. [1966] Operator-Ungleichungen und ihre numerische Anwendung bei Randwert- Randwertaufgaben, Numer. Math., 9, 149—162. Шредер Э. .(Schroder E.) [1870] Ober unendlich viele Algorithmen zur Auflosung der Gleichungen, Math. Ann., 2, 317—365. Шринивасахариулу (Srinivasacharyulu K.) [1968] On some nonlinear problems, Canad. J. Math., 20, 394—397. Эблоу, Перри (Ablow С, Perry С.) [1959] Iterative solution of the Dirichlet problem for Дм = и2, SIAM J.Appl. Math., 7, 459—467. Эгглстон (Eggleston H.) [1958] Convexity, Cambridge Univ. Press., Cambridge, England. Эдельстейн (Edelstein M.) [1962] On fixed and periodic points under contractive mappings, J. London Math. Soc, 37, 74—79. [1963] A theorem on fixed points under isometries, Amer. Math. Monthly, 70, 298—300. Эдмунде (Edmunds D.) [1967] Remarks on nonlinear functional equations, Math. Ann., 174, 233— 239. Эймс (Ames W.) [1965] Nonlinear partial differential equations in engineering, Academic Press, New York. [1967] (ed.) Nonlinear partial differential equations, Academic Press, New York. Элкин (Elkin R.) [1968] Convergence theorems for Gauss — Seidel and other minimization algo- algorithms, Ph. D. Diss., Univ. of Maryland, College Park, Maryland. Эрманн (Ehrmann H.) [1959a] Iterationsverfahren mit veranderlichen Operatoren, Arch. Rational Mech. Anal., 4, 45—64. [19596] Konstruktion und Durchfurung von Iterationsverfahren hoherer Ord- nung, Arch. Rational. Mech. Anal., 4, 65—88. [1961a] Schranken fur Schwingungsdauer und Losung bei der freien ungedampf- ten Schwingung, Z. Angew. Math. Mech., 41, 364—369. [19616] Ein Existenzsatz fur die Losungen gewisser Gleichungen mit Nebenbe- dingungen bei beschrankter Nichtlinearitat, Arch. Rational Mech. Anal.t 7, 349—358. [1963] On implicit function theorems and the existence of solutions of nonlinear equations, Enseignement Math., 9, 129—176. Эрманн, Ламанн (Ehrmann H., Lahmann H.) [1965] Anwendungen des Schauderschen Fixpunktsatzes auf gewisse nichtlineare Integralgleichungen, Enseignement Math., 11, 267—280. Яковлев М. H. [1964a] К решению нелинейных уравнений методом итераций, ДАН, 156, 522— 524.
Список литературы 539 [19646J К решению нелинейных уравнений методом итераций, Сиб. машем. ж., 5, 1428—1430. [1964в] К решению систем нелинейных уравнений методом дифференцирования по параметру, Ж. вычисл. машем, и машем, физики, 4, 146—149. [1965] О некоторых методах решения нелинейных уравнений, Тр. Матем. ин-та АН, 84, 8—40. [1967а] Алгоритмы минимизации строго выпуклых функционалов, Ж. вычисл. машем, и машем, физики, 7, 429—430. [19676] К теории метода конечных разностей решения нелинейных краевых задач, ДАН, 172, 798—800. Ямамуро (Yamamuro S.) [1963] Some fixed point theorems in locally convex linear spaces, Yokohama Math. J., 11, 5—12. Янко (Janko B.) [1960] Sur l'analoguede la methode de Tchebycheff et de la methode des hyper- hyperboles tangentes, Mathematica (Cluj), 2, 269—275. [1962a] Sur les methodes d'iteration appliquees dans l'espace de Banach pour la resolution des equations fonctionnelles nonlineaires, Mathematlca (Cluj), 4, 261—266. [19626] On the generalized method of tangent hyperbolas, Acad. R. P. Romine Fit. Cluj Stud. Cere. Mat, 13, 301—308. [1962b] Sur une nouvelle generalisation de la methode des hyperboles tangentes pour la resolution des equations fonctionnelles nonlineaires definies dans l'espace de Banach, Ann. Polon. Math.t A962/63), 297—298. [1963a] On the generalized method of Cebysev. II, Acad. R. P. Romine Fit. Cluj Stud. Cere. Mat, 14, 57—62. [19636] On a general iterative method of order k, Acad. R. P. Romine Fit. Cluj Stud. Cere. Mat, 14, 63—71. [1965a] Solution of nonlinear equations by Newton's method and the gradient method, Apl. Mat, 10, 230—234. [19656] Sur la resolution des equations operationelles nonlineaires, Mathematica (Cluj), 7, 257—262. Янко, Балаж (Janko В., Balazs M.) [1966] On the generalized Newton method in the solution of nonlinear operator equations, An. Univ. Timisoara, ?er. sti. mat.-fiz., 4, 189—193. [1960] Symposium on the numerical treatment of ordinary differential equations, integral and integro-differential equations, Birkhauser Verlag, Basel.
СПИСОК ЛИТЕРАТУРЫ, ДОБАВЛЕННОЙ ПРИ ПЕРЕВОДЕ*) Абрамов А. А. [1950] Об одном способе ускорения итерационных процессов, ДАН, 74, 1051— 1052. Александров Л. Д. [1971] Регуляризованные вычислительные процессы Ньютона — Канторовича, Ж. вычисл. матем. и машем, физики, 11, 36—43. Александров П. С. [1947] Комбинаторная топология, Гостехиздат, М.— Л., 1—660. Альтман (Altman M.) [1967] On the generalisation of Newton's method, Bull. Acad. Polon. Sci., 5, 789—795. Андреев В. Б. [1965] Итерационные схемы переменных направлений для численного решения третьей краевой задачи в р-мерном параллелепипеде, Ж. вычисл. матем. и матем. физики, 5, 626—637. Астраханцев Г. П. [1973] Сходимость метода верхней релаксации решения вариационно-разно- вариационно-разностных уравнений для эллиптических уравнений в произвольной области, Ж. вычисл. матем. и матем. физики, 13, 483—488. Бартиш М. Я. [1969] О некоторых итерационных методах решения функциональных урав- уравнений, Сиб. матем. ж., 10, 488—493. Басе (Bass R.) [1972] A rank two algorithm for unconstrained minimization, Math. Сотр., 26, 129—143. Бахвалов Н. С. [1973] Численные методы, т. 1. «Наука», М. Боггс (Boggs P.) [1971] The solution of nonlinear systems of equations by A-stable integration techniques, SI AM J. Numer. Anal., 8, 767—785. Бранин (Branin F.) [1972] Widely convergent method for finding multiple solutions of simultaneous nonlinear equations, IBM J. Res. Dev.t 16, 504—522. Брент (Brent R.) [1972] On the Davidenko—Branin method for solving simultaneous nonlinear equations, IBM J. Res. Dev.t 16, 434—436. Бройден (Broyden C.) [1970a] The convergence of single-rank quasi-Newton methods, Math. Сотр., 24, 365—382. [19706] The convergence of a class of double-rank minimization algorithms 2: the new algorithms, J. Inst. Math. AppL, 6, 222—231. Ван дер Варден Б. Л. [1947] Современная алгебра, т. I, II, Гос. изд. тех.-теорет. лит., М.— Л. Варюхин В. А., Касьянюк С. А. [1969] Об итерационных методах уточнения корней уравнений,. Ж. вычисл. ма- матем. и матем. физики, 9, 684—687. 1) При ссылках на работы из этого списка используется звездочка.— Прим. ред,
Список литературы, добавленной при переводе 541 Вержбицкий В. М., Цалюк 3. Б. [1972] Об усиленном методе Ньютона — Канторовича с аппроксимацией об- обратного оператора, Ж. вычисл. машем, и машем, физики, 12, 222—227. Винн (Whynn P.) [1956а] On a procrustean technique for the numerical transformation of slowly convergent sequences and series, Proc. Cambridge Phil. Soc, 52, 663—671. [19566] On a device for computing the em (Sn) transformation, MTAC, 10, 91— 96. Войгт (Voigt R.) "[1971a] Rates of convergence for a class of iterative procedures, SI AM J. Numer. Anal., 8, 127—134. [19716] Orders of convergence for iterative procedures, SI AM J. Numer. Anal., 8, 222—243. Вольф (Wolfe P.) [1972] On the convergence of gradient methods under constraint, IBM J. Res. Dev., 16, 407—411. Воробьев Ю. В. [1964] Случайный итерационный процесс, Д. вычисл. машем, и машем, физики, 4, 1088-1093. Ганшин Г. С. [1971] Расширение области сходимости метода Ньютона, Ж. вычисл. машем, и машем, физики, 11, 1294—1296. Гекелер (Geneler E.) [1972] On the solution of systems of equations by the epsilon algorithm of Whynn, Math. Сотр., 26, 427—436. Голуб, Варга (Golub G. H., Varga R. S.) [1961] Chebyshev semi-iterative methods, successive overtaxation iterative methods, and second-order Richardson iterative methods. I, II, Numer Math., 3, 147—168. Гольдстейн, Прайс (Goldstein A., Price J.) [1971] On descent from local minima, Math. Сотр., 25, 569—574. Гольдфарб (Goldfarb D.) [1970] A family of variable-metric methods derived by variational means, Math. Сотр., 24, 23—26. Гринштадт (Greenstadt J.) [1970] Variations on variable-metric methods, Math. Сотр., 24, 1—22. [1972] A quasi-Newton method with no derivatives, Math. Сотр., 26, 145—166. Данилин Ю. М., Пшеничный Б. Н. [1971] Метод минимизации без вычисления производных, Ж. вычисл. машем. и машем, физики, 11, 12—21. Деннис (Dennis J.) [1970] On the convergence of Newton-like methods, сб. «Numerical methods for nonlinear algebraic equations», Gordon and Breach, London. [1971] On the convergence of Broyden's method for nonlinear systems of equations, Math. Сотр., 25, 559—567. Джилл, Мэррей (Gill P., Murray W.) [1972] Quasi — Newton methods for unconstrained optimization, J. Inst. Math, Appl., 9, 91—108. Диксон (Dixon L.) [1972] Variable metric algorithms: necessary and sufficient conditions for identical behavior of non-quadratic functions, J. Optimization Theory Appl., 10, 34—40. Дэниэл (Daniel J.) [1970] A correction concerning the convergence rate for the conjugate gradient method, SI AM J. Numer. Anal., 7, 277—280. Дьяконов Е. Г. [1965] О некоторых итерационных методах решения систем разностных урав- уравнений, возникающих при решении методом сеток уравнений в частных
542 Список литературы, добавленной при переводе производных эллиптического типа, сб. «Вычисл. методы и программиро- программирование», изд. МГУ, 3, 191—222. Карманов В. Г. [1974] Оценка сходимости итерационных методов минимизации, Ж. вычисл. машем, и машем, физики, 14, 3—14. Кинг (King R.) [1971] Improved Newton iteration for integral roots, Math. Сотр., 25, 299— 304. Кинкейд (Kincaid D.) [1972] Norms of the successive overrelaxation method, Math. Сотр., 26, 345— 357. Кинкейд, Янг (Kincaid D., Young D.) [1972] The modified successive overrelaxation method with fixed parameters, Math. Сотр., 26, 705—717. Коллатц, Мейнардус, Унгер, Вернер (Collatz L., MeinardusC, UngerH., Werner H.) [1970] (eds.) Iterationsverfahren. Numerische Mathematik. Approximations- theorie, Birkhauser Verlag, Basel —Stuttgart. Красносельский М. А., Крейн С. Г. [1952] Итерационный процесс с минимальными невязками, Машем, сб., 31, 315—334. Лебедев В. И., Финогенов С. А. [1971] О порядке выбора итерационных параметров в чебышевском цикличе- циклическом итерационном методе, Ж. вычисл. машем, и машем, физики, 11,- 423—438. [1972] Об одном алгоритме выбора параметров в чебышевских циклических методах, сб. «Вычисл. методы линейной алгебры», изд. ВЦ СО АН СССР, Новосибирск, 21—27. [1973] Решение проблемы упорядочения параметров в чебышевских итераци- итерационных методах, Ж. вычисл. машем, и машем, физики, 13, 18—33. Любич Ю. И., Майстровский Г. Д. [1970] Общая теория релаксационных процессов для выпуклых функционалов, УМН, 25, 57—112. Майстровский Г. Д. [1971] О сходимости метода сопряженных градиентов, Ж. вычисл. машем, и машем, физики, 11, 1291—1294. Марчук Г. И., Яненко Н. Н. [1968] К вопросу об оптимальных итерационных процессах, ДАН, 181, 1331— 1334. Мертвецова М. А. [1955] Об одном методе приближенного решения нелинейных функциональных уравнений, Изв. Казанск. фил. АН СССР, сер. физ.-матем. н., 8, 154— 163. Миранкер (Miranker W. L.) [1969] Parallel methods for approximating the root of a function, IBM J. Res. Dev., 13, 297—301. Муртаг, Сарджент (Murtagh В. A., Sargent R. W. H.) [1968] A constrained minimization method with quadratic convergence, I. M. A. Conference on optimization. Николаев Е. С, Самарский А. А. [1972] Выбор итерационных параметров в методе Ричардсона, Ж. вычисл. ма- машем, и машем, физики, 12, 960—973. Нитхаммер (Niethammer W.) [1967] Iterationsverfahren und allgemeine Euler-verfahren, Math. Z., 102, 288— 317. [1970] Uber- und unterrelaxation bei linearen Gleichungssystemen, Computing, 5, 303—311. Окайке (Okaike H.) [1959] On a successive transformation of probability distribution and its application
Список литературы, добавленной при переводе 543 to the analysis of the optimum gradient method, Ann. Inst. Statist. Math. Tokyo, 11, 1—16. Орен (Oren S.) [1973] Self-scaling variable metric algorithms without line search for unconstrai- unconstrained minimization, Math. Сотр., 27, 873—885. Пауэлл (Powell M.) [1970a] A survey of numerical methods for unconstrained optimization, SI AM Rev., 12, 79—87. [19706] A hybrid method for nonlinear equations, in «Numerical methods for nonlinear algebraic equations», Gordon and Breach, London. Поляк Б. Т. [1969a] Минимизация негладких функционалов, Ж. вычисл. машем, и машем. физики, 9, 509—521. [19696] Метод сопряженных градиентов в задачах на экстремум, Ж. вычисл. машем, и машем, физики, 9, 807—821. [1971а] О скорости сходимости метода штрафных функций, Ж. вычисл. машем. и машем, физики, 11, 3—11. [19716] Сходимость методов возможных направлений в экстремальных зада- задачах, Ж. вычисл. машем, и машем, физики, И, 853—869. Потапова А. Ф. [1971] Об ускорении сходимости метода скорейшего спуска, Ж. вычисл. ма- машем, и машем, физики, 11, 749—752. Райе (Rice J.) [1971] Matrix representations of nonlinear equation iterations — applications to parallel computation, Math. Сотр., 25, 639—647. Самарский А. А. [1968] О выборе итерационных параметров в методе переменных направлений для разностной задачи Дирихле повышенного порядка точности, ДАН 179, 548—551. [1969а] Двухслойные итерационные схемы, ДАН, 185, 524—527. [19696] Итерационные двухслойные схемы для несамосопряженных уравнений, ДАН, 186, 35—38. [1971] Введение в теорию разностных схем. «Наука», М Самарский А. А., Андреев В. Б. [1964] Итерационные схемы переменных направлений для численного реше- решения задачи Дирихле, Ж. вычисл. машем, и машем, физики, 4, 1025— 1036. Соренсон (Sorenson H.) [1969] Comparison of some conjugate direction procedures for function minimi- minimization, J. Franklin Inst., 288, 421—441. Страхов В.Н. [1973] О методе последовательных приближений для линейных уравнений в гильбертовом пространстве, Ж. вычисл. машем, и машем, физики, 13, 1041—1044. Тихонов А. Н. [1935] Ein Fixpunksatz, Math.Ann., Ill, 767—776. Фаддеев Д. К., Фаддеева В. Н. [1974] К вопросу о решении линейных алгебраических систем, Ж. вычисл. ма- машем, и машем, физики, 14, 539—559. Федоренко Р. П. [1964] О скорости сходимости итерационного процесса, Ж. вычисл. машем, и машем, физики, 4, 559—564. Фельдстейн, Файерстоун (Feldstein A., Firestone R. М.) [1969] A study of Ostrowski efficiency for composite iteration algorithms, Proc. Nat. Conf. Assoc. Сотр. Math., 147—155. Флетчер (Fletcher R.) [1970] A new approach to variable metric algorithms ,Comput. /., 13, 317—322-
544 Список литературы, добавленной при переводе Фоканова А. А. [1972] Обобщение одного метода решения нелинейных уравнений, Д. вычисл. машем, и машем, физики, 12, 218—221. Форсайт (Forsythe G. Е.) [1968] On the asymptotic directions of the s-dimensional optimum gradient me- method, Numer. Math., 11, 57—76. Франке л (Frankel S. P.) [1950] Convergence rates of iterative treatments of partial differential equations, Math. Tabl. Aid. Сотр., 4, 65—75. Хуанг (Huang H.) [1970] Unified approach to quadratically convergent algorithms for function mi- minimization, J. Optimization Tfieory Appl,. 5, 405—423. Чеймберс (Chambers L.) [19711 A quadratic formula for finding the root of an equation, Math. Сотр., 25, 305—307. Шветлик (Schwetlick H.) [1973] Zur konvergenz regularisierter Gauss — Newton — Verfahren, Ж. вы- вычисл. машем, и машем, физики, 13, 1371—1382. [1974] Zur Minimierung von Funktionen mehrerer Veranderlicher mittels ablei- tungsfreier Verfahren vom Newton-Тур, Ж вычисл. машем, и машем, физики, 14, 278—291. Эрдельский (Erdelsky P.) [1973] Computing the Brouwer degree in R2, Math. Сотр., 27, 133—137. Эрлих (Ehrlich L.) [1972] Coupled harmonic equations, SOR, and Chebyshev acceleration, Math. Сотр., 26, 335—342. Янг (Young D. M.) [1970] Convergence properties of the symmetric and unsymmetric successive over- relaxation methods and related methods, Math. Сотр., 24, 793—807. [1971] Iterative solution of large linear systems, Acad. Press, New York. Янг, Уилер, Даунинг (Young D. M., Wheeler M. F., Downing J. A.) [1965] On use of the modified successive overtaxation method with several factors, Proc. IFIP, 65, 177—182. Яненко Н. H. [1967] Метод дробных шагов решения многомерных задач математической фи- физики, «Наука», Новосибирск.
ИМЕННОЙ УКАЗАТЕЛЬ Аальто (S. Aalto) 504 Авила (J. A Vila) 9, 330, 504 Агаев Г. Н. 504 Адамар (J. Hadamar) 140, 155, 504 Адати (R. Adachi) 504 Акилов Г. П. 9, 68, 76, 84, 186, 376 391, 398, 411, 502, 516 Аксельсон (О. Axelson) 504 Александров П. С. 155, 504 Аллен (В. Allen) 31, 504 Альбрехт (J. Albrecht) 427, 428, 504 Альтман (М. Altman). 165. 187, 253, 411, 474, 480: 504 ~ Амбарцумян В. А. 24 Андерсон (D. Anderson) 199, 202, 504 Анселоне (Р Anselone) 26, 41, 411 502, 505 Антосевич (Н. Antosiewicz) 505 Апостол (Т. Apostol) 68, 76, 84, 131. 170, 171, 502, 506 Армихо (L. Armijo) 474, 480, 506 Асплунд (Е. Asplund) 91. 506 Ахамед (S. Ahamed) 506 Ахиезер Н. И. 31, 506 Балакришнан (A. Balakrishnan) 506 Балаж (М. Balazs) 539 Балуев А. Н. 427, 435, 506 Банах (S. Banach) 124, 376» 506 Бард (Y. Bard) 245, 506 Барнз (J. Barnes) 199, 210, 506 Бартиш М. Я. 506 Бартл (R. Bartle) 390, 506 Баэр (R. Ваег) 259, 506 Безлюдная Л. А. 506 Бейли (P. Bailey) 19, 506 Бейтлер (С. Beightler) 531 Беллман (R. Bellman) 41, 140, 186, 200, 219, 411, 506, 507 Беллюс (L. Bel luce) 125, 507 Бельтюков Б. А. 507 Бен-Израэль (A. Ben-Israel) 264, 390, 507 Беннетт (A. Bennett) 411, 507 Березин И. С. 376, 378, 427, 502, 507 Берж (С. Berge) 91, 507 Берман (G. Berman) 270, 271, 507 Берс (L. Bers) 23, 166, 219. 421, 607 Бил (Е. Beale) 507 Биркгоф (G. Birkhoff) 36, 421, 452, 507, 508 Биркгоф Дж. (G. Birkhof) 508 Биттнер Л. (L. Bittner) 199, 231, 366, 412, 508 Биттнер Э. (Е. Bittner) 508 Бланделл (P. Blundell) 508 Блисс^. Bliss) 31, 508 Блок (Н. Block,) 508 Блум (Е. Blum) 480, 508 Блютэль (Е. Blutel) 306, 508 Бокс (М. Box) 260, 508 Боль (Е. Bohl) 421, 427, 508 Бондаренко П. С. 508 Босарж (W. Bosarge) 231, 330, 508 Брайян (С. Bryan) 219, 413, 509 Брайянт (V. Bryant) 509 Брандлер (F. Brandler) 509 Браннин (F. Brannin) 509 Браудер (F. Browder) 125, 169, 391, 509 Браун (К. Brown) 224, 225, 509 Брауэр Л. (Ь. Brouwer) 155, 164, 509 Брауэр Ф. (F. Brauer) 509 Бресс (D. Braess) 480, 488, 509 Бройден (С. Broyden) 210, 510 Брумберг В. А. 510 Брэмбл (J. Bramble) 24, 61, 165, 510 Будак Б. М. 510 Буссманн (К. Bussmann) 411, 510 Бут P. (R. Booth) 510 Бут Э. (A. Booth) 253, 510 Бюкнер (Н. Bueckner) 510 Бюлер (R. Buehler) 259, 536 Вазов (W. Wasow) 7, 23, 24, 219, 298, 333, 502, 524, 534 О Сюда не включены авторы, фигурирующие лишь в списке литературы, добавленной при переводе.— Прим ред.
546 Именной указатель Вайнберг М. М. 9, 68, 69, 76, 168, 169, 480, 502, 510 Вайничке (Н. Weinitschke) 376, 510 Вайсингер (J. Weissinger) 376, 384, 510 Вакспресс (Е. Wachspress) 219, 510 Ван (Н. Wang) 509 Вандерграфт (J. Vandergraft) 61, 421, 435, 436, 510 Варга Дж. (J. Warga) 383, 510 Варга P. (R. Varga) 7, 31, 36, 54, 60, 219,221,285, 298, 322, 331—333, 502, 508, 511, 530 Варюхин В. А. 511 Васудеван (R. Vasudevan) 507 Васшер (Е. Wasscher) 511 Вегг (L. Wegge) 199, 219, 351, 511 Вейнсток (R. Weinstock) 31, 511 Вертгейм Б. А. 511 Вершков Э. В. 6 Веттерлинг (W. Wetterling) 511 Витасек (Е. Vitasek) 235, 528 Витте (В. Witte) 511 Вогл (L. Vogl) 522 Воеводин В. В. 511 Войгт (R. Voigt) 9, 203, 299, 300, 324, 342, 353, 354, 356, 367, 511 Вольф (P. Wolfe) 199, 511 Вук (A. Wouk) 376, 511 Вулих Б. 3. 516 Выханду'Л. К. 511 Гавурин М. К. 231, 511 Галанов Б. А. 511 Гальярдо (Е. Gagliardo) 511 Ганн (J. Gunn) 219, 512 Гантмахер Ф. Р. 41, 512 Гарднер (G. Gardner) 383, 512 Гато (R. Gateaux) 512 Гаусс (К. Gauss) 199 Гейл (D. Gale) 141, 146, 512 Генджоян Г. В. 512 Геращенко С. М. 512 Гивенс (J. Givens) 42 Гильденбрандт (Т. Hildebrandt) 131, 512 Гиня (М. Ghinea) 512 Глазман И. М. 480, 512 Глазмахер (W. Glasmacher) 533 Глейзал (A. Gleyzal) 186, 253, 487, 512 Голаб (S. Golab) 512 Гольдман Н. Л. 510 Гольдстейн (A. Goldstein) 9, ПО, 253, 352, 390, 392, 403, 459, 474, 480, 487. 499, 500, 502, 512, 513, 535 Гольдфельд (S. Goldfeld) 238, 513 Готуссо (L. Gotusso) 513 Гребенюк В. С. 513 Грей (J. Gray) 513 Грейвс (L. Graves) 131, 512 Гринспэн (D. Greenspan) 36, 219, 444, 502, 513 Гринштадт (J. Greenstadt) 513 Гройб (W. Greub) 84, 513 Грошафтова (Z. Groschaftova) 513 Груда (J. Hrouda) 513 Гурр (S. Gurr) 513 Давиденко Д. Ф. 231, 513 Давидон (W. Davidon) 210, 244, 514 Далли (D. Dulley) 514 Данфорд (N. Dunford) 164, 514 Даугавет И. К. 514 Дейст (F. Deist) 230, 514 Деннис (J. Dennis) 390, 509, 514 Дерендяев И. М. 514 Джанкоза (М. Juncosa) 506 Джейн (P. Jain) 513 Дживз (Т. Jeeves) 535 Джон (F. John) 23, 507 Джонсон (L. Johnson) 352, 412, 514 Диас (J. Diaz) 376, 391, 507, 514, 535 Долф (С. Dolph) 165, 514 Дрейпер (N. Draper) 31, 514 Дрейфус (S. Dreyfus) 514 Дрессел (Н. Dressel) 537 Дубовик Л. И. 514 Дуглас (J. Douglas Jr.) 219, 376, 515 Дьёдонне (J. Dieudonne) 68, 84, 173, 176, 502, 515 Дьяконов Е. Г. 515 Дэвис (J. Davis) 231, 515 Дэниэл (J. Daniel) 259, 493, 515 Дюк (W. Duck) 515 Дюло (J. Duleau) 515 Дюран (Е. Durand) 298, 515 Емелина Л. В. 515 Ёсиаки (М. Yoshiaki) 427, 515 Ёхе (М. Yohe) 219, 513 Жидков Е. П. 515 Жидков Н. П. 6, 376, 378, 427, 502, 507 Загускин В. Л. 515 Зангуилл (W. Zangwill) 259, 260, 515 Заплитная А. Т. 515 Зелезник (F. Zeleznic) 210, 515 Зильке (G. Zielke) 54, 515 Зинченко А. И. 398, 413, 515 Зубер (R. Zuber) 51§ Зуев А. И. 516
Именной указатель 547 Иванов В. В. 516 Исаев В. К. 516 Итида (К. Ichida) 535 Каазик Ю. Я. 516 Кавана (R. Cavanagh) 9, 308, 341, 412, 516 Кагивада (Н. Kagiwada) 200, 507 Калаба (R. Kalaba) 186, 200, 219, 411, 435, 506, 507, 516 Калайда А. Ф. 516 Канторович Л. В. 9, 68, 76, 84, 186, 376, 391, 397, 398, 403, 411, 421, 427, 480, 502, 516 Карлин (S. Karlin) Карри (Н. Curry) 253, 474, 480, 516 Каспар (J. Caspar) 146, 376, 516 Касриэль (R. Kasriel) 517 Касьянюк С. А. 511 Катетов (М. Katetov) 517 Кац И. С. 517 Качуровский Р. И. 91, 168, 517 Каччополи (R. Cacciopoli) 140, 376, 517 Келлер (Н. Keller) 19, 20, 376, 411, 502, 517 Келлог О. (О. Kellog) 508 Келлог P. (R. Kellog) 219, 322, 376, 452, 507, 517 Кемптхорн (О. Kempthorne) 259, 536 Кеннет (P. Kenneth) 517, 523 Кернер (М. Kerner) 98, 517 Керр (D. Кегг) 517 Кёрк (W. Kirk) 125, 507, 517 Кивистик Л. А. 253, 517, 518 Киёно (Т. Kiyono) 535 Кизнер (W. Kizner) 231, 518 Кинкейд (W. Kincaid) 518 Кирия В. С. 231 Китчен (J. Kitchen) 297, 518 Кифер (J. Kiefer) 271, 518 Кляйнмихель (Н. Kleinmichel) 231, 330, 518 Ковалик (J. Kowalik) 260, 502, 518 Коган Т. П. 518 Коллатц (L. Collatz) 9, 186, 199, 376, 383, 403, 411, 421, 427, 452, 502, 518 Колмогоров А. Н. 376, 519 Коломи (J. Kolomy) 392, 398, 519 Конкус (P. Concus) 36, 519 Коновальцев И. В. 6 Конт (S. Conte) 224, 509 Коппель X. 201, 412, 519 Корганов (A. Korganoff) 199, 298, 351, 519 Котце (W. Kotze) 519 Коффман (С. Coffman) 298, 519 Кошелев А. И. 518 Коши (A. Cauchy) 98, 243, 253, 306, 376, 480, 519 Кравчик (R. Krawczyk) 366, 519 Крайер (С. Сгуег) 519 Красносельский М. А. 26, 161, 165 253, 391, 502, 519 Крейн М. Г. 391 Кривонос Ю. М. 520 Крокетт (J. Crokett) 186, 243, 244, 253, 480, 487, 520 Кронекер (L. Kronecker) 155, 164, 520 Кронин (J. Cronin) 155, 161, 520 Куан (С. Kwan) 520 Куандт (R. Quandt) 238, 513 Кузнецов Ю. А. 523 Куикен (Н. Kuiken) 520 Кулик (S. Kulik) 520 Кунцманн (J. Kuntzmann) 298, 520 Kyo (M. Kuo) 520 Курпель Н. С. 520 Кусакин И. А. 520 Кушнер (Н. Kushner) 520 Кэннэн (R. Kannan) 520 Лаврентьев И. М. 520 Ладыженская О. А. 23, 35, 520 Ламанн (Н. Lahmann) 538 Ланглуа (W. Langlois) 520 Ланс (G. Lance) 520 Лаптинский В. Н. 521 Ластмэн (G. Lastman) 521 Лаэй (Е. Lahaye) 230, 521 Левенберг (К. Levenberg) 186, 238, 264, 488, 521 Леви (М. Levy) 140, 521 Левин А. Ю. 521 Лезанский (Т. Lezanski) 521 Леон (A. Leon) 260, 521, 533 Лерэ (J. Leray) 161, 165, 521 Ли Т. (Т. Li) 341, 521 Ли Э. (Е. Lee) 411, 521 Либерстейн (Н. Lieberstein) 219, 521 Либль (P. Liebl) 301, 521 Лиз (М. Lees) 19, 146, 165, 521 Лика Д. К. 187, 522 Лин (С. Lin) 522 Линьков Е. И. 392, 404, 522 Лиувиль (J. Liouville) 376 Лич (Е. Leach) 131, 522 Лор (L. Lohr) 411, 522 Лоренц (G. Lorentz) 173, 174, 176, 522 Лоткин (М. Lotkin) 522 Лумисте Ю. Г. 480, 522 Лучка А. Ю. 222, 522 Лэви (A. Lavi) 522 Лэнгер (R. Langer) 522 Лэнкастер (P. Lancaster) 384, 411, 522 Любич Ю. И. 480, 522
548 Именной указатель Любченко И. С. 522 Людвиг (R. Ludwig) 199, 522 Люксембург (W. Luxemburg) 522 Лященко Н. Я. 523 Мадорский В. М. 523 Маергойз Л. С. 199, 351, 517, 523 Майерс (G. Myers) 523 Майстровский Г. Д. 523 Мак-Аллистер (G. McAllister) 24, 523 Мак-Гилл (R. McGill) 517, 523 Мак-Кормик (G. McCormick) 533 Мамедов А. М. 411, 523 Мангасарян (О. Mangasarian) 102, 104, 523 Мансино (О. Mancino) 523 Маркардт (D. Marquardt) 254, 264, 488, 523 Мартош (В. Martos) 102, 523 Марчук Г. И. 523 Маслова Н. Б. 523 Матвеев В. А. 523 Мейер Дж. (G. Meyer) 140, 231, 330, 523 Мейер Ф. (F. Meyer) 530 Мейерс (P. Meyers) 523 Мейнардус (G. Meinardus) 31, 524 Мелон (S. Melon) 524 Мертвецова М. А. 187, 524 Меткалф (F. Metcalf) 391, 514 Мигович Ф. М. 520 Мид (R. Mead) 525 Минковский (Н. Minkovski) 91, 524 Минти (G. Minty) 91, 146, 165, 169, 514. 524 Мираков В. Е. 524 Митер (D. Meeter) 524 МихлинС. Г. 31,524 Мозер (J. MoserL11, 524 Мозес (J. Moses) 524 Морозов В. А. 524 Моррисон (D. Morrison) 524 Морэ (J. More) 9 Моцкин (Т. Motzkin) 24, 223, 524, 534 Мошыньский (К. Moszyrlski) 524 Мур Дж. (J. Moore) 524 Мур P. (R. H. Moore) 26, 411, 505, 525 Мысовских И. П. 398, 525 Мьюр (Т. Muir) 171, 525 Мэддисон (R. Maddison) 265, 525 Нагумо (М. Nagumo) 155, 525 Нашед (М. Nashed) 103, 244, 480, 487, 517, 525 Нелдер (J. Nelder) 525 Немыцкий В. В. 525 Нечепуренко М. И. 187 525 Никайдо (Н. Nikaido) 141, 146, 512 Николовиус (R. Nicolovius) 525 Никула (A. Nicula) 525 Нилл (R. Knill) 525 Нобл (В. Noble) 200, 411, 525 Нойштадт (L. Neustadt) 506 Ньюмэн (D. Newman) 525 Оверхолт (К. Overholt) 272, 526 Опяль (Z. Opial) 146, 169, 391, 526 Ортега (J. Ortega) 5, 9, 60, 219, 285, 297, 298, 322, 334, 352, 383, 384, 397, 403, 411, 421, 427, 435, 444, 445, 452, 526 Осборн (М. Osborn) 260, 502, 518 Островский (A. Ostrowski) 5, 7, 41, 54, 186, 198, 199, 253, 286, 297, 338, 383, 411, 459, 474, 480, 502, 526 Панов А. М. 298, 526 Пармет (I. Parmet) 526 Партер (S, Parter) 219, 444, 513, 526 Пауэлл (М. Powell) 210, 244, 259, 265, 267, 526, 533 Пенроуз (R. Penrose) 265, 527 Перейра (V. Регеуга) 390, 411, 527 Перри (С. Perry) 538 Перрон (О. Perron) 297, 527 Петжиковский (Pietrzykowski) 527 Петри (W. Petry) 527 Петришин (W. Petryshyn) 125, 391, 509 527 Петяну (V. Peteanu) 527 Пикар (Е. Picard) 376 Пинскер А. Г. 516 Писмэн (D. Peaceman) 527 Питвей (М. Pitteway) 514 Полль В. 527, 532 Поляк Б. Т. 91, 102, 108, 231, 342, 398, 480, 528 Понстейн (J. Ponstein) 102, 103, 104, 528 Поршинг (Т. Porsching) 452, 528 Прагер (М. Prager) 235, 528 Прайс Дж. (J. Price) 352, 513 Прайс X. (Н. Price) 61, 528 Пугачев Б. П. 528 Пузынин И. В. 515 Радемахер (Н. Rademacher) 91, 528 Радо (Т. Rado) 35, 528 Райе (J. Rice) 528 Раух (S. Rauch) 9 Ребок (F. Rehbock) 411, 528 Рейнболдт (W. Rheinboldt) 5, 9, 60, 139-141, 219, 298, 322, 383 — 385, 390, 397, 403, 411, 421, 427, 435, 444, 445, 452, 493, 505, 526, 528
Именной указатель 549 Рейсе (Е. Reiss) 517 Ривс (С. Reeves) 259, 533 Роберте (S. Roberts) 231, 528, 529 Робинсон (S. Robinson) 201, 367, 529 Розенблум (P. Rosenbloom) 231, 529 Розенброк (Н. Rosenbrock) 259, 460, 529 Рокафеллар (R. Rockafellar) 529 Рокофф (М. Rockoff) 219, 285, 297, 322, 334, 526 Ролл (L. Rail) 9, 41, 308, 411, 502, 505, 513, 522, 529 Рот Б. (В. Roth) 230, 534 Рот К. (С Roth) 529 Роте (Е. Rothe) 166, 529 Рунге (С. Runge) 306, 529 Рутицкий Я. Б. 253, 519 Рэкфорд (Н. Rachford) 527 Саати (Т. Saaty) 529 Савенко С. С. 529 Сайбел (Е. Saibel) 526 Самарский А. А. 524 Самокиш Б. А. 514 Сапаговас М. П. 529 Сарантонелло (Е. Zarantonello) 169, 391, 392, 529 Сарачик (P. Sarachik) 535 Сарбасов К. 523 Сард (A. Sard) 132, 529 Саутвелл (R. Southwell) 529 Сванн (W. Swann) 259, 531 Седа (V. Seda) 529 Сен (R. Sen) 530 Сенчук Ю. Ф. 512 Сергеев А. С. 201, 530 Сиарле (P. Ciarlet) 31, 530 Силвестер (R. Sylvester) 530 Симеонов С. В. 530 Симпсон (R. Simpson) 530 Син (W. Syn) 536 Сифор (L. Sefor) 230, 514 Скарф (н- Scarf) 530 Слугин С. Н. 427, 530 Смит P. (R. Smith) 341, 530 Смит X. (Н. Smith) 31, 514 Сонин В. В. 516 Спэнг (Н. Spang) 530 Спиридонов В. 530 Стейн (М. Stein) 530 Степлмэн (R. Stepleman) 9, 24, 116— 118, 165, 308, 435, 488, 530 Стернберг (S. Sternberg) 509 Стеффенсен (J. Steffensen) 531 Стеценко В. Я. 531 Стрыгин В. В. 521 Стьюарт (G. Stewart) 244, 531 Такахаси A. Takahashi) 259, 531 Такота (М. Takota) 531 Тамме Э. Э. 531 Тапия (R. Tapia) 531 Тейлор (A. Taylor) 54, 531 Темпл (G. Temple) 480, 531 Тодд (J. Todd) 531 Томпсон (G. Thompson) 535 Торнхейм (L. Tornheim) 199, 286, 366, 488, 531 Трауб (J. Traub) 7, 186, 187, 198, 279, 286, 298, 306, 307, 502, 531 Тринкаус (Н. Trinkaus) 238, 537 Троттер (Н. Trotter) 238, 513 Тэрнер (L. Turner) 531 Тэрстон (G. Thurston) 531 Уайлд (D. Wilde) 259, 531 Уайтсайд (D. Whiteside) 531 Уилкинсон (J. Wilkinson) 41, 48, 532 Уиллерс (F. Willers) 411, 532 Уинслоу (A. Winslow) 532 Ульм С. 187, 201, 351, 352, 412, 532 Уолл (D. Wall) 286, 532 Уолтмэн (P. Waltman) 19, 506 Уолш (J. Walsh) 532 Урабе (М. Urabe) 383, 384, 532 Уральцева Н. Н. 23, 35, 520 Устаал А. Я. 518. Уэллс (М. Wells) 532 Фаддеев Д. К. 41, 48, 265, 532 Фаддеева В. Н. 41, 48, 265, 532 Файерстоун (R. Firestone) 279, 533 Файн (Н. Fine) 411, 532 Фалб (P. Falb) 508 Фарфоровская Ю. Б. 511 Федер (D. Feder) 532 Фельдман И. А. 532 Фельдстейн (A. Feldstein) 279, 533 Фенхель (W. Fenchel) 91, 102, 533 Феньё (I. Fenyo) 533 Фиакко (A. Fiacco) 533 Фигейредо (de Figueiredo) 169, 533 Фикен (F. Ficken) 140, 230, 533 Филиппи (S. Filippi) 533 Флад (М. Flood) 533 Флеминг (W. Fleming) 533 Флетчер (R. Fletcher) 210, 211, 244. 259, 267, 533 Фок В. А. 231 Фокс (L. Fox) 533 Фомин С. В. 376, 519 Форсайт (G. Forsythe) 7, 23, 219, 298, 333, 502, 533 Форстер (P. Forster) 533 Фрей (Т. Frey) 533
550 Именной указатель Фрейденстейн (F. Freudenstein) 230, 534 Фреше (М. Frechet) 534 Фридман В. М. 64, 534 Фридрих Ф. 534 Фрэнк (Т. Frank) 24, 534 Фудзии (М. Fujii) 534 Хаббард (В. Hubbard) 23, 27, 61, 510, 534 Хаделер (К. Hadeler) 534 Хазелгроув (С. Haselgrove) 534 Хайнрих (Н. Heinrich) 199 Хайнц (Е. Heinz) 155, 161, 164, 534 Хайтман (В. Hajtman) 534 Хан (W. Hahn) 341, 534 Хантер (W. Hunter) 535 Хардэвей (R. Hardaway) 534 Харт (Н. Hart) 223, 534 Хартли (Н. Hartley) 263, 488, 534 Хаусхолдер (A. Householder) 41, 48, 54, 60, 298, 502, 534 Хейнла Л. Э. 531 Хенричи (P. Henrici) 19, 54, 199, 411. 534 Хестинз (М. Hestenes) 258, 265, 534, 535 Хилл (W. Hill) 535 Хирасава (Y. Hirasawa) 186, 535 Холт (J. Holt) 535 Холст (W. Hoist) 511 Хомма (Т. Homma) 535 Хомут (Н. Homuth) 535 Хопф (Н. Hopf) 155, 504 Хорвиц (L. Horwitz) 535 Хук (R. Hooke) 535 Хукер (W. Hooker) 535 Хэнсон М. (М. Hanson) 102, 535 Хэнсон Э. (Е. Hanson) 535 Цуда (Т. Tsuda) 535 Чандрасекхар (S. Chandrasekhar) 24, 26, 535 Чезари (L. Cesari) 535 Чени (Е. Cheney) 31, 390, 535 Чень В. (W. Chen) 535 Чень К. (К. Chen) 201, 351, 412, 535 Чернов (Н. Chernoff) 186, 243, 244, 253, 480, 487, 520 Чу (S. Chu) 376, 535 Шаманский В. Е. 187, 307, 353, 355, 536 Шампин (L. Shampine) 19, 506 Шанно (D. Shanno) 536 Шарковский А. Н. 536 Шаудер (J. Schauder) 161, 164, 165, 521, 536 Шафиев Р. А. 187, 536 Шах Б. (В. Shah) 259, 536 Шах М. (М. Shah) 536 Шварц Дж. (J. Schwartz) 132, 140, 155, 156, 161, 164, 502, 514, 536 Шветлик (Н. Schwetlick) 351, 537 Шефер (Н. Schaefer) 391, 536 Шехтер М. (М. Schechter) 23, 507 Шехтер С. (S. Schechter) 36, 116, 219, 220, 499, 500, 536 Шехтер Э. (Е. Schechter) 536 Шёнхайнц (Н. Schoenheinz) 537 Шидловская Н. А. 230, 330, 536 Шинброт (М. Shinbrot) 166, 170, 537 Шипмэн (J. Shipman) 231, 528, 529 Шислер (М. Sisler) 537 Шметтерер (L. Schmetterer) 537 Шмидт (J. Schmidt) 200, 238, 279, 307, 351 — 353, 383, 384, 412, 435, 537 Шольц (D. Scholz) 352, 412, 514 Шпет (Н. Spat) 238, 537 Шредер И. (J. Schroder) 403, 421, 427, 428, 452, 537 Шредер Э. (Е. Schroder) 299, 538 Шринивасахариулу (Srinivasacharyuly) 538 Штифель (Е. Stiefel) 258, 535 Шульц (М. Schultz) 31, 36, 146, 165, 508, 521, 530 Эблоу (С. Ablow) 538 Эгглстон (Н. Eggleston) 91, 538 Эдельстейн (М. Edelstein) 390, 538 Эдмунде (D. Edmunds) 538 Эймс (W. Ames) 538 Элкин (R. Elkin) 191, 92, 102 — 104, 108, 109, 259, 269, 459, 474, 480, 481, 488, 489, 499—501, 538 Эрманн (Н. Ehrmann) 140, 383, 384, 538 Яковлев М. Н. 231, 487, 538 Ямамуро (S. Yamamuro) 166, 539 Янко (В. Janko) 187, 539
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ алгоритм Гольдстейна — Армихо 472 — Дэниэла 256 — Зангуилла 260 — Флетчера — Ривса 257 асимптотическая монотонность на лу- лучах 170 - базисная аппроксимация по методу секущих 191 весовая функция индекса а 149 вторая ^-производная 77 — G-производная 77 положительно определенная 90 *— полуопределенная 90 равномерно положительно опре деленная 90 вынуждающая функция 460 выпуклость 85 главный вектор 41 гомеоморфизм 66 гомеоморфизм локальный 124 гомотопия 135 градиент 63 градиентно согласованная последова тельность 475 градиентное уравнение 37 демпфирующий множитель 248—249 дифференциал Гато 68 — Фреше 69 дифференцируемость по Гато 62 Фреше 64 длина шага 240 жорданова клетка 40 задача о минимальной поверхности 32—33 — Плато 33 замкнутый интервал в Rn 70 индекс Кронекера 155 интеграл Кронекера 155 — степени 149 итерационная функция процесса 233 итерационный процесс 232 многошаговый 233 последовательный 233 стационарный 233 итерация Шульца 428 каноническая жорданова форма 40 квадратный корень из матрицы 42 квазивыпуклость 100 квазилинеаризация 186 композиция 65 консистентная аппроксимация 344 коэрцитивность 166 — по норме 136 — слабая 166 коэффициент обусловленности 45 критическая точка 94 куб 30 лемма Канторовича 400, 423 — Неймана 48 — о возмущении 49 — Теплица 384 обобщенная 384 линейно непостоянный функционал 455 — связное множество 99 мажорирующая последовательность 393 максимальное решение 426 матрица блочно-диагональная 40 — блочно-тридиагональная 22 — Гессе 78 — надобратная (левая правая) 56 — невырожденная 38 — неотрицательная 56 — обладающая свойством А 333 — обратимая 38 — ортогональная 40 — ортогонально подобная 40 — перестановки 50 — подобная 40
552 Предметный указатель — подобратная (левая, правая) 56 — положительно определенная 39 полуопределенная 39 — приводимая 50 — с преобладающей диагональю 52 — со строго преобладающей диаго- диагональю 52 — согласованно упорядоченная 333 — Стильтьеса 57 — треугольная строго верхняя 57 нижняя 57 — эрмитова 39 — Якоби 63 — 2-циклическая 333 метод блочный 221 — вложения 230 — Гаусса 263 — Гаусса — Зейделя 212 нелинейный 216 — Гаусса — Ньютона 262 модифицированный 262 обобщенный 262 — Гаусса — секущих — градиентный 241 — градиентный — Ньютона 248 — Давидона—Флетчера—Пауэлла 242 — дифференциальных поправок 263 — дифференцирования по параметру 231 — Зейделя 220 — касательных гипербол 187 — кваз и ньютонов 210 — ложного положения 187 — Мюллера 198 — наименьших квадратов 97 — наискорейшего спуска 241 — Ньютона 182 демпфированный 240 дискретный 185 — Ньютона — ПВР 213 обобщенный 214 т-шаговый 214 — Ньютона — Писмэна — Рэкфорда обобщенный 246 одношаговый 216 упрощенный 181 — Ньютона — Якоби т-шаговый 216 — обобщенный линейный 211 — одновременных смещений 215 — параллельных касательных 259 — параллельных хорд 180 — ПВР 212 нелинейный 217 — ПВР — Ньютона одношаговый 217 — ПВР — секущих одношаговых 218 — ПВР — Стеффенсена одношаговый 218 — переменных направлений 2}5 — Писмэна — Рэкфорда 215 нелинейный 218 — Писмэна — Рэкфорда — Ньютона одношаговый 219 — поиска Фибоначчи 271 — покоординатной релаксации 240 — последовательной верхней релак- релаксации 212 — последовательных приближений Пи- кара 181 смещений 212 : — продолжения 226 — Ритца 28 дискретный 29 — Розенброка 257 — секущих 188 в форме Вольфа 191 Ньютона 192 общий 189 р-точечный 195 последовательный 195 — сопряженных градиентов 256 направлений 255 — спуска 239 — Стеффенсена 197 — стрельбы 18 — Якоби 214 — Якоби — ложного положения 324 — — нелинейный 217 — Якоби — Ньютона одношаговый 218 — т-шаговый 233 минимальное решение 426 минимизатор 27 — глобальный 94 — локальный 94 истинный 94 многочлен Берн штейн а 174 множество меры нуль 130 — уровня 99 правильное 103 строго правильное 103 множитель нижней релаксации 249 — сходимости по корням 280 — частным 274 модуль непрерывности 67 обратный 463 монотонность 142 — равномерная 142 — строгая 142 направление 240 — наискорейшего спуска 241 начальная точка 232 неотрицательный вектор 55 неподвижная точка 119 непрерывная дифференцируемость 74 непрерывность по Гёльдеру 66, 67 Липшицу 67
Предметный указатель 553 неравенство I ронуолла 140 — Коши — Шварца 43 нерастягивающесть 119 — строгая 119 норма 42 — монотонная 55 — равномерно выпуклая 48 — строго выпуклая 48 — эвклидова 43 нормальные уравнения метода наи- наименьших квадратов 27 нуль-вектор 300 область определения итерационного процесса 232 обобщенный собственный вектор 41 общее положение 189 ограничение 66 оператор монотонного типа 452 отображение антитонное 25 — аффинное 38 — билинейное 78 — взаимно однозначное на множестве U 66 — внедиагонально антитонное 446 — выпуклое 428 — градиентное 96 — диагонально изотонное 446 — диагональное 17 — изотонное 55 — обратно изотонное 447 — полилинейное 84 — полунепрерывное 64 — порядково выпуклое 428 — потенциальное 96 — почти линейное 17 — строго диагонально изотонное 446 — строго обратно изотонное 452 отрезок в Rn 70 ошибка дискретизации 19 подпираемая выпуклость 103 положительный конус 55 порядковый интервал 422 предел итерационного процесса 232 принцип Альтмана 247 — Гаусса — Зейделя 220 —- Гольдстейна 251 — достаточного убывная 460 — Карри 246 — мажорирования 249 — минимизации 245 — расщепления 214 — симметричности 96 — сравнения 465 псевдовыпуклость 102 псевдометрическое пространство 421 путь 135 равномерная аппроксимация 31 — дифференцируемость 338 — квазивыпуклость 108 — связность 106 равномерно выпуклый функционал 85 — линейно независимая последова- последовательность 495 — невырожденное семейство матриц 357 — псевдовыпуклый функционал 499 разделенная разность (оператора) 200 регулярное расщепление 59 релаксационный параметр 212 решение по методу наименьших квад- квадратов 97 свободно шатающаяся последователь- последовательность 494 свойство продолжаемости 133 связный функционал 99 сжатие 120 — итеративное 385 сжимающесть 120 сильно понижающая последователь- последовательность 456 симметричная производная 79 скалярное произведение 42 слабо линейно сходящаяся последова- последовательность 286 — регулярное расщепление 59 собственное значение (число) 38 собственный вектор 39 сопряженный базис 255 — вектор 255 спектральный радиус 47 сплайн-аппроксимация 31 сравнимые векторы 55 среднеквадратичная аппроксимация 27 степень отображения 152, 154 локальная 155 строгая одновершинность 269 — производная 74 строго выпуклый функционал 85 — квазивыпуклый функционал 100 — консистентная аппроксимация 344 — псевдовыпуклый функционал 102 —- связный функционал 99 сужение 66 существенно периодическая последо- последовательность 494 сходимость Гаусса — Ньютона 310 теорема Адамара 138 — Брауэра о неподвижной точке 162 — Гершгорина 23 — Жордана обобщенная 161 — Канторовича о методе Ньютона 404
554 Предметный указатель - коэрцитивности 167 - Кронекера 162 - Лерэ 161 - Лерэ — Шаудера 163 - Мысовских о методе Ньютона 396 - о вырезании 159 глобальной сходимости демпфи- демпфированного метода Ньютона 483 для существенно периоди- периодической последовательности направ- направляющих векторов 497 гомотопической инвариантности 157 градиентной итерации 476 согласованности 476 граничных значениях 157 двухточечном методе секущих — Стеффенсена 351 демпфированном методе Гаус- Гаусса — Ньютона 484 Ньютона — ПВР 485 диагональном преобладании 52 дискретном методе Ньютона 348 коэрцитивности по норме 137 кругах Гершгорина 53 линейной сходимости 292 методе Ньютона глобальная 434 Ньютона — ПВР 311 Ньютона — Писмэна — Рэк- форда 318 ПВР глобальная 419, 497 ПВР — Ньютона 313 Якоби глобальная 416 монотонной сходимости метода Ньютона 342 Ньютона — ПВР 438 нелинейном методе ПВР 316 неявной функции 128 ньютоновом притяжении 303 равномерной монотонности 168 сжимающем отображении 120, 370 среднем 70 сходимости метода Ньютона — ПВР глобальная 444 - об инвариантности области 161 общем методе секущих 359 однородности 125 эквивалентности норм 43 (п + 1)-точечном методе секу- секущих — Стеффенсена 361 - Островского 292 обобщенная 338 - Писмэна—Рэкфорда глобальная 373 - Пуанкаре — Боля 157 - Сарда 130 - сходимости глобальная 14 локальная 13 полулокальная — Титце — Урысона 176 — Шаудера о неподвижной точке 164 — Шредера 299 — Штейна — Розенброка 333 — Эдельстейна 388 точка притяжения 291, 336 упорядочение естественное 54—55 — покомпонентное 54—55 уравнение Гаммерштейна 25 — Плато 23 — Урысона 25 — Эйлера 28 уравнения метода наименьших квад- квадратов 27 формула Шермана — Моррисона 53 — Шермана — Моррисона — Вудбе- ри 53 характеристическое уравнение 39 цепное правило 65 частичное упорядочение 60 векторное 61 линейное 61 чебышевская аппроксимация 31 численный процесс 235 Л-ортогональность 255 F-дифференциал 69 F-дифференцируемость 64 F-производная 64 — частная 127 строгая 127 F-функция 460 /-минимальное решение 97 G-дифференциал 68 G-дифференцируемость 62 G-производная 63 //-уравнение 24 М-матрица 57 М-отображение 449 Р-матрица 146 Р-сжатие 414 Р-сжимающесть 414 Q-быстрее 276 Q-квадратичность 278 Q-линейная сходимость 278 Q-множитель 274, 275
Предметный указатель 555 Q-порядок 276 /^-линейность 283 Q-сверхквадратичность /^-множитель 280 Q-сверхлинейная сходимость 278 /^-порядок 282 Q-субквадратичность 278 R-сверхлинейность 283 Q-сублинейность 278 R-сублинейность 283 ^-быстрее 282 А:-выпуклость 102 Л-квадратичность 283 62-процесс Эйткина 199
ОГЛАВЛЕНИЕ Предисловие редактора перевода . б Предисловие 7 Введение 10 ЧАСТЬ I. ПОДГОТОВИТЕЛЬНЫЙ МАТЕРИАЛ Глава 1. Примеры задач 16 1.1. Двухточечные краевые задачи 16 1.2. Эллиптические краевые задачи 21 1.3. Интегральные уравнения 24 1.4. Задачи минимизации 27 1.5. Двумерные вариационные задачи 32 Глава 2. Линейная алгебра 38 2.1. Обзор основных результатов теории матриц 38 2.2. Нормы 42 2.3. Обратные матрицы 48 2.4. Частичное упорядочение и неотрицательные матрицы 54 Глава 3. Анализ 62 3.1. Производная и другие основные понятия 62 3.2. Теоремы о среднем 70 3.3. Вторая производная 77 3.4. Выпуклые функционалы 85 ЧАСТЬ II. НЕКОНСТРУКТИВНЫЕ ТЕОРЕМЫ СУЩЕСТВОВАНИЯ Глава 4. Градиентные отображения и минимизация , 94 4.1. Минимизаторы, критические точки и градиентные отображения # 94 4.2. Теоремы единственности . . . • 99 4.3. Теоремы существования 104 4.4. Приложения 110 Глава 5. Сжатия и продолжаемость 119 5.1. Сжатия 119 5.2. Теоремы об обратной и неявной функциях 125 5.3. Свойство продолжаемости 132 5.4. Монотонные операторы и другие приложения 141 Глава 6. Степень отображения 147 6.1. Аналитическое определение степени 147 6.2. Свойства степени . « . . . 156 6.3. Основные теоремы существования 161 6.4. Монотонные и коэрцитивные отображения 166 6.5. Приложение. Вспомогательные аналитические результаты ... 170
Оглавление 557 ЧАСТЬ III. ИТЕРАЦИОННЫЕ МЕТОДЫ Глава 7. Общие итерационные методы 180 7.1. Метод Ньютона и некоторые его разновидности ........ 180 7.2. Методы секущих 187 7.3. Модифицированные методы 204 7.4. Обобщенные линейные методы 211 7.5. Методы продолжения 226 7.6. Общий подход к итерационным методам 232 Глава 8. Методы минимизации 236 8.1. Метод параболоидов 236 8.2. Методы спуска 239 8.3. Алгоритмы выбора длины шага 245 8.4. Методы сопряженных направлений 254 8.5. Методы Гаусса — Ньютона и связанные с ними методы .... 261 8.6. Приложение 1. Сходимость алгоритмов сопряженных градиентов и Давидона — Флетчера — Пауэлла для случая квадратичных функционалов 265 8.7. Приложение 2. Методы поиска для одномерной минимизации 269 ЧАСТЬ IV. ЛОКАЛЬНАЯ СХОДИМОСТЬ Глава 9. Скорости сходимости (общие рассмотрения) 274 9.1. Множители сходимости по частным 274 9.2. Множители сходимости по корням 280 9.3. Соотношения между R- и Q-множителями сходимости .... 287 Глава 10, Одношаговые стационарные методы 291 10. Ь Основные результаты 291 10.2. Метод Ньютона и некоторые его модификации 301 10.3. Обобщенные линейные итерации 310 10.4. Методы продолжения 324 10.5. Приложение. Теоремы сравнения и оптимальное со для методов ПВР 331 Глава 11. Многошаговые методы и дополнительные од ношаговые методы 336 11.1. Введение и первые результаты 336 11.2. Консистентные аппроксимации 343 11.3. Общий метод секущих .....'¦. 356 ЧАСТЬ V. ПОЛУЛОКАЛЬНАЯ И ГЛОБАЛЬНАЯ СХОДИМОСТИ Глава 12. Сжатия и нелинейные мажоранты 369 12.1. Некоторые обобщения теоремы о сжимающем отображении 369 12.2. Аппроксимативные сжатия и последовательности сжатий . . . 378 12.3. Итеративные сжатия и нерастяжения 385 12.4. Нелинейные мажоранты 392 12.5. Более общие мажоранты ¦ 399 12.6. Метод Ньютона и родственные ему методы ¦ , . • 404 Глава 13. Сходимость и частичное упорядочение 414 13.1. Сжатия и частичное упорядочение 414 13.2. Монотонная сходимость 422 13.3. Выпуклость и метод Ньютона 428
558 Оглавление 13.4. Итерации Ньютона — ПВР . 436 13.5. М-отображения и нелинейные ПВР-процессы 445 Глава 14. Сходимость методов минимизации . 454 14.1. Введение и сходимость последовательностей 454 14.2. Анализ выбора длины шага 460 14.3. Градиентные и градиентно согласованные методы 475 14.4. Методы типа Ньютона 481 14.5. Методы сопряженных направлений 489 14.6. Покоординатная релаксация и родственные ей процессы . . . 494 Аннотированный список основных монографий 502 Список литературы 504 Список литературы, добавленной при переводе 540 Именной указатель 545 Предметный указатель 551
УВАЖАЕМЫЙ ЧИТАТЕЛЬ! Ваши замечания о содержании книги, ее оформлении, качестве перевода и другие просим присылать по адресу: 129820, Москва, И-110, ГСП, 1-й Рижский пер., д. 2, издательство «Мир».
Дж. Ортега и В. Рейнболдт ИТЕРАЦИОННЫЕ МЕТОДЫ РЕШЕНИЯ НЕЛИНЕЙНЫХ СИСТЕМ УРАВНЕНИЙ СО МНОГИМИ НЕИЗВЕСТНЫМИ Редактор В. Авербух Художник К. Сиротов Художественный редактор В. Шаповалов Технический редактор Л. Бирюкова Корректор Н. Гиря Сдано в набор 15/1 1975 г. Подписано к печати 22/IX 1975 г. Бумага тип. Я» 2 60X907ц,«17,50 бум. л. Усл. печ. л. 35. Уч.-изд. л. 36,44. Изд. № 1/7483. Цена 2 р. 67 к. Зак. 865. ИЗДАТЕЛЬСТВО «МИР» Москва, 1-й Рижский пер., 2 Отпечатано в ордена Трудового Красного Знамени Ленинградской типографии № 2 имени Евгении Со- Соколовой Союзполиграфпрома при Государственном комитете Совета Министров СССР по делам изда- издательств, полиграфии и книжной торговли, 198052. Ле- Ленинград, Л-52, Измайловский проспект, 29, с матриц Головного предприятия республиканского производ- производственного объединения «Полиграфкнига» Госком- Госкомиздата УССР, г, Киев, ул. ДовженкО| 3