Текст
                    В. И. КРЫЛОВ, В. В. БОБКОВ, К. К. МОНАСТЫРНЫЙ
Вычислительные
методы
высшей
математики
ТОМ
1
Допущено
Министерством высшего»
и среднего специального-
образования БССР в качестве
учебного пособия для факуль-
.	тетов прикладной математики
университетов
Издательство «Вышэйшая школа». Минск 1972

518 К85 УДК 518.12 (075.8) Рецензенты: кафедра вычислительной математики математико- механического факультета Ленинградского университета (зав. кафедрой докт. (Ьиз.-мат. наук проф. М. К. Г а в у р ин)\ акад. А. п. Тихонов Научный редактор докт. физ.-мат. наук проф. И. П. Мысовских Крылов В. И. и др. К85 Вычислительные методы высшей математики. Т. 1. Под ред. И. П. Мысовских. Мн., «Вышэйш. школа», 1972. 584 с. с илл. Книга является первым томом учебного пособия по теории вычис- лительных методов математики для университетов. Она будет полезна также для студентов технических учебных заведений с достаточно боль- шой программой математики. Вместе с тем книга рассчитана на широ- кий круг лиц, интересующихся теорией методов вычислений. <0 2-2-4 518 8-71 Крыл& Владимир Иванович, Бобков Владимир Васильевич, Монастырный Петр Ильич Под редакцией Мысовских Ивана Петровича ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ ВЫСШЕЙ МАТЕМАТИКИ. ТОМ 1 Редактор Т. Майборода. Худож. редактор В. Валентович. Техн, редактор М. Кислякова. Корректоры А. Белянкина, В. Козлова. АТ 04238. Сдано в набор 13ДЧ1 1971 г. Подписано к печати 30/XI 1971 г. Бумага 70 X 90716 типогр. № 1. Печ. л. 36,5 (42,705). Уч.-изд. л. 38,11. Изд. № 70—61. Зак. 367. Тираж 10 000 экз. Цена 1 руб. 47 коп. Издательство <Вышэйшая школа» Государственного комитета Совета Министров БССР по печати. Редакция литературы по естествознанию и математике. Минск, ул. Кирова, 24. Ордена Трудового Красного Знамени типография Издательства ЦК КП Белоруссии. Минск, Ленинский пр.в 79,
ИСЛОВИЕ КДвторы стремились написать учебное пособие по теории вычислитель- НС методов математики, предназначенное для университетов и доступ- ll для студентов технических учебных заведений с широкой программой Тематики. £ В основу пособия положены лекции, читавшиеся авторами для сту- Н1Т0В специальности вычислительной математики в Ленинградском ^Белорусском государственных университетах» Основной курс лекций Одержал лишь наименьший объем сведений, обязательный для всех удентов этой специальности. Авторы считали необходимым, ^дополнить м некоторыми вопросами теории вычислительных методов, которые ЬэЪолили бы более полно изложить отдельные разделы теории и довести ИС ДО вида, в какой-то мере приближающегося к современному состоя- ИЮ их в науке. ж’ Мы включили в книгу также отдельные вопросы, которые, по нашему мждению, полезно знать тем студентам, кто будет заниматься в буду- И1Й своей работе подготовкой научных и технических задач к числен- KMV их решению. | все такие дополнительные вопросы излагались авторами в специаль- ных курсах. Г Наконец, для изложения отдельных тем требовались сведения из |Мализа и алгебры, которые не всегда входят в программы обязательных Курсов математики. Авторы стояли перед выбором: нужно было либо Дать краткое изложение недостающих сведений в этой книге, либо отсы- лать к специальным книгам и журнальным статьям, что в большинстве Случаев весьма затруднило бы читателя, так как пришлось бы собирать Нужный материал нередко по кускам на большом числе страниц. Авторы выбрали первую из этих возможностей и предпочли недостаю- щие сведения поместить в книгу, изложив их по возможности в кратком лиде. В тех случаях, когда эти сведения можно было органически связать С основными вопросами, они вносились в соответствующие тексты. Это
4 ПРЕДИСЛОВИЕ оказалось возможным сделать в небольшом числе случаев. Примером могут служить дополнительные сведения из линейной алгебры, которые читатель найдет в начале гл. 2. Когда же дополнения являлись инород- ным телом в тексте, авторы выносили их в конец книги в форме добав- лений к основному тексту. Основной текст разделен на две неравные части. К первой из них отнесено все, принадлежащее основному курсу теории вычислительных методов. Эта часть набрана обычным шрифтом. Вторая часть текста, набранная петитом, содержит дополнительные вопросы, о которых толь- ко что говорилось. Мы считаем, что весь объем сведений, который мы хотели бы вклю- чить в пособие, удастся разместить в двух томах, приблизительно одина- ковых объемов. Подробное содержание первого тома указано в оглавле- нии, второй же том 'будет посвящен изложению вычислительных методов решения дифференциальных уравнений, как обыкновенных, так и с част- ными производными, а также методов решения интегральных уравнений, теории улучшения сходимости рядов и последовательностей и изложению некоторых вопросов построения общей теории вычислительных методов на основе функционального анализа. Второй том выйдет в свет в 1973 г. Авторы хотели бы сделать некоторые замечания о характере изложе- ния. Пособие предназначено для лиц, приступающих к изучению вычисли- тельных методов и ранее не знакомых с ними. Мы считали поэтому не- обходимым начать изложение каждого из методов с подробного описания идеи, на которой этот метод основан, и условий, при которых от него можно ожидать удовлетворительной точности результатов. Там, где это было можно сделать, мы стремились выяснить наглядным путем харак- тер изменения погрешности метода в зависимости от числа шагов, вели- чины шага или других параметров метода. Все это позволяло выяснить те черты метода, которые образуют его качественную характеристику. И только после этого мы переходили к изложению теорем, выясняющих условия сходимости метода или устанавливающих оценку его погрешно- сти. Такие теоремы дают преимущественно более глубоко лежащую количественную характеристику.' Обе эти характеристики мы считали одинаково важными и каждой из них старались* уделить достаточное место в изложении. В пособии нет численных примеров. Отказаться от них нас побудили следующие соображения. Если стремиться не только изложить теорию вычислительных методов, но и научить студентов их применению к реше- нию задач, необходимо ввести в книгу достаточно большое число приме- ров с подробным объяснением как способов выбора методов вычисления, так и техники вычислений. А это сильно увеличило бы объем и привело бы к механическому объединению теоретического пособия с руковод- ством для практикума. Лицам, которые будут самостоятельно заниматься изучением вычис- лительных методов по нашей книге, авторы хотят сообщить некоторые
ПРЕДИСЛОВИЕ 5 сведения об уровне знаний, на которые рассчитано изложение каждого раздела. Прежде всего различные главы книги будут требовать при чте- нии различных знаний. Кроме того, основной текст книги, напечатанный обычным шрифтом, потребует от читателя сравнительно небольшого запаса знаний, дополнительный же текст, набранный петитом, рассчитан на более высокий уровень знаний. Ниже приводятся сведения об уровне необходимых знаний как по главам, так и по частям текста. Для чтения основного текста гл. 1 достаточно знания университет- ского курса анализа в объеме трех семестров или курса математики высшего технического учебного заведения с.широкой программой мате- матического образования. Чтение петита потребует дополнительного знания элементов теории метрических пространств и теории операторов. Авторы рекомендуют перед чтением петита просмотреть добавление I к книге, где можно найти большую часть нужных сведений. Для чтения гл. 2 и 3 достаточно знать основные теоремы о системах линейных уравнений, матрицах, их собственных значениях и векторах, которые содержатся в университетских программах алгебры первых трех семестров. Все необходимые дополнительные вопросы изложены в § 2.1. § 4.1—4.7 потребуют от читателя как знания курса анализа, так и зна- комства с некоторыми элементами теории функций комплексной пере- менной, в частности с теорией вычетов. Значительно большим запасом знаний нужно обладать для чтения § 4.8, где излагаются некоторые результаты исследований сходимости интерполяционных процессов. Здесь используются теоремы о сходимости последовательности линейных операторов и теорема Чебышева об альтернансе для многочленов наилучшего приближения. Нужные сведения можно найти в § 2 добавления I и в добавлении III. Кроме того, при изучении условий сходимости* интерполирования аналитических функций необходимо иметь понятие об интегралах Стил- тьеса и о простейших свойствах логарифмического потенциала. Для чтения § 5.1—5.8 и 5.10 достаточно иметь сведения в объеме курса анализа. § 5.9 требует знания чисел и многочленов Бернулли. Все нужные све- дения о них можно найти в добавлении II. Для чтения § 5.10, где содержатся теоремы о сходимости квадратур- ных процессов, необходимо знание условий сходимости последователь- ности линейных операторов, которые можно найти в § 2 добавления I и, кроме того, нужно иметь представление о простейших свойствах интеграла Лебега. Наконец, для понимания признаков устойчивости правил вычисления неопределенных интегралов (§ 5.11—5.13) нужно иметь простейшие cbe-
6 ПРЕДИСЛОВИЕ дения о линейных разностных уравнениях. Их можно найти в добав- лении IV. В книге § 2.1, 2.2 и 3.1—3.4 написал В. В. Бобков, § 2.3—2.6 и 3.5— 3.7 — П. И. Монастырями, весь остальной текст — В. И. Крылов. Авторы приносят глубокую благодарность научному редактору книги докт. физ.-мат. наук проф. И. П. Мысовских, рецензентам акад. А. Н. Ти- хонову, докт. физ.-мат. наук проф. М. К. Гавурину и канд/физ.-мат. наук доц. И. К. Даугавету за ценные советы и замечания, способствовавшие улучшению книги. Авторы
Глава 1 РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ g 1.1. О СОДЕРЖАНИИ ЗАДАЧИ РЕШЕНИЯ УРАВНЕНИЙ Задача решения уравнений в общем виде имеет указываемый ниже смысл. Пусть даны множество X элементов х и множество У, элементы которого обозначим у. Природа элементов каждого из множеств может быть любой: это могут быть числа, совокупности чисел, функции, точки, линии и т. д. Мы не налагаем также никаких ограничений на свойства множеств X и У и считаем их произвольными. Допустим, кроме того, что на множестве X определен оператор у=А (х), который ставит в соответ- ствие каждому элементу х из X некоторый элемент у из У. Часто говорят, что оператор А отображает множество X в множество У. Элемент х на- зывают оригиналом, а у=А (х) — изображением х. Возьмем какой-либо элемент r/о, принадлежащий У, и поставим себе целью найти такие элементы хеХ, для которых у0 является изображе- нием. Такая задача равносильна решению операторного уравнения f(x)=l/O. (1.1.1) Для него могут быть поставлены следующие первые проблемы. 1. Имеет ли уравнение (1.1.1) решение, т. е. существует ли такой элемент х, изображением которого будет г/о? 2. Если уравнение имеет решения, то при выполнении каких условий решение будет единственным? Если же решений несколько, то каким будет множество всех решений? 3. Нужно указать правило, следуя которому, можно было бы найти, в зависимости от поставленной цели и условий, точно или приближенно все решения (1.1.1), или какое-либо одно решение, заранее указанное, или любое из числа существующих. Две первые проблемы принадлежат общей теории уравнений. В тео- рии вычислительных методов изучается преимущественно третья из этих проблем — проблема эффективного нахождения решения уравнения.*) *) Во mhoi их вопросах не существует строгого разграничения между методами общей и вычислительной теории уравнений. Некоторые вычислительные методы часто приме- няются для доказательства существования решения уравнений. Пример этого дает метод Эйлера в теории обыкновенных дифференциальных уравнений. Его применение приводит к весьма общим теоремам о разрешимости задачи с начальными условиями. Но вместе с тем он нередко применяется и для вычислений. Другим примером может служить метод конечных разностей в уравнениях с частными производными, являющийся одним из основных методов решения задач прикладного характера, приводящих к таким уравне- ниям. Он одновременно часто применяется при исследовании вопросов разрешимости.
8 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Она будет рассматриваться в частных постановках, о которых пойдет речь ниже. Особое значение для нас будут иметь уравнения, в которых х и у будут численными величинами, X и Y — множествами их значений, а оператором, отображающим X в У, будет некоторая функция. Уравне- ние (1.1.1) в этом случае можно записать в виде f(x)=O. (1.1.2) Мы будем рассматривать лишь численные методы решения таких уравнений и оставим в стороне многие методы, основанные на геометри- ческом, механическом, электрическом и других моделированиях урав- нения (1.1.2). В теории численных методов стремятся построить вычислительный процесс, при помощи которого можно найти решение (1.1.2) с наперед указанной точностью. Особенно большое значение имеют сходящиеся процессы, позволяющие решать уравнение с любой, сколь угодно малой погрешностью. Изучение численных уравнений не является единственной основной задачей вычислительной теории уравнений. Не меньшее место в ней занимает проблема приближенного приведения операторных нечислен- ных уравнений к численным, что возможно сделать в большом числе случаев. Поясним эту мысль простым примером, который, может быть, скажет лицам, приступающим к изучению вычислительных методов, больше, чем общие соображения. Пусть на отрезке * ••)> [а, Ь~\ рассматривается сле- дующая граничная задача для дифференциального уравнения второго порядка: L (х) =х"+р (/) x'+q (/)%=/(/), (1.1.3), х(а)=0, х(&)=0, где р(/), q(X) и f(/) предполагаются непрерывными на [а, Ь]. За множество X, на котором определен дифференциальный оператор L(x), может быть принято множество функций х(/), заданных на отрезке дважды непрерывно дифференцируемых там и удовлетворяю- щих поставленным граничным условиям. Предположим, что граничная задача имеет единственное решение °) и перед, нами поставлен вопрос о численном нахождении значений функ- •) Отрезок обозначается двумя буквами, которыми названы его концы, поставлен- ными в скобках, со следующим правилом их употребления. Замкнутый конец отрезка отмечается квадратной скобкой, открытый конец — круглой, и произвольный конец — угловой скобкой. Например, если отрезок с концами а и b замкнут слева и имеет про- извольный правый конец, то он обозначается знаком [а, Ь>. ••) Так заведомо будет, если коэффициент q(t) имеет отрицательные значения всюду на [а, Ь].
§ 1.1. О СОДЕРЖАНИИ ЗАДАЧИ РЕШЕНИЯ УРАВНЕНИЙ 9 ции х(/). Вычислить же значения х можно только в конечном числе точек. Для решения поставленной задачи этого оказывается достаточно, так как если мы будем знать значения x(t) с большой точностью на густой сетке точек отрезка [a, Z?], то х(/) можно вычислить в любой точке этого отрезка с хорошей точностью. Для таких вычислений будут даны пра- вила, например в главе об интерполировании функций. Для простоты рассмотрим на [а, сетку равноотстоящих точек tk=a-\-hk п I и будем искать значения х в узлах этой сетки: x(/ft)=xft. Положим в уравнении t=tk и заменим значения производных х'(^) и x"(tk) следующими их приближенными выражениями: Xk—i ХГ (/fe) ~ > 2h Xk+1—2xh+xh-i № Это дает возможность дифференциальную граничную задачу (1.1.3) за- менить линейной системой уравнений h Xk+i—2xh+xh-i+ — pk(xk+l—Xk-l')+h2qhXk=h2ffl (1-1.4) & (fe=i, 2,..., n—i); /A=f(^), xo=O, xn = 0. Так как погрешность замены производных у' и у" их выражениями через значения уь-ь Уь Ук+i имеет малую величину,*) то можно ожидать, что решение алгебраической системы (1.1.4) будет близким к значениям точного решения граничной задачи (1.1.3) в узлах сетки, и мы вправе принять решение системы (1.1.4) за приближенное представление решения дифференциальной граничной задачи. Мы привели сейчас простой пример сведения операторного уравне- ния, где неизвестным элементом была функция х(/), к системе численных уравнений. В других, более сложных задачах такое сведение часто пред- ставляет трудную проблему и хорошее решение ее может потребовать глубокого проникновения во внутреннее содержание вопроса и большой изобретательности. Укажем на одно требование, которое обычно предъявляется к выбору метода сведения во всякой задаче и удовлетворить которое иногда бы- вает затруднительно. Оно связано с тем, что сложность решения числен- ной системы быстро возрастает с увеличением количества уравнений. Поэтому при выборе способов сведения следует заботиться о том, чтобы *) Погрешность будет величиной порядка h2.
10 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ полученная система могла дать нужную точность по возможности при небольшом количестве численных уравнений. Выше были указаны две основные задачи теории вычислительных методов решения уравнений: алгоритмическая теория численных урав- нений и приведение нечисленных операторных уравнений к системам численных уравнений. В настоящей главе мы будем рассматривать почти исключительно численные уравнения. Задача же приведения нечислен- ных уравнений к численным будет изучаться в дальнейших главах только для отдельных видов уравнений — интегральных и дифференциальных, обыкновенных и с частными производными. Общих же операторных уравнений мы кратко коснемся в настоящей главе только с целью показать, что некоторые методы решения уравне- ний, например итерации и Ньютона, которые мы будем изучать для чис- ленных уравнений, имеют более общее значение и могут с успехом при- меняться к весьма широким классам операторных уравнений. § 1.2. МЕТОД ИТЕРАЦИИ. СЛУЧАЙ ОДНОГО ЧИСЛЕННОГО УРАВНЕНИЯ Общая теория метода итерации или метода повторных подстановок будет кратко изложена в следующих параграфах, сейчас же мы ознако- мимся с основами теории метода на примере простейшего случая одного численного уравнения. Выполнение итераций требует приведения уравнения к некоторой канонической форме. Допустим, что такое приведение выполнено и урав- нение нам дано в виде х=ф(х).. (1.2.1) При этом должно быть указано множество значений, которые может принимать переменная х. Его мы обозначим X. В прикладных задачах чаще всего X будет либо вся числовая ось, либо некоторый отрезок ее. Функция г/=ф(х) каждому значению х ставит в соответствие некоторое число у. Множество всех у, которое мы обозначим У, образует область значе- ний функции <р. Зависимость y=q>(x) можно рассматривать как оператор, преобразующий X в У. Уравнение (1.2.1) означает, что в множестве X нужно найти такие значения х, которые переходят в себя при преобразовании оператором ф и являются, следовательно, неподвижными точками преобразования. Задаче решения (1.2.1) легко придать геометрический смысл. В плос- кости введем декартову систему координат (х, у) и построим в ней гра- фик левой части уравнения: у=х, являющийся биссектрисой координат- ного угла. Затем построим график правой части: у=ф(х). Им будет, вообще говоря, некоторая линия плоскости, которую мы назовем /.
§ 1.2. МЕТОД ИТЕРАЦИИ 11 Решением уравнения (1.2.1) будет абсцисса точки пересечения ли- нии / с биссектрисой у=х. Таких точек и соответствующих им решений может быть несколько. Предположим, что каким-либо способом нами задано исходное приближение х0 к решению уравнения. Все дальнейшие приближения строятся по единообразному прави- лу: за следующее приближение xn+i принимается результат подстановки предыдущего приближения хп в пра- вую часть ф(х) уравнения (1.2.1): Хп+i==ф(xn) (^==0, I, • • •)• (1*2.2) Такое правило построения мы бу- дем называть простой одношаговой итерацией. Геометрическая картина построе- ния приближений хп указана на рис. 1.2.1. По исходному приближе- нию Хо на линии I находим точку 7И0[х0, ф(*о)]. Через нее проводим прямую, параллельную оси х, и берем точку пересечения этой прямой с биссектрисой у=х. Абсциссу пересечения принимаем за Х1>и находим на I точку УИ1[Х1, ф(Х1)] и т. д. Рис. 1.2.1 xn+i может быть построено, когда хп принадлежит множеству X, на котором определена функция ф. Поэтому бесконечный итерационный про- цесс (1.2.2) возможен лишь в том случае, когда все хп (n=0, 1, ...) принадлежат множеству X. Это наверное будет так, если Хо взято из X и множество Y значений ф(х) содержится в X.*) Допустим, что итерацион- ная последовательность Хо, Xi, ... , хп, ... может быть построена. В связи с ее изучением, так же, жак в связи с изучением любой другой последо- вательности приближений к разыскиваемой величине, возникают сле- дующие первые вопросы. 1. При каких условиях можно гарантировать возможность построе- ния последовательности хп? 2. Каковы условия сходимости этой последовательности? 3. Если последовательность сходится: limxn=x*, то будет ли х* ре- шением уравнения? 4. Какова скорость сходимости, или, что равносильно, как может быть оценена разность |х*—хп|? Несколькими страницами ниже будет доказана теорема, дающая ответ на сформулированные вопросы. Сейчас же мы остановимся на выяснении картины поведения приближений хп вблизи решения х*. *) Иначе говоря, оператор <р преобразует множество X в себя.
12 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Это позволит сделать наглядными некоторые стороны теоремы о схо- димости. Предположим, что хп и xn+i близки к решению х* и разности х*—xn = en,-x*~xn+i = en+i являются малыми величинами. Допустим, кроме того, что ср имеет непрерывную производную в окрестности х*, где лежат хп и xn+i. ' Зависимость между еп и еп-н получится, если внести в правило итера- ции (1.2.2) вместо хп и xn+i их выражения через еп и 8n+i- х*—8п+1=ф(х*—еп) =ф(х*)—8пф'(х*) +о(еп) или, ввиду х*=ф(х*), -• 6п4-1 — ф (х*) 8п“{“0 (вп) • (”1.2.3) Рассмотрим сначала простейший случай, когда ф'(х*)=#0. Если еп — достаточно малая величина, зависимость 8n+i от еп будет определяться приближенным равенством 8п+1~ф'(х*)еп. При |ф'(х*)|>1 погрешность 8n+i по абсолютному значению будет больше |еп| и приближение xn+i будет отстоять от х* дальше, чем хп. В этом случае решение х* будет точкой отталкивания для итерационной последовательности и поэтому здесь трудно ожидать сходимости хп к х*. Если же |ф' (х*) | < 1, то |en+i| будет меньше, чем |еп|. Поэтому можно ожидать, что если х0 взято достаточно близко к х*, то итерацион- ная последовательность будет сходиться к решению. Сходимость будет происходить приблизительно по закону геометрической прогрессии со знаменателем ф'(х*). Заметим еще, что в случае ф'(х*)>0 &п и en+i, если они достаточно малы, будут иметь одинаковые знаки и хп, начиная с некоторого места, будет стремиться монотонно к х*. При ф'(х*) <0 знаки еп и 8n+i, начиная с некоторого п, будут противоположными и сходимость хп к х* будет связана с колебаниями хп около х*. Это обстоятельство облегчает суж- дение о точности приближений, так как точное решение будет лежать между приближениями соседних номеров хп и xn+i. Предположим теперь, что ф'(х*)=0. Тогда en+i = o(en) и погрешно- сти следующих приближений будут малыми величинами высшего поряд- ка малости сравнительно с 8П. В этом исключительном случае можно ожидать, что при Хо, достаточно близком к х*, итерационная последова- тельность окажется обязательно сходящейся к х*, причем сходимость хп->х* будет весьма быстрой — быстрее сходимости геометрической про- грессии со сколь угодно малым знаменателем. Этим пользуются для улучшения сходимости итерационной последовательности при помощи предварительного преобразования заданного уравнения к новому х=г|)(х), которое имеет то же самое решение х* и для которого ф'(х*) =0. О двух видах таких преобразований мы будем говорить в следующем параграфе.
§ 1.2. МЕТОД ИТЕРАЦИИ 13 Возвратимся к соотношению между погрешностями: еп+1 = о(еп). Порядок малости en+i зависит от кратности, с которой <рЛ обращается в нуль в точке х*. Допустим, что ср имеет в окрестности х* непрерывную производную порядка т и при этом ф'(х*)=.. ,=ф(™-1)(х*)=0; ф(™)(х*)#=0. Разложение ф(хп) =<р(х*—-еп) по степеням еп будет иметь вид /__1 \ т ф (х*—еп) = ф (х*) Н---— е™ф<т> (х*) + о (еп ). / / V I Подстановка его в (1.2.2) вместо <р(хп) приведет к следующему соотно- шению между погрешностями: (_1 т— 1 -А—-----Ф^(х*)еГ+о(е”). (1 -2.4) Как видно отсюда, en+i будет малой величиной порядка т сравни- тельно с гп*} Когда гп является настолько малой величиной, что можно пренебречь в (1.2.4) вторым членом правой части сравнительно с первым, (1.2.4) перейдет в приближенное равенство 6п-+1 ет п 1)m—1 т\ и, следовательно, отношение ----будет величиной, почти не зависящей е п от номера п. Отсюда сразу же вытекает, что 6п &п—1 т* Сп Последнее же говорит о том, что при сделанных нами предположениях о производных функции ф, когда итерационные приближения хп стано- вятся близкими к решению х*, отношение погрешностей 8п после одной &П — 1 итерации приближенно возводится в степень т.**) *) Если в некотором процессе последовательных приближений погрешности еп и en+i связаны между собой равенством вида |en+i| = С|en ft+o(enft), С=/=0, то говорят, что процесс имеет сходимость степени k. Если ф,(х*)#=0, то имеет место равенство (1.2.3) и при |ф'(х*)|<1 итерационный процесс имеет сходимость первой степени. В случае равенства (1.2.4) процесс приближе- ний имеет сходимость степени т. **) Например, если ея в 10 раз меньше en-i, то en+i будет приблизительно в 10™ раз меньше еп.
14 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Предыдущие соображения очень наглядны, но неточны во многих отношениях. Например, в них не указано, сколь близким к точному реше- нию %* должно быть взято исходное приближение х0, чтобы можно было гарантировать сходимость хп к х* при выполнении |<р(х*) | <1; нет точ- ных оценок быстроты сходимости и т. д. Ниже будет доказана одна из наиболее простых теорем, лишенная указанных недостатков. Она полез-' на не только для суждения о строгих достаточных условиях сходимости процесса итерации, но в ней даны также условия существования решения уравнения (1.2.1) на некотором отрезке около Хо. Теорема /, Пусть выполняются условия: 1) функция ф(х) определена на отрезке |х—х0|^б; (а) 2) непрерывна там и удовлетворяет условию Липшица с коэффици- ентом, меньшим единицы: |ф(х)—ф(х') | ^7 |х—Xх| (0^7<1); (1.2.5) ч 3) для начального значения Хо верно неравенство | Хо—ф(х0) I (1.2.6) 4) для чисел б, q и m выполнено требование Тогда: 1) уравнение (1.2.1) на отрезке (а) имеет решение; 2) итерационная последовательность приближений может быть по- строена, принадлежит отрезку (а) и является сходящейся: limxn=x*, при этом предел х* последовательности есть решение уравнения (1.2.1); 3) для хп выполняется неравенство Доказательство. Наглядный смысл теоремы весьма прост. Функция у=ф(х) преобразует отрезок [х0—б, х0+б] числовой оси в не- который отрезок той же оси. В условии (2) х и х' есть две любые точки *) Условие (2) часто заменяют другим: функция ф(х) всюду на отрезке (а) имеет производную и для нее справедливо неравенство | ф'(х) | q<Z 1. Если выполняется это последнее условие, то будет выполнено и неравенство (1.2.5), что следует из теоремы Лагранжа о приращении функции.
§ 1.2. МЕТОД ИТЕРАЦИИ 15 отрезка (а), |х—х'| —расстояние между ними. |ф(х) — ф(х') | есть рас- стояние между точками, в которые перейдут х, х' после преобразования _ |ф(х)—ф(х')| оператором ср. Отношение ——:——------ имеет смысл «коэффициента I X X I увеличения» расстояния при преобразовании. Неравенство Липшица (1.2.5) означает, что для любых пар точек х, х' из отрезка (а) «коэффи- циент увеличения» расстояния ограничен числом q. Условие q<Z 1 говорит о том, что на самом деле при преобразовании происходит уменьшение расстояний между точками по меньшей мере в q раз и отображение у=ф(х) будет «сжатием». Число т, входящее в неравенство (1.2.6), связано с удаленностью исходного приближения Хо от решения уравнения х*. Если случайно ока- жется хо=х*, то будет хо=ф(хо) и т можно положить равным нулю. Когда же х0 будет близким к х*, то за т может быть взято малое число. Условие (4) налагаетлограничения на значения 6, q, т и говорит о том, что если сжатие при отображении достаточно сильное и q не близ- ко к единице, а это верно для достаточно больших б, т. е. в достаточно широкой окрестности около х0, а Хо взято близким к решению х*, то верны утверждения теоремы. Мерой же всех ограничений, налагаемых на б, q, т, является неравенство (1.2.7). Покажем сначала, что приближение хп любого номера может быть построено, принадлежит отрезку (а) и для приближений соседних номе- ров выполняется неравенство |xn+i—xn| ^mqnt Для Хо и Xi это просто проверяется, так как х0 принадлежит отрезку (а) и Х1=ф(х0) имеет смысл по условию (1). Далее, |х0—Xi| = = |х0—ф(х0)Jи неравенство (1.2.8) для х0 и х4 верно. Наконец, так tn как --------^6, то Ixo—xJ ц Xi принадлежит (а). 1 Q Предположим теперь, что х0? Xi, ... , хп могут быть построены, при- надлежат (а) и |xft+1—xk\^mqk (/г=0, 1, ... , п— 1). По индуктивному предположению хп принадлежит (а) и, так как <р(х) определена в (а), хп+1=ф(хп) может быть построено. Ввиду условия (2) теоремы, По для хп-1, хп верно |х„—xn-i| ssrzng”-1 и, следовательно, |xn+i—хп | ^.mqn, что доказывает для хп и xn+i неравенство (1.2.8). Наконец,
16 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ ^тдп-}-тдп~1-{-.. .-|-т = т—тдп+* т 6 и xn+i принадлежит отрезку (а). Этим закончена индукция. Для доказательства сходимости достаточно убедиться в том, что для последовательности хп (n=0, 1, ...) выполняется признак Больцано — Коши тап—тап+р иг тдП^р-1^.тдП+р-2^ е ------Z--- ---- дП> (1.2.9) Так как д<1 и правая часть неравенства не зависит от р, отсюда сле- дует выполнение признака Больцано — Коши. Стало быть, существует limxn=x*t | п->оо ' : л Кроме того, все хп принадлежат замкнутому отрезку (а), поэтому их* принадлежит (а). н Вернемся к (1.2.9) и перейдем в нем к пределу при р->оо. При этом Хп+р-+х* и в пределе получится неравенство । । _ т | |х*-хп|<—-Г, I доказывающее справедливость утверждения теоремы о скорости сходи- j мости. j Осталось убедиться в том, что х* есть решение (1.2.1). Рассмотрим правило итерации (1.2.2) и допустим, что п неограни- J ченно возрастает. Тогда будет xn+i->x*, хп->х*. Так как х* принадлежит ;; (а) и <р(х) непрерывна в точке х*, <р(хп) будет стремиться к <р(х*). 1 В пределе получится х*=ср(х*) и х* действительно удовлетворяет (1.2.1). Сделаем еще добавление о единственности решения. Теорема 2. Уравнение х=<р(х) на всяком множестве точек, на кото- ром ф(х) выполняет неравенство |ф(х)~ф(у) I <1Х—Л №=у), может иметь не больше одного решения,
§ 1.2. МЕТОД ИТЕРАЦИИ 17 Доказательство. Пусть х и у принадлежат такому множеству и удовлетворяют уравнению х=ф(х) и у=ф(у). Оценим разность х—у, полагая х=£у: I*—Л = |<р(*) —<₽(«/) I < к—у\. Последнее неравенство при х^=у выполняться не может, и мы должны считать х=у. Двух различных решений быть не может. Теорема 1 указывает условия, достаточные для существования реше- ния х* в окрестности начального приближения Хо и сходимости итераци- онной последовательности к х* не медленнее, чем показывает оценка Мы обращали внимание на то, что в исключительных случаях, не преду- смотренных в теореме, когда ф'(х*)=0, сходимость может быть значи- тельно более быстрой. Полезно дополнить теорему 1 замечанием об оценке быстроты сходимости хп->х* в этих исключительных случаях. Предположим, что на некотором отрезке |х—х*|^б около х*, функ- ция ф(х) имеет непрерывную производную порядка т, при этом ф'(х*)=.. ,=ф(^1)(х*)=о и |ф<т)(х) |^Мт, когда |х—х*| ^б. Допустим также, что, начиная с некоторого номера N, итерационные приближения хп (nz^N) все лежат на отрезке |х—х*| ^б. Так как нумерацию приближений мы можем начать с любого места.по- следовательности, допустимо для упрощения записи считать N=0 и все приближения хп — принадлежащими указанному отрезку. Если из равенства х*=ф(х*) вычесть почленно рекурсионное равен- ство хп+1=ф(хп), мы получим следующую связь между погрешностями еп=х*—хп двух соседних номеров: еп+1=ф(х*)— ф(хп) = — [ф(х*—еп)— ф(х*)] = = ---^-фМ(х*-@8п)еГ (О<0<1). Отсюда получается нужная нам оценка (1.2.10) Если это неравенство применить п раз, начиная с 8П, найдем сле- дующую оценку погрешности: ___. 1.. „ / Л1™ \ 18П | a у а= * (1.2.11)
18 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ § 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ. НЕКОТОРЫЕ ВИДОИЗМЕНЕНИЯ ИТЕРАЦИОННОГО ПРОЦЕССА В предыдущем параграфе, где рассматривался метод простой одно- шаговой итерации, мы обратили внимание на то, что если итерационная последовательность хп (п = 0, 1, ...) лежит вблизи решения х*, то по- грешности х*—хп = &п изменяются, вообще говоря, приблизительно по закону геометрической прогрессии со знаменателем ф'(х*): Zn+i~q' (х*)еп. Последовательность хп будет сходиться к решению х*, если в окрестно- сти х* производная ср' будет по абсолютной величине меньше единицы и если исходное приближение Хо взято достаточно близко к х*. При этом сходимость будет тем быстрее, чем меньшее значение имеет |ф'(х*) |. Если же значение |q/(x*) | близко к единице, сходимость хп->х* может быть весьма медленной и может потребоваться много итераций, чтобы достигнуть нужной точности в вычислении х*. Метод итерации, как и всякий другой процесс приближений, можно пытаться усовершенствовать в двух направлениях: во-первых, улучшить скорость сходимости и, во-вторых, расширить область применимости, т. е. сделать процесс сходящимся при менее ограничительных условиях, чем указывалось, например, в теореме 1 § 1.2. Достигнуть этого можно либо заменой итеративного процесса (1.2.2) другим более сложным процессом, с более быстрой сходимостью (два видоизменения такого рода будут рассмотрены в настоящем параграфе), либо предварительно преобразовав заданное уравнение х=ф(х) к тако- му виду, для которого простой одношаговый процесс сходится быстрее, чем для заданного уравнения. По этому поводу мы заметим прежде все- го, что если нам дано уравнение f(x)=O, то привести его к канониче- скому для метода итерации виду х=<р(х) можно обычно многими спо- собами и среди возможных способов вычислитель должен избрать тот, в котором производная ф'(х) вблизи разыскиваемого корня имеет воз- можно малое абсолютное значение. При приведении используются инди- видуальные свойства каждого уравнения и никаких общих правил здесь, по-видимому, дать невозможно. Успех зависит почти исключительно от опыта и искусства вычислителя. Мы оставим этот вопрос в стороне и обратим внимание на другой возможный путь преобразований.*) Напомним, что если ф(х) имеет в окрестности решения х* непрерыв- ные производные порядка т и q/(x*)=.. .=ф(т~1)(х*) =0, а ф(™)(х*)У=0, то погрешности en+i и еп связаны равенством вида (1.2.4) и, когда хп+1 и хп лежат достаточно близко к х*, порядок малости 8n+i будет в т раз выше порядка еп и можно ожидать весьма быстрой сходимости хп->х*. Это приводит к мысли заменить заданное уравнение х=ф(х) новым •) Некоторые сведения для линейных систем по этому вопросу приведены в гл. 2.
§ 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ 19 уравнением х=ф(х), которое имеет то же решение х*, что и заданное, но для которого ф'(х*) =.. , = гр(™-1)(х*) =0, г|/т)(х*) =И=0. С некоторыми способами составления уравнения х=ф(х) мы ознако- мимся в следующем параграфе. Обратимся к проблеме изменения итерационного процесса (1.2.2): хг/+1=ф(хп). Процесс одношаговый, и это является одним из его до- X ф(х) Хо ф(х0) Х1 ф(Х1) • • £ • • Хп-1 ф(Хп-1) Хп Ф(ХП) Рис. 1.3.1 стоинств, так как при его применении нужно задать только Xq и не нужно составлять программы вспомогательного начала расчетов. Но, как во всяком одношаговом методе, мы не используем многих возможностей, которые дает вычислительный процесс. В самом деле, допустим, что вы- полнено п шагов итерации и составлена приводимая в тексте таблица значений приближений к решению и соответствующих значений ф. Чтобы отличить приближения, полученные по новому правилу вычислений, от приближений по правилу (1.2.2), обозначим их хп. Нахождению подле- жит Xn+i. В правиле (1.2.2) мы используем только одно значение аналогичной таблицы, полагая xn+i=<p(*n)- По существу это означает, что мы заме- няем функцию ф(х) постоянной величиной ф(хп), проводим через точку Мп[хп, ф(хп)] прямую линию г/=ф(хп), параллельную оси х> и опре- деляем точку пересечения ее с прямой у=х. Абсциссу такой точки при- нимаем за Xn+i- Геометрическая картина процесса изображена на рис. 1.3.1. Но для вычисления xn+i мы можем воспользоваться любыми значе- ниями Xk и ф(хь), приведенными в таблице. Если встать на этот путь, то мы должны будем избрать тот или иной способ интерполирования хп+1
20 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ;: -----------------------------------------Z по нескольким предшествующим значениям Хи и соответствующим им (?(а). При этом можно выиграть в скорости сходимости по сравнению с правилом (1.2.2), но мы должны будем поступиться преимуществом; одношагового метода, так как новое правило вычислений будет много- шаговым. Остановимся только на случае двухшагового итерационного* процесса, когда выполняется линейное интерполирование ф(х) по двум парам чисел [xn, ф(хп)], [*п-ь ф(хп-i) ]. Геометрически это значит (рис. 1.3.!), что линия /: г/=ф(х) заменяется секущей прямой, проходят щей через две точки Afn_i[xn_i, <p(xn—i)] и Мп[хп\ ф(хп)]. Использование/ интерполирования более высокой степени мы сейчас оставим в стороне/ и вернемся к нему в гл. 4. •! Если же мы хотим при улучшении правила (1.2.2) сохранить преиму-' щество одношагового процесса, то увеличивать точность правила мы можем лишь за счет вычисления одного или нескольких вспомогательных; значений ф. Одно из правил такого вида, принадлежащее Стеффенсену,: будет рассмотрено в конце настоящего параграфа. 1. Рассмотрим метод секущих, или правило линейной интерполяции^ На линии Z: у=ф(х), являющейся графиком правой части уравнения^ возьмем две точки Мп[хп\ ф(хп)] и Mn_i[xn-i, ф(хп-1)], проведем чере$ них секущую прямую и найдем точку пересечения, ее* с биссектрисой! у=х. Абсциссу этой точки примем за xn+i. Решение системы уравнений! секущей и биссектрисы: (х i) ______ [у ф(хп 1) ] у_________% (Хп Хп—1) [ф(-^п) ф(^п—1)] Й ч • Л приведет к следующему правилу нахождения хп+г. — Хп—1ф(хп) <^пф(«^п—1) . _ Хп+1== ZZ ZZ — — • (1.3.1 И ф(*п)~ Хп~ ф(*п-1) +хП-1 | Чтобы начать вычисления, необходимо указать два исходных прибли^ жения Хо, Xi к решению. ;; Выясним теперь при помощи нестрогих, но наглядных соображений? характер изменения погрешности Ek=x*—Xk, когда Xk находится вблизи? решения х*. Правило (1.3.1) дает нам связь между погрешностями? приближений трех смежных номеров. Для получения ее достаточно' в (1.3.1) подставить вместо хд значение х&=х*—е&; заменить ф(х&) раз^ ложением по степеням Ek "
§ 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ 21 1 2 ф(х&) = ф(х* — 8fe) = ф(х*) — 8feq/(X*) + ф"(Х*)““• • • (£=n—1, п, п-|-1) и сохранить лишь главные члены в числителе и знаменателе дроби: *) ~ 1 ф (х*)еп8п-1 /1 оо\ 6п+1~ 2 ' <р'(х*)-1 * (L3’* 1 2) Погрешность en+i будет иметь, вообще говоря, тот же порядок мало- сти, что и произведение 8nen-i, и будет поэтому малой высшего порядка сравнительно с каждой из величин en-i и еп. Равенство (1.3.2) позволяет ожидать, что если ф(х) в окрестности х* дважды непрерывно дифферен- цируема, производная ф'(х) не близка к единице в этой окрестности и, наконец, Xq и Xi взяты достаточно близко к решению х*, то правило (1.3.1) дает последовательность приближений хп, сходящуюся к решению х* со скоростью, намного превышающей скорость сходимости простого одношагового итерационного процесса (1.2.2). Сейчас мы ограничимся изложением приведенных наглядных соображений, точную же теорему о сходимости метода линейного интерполирования докажем в § 1.8, когда будем рассматривать метод секущих прямых, связанный с- методом Ньютона. * . 2. Теперь приведем пример улучшения итерационного процесса при помощи вычисления вспомогательных значений функции. Идея метода связана с одним из способов улучшения сходимости последовательно- стей, изменяющихся по закону, близкому к геометрической прогрессии. Пусть дана произвольная последовательность s0, Si, s2, ... , sn, ... Подвергнем ее нелинейному преобразованию, носящему имя Эйткена,*** и построим новую последовательность сц, а2, ... , где 2 •Sn+lSn—1 $п Sn+i— 2sn4-sn_i *) Более подробный анализ показал бы, что для погрешностей верно равенство 1 <p"(£)enen-i £ п 4-1 — * , 2 ф'(ч)-1 где £ и т] есть некоторые точки отрезка, на котором лежат хп-ь хп и х*. **) Задача улучшения сходимости последовательностей и рядов рассматривается во Втором томе. Там же дано более подробное изложение теории преобразования Эйткена И ему родственных преобразований. Краткое описание преобразований, приведенное В и «стоящем параграфе, сделано только для выяснения идеи, на которой построен метод Си’ффенсена.
22 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Условием возможности преобразования является соблюдение неравенств Sn+l 2$п+$п-1=И=0 (п=1, 2, ...). Если sn = C+Aqn (А=/=0, <7#=0, 1), преобразование будет возможным, так как sn+1—2sn+sn-i=Aqn-i (q—1)2#=0. Простым подсчетом можно убедиться в том, что при любом значе- нии и, независимо от величин q и А, оп будет равно С. Когда \q\< 1, последовательность sn будет сходиться и иметь своим пределом С. Пре- образование Эйткена на любом шаге будет давать on = C=lim sn. Если же последовательность sn будет сходиться к С не точно по указан- ному выше показательному закону, а по закону, близкому к нему, то оп может не совпадать с С тождественно. Но можно ожидать, что оп будет близким к С и сходимость оп->С будет более быстрой, чем сходимость sn—>С. Напомним теперь, что простой одношаговый итерационный процесс (1.2.2), если |q/(х) | <1 в окрестности решения х*, будет сходиться по закону, близкому к геометрической прогрессии со знаменателем ^=|<р,(х*)|. Для улучшения сходимости здесь естественно воспользо- ваться преобразованием Эйткена, изменив, однако, вычислительный про- цесс так, чтобы каждое вновь найденное улучшенное значение сразу же вводилось в вычисления и последующие приближения находились с уче- том уже сделанного улучшения. Поясним это на одном шаге преобразо- вания. Допустим, что мы начинаем вычисления с исходного значения х0. Пользуясь правилом (1.2.2), строим Х1=ф(х0), х2=ф(Х1) =ф[ф(х0)] и к трем числам х0, Xi, х2 применяем преобразование Эйткена , х2х0—Xi2 ХОф [ф (х0 ) ] —ф2 (Хо) х2—2Х14-Хо — ф[ф(х0)]~2ф(хо)4-Хо ‘ Этим мы закончим один шаг процесса Стеффенсена. Чтобы сделать вто- рой шаг, мы выполняем, начиная с х/, те же вычисления, какие были нами сделаны для Хо, и т. д. В общем виде правило вычислений может быть сформулировано, как указано несколькими строками ниже. Приближения, найденные по этому правилу, мы обозначим х/ (й=0, 1, ...). Пусть,вычисления выполнены до шага с номером п и найдены приближения х/ (6=0, 1, .,., п,). Тогда приближение x'n+i вычисляется по правилу ' Хпхф[ф(%/) ] Ф2(Хп7) /1 Q n+1 <р[ф(Хп')]-2ф(хп')+Хп''
§ 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ 23 Правило Стеффенсена (1.3.3) является одношаговым и требует вычисле- ния двух значений функции ср на каждый шаг. Равенство (1.3.3) можно рассматривать как простой одношаговый процесс вида (1.2.2) для вспомогательного уравнения х=ф(х), ф , X = Хф[ф(*)}~Ф^*) ф[ф(х)]— 2ф(х)+* (1.3.4)_ Чтобы выяснить причину, в силу которой можно ожидать, что правило Стеффенсена (1.3.3) имеет лучшую сходимость, чем правило (1.2.2), мы воспользовались преобразованием Эйткена. Оно позволило сделать вполне наглядной интуитивную сторону правила (1.3.3). Преобразование Эйткена взято нами из совсем другой области теории численных методов — из проблемы улучшения сходимости последова- тельностей — и на первый взгляд может показаться, что правило Стеф- фенсена никак не связано с линейным интерполированием функции ф и методом секущих. Мы покажем сейчас, что такая связь все-таки существует, но линей- ное интерполирование, которое нужно осуществить для получения пра- вила Стеффенсена, отличается от того, которое было применено для вы- вода правила секущих (1.3.1). Пусть Хп и ф(Хп') нам известны и известна, следовательно, точка Мп'[хп', ф(хп')] на линии г/=ф(х). Построим на этой линии вспомога- тельную точку Мп"(хп", уп") по простому одношаговому правилу итера- ции, положив ==ф(хп ), Уп ==ф(Ап ) =ф[ф(А\г )]. Через точки Мп' и Мп" проведем секущую прямую, уравнение которой (х—xnz) _ [//—ф(х/)] [ф(хп ) Хп ] {ф[ф(^п )] ф(-^п )} и найдем точку ее пересечения с биссектрисой у=х. Абсциссу последней точки примем за следующее приближение к решению уравнения х=ф(х) и обозначим это приближение xzn+i. Чтобы получить правило его вычис- ления, достаточно в уравнении секущей положить y=x=x'n+i и из полу- ченного после этого уравнения найти x'n+i. Простые вычисления покажут, что полученное правило совпадет с правилом (1.3.3). Выясним теперь преимущества, которые имеет в отношении скорости сходимости правило (1.3.3) сравнительно с правилом (1.2.2). Рассмотрим сначала простейший и основной случай в поставленной задаче сравне- ния. Допустим, что ф(х) имеет непрерывную производную ф'(х) в некоторой окрестности решения х=х*, при этом ф'(х*)=а#=0. Напомним, что в этих условиях мы можем наверное гарантировать сходимость итерационного процесса (1.2.2) к х* только в том
24 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ случае, когда исходное приближение х0 взято достаточно, близко к х* и |фл (х*)| = = |а|<1. При этом сходимость будет происходить по закону (1.2.3), близкому к гео- метрической прогрессии. Для итерационного процесса Стеффенсена (1.3.3) условия сходимости, как следует из приводимых ниже лемм, будут значительно более благоприятными. Лемма 1. Если для ф(х) вблизи х* верно представление ф(х) = х*+а(х—х*)+о(х—х*) (1.3.5) и а=Д0, а#=1, то Ф(х) =х*+о(х—х*)\ Доказательство. Не уменьшая общности, мы можем считать х* = 0. Для до- стижения этого достаточно положить х=х*+г, ф(х) — х* = ф(х*+г) — х* = ф(г)' и рас- смотреть уравнение г = ф(г) й соответствующее ему правило Стеффенсена z'n+i = = Ч^(гп'): . гф[ф(г)]—ф2(г) Ч? (г) ---------------= Ф (z) —х*. ф[ф(г)]—2ф(г)+г При х* = 0 равенство (1.3.5) примет форму ф(х) =ах+о(х). Тогда ф[ф (х)] = а[ах+о(х)]+о(х) = а2х+о(х)? Ф [ф (х) ] —2ф (х) +х=а2х—2ах+х+о (х) = (а— 1) 2х+о (х), Отсюда, в частности, следует, что делитель в выражении (1.3.4) функции Ф(х) при х, близком к решению х* = 0, и х=#0 будет отличным от нуля. Далее, хф [ф (х) ] — ф2 (х) = а2х2+о (х2) — [ах+о (х) ]2 = о (х2), о(х2)_______. (а—1)2х+о(х) что доказывает лемму. Если положить Ф(0)=0, то функция Ф(х) будет непрерывна в точке х = 0 и, кроме того, Ф'(0) =0. Предположим теперь дополнительно, что ф(х) имеет непрерывную производную в окрестности точки х=х* = 0. Так как в выражении (1.3.4) для Ф(х) делимое и дели- тель будут непрерывно дифференцируемы в окрестности х=0, то Ф(х) будет иметь непрерывную производную во всех точках некоторой окрестности х = 0, кроме, может быть, самой точки х = 0. Покажем, что Ф'(х) будет непрерывна и при х=0. Для этого достаточно показать, что Ф'(х)-?-0 (х->0). Умножим обе части второго равенства (1.3.4) на делитель и от обеих частей возьмем производную: { ф [ф (х) ] —2ф (х) Ч-Х } Ф' (х) + { ф' [ф (х) ] <р' (х) —2ф' (х)+1 } ф (х) = = Ф [ф (х) ] +хф' [ф (х) ] ф' (х) — 2ф (х) ф' (х). (1.3.6) Воспользуемся тем, что ф(х).= ах+о(х) и ф'(х) =а+о(1). Множитель при Ф'(х), как выяснилось выше, имеет при х->0 форму (а—I)2х+о(х). Второй член левой части ра- - венства является величиной порядка' о(х), так как Ф(х)=о(х), а множитель при Ф(х) ограничен. Для правой же части равенства верно представление Ф[фW] +*ф'[ф (х) ] ф'(х) —2ф (х) ф'(х) = а2х4-0(х) +х[а+о(1) ] [а+о(1)] — —2 [ах+о (х) ] [а+о (1) ] = о (х),
§ 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ 25 Из (1.3.6) следует {(а— 1)2 х4-о (х)} ф' (х) = о (х), что возможно только при условии Ф'(х) = о(1), так как Ф' (х) = °(0 -------------= о (1) . (а- 1)?+о(1) Все изложенное выше позволяет сформулировать лемму: Лемма 2. Если функция ф(х) имеет непрерывную производную в окрестности реше- ния х* уравнения х = ф(х) и если ф'(х*)=а=#0 и а=/=1, то функция Ф(х), определенная равенством (1.3.4) и дополнительным условием ф(х*)=х*, будет непрерывно дифферен- цируемой в некоторой окрестности решения х*, при этом Ф'(**) =0. Лемма позволяет утверждать, что если Хо' взято достаточно близким к решению х*, то последовательность хт', построенная по правилу Стеффенсена (1.3.3), сходится к х*, при этом сходимость будет настолько быстрой, что для погрешности 8п' = х*—хп' будет ef п+1 выполняться соотношение---------и сходимость хп ->х* будет более быстрой, чем еп' сходимость геометрической прогрессии со сколь угодно малым знаменателем. О скорости сходимости можно получить более точное представление, если известны дополнительные сведения о поведении ф(х) вблизи решения х*. Лемма 3, Если для ф(х) при х, близком к х*> верно равенство ф(х) ^=x*4-a(x—х*) + Р(х—x*)m4-o[(x—х*)ш] (1.3.7) и а=/=0, а=#К /п>1, ₽¥=0, то aP(am~1—1) 4-о (хт). (1.3.8) Доказательство. Вновь будем считать х* = 0. Приводимые ниже вычисления не требуют пояснений. Ф (х) = ах 4- рх™ 4-о (хт), ф[ф(х)] =a[ax4-₽xm4-o(xm)]4-P[ax4-pxm4-°(x7n)] w+°(*m) == , = а2х4- (aP4-parn)-vTn4-°(^m)J ф[ф(х)] —2ф(х)4-х=а2х4- (aP4-pa™)xm4-°(*m) —2[ax4-pxm4-o(xw)]4-x = = (а—I)2x4-(ap4-pam—2P)xw4-o(x™)" хф [ф (х) ] —ф2 (х) = а2х24- (aP4-Pam) xm+14-o (xm+4) — [ax4-pxm4~° (x?n) ]2 = = (pam—aP)xm+14-o (xm+1)\ (Pam—ap)x7n+14-o(xw+1) Pam—ap z Ф(х) =------—--------------------------=----------— x"l4-0(x7n). (a—l)2x4-(aP4-p-am—2P)xm4-o(xw) (a—I)2 Лемма 4. Пусть функция ф(х) имеет непрерывную производную порядка пг в окре- стности точки х* и формула Тейлора по степеням х—х* для ф(х) имеет вид:
26 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ ф(х) =х*4-ф'(х*) (х—х*)4-----ф<т)(х*) (х—х*)т4-о[(х—X*}771] = т\ =х*+а (х—х*) +р (х—х*) т+о [ (х—х*) 771 ]. (1.3.9) Тогда функция Ф(х), определенная равенством (1.3.4) и дополнительным условием ф(х*)=х*, будет иметь в некоторой окрестности точки х* непрерывную производную порядка m и разложение Ф(х) по степеням х—х* имеет форму: а6(а7П“1—1) Ф(х)=х*4-------------(х—х*)т+о[(х—х*)т]. (1.3.10) (а-1)2 Доказательство. С целью упростить запись, как и выше, будем считать х* = 0 и разложение (1.3.9) запишем в виде ф(х) =ax4-|3x77l4-o(x7n). Рассмотрим числитель и знаменатель в выражении (1.3.4) для Ф(х): хф[ф(х) ]—ф2(х) = А1(х), ф[ф (х) ] — 2ф(х)+х=М(х). При сделанных предположениях о ф(х), обе функции М и N будут иметь в окрестности х = 0 непрерывные производные до порядка ш включительно. Степенные разложения для них, полученные при доказательстве третьей леммы, М (х) =Pa(arn~1—l)x7n+14-o(x7n+1) и АГ(х) = (a— 1)2 x+P(aw+a—2)х7П4-о(х7П) являются по существу степенными разложениями Тейлора с остаточными членами в форме Пеано и позволяют судить о значениях производных этих функций при х=0. Отметим, что при х, близких к нулю и отличных от нуля, N (х) не обращается в нуль М(х) и отношение ------=Ф(х) определяет Ф(х) в некоторой окрестности точки х=0, N(x) исключая саму точку х=0, и позволяет утверждать, что на указанном множестве точек Ф(х) является m-кратно непрерывно дифференцируемой функцией х. Что же касается точки х=0, то Ф(х) в ней мы определим по непрерывности. Это можно сделать, напри- М мер, если в равенство Ф= —вместо М и N внести их разложения по степеням х и сократить делимое и делитель на первую степень х: ap(am-i—l)xm4~o (хт) (a— 1) 2+р (ат+а—2) х771-14-о (хт-1) aB(am-1—1) ------------х7714- о (х771 )\ (а—I)2 (1.3.11) Из предыдущего изложения и последнего равенства следует, что Ф(х) после до- определения ее будет функцией, /n-кратно непрерывно дифференцируемой всюду в не- которой окрестности точки х=0. Этим доказана лемма 4. Она позволяет сказать, что если для ф(х) верно разложение (1.3.9) вблизи реше- ния х* уравнения х=ф(х) и если исходное приближение х0 взято достаточно близким к х*, то итерационный процесс Стеффенсена (1.3.3) сходится к решению х*, при этом для погрешности еп' = х*—хп' верно соотношение сф(ат-1— 1) е n+i= (—1)’п-1------—----(en/)m+o[(en )”*]. (а-1)2
§ 1.3. О ЗАДАЧЕ УЛУЧШЕНИЯ МЕТОДА ИТЕРАЦИИ 27 В частности, когда т=2 и разложение ф(х) вблизи решения имеет вид 1 Ф (х) = х*+ф' (X*) (х—X*) + — ф" (х*) (х—х‘) 2+о [ (X—Х‘)2]; соотношение между погрешностями двух приближений соседних номеров будет s'n + l — ф'(х*)ф"(х*) Ф'(х*)-1 Во всем предшествующем изложении мы полагали а = ф'(х*) =Н= 1. Рассмотрим теперь исключительный случай а=1 и покажем, что сходимость правила (1.3.3), вообще говоря, сохранится, но будет значительно медленнее, чем в предыдущих случаях, и близкой к геометрической прогрессии со знаменателем, меньшим 1. Лемма 5, Пусть ф'(х*)=а=1. Если <р'(х) непрерывна в окрестности решения х* и имеет место равенство ф'(х) — 1 = Т(х) (х—х*)™-1, где /л>1 и Т(х} стремится к конечному пределу уУ=0 при х->х*, то Ф(х) имеет произ- 1 водную в точке х=х* и Ф'(х*) = 1---. При этом считается Ф(х*) =х*. m Доказательствол Будем по-прежнему полагать х* = 0. Вычтя х из обеих частей равенства Хф[ф(х)]-ф2(х) Ф (х) =---------------- <₽[<₽(*)] — 2ф(х)+х и обозначив £(х) = ф(х)— х, найдем £2« Ф (х) ------------. g[q>Wl-gW ' По теореме о приращении функции g [ф (х) ] ~g М = [ф (х) — X] g' (g) =g (х) g'(l), где £=х+д[ф(х)'— х]; 0<’9'<1. Так как при х->0 разность X ф(х}_X=J Т(/)/т-‘а7 будет величиной малой, порядка более высокого, -чем х, х и £ будут эквивалентны между собой: g=x+o(x). Поэтому Далее, X X ф(х)— х= Г [ф'(/) —1]^= Г — xm+o(xm) J V tn
28 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ Наконец, ввиду Ф(0)=0, 1 1 г 1 1 1 Ф'(0)=Пгп —[Ф(х) — Ф(0)] =lim -— х---------х+о(х) = 1--------. х->0 х х->0 х т J tn Лемма 5 позволяет утверждать, что при хо', достаточно близком к х*, последова- тельность (1.3.3) будет сходиться к х* и для погрешности еп' будет выполняться равен- ство e'n+i= -------^Sn'+c^en7), показывающее, что в рассматриваемом случае по- грешность еп' будет изменяться приблизительно по закону геометрической прогрессии со знаменателем 1-----. т § 1.4. УЛУЧШЕНИЕ ИТЕРАЦИОННОГО ПРОЦЕССА ПРИ ПОМОЩИ ПРЕОБРАЗОВАНИЯ ЗАДАННОГО УРАВНЕНИЯ Напомним, что если заданное уравнение х=ф(х) таково, что при х = х* производ- ные от ф(х) до порядка т— 1 равны нулю: фО)(х*)=0 (/=1, 2, ... , т—\) и Ф<т)(х*)=#0, то погрешности приближений еп = х*—хп для простого одношагового про- цесса итерации Хп+1 = ф(хп) изменяются по следующему закону: 8п + 1= (— I)™-1 ф(т)(х*)8п +о(8п ) т\ и поэтому можно ожидать весьма быстрой сходимости хп->х*, если только Хо взято достаточно близко к х*. Если ф(х) этим свойством не обладает и, например, ф'(х*)=#0, то мы, во-первых, можем наверное гарантировать сходимость не всегда, а лишь при условии |ф'(х*) | < 1 и, во-вторых, в этом случае закон изменения погрешности еп будет 8п + 1 = ф'(х*)8п+о(8п); и сходимость будет не столь быстрой и даже может быть медленной, если |ф' (х*) | имеет значение, близкое к 1. В связи с этим ставится следующая задача: заменить заданное уравнение х = ф(х) другим уравнением х = Ф(х), удовлетворяющим требованиям: 1) уравнение х = Ф(х) имеет те же решения, что и х = ф(х) (или то же решение х*, когда речь идет о нахождении одного определенного решения, а не всех решений задан- ного уравнения); 2) для каждого решения х* уравнения (или для одного определенного решения) должны выполняться условия Ф^)(х*)=0 (/=1, 2, ... , т— 1). Число т может задаваться наперед, либо оставаться произвольным, удовлетворяю- щим условию т>1. Примером такого преобразования может служить правило Стеф- фенсена, когда от уравнения х = ф(х) переходят к уравнению (1.3.4). Мы отнесли это правило к предыдущему параграфу, так как идеи, лежащие в основании правила, легче выясняются в задаче преобразования итерационной последовательности, нежели в задаче преобразования уравнений.
§ 1.4. ПРЕОБРАЗОВАНИЕ ЗАДАННОГО УРАВНЕНИЯ 29 Для дальнейшего нам удобнее перейти от уравнения х = <р(х) к уравнению f(x) = = ф(х)—х=0 и пользоваться при преобразованиях функцией f(x). Такой переход свя- зан с тем, что при х=х* функция f(x)' обращается в нуль, а при х, близком к реше- нию х*, f(x) будет малой величиной. Это дает возможность при нахождении Ф(х) пользоваться удобным аппаратом степенных разложений. Переход от функции f(x) к Ф(х) можно рассматривать как некоторый оператор Ф=Д(/), для которого множество допущенных нами к исследованию функций f будет областью определения А и множе- ство функций Ф(х)—областью значений оператора A(f). Условия перехода от задан- ного уравнения к новому, указанные выше, налагают слабые ограничения на оператор А и оставляют большой произвол в его выборе, т. е. в выборе соответствия /~>Ф. Известно несколько таких преобразований. Мы остановимся на двух из них. 1. Будем искать Ф в форме сложной функции Ф(х)=Г[х; Их)]. (1.4.1) Здесь оператор преобразования Ф=Д(/;) определяется выбором функции F(x\ у) двух аргументов х и у. Избранная форма представления Ф сужает класс допустимых опера- торов А, но, как мы увидим ниже, -оставляет достаточно большой произвол, чтобы можно было удовлетворить указанным выше двум требованиям, которым мы намерены под: чинить Ф(х). В последующих рассуждениях мы будем предполагать функцию f имею- щей непрерывные производные до порядка /и, при этом, ради простоты, будем считать первую производную f'(x) отличной от нуля в окрестности решения х* уравнения, F(x, у) предположим имеющей непрерывные частные производные FxPyq (р, q = 0, 1, ... , т). Каждой функции F(х, у), ввиду равенства (1.4.1), отвечает оператор, переводящий /n-кратно непрерывно дифференцируемую функцию f в m-кратно непрерывно диффе- ренцируемую функцию Ф(х). Выясним теперь условия, которым нужно подчинить вы- бор F, чтобы Ф, отвечающая заданной нам произвольной, но. фиксированной функции Д обладала нужными свойствами. В вычислениях удобно воспользоваться.. степенным разложением F. Применим формулу Тейлора и разложим F(x, у) по аргументу у: Ф(х) =Г(х, f(х)) =ao(x)+ai(x)f(x)+a2(x)f2(x)+.. +am-i (х) fm~i (х) +fm (х)Rm (х, f (х)) J (1.4.2) 1 flp W = — Fyp(x> о)? pi i Rm(X, f(x)) = J Fym (*» U k Л o Когда x есть решение уравнения /(х)=0, правая часть равенства приведется к сво- бодному члену а0(х) и, если мы хотим, чтобы такое значение х было одновременно ре- шением уравнения ,Ф(х) =х, мы должны потребовать, чтобы ао(х)=х. Теперь потребуем, чтобы производные ф(?>(х) (р=1, 2, ... , т— 1)" когда х есть решение уравнения f(x)=O, обращались в нуль. Заметим попутно, что производные до порядка т— 1 от последнего члена правой части fmRm равны нулю при f=0. Ф'(х)|/==о=1+^(х)Л(х)=о; Ф" (х) | /=о = 2а/ (х) f' (х) +Я1 (х) f" (х) +2а2 (х) f'2 (х) = 0, Ф'" (х) | f=о = а, (х) Г' (х) + За/ (х) f" (х) +3а/' (х) f' (х) + +6а/ (х) Г (х) +6а2 (х) Г (х) f" (х) +6а3 (х) f'3 (х) = 0, ’ (1.4.3) ф(т—1)(х) |/=0= (m-l)a/™-2)(x)f (х)+.. .4-621(x)f(m-i)(x)4-.. .4- + (щ—1)! am-i(x) [/(х)]”1-1^. -
30 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Из полученной системы последовательно могут быть найдены tzi(x), аг(х), ... , После этого остается произвольным остаточный член fmRm, или, что равно- сильно, Fym (х, у}. Наиболее просто — отбросить fmRm, т. е. положить Fym = 0. Тогда для Ф(х) получим следующее выражение: ф (х) = x+ai (х) f (х) +а2 (х)f2 (х) +.. .+am-i (х) fm-1 (х), (1.4.4) где ар(х) (р==1, 2, ... , т— 1) определяется из системы (1.4.3). При т = 2 tii (х) = — Ф(х) =х— ---- Г (4 и соответствующий итерационный процесс будет Он совпадает, как мы увидим ниже, с процессом Ньютона, рассмотренным в § 1.7ft При /п=3 из системы (1.4.3) найдем 1 - Г(х) ч f(x) Г«/2(х) Г(Х) 2f'3(x) Г(х).. 2/'3(х) Итерационный процесс имеет вид f(xn) f"(Xn)f2(Xn) X п 4-1 — % п Г(х„) 2/'3(хп) Для п=4 получим (1.4.4а) f(x) f"(x)P(x) Р(х) ЗГ(х)-Г(*}Г(х) Ф(х) =х------------------------------------------------------- ГМ) 2/'3(х) 12 f'*(x) и итерационный процесс _ f(xn) f2(x„) f"(x„) f3(xn) Хп 4-1 Хп * ““ • Г(Хп) 2 [f'(Xn)]3 12 з[Г(хп)]2-Г(хп)Г(^) 1Ы (1.4.46) В общем случае, когда т имеет любое значение, итерационные приближения вычис- ляются по правилу Хп4-1 = Ф(ХП), где функция Ф определена равенством (1.4.4). Остановимся на характеризации закона изменения погрешности еп=х*—хп. Для этой цели можно было бы воспользоваться либо не вполне определенным равенством (1.2.4), содержащим недостаточно точно известную величину о(ет), либо более опре- деленным равенством (1.2.7), позволяющим точнее оценить величину еп. Оба эти
§ 1.4. ПРЕОБРАЗОВАНИЕ ЗАДАННОГО УРАВНЕНИЯ 31 равенства, примененные к нашей задаче, содержали бы производную Ф<т\ Для произ- вольного значения т функция Ф(х) сложно выражается через f и вычисление производ- ной от нее порядка ги, если не воспользоваться упрощающими соображениями, является затруднительным. Мы укажем сейчас сравнительно простое выражение для Ф<ш) через функцию f и ей обратную. Пусть производная /'(х) отлична от нуля на некотором отрезке [а, 6], содержащем внутри себя решение х*. Так как f'(x) сохраняет знак на [а, 6], f(x) будет там моно- тонной функцией и будет иметь обратную функцию x=g(y). Последняя будет опре- делена на некотором отрезке [с. <4. являющемся областью значений f(x) для хе=[а, Ь]. g(y) будет иметь т непрерывных производных, как и f. Очевидно, x*=g(0). Выберем произвольную точку уе=[с’, d\ и построим разложе- ние х* по формуле Тейлора, как это сделано ниже: x*=g(0) =£(</-#) =£(</) + \ (—1)*--------г—------------------т~~Ут* t! т\ 3 = 1 где г| лежит между 0 и у, или, если подставить сюда вместо у значение f(x) и заметить, что g(y)=x, m — i x+ У (-1)1—!v-LL-ffw+(-i)Tn— i! m\ m — i 64(х)р(х) + (-1),™ ml fm(x)=4f(x)+^(x). (1.4.5) Теперь легко проверить, что Ч'(х) совпадает с Ф(х). В самом деле, Ч^х) является многочленом степени т от f(x), подобно Ф(х), но, может быть, лишь с другими коэф- фициентами. При f = 0 Чг(х)=х. Далее, вычислим производную порядка k (£=1, 2, ... , т— 1) от обеих частей последнего равенства при f = 0. Левая часть равенства х* не зависит от х и [х*](л)=0. Так как остаток /?(х) содержит множителем fm, производная от него при f = 0 обратится в нуль. Поэтому W)(x)|/=o=O (6=1, 2? ... , /п-1) «> и сумма Чг (х\ удовлетворяет тем же условиям (1) и (2), каким была подчинена сумма Ф(х). Но эти условия, как мы видели, определяют единственным образом коэффициен- ты а<(х) суммы Ф(х)4 Поэтому ah(x)=bh(x) (k=\, 2, ... , tn— 1) и, следовательно, ф(х)=Чг(х). Если положить в равенстве (1.4.5) х=хп и вычесть почленно из хп+1 = Ф(хп), получим [/(g)] Х*-Хп + 1=Я(Хп) = (-1)т-------- т\ Но f(x„)= — [f(x*)~f(x„)]= — (X*—xn)f'(£), £(=[xn, x*]; поэтому f(m) [/(!)] m /1ЛСЧ 6n + l [/(£)] en . (1.4.6) m\
32 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ , Это равенство и было нашей целью. Заметим попутно, что его можно было бы записать в форме, не содержащей неизвестных величин g и £, если воспользоваться интегральной формой остатка R(x) и теоремой Лагранжа. Обозначим • ^(7nW)J max [а, Ь] Из (1.4.6) получится рекурсионная оценка для погрешности en: |en+i| ^^|еп|т. Повторное применение ее дает возможность найти приводимую ниже.оценку погрешности 1 1 |en|s£? «•-» |д”’-|е0|тП| 1 показывающую, что при условии /п“1 е0| <1 ея будет очень быстро стремиться к нулю. 2. Возвратимся к уравнению х=ср(х). Второй способ преобразования относится к уравнениям более частного вида, когда <р(х) есть некоторый многочлен от х степени Как и выше, нам удобнее перейти к уравнению f(x)=O, где f(x) = qp(x) — х. Мы будем предполагать, что корни f(x) все являются простыми. Такое предположение не ограничивает задачу, так как понизить кратности корней до единицы мы можем, например, при помощи алгоритма Евклида. Возьмем некоторый многочлен Р(х), выбором которого займемся позже, и составим уравнение х=ф(х)? Ф(х)=х-Р(х)/(х). (1.4.7) ( Если мы хотим сделать простой одношаговый итерационный процесс для этого урав- нения сходящимся более быстро, чем геометрическая прогрессия, мы должны Р(х) ч избрать так, чтобы на каждом решении х=х* уравнения f(x)=Q было ф'(х*)=0: 1 -Р' (х*) f (х*) -Р (х*) f (х*) = 1 -Р (хй) f' (х*) = 0. h Для нахождения Р(х) могут быть указаны алгоритмы, требующие выполнения ' только арифметических операций.*) Ввиду простоты корней f(x); многочлены f(x) и f'(x) являются взаимно простыми. Применим к ним алгоритм Евклида. В его записи под r8(x) (s = 0, 1, ..) подразумева- ются многочлены, старшие коэффициенты которых приведены к 1. Мы положим также . Г(х)=^о(х)< f(x) =го (x)q0(x)+kirl(x)\- rc (х) = ri (х) qi (х) +k2r2 (х); Г._3(Х)=Г<_2(Х)^_2(Х);+А!{_1П_1(Х), П-г(х) =П_1(х)<74-1(х)+£.-1. *) Нужный нам результат является частным случаем хорошо известной в алгебре: многочленов теоремы: если Р(х) и Q(x) —взаимно простые многочлены степеней р и q соответственно, то существуют многочлены М(х) и N (х) степеней не выше q—1 и р—1 такие, что верно равенство Al(x)P(x)4-Af (х) Q(x) =• 1.
§ 1.4. ПРЕОБРАЗОВАНИЕ ЗАДАННОГО УРАВНЕНИЯ 33 Если из этих равенств последовательно исключить r4(x), r2(x]t ... , гг-1(х), полу- чится соотношение вида Простой подсчет степеней множителей Р(х) и L(x) покажет, что Р и L есть много- члены, степени которых не больше п— 1 и п—2 соответственно. Положив в последнем равенстве х=х* и учитывая, что f(x*) =0, получим результат P(x*)f'(x*) = 1, убеждающий нас в том, что многочлен Р(х) является искомым. Нахождение Р(х) может быть сведено к решению системы п линейных уравнений. Будем для упрощения записи считать, что коэффициент при высшей степени в f(x) приведен к 1. Станем делить последовательно произведения xi~if'(x) (t = l, 2, ... , п) на f(x): i7'W=0-/W+p1(x)\ xf W = qi (x) f (x) +p2 (xf, хп~‘['(х) =qn-i(x)f(x)+pn (x). (L4.8) Выберем числа Co, Ci? ... , Cn-i так, чтобы было верно тождество Cn-iPi(x)-^Cn-2p2 (х)+,. • .+CoPn W = 1. (1.4.9) Умножая после этого равенства (1.4.8) последовательно на Сп_^ Сп-г, ... » Со и складывая, получим P(x)f'(x)=M(x)f(x) + l, (1.4.10) где Р(х) = C0xn“1+CiXn”2+.. .+Сп_ь Положив здесь х=х*, мы получим P(x*)f'(x*) = 1 и вновь убедимся в том, что много- член Р(х) является искомым. Условие (1.4.9), которому подчинен выбор Со' Ci! ... , Cn-i, даст для нахождения- их систему п линейных уравнений. Если многочлен pi (х) записать в форме pi (х) =. = piQXn-i+piXn~2+.. .+pin, система будет следующей: РюСп —1“|“Р2оСп —2“Н . .4“РпоСо = О, Р11Сп-1+р21Сп—2”Н. .+PniCo=O, • • • • Рш-гСп —1+р2п-2Сп_2+.. .+Рпп-гСо = О, Р1п_1Сп-1+р2п-1Сn-2-H . .4"Pnn~iCo= 1. . (1.4.11) Отметим, наконец, что для нахождения многочленов pi(xj; (i=l,' 2, ... , п) не обя- зательно составлять равенства (1.4.8), так как многочлены Р;(х) могут быть найдены последовательно из рекурсионного соотношения xpi(x)=piof(x)+pi+i(x); Pi(x)=f'(x), (1.4.12) которое сразу же получится, если равенство х*~Ч'(х)= tni-i(x)f(х)4-гг(х) умножить на х и из произведения хг\ (х) выделить часть Piof(x), делящуюся нацело на /(х). Остаток после выделения хрг (х) — Piof(x) будет многочленом степени меньшей пи дол- жен совпадать с Pi+i(x).
34 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ § 1.5. ПОНЯТИЕ ОБ ОБЩЕЙ ТЕОРИИ МЕТОДА ИТЕРАЦИИ. ТЕОРЕМА О СЖАТЫХ ОТОБРАЖЕНИЯХ Пусть X есть произвольное множество элементов х. Допустим, что на X определен оператор у=ф(х), значения которого принадлежат тому же множеству: ф(х)еХ. Рассмотрим уравнение х=ф(х). (1.5.1) Ему можно придать наглядное содержание. Оператор г/=ф(х) каж- дому элементу х^Х ставит в соответствие некоторый элемент у из X. Часто говорят, что оператор ф отображает множество X в себя. Уравнение (1.5.1) означает, что нужно найти элементы х множества X, которые при отображении ф не изменяются. Такие элементы называются неподвижными. К разысканию их применим следующий итерационный алгоритм: элемент Хо считается заданным и последующие приближения определяются правилом ^п+1 == Ф («^п ) • Для него могут быть поставлены вопросы об осуществимости построе- ния и сходимости последовательности хп, подобно тому, как эти вопросы ставились для аналогичного правила (1.2.2) в случае одного численного уравнения. Метод итерации применим к весьма широкому классу уравнений, и в истории математики известны многочисленные случаи полезных его приложений не только к теории уравнений, но и в вычислительной прак- тике. Теория метода к настоящему времени доведена до большой общ- ности. Особенно большие успехи в этом направлении были достигнуты за последние два десятилетия, когда был применен в исследованиях аб- страктный аппарат функционального анализа.*) Мы не будем излагать теорию метода во всей общности и ограничимся тем, что докажем лйшь одну из простых теорем о сходимости итерационной последовательности, вполне сходную с теоремой 1* § 1.2. Множество X будем считать полным метрическим пространством с метрикой р(х, у). Теорема 1. Пусть выполняются условия: 1) оператор ф(х) определен в замкнутой шаровой окрестности S на- чального элемента Хо: р(х, Хо)^6; (1.5.2) 2) для любых двух элементов х и у из S выполняется неравенство *) Необходимые для чтения настоящего параграфа сведения из функционального анализа можно найти в добавлении I.
§ 1.5. ПОНЯТИЕ ОБ ОБЩЕЙ ТЕОРИИ МЕТОДА ИТЕРАЦИИ 35 р[ф(х).ф(у)]^<7ри. У) (0<<?<1), (1.5.3) где q не зависит от х и у; 3) для начального элемента верно неравенство р[ф(*о), х0]^т; 4) числа б, q\ ш подчинены условию m (1.5.4) Тогда: 1) приближение хп, вычисляемое по правилу хп+1=ф(хп), может быть построено для любого п и хп принадлежит области S; 2) последовательность хп сходится к некоторому элементу из S: lim хп=х* (x*eS); 3) предельный элемент х* есть решение заданного уравнения: х‘=ф(х‘); 4) для хп верно неравенство Доказательство. Покажем сначала, что приближения хп (п=1, 2, ...) могут быть построены, принадлежат области S и для приближений смежных номеров верно неравенство p(xn, xn+i) ^mqn. (1.5.5) Проверим это для п=0. Так как Хо принадлежит S, х1=<р(х0) может быть построено. Далее, по предположению (3), р(х0, Xi) =р[х0, <р(х0)] И неравенство (1.5.5) для п=0 выполняется. Допустим теперь, что Хо, Xi, ... , хп построены, принадлежат S и для МИХ выполняются неравенства р(хь, Xs+i)^m<7ft (6=0, 1, ... , п— 1). Так как xn^S и оператор ф на элементе хп определен, Хп+1=ф(хп) может быть построено. Далее, ввиду предположения (2), p(xn, xn-|-i) qp (Xn—i
36 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ По индуктивному допущению р(хп-1, Xn^mq^ и поэтому будет p(xn, xn+i)^mqn. Наконец, если применить к расстоянию р(хо, xn+i) несколько раз аксиому треугольника и неравенство р(х^, хл+i) ^mqk (& = 0, 1, ... , п), получим р (х0, xn+i) р (хо,. Xi) +р (хь х2) + ... + +p(*n, Xn+i) ^tn+mq+ * ♦ • +rnqn^ Элемент xn+i принадлежит, следовательно, области S. Покажем теперь, что для последовательности хп выполняется признак Больцано — Коши. р (хп, Хп+р) р (хп, хп+1) -f-р (xn+i, Хп+2) -f-. • -+р (^п+р-1, Хп+р) < . ... . . . иг , ч т ^mqn+mqn^+.. ,-\-mqn+P-i= -—- (qn—qn+P) —— qn. т Так как O^.q<Z 1, величина -—- qn при больших п будет меньше задан- ного е>0 и признак Больцано — Коши действительно выполняется. Ввиду полноты пространства X существует элемент х*, к которому сходится хп' Хп Легко проверить, что х* принадлежит S. Действительно, если в неравен- стве р(х0, хп)^6 неограниченно увеличивать и, то, ввиду непрерывной зависимости расстояния р(х0, хп) от хп и хп->х*, в пределе получится р(хо, х*)<6 и, следовательно, х* принадлежит S. Далее, р[ф(*п), фМ]^?р(^, **), и так как р(хп; х*)->0, то ф(хп)-> —>ф(х*). Если же заметить, что ф(хп) =xn+i->x*, в пределе получим х*=ф(х*) и элемент х* есть решение заданного уравнения. Осталось проверить еще утверждение (4) теоремы о скорости схо- димости. Несколькими строками выше было получено неравенство , х _ иг. p(xn, —-qn- Если здесь неограниченно увеличивать р и при- нять во внимание, что при этом хп+р->х* и р(хп~ Хп+р)-^р(хп\ х*), в пре- ти деле получится p(xn, -j-------Этим заканчивается доказательство теоремы 1, Я
§ 1.6. МЕТОД ИТЕРАЦИИ ДЛЯ СИСТЕМ УРАВНЕНИЙ 37 Дополним теорему 1 еще утверждением о единственности решения. Заметим предварительно, что в условии (2) теоремы мы считали коэф- . р[ф(х) ф(у)] фициент сжатия-------—— ------ограниченным числом а, не зависящим р (*. у) от элементов х и у. Для доказательства единственности решения такое предположение о равномерной ограниченности коэффициента сжатия не нужно и достаточно считать р[ф(х), ф(у)] <р(х, у). Теорема 2. На всяком множестве элементов, где для любых двух элементов х, у выполняется неравенство р[ф(х), ф(#)]<р(*, у), уравне- ние х=ф(х) может иметь не больше одного решения. Доказательство. Пусть уравнение имеет два различных реше- ния: х=ф(х) и £/=ф(у) ир(х, #)>0. Но р(х> у) =р[ф(х), ф(у)] <р(*. Ю. что невозможно, и допущение р(х, г/) >0 является неверным. | 1.6. МЕТОД ИТЕРАЦИИ ДЛЯ СИСТЕМ УРАВНЕНИИ Пусть дана система п численных уравнений с п неизвестными Xi, %2, ..., хп. Применение метода итерации к ней требует, как и.в случае одного уравнения, приведения системы к каноническому виду. Мы будем Предполагать, что система дана в нужной форме — ф1 (Xf, Х2, . • . , Х^,), Х2 = ф2(Х1, Х2, • • • , Хп), Хп==(рп (Xi, ^2j • • • , %n) • (1.6.1) С целью сделать более компактной запись, рассмотрим n-мерное чис- ловое пространство Rn, элементами которого являются упорядоченные Совокупности п произвольных чисел. Для истолкования в Rn системы (1.6.1) мы должны взять два элемента, первый из которых будет служить ДЛЯ изображения совокупности (xi, Х2, ... , хп) значений аргументов — ОГО мы обозначим х — и второй, который мы обозначим ф, будет служить ^ЛЯ изображения соответствующих значений функций (фЬ ф2, ... , фп). 1лемент ф будет некоторой функцией элемента х. Зависимость г/=ф(х) Можно рассматривать как отображение Rn или части Rn в Rn. Заданная Система запишется в короткой форме х=ф(х), (1.6.2) И решение ее равносильно нахождению таких элементов х в Rn, которые При отображении у=ф(х) переходят в себя.
38 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Допустим, что нами избран исходный элемент для итерации х(°)== = Ц°), х(°\ ... , х^). Все следующие приближения к точному решению х* = (х*, х*э., х* ) находятся по правилу х(А+1)=<р(х(М). (1.6.3) Прежде чем рассматривать теоремы о сходимости х<*> к х*, мы остано- вимся на выяснении при помощи нестрогих рассуждений наглядной кар- тины поведения х<п> вблизи точного решения х*. Рассмотрим погрешность х*—х<л)=е<4 Соотношение между и е(4) получится, если в (1.6.3) вместо x<fe> и х^+1> подставить их значения х(*)=х*—х(А+4)=х*— х*—8<*+1)=<р (х*—е<А)). Это равенство элементов Rn равносильно и численным равенствам х*—e^+1)=q>i (х;—8<*>, ... , х‘ —eW) (i= 1, 2, ... , n). Предположим теперь^ что х^ лежит близко к х* и погрешности еЮ являются малыми величинами. Разложим правую часть по степеням и выделим из разложения линейную часть. Если принять во внимание, что х*=фг(х*, х*, ... , х*), то предыдущее равенство приведет к следую- щему соотношению между е(п> и е(п+1): п е(л+1)= 2-~дГ~- •' ’-хп)(max le(/’l)- j=l э 1 Отсюда видно, что при выполнении одной итерации погрешность е(Ю=-(е(Ю претерпевает приблизительно линейное преобразо- х 71* вание В этой записи под подразумевается n-мерный вектор с координа- тами (е(^, ... , 8^); А есть значение на точном решении х* матрицы Якоби системы функций фг: dxi — Ф1 (х;, . п А = L dxi дхп
f 1.6. МЕТОД ИТЕРАЦИИ ДЛЯ СИСТЕМ УРАВНЕНИЙ 39 Чтобы сделать наглядным изменение, которое претерпевают погреш- ности е(р при преобразовании, мы выполним линейную замену перемен- ных. Для простоты будем считать, что все элементарные делители матри- цы А являются простыми. Существует такая неособенная матрица S, что А представима в виде A =S~* [Xi, Х2,...»Хп] 5. ». Здесь М, ... , Хп — собственные значения Матрицы А и [Xi, ... , Хп] — диагональная матрица, элементы которой, расположенные на диагонали, указаны в скобках. Х2, ... , Хп] Se<4 (1.6.5) Примем произведение Se(n> за новый вектор, подлежащий исследова- нию, и положим T)(n>=Sg(n\ Так как такое преобразование — неособен- ное, стремление е(п) к нулю при п->оо равносильно сходимости к нулют](п\ Умножив обе части равенства (1.6.5) слева на S, получим равенство, дающее закон изменения при одном шаге итерационного процесса: е+1)« [мд2,..., м п(п). Что равносильно п численным равенствам (i=l,2,...,/г). (1.6.6) Каждая из величин r)W (/=1, п) с изменением k будет изме- няться приблизительно как геометрическая прогрессия со своим знаме- нателем Xi. Если все Хг имеют модули, меньшие единицы: | Xi | <С 1 (/= 1, 2, . . . , tl) , [ТО весьма вероятно, что при &->оо. Вместе с т](^ будут стремиться К нулю все погрешности gW и итерационная последовательность будет Сходиться к решению х*. Если же среди Хг- будут большие или равные единице по модулю, то ^Нельзя гарантировать стремление к нулю всех rjW и, следовательно, Погрешностей gW при &->оо. Более того, если среди Хг- будут числа, строго бблыпие единицы по модулю, то при малых когда равенства (1.6.6) будут иметь малые относительные погрешности, некоторые по- Видимому, будут иметь модули большие, нежели т/*), и поэтому решение X* будет «элементом отталкивания» для итерационных приближений х<4
40 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Изложенное выше описание поведения погрешностей е(^ является очень наглядным, но его еще недостаточно для составления удовлетвори- тельной картины поведения приближений х&> вблизи х*, так как описание имеет преимущественно качественный характер и лишено количествен- ных оценок. Главным недостатком описания является следующий факт; оно основано на приближенном равенстве (1.6.4), которое получено из предшествующего точного равенства путем отбрасывания «малого сла- гаемого» о (шах | |). Мы не оценивали это слагаемое и не оценивали окрестность х*, в которой оно не исказит существенно картины поведе- ния х^п\ полученной нами на основании рассмотрения приближенного равенства (1.6.4). В изложении мы ограничились лишь указанной нами качественной картиной и не занимались количественной стороной вопроса. Перейдем теперь к теоремам о сходимости х<п> к х*. Нужные нам ре- зультаты мы получим как следствие из теоремы 1 § 1.5 о сжатых отобра- жениях. В теореме -имеются в виду метрические пространства, и, чтобы воспользоваться ей в нашей задаче, мы должны ввести в /г-мерное число- вое пространство метрику. В одномерном числовом пространстве, геометрически изображаемом точками числовой оси, естественной метрикой является абсолютное зна- чение разности между числами: р(х, у) = |х—у\. Оно равно длине отрез- ка между точками х и у на оси. В многомерном пространстве нет един- ственной естественной метрики, и в разных задачах бывает целесообраз- но пользоваться различными определениями метрики в зависимости от условий задачи и целей, которые мы преследуем. Мы будем пользоваться тремя определениями расстояния, которые наиболее часто употребляются в практике вычислений. 1. Кубическая метрика. Ее мы обозначим pw(x, у) и опре- делим равенством pm(x, y)=max |xt— t/t |. г 2. Октаэдрическая метрика. Обозначается ps(х, у} и опре- деляется так: Ps (.X, у) = | Xi—yt |. 2 = 1 ' 3. Шаровая равенством метрика. Обозначим ее р/(х, у) и определим р2; (X, у) = (Хг—УгУ. 2=1 Нам нужно будет для формулировки теорем подсчитать оценку коэф- фициента растяжения при преобразовании t/=<p(x) в каждой из этих
$ 1.6. МЕТОД ИТЕРАЦИИ ДЛЯ СИСТЕМ УРАВНЕНИЙ 41 метрик. Функции фг будем предполагать непрерывно дифференцируе- мыми. 1. Случай кубической метрики. В области рт(*, *(0)) б возьмем два произвольных элемента х=(хь х2, ... , %п) и у = = (yi, У2, ... , Уп) и рассмотрим координаты фг(х) и фг(у) их изобра- жений. |фг(%)— фг(у) | = |фг(хЬ . . . , Хп) — фг (*/1, . . . , Уп) | = Под символом ( )* здесь понимается значение функции, стоящей в скобках, в некоторой точке прямолинейного отрезка, соединяющего х и у. Положение этой точки зависит от %, у, i. Чтобы получить оценку, не зависящую от х, у и индекса заменим п на max max г х д<рг dxi ’ J где max означает наибольшее значение в области ргп(х^ лЯ)^6. После X этого мы получим п ртп[ф(я), ф(£/)] ^rnax max i х j=i рт(Я, у). Отсюда видно, что в качестве оценки для коэффициента растяжения Рт[ф(х),ф(1/)] ---------------может быть взята величина Ргп \Х, У) п 9=max max i х j=i (1.6.7) 2. Случай октаэдрической метрики. Рассматривается область ps(x, х(°))<6. Вычисления, сходные с теми, которые приведены в предыдущем случае, покажут, что верно неравенство
42 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ р5[ф(%), ф(f/)J= 2 |фг(х)— фг({/) |^?Ps(X, у) , г=1 (1.6.8) п q= max max г=1 j х дф* dxj Под max F подразумевается наибольшее значение функции F в обла- СТИ ps(x, Х(0)) ^б. 3. Случай шаровой метрики. Рассматриваемая область есть Верны следующие оценки: | фг (х) — фг (//) |2= п 2 п п п * j=l j=i x j=l J n p2 [ф(х), <p(t/) ] = % [фг(х)— фг(//)]2^?2р2 (X, у), г=1 (1.6.9) дфг дх. Укажем сейчас теоремы, дающие в трех метриках условия, достаточ- ные для сходимости итеративной последовательности. Ввиду того, что теоремы читаются во всех трех случаях аналогично, мы приведем полную формулировку лишь для кубической метрики, для двух же других ука- жем только изменения, которые должны быть внесены в теорему. Теорема 1. Пусть выполняются условия: 1) функции фг(хь ..., хп) (i = 1, 2, ... , п) определены и непрерывно дифференцируемы в области |Xj—х<0)|^6 (i=l, 2, ... , п); (1.6.101)
§ 1.6. МЕТОД ИТЕРАЦИИ ДЛЯ СИСТЕМ УРАВНЕНИЙ 43 2) удовлетворяют там неравенствам д^г dxj (1=Г, 2, ... , и); (1.6.111) 3) для начальных приближений х®\ , х(% выполняются условия (/=1, 2,..., n); (1.6.121) 4) для чисел б, q и m соблюдается неравенство m Тогда: 1) система (1.6.1) в области (1.6.101) имеет решение х* = (х*,..., х*), к которому сходится итерационная последовательность приближений х^= (х(*\ ...г, х<*>), вычисляемая по правилу (1.6.3); 2) скорость сходимости может быть охарактеризована неравенством ш x*—x<.h> I -------qh (i= 1, 2, ... , п г г 1 J________q ' ' ‘ (1.6.131) Заметим также, что из теоремы 2 предыдущего параграфа вытекает, что система (1.6.1) может иметь в области (1.6.101) не более одного реше- ния, если там выполняется условие max X d(fi dxj <1 0 = 1, n)< (1.6.141) Для октаэдрической метрики теорема и замечание к ней читаются так же, если условия (1.6.101), (1.6.111), (1.6.121) и неравенства (1.6.131), (1.6.141) заменить соответственно на следующие: п 2=1 (1.6.10г) max max dq>j dxj (1.6.11г) i х | x(0)—фг (x(®\ ... , %W) I & / w (1.6.12г)
44 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ п ‘ ШаХ тах г=1 i х (1.6.13г) дуг dxj (1.6.14г) Наконец, в случае шаровой метрики неравенства (1.6.101) — (1.6.141) должны быть заменены на указанные ниже: г=1 (1.6.1O3) (1.6.1b) п 2=1 (1.6.123) (1.6.13s) (1.6.14з) § 1.7. МЕТОД НЬЮТОНА. СЛУЧАЙ ОДНОГО ЧИСЛЕННОГО УРАВНЕНИЯ ь Метод Ньютона является весьма общим и применим к решению ши- рокого класса нелинейных операторных уравнений, в частности нелиней- ных численных уравнений. Его значение заключается в том, что он позво- ляет решение нелинейного уравнения свести к решению последовательно- сти линейных задач. Делается это при помощи выделения из заданного нелинейного уравнения главной линейной части. С формальной точки зрения метод Ньютона можно рассматривать как частный случай метода итерации, но, как мы увидим ниже, он основан на идее, совершенно от- личной от идеи, лежащей в основе метода итерации. Мы ознакомимся с идеей метода Ньютона на примере его применения к решению одного уравнения с одной численной неизвестной величиной. Пусть дано нелинейное уравнение f (х) =0, где х есть численная пере- менная и f — достаточно гладкая функция. Обозначим х* точное решение уравнения. Предположим, что каким-либо путем нами указано для х* исходное приближение Хо, и поставим перед собой задачу построить алго-
§ 1.7.-МЕТОД НЬЮТОНА 45 ритм для его уточнения при помощи построения линейного уравнения, приближенно заменяющего заданное и являющегося его главной частью. Нам удобнее от точного решения х* перейти к другой величине, которую в условиях проблемы можно считать малой. Рассмотрим погрешность исходного приближения 8=х*—х0. Нахождение х* или погрешности е — равносильные задачи, но для наших целей удобнее пользоваться е, так как, как правило, Хо бывает близким к х* и е — малой величиной. Для составления уравнения, из которого может быть найдена по- грешность, достаточно в равенство f(x*)=O вместо х* подставить его значение Хо+е: /(%о+е)=О. (1.7.1) С целью выделения отсюда главной линейной части можно разложить f (*о+е) по формуле Тейлора, ограничиваясь в ней лишь членами, линей- ными относительно е, и относя все члены, содержащие е в степенях выше первой, в остаток: f(xo)+ef'(x0)+o(g)=0.. Считая е малой величиной, отбросим остаток разложения о (в). Мы полу- чим после этого линейное уравнение для погрешности 8, близкое к (1.7.1) и отличающееся от него только на малую величину о(е) выше первого порядка: fUo)+ef(xo) ^0. (1.7.2) Решая его, мы найдем не точное значение погрешности 8, а лишь при- ближенное ее значение, которое обозначим 8о. Численная величина f(xQ) - 8°=---——как можно было ожидать, будет главной частью 8. Добав- / (хо) ляя ее к хо, получим исправленное приближение . Xi=Xo+eo, и можно надеяться, что оно будет ближе к х*, нежели х0: f(Xo) X1=Xo~7W Его можно в свою очередь улучшить, пользуясь теми же соображе- ниями, и т. д. В результате получим последовательность приближений хп (п=0, 1, ...), в которой каждое следующее значение xn+i находится по правилу Хп+1=Хп-4тЦ- (п=0, 1,2, ...). (1.7.3) / (Хп) Условием возможности процесса приближений (1.7.3) является вы полнение двух требований:
46 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ 1) все хп принадлежат области задания f(x); 2) Г(хп)=#0. Процесс Ньютона совпадает с простым одношаговым итерационным процессом для уравнения х=ф(х) при ф(х)=х------* с которым мы встречались в § 1.4, где занимались вопросом уточнения метода итерации. Правило (1.7.3) имеет простой геометрический смысл. В плоско- сти с системой координат хОу построим график I функции y=f(x) (рис. 1.7.1). Абсцисса точки пересечения I с осью Ох является решением х* уравнения f (х) =0. Отметим на оси Ох точку хп и рассмотрим на гра- фике / соответствующую точку Л4п(хп‘ f(xn)). В этой точке проведем касательную Тп к линии I и найдем точку пересечения Тп с осью Ох. Уравнение касательной есть у—f (хп) =//(хп) (х—хп). Положив здесь t/=0, мы получим уравнение для нахождения абсциссы пересечения Тп и Ох. Обозначим эту абсциссу xn+i. Для ее нахождения получится урав- нение —f (xn) =f'(xn) (Xn+i—хп) и Xn+i—xn----что совпадает с xn+i в правиле Ньютона (1.7.3). Поэтому правило Ньютона геометри- чески означает, что решение х* уравнения находится приближенно при помощи замены линии / касательной прямой Тп. Теперь постараемся путем нестрогих рассуждений выяснить нагляд- ную картину поведения приближений хп вблизи точного решения х*. Нам удобнее перейти к погрешности еп=х*—хп. Если из равенства х*=х* почленно вычесть (1.7.3), получим следующее соотношение между И £п-|-Ь 8п+1 — f(Xn)+Snf'(Xn) Заметив, что O=f(x*) =f(xn+en) ==f(x„)+W'(*п) + e2„r(^n+©en), мы легко получим выражение для en+i, дающее описание закона измене- ния порядка погрешности на одном шаге приближений: ___ 1 Г(хп+®еп) 2 8n+i- 2 • еп. Отсюда можно без труда получить одну из простейших теорем, в ко- торой указываются достаточные условия сходимости к х* ньютоновой последовательности хп. Мы применим это равенство к более частному
| 1.7. МЕТОД НЬЮТОНА 47 вопросу. При 1 2* Г(х*) малых еп множитель у е2 будет мало отличаться от и е2 +о(е2 ). п 1 4 п • Пренебрегая здесь малой высшего порядка малости, найдем нужный нам приближенный закон изменения погрешности еп: (1-7-4) тт ®п+1 / еп \2 Из него следует, что----~ I -----1 и отношение погрешностей при en х en-i ' одном шаге будет возводиться в квадрат. Предположим, что равенства вида (1.7.4) ег«—ае2. . г—1 (i—1,2,.'.., /1). выполняются с достаточной точностью. С их помощью нетрудно выра- зить еп через ео. Получим (1.7.5)
48 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ При | аео| <1 погрешность 8П будет быстро стремиться к нулю и про- цесс Ньютона (1.7.3) будет весьма быстро сходиться к точному решению. Перейдем теперь к теореме о разрешимости уравнения и сходимости к решению ньютоновой последовательности приближений. Для теоремы, которую мы докажем, особую роль играет вопрос о сходимости метода Ньютона для уравнения второй степени Р(/)=а/2+6/+с=0, где а, Ь, с — вещественные числа и 62—4ас^0. Корни его вещественные. Меньший из них обозначим /* и больший — /**. За исходное значение to „ ± t b _ примем любое значение Го¥=— —. Геометрически ясно, что если to лежит Cv вне отрезка [/*, /**], то ньютоновская последовательность tn будет моно- тонно сходиться к ближайшему корню многочлена. Если же to лежит внутри [/*, /**], то уже первый шаг вычислений выведет из этого отрезка, ti окажется лежащим вне [/*, /**] и после этого получится указанная выше монотонная последовательность tn. Чтобы убедиться в правильно- сти сказанного, достаточно рассмотреть рис. 1.7.2. Теорема 1. Пусть выполняются условия: 1) функция f(x) определена и дважды непрерывно дифференцируема на отрезке |х—хо|^б, (а) при этом |/"(х) | при всяких.х на этом отрезке; 2) f'(xo)=/=O и - — ^В; 3) выполняется неравенство 4) для В, К, т) соблюдено условие h=BKr\ верно неравенство h
§ 1.7. МЕТОД НЬЮТОНА 49 Тогда: 1) последовательность хп+1=хп-----777—7- (п=0, 1, 2, ...' / \хп) быть построена и является сходящейся: хп-+х*\ 2) предельное значение х* есть решение уравнения f(x) =0; 3) верна оценка скорости сходимости может * Пч где tn — ньютонова последовательность приближений tn+i=tn— 1 1 * \tn) 1 1 Т) к меньшему корню t* уравнения P(f) = —Kt2—— /4- — =0, построен- 2 D D ная при /о=О. Доказательство. Имеем: /*=-------т----тр Так как , п 2 корень t* есть действительное и, очевидно, неотрицательное число. После- довательность tn будет монотонно возрастающей и сходящейся к t*. Покажем при помощи индукции, что все хп (п=0, 1, ...) могут быть найдены, лежат внутри области (а) и для них имеет место оценка п- Сначала проверим это для %i=x0 777—г-. Так как Xq лежит внутри / (*о) отрезка (а) и f'(xo)=H=O, приближение Xi может быть найдено. Заметим, что дробь — будет изменяться в границах (1, 2]. Поэтому |%1—%о| = h и Xi лежит внутри (а). По условию to=O. Так как го неравенство (1.7.7) для Xi и xQ выполнено.
50 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ Допустим теперь, что Хо, Xi, ..., хп могут быть построены, лежат вну- три (а) и для них выполняются неравенства | -Xk-l-1 — 0, 1> • • • , 1) . По предположению xn лежит внутри (а) и f(xn), f'(xn) имеют смысл. Для установления возможности построения хп+1 достаточно проверить, что Г(хп)т^0. Но Рис. 1.7.2 показывает, что —-Р'(/п)>0 и, стало быть, |(хп) | >0. Оценим теперь ffxn). Воспользуемся тейлоровыми разложениями около точки Хп-1 X п f (%п)—f (Xn—i) ~l~ (Хп Xn—i X . п—1 Ввиду Хп = Хп-1— равна нулю и сумма неинтегральных членов в правой части X п X л п—1 Отсюда получается оценка или, так как по индуктивному допущению |xn—xn-i|<tn—tn-i, If(Хп)1 &
§ 1.7. МЕТОД НЬЮТОНА 51 Аналогичные вычисления для tn и Р(/п) дадут гп P(tn)= J P"(f) (tn-t)dt= 4-K(in-tn-i)2. t . n—1 Поэтому |f(xn) | ^P(/n). Значит, и неравенство (1.7.7) для хп и xn+i выполняется. Нам осталось проверить, что Xn+i лежит внутри отрезка (а). Имеем %п+1—*о| = I (Хп+1—хп) + (хп—хп-1) + • • •+ (Х1—*о).| (Jn+i — tn) + и xn+i, следовательно, лежит внутри (а). Докажем сходимость хп. Для этого достаточно проверить выполнение признака Больцано — Коши. (Jn+p— tn+p-l) + (^n+p-1— ^n+p-2 in» Но последовательность tn сходится и для нее признак Больцано — Коши выполняется. Полученное же неравенство доказывает, что он будет вы- полняться и для хп. > Обозначим limxn=x*. Утверждение о скорости сходимости (1.7.6) п->оо получится сразу же, если перейти к пределу при р->оо в неравенстве |^п+р хп | ^tn+p ini так как Хп+р >~х* и tn-\-p J Наконец, если в правиле Ньютона xn+i = считать, что Л—>оо, мы ввиду хп->х* и xn+i-^x* получим ——г-->0 и, так как f (хп) / \Хп) является величиной ограниченной, отсюда вытекает f(xn)->0, что, по не- прерывности f в точке х*, влечет за‘собой/(х*) =0. Предел х* действи- тельно есть решение заданного уравнения. Оценка скорости сходимости (1.7.6) в условиях теоремы 1 является неулучшаемой, так как . она достигается для квадратного уравнения 1 1 Т) -( Кх2—— %+ =0 при Хо=О- Но она недостаточно наглядна ввиду
52 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЯ того, что требует знания разности Изменение ее при росте п может быть охарактеризовано численной таблицей. В квадратном уравнении содержится два существенных параметра. С целью освободиться от од- ного из них введем новую переменную т, положив /=г]т. Подстановка в Р(Р) даст ^>(п'г) = ^-(у^2—тЧ-1) - Рассмотрим теперь квадратное уравнение ф(т) = уу- Лт2—т+1 =0 (1.7.8) и построим для него ньютоновскую последовательность приближений го=О, Тп+1=Тп------’Ру71) (п=о, 1, ...), Меньший корень квадратного Ф (тп) 1— V 1—2А уравнения есть т* =-------т----, и к нему будет сходиться последова- f t тельность Tn- Легко можно убедиться в том, что /п=т)тп. Уравнение (1.7.8) содержит только один параметр А, и это упрощает задачу табулирования. Для разности т*—тп может быть составлена таб- лица значений в зависимости от h и от п. Краткая таблица такого рода [6, стр. 58], позволяющая составить представление о скорости убывания т*—тп с ростом п, приведена ниже. Таблица значений т*—тп \ и h 0 1 2 3 4 5 0,05 1,026 0,263-10-1 0,183-10-4 0,877-10-11 0,203-Ю-23 0,10 1,056 0,557-10’1 0,173-10-3 0,166-10—8 0,155-Ю-18 0,15 1,089 0,889-10’1 0,698-10-3 0,436-10-7 0,171 • 10—15 0,20 1,127 0,127 0,202-10-2 0,525-10-® 0,356-10-*3 0,25 1,172 0,172 0,491-10-2 0,425-Ю-5 0,319-10-11 0,180-10-23 0,30 1,225 0,225 0,109-10-1 0,278-10-4 0,184-10-’ 0,802-10"2’ 0,35 1,292 0,292 0,230-10"1 0,166-ю-3 0,885-10-8 0,250 -10-16 0,40 1,382 0,382 0,486-10“* 0,101 • io-2 0,459-10—6 0,942 -10-13 0,45 1,519 0,519 0,110 0,749-10-2 0,395 -10-4 0,111 -ю-8 0,50 2 1 0,5 0,25 0,125 0,625-10-‘ Можно для х*—хп получить более грубую, но более наглядную, чем (1.7.6) оценку.
f 1.7. МЕТОД НЬЮТОНА 53 Теорема 2. При соблюдении условий теоремы 1, для разности х*-—хп верна оценка (1.7.9) Доказательство. Согласно формуле Тейлора, если учесть, что по определению тп ф(тп—i) + (тп—Тп—i)(pz (Тп—1) =0, то ф(Тп)=ф(Тп-1) + (Тп“Тп-1)ф,(тп-1) + — ф"(£) (Тп — Тп-1)2 = £ ~~ ~zr~ h(Xn Тп—i)2? ф'(тп) =hxn— 1, ф(тп) Тп+1 Тп — 77 ; Ф (Тп, _ 1 h ~ Т 1 -hxn (Tn Xn~l) • (1.7.10) Так как то=О, п=1 и h получим Отсюда вытекает оценка для тг: T2=Ti+ (тг—Ti) 1+ -т- = Для п=2 из (1.7.10) следует 1 h тз—т2= -7;—;—; h 2 h Тз = Т2+(Тз—т2) Продолжая такие оценки, для произвольных значений п=0, 1,2, ... найдем (1.7.11) По определению тп и ввиду ф(т*) =0/имеем
54 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Т‘—Тп = Т*—Т„-14- Ф/Тп-^, =--------------Г [ф(т*)~ф(тп—1 ф (Тп-1) ф (Тп-1) — (Т*—Тп-1)ф' (Тп-1) ] . По формуле же Тейлора ф(т‘) — ф(тп-1) — (т*—Тп-1)ф'(Тп-1)= ф"(Ю (т*—Тп-1)2 = = -у Й(т*—Тп-1)2, ф'(Тп-1) — hlln-i— 1 и, стало быть, Т* — Тп= —------------------7-------Тп-1)2. 1 —птп-i 2 На основании (Г.7.11) v (2—22-п) =21-", и поэтому T‘-Tn^2"-2/i ff-r Тп-1)2. (1.7.12) . Применим это неравенство последовательно для п=1, 2, ... , приняв 1—У 1—2/i во внимание, что т* =----:----=5,2. h Дляп=1 находим т*—ti^2-‘/i(t*—To)2^2/i. Для п—2 т‘—т2^/г(т*—Ti)2^ft(2/i)2= (2/г)3. Продолжая такие оценки, получим T*-Tn^^rr(2/i)2n-i. Этот результат доказывает теорему, так как |х*—хп\ s^t*—/п=1)(г*—Тп) (2/г)2”-1 Т). Сделаем еще дополнение к теореме 1. В ней, в частности, было дока- зано, что при выполнении условий,, перечисленных там, уравнение
§ 1.7. МЕТОД НЬЮТОНА 55 f(x)=0 будет иметь на отрезке |х—Хо| ^6 решение. Мы укажем сейчас область, в которой можно гарантировать единственность решения. Теорема 3. Пусть для функции fix') выполнены условия теоремы 1 с тем различием, что 6^-----—------. Если h<Z —, то решение х* у рае- /I & нения f(x)=O будет единственным в области |х—х0| ^у, где y</**=1+}7 2Й г). (1.7.13) Если же h= |х—х0|^у при 2 ’ то решение х* будет единственным в области (1.7.14) Доказательство. Рассмотрим сначала случай h<Z — и допу- стим, что х есть решение рассматриваемого уравнения, принадлежащее области |х—Хо| Так как для у выполнено условие (1.7.13), то можно положить |х—ХоI ^0(/**--/о) =0/**, О^0< 1. Ввиду f (х) =0 верно равенство х—= — 1 [/ (х) — f (х0) — (х—Хо) f' (хо) ] . По формуле Тейлора (1.7.15) X f(x)=f(x0) + (x—Хо)Г (Хо)+ j /"(/) (х—t)dt Хо и, следовательно, Отсюда х-х1=- -z l y J Г(0 (x-Z)d/. If (Хо) I ’~2 ка-хо)2-
56 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ При доказательстве теоремы 1 нами при оценке f'(xn) было получено неравенство |Г(хп) | |^(^п) |, где Р(/) есть вспомогательный квадрат- ный многочлен. Если, кроме того, воспользоваться неравенством (1.7.15), получим оценку - 02 1 Наконец, так как * *2---- найдем нужную нам оценку |х—Xi| ^02(7** —ti). Сравним ее с (1.7.15). Она получается из (1.7.15) заменой 0 на 02 и Хо, /о на Xi, ti. Применив это правило п раз, получим неравенство |x-xn| ^02п (/**-/п) <©2П /**. (1.7.16) Так как 0<1 и не зависит от и, отсюда следует, что хп-+х, и поэтому Когда h= число 0 может равняться единице. Оба корня много- члена Р(/) тогда совпадают: t** = t* и, так как tn-+t* (п->оо), из (1.7.16) вытекает, что |хп—х|->0. Этим теорема доказана. § 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА Метод Ньютона есть метод линеаризации задачи. Он является одним из старейших вычислительных методов решения уравнений. Его история имеет почти трехсотлетнюю давность. Метод очень часто применяется, и поэтому естественно, что было сделано много попыток, преследующих цель изменить его либо в сторону увеличения скорости сходимости, ли- бо— упрощения вычислений. В большинстве видоизменений нарушалась идея, лежащая в основе метода Ньютона,— идея линейности уравнения, из которого должно быть найдено улучшенное приближение. Очень часто или указывались рекур-
§ 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 57 сионные правила для получения следующего приближения, или для их нахождения требовалось решать нелинейное уравнение. Ниже мы дадим очень краткое описание некоторых направлений, в которых можно изме- нять метод Ньютона. Более полное изложение приведем лишь для не- большого числа видоизменений, где сохранялась линейность уравнения, служащего для получения улучшенного приближения. Начнем с вопроса увеличения скорости сходимости. Прежде всего „ К*п) напомним, что правило Ньютона хп+1=хп——- является частным случаем одношагового простого правила итерации xn+i=<p(xn) при ф(х) =х— Поэтому все приемы увеличения скорости сходимости метода итерации, о которых мы говорили в § 1.4, могут быть перенесены на метод Ньютона для уравнения f(x)=O. К такому виду относятся, на- пример, итерационные правила (1.4.4а) и (1.4.46), полученные там. При вычислениях по правилу Ньютона мы составляем таблицы зна- чений трех величин хь, f(x&), f'(xk) (6=0, 1, ...). Пусть таблица дове- дена до значений хп, yn=f(xn), уп'=f'(xn) и вычислению подлежит xn+i- По существу дела мы выполняем линейное интерполирование функции y=f(x) по одному узлу хп и известным значениям в этой точке функции yn=f(xn) и производной от нее yn'=f'(xn) и полагаем приближенно у ~ f (хп)+f'(хп) (х—хпу Затем находим то значение х, при котором у обращается в нуль, и принимаем его за xn+i. Но мы можем надеяться найти xn+i с большей точностью, если выпол- ним интерполирование y=f(x) по значениям f и f' не в одном узле хп, а в нескольких предшествующих узлах хп, xn-i, . -. , xn-k, или интерполи- рование обратной функции x=F(y) по значениям F и производной в узлах уп, Уп-i, .. , уп-k- В обоих случаях мы за- меняем на некоторый многочлен, вообще говоря нелинейный, функцию f или ей обратную и отступаем от идеи приближенной линеаризации за- дачи. Поэтому мы не будем рассматривать указанные методы в парагра- фах, посвященных методу Ньютона, и более подробное ознакомление с ними отложим до гл. 4. Можно указать одну задачу в проблеме увеличения точности метода Ньютона, которая решается в рамках идеи линеаризации. До настоящего места мы предполагали, что первая производная f'(x) не обращается в нуль на интервале, где лежат все приближения хп- В отдельных вопро- сах мы предполагали, кроме того, /'(**) #=0, т. е. корень х* считали одно- кратным. Сейчас мы выясним вопрос о скорости сходимости ньютоновой последовательности в случае, когда кратность решения х* выше первой. Убедимся сначала, что сходимость хп->х* в этом случае сильно замед-
58 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ ляется. Допустим, что решение х* имеет кратность т и, стало быть, раз- ложение f по формуле Тейлора в окрестности решения х* имеет форму f(x)=am(x—x*)m4-am+i(x—х*)^+.. ,+ат+Р(х—x*)w+?+/?m+p, (1.8.1) (6=0,1,...). /v I Допустим, что хп находятся вблизи х* и погрешности еп=**“-*п являются малыми величинами. Правило Ньютона дает следующую связь между погрешностями гп и еп+ь Sn+l — &п f(%* &п) f'(x*—en)' Сохраняя в разложениях только два главных члена, при помощи (1.8.1) находим: f (X*—е„) = (—l)m [ame™-am+ie’"+1+...], tv IV f'(x*—en) = (—l)m~i [тате^-1— (rn+l)am+i^+...], tv f V I \ 1 \ ^m+1 9 . 8n4-l— \ 1--I ----------о-- “Г* • * ' tn' tn2am n или, если сохранить только один главный член, (1.8.3) Последнее равенство говорит, что еп изменяется приблизительно по за- 1 1 кону геометрической прогрессии со знаменателем ^=1— — меньшим единицы. Если сравнить этот результат с равенством (1.7.4), дающим закон изменения еп в случае простого корня х*, когда f'(x*)=#O, будет видно, что в случае кратного корня сходимость хп->х* будет намного медленнее.
$ 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 69 Можно поставить вопрос о том, как следует изменить вычислительное правило Ньютона, чтобы в случае кратного корня улучшить его сходи- мость и сделать ее приблизительно такой же быстрой, как и для простого корня. Оказывается, что этого можно достичь весьма просто, оставаясь в границах идеи линейности уравнения для погрешности. Введем число k, выбор которого совершим позже, и рассмотрим вы- числительное правило f(xn) Xn+i==Xn k с* (1.8.4) / \xn) Соответствующий ему закон изменения погрешностей еп есть, оче- видно, т2ат Если мы хотим увеличить скорость убывания еп при возрастании и, то для этого достаточно положить k=m. Тогда главный член в правой части равенства исчезнет и будет верным следующий приближенный за- кон изменения еп: mam Qm+i 2 = 2 &п m(/n-f-l)f(m)(x*) 8п* Можно сказать поэтому, что если разыскиваемый корень х* уравне- ния f(x)=O имеет кратность т, то вычислительное правило будет иметь приблизительно такой же закон убывания погрешности еп для хп, близких к х*, как и в основном правиле Ньютона (1.7.3) при Геометрический смысл правила весьма прост. Будем считать хп изве- стным и рассмотрим точку Мп(хп, f(xn)) на графике I функции /(х). Напомним, что в правиле Ньютона (1.7.3) мы проводили в точке Мп ка- сательную к линии I и за Xn+i принимали абсциссу точки пересечения касательной с осью. Ох. Новое правило (1.8.6) получается из (1.7.3) при помощи замены f'(xn) на — f'(xn). Последнее означает, что через точку /УТ Мп проводится не касательная прямая к /, а вспомогательная прямая, для которой тангенс угла наклона к оси Ох в т раз меньше, чем для касательной прямой. Координата точки пересечения такой прямой с осью Ох и принимается в правиле (1.8.6) за Хп+ь
60 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Теперь перейдем к видоизменениям метода Ньютона, имеющим целью упростить вычислительную работу за счет некоторой потери в скорости сходимости последовательности хп. В методе Ньютона главная доля тру- да затрачивается на нахождение значений f(xn) и f'(xn) и было бы жела- тельно избежать вычисления одной из этих величин вполне или отчасти. В первую очередь естественно отказаться от вычисления значений f'(xn), так как для суждения о близости хп к решению знание f(Xn) имеет, во- обще говоря, большее значение, чем знание f'(xn). 1. Начнем с метода секущих. Можно было бы заменить f'(xn) надле- жаще подобранной линейной комбинацией из нескольких значений функ- ции f. Мы рассмотрим наиболее простую из таких замен, когда f'(xn) приближенно вычисляется по двум последним найденным парам чисел Соответствующее правило вычислений следующего приближения будет: п— Оно имеет простой геометрический смысл. Возьмем на графике I функции f(x) две точки Мп[хп, f(xn)] и Mn_i[xn_i, f(xn-t)] и проведем через них секущую прямую линию. Уравнение секущей есть и правило (1.8.7) означает, что за xn+i принята абсцисса точки пересече- ния секущей с осью Ох. По сравнению с основным правилом Ньютона метод секущих имеет особенности, на которые мы хотим обратить внимание. Этот метод явля- ется двухшаговым и для начала вычислений требует знания двух исход- ных приближений Хо и xt к*решению ,х*. Условиями возможности осуществления алгоритма (1.8.7) являются: 1) принадлежность всех хп области определения f; 2) выполнение неравенств Остановим свое внимание на случае, когда f (xn)—f(xn-i) =0. Здесь могут быть две возможности.
| 1.Я. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 61 1. Пусть xn-i=#xn. Как видно из равенства Хп — Хп—1 —2) f (хп—1) f (Хп—1) f (х^—2) значение f(xn_i)#=O. Поэтому f(xn) также отлично от нуля и следующее приближение (Хп Хп—i) f (Хп) Xn+i== Хп 77 Г Г/ \ f (Хп) f (^Хп—1) не может быть построено. Процесс приближений по правилу секущих здесь оборвется на приближении хп и не приведет к решению. 2. Допустим теперь, что xn=xn-i- Мы считаем при этом, что все при- ближения х0, Xi, ... , xn_i, хп могут быть построены, Хо, Xi, ... , xn-i раз- личны между собой и /(Xfe+i)—f(х/Q =#0 (& = 0, 1, ... , и—2). Из приве- денного выше выражения для хп следует, что f(xn-i) =0 и xn-i есть реше- ние заданного уравнения. В этом случае последовательные приближения осуществимы до значения хп, при этом два совпадающих последних зна- чения xn-i и хп являются решениями заданного уравнения. Изучение правила (1.8.7) начнем с выяснения поведения приближе- ний хп вблизи решения х*. Для погрешности &п=х*—хп из (1.8.7) полу- чится уравнение . (бп—1 Cn)f(X* 8п) 6п+1 —6n+ • Если сюда внести вместо f(x*—en) и f(x*—en-i) их разложения по сте- пеням погрешностей /(х‘-еп)=-Г(х*)еп+4-Г(х*)е2 , 2 п f (х*-еп_1) =-f'(x'*) 6n-i+ у f"(х*)е2п_1+.... и выполнить разложение правой части по степеням 8П и en-i, сохраняя лишь члены до второго порядка относительно этих величин, найдем Сравнение полученного равенства с аналогичным равенством (1.7.4), дающим закон изменения погрешности 8П в основном методе Ньютона, говорит, что погрешности в методе секущих, будут изменяться по закону,
62 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ близкому к закону изменения еп в основном методе, но с несколько мень- шей скоростью стремления &п к нулю.*) Приведенная ниже теорема о сходимости последовательности хп, по- строенной по методу секущих (1.8.7) , высказана в форме, близкой к сход- ной теореме для основного метода Ньютона. Мы будем предполагать выполненными условия последней теоремы и в соответствии с этим счи- тать известным, что решение х* существует и является единственным. В теореме для нас полезны в первую очередь сведения о возможности осуществления метода секущих и о сходимости хп. Предварительно сделаем два пояснения, полезные для понимания условий теоремы. В методе секущих, как и в основном методе Ньютона, мы должны предполагать, что все последовательные приближения хп лежат на отрезке, где производная f' не обращается в нуль и /, следова- тельно, будет монотонно возрастающей или убывающей функцией. Вычисления начинаются с двух исходных значений, которые были обозначены Xq и Xi. Для нахождения х2 по правилу (1.8.7) безразлично, какое из приближений взять за Xq и какое за хь Но когда мы перейдем к нахождению х3 по х2 и Xi, становится не безразличным, что принято за х^ Рассмотрим значения f(xo), f(xi). Они различны по модулю. За Хо естественно принять то из двух приближений, которому отвечает большее по модулю значение функции и считать |f (х0) | > \f (xi) |. Исследование сходимости приближений будет основано на сравнении хп с приближениями tn, построенными по методу секущих, к меньшему корню t* квадратного многочлена Рп (о=4-Kti- 4 D D D известного по теореме 1 § 1.7, когда вычисления начинаются со значений /о=О и /1>0. Чтобы сделать возможным сравнение и придать ему простую форму, оказывается, достаточно подчинить Xi первому неравенству условия (7) теоремы и положить ti = |xi—Хо|. Кроме того, в доказательстве будет иметь значение приведенное ниже неравенство (1.8.9). Для п=1 оно выполняется ввиду выбора ti. Для ин- дуктивного доказательства его необходимо, чтобы оно было верным для первого шага вычислений: |х2—xj^fe—ti. Ввиду же условий (1) — (6) теоремы, для этого достаточно, как будет выяснено ниже, считать |f(xi) | ^P(Zi), что совпадает со вторым неравенством условия (7). Теорема 1. Пусть для уравнения f(x)=O и исходных приближений х0 и Xi выполняются условия: ♦) Можно дать более точное сравнение законов убывания еп при п->оо для основ- ного метода Ньютона и метода секущих, если решить разностное уравнение (L8.8)- Для наших целей достаточным является качественное заключение, указанное в тексте.
| 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 63 1) f(x) определена и дважды непрерывно дифференцируема на от- резке |х—%о1^б; 2) Г(хо)=#О и ^5; f(*o) ' Г(хо) 4) вторая производная f"(х) на отрезке [х—Хо|^б ограничена по модулю числом К: 5) для чисел В, т], К справедливо неравенство h=B^ 4-; & лч о 1— VI— 2/1 6) б>—h—п; 7) для Xi выполняются неравенства |xi—х0|<-„ 2h- T\=t* и |f(x1)|^P(|x1-x0|)=P(/1). Т огда: 1) приближения Хп, определяемые правилом секущих (1.8.7), либо приведут к решению за конечное число шагов, либо могут быть построены при всяком п и образуют сходящуюся последовательность: lim хп=х*, п->оо предельное значение х* которой есть решение заданного уравнения f(*)=0; 2) скорость сходимости может быть охарактеризована неравенством |х*—xn| tn, (1.8.9) где tn — последовательные приближения по методу секущих к меньшему корню t* квадратного уравнения р(о=у»->|=о при /о=0, /1=|Х1—х0|.
64 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Доказательство. Ввиду — корни многочлена P(t) действительны и неотрицательны. Условие . . . 1—У 1—2Л ti= Xi—Хо < -7--Т) 11 h означает, что h лежит между /о=О и /*. Если сделать чертеж, то из него будет видно, что последовательность tn будет возрастающей и сходящей- ся к /*. Рассмотрим всю последовательность приближений хп, построенных по правилу секущих (1.8.7). Пусть это будет х0, Xi, ... , xN. Она может быть конечной или бесконечной. В последнем случае мы будем условно считать N=oo. Напомним, что конечной эта последовательность может быть по двум причинам: либо xN выйдет за границы отрезка |х—х0| ^б, являющегося областью определения f, либо будет f (xN)—f (xjv-i) — 0. Докажем, что для последовательности хп верны неравенства (1.8.10) Для этого прибегнем к индукции. При п=0 неравенство (1.8.10) выпол- няется ввиду того, что t{= |Xi—Хо| и /о=О. Проверим выполнение его для п=1. Если воспользоваться формулой Тейлора, получим оценку делителя |/(*i) —f(x0) I = | (Xi—Xo)f'(Xo) + (Xi—X0)2f"(%) I > Следовательно, |x2—Xi| С другой стороны, если проделать такие же вычисления для /2—^i, полу- чим ввиду /о=О
| 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 65 (Zi-/o)P(4) _ Р(/1) — _L__L В 2 и так как по условию (7) |f(xi) |^P(/i), из полученных оценок следует |х2—Xl|</2— ti- Допустим теперь, что (1.8.10) выполняется для Хо, Xi.хп и проверим его выполнение для пары хп, xn+i. Начнем с оценки f(xn). По правилу (1.8.7) Хп Хп—1— f (Хп—1) (Хп—1 f (хп—i) f(xn—г) или (хп Хп—2 )f(Xn-2)=0. Отсюда следует, что » /г ч Хп Хп—2 \ । Хп Хп—1 -z ч п Л(Д хп)— ~ ~ f (Хп—1)4” __ f (%п—г) 0. Хп—1 Хп—2 Хп—2 ^п-1 Но L(f, хп) есть значение в точке хп линейного многочлена, интерполи- рующего функцию f(x) по двум ее значениям f(xn-2) и f(xn-i). в узлах хп-2, хп—1 и f(xn)—L(f, хп) есть значение остатка интерполирования. По известной теореме об остатке, будем иметь f(x„) =?(«„)-£(,. х.) = га< Здесь g есть некоторая средняя точка на отрезке, содержащем хп_2, Хп—1, Хп. На основании формулы Тейлора f (хп) f (xn-i) = (хп Хп-1) f (xn-i) + (хп—xn—i)2 fz/ (т|), где т) лежит на отрезке [хп-ь хп]. С помощью последних двух формул получаем По индуктивному предположению, п—1
66 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ И п %п п-2- Числитель в последней части (1.8.11). может быть оценен величиной Так как — [ l-^n-4—%n-2l “Н . -4“ |Xi—X0| ] [ (^n-1— tn-2) +• . •+ (ti—to) ] = 1 —Ktn-i д | ^П—1 XQ | D для абсолютной величины знаменателя в (1.8.11) находим оценку снизу |Г (*n-i) + V (Х„-Хп-!)Г(n) I > 4 4 = Z o 'Z Попутно отметим, что Так как иЧг-Я Таким образом, из (1.8.11) получаем (1.8.12) Если проделать для уравнения Р(/)=0 вычисления, сходные с теми, которые были проделаны нами для получения (1.8.11), найдем:
| 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 67 Сравнение этого результата с (1.8.12) приводит к нужному неравенству |*n+i—*n| ^tn+t—tn. Этим завершается индуктивное доказательство (1.8.10). Остановимся сначала на случае конечного N. Предполагая возможным построение Хо, Xi, ... , xN, мы должны счи- тать, что Хо, Xi, ... , Xjv-i лежат на отрезке |х—х0|^6. Покажем, что xN также принадлежит этому отрезку. Действительно, + (Jn-i—Алг-г) “Н • •+ (6—/о) = In—tQ=tN<J* = Так как xN принадлежит области определения /(х), приближение Хдг+1 не может быть построено только по причине равенства/(х^)~/(xjy-i) =0. Оценим разность If(Xjv)— I = (Xjv—Xn-1) [ f' (Xtf-l) + -— (Xn—f" (n) J I • & Применив к сумме, стоящей в прямых скобках, рассуждения, вполне аналогичные тем, которые были проделаны несколькими строками выше при оценке снизу абсолютной величины делителя в (1.8.11), поЛучим не- равенство |/ (Xjv) —f (Xjv-1)
68 Гл. I. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Производная Р'[ 1 отлична от нуля ввиду <.t*. Поэтому изучаемая разность может равняться нулю только в том случае, когда xn=xn-i. Но тогда, как отмечалось перед доказываемой теоремой, xN-i есть решение заданного уравнения: xN-i=x*. Таким образом, в слу- чае конечного N решение уравнения находится по методу секущих за конечное число шагов.*) Перейдем к случаю Af=oo, когда последовательность хп является бесконечной. Проверим ее сходимость: Так как последовательность tn сходится, для нее признак Больцано — Коши выполняется. Из полученного неравенства следует, что признак будет выполняться и для хп и последовательность хп также будет схо- дящейся: хп-+х*. Неравенство (1.8.9), характеризующее скорость сходимости, сразу же получается, если в неравенстве |xn+p—xn| ^tn+p—tn перейти к пределу при р->оо и заметить, что при этом хп+р-^х* и /п+р-И*. Наконец, если в правиле (1.8.7) перейти к пределу при и->оо, то, ввиду хп+1->х* и хп->х*, мы придем к заключению, что (xn Хп—1 )f(xn) и, так как f(Xn) f (Xn—i) Xn %n—l ->f'(x*), должно быть f(xn)-+0 независимо от значения f'(x*). Для предельного значения х*, из-за непрерывности f в точке х*, должно выполняться ра- венство f(x*)=O и х* должно быть решением уравнения f(x)=O. Теоре- ма 1 доказана. 2. Видоизменение с начальным значением производной. В этом последнем видоизменении метода Ньютона, как и в предыду- щем, освобождаются от вычисления значений производных f'(xn) на каж- дом шаге. Пользуются только одним начальным значением /'(х0). После- довательные приближения вычисляются по правилу *) Аналогичное может случиться и при вычислениях по основному методу Ньютона, с тем лишь различием, что при xN-i=x* и /'(xn-i) =/=0 расчетная формула не теряет смысла, вычисления могут быть продолжены, но последовательность приближений ста- новится стационарной: xN-i=xn = .. .=х*. По этой причине в § 1.7 мы не останавли- вались на этом исключительном случае.
f 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 69 (n=0, 1, 2, ., .). (1.8.13) Исходное значение Хо' считается известным. Геометрический смысл правила состоит в следующем: на графике I функции f(x) возьмем точку Мп\хп', /(х/)] и через нее проведем прямую линию, имеющую тот же тангенс угла наклона к оси Ох, что и касательная к / в начальной точке Л4о[хо', f(x0')]. Уравнение такой прямой есть у—f (xn') =f (х0') (х—хп'). Правило (1.8.13) означает, что за следующее приближение x'n+i прини- мается абсцисса точки пересечения указанной прямой с осью Ох. Будем считать хп' и x'n+i близкими к решению х* и рассмотрим по- грешности еп'=х*—хп', 8,п+1=х*—-x'n+i. Правило (1.8.13) дает уравне- ние для погрешностей Если воспользоваться разложением f =-епТ(х‘) + 4- 8ПТ(Х‘), подставить его в правую часть уравнения и сохранить только линейные члены, получим приближенное равенство, дающее описание изменения погрешности ъп' вблизи точного решения: W) (1.8.14) Закон изменения близок к геометрической прогрессии со знамена- f'(x*) телем <7=1---тп—Так как исходное, приближение х</ обычно берет- I (М ся близким к решению х*, отношение —к” является близким к еди- / (Хо) нице и знаменатель q, как правило, имеет небольшое значение. Сравнение (1.8.14) с законом (1.7.4) убывания погрешностей в основ- ном методе Ньютона позволяет сказать, что видоизменение метода с начальным значением производной имеет сходимость более медленную, чем в основном методе. Теорема 2. Пусть для уравнения f(x)=O и начального значения Xq' выполняются условия:
70 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ 1) f (х) определена на отрезке | х—х0' | ^б и дважды непрерывно диф ференцируема там; 2) 3) выполнено условие 4) вторая производная f"(x) ограничена по абсолютному значению на |х—Хох| ^б числом К: 1Г(х)|^К; 5) для чисел В, т], К выполнено условие h=BKr^-^, - м 6) верно неравенство 1— V 1—2/г h Г)^б. Тогда: 1) приближение хп\ определяемое правилом (1.8.13), может быть по- строено для любого п; 2) последовательность приближений хп' сходится: Хп'-^Х* (п->оо); 3) предельное значение х* есть решение заданного уравнения; 4) скорость сходимости оценивается неравенством п > где t* есть меньший корень квадратного уравнения р<о=v№2-4z+4=o Z и D и tn есть последовательность приближений к нему, построенная по пра- P(tn') вилу t'n+i = tn'--при to'=0. г (Го)
| 1.8. ОБ УТОЧНЕНИЯХ И ИЗМЕНЕНИЯХ МЕТОДА НЬЮТОНА 71 Доказательство. Приближение tn' будет монотонно возрастать при увеличении п и стремиться к /*. Убедиться в этом можно при помощи чертежа. Покажем, что приближения хп' могут быть построены при всяком п, принадлежат области |х—Хо'1 ^б и для хп' выполняется неравенство При п = 0 неравенство верно’ так как х1,=х0,~ может быть построено и |х/—х0'| = Наконец, |х/—х0'| -----Ц^б и х/ принадлежит области |х—Хо'|^б. Допустим, что Хо', х/, ... , Хп могут быть построены, принадлежат области |х'—хо'|^б и для них выполнены неравенства |x\+i—х/| f(Xn) ^fk+i—tk (* = 0, 1, , п—1). Приближение x'n+i=xn'----- - / Ио ) ' очевидно, может быть построено, так как хп' принадлежит области опре- деления f и f'(xo') =И=0. Займемся оценкой разности x'n+i—хп'. На осно- вании правила (1.8.13) и при помощи простых преобразований получаем для нее приводимое ниже представление: п— It- 'll— В первой квадратной скобке последней части равенства стоит остаток тейлорова разложения около точки x'n-i. Для него известно интеграла ное представление через вторую производную f":
72 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ которое дает возможность оценить первую из скобок величиной 2-К|хп'-х'а_1|2. Для второй квадратной скобки J ^K\x'n_i—х0'|. X / о На основании индуктивного предположения Vх Vх I << / х /х Лп Л п—11 * П—1 и XoZ| —х'п-г! +• . .4-|х/—Xq' I (t'n-1 tfn-2) 4" + • . .+ (//—/0') = t'n-i—to'—t'n-i' Наконец, так как найдем = BK(t'2—t'2 л 2 4 п п—1 Сходные вычисления для уравнения Р(/) =0 дадут еп+1-1п'=-вк^п-^ и из сличения этого равенства с предыдущей оценкой получается нужное неравенство | X п+1" Хп | t n+1 tn • Проверим принадлежность xn+i области |х—x0z|^6: х'п+1—Хо' I I x'n+i—Хп' I +• . •+ I Xi —Хо' (t'n+l tn) “Ь +. . .+ (//-/o') =/'n+l</*^6. Дальнейшие рассуждения будут весьма сходными с концом доказатель- ства теоремы 1 и мы приведем их очень коротко. При помощи (1.8.15) легко получается неравенство lx'n+P—xn'l ^t'n+p—tn'. Так как последо- вательность tn сходится, то для нее выполняется признак Больцано — Коши. Из неравенства следует, что признак будет выполняться и для
§ 1.9. ОПЕРАТОРНЫЕ УРАВНЕНИЯ И МЕТОД НЬЮТОНА 73 последовательности хп' и она будет сходящейся: limxn,=x*. Если же в неравенстве перейти к пределу при р->оо, мы получим утверждение (4) теоремы об оценке скорости сходимости. Наконец, если в правиле вычис- лений (1.8.13) перейти к пределу при п->оо, мы убедимся в том, что lim f (хп') =0. Ввиду хп'-+х* и непрерывности f это дает f(x*)=O и х* есть, следовательно, решение заданного уравнения. Оценка скорости сходимости, указанная в утверждении (4), является неулучшаемой в условиях теоремы, так как она достигается для квадрат- ного уравнения Р(/)=0. Можно указать другую, более простую и на- глядную, но менее точную оценку. Приближения tn и tn-i связаны зави- симостью tn —t n-i —п+ у BKtn-l' Для точного решения t* справедливо равенство t*=х\-\--j-В Kt*2. & Вычитая эти равенства почленно, найдем t*-tn'= l-BW+t'n-i) (f-t'n-i), и так как rn_i<r =---t--т), t*-tn,<BKt*(t*-t'n-l) = (1-У 1-2Л) Применим это неравенство п раз: .----- 1 t*—tn'<Zqnt*, q=l— У 1— 2й<1 при h<z —. £ Последнее неравенство говорит о том, что сходимость tn'-*4* происходит не медленнее, чем со скоростью геометрической прогрессии со знамена- телем q. | 1.9. ОПЕРАТОРНЫЕ УРАВНЕНИЯ И МЕТОД НЬЮТОНА В § 1.7 и 1.8 мы рассматривали теорию метода Ньютона для уравнения с одной численной неизвестной величиной. Основная же идея этого метода о приведении не- линейного уравнения к последовательности линейных уравнений имеет, очевидно, много более общее значение: она применима к системам уравнений с несколькими численными неизвестными, к уравнениям, в которых роль неизвестной величины играет не число, а функция, например, к нелинейным дифференциальным и интегральным уравнениям, и многим другим.
74 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Было бы желательно ^построить теорию метода Ньютона, не зависящую от кон- кретного вида уравнения и опирающуюся только на абстрактные математические поня- тия. Это оказалось возможным сделать в достаточно общем виде, если воспользоваться некоторыми понятиями и результатами функционального анализа.*) Докажем сейчас две теоремы, достаточно общие и удобные для многих приложений, об осуществимости основного метода Ньютона для операторных уравнений, сходимости последовательных приближений к точному решению и о единственности решения.**) Теоремы сформулированы в форме, сходной с аналогичными теоремами § 1.7 для численного уравнения. Доказательства теорем в значительной мере повторят рассужде- ния, проведенные в указанном параграфе. Пусть X и Y есть два полных, линейных, нормированных пространства, элементы которых будем обозначать х и у соответственно. Предположим, что в некоторой области D пространства X определен нелинейный оператор y = f(x), значения которого принадлежат пространству У. Оператор f(x) пред- полагается дважды дифференцируемым в D в смысле Фреше (добавление I, § 3). Рассмотрим уравнение f(x)=O. ’ (1.9.1) В правой части его стоит нулевой элемент из У. Будем считать, что мы знаем исходное приближение Хо к решению уравнения (1.9.1). Правила вычислений, позволяющие найти следующие приближения по предыдущим, строятся на том же основании, как и в случае одного численного уравнения. Полагая f(x) = f (х0) + [f (х) — f(xo)], возьмем вместо раз- ности f(x)—f(xQ) дифференциал оператора на элементе хо: f'(xo) (х—хо) и заменим заданное уравнение f(x)=0 приближенно линейным уравнением f (х) «f(xo)+f'Uo) (х-х0) =0. (1.9.2) Решая его, найдем-улучшенное приближенное значение Xi. Если для f'(xo) существует обратный оператор [/'(хо)]-1, переводящий У в X, для Xi можно написать следующее явное выражение: Xi = хо— [f (хо) ] -1 f (хо) •. Повторяя для Xi те же операции, построим по Xi второе улучшенное приближение х2 и т. д. В общем виде правило нахождения следующего приближения по предыдущему будет Xn+i=Xn“[f'(Xn)]_1 f(Xn) (n = o, 1, 2, ...). (1.9.3) Условием возможности построения последовательности хп является выполнение двух требований: 1) принадлежность хп (n = 0, 1, ...) к области D определения оператора f; 2) существование обратных операторов [/'(хп)]-1. Докажем теорему о разрешимости уравнения f(x)=O, об осуществимости процесса Ньютона (1.9.3) и о сходимости последовательности хп к решению уравнения. Теорема 1. Пусть выполнены условия: 1) оператор f(x) определен в замкнутом шаре II х—ХоП^б w (а) около исходного приближения хо, дважды дифференцируем там и вторая производная от него по норме ограничена в этом шаре числом К: *) Необходимые сведения из функционального анализа можно найти в добав- лении I. **) Более полное ознакомление с общей теорией метода Ньютона можно найти в кни- гах [3 и 4].
| 1.9. ОПЕРАТОРНЫЕ УРАВНЕНИЯ И МЕТОД НЬЮТОНА 75 II Г'(х) II 1|Х-хоП^б; 2) оператор /'(хо) имеет обратный Го= [Г (хо)]-1 и известна оценка его нормы: II. Го || св; 3) на начальном элементе Хо соблюдено неравенство II rof(xo)llcn; 4) для В, К, т] выполнено условие h = BK^± 5) для б верно неравенство 1-У l-2/i -----------т]г^б. . h Тогда: 1) уравнение /(х)=0 имеет в области (а) решение; 2) последовательные приближения хп (n = 0, 1, 2, ...) процесса Ньютона могут быть построены, принадлежат области (а) и сходятся к решению уравнения: limxn=x*; 71->ОО 3) быстрота сходимости оценивается неравенством II х*—хп II у*____у =5-. 4 4 71, (1.9.4) еде in и i* имеют тот же смысл, что и в теореме 1, § 1.7. Дока ^тельство. Покажем, что при условиях теоремы приближения хп могут быть построены при любых значениях п, все хп принадлежат области (а) и для них выполняется неравенство II Xn+i XnllC^n+i in> (1.9.5) Прибегнем к индукции. Так как х0 принадлежит'области (а) и по предположе- нию (2) оператор Го= [f (х0) ]-1 существует, первое улучшенное приближение xi=x0— —IW(xo) может быть построено. Кроме того, по предположению (3) || xt—хо II = р(/о) р(0) е|| Го/(хо) || С Л- Если же обратить внимание на то, что /1—/о =—:-=---------= п, р'(М Р'(0) то мы убедимся, что неравенство (1.9.5) для Хо и Х\ выполняется. Допустим теперь, что приближения Хо, хь .... , хп могут быть построены, принадле- жат (а) и для них выполняются неравенства || xA+i—хА ||</A+Hft (Хг = О, 1, ... , п— 1). Мы покажем, что приближение xn+i может быть построено по правилу (1.9.3), если уста- новим, что существует оператор [//(xn)]_1. Для этого воспользуемся следующей простой Леммой об обратном операторе. Лемма. Пусть линейный оператор Н преобразует полное нормированное линейное пространство X в себя. Если ||//|| = Q<1, то оператор 1—Н имеет обратный (1—Н)-\ 1 при этом II (1—Н) -*11 . 1 Q Доказательство. Ряд Лх=х+Ях+//2х+.а. сходится, так как || Нпх Ц 1 1 II х || и || Ах || -|| х ||. Поэтому || А -. Кроме того, 1—q 1—Q
76 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ (I-H)Ах= (х+Нх+Н2х+ ...) - (Ях+Я2х+...) =х, А (7—Я)х= (х-Нх) + (Ях-Я2х) + ... =х. Отсюда следует А=(7—Я)-1 и 11 (Z—Я)”1 , что доказывает лемму. Рассмотрим теперь оператор Я=Г0[Г(хп) — f (х0)], дающий отображение X в себя, и оценим его норму.. В теории операторов известна приводимая ниже теорема об оценке изменения оператора.*) Если F(x]— дифференцируемый оператор, то для его изменения верно неравенство || Р(х+Дх) -F(x) || С sup || F' (х+0Дх) || || Дх ||. Применим эту оценку к (хо): II f'(Xn)— Г (х0) II sup II Г[хо+0(хя— Хо) ] || || Хп—Хо ||<К || Хя—Х0 ||. °С0^1 Но II Хп—Хо 11^11 Хп— Хп —1 11 + 11 Хп-1—Хп-2 11+ ... +11 Xj—Х0 ||, / и так как по индуктивному допущению II Xk+i—xk IIC^+i—tk (£=0, 1, 1), TO II Xn—Xq II (tn—tn-i) + (tn-l—tn-2) + . . . + (ti—to) = tn И II !4xn)4'(x0)\\^Ktn. Поэтому _____ Чл 1— V 1— 2h •' 11 Я ||^|| Го II II f'(xn)-f'(xo)\\^KBtn<KBt*=KB^----- =1- yi-2h1 h и || Я ||^ЛВ/п<1. /+Я=/4-Го[Г(хп)-Г(хо)] (Л-Я1-‘ = { Z+Го (Г (хп)(хо) ] }-* и(/+//)-‘Ис- . Ввиду приведенной выше леммы оператор имеет обратный и верна оценка нормы Положим Гп = (/+Я)“4Го и, воспользовавшись известным равенством (ЛВ)-«= =B~iA~i, получим Г„ = (I+H) -‘Го = {Го-‘ [Z+Г» (Г (хп)-f' М ),]}-* = = {Г (Хо) + [/' (Хп ) -Г (хо) ]} -‘ = {f'(xn)} *> Доказательство ее указано в добавлении I.
| 1.9.-ОПЕРАТОРНЫЕ УРАВНЕНИЯ И МЕТОД НЬЮТОНА 77 Мы доказали существование оператора {/,(хЛ)}”1=Гп и этим установили возмож- ность построения xn+i. Легко получается оценка II {/' (Хп)} II = нг» II II (I+H) -1II ПГоII ------—!------ - —. 1-ui\tn 1 * \1п) T~Ktn 1 1 Т] Под P(t) здесь понимается квадратный многочлен Р(/) =—Kt2-----/+—-, который 2 В В участвовал в теореме 1, §1.7. Нам осталось еще найти оценку f(xnI'. По предположению, хп находится по правилу (1.9.3) и для него верно равенство Xn=Xn-l—[/'(Xn-l)]”1 f(Xn-i) или f (xn-l)+f'(xn-l) (Xn~Xn-l) =0. Поэтому f(xn) =f(Xn)—f(xn-l)—f(Xn-i) (xn — Xn-i). Это выражение можно рассматривать как разницу между изменением f(хп)~f(xn-i) оператора f и его дифференциалом /'(xn-i) (xn—*n-i). В функциональном анализе изве- стна теорема об оценке такой разности. Если оператор F двукратно дифференцируем, то для него верно неравенство *> || F(x+&x)-F(x)-F'(x)bx IK — max || F"(x+0Ax) || || Ах ||2. 2 o^e^i Применим это неравенство к приведенному выше выражению f(xn): и воспользуемся тем, что II хп-1 IK/n—/n-i: llf(xn)IK— max II Г[*п-1+0(Хп—Xn-i)]ll II хп—xn-i ЦК—K(tn—tn-i)2. 2 2 При доказательстве теоремы 1 §1.7 обращалось внимание на то, что — K(tn-tn-i)2 = P(tn), Следовательно, llXn + .-Xn ll<ll[f'(Xn)]-‘ll II/(Х„)||^-- * (*п 1 tn И неравенство (1.9.5) для хп и xn+t действительно выполняется. Проверка принадлежности xn+i внутренности шара не вызывает затруднений: II Хп + 1—Хо II II Xn + i—Хп 11 + 11 хп—xn-l II +• . .+ 11 Xi—Хо II (/п + 1—in) + 1—У1—2/г + (tn—/п-1) +• . •+ (/1 — to) =/п + 1—to = tn + !</*= ---— Т) ^б. П ) Доказательство приведено в добавлении I.
Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ После того как установлено неравенство (1.9.5), дальнейший ход доказательства теоремы протекает без труда. Так как последовательность tn сходится, для нее признак Больцано — Коши выполняется, а из оценки II хп + р Хп II II %n + p <Xn + p—1 II + II Хп + р —1—Хп + р— 2 114". . Я" 11 Xn+i—Хп || (tn + P~"~tп+р— 1) 4“ (^п + р —1 ^п + р—г) 4"« • *4" Gn + 1 tn) ==tn + P tn следует, что признак выполняется и для последовательности хп- Ввиду же полноты про- странства X, последовательность хп будет сходиться: limxn = x*. Все хп принадлежат замкнутому шару (а) и предел х* также будет ему принадлежать. Для доказательства того, что предел х* есть решение уравнения f(x)=O,' рассмотрим правило (1.9.3), взяв его в форме f (хп) =f'(xnl (хп+г— хп) и перейдем к пределу при п->оо. При этом будет xn+i—хп->0, и так как f и {' дифференцируемы и, следовательно, непрерывны всюду в шаре (а), в частности на элементе х*, то f(xn) и f'(xn) будут стремиться соответственно к /(х*) и f'(x*). В пределе будем иметь f(x*)=O. Утверждение об оценке скорости сходимости (1.9.4) получится из ^неравенства || Хп+р—Хп \\^tn+p—tn> если в нем фиксировать п и устремить р к 4“°°- Отметим, что оценка (1.9.5) в условиях теоремы не может быть улучшена, так как она достигается для численного уравнения Р(/)=0. В конце § 1.7 было доказано, что -— (2Л)2П-\ 2n-i v ’ и оценка (1.9.4) может быть поэтому заменена более наглядной, но несколько более грубой оценкой 11 х*~Хп 11 (2/02 "“‘П. (1.9.6) Перейдем теперь к проблеме единственности решения. Теорема 2. Пусть для оператора f(x) и начального элемента хо выполнены условия (1)—(5) теоремы 1с тем различием, что ------------г] = /**. h Тогда уравнение /(х)=0 имеет единственное решение при h<z— в области 2 1 || х—Хо II</** и при h=---в области || х—х01|^/**. 2 Доказательство. Ввиду того что условия теоремы 1 выполняются, уравнение имеет решение х* в области || х—хо ||^/*^/**, составляющей часть области, предусмот- ренной теоремой 2, Нам нужно показать, что всякое другое решение будет совпадать с х*. 1 Рассмотрим случай h<Z — и допустим, что существует решение х в области || х—Хо || </**. Можно положить II х-хо ||^е/‘* = 0(/**-М (0^0<1). (1.9.7) Для сокращения записи введем оператор F(x) =х—Го/(х) и отметим несколько его свойств, которыми мы воспользуемся в преобразованиях: FW=xt F'(xo)=O, Г"(х)=—Г0/"(х).
§ 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИЙ 79 Выполним оценки II х-х, || = || х- [хо-Го/ (хо) ] || = ||F (х) —F (х0) || = ||F (х) -F (х0) -F' (х0) (х-х0) || = 1 1 _ _ . = — sup l|F"[xo+0(x—Хо)]|| II х—Хо||2=— sup IIГо/"[хо+0(X—Хо)] II *11 х—х01|2^ 2 2 o^o^i 1 - 1 — ВК II х—х01|2 < — ВЛ02/**2 2 2 и так как 11 / P(t0) \ — ---— [?(<**)-Р(Л>)-Р'(/о)]=/••- to--------------= & (to) ' г (to); / ТО II X-Xt 11 ^02 Сравнение последней оценки с (1.9.7) говорит о- том, что она получается из (1.9.7) заменой 0 на О2 и to, х0 на 6, Xi. n-кратное применение этого правила приведет к не- равенству II х—Хп и^02п(/**—М<02п***. (1.9:8) 0<^1 и не зависит от п, поэтому || х—хп ||->0 и хп-+х. Но по теореме 1 хп-+х* и, следо- вательно, х=х*. 1 При h= — число 0 может равняться единице. Но тогда /** = /* и ввиду tn-+t* 2 из (1.9.8) вытекает || х—хп ||->0, откуда, как выше, следует х=х*. § 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИИ Рассмотрим систему v уравнений с v численными неизвестными Xi, х2, ... , xv: Л(х4; хо, ... , xv)=0, f2(Xi; Хо, ... , xv)=0, , fv(xt, Хо, ... , xv)=0. (1.10.1) Для сокращения записи введем v-мерное векторное пространство, элементами кото- рого будут упорядоченные совокупности v чисел x=(xi, х2, ... , xv). Функцию yi = =fi(xi, х2, ... , xv) ниже часто будем записывать yi=fi(x). Одновременно введем v-мерную вектор-функцию f(x) = (fi(x), f2(x)J ... , fv(x)). Система (1.10.1) коротко запишется f(x)=O. (1.10.2) Метод Ньютона для системы (l.loT) является естественным обобщением этого метода для одного численного уравнения, который был рассмотрен в § 1.7. Как и там, основная идея метода будет состоять в приведении нелинейной системы (1.10.1) к реше- нию последовательности линейных систем. Такое приведение достигается путем выде- ления из уравнений системы линейных частей, являющихся главными при малых по- грешностях.
80 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Пусть нам известно приближение x<°)=(xi ! хг , ... , xv ) к решению системы. Для наших целей удобнее рассматривать не точное вектор-решение х= (%i, ... , xv) системы, а вектор-погрешность х—х(°) = (Xi—лч0),..., xv—x(v0)) = е = (ei, £.., ev|. Уравнения для определения будут ^(х(О)+е)=о (f=l, 2, ...» v). Разложив левую часть по степеням eij... , ev при помощи формулы Тейлора и сохранив лишь линейные члены, получим приближенную линейную систему dfi (х<°)) G=L 2, ... , v)\ (1.10.3). из которой мы сможем найти не точные, а лишь приближенные значения погрешностей, -(0) -(0) — -(0) которые мы назовем (ei , , ev )=е<°). Прибавляя ег- к исходным значениям неиз- вестных, получим улучшенные их значения: (1.10.4) Вектор х^ мы в свою очередь можем улучшить, составив для него систему вида (1.10.3). Из нее мы найдем главные части погрешности б(1> = %—х^> и т. д. Каждое следующее приближение х(п+1> к решению будет находиться из линейной системы, составляемой по предшествующему приближению х^п\ V dxj э j = i 3 (1.10.5) з v, n = 0, 1, 2, ...) Матрицей системы является значение матрицы Якоби rw = dfi dfi dfi "1 dxi dxz dxv df2 df2 df2 dxt dxv 0fv dfv _dfv dxi dxz dxv _ (1.10.6) при х=х(п).
| 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИЙ 81 Система будет разрешимой и определенной только в том случае, когда определитель ее отличен ст нуля: £[Л(х(п))] =/=0. Будем говорить, что процесс Ньютона для системы (1.10.1) осуществим, если система (1.10.5) может быть составлена и будет однозначно разрешимой при всех п=0, lj 2, ... Условием осуществимости процесса, если считать функции fi дифференцируемыми, является выполнение требований: 1) принадлежность (n = 0, 1, ...) области определения всех 2) неравенство нулю определителей Якоби D[/'(х(п))] при п=0, 1, 2, ... Изучение процесса Ньютона начнем с выяснения наглядной картины изменения погрешности х*—х(п)=е<п)= (ei ; , ev ) вблизи точного решения, которое мы обоз- начим х*=(Х1, ... , xv). Погрешности Ei , ... , ev будут малыми величинами. Под- (П) (п + 1) (п) * (п) ставим в (1.10.5) вместо х$ и Xj их выражения через погрешности х$ =Xj-*~8j (п + 1) * (п + 1) . . х * . . и xj —Xj—8j . Функции fi будем считать дважды непрерывно дифференцируе- мыми. Если принять во внимание равенства и сохранить в результате подстановки лишь главные члены, то, пользуясь предположе- (п) нием о малости 8j , получим V V Можно воспользоваться матрицей f'(x*) и систему записать более просто: /,(х*)8<я+1) = - d2f(x*) dxjdxk з ь (1.10.7) Когда £[/'(**)]=#0 и матрица Якоби f'(x*) имеет обратную, отсюда можно найти век- тор-погреШность е(п+1>: e<n+‘>»------[Г(х*)]-‘ >, — e<”>etn). (1.10.8) 2 dxjdxk i h j, h = i J Равенство говорит о том, что погрешности ej приближения номера п+1 будут
82 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЯ о («) малыми величинами второго порядка относительно погрешностей ej предыдущего приближения номера п. Это обстоятельство заставляет ожидать, что если в окрестности точного решения х* определитель D[f'(х)] матрицы Якоби отличен от нуля и если исходное приближение х<°) взято достаточно близким к х*, ньютоновский процесс осуществим и последовательность х(п) будет сходиться к решению х* по квадратичному закону. Все сказанное ввиду приближенности равенства (1.10.8) может быть использовано лишь для ориентировочных, нестрогих оценок и заключений. Теоремы, выясняющие точ- ные условия сходимости процесса и дающие строгие оценки погрешности, будут сформу- лированы ниже. Мы получим их как частные случаи из соответствующих теорем для операторных уравнений. Система равенств ... , xv)=yi (i=l, 2, ... , v) или, коротко, f (x) = у дает отображение v-мерного векторного пространства X на v-мер- ное векторное пространство У. В каждом из пространств X и Y можно ввести свою норму. Для упрощения мы будем считать, что в X и Y введена одна и та же норма, и остановим свое внимание на нормах т, s и I (кубической, октаэдрической и шаровой). Первой *) производной (х) от оператора f на элементе х будет оператор линейного преобразования X-+Y V yi'= aihXkt (1.10.9) k = i матрицей которого является матрица Якоби с элементами aih = dfi (х) дхл Вторая производная f"(x) на элементе х может быть истолкована как билинейный оператор у"=Р(х) (х', х"), где V „ d2h (x) yi = “Z----------z- dxjdxk j, h = l 3 V / // / // Xj Xk = ajkXj xh 3, k = i (1.10.10) Предположим сначала, что в X и Y введена кубическая норма ||x||m = max |хг|. i Рассмотрим произвольную матрицу alv avl avv Как известно,**) норма матрицы, подчиненная кубической норме вектора, есть ||Л||7П = тах |аг з [. (1.10.11) г з = 1 *) Значения f' (х) и f"(x) объяснены и вычислены в добавлении I. ** ) См. § 2.1. В гл. 2 и 3 приняты другие обозначения норм векторов и матриц, при- вычные в книгах по линейной алгебре, а именно, нормы 11-*-||т, !!••• Из и !]•••||z обозначают- ся соответственно ||•••||I, II•••Ни и || — ||ш. Пц
§ 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИЙ 83 В теореме 1 § 1.7, которую мы хотим применить к системе (1.10.1), особую роль играет оператор Го= [Г(хо)]-1« В нашей задаче он является матрицей, обратной для Ее m-норма имеет следующее значение. Предположим, что определитель, матрицы Якоби D(f'(х^)) =D отличен от нуля, и пусть Djk есть алгебраическое дополнение dfj(x0) элемента-------. Согласно (1.10.11 dxk 1 v ЦГо1|т=—— max У \Djh\. (1.10.12) h Найдем оценку для нормы второй пройзводной f"(x): V (П V V (i) |#i"| = | ajhXj' Xk"\^ | J£ajkXj'\ max |xA"| 3, k = l j — lk — i k |4&I max |x/| max |^/i,,|= |a,21 llx'll llx"||. 3, h = l j h з, fe = i Отсюда мы получаем следующую оценку нормы f"(x): d2fj (х) dxjdxk (1.10ЛЗ) Соотношения (1.10.12) и (1.10.13) позволяют сформулировать в m-метрике теорему о сходимости процесса Ньютона для системы (1.10.1), являющуюся частным случаем теоремы 1 § 1.9, в следующем виде. Теорема 1. Пусть выполнены условия: 1) функции fi(x) ^=fi(xit ...» xv\ определены и дважды непрерывно дифференци- руемы в области (i 1, 2, *£• , v), (а) при этом для вторых производных в этой области выполнено неравенство d*fi (х) dxjdxk (1=1, 2, ... , у); 2) значения xi(0), ...» х^} образуют приближенное решение системы (1.10.1) и для них выполняется неравенство 1Мх(0))|<п; (0) (0) 3) матрица Якоби f'(x) имеет в точке x<°)(xi , ... , xv ) определитель D = = Z)(f'(x(0))), отличный от нуля, и если Djk есть алгебраическое дополнение элемента dfi -----9 то верна оценка дхк
84 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ v (Л=1, 2., V); 4) для чисел К, к\, В выполняется условие 1 /г=В2Кп^—; 2 5) для б верно неравенство 1— У 1—2/г h Тогда: ♦ ♦ 1) система (1.10.1) имеет в области (а) решение х* = (%i, ... , xv ); 2) последовательность ньютоновских приближений x(n>=(xin); ... , ) может быть построена, принадлежит области (а) и сходится к решению х*; 3) скорость, сходимости оценивается неравенством |х*~х\п} (Z=l, 2, ... , v), 1-У 1— 2h 1 где t*=-------------Вт\ есть меньший корень квадратного уравнения P(t) = —Kt2— h 2 ‘ 1 -----/+^ = 0 и tn (n=0, 1,2,...) — последовательные приближения к нему по методу В Ньютона, построенные при /о = О. V Пусть теперь в пространствах X и Y введена октаэдрическая норма ||x||s = у |xj|, г=1 Подчиненная ей норма матрицы (§ 2.1) есть ||Л||в= max |. j t=i Поэтому s-норма матрицы Го= [/'(х0)]”1 будет следующей: 1 V ЦГо||.= — max V 3 *=i (1.10.14) (1.10.15) df} где Djk есть алгебраическое дополнение элемента-----в матрице /'(х<°))\ ' ч dxk Почти так же просто оценивается норма y"=f"(x). у X £ |х/'|^тах |аЯ’| ||х'||. ||х"||, ||«/||,||х'||, ||х"||, max |аД|. fc = i jh i j, ft
j 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИИ 85 Отсюда вытекает оценка s-нормы f"(x) dxjdxk (1.10.16) И мы можем сформулировать теорему в s-метрике об осуществимости и сходимости алго- ритма Ньютона для системы (1.10.1), как частный случай теоремы 1 § 1.9. Теорема 2. Пусть выполнены условия: 1) если функции fi(x) ...» xv) определены и имеют непрерывные вторые производные в области (а) и d2h (х) dxjdxk (/, 6 = 1, 2, ... , v; хе(а); i= 1, 2, ... , v); 2) значения xi0>! ...» х^ образуют приближенное решение системы (1.10.1) и вы- полняется неравенство £ 1Л(х<0>)|^п; 3) матрица Якоби f'(x^) имеет определитель D=D[f'(*(0))]» отличный от нуля, и верна оценка V PI k = i 4) для чисел К, т), В выполняется условие h = B*K^ K = Li+L2+ ... +LV; & 5) для 6 справедливо неравенство 1- У 1—2/i h Вт)Сб. Тогда: 1) система (1.10.1) в области (а) имеет решение х*\ 2) ньютоновский процесс (1.10.5) для системы (1.10.1) осуществим, последователь- ность приближений х<п> лежит в области (а) и сходится к решению х*\ 3) быстрота сходимости оценивается неравенством £ |хГ—х‘п) I 1 = 1 где t* и tn определены, как в теореме 1.
86 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Немного более сложным является случай (§ 2.1), когда в пространства X и У вве- дена шаровая метрика: 2 г — 1 Подчиненная ей норма действительной матрицы А = [а;ь] равна корню квадратному из наибольшего собственного значения А произведения А'А, где А! есть транспониро- ванная матрица: IMIL=VA. (1.10.17) Находить А часто затруднительно, и в приложениях предпочитают иногда пользо- ваться не точным значением, а оценкой нормы матрицы, которая легко может быть получена. v v 2 v 2 Г^/'|2=| ajh Jg xh = k — i h = i k = i v 2 2 £ a,h 11x11/, fc = i ll/'ll/c J/ a}K llxllf, j, k = i 1 (l.lp.18) Рассмотрим теперь матрицу Го= [f(x(0))]“1. Оценка (1.10.18) ее нормы будет, оче- видно, следующей: 11Го11^ (1.10.19) Получим, наконец, оценку для нормы Неравенство Коши — Буняковского дает где Af означает наибольшее собственное значение матрицы А/Аг-, являющейся произве- дением матрицы Г (i) (О “I Ди aiv (<) ajh = d2A (*) — — \ dxjdxk (i) (i) — avi *** &УУ — и транспонированной А/. Отсюда получаем
§ 1.10. МЕТОД НЬЮТОНА ДЛЯ СИСТЕМ УРАВНЕНИЙ 87 г = 1 г = 1 Это дает оценку нормы f"(x): (1.10.20) В нашей задаче пользоваться этой оценкой затруднительно, так как пришлось бы находить наибольшие собственные значения А/ для всяких х=(х£ ... , xv) из обла- сти (а). Предпочтительнее воспользоваться другой, более простой, но несколько более грубой оценкой. Для ее получения достаточно обратить внимание на то, что из сравнения (г)2 соотношений (1.10.17) и (1.10.18) сразу следует Аг^ ajk и 3 9 И/"(х)11^ (1.10.21) Неравенства (1.10.19) и (1.10.20) позволяют сформулировать в /-норме теорему о сходимости процесса Ньютона (1.10.5) для системы (1.10.1), как частный случай тео- ремы 1 § 1.9. Теорема 3. Пусть выполняются условия: 1) функции f i (х) = fi (xi, ... , xv) определены и двукратно непрерывно дифферен- цируемы в области i = 1 (а) при этом для вторых производных в этой области выполняется неравенство d2h (х) dxjdxk 12 Я2; 2) для исходного приближения x<°)(xi ; ... , xv ) к решению системы справедливо неравенство V 2 2? h (х(0>) г — 1 3) матрица Якоби f' (х<°>) имеет определитель D = D[f'(x(°))], отличный от нуля, и верна оценка 1 3, k—i
88 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ 4) для чисел К, В выполняется условие h = B2Kr]^ —; 5) для б верно неравенство Тогда: 1) система (1.10.1) имеет в области (а) ^решение; 2) ньютоновский процесс (1.10.5) для системы (1.10.1) осуществим, последователь- ность приближений х<п) лежит в области (а) и сходится к решению х*; 3) скорость сходимости может быть оценена неравенством Значения t* и tn указаны в теореме 1. § 1.11. МЕТОД РЕШЕНИЯ, ОСНОВАННЫЙ НА ВОЗВЕДЕНИИ КОРНЕЙ В СТЕПЕНЬ Этот метод был предложен независимо друг от друга несколькими учеными. В нашей научной и учебной литературе он заслуженно назы- вается методом Лобачевского. Применяют его для нахождения решений алгебраических уравнений, хотя, если иметь в виду принципиальнуюсто- рону дела, он может быть применен для уравнений в аналитических функциях. Как будет видно из дальнейшего, метод Лобачевского не тре- бует предварительного приближенного нахождения корней и позволяет одновременно найти все корни многочлена. Недостатком его является тот факт, что при вычислениях приходится иметь дело с числами, сильно раз- личающимися по порядкам величин. Будем рассматривать алгебраическое уравнение степени п Р(х) =aQxn-\-aiXn~i-[-,. .-\-ап = 0. Корни его перенумеруем в порядке убывания модулей: В основание метода был положен весьма простой факт. Напомним соотношения между корнями и коэффициентами многочлена:
88 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ 4) для чисел К, В выполняется условие h = B2Kr]^ —; 5) для б верно неравенство Тогда: 1) система (1.10.1) имеет в области (а) ^решение; 2) ньютоновский процесс (1.10.5) для системы (1.10.1) осуществим, последователь- ность приближений х<п) лежит в области (а) и сходится к решению х*; 3) скорость сходимости может быть оценена неравенством Значения t* и tn указаны в теореме 1. § 1.11. МЕТОД РЕШЕНИЯ, ОСНОВАННЫЙ НА ВОЗВЕДЕНИИ КОРНЕЙ В СТЕПЕНЬ Этот метод был предложен независимо друг от друга несколькими учеными. В нашей научной и учебной литературе он заслуженно назы- вается методом Лобачевского. Применяют его для нахождения решений алгебраических уравнений, хотя, если иметь в виду принципиальнуюсто- рону дела, он может быть применен для уравнений в аналитических функциях. Как будет видно из дальнейшего, метод Лобачевского не тре- бует предварительного приближенного нахождения корней и позволяет одновременно найти все корни многочлена. Недостатком его является тот факт, что при вычислениях приходится иметь дело с числами, сильно раз- личающимися по порядкам величин. Будем рассматривать алгебраическое уравнение степени п Р(х) =aQxn-\-aiXn~i-[-,. .-\-ап = 0. Корни его перенумеруем в порядке убывания модулей: В основание метода был положен весьма простой факт. Напомним соотношения между корнями и коэффициентами многочлена:
§ 1.11. ВОЗВЕДЕНИЕ КОРНЕЙ В СТЕПЕНЬ 89 Х14-X2-j-. . .Н“ХП =----, do , . . а2 • •~\"Xn—iXn= —, По Х1Х2*3"Н • .+^п-2^п-1^п =-------, По %1%2 • • • Хп п * а0 сильно разделены Условимся говорить, ЧТО корни Хг (/=1, 2 в смысле отношений, если модуль предыдущего корня будет во много раз больше модуля следующего корня. Записать это можно в форме нера- венства Xk Так как в настоящем параграфе мы будем говорить о сильной разде- ленности лишь в смысле отношений, то для сокращения фраз слова «в смысле отношений» будем опускать и говорить только «корни сильно разделены». Если имеет место сильная разделенность корней, то равенства Виета (1.11.2) упрощаются. В самом деле, если в первом из них вынести за скобки Xi, оно примет форму (1 । х2 । хп \ di Н------Н—) =------------• Xi Xi' do Когда разделенность корней является достаточно сильной, то все отно- шения, стоящие в скобках, будут величинами, пренебрежимо малыми сравнительно с единицей. В пределах принятой точности их можно будет. П1 * отбросить и заменить первое равенство следующим: Xi&-. Аналогич- но ное будет иметь место и для всех других равенств Виета, и (1.11.2) заме- нится следующей системой приближенных равенств, верных лишь в при- нятой точности вычислений: П1. Xi я*------, do П2 do П3 *1*2*3 ~------, do Х1Х2 . dn п -Л do
90 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ До сих пор словам «корни сильно разделены» мы не придавали стро- гого арифметического смысла и пользовались ими только как средством наглядного описания. Сейчас можно сказать, что в нашем .изложении корни называются сильно разделенными, если в равенствах Виета первые члены в левых частях будут главными и сумма модулей остальных чле- нов в каждой из левых частей будет лежать вне принятой точности вы- числений и ею можно пренебречь. Если корни сильно разделены, то они очень просто находятся по коэф- фициентам. Из (1.11.3) следует, что &1 ^2 &3 &П Х1^-----, х2^-----, %з~----, ..., Хпж-------. clq Qi ct2 dn—i Изложенные простые соображения подсказывают путь для разыска- ния корней. Если в заданном уравнении корни не разделены сильно, то мы можем надеяться добиться их сильного разделения, если возведем их в высокие степени. Чтобы осуществить это, нужно указать достаточно простой алгоритм, позволяющий по заданному уравнению построить но- вое уравнение, корни которого были бы степенями его корней. Достаточ- но, очевидно, построить алгоритм нахождения уравнения, корни которого будут квадратами корней заданного уравнения. Выполняя несколько шагов преобразований, мы будем возводить корни в степени 2, 4, 8, , т = 2\ .. \ Наряду с Р(х) =а0(х—Xi) (х—х2) (х—Хп) рассмотрим многочлен Р*(х) с тем же коэффициентом а0 при старшей степени, корни которого равны —хь —х2,..., —*п, Р*(х) = d0(x+x1) (х+%2) ... (х+*п). Чтобы получить многочлен с корнями %2, х2,,.:. •, х2 , достаточно в произведении РР* заменить х2 на у\ Р(х)Р*(х) —а2 (х2—xf) :;. (х2-х2 ) = а2 (у—х2) ;.. (у—х2 ) = Pi(y). Многочлен Р*(х) строится просто. Равенства (1.11.2) показывают, что при сохранении По, когда корни хь ... , хп заменяются на —Xi, ... , —хп, коэффициенты с нечетными номерами а3, ... переходят в —t/i, —«з, ...» а коэффициенты с четными номерами сохраняют значения: Р* (х) =аоХп—а1хп-14-а2хп~2—..1)п ап. Запишем Pi (у) в форме Pi (у) = a^yn+aWy-^.. ,+аЮ. .
§ 1.11. ВОЗВЕДЕНИЕ КОРНЕЙ В СТЕПЕНЬ 91 Перемножение многочленов Р(х)Р*(х) = (а0хп-}-а1хп-1-}-а2Хп-2+...) (aQxn—а^хп-^—а2хп-2—...) приводит к следующему правилу вычисления коэффициентов с№: а<|)=2а0а2—а}, a^—2a0ak—2aia3+a?, a(i)=2aoa6—2а1а5+2а2а4—а!, О о (1.11.4) а(1)=(—1)"а2 . п ' ' • п Применяя это преобразование к многочлену Pi(у), построим многочлен Рг(у) с корнями х^> ... , xkn и т. д. После ^-кратного преобразования по- лучим многочлен Pft(x) =afxn+a^xn^+. 7 ,+aW корнями которого будут х™, а.у х™ при tn = 2h. Соотношения вида (1.11.2) между корнями и коэффициентами для него будут ymymym_L _l_ym ут ут — 1 2 3 ‘ п—2 п—1 п лСЬ)’ (1.11.5) fe) п п о Нашей задачей сейчас будет установить правила, следуя которым можно будет получать при больших т из равенств (1.11.5) сведения о численных значениях корней Xi. Исследование общего случая уравнения связано с громоздкой записью и сложными рассуждениями, которые могут затруднить пони-
92 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ мание сравнительно простого содержания задачи. Мы ограничимся по- этому разбором простых типичных случаев, понимание которых будет достаточным для многих приложений.. Кроме того, они позволяют соста- вить представление об использовании (1.11.5) в более общих случаях. В последующем изложении будем считать коэффициенты аъ, уравне- ния (1.11.1) действительными. 1. Предположим, что корни уравнения действительны и различны по абсолютной величине: (1.11.6) Сделав k достаточно большим, можно добиться того, чтобы первые члены в левых частях равенств (1.11.5) были бы преобладающими и сум- мы остальных членов лежали бы вне принятой точности. Тогда вместо (1.11.5) мы получим приближенные равенства, верные на принятое число значащих цифр: 1 aift) т, ут утп ут ~________ 2 n(fe) 12 3 0 (1.11.7) 0 Из них находим ТП ______ 3 а&> ’ ’ 2 (1.11.8) Отсюда мы получим абсолютные значения корней |xi|, |хг|, |*з|, ... Знаки же их можно определить, например, при помощи подстановки в уравнение. При преобразованиях мы вычисляем коэффициенты aW многочленов Рд(х). Нам осталось еще указать, как можно по поведению судить о том, достигли мы или не достигли необходимого k. Допустим, что нуж- ное значение k уже достигнуто и с принятой точностью равенства (1.11.7) выполняются. Проделаем еще одно, по сути дела уже лишнее, преобразо- вание и найдем многочлен Рл+1(х) =а^хп+а^хп^+ ... Для него также должны быть верными равенства вида (1.11.7) a(h+i} хТ~--^> ХТХТ~ о JM-1) £2___ а№) ’ ’ ’ * о Так как а^+1)= [а(^]2, из сравнения этих равенств с (1.11.7) следует, что
§ 1.11. ВОЗВЕДЕНИЕ КОРНЕЙ В СТЕПЕНЬ 93 абсолютные величины коэффициентов должны быть в принятой точ- ности равны квадратам коэффициентов cffii I«(?+,) I = [>]2. I ^+1) I = И>]2. . •. 4 Выполнение этих равенств и будет свидетельствовать о том, что необхо- димое значение k уже было достигнуто на предпоследнем шаге и вычис- ление коэффициентов многочлена Pk+t(x) было лишним. Для расчетной схемы этот признак означает следующее: коэффици- енты а&) и связаны между собой равенствами вида (4.11.4), нужно в них только ai заменить на с№ и с№— на Вычисления следует пре- кратить, если в принятой точности в правых частях сохранятся только квадраты коэффициентов, а суммы удвоенных произведений окажутся нйже границы точности. 2. Допустим теперь, что корни действительные и среди них есть рав- ные по абсолютной величине. Простоты ради предположим, что только два корня, например %2 и х3, имеют одинаковое абсолютное значение: При достаточно больших k соотношения (1.11.5) примут следующую приближенную форму: 1 9 £Л 1 л g а<? ^2 ~а&' о а™ - а«> ’ (ft) О Щ уТП у2?71 уГП />»/ _ 1 2 4 а(Л) ’ ХтХ^тХт 1 2 4 ' 4’ п п о Для нахождения х™ можно воспользоваться с одинаковым правом вто-
94 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ рым и третьим равенством. Например, из первого и третьего равенства ДЮ „(Ь) U3 тт ^4 следует х2™^ —Далее последовательно находим х™&------------. 2 #(«) 4 Нужно вновь указать признак, как можно по поведению коэффициен- тов судить о том, что необходимое значение k уже достигнуто. Допу- стим, что с принятой точностью равенства (1.11.9) верны. Сделаем еще раз преобразование и от многочлена Р&(х) перейдем к Рй+1(х) =а^+1)хп4-а(1/г+1Дп~1+ .. • Соотношения (1.11.9) для него будут „(h+Ц (Ш) (h+1) 1*1 142 _______ Оу2ту2?п _z____________ y2mv4m^/________________ а(й+1) ’ 2 а(М-1)? xi л2 ~ а(й+1) о о о Сравнение их с (1.11.9), ввиду а(^= [а<*>]2, приводит к равенствам a^)=[aW]2, И2, |^)| = М2, , & о н Как видно, все коэффициенты a(h+v по абсолютной величине равны квад- *2* ратам коэффициентов с№\ кроме а(£+1), для которого будет: Выполнение таких равенств и является признаком того, что достаточ- но большое для нашей цели значение k достигнуто на предпоследнем шаге и переход от k к ^+1 был излишним. 3. Пусть уравнение имеет комплексные корни. Они попарно сопря- жены, так как а* (1=0, 1, ... , п) действительны. Предположим, что существует только одна пара комплексных корней, и пусть это будут х2=ге^ и х3=ге~^. |%1| | 1 I. Ввиду x™-[-xm=2rm c°s mcp и х™х™=г2т, соотношения (1.11.5) будут такими:
$ 1.11. ВОЗВЕДЕНИЕ КОРНЕИ В СТЕПЕНЬ 95 \-2rm cos . .+х™= — а(к} 2x™rm. cos /Пф4-х”гх’п-|-.. .= —угг, 1 т 1 1 4 1 #(н) а(к) ^+w+.;>=_ а(к} х™г2пх™+.. .= 1 4 п(«) О 1 4 (ft) п а a(fe) ' О При больших k в каждом из них, кроме второго, первый член левой части будет превосходящим и для достаточно больших k соотношения дадут следующие приближенные равенства, верные на принятое в вычис- лениях число правильных знаков: (Ь) 1 д(Л) ’ о a(ft) xmr2mxm^ -А- 1 4 QW Из них находим а1 и после этого можем вычислить абсолютные значения действительных корней и модуль г двух комплексных корней х2 и х3. Знаки корней х4, х4, .,,, хп могут быть определены при помощи подстановки в уравнение.
96 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Для нахождения же х2 и х3 можно воспользоваться, например, равенст- di вом Х14-х24-Хз+* • *+хп =-----. В нашем случае оно даст ао Х14-2г COS • •~f”<^n== ““ CLq и позволит вычислить cosqp. Затем найдем sinqp= (1— cos2<p),/2 и корни x2=x3=r(cosqH-i sin ср)., По причинам, которые выяснились в предыдущих двух случаях, пре- образования могут быть остановлены на таком шаге k, чтобы при пере- ходе от многочлена /\(х) к Pk+i(x) были на принятое число знаков вы- полнены равенства a^)=[aW]2, |a7+4)| = [aW]2, , |^+D| = [а(£)]2. При росте k в поведении коэффициента а^\ ввиду наличия в первом члене левой части второго равенства члена 2x™rm cos qp, не будет регуляр- ности. Коэффициент а&) будет, вообще говоря, колебаться по абсолютной величине и изменять свой знак. Этот факт будет указывать на то, что у многочлена Р(х) корни х2 и х3 являются комплексными. § 1.12. НАХОЖДЕНИЕ КОРНЕЙ МНОГОЧЛЕНОВ ПРИ ПОМОЩИ ВЫДЕЛЕНИЯ МНОЖИТЕЛЕЙ Пусть дано алгебраическое уравнение Р(х) =aQxn+aixn~i +.. .+ап = 0 (1.12.1) Чем выше степень п уравнения, тем, вообще говоря, труднее задача его решения. Разложение многочлена Р(х) на множители позволяет час- то весьма сильно упростить задачу нахождения корней. Существуют алгоритмы, позволяющие выделить из Р(х) множитель любой наперед заданной степени т Мы остановимся лишь на простейших задачах такого разложения. Будем предполагать, что коэффициенты ah (6 = 0, 1, ... , п) есть дей- ствительные числа. Алгоритмы, о которых мы будем говорить ниже, при некоторых изменениях легко могут быть перенесены на многочлены с комплексными коэффициентами. Известно, что всякий действительный многочлен Р(х) может быть разложен на действительные множители: линейные, отвечающие дейст- вительным корням многочлена Р(х), и квадратные, отвечающие парам сопряженных комплексных корней. Это позволяет ограничиться изуче- нием задачи выделения из Р(х) множителей только первой и второй.сте-
§ 1.12. НАХОЖДЕНИЕ КОРНЕЙ МНОГОЧЛЕНОВ ПРИ ПОМОЩИ МНОЖИТЕЛЕЙ 97 пеней. Принципиально говоря, можно было бы ограничиться, как это час- то делают, выделением лишь квадратных множителей. Но мы не будем исключать задачу выделения линейных множителей, так как вычисления для их нахождения несколько проще, .чем для нахождения множителей второй степени. Начнем с задачи выделения линейного множителя и рассмотрим алго- ритм предпоследнего остатка, предложенный Лином. Пусть нахождению подлежит действительный корень а уравнения (1.12.1) и нужно выделить множитель х—а, отвечающий этому корню. Предположим, что мы знаем приближение Хо к а и можем составить лишь приближенное значение х—Хо множителя х—а. Для улучшения его будем делить Р(х) по обычным алгебраическим правилам на х—х0.. Если деление выполнить до конца, то в остатке получится постоянная вели- чина. Остановимся на предпоследнем шаге. Предпоследний остаток будет линейным, вида Предполагая do#=O, запишем его в форме do(x—Xi). Разность x—xi часто называют приведенным предпоследним остатком. Положим Р(х) = (х-х0) (&Wxn-‘+6<‘)x"-*+.. .+&W X) +d0(X_X1), Xi примем за первое «улучшенное» значение корня. Из последнего тождества найдем Р (%0) =dQ (xo—Xi), Р (0) = — dQXi. Исключая отсюда do, получим явное выражение через исходное при- ближение: Р (0) *0 &п Xi~ Р(0)—Р(х0) — . .4-ага-Г 4 Для получения х2 делим Р(х) на х—хь вновь находим «предпоследний остаток» и представляем его в приведенной форме di(x—х2) и т. д. Если известно приближение хд, то следующее приближение хд+1 на- ходится по тому же алгоритму путем деления Р(х) на х—хд до пред- последнего остатка и приведения последнего к виду dk(x—хд+1): Р(х) = (х—Хд) (СоХп—1-|_С1Хп—2-)-. . .4-Сп-2Х)+с?а(Х—Хд+1). Условием возможности алгоритма будет неравенство 4/д=#0 (^=0, 1,2,...). Явное выражение хд+i через хд имеет вид v ____ Р(0)Хд _______ Xk+i~ P(0)-P(xh) ~ a0x«-\4-aiX«-2+.. .+a„_, ’
98 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ По существу имеем здесь дело с простым одношаговым итерационным процессом для нахождения решения уравнения х=<р(х) =х-|- хР (х) хР (0) Р(0)-Р(х) = >(0)-Р(х) = &П aoxn“1+aiXn-2+.. с определенным алгоритмом вычисления значения правой части урав- нения в точке х=хь. Сходимость процесса зависит от значений <р'(х) вблизи решения х=а. Но Р'(а) Если q/(a) = 1+а Р'(а) Р(а) |<р'(а)| = 1 + а то найдется такая окрестность решения |х—а|^#<;1, в которой |q/(x) | ^q< 1. Если xQ взято из этой окрестности, то можно ожидать, что последовательность хп будет сходиться к решению а: limxn=a. Отметим также, что из итерационного правила, которому можно при- дать форму xft+1 = Xfe4- p (**) - следует, что если Хк стремится к конечному пределу а, то для а должно выполняться равенство Р(а)=0, т. е. а должен быть корнем уравнения. Перейдем теперь к задаче выделения множителя второй степени. Мы будем искать его в форме x2-{-px-\-q и предположим, что для коэф- фициентов его р и q указаны каким-либо путем приближенные значения Ро и ф). Выполним деление Р(х) на х2+рох+<7о- Если эту операцию выполнить до конца, то в остатке получится, вообще говоря, многочлен первой сте- пени. Мы остановимся на предпоследнем остатке, который, как правило, будет многочленом второй степени ах2-\-Ьх-^с. Разделим его на а, пред- полагая а#=0, и преобразуем остаток к приведенной форме x2+p1x+^i. Путем такой же операции деления Р(х) на x2+pix+^i строим второй предпоследний приведенный остаток и т. д. Мы получим, вообще говоря, последовательность приведенных предпоследних остатков x2+pftx+^. Если окажется, что рь и qk имеют конечные пределы: limpA=p* и А->оо А->оо
| 1.19. НАХОЖДЕНИЕ КОРНЕЙ МНОГОЧЛЕНОВ ПРИ ПОМОЩИ МНОЖИТЕЛЕЙ 99 ТО, как будет видно из дальнейшего изложения, многочлен х2+р*х+9* будет делителем Р(х). Рассмотрим более внимательно алгоритм деления многочлена Р(х) На трехчлен x2-\-px+q. Если выполнить деление до конца, получим ра- венство Р(х) =aoxn4-aixn“1+.. .= = (х2-|-рх-|-?) (ЬоХп 2-{-biXn 34~.. .“Ь&п-з^+^п-г) (х-|-р) Остаток от деления записан в*особой форме, позволяющей просто и еди- нообразно записать уравнения для определения bi (f=0, 1, ..., n). Сравнение коэффициентов при степенях х даст равенства aQ=boi ai=pbQ+bi9 (i2=qbv]-pbi-{-bb • •••••• an-i=?^п-з+р^п-г+^п-1, ап = qbn-2+pbn-i+bn- (1.12.2) Из них последовательно могут быть найдены 60, 61,..., при этом ясно, что Ь{ будут многочленами от р и q. Степени их относительно р‘и q легко подсчитать и установить, что bi есть многочлен степени i относительно р и степени z—1 относительно q. Ниже, если нужно будет указать на зави- симость bi от р и 9, мы будем их обозначать 6г (р, q}. Попутно заметим, что х2+рх+? будет делителем Р(х) в том случае, когда остаток &п-1(*+р)+&п будет тождественным нулем, что равно- сильно выполнению системы bn(p,.q)+pbn-i(p, q~) =О, 6п-1(а 4)=О (1.12.3) или, что то же самое, bn(р, q) = 0, Ьп-1 (р, q)=0. (1.12.4) Предпоследний остаток от деления Р(х) на х2+рх+<? есть bn-2(x2-^px-^-q)-}-bn-i (х-|-р) -}-bn=bn-2X2-[- (pbn-2-^-bn-i\x^-an. В описанном выше алгоритме нахождения приведенных предпослед- них остатков следующие значения коэффициентов рд+1, qk+i находятся по предыдущим pk, qk по правилу bn—i(pk,qk) йп Рк+i=Ра+ ~7----7~——т~, q а+1 = -т---т-----г-. bn-2\ph, qk) bn-2{Pk,qk) (1.12.5)
100 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Условием осуществимости алгоритма является неравенство 2(р&, <7&) (й=0, 1, 2, ...). Правила (1.12.5) весьма просто связаны с системой (1.12.3). Если заметить, что an = qbn-2-\-pbn-i-\-bn и, стало быть, второе равенство (1.12.5) равносильно ^+i = ?fe+ bn(Pk, qk)+phbn^{ph, qk) bn—Z^Phj qh) и записать систему в виде р=ф(р, q)=p+ bn-i(p, q) bn-2(p,q) ’ ?=Ф(Р, q)=q+ bn (p, p) +pbn-i (p, q) bn-2(p9 q) (1.12.6) становится ясным, что правило (1.12.5) есть не что иное, как простой одношаговый итерационный процесс для системы (1.12.3), преобразован- ной к форме (1.12.6). Закончим изложение метода Лина доказательством факта, на кото- рый мы обращали внимание выше: если ph и qh имеют конечные пределы limpfc=p* и limgft=#*, то трехчлен х2+р*х+?* будет делителем Р(х). Для этого достаточно обратиться к соотношению, связывающему два приближения x2-\-phx+qh и x2-\-pk+ix+qk+i: Р(х) = [60хп-2+&1 (ph, <7й)хп-3+.. .+Ьп-з(Рк, <7л)х] + 4"^п-г(рл> Qk) (*24*Рл+1-';4~<7м-1) > где bi(p, q) есть многочлены от р и q. Если перейти здесь к пределу при й->оо, получим равенство, доказывающее утверждение: Р(х) = (х2+р*х+^*) [&о(р*, р*)хп“2+&1(р*, 9*)хп~3+. ..+ +&п-з(р*, ?*)х]+&п-2(р*, ?*) (*2+р**+?*)‘ Метод предпоследнего остатка сходится не во всех случаях и может расходиться, даже если исходные приближения р0, ро взяты близко к точ- ным значениям р и р. Кроме того, его сходимость может быть медленной. Часто указанных недостатков можно избежать, если для решения систе- мы (1.12.4), к которой приводится нахождение квадратного делителя Р(х), применить другие методы решения. В частности, к решению систе- мы можно применить метод Ньютона, или одно из его видоизменений. В этих последних методах в вычислениях для системы (1.12.4) придется
| 1.12. НАХОЖДЕНИЕ КОРНЕЙ МНОГОЧЛЕНОВ ПРИ ПОМОЩИ МНОЖИТЕЛЕЙ 101 пользоваться значениями bn(py q) и &n-i(p, ?) и частных производных от них по р, q. Полезно обратить внимание на то, что значения Ьп и bn-i могут быть найдены без знания их явных выражений через р и q либо путем деления Р(х) на х24-рх+^ с численными значениями р и qy либо при помощи рекурсионных уравнений (1.12.2). Оказывается, что и част- ные производные также могут быть найдены либо при помощи деления, либо из уравнений, сходных с (1.12.2), без знания явной зависимости Ьп и Ьп_1 от р и q. Напомним, что если Р(х) делить на x2+px-f-^, то мы получим сле- дующее его выражение Р (х) = (х2+рх+^) Q (х) +Ьп-1 (х+р) +Ьп, * Q(%) =&0xn-2-f-ft1Xn-3^_ . ,+&n_2> при этом bi вычисляются либо путем деления, либо при помощи системы равенств (1.12.2), которую коротко можно записать так: bj=aj—pbj-i—qbj-2 (/= 1, 2, ... , n), (1.12.7) &_1 = Й2 = 0. Для нахождения частных производных от bj вычислим производные по р и q от обеих частей уравнения (1.12.7): д t ь д д —— b^—bj-i—p -г- bj-i—q -г- bj-z, др др др <Э . д а д к —-г bj— bj—2 Р -j bj-i q _ bj—2* dq dq dq Теперь определим величины Cj при помощи рекурсионных равенств Cj=bj—pCj-i—qc}-2 (/=0, 1,..., n—1), (1.12.8) ' с_1=с_2=0, откуда они могут быть найдены последовательно. Если сравнить эти равенства с соотношениями для частных производ- д L д и пых -— bj и -т— б,, записанными выше, можно сказать, что др dq • > ft) > С-1 = С-2=0. (1.12.9)
102 Гл. 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИЙ Таким образом, равенства (1.12.8) дают правило рекурсионного нахож- дения частных производных —т— bj и найденным значениям 6j(p, q). по значениям р, q и ранее Сравним равенства (1.12.8) с (1.12.7). Числа Cj получаются из bj по таким же правилам, как bj получаются из cij. Поэтому Cj могут быть най- дены при помощи деления L(x) =xQ(x)+&n-i=6o*n“1+6iXn“2+.. .+&n-i на x2-{-px-]-q с условием особого представления остатка: L(x) = (*2+P*+<7) (СоХп-3+С1Хп-4+. . .4-Сп-з)+Сп-2(х+р)+Сп-1. Литература 1. Б е р е з и н И. С., Ж и д к о в Н. П. Методы вычислений. М., 1966. 2. 3 а г у с к и н В. Л. Справочник по численным методам решения уравнений. М., 1960. 3. Канторович Л. В., Акилов Г. П. Функциональный анализ в нормированных пространствах, гл. XVII, XVIII. М., 1959. 4. Коллатц Л. Функциональный анализ и вычислительная математика. М., 1969. 5. Ланс Дж. Н. Численные методы для быстродействующих вычислительных ма- шин. М., 1962. 6. Мы со в ск их И. П. Лекции по методам вычислений. М., 1962. 7. Островский А. Решение уравнений и систем уравнений. М., 1963. 8. Хаусхолдер А. С. Основы численного анализа. М., 1956,
Глава 2 РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ В этой главе будут рассмотрены простейшие и уже давно испытанные методы решения систем линейных алгебраических уравнений. К решению таких систем приводятся многие прикладные задачи, а, также значитель- ная часть задач численного анализа. Наряду с проблемой решения не- однородной системы линейных алгебраических уравнений здесь будет изучена и тесно связанная с ней проблема обращения матрицы, а также задача вычисления определителя матрицы. Методы решения систем линейных алгебраических уравнений, на изу- чении которых мы здесь остановимся, можно разделить на1 две большие группы: точные и итерационные. Под точными мы будем подразумевать такие методы, которые позволяют получить точные значения неизвестных в результате выполнения конечного числа арифметических операций. Хорошо известное из курса линейной алгебры правило Крамера может служить примером такого метода. Правда, правило Крамера в практике решения систем линейных алгебраических уравнений обычно не приме- няется, так как оно требует выполнения очень большого количества арифметических операций и записей. Здесь мы будем рассматривать бо- лее экономичные точные методы, значительная часть которых основана на знакомой еще по школьному курсу математики идее последователь- ного исключения неизвестных из уравнений системы. Итерационные же методы решения систем линейных алгебраических уравнений характеризуются тем, что точное решение системы они могут, вообще говоря, давать лишь как предел некоторой бесконечной последо- вательности векторов. Исходное приближение к решению при этом ра- зыскивается каким-либо другим способом или задается произвольно. При выполнении определенных требований можно получить достаточно быстро сходящийся к решению итерационный процесс. Прежде чем приступить к рассмотрению конкретных методов реше- ния, приведем здесь некоторые сведения из линейной алгебры, которые будут существенно использоваться в дальнейшем, особенно при изучении итерационных процессов.
104 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ § 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 2.1.1. Сходимость последовательностей векторов и матриц При описании итерационных методов решения систем линейных алге- браических уравнений нам в первую очередь понадобится понятие пре- дела для объектов линейной алгебры. Так как численные задачи линей- ной алгебры обычно формулируются в терминах матриц, то мы опреде- лим понятие предела для одностолбцовых матриц, которые будем отождествлять с векторами арифметического пространства, и для квад- ратных матриц. При этом для удобства записи мы будем иногда вектор- столбец представлять в виде транспонированной однострочной матрицы. Пусть дана последовательность векторов XW= (Xw, х<*\.... xwy (k=0, 1, 2,...). А 11 > Если существуют n конечных пределов = (i=l, 2, . 5., n), fe->oo 1 то вектор x= (xi, x2, ...» xn)z называют пределом последовательности %(&) (&=0, 1, 2,...), а саму эту последовательность называют сходящей- ся к вектору х. Точно так же, если имеется последовательность квадратных матриц Д(&)= (aW) (f, /=1, 2, ... ., п; £ = 0, 1, ...), то пределом этой последо- вательности называют матрицу А с элементами если, конеч- 9 А->оо ZJ но, все эти п2 пределов существуют. В соответствии с таким определением предела бесконечный ряд мат- риц называют сходящимся, если существует предел последовательности его частных сумм. Предел этот и называют суммой данного ряда. Оче- видно, что ряд матриц будет сходящимся тогда и только тогда, когда будут сходиться все ряды из одноименных элементов, при этом суммы этих рядов будут являться элементами суммы данного ряда матриц. 2.1.2. Нормы векторов и матриц Введем сначала понятие нормы вектора, обобщающее известное поня- тие длины вектора. Назовем нормой вектора х сопоставляемое этому век- тору вещественное число ||х||, удовлетворяющее следующим требо- ваниям: 1) 1|х||>0 при х=/=0 и ||0|| = 0; 2) ||сх|| = |с| • ||х|| при любом числовом множителе с; 3) 1|х+у||^||х|| + Ну|{.
| 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 105 Из такого определения нормы вектора непосредственно следует, что IWI-M В самом деле, т. е. И аналогично или Следовательно, Ы = \\х^-у+у\\^ \\x-y II + \\у\\, - Ik-fc IWI -\\У\\. ||x-y|| = h-x||>||y||-lk||. Ik-(Й— п?11). Ik—Fll> llxll-llyll . Вводить норму вектора можно различными способами, только бы выполнялись условия (1) — (3) данного выше определения нормы. При- ведем примеры наиболее распространенных способов задания нормы вектора х= (xt, х2,..., хпу. 1. Первая (кубическая) норма ||x||i= max |Xi|, Введенную так норму обычно называют кубической в связи с тем, что множество векторов вещественного пространства, для которых Mi^l, заполняет единичный куб — (/= 1, 2, ... , п). 2. Вторая (октаэдрическая) норма l]^llll== | %г | • г=1 Множество вещественных векторов, для которых Цх||ц^1, заполняет n-мерный аналог октаэдра.
106 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ 3. Третья (сферическая или евклидр^ва) норма Третья норма вектора есть не что иное, как длина вектора. Совокупность векторов, для которых 1, заполняет шар единичного радиуса. Для этих трех норм выполнимость всех условий, данных в определе- нии нормы вектора, легко проверяется. Дадим теперь иное определение сходимости последовательности век- торов, основанное на введенном понятии нормы, а именно, будем гово- рить, что ------если ||х——->0. Эквивалентность такого опреде- fe->0O fc-* *oo ления сходимости по норме прежнему определению сходимости в коор- динатах основана на следующем утверждении. Теорема 1. Для того чтобы х№—необходимо и достаточно, чтобы А->оо Hx-xWII---->0. k-+OO Доказательство. Проверим сначала необходимость высказанного условия. — — (М — Пусть х<к>—т. е. lim Xi =Xi для всех i = l, 2, ... , п. Введя векторы = = (1' 0, 0, ... , 0)', е2 = (0, 1, 0, ... , 0)', ...» еп — (0, 0, 0, ... , 0, 1)', можем записать: _ — п (М — х—х^= (Xi—Xi )ei (fe = 0, 1, 2, ...). i = 1 Если через W обозначить max ||е<||,’ то из последних равенств следует, что 1 i п — — П (А) ||х-л**>||1*>—I (*=°> ’» 2> • • 1 = 1 Поэтому Их—x<ft>|| —>0. h->oo Теперь проверим достаточность высказанного в теореме условия. Пусть lim ||х—x(ft)|| = 0. Тогда, так как h->oo 1|7('[>11 = 1|Т+(х('1)-х)||^|Й1+1|х-х<»)||, ____________________________________________ _ п ______ ' *) Скалярное произведение векторов вводится по формуле (х, у) = хгг/г, где че- • г = 1 рез yi обозначено число, комплексно сопряженное с координатой уг вектора у.
| 2.1, НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 107 то ||x<fe>|| будет ограниченной при любом k = 0, 1, 2, ... , т. е. ||x<ft)|| М (k= 0, 1,2»...). Покажем, что будет ограниченной при любом 6 = 0, Г, 2, ... также и величина сь = «= |xi<ft) | + |х2(Й) |+.. .+ |xnft) I, т. е. что Ch^L (&=0, 1, 2, ...). Предположим против- ное, т. е. допустим, что существует такая последовательность ki, kz, ... индексов, что Chm—► оо. Для простоты записи будем считать, что Сь—► <». По данной последова- т-*оо _ fe->oo тельности векторов x<h> (&=0, 1, 2, .,.) строим последовательность векторов Z <к> <*> <*> W /(. А < А У(к)=---------= (yi t у2 .........уп у (fe=0, 1, 2, ...). Ch (А) (fe) Xi Так как уг =-------------- (1= 1,2,..., nJ, то Ch |!/<М| + |г/(Л)|+...+ |^)| = 1 (fe=o, 1, 2, ...), 1 £л 71 и координаты векторов ограничены в совокупности. Поэтому мы можем выбрать такую последовательность индексов, что будут существовать конечные пределы lim y^=yi (i = i; 2, ... , n). fe->co Так как | */i | +1 £/21+•. -+l«/n| = 1, то предельный вектор У=(Уи Уг* ... , УпУ отличен от нулевого вектора. С другой стороны, так как _ ------------ _ - ||х<4 - — \\у\\ = \\у^+(у--у^) || ^l|f/(ft)|l + llz/-!/(ft)||=-+\\У-У^\\ (6 = 0, 1, 2, ...), С h * при этом ||x<ft)||^Af по доказанному, сь—► 00 по предположению, а \\у—f/(fe)||—>0 fe—>со __ __ , h->OO в силу уже доказанной необходимости условий теоремы, то ||г/||=0, т. е. г/ = 0. Получен- ное противоречие доказывает, что Ch^L (&=0, 1, ...), т. е. что координаты векторов х^> ограничены в совокупности. Это позволяет выбрать такую последовательность индек- (А) сов, что будут существовать конечные пределы gi = lim хг- (f=l, 2, ... , п). Покажем, _________________________ /1->оо _ что предельный вектор £=(£ь £г, ... , 5п)' совпадает с вектором х=(х^ х^.... , хп)'. В самом деле, так как ||х—x<fe>||—>0 по условию, |||—x<fe>||—>0 в силу доказанной k->oo h-+co необходимости условий теоремы, а ||х—1|| = ||(х—x<ft)) + (x(ft>—f)l'^||x—x<ft>||4-|fg—х<А)Ц для любого & = 0, 1, 2, ... , то l|x—g|| = 0, т. е. £=х. Теорема доказана. Заметим также, что из условия —>х следует, что [|x(ft)||—>||х||. fe->oo fe->oo
108 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Справедливость этого утверждения становится очевидной, если учесть неравенство HxIHII^II Рассмотрим далее понятие нормы матрицы. Нормой квадратной мат- рицы А назовем сопоставляемое ей вещественное число ||А ||, удовлетво- ряющее следующим условиям: I) ЦА||>0 при Л=#=О и ||О||=0, 2) ||сА|| = |с| • ПЛ || при любом числовом множителе г, 3) ||Д+В||^||Л|| + ||В||, 4) ||АВ||^||А||.||ВЦ. Аналогично случаю вектора можно показать, что из такого определе- ния нормы матрицы следует неравенство НД-в||> или—IIBII Так же как и в случае векторов, для последовательности матриц можно дать иное определение сходимости, доказав, что условие ||Л —Л<л>|| >0 является необходимым и достаточным условием того, что А->оо Д(М---- fe->oo Из неравенства | ||Л|| —||В|| |^||А—ВЦ теперь уже непосредственно следует, что, если —>А, то ||A(Zl)||—>||А||. fe->oo &->оо Норма матрицы также может быть задана многими способами. Одна- ко поскольку в большинстве задач линейной алгебры обычно в рассуж- дении одновременно участвуют как матрицы, так и векторы, то норму матрицы целесообразно вводить так, чтобы она была разумным образом связана с данной нормой вектора. Будем говорить, что норма матриц согласована с данной нормой векторов, если для любой квадратной мат- рицы А и для любого вектора х, размерность которого равна порядку матрицы, выполняется неравенство ||Ах|К1|А||.|Й|. Среди всех норм матриц, согласованных с данной нормой векторов, выберем наименьшую. Для этих целей за норму матрицы А примем мак- симум норм векторов Ах в предположении, что вектор х пробегает мно- жество всех векторов, норма которых равна единице:
| 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 109 ||Л|| = max ||Лх||. 11*11=1 Цля каждой матрицы Л в силу непрерывности нормы этот максимум до- стигается, т. е. всегда найдется вектор х(0> такой, что ||лЯ|| = 1 и ||Лх(°)|| = =||Л||. Введенную так норму матриц будем называть подчиненной дан- ной норме векторов. Проверим, что норма матриц, подчиненная данной норме векторов, во-первых, удовлетворяет условиям (1) — (4) определения нормы матриц, во-вторых, согласована С этой нормой векторов и, в-третьих, не больше всякой нормы, согласованной с той же нормой векторов. Начнем с проверки условия (1), данного в определении нормы матриц. Пусть А=/=0. — — — — — у Тогда найдется вектор у такой, что По вектору у построим вектор х= -_ для которого уже выполняется требование ||х|| = 1. Так как Дх=/=0, то ||Дх||>0, значит и ||Д|| = max ||Дх||>0. Il*ll=1 Если же Д = О, то ||Д|| = max ||Ох||=0. 1Й1»1 Справедливость условия (2) проверяется непосредственно: ||сД II = max ||сДх|| = max |с| • ||Дх|| = |с| max ||Дх|1 = |с| • ||Д||. 1Й|=1 |й|=1 ц7ц=1 Проверим условие (3). Как мы уже отмечали, для каждой матрицы Д+В всегда найдется вектор х<°) такой, что ||х<0)|| = 1 и ЦД+В|| = max ||(Д+В)х|| = ||(Д+В)х<0)||а IMI=i Тогда II д +вц=н Дх(°)+^^°)|| < н д7(°) н+и в7<°)|1 max ||Дх||+ max ||В7|| = ||Д|| + 1|В||. ц7ц = 1 . ц7ц=1 Прежде чем проверить условие (4), установим выполнимость требования согласо- вания 11Д7||^||Д|И|х||. Если х=0, то справедливость этого неравенства очевидна. _ — х — Пусть х#=0. Тогда рассмотрим вектор z/(0> = — ~ Так как И#(0)Н = 1> то 1И1
по Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ||Axil = ||А (\\х\\уМ) И ||х|| • ||Лу(°)Ц ||х|| шах \\Ау\\ = ||Л||• ||хЦ. IIЙ Проверим, наконец, условие (4). Как и прежде, для матрицы АВ найдем вектор х<°) такой, что 11^(0)11 = 1. и ||4Вх(0)[| = ||ДВ||< Тогда П АВ П = IIA (Bj^o)) || < П А || • ||В^о)|| || А || • ||В || • ||7«»|| = || А Ц • ||В||. Осталось проверить лишь утверждение о том, что норма матриц, подчиненная данной норме векторов, не больше любой нормы, согласованной с той же нормой векторов. Действительно, пусть ЦА || есть норма матрицы Л, подчиненная данной норме векторов, а ||А Пс есть любая норма матрицы А, согласованная с той же нормой векторов. Тогда, как мы уже знаем, для матрицы А найдется вектор х<°> такой, что 11^11 = 1 и ||Л|| = ||Лх<°>||. Но 1|Л7(0)||^|И||с.|^°)|| = ||4||с и, значит, 11Л|1С1И11с. Для любой нормы матриц, подчиненной норме векторов, ||2?|| = 1. Здесь и всюду в гл. 2 и 3 через Е обозначена единичная матрица. Рассмотрим два примера задания нормы матрицы А= (ац)- Положим А1(Л) ==п max |а^| и Af(Л) = ]/Sp Л*Л, где А* есть матрица, сопряженная с матрицей Л, т. е. комплексно сопря- женная с транспонированной матрицей Л', а след матрицы Л*Л равен сумме диагональных элементов этой матрицы, т. е. п п SpA*A = (A*A)jj= £ |%|2. j=l i, j=l Для Л4(Л) и N(А) легко проверяется выполнимость всех четырех условий определения нормы матрицы. Нетрудно также установить, что норма Л1(Л) согласована с кубической, октаэдрической и сферической нормами вектора, а норма N(A) согласована со сферической нормой вектора. Однако ни норма АГ (Л), ни норма N (Л) не подчинены ни одной из норм векторов, так как М(Е)=п, a N(E)=yn. Укажем представления норм матриц, подчиненных введенным ранее трем нормам векторов.
f 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 111 Рассмотрим сначала первую (кубическую) норму векторов ||x||i= max |xi|. i<Zi<Zn Оказывается, подчиненная ей норма матрицы А такова: п IHIIi= max £ 1 г п j=l Действительно, для любого вектора х единичной кубической нормы __ п п п ||4x||i= max | С max • |х,| max £ |atj| i<Zi<Zn J = i = i J = i и, следовательно^ __ n Mlli= max IHx||i< max £ |au|. Ilxlll = i l^l^n = 1 С другой.стороны, возьмем вектор х^=(х^°\ где 12 п ' -------, если ал;#=0; х(°)= ^hj 3 1, если akj = 0 (/=1, 2,'... , п), в k есть номер строки матрицы Л, на которой достигается max |aij|. 1 г п J 1 Очевидно, что ||x(0)||i=l. Кроме того, | max Jj |<м|= |ал^ j = i j = i = i j = i при i^k и j = 1 з = 1 Тогда и — П (0) п п Лх<°)||1= max | aijXj | = |aftJ] = max |au|. Следовательно, IH||i= max ||Лх||1>||Лх(°)||= max |Дг/|.
112 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Сопоставление неравенств ЦДЦ1С max £ ]«о| и ||Дlli> max £ |ао| 1<Г^2^П 3 = 1 1^2^22 3 = 1 убеждает нас в справедливости высказанного утверждения. Укажем, далее, норму матриц, подчиненную второй (октаэдрической) норме векторов 11^11п=== | %г | • 2=1 Такой нормой, оказывается, будет 1И11п= max JS 2=1 В самом деле, если ||х||п = 1, то цдх|1п= s | I S 1аоН*Л = г = 1 j = i i = 1 3 = 1 = laij| ) с( max Д? |a«j|) • |xj|= max |ao|. 3 = 1 i = i 'l^j^ni = l ' 3 = 1 1 = 1 n Пусть [ a*j I достигает наибольшего значения для столбца с номером k. Тогда вектор г = 1 хт= (%<»), х<’>,.... х<°))', где х<°>=0 при /=/=й и х<°)=1, имеет октаэдрическую норму, равную единице, и 3 Я — п п (0) п п ||Дх(0)||п= Д/ | Д? aijXY I = д; \aih | = max Д? |ai;|. i = 1 3 = 1 i = l 1 j п г = 1 Следовательно, _тах ||Дх||п = ||Дх(°)||п= max |ао|, llxllii=1 i = i т. е. ||Д||п= max Д^ |ао-|. i = l Рассмотрим, наконец, третью (сферическую) норму векторов 1|х||ш= |х| = |/ (х, х) = у |Xi|2.
j 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 113 Оказывается, что подчиненной ей нормой матриц будет \\а Иш= м;, где Л1 есть наибольшее собственное значение матрицы А*А (напомним, что число 0 называется собственным значением матрицы В, если сущест- вует ненулевой вектор х, для которого Вх=0х; вектор х называется в этом случае собственным вектором матрицы В, отвечающим данному собственному значению 0). Прежде чем приступать к доказательству высказанного утверждения, необходимо проверить, что А1 будет неотрицательным числом. Вещественность Ai уже следует из того, что матрица А*А есть эрмитова (матрица В называется эрмитовой, если В* = В). В самом деле, (Л*Л)* = (Л)*(Л*)*=Л*Л. Эрмитова же матрица, как известно, имеет только вещественные собственные значения И обладает полной системой попарно ортогональных собственных векторов. Проверим, что Ai будет неотрицательным числом. Действительно, для Любого собственного значе- ния А матрицы А*А существует такой вектор х#=0, что А*Ах=Ах. Умножая обе части этого равенства скалярно на вектор х и учитывая свойства скалярного произведения векторов, получим (А*Ах, х) = (Ах, х). (2.1.1) При этом — — — — — 2 (Л*Лх, х) = (Ах, Ах) = ||Ах||in и ------------------------------------------ — 2 (Ах, х) =А(х, х) = A ||x||ni, так что равенство (2.1.1) можно записать в виде — 2 — 9 1|Дх||ш = Л||х||п1, откуда и следует, что Л^О. Докажем, наконец, что ||Л||ш=УЛ1. В самом деле, пусть Л1^Лг^.. .^Лп есть собственные значения матрицы А*А, а xW, Х(2), ... Д(п) сеть соответствующие им векторы полной системы собственных векторов этой матрицы. Будем считать эти векторы ортонормированными. Рассмотрим любой вектор х единичной евклидовой нормы и разложим его по собственным векторам *(*), х<2\ ... , х(п>: х= агх<4 г =1
114 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Так как ||x||ni = 1, то _2____________________________________п 1М|ш=(х, х) = £ |а42=1. г — 1 Тогда ЦЛх||ш=(Лх, Лх) = (х, Л*Лх) = ( aixW9J£ cuAiX^j = ' г = 1 i = l ' = Jj IcupA^A, J; |а,|2=А1. i = 1 i = 1 Поэтому 1|Л||ш= max ||Лх||ш^ У At. llxllin=1 С другой стороны, если взять в качестве вектора х вектор х<1\ то ||ЛхЬ)||ш = (х<*), А*АхШ) = (хШ, Ai7(*)) =Ai, и -ЦЛ||ш= max ||Лх||п1> УЛ7 IIх IIiii=1 Значит, и л н ш = ул;. В частном случае, когда матрица А есть эрмитова матрица и, стало быть, Л*Л=Л2, будет Ai=Xi2, где М есть наибольшее по модулю соб- ственное значение матрицы Л, и 1|Л||ш= | Xi |. Сравнение введенных норм матриц приводит к следующим неравенствам, справедли- вость которых здесь не проверяется: — М(Л)с11Л||г ^М(Л) (i=I, II, III)., « ft 1 — M(A)^N(A) s^MlA), n Vn <||A|b <УпУ(А) (/=1. IT), Vn ) Последнее неравенство было доказано при получении формулы (1.10.18).
$ 2.1, НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 115 сГпЦАЦш У» — 1И||х ^||Л Ни НЛНх. п (Л=1, II), Подобные же неравенства можно записать и для ранее введенных норм векторов: bill <blln |й|1( Й1 < 1Й1 HIbill, 4|Й1п^1Й1ш^Ь11п. Tn 2.1.3. Сходимость матричной геометрической прогрессии Рассмотрим матричный ряд Е-рЛ +Л2+;. Л т-{—... Встает вопрос, при каких условиях эта матричная геометрическая про- грессия сходится и, если она сходится, чему равна ее сумма. Если бы мы имели дело с обычной числовой геометрической прогрессией * .4-am+. i •, то необходимым и достаточным условием ее сходимости было бы условие ат---->о, ПрИ этом ее сумма была бы равна тп->оо Оказывается, подобные же результаты имеют место и в случае матрич- ной геометрической прогрессии. Прежде чем высказать их, сформули- руем некоторые утверждения предварительного характера. Лемма 1. Для того чтобы Ат-->0, необходимо и достаточно, чтобы т->оо все собственные значения матрицы А были по модулю меньше единицы. Доказательство. Известно, что с помощью преобразования подобия, которое не меняет собственных значений матрицы, исходная матрица А всегда может быть приведена к канонической форме Жордана /=С-1АС. Здесь С — некоторая, матрица, а / — квазидиагональная матрица
116 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ [А.(М)> > \(ML r«e г — число канонических ящиков Жор- дана О о % о 1 1 /1 (М — "% 1 О • • • 1_о о о ... О 0"1 ... о о ... о о • 9 • • ... 1 г равно числу линейно независимых собственных векторов матрицы А, при этом Ti=n, где п — порядок ьго ящика Жордана /т.(Хг), ап — г=1 порядок исходной матрицы А. Тогда А = С1С~1, Am=cic~i-cic~i-::: .с/с-^с/^с-ч Поэтому матрицы Ат и 1т при т->оо одновременно стремятся или не стремятся к нулевой матрице. Так как 1т= , I™* (М,.,., (М ], то для выяснения условий сходимости Ат------->0 достаточно установить т->оо лишь условия сходимости /™(Л)----->0. Непосредственной проверкой лег- т->оо ко убедиться в справедливости следующего равенства: О 0 ~ О О О О где для удобства записи условно введена операция дифференцирования по Л. Диагональными элементами матрицы /™(Х) являются поэтому для сходимости при т->оо последовательности матриц /™(Х) к нулевой матрице необходимо, чтобы выполнялось условие |Х| <1. Но выполнения этого условия и достаточно для сходимости /™(Z)—>0, ибо тогда 7П->ОО
| 2.1. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ЛИНЕЙНОЙ АЛГЕБРЫ 117 (О ----->0 пг-*оо для любого /=0, 1» ..., т—1. Признак сходимости Ат---->0, сформулированный в только что дока- т->оо занной лемме 1, неудобен для проверки, так как требует наличия доста- точно точной информации о собственных значениях матрицы А. Более удобным в этом отношении является следующий признак. Лемма 2. Для того чтобы Ат----->0, достаточно, чтобы хоть одна из т-^оо норм матрицы А была меньше единицы. Доказательство. Как нам уже известно, для того чтобы уста- новить, что Ат--->0, достаточно проверить, что ||О—Лт|]->0 хотя бы m->oo т->оо для одной из норм матрицы А. Но IIО—Л™|| = || Ат|| = || Д m-1. А || С || л т-1|| . || Л || ^. Г ^ || Л ||™. Поэтому, если какая-либо ||Л||<1, то ||Лт||->0, т. е. Ат->0, что и т—>оо тп->оо требовалось доказать. Опираясь на леммы 1 и 2, можно доказать следующее утверждение о сравнительной величине нормы матрицы и ее собственных значений, которое мы также будем использовать в дальнейшем. Лемма 3. Модуль каждого собственного значения матрицы не пре- восходит любой из ее норм. Доказательство. По исходной матрице Л строим матрицу В— 1 Л В~ ||Л||+еД’ где е — любое положительное число. Тогда ЦВ|| = IIЛII 1ИП+8 и, в силу леммы 2, Вт----->0, т->оо откуда, согласно лемме I, следует, что все собственные значения матрицы В меньше единицы по модулю. Но так как собственные значения матри- цы В получаются из собственных значений матрицы Л умножением на
118 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ЧИСЛО НЛН+е’ то для любого собственного значения X матрицы А долж- но выполняться неравенство 1ИН + 8 или |М <11Л||+е. Поскольку е можно взять сколь угодно малым, то |Х|СНЛ||. Лемма до- казана. Теперь уже можно ответить на интересующие нас вопросы относи- тельно сходимости матричной геометрической прогрессии Е+А+А2+-^+Ат+... ~ ‘ Теорема 2. Для того чтобы ряд Е4-Л+Л2+..+Лт+’-• • сходился, не- обходимо и достаточно, чтобы А™->0. В этом случае матрица Е—А 771—>00 имеет об ратную.и Е+А +Л2+. Г .+Л™+.. .= (Е-Л)-1. Доказательство. Необходимость этого условия становится оче- видной, если вспомнить аналогичное необходимое условие сходимости любого числового ряда и учесть, что сходимость ряда квадратных матриц порядка п эквивалентна сходимости п2 соответствующих числовых рядов из элементов этих матриц. Докажем, что условие А™-->0 является и достаточным для сходи- т->оо мости ряда Е4-Л-рЛ2+. * .+Лт..., и найдем сумму этого ряда. Действи- тельно, если Ат—>0, то по лемме 1 все собственные значения т->оо (f=l, 2, ... , п) матрицы Л по модулю меньше единицы. Тогда все соб- ственные числа матрицы Е—Л, равные 1—2ч (f=l, 2, ... , и), будут от- личны от нуля. Следовательно, определитель этой матрицы, равный про- изведению всех собственных значений ее, также отличен от нуля, и по- тому существует матрица (£—-Л)-1. Рассмотрим тождество (£+Л+Л2+.. .4-Л™) (Е-Л) =Е—А™+'. Умножив его справа на матрицу (£—Л)-1, получим Е+Л +Л2+.; .+Л™= (Е—Л) -1—Л(Е-Л) -с Так как Л™41------^0, то ш->оо
| 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 119 Е+А+А2+.. ,+Л^-->(Е-Л)Л т->оо Т’е’ Е+Л+Д2+. ..+Лт+. ..= (£—Д)-‘, что и требовалось доказать. С учетом леммы 1 критерий сходимости бесконечной матричной гео- метрической прогрессии, данный в теореме 2, может быть сформулирован в другом виде. Теорема 3, Для того чтобы ряд Е4-Д+Д2+. • .+Дт+... сходился, не- обходимо и достаточно, чтобы все собственные значения матрицы А были меньше единицы по модулю. Если же учесть еще и лемму 2 или лемму 3, то можно дать и другой, на этот раз только достаточный признак сходимости рассматриваемой прогрессии. w Теорема 4. Если какая-либо норма матрицы А, меньше единицы, то ряд ЕД-Д+Д2-]-. • •+Д7П+... сходится. Последний признак более прост для проверки. При его выполнении нетрудно дать и оценку скорости сходимости рассматриваемого ряда. Теорема 5. Если ||Д||< 1, то ПДНгп+1 || (£-Д )-1_ (£+А+Д2+: . .Д-Дт) || JLJ Доказательство. Так как при выполнении условия ||Д|| < 1 ряд ЕД-ДД-Д2Д-. • .Д-Дт+-.. сходится к матрице (£—Д)-1, то (Е—Д)-1— (Е+А+А2+.. .Д-Дт) =Дт+1Д-Дт+2д_<. И || (Е—Д)”1—(ЕД-ДД-Д2Д-. ,.Д-Д™) ||||Дт+1|1 + 1|Д™+211+.. ||Д||^+1 ^11Д||-+1+НД||-+2+.. .= -jjjjx-jp Теорема доказана. . После этих предварительных замечаний приступим, наконец, к рас- смотрению методов решения систем линейных алгебраических уравнений. | 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ Начнем изучение основных методов решения систем линейных алге- браических уравнений с группы итерационных методов. Такие методы, как мы уже отмечали, могут давать точное решение исходной системы, вообще говоря, лишь как результат бесконечного единообразного про- цесса, называемого процессом итераций. Простота вычислительных схем п однообразие производимых операций делают эти методы удобными при
120 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ использовании вычислительной техники. Привлекательным является и свойство самоисправляемости таких методов. Это свойство делает их менее чувствительными по сравнению с точными методами к отдельным ошибкам, допущенным в процессе вычислений. Если при использовании точных методов отдельный сбой в вычислениях неизбежно ведет к ошиб- ке в окончательном результате, то в случае сходящегося итерационного процесса такой сбой влечет за собой, вообще говоря, только лишние приближения. Ошибка, допущенная в каком-то приближении, будет в дальнейшем исправлена последующими приближениями. Однако итера- ционные методы решения систем линейных алгебраических уравнений не являются универсальными методами. Их сходимость существенным образом зависит от элементов матрицы, определяющей данную задачу. Быстрота сходимости каждого итерационного процесса зависит также и от удачного выбора вектора начального приближения. 2.2.1. Основные разновидности итерационных процессов Пусть дана система линейных алгебраических уравнений Ax=f с неособенной матрицей А. При построении итерационных методов реше- ния таких систем часто исходную систему (2.2.1) приводят к эквивалент- ной системе вида x=Bx-j-b. (2.2.2) Тогда последовательность приближений х<п> (п= 1, 2, ...) к решению х<*> этой системы можно строить, например, по рекуррентным формулам x&+V=BxW+b (£=0, 1,2,...), (2.2.3) при этом начальное приближение х^ можно брать, вообще говоря, про- извольным. Систему (2.2.2) можно рассматривать как частный случай операторного уравнения вида х=ф(х) и при изучении алгоритмов типа (2.2.3) можно воспользоваться приведенными в гл. 1 результатами исследований метода итерации для таких операторных уравнений. При- ведение системы (2.2.1) к виду (2.2.2) можно осуществить по-разному. Например, с помощью любой неособенной матрицы С это преобразование может быть проведено следующим образом: х=х+С(7-Лх). Здесь В=Е—СА, b = Cf и алгоритм (2.2.3) принимает вид x^)=x^+c(f—A~x^) (Л=0, 1,2,...).
• 3.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 121 Если подобные преобразования проводить для каждого шага итера- ций с новой, вообще говоря, матрицей, то мы придем к алгоритму (6=0, 1,2,...) (2.2.4) или 7(fe+i)=JBWxW+F(ft) (А=0, 1,2,...). (2.2.5) Такой метод итерации обычно называют нестационарным в отличие от стационарного метода (2.2.3). Итерационные процессы вида (2.2.4) обладают тем свойством, что точное решение х<*> системы (2.2.1) является неподвижной точкой для каждого из них. В самом деле, если в качестве исходного приближения х$> взять вектор х(*\ то все последующие приближения будут также рав- ны х№. С другой стороны, оказывается, что всякий итерационный процесс приближенного решения системы (2.2.1), для которого х№ является не- подвижной точкой, протекающий по формулам (2.2.5), может быть пред- ставлен в виде (2.2.4). ’ Действительно, так как то (%(*)—B(ft)x(*)—6W) =x(*)+B<fe)(x(fe)—х<*)) = =х^+ (BW—E) (xW—*)) =x^+ (BW—E) A~lA (xW-x<*)) = • =х^+ (Е—В(ЬУ)А-' (J—AxW) =x^+C{h) (f-AxW), где CW= (E-BM)A-i (6=0, 1,2,...). При построении итерационных процессов приближенного решения системы (2.2.1) эту систему можно предварительно приводить также и к виду Px-\-Qx=b, а где P+Q=CA, b = Cf, а выбором неособенной матрицы С мы вправе распорядиться. Аналогич- но прежнему, и здесь можно построить два типа итерационных алгорит- мов: стационарный метод Px^^Qx^=b (£=0, 1, 2, ...) (2.2.6)
122 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ и нестационарный метод P^k+1)+Q(k^)=h(k) (А=0, 1, 2, ...). (2.2.7) При этом в обоих случаях мы получаем следующее приближение x^h+i\ вообще говоря, в неявной форме. Поэтому подобные алгоритмы жела- тельно строить так, чтобы матрицу PW легко было обратить. Чаще всего берут ее треугольной или диагональной. Соответственно этому методы иногда называют одношаговыми в первом случае и полношаговыми во втором. В частности, полношаговыми будут все методы типа (2.2.5). Линейными алгоритмами вида (2.2.5) и (2.2.7) далеко не исчерпы- ваются все разновидности итерационных процессов приближенного.реше- ния систем линейных алгебраических уравнений. Вообще говоря, такие процессы могут быть и нелинейными. Например, последовательность приближений к решению системы (2.2.1) можно получать по рекуррент- ным формулам вида 7(ft+1)=(pw(х(0), xd), ... , %W) (6=0, 1,2,...), (2.2.8) % где — некоторая функция, зависящая от матрицы системы Л, век- тора свободных членов Д номера приближения k и предыдущих прибли- жений х(0), х(1), ... , Мы не станем здесь подробно останавливаться на изучении каждого, из типов итерационных процессов, а рассмотрим лишь некоторые из наи- более часто применяемых и характерных итерационных методов. 2.2.2. Метод простой итерации По-прежнему будем иметь в виду систему (2.2.1). Так как матрица Л предполагается неособенной, то решение х(*)=Л~7 этой системы суще- ствует и единственно. Будем считать, что исходная система каким-то образом приведена к виду (2.2.2). Пусть также избрано начальное при- ближение х<°) к решению нашей системы. Часто в качестве лЯ берут век- тор А, хотя, вообще говоря, исходное приближение можно -выбирать произвольно. Будем называть методом простой итерации правило (2.2.3) нахождения последующих приближений к решению нашей системы. Так как правило (2.2.3) линейно, то последовательность приближений (п=1, 2,...) всегда может быть построена. Если эта последовательность сходится, то она сходится к решению системы (2.2.2). Действительно, если х(п)-->х(*\ то предельный переход в алгоритме (2.2.3) приводит П->ОО нас к равенству х^=Вх^-\-Ь, что и доказывает сделанное утверждение.
j 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 123 Выясним условия сходимости последовательности приближений, получаемых по методу простой итерации. Теорема 1. Для того чтобы метод простой итерации (2,2.3) сходился при любом начальном приближении хР\ необходимо и достаточно, чтобы все собственные значения матрицы В были по модулю меньше единицы. Доказательство. Проверим сначала достаточность высказан- ных условий для сходимости метода. Для этого выразим любое прибли- жение, полученное по правилу (2.2.3), через начальное приближение: x^)=Bx^+b=B (В~х^+Ь) +Ь=В*х№+ (Е+В)Ь= =.. .=в*хю+ (£+в+в2+.: .ч-в*-1) г- Из этой формулы непосредственно следует проверяемое, ибо в*—и £_|_в+в2+.: —4E-.fi)-1; если все собственные значения матрицы В меньше единицы по модулю. Пусть теперь при любом х<°> существует lim Тогда х<*)=Вх(*>+6 X(*)_X(A) = B(X(*)—х(*-‘)) =В2(Х<‘)—Х(Ь-2)) = . . , = Bfe(X(*)—XW).. Перейдем в равенстве х<*)—xW=Bft (х<*)—х<°)) к пределу при k-*-oo. Так как вектор х<*>—х<°> может быть, вообще говоря, любым, a x<ft>—>х<*>, то fe-*oo Bk---->0, откуда, согласно лемме 1 из § 2.1, следует, что все собственные значения матрицы В меньше единицы по модулю. Доказанная теорема дает признак сходимости метода простой ите- рации, который, вообще говоря, трудно проверяем, так как связан со спектром матрицы В. Судить о сходимости метода можно и при помощи достаточных признаков, связанных непосредственно с элементами этой
124 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ матрицы. Некоторые из таких достаточных признаков вытекают из сле- дующей теоремы. Теорема 2. Для того чтобы метод простой итерации (2.2.3) сходился, достаточно, чтобы какая-либо норма матрицы В была меньше единицы. Доказательство. Действительно, если ||В||<1, то по лемме 3 предыдущего параграфа все собственные значения матрицы В меньше единицы по модулю, и в силу теоремы 1 метод простой итерации (2.2.3) сходится. На основании последней теоремы можно высказать несколько доволь- но удобных достаточных признаков сходимости метода простой итерации. Теорема 3. Метод простой итерации (2.2.3) сходится, если для элемен- тов bij (f, /= 1, 2, ... , п) матрицы В выполняется одно из следующих условий: 1) п 2 I I j=l (i—1,2,..., ft), 2) n I I 2=1 (/— 1 > 2, ..., ft), 1 n 3) I г, j=l &d2<L Справедливость сформулированных признаков непосредственно выте- кает из теоремы 2, если иметь в виду следующие введенные в п. 2.2.2 нормы матриц: п п ||В|| 1= max £ |6г-;|, ||В||П= max |6г;|, j=l г=1 tf(B)=yi; |бъ|2. ' i, j=l Можно указать также ряд других достаточных признаков подобного типа, получить которые нетрудно, например, на следующем пути. Введем в исходной системе линейных алгебраических уравнений п Xi= bijXj-\-bi (i= 1, 2,..., n) j=i новые неизвестные yi (i= 1, 2, ..., ft) по формулам Xi=Ciyi (f=l, 2,..., ft), где Ci — некоторые (положительные, к примеру) числа. Тогда исходная система может быть записана в виде
| 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 125 j=i bij сз Ci Уз+ Ci {i— 1, 2, ... , fi). Будем использовать метод простой итерации для приближенного реше- ния каждой из этих систем, выбрав исходные приближения связанными соотношениями Х^ — СгУ^ (l=l, 2, , и). Тогда и компоненты последующих приближений также будут связаны формулами х^=СгУ^ (f=l, 2, ... , п; А=1,2,...) и соответствующие процессы простой итерации будут сходиться или рас- ходиться одновременно. Поэтому, опираясь на последнюю теорему, мож- но утверждать, например, что метод простой итерации (2.2.3) будет сходиться, если найдутся такие положительные числа cif с^, ... , сп, что для элементов b^ (I, /=1, 2, ..., п) матрицы В будет выполняться одно из следующих условий: 4 п п _2_ С -2 (2.2.9) п г, Приведенные выше признаки сходимости метода простой итерации позволяют (сравнительно легко в отдельных случаях) получить ответ на вопрос, будет ли сходящимся избранный итерационный процесс. Очень важным для практики является также вопрос о скорости сходимости это- го процесса. Получить ответ на этот вопрос помогают оценки погрешно- сти метода. Одну из таких оценок дает следующая теорема. Теорема 4. Если какая-то норма матрицы В, согласованная с данной нормой вектора х, меньше единицы, то имеет место следующая оценка погрешности метода простой итераций (2.2.3): ||х(*)—\\B\\k ||х«»|| + IIB||ft \\Ь\\ I-IIBII •
126 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Доказательство. Как и при доказательстве теоремы 1, нахо- дим, что x^=Bhx^+ (Е+В+В*+.: ,+В^1) ь. Так как. IIBIK1, то х&= (Е+В+В2+.. .4-5^+.. .)& и ?(*)—X^= (Bft+Bft+4+.. .)&— откуда lk(*)-^)||^ (]|B||ft+l|B||ft+1+.. .)l|6||+IIBIift li^0)ll = l|B||fe W\ 1-IIBII = IIBIHIx<°)|l + что и требовалось доказать. Заметим, что в случае х<®=Ь интересующая, нас опенка может быть записана в следующем виде: IIB|lwllfell 1—ЦВЦ • В самом деле, если за исходное приближение лЯ взят вектор-столбец свободных членов Ь, то x(*)__x(fe)= (вь+14_£м-2_{_ф . jb и справедливость сделанного замечания становится очевидной. Заметим также, что поскольку %(*)—xW=в (Х(*)_, то имеет место и следующее неравенство: ||Х<*)—х^ II ==s II ВЦ. ||х(*)—х^-1) II. Это неравенство позволяет сравнить точность двух последовательных приближений и часто бывает полезным в практике вычислений. - Полученные выше условия сходимости и оценки погрешности метода простой итера- ции позволяют теперь уже более целенаправленно подходить и к проблеме выбора такого преобразования исходной системы линейных алгебраических уравнений Ax=f
f 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 127 к виду x=Bx+bt удобному для итерации, которое бы обеспечивало сходимость соответствующего процесса простых итераций, при этом с возможно более высокой скоростью. Как мы уже отмечали в предыдущем пункте, такое преобразование может быть проведено, например, с по- мощью неособенной матрицы С следующим образом: x=x-\-C(f—Ах). Здесь роль матрицы* В играет матрица Е—С A', a b = Cf. На некоторых наиболее простых или наиболее часто встречающихся способах выбора матрицы С мы сейчас и остано- вимся. Прежде всего следует заметить, что матрица C=A~i приводила бы сразу к оконча- тельному решению задачи. Поэтому иногда подбор матрицы С осуществляют путем гру- бого обращения исходной матрицы Л, например, по методу Гаусса (см. § 2.3). Правда, такой подход к выбору матрицы-С связан с большим объемом вычислительной работы. Чтобы упростить этот процесс, иногда удобно исходную матрицу А представить пред- варительно в виде суммы двух таких матриц Р и Q, обратная для одной из которых (например, Р~1) находится сравнительно просто; Еслиь теперь в качестве матрицы С взять матрицу Р-1, то исходная система Ах=Т приведется к виду x==-P-lQx+P-if't удобному для итераций. В случае, когда матрица А симметрична, можно высказать сравнительно простой критерий сходимости соответствующего итерационного процесса. Прежде чем его сфор- мулировать, заметим, что такое ограничение на матрицу А не является очень обремени- тельным, так как решение системы линейных алгебраических уравнений Ax=f с неособенной матрицей А всегда может быть сведено к решению системы с симметрич- ной и даже положительно определенной матрицей (вещественная симметричная матрица А = (ац) (Z, /= 1, 2, ... , и) называется положительно определенной, если квадратич- ная форма (Ах, х)= anXiXj г, j = l положительно определена, т. е. если все значения этой формы при любых значениях переменных положительны, за исключением значения при Xi=X2 = .. ,=хя=0). Такое сведение может быть выполнено с помощью так называемых трансформаций Гаусса, основанных на известной из алгебры теореме о том, что, если А — неособенная матрица, то матрицы А'А и ААГ положительно определены. Оказывается, что, если матрица А симметричная и A=P-\-Q, где Р — положительно определенная матрица, обратная для которой известна, то для сходимости метода про- стой итерации ^ft+i)=-P-iQ7(*)+p-i7 (k=o, i,...) при любом начальном приближении х<°) необходимо и достаточно, чтобы матрицы P-^Q и р-Q были положительно определены.
128 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Действительно, так как матрица Р положительно определена, а матрица 4 = P-{-Q симметрична, то все собственные значения матрицы В =—P~lQ вещественны [4, теоре- ма 11.14]. Для сходимости же рассматриваемого итерационного процесса, согласно тео- реме 1, необходимо и достаточно, чтобы все собственные значения матрицы В были по модулю меньше единицы, т. е. чтобы все собственные значения матриц E-f-B и Е—В были бы положительны. Последнее же имеет место тогда и только тогда, если матрицы P(E-\-B)—P—Q и Р(Е—B)=P+Q положительно определены. Остановимся теперь подробнее на одном частном случае выбора матрицы Р. На практике часто встречаются системы линейных алгебраических уравнений с такой матрицей 4, диагональные элементы которой значительно преобладают по модулю над остальными элементами матрицы. В этом случае подготовку системы к виду, удобному для итерации, можно осуществить следующим образом. Разделив каждое уравнение исходной системы на диагональный элемент, мы получим систему flnl ^n2 fп ------Х1Н . «+хп = ------------ fln П-й’П п---&п п которая уже очевидным образом записывается в виде х=В%4-д; удобном для итерации. Здесь Часто в практике вычислений предварительно не производят только что описанных преобразований, а последовательные приближения осуществляют непосредственно по формулам (Л + 1) . (Ю (Л) —/1— #12*2 —. .. — ОЛпХп > (Ь + О_, (Л) (Л) Onn-^n —In aniXi ••• ^nn-l^n-i> . Описанную здесь модификацию метода простой итерации, связанную с делением уравнений на диагональные элементы матрицы системы, иногда называют методом Якоби. Очевидно, что метод Якоби является частным случаем описанного выше метода, связанного с предварительным разбиением матрицы А на сумму двух матриц Р и Q.
| 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 129 В случае метода Якоби P=D, где D — диагональная матрица [ац, , апп], и сформу- лированному ранее критерию сходимости здесь можно придать следующую форму. Для того чтобы метод Якоби для системы Ax=f с симметричной матрицей А, имею- щей положительные диагональные элементы, сходился при любом выборе начального Приближения необходимо и достаточно, чтобы матрицы А и 2D—А (отличающиеся друг от друга знаками недиагональных элементов) были положительно определены. Условия сходимости метода Якоби можно формулировать, конечно, и через матрицу В"*Е—D~iA, вид которой был выписан выше. Основные результаты здесь даются тео- ремами 1 и 2. При этом ряду достаточных признаков сходимости метода Якоби, осно- ванных на теореме 2, можно придать несколько более конкретную форму. Так, например, Теорема 3 применительно к данному случаю может быть сформулирована в следующем Виде. Метод Якоби для системы Ax=f сходится, если для элементов ац (i, /=1, 2, ... , п) матрицы А выполняется одно из условий п п п где штрихом отмечен тот факт, что при суммировании опускаются слагаемые, отвечаю- щие l = h Или, если воспользоваться признаками (2.2.9), положив там 1 т т (i = 1, 2, ... , м) j I Un j то только что выписанные условия (1)—(3) можно заменить соответственно следу- ющими: п п
130 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ* Метод Якоби дает быстро сходящийся процесс для случая тех систем линейных алгебраических уравнений, у которых диагональные элементы матрицы системы значи- тельно преобладают по модулю над остальными элементами матрицы. Если же такое доминирование главной диагонали не является значительным, то часто оказывается целе- сообразным выделять в качестве матрицы Р не чисто диагональную матрицу D, а брать, например, матрицу #и #21 О’ #33 #34 043 #44 о обращение которой также не представляет особого труда. Роль матрицы С в этом случае играет матрица где обозначено С целью дальнейшего упрощения процесса выбора вспомогательной матрицы С можно выделять из матрицы системы в качестве слагаемого лишь скалярную матрицу Р—аЕ, где а — некоторое отличное от нуля число. Тогда 1 1 С= —Е и В = Е-------А. а а При а=1, например, получаем метод последовательных приближений 3h+^ = Bx^+b (&=0, 1, ...), где В = Е-Д, 1=7 • Выбором константы а иногда можно распорядиться и более рационально. Пусть, например, матрица А положительно определена. В этом случае систему линейных алгебраических уравнений Ах=[ всегда можно за счет выбора а привести к виду
9 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 131 таким образом, чтобы соответствующий процесс простых итераций был сходящимся. В самом деле, поскольку все собственные значения матрицы А положительны и, кроме того (см. лемму 3 из § 2.1), они не превосходят любой из ее норм, то, взяв а=[|А||, мы построим матрицу собственные значения которой будут заведомо удовлетворять условиям теоремы 1 о сходимости метода простой итерации. Если учесть, что решение системы линейных алгебраических уравнений Ax = f с неособенной матрицей А всегда может быть сведено к решению системы с положительно определенной матрицей, то следует отметить не только значительную простоту и эффективность такого подхода к построению алгоритма простых итераций, но и его достаточную универсальность. Можно говорить и о других способах выбора вспомогательной матрицы С при по- строении конкретного алгоритма простой итерации. Иногда, например, в качестве мат- рицы С берут матрицу [ЗА или матрицу |ЗА', при этом выбором числового параметра [3 стараются распорядиться так, чтобы обеспечить сходимость соответствующего алгоритма метода с возможно более высокой скоростью. На этих и других способах построения различных алгоритмов метода простой итерации мы не станем здесь больше останавли- ваться, а сделаем лишь небольшое замечание, касающееся практической реализации метода. Практически вычислять простые итерации можно двумя способами. Во-первых, вычисления можно вести непосредственно по формулам х^) = Вх^+Ь (6 = 0, 1,2,.. .).• Здесь каждое найденное приближение можно рассматривать как исход- ное. Это придает алгоритму простой итерации самоисправляющийся ха- рактер. Поэтому на первых шагах процесса нет необходимости, вообще говоря, проводить вычисления с большой точностью: возникающие при этом ошибки впоследствии сглаживаются. Правда, при недостатке опыта такая организация вычислений может быть сопряжена с большим числом лишних итераций. Во-вторых, 6-ю итерацию можно вычислять и по формуле xW=b+Bb+B2~b+.. .+вч, если в качестве исходного приближения х<°) взять вектор свободных чле- нов Ь, Здесь вычисления сводятся к нахождению векторов ВЬ, В^Ь, ВЧ) и последующему их суммированию с вектором Ь. Такая организация вычислений удобна вследствие единообразия процесса, а также потому, что каждое последующее слагаемое является лишь поправкой к найден- ному приближению. При этом, правда, алгоритм теряет самоисправляю- щнйся характер- и становится чувствительным к - случайным ошибкам. Кроме того, недостатком этого способа является и возможное накопление
132 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ошибок от округления при возрастании числа слагаемых, что особенно опасно в случае медленно сходящихся процессов. Чтобы увеличить скорость сходимости метода простой итерации, часто применяют различные приемы ускорения. К рассмотрению некоторых из таких приемов мы еще обратимся в последующих главах, а сейчас отме- тим лишь, что процесс простой итерации с применением приемов ускоре- ния сходимости в большинстве случаев укладывается в общую схему итерационных методов с нарушением стационарности. К рассмотрению некоторых из нестационарных итерационных процессов мы сейчас и пе- рейдем. 2.2.3. Метод Ричардсона Для приближенного решения исходной системы линейных алгебраиче- ских уравнений Ax=f будем применять сейчас нестационарные итерационные процессы вида (2.2.5) (6=0, 1,2,...). По-прежнему мы будем здесь предполагать, что точное решение %(*)=Л~1/ исходной системы (2.2.1) является неподвижной точкой про- цесса (2.2.5). Тогда, как мы знаем, любой алгоритм типа (2.2.5) может быть записан в виде (2.2.4) x(fe+i)=xW+C(ft)(f— АхМ) (6=0, 1,2,...). При различном выборе матриц С№ в алгоритмах типа (2.2.4) мы получаем различные итерационные методы. Прежде чем остановиться в качестве примера на способе Ричардсона выбора таких матриц, мы выясним общие условия сходимости подобных итерационных процессов. • Так как точное решение системы (2.2.1) является неподвижной точкой алгоритма (2.2.5), то b^= (E-BW)A-if и рассматриваемый алгоритм может быть переписан в виде x(W)=B(fe)(x(fe)-^-17)+^-17 (^=0, 1,2,...), откуда непосредственно следует, что >+9—A~if= (х^)~Д-7) (2.2.10)
| а,а. ИТЕРАЦИОННЫЕ МЕТОДЫ 133 ДЛЯ всех k — 0, 1, 2, ... Применяя эту формулу последовательно при Л = (), 1, 2, . .. , /г, получим: ^(п+1)_Д-1у=5(п).5(п-1) ... В(1).В(°)(х(°)—Д-*7). Следовательно, . ||7(п+1)_х(*)|| 1|В(П)|| . ||В(п-1)|| . . . ||В(1)|| . ||В(0)||. Цх(О)-_х(*)||. Если произведение п п >0, fe=0 n->oo ТО ||x(n+1)—х<*>|| будет стремиться к нулю при любом выборе исходного Приближения т. е. ^(71+1)-->%(*). П->оо Для того чтобы рассматриваемое здесь произведение норм матриц Стремилось к нулю, достаточно потребовать, чтобы для всех k = 0, 1, 2, ... В частности, из этих условий следует известное уже нам достаточное условие сходимости стационарного (B(fe) = B, 1,2,...) итерационного процесса (2.2.3), даваемое теоремой 2. Укажем теперь на один из способов выбора матрицС^) (k=0, 1, 2, ...), При котором соответствующий нестационарный процесс типа (2.2.4) бу- дет заведомо сходящимся. Будем, например, йри построении конкретных итерационных методов Пида (2.2.4) выбирать матрицы скалярными: = № (6 = 0, 1, 2, ...). Числовую последовательность Ра (6 = 0, 1, 2, ...) при этом нужно по- добрать так, чтобы сходился соответствующий итерационный процесс ^+1)=7^+Ра(НЛ^)) (6 = 0, 1,2,...). (2.2.11) Укажем на один из способов построения такой числовой последова- тельности, например, для случая, когда матрица А положительно опре- делена. В этом случае'имеется п положительных собственных значений матрицы А и п соответствующих взаимно ортогональных собственных векторов иР\ ... , и<пК
134 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ В случае алгоритма (2.2.11) I ВЮ=Е—М. i и равенства (2.2.10) можно переписать в виде ] • 1 tffe+i)_tf*)= (Е-рйД) (xW-x<*Y) (6=р, 1,2,...). (2.2.12)- - - • t Разложим вектор х<°)—х<*> по собственным векторам матрицы А: | _ _ п _ i Х(°)—%(*)= CiU^. J г=1 Тогда, учитывая равенства (2.2.12), соответствующие разложения можно последовательно получить также и для векторов х^—х^ (т = 1, 2, ...) %(!) —%(*>= (Е — р0Л ) (х(°)—%(*)) = Ci ( 1 — г=1 х(2)-х(*)= (Е-РИ) (х(1)-х(*))= £ (l-pAi)uW, i = l _ __ __ 71 fe x(fe+i)—%(*)= (Е—рйд) (xw—х(*)) = а Ц (1 —р,Хг) и<г>, г=1 j—0 Теперь уже можно, например, записать, что ||х(Л+1)—%(*)||2^= (%(й+1)—х(*\ Л5Л+1)—%(*)) (х(0)—%(*), ХЮ—Х<*)) =Af2J|x(°)— (2.2.13) где Мц= max 1 k П (1 РАО j=0 Числа р7- (/=0, 1, 2, ... , k) нужно, естественно, подобрать так, что- бы величина приняла возможно меньшее значение для данного фик- сированного k. Пусть каким-то образом нам удалось найти такие положительные числа а и &, что (f=l,-2, ... , n). Рассмотрим на отрезке [а, 6] многочлен h P/t+i(^)= Ц (1 РА)- j=0
f 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 135 Приведем отрезок [а, Ь} заменой переменной __ 2Х—Ь—а b—а к каноническому отрезку [—1, 1]. Тогда многочлен перейдет D новый многочлен Qfc+i(/), при этом М?4)='. так как Pft+i(0) = 1. Известным успехом при решении задачи о минимизации величины было бы построение такого многочлена Qb+i(/) степени A+h принимаю- а-\-Ь щего при t=----- значение 1, который обладал бы наименьшим макси- а—b * мумом модуля на отрезке [—1, 1]. Такой многочлен нетрудно построить с помощью известных многочленов 7’л+1(О = -хг7’й+1(О= -^cos[(&4-l)arccos/], р| s^l, наименее отклоняющихся от нуля на отрезке [—1, 1]. Дополнительное условие ' a—b J легко учесть, если взять Qa+i(0 = Корни многочлена Qa+i(0 совпадают с корнями многочлена Чебышева которые, как легко видеть, расположены в точках /=cos (i=0. 1. 2, ,k). 2(«+l) Корпи же многочлена Рл+1(А) расположены в точках Х=-^- (i=0, 1, 2, ... , k). pi
136 Гл. 2. РЕШЕНИЕ’СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ Учитывая связь между переменными f и X, можно теперь уже искомые значения 0$: найти й] t 2 ! При этом (2Z-f-1) jt 2(^+1) (i=0, 1, ... , k). Mk^ max | Qk+t (/) | — (2.2,15) a-\-b-\- (b—a)cos так как Заметим, что подбор чисел 0г (/=0, 1, ... , k) по формуле (2.2.14) можно осуществить лишь в том случае, если их число известно, т. е. если зафиксировано число k. Если же заранее не ясно, сколько шагов итера* ций потребуется сделать для достижения требуемой точности, то можно использовать числа 0г (i=0, 1, ... , k) циклически, предварительно за- фиксировав какое-либо k. При k = 0 такой процесс будет стационарным, при k>0 — нестационарным. Он будет сходящимся в силу неравенств (2.2.13), (2.2.15). Описанный выше итерационный процесс обычно называют методом Ричардсона. 2.2.4. Метод Зейделя и метод релаксации В двух предыдущих пунктах настоящего параграфа мы ознакомились с характерными представителями группы полношаговых итерационных методов приближенного решения систем линейных алгебраических урав- нений. Сейчас мы остановимся на рассмотрении одношаговых итерацион- ных методов решения таких систем. При этом более детально будет изу- чен лишь метод Зейделя, являющийся типичным примером стационар- ного одношагового процесса вида (2.2.6). При рассмотрении же неста- ционарных методов типа (2.2.7) мы ограничимся только указанием на идею методов релаксации. При получении алгоритма метода Зейделя мы не станем придержи- ваться формальной схемы построения стационарных одношаговых про- цессов, изложенной в п. 2.2.1, а придем к этому методу от известного уже нам метода простой итерации. Будем считать, что исходная система линейных алгебраических урав- нений (2.2.1) каким-то образом уже приведена к виду х=Вх-[-Ъ,
2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 137 1ЛН • п Xi= bijXj-]-bi (£=1_2, . . . , П). j=l хли бы для приближенного решения был избран метод простой итера- ши, то вычисления мы должны были бы проводить по правилу х^=Вх^+Ь (й=0, 1,2,...) (ЛИ х(й+1)= £ bijX^bi (t= 1, 2, ... , n; £=0,1,2,...). I J 3=1 Три этом алгоритм позволял бы вычислять координаты вектора х^+^ I любом порядке и независимо. Правда, этим самым он лишал бы нас юзможности использовать при нахождении последующих координат век- гора х^+^ уже найденные координаты этого вектора, хотя последние шляются, вообще говоря, улучшенными приближениями к одноименным аюрдинатам точного решения х<*> по сравнению с соответствующими ко- )рдинатами' вектора x^h\ которые участвуют при вычислениях. Нетрудно (вменить алгоритм простой итерации так, чтобы он позволял сразу же (снользовать при вычислении последующих координат вектора х^1) уже hi пленные координаты этого вектора. Например, вычисления можно про- изводить по правилу x(fe+1)= Z>ijx№+1)4- % Ьцх^+Ьг (2.2.16) 3=1 3—i (z = l, 2,.. ., n; A = 0, 1, 2, 7.:). Га кой итерационный процесс приближенного решения системы линейных плгебраических уравнений и называют методом Зейделя. Метод Зейделя можно двояко трактовать как разновидность общего итерационного процесса. При первом истолковании за один шаг процесса можно принять переход от вектора к вектору (xW, х^, ... , x^Y В этом случае процесс будет стационарным. При втором истолковании ил один шаг процесса можно считать лишь переход от вектора t • •
138 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ к вектору г+1 ’ ’ Такой процесс уже не будет стационарным, но будет циклическим (пр| первом истолковании за один шаг процесса мы принимали результат при менения полного цикла). • В дальнейшем мы будем иметь в виду, как правило, лишь первую трактовку метода. Если матрицу В разбить на два слагаемых ' О 6 21 631 О ... о ... Ьз2 • • * — bni Ьп2 пп—1 0 - Ьц 612 bln—1 bln о 6 22 • • ♦ 62П-1 62П 0 0 • • • ^Зп-1 бзп L о 0 • • • 0 Ьпп — О О О О ~ О О то алгоритм (2.2.16) можно переписать в виде x&+V=Hx&+V+FxW+b (£=0, 1,2,...) (2.2.17)' или (E-H)x^=Fx^+b (6 = 0, 1,2,...). Следовательно, метод Зейделя представляет собой одношаговый итера- ционный процесс вида (2.2.6), где роль треугольной матрицы Р играет матрица О 0“ 0 0 Матрица Е—Н — неособенная, и алгоритм (2.2.17) можно привести к виду х^= (E-//)-Wfe)+ (E-H)-'b (6 = 0, 1,2,...). Таким образом, метод Зейделя оказывается эквивалентным методу простой итерации, примененному к системе х= (Е-Н)-'Рх+ (E-Hj-'b, которая равносильна исходной системе линейных алгебраических урав- нений. Заметим, что при фактическом проведении процесса вычислитель- ная схема метода Зейделя не совпадает с вычислительной схемой экви- валентного метода простой итерации. Но установленная связь между
| 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 139 этими методами оказывается полезной при выяснении условий сходимо- сти метода Зейделя. В самом деле, опираясь, например, на теорему 1 о сходимости метода простой итерации, теперь уже можно утверждать, что, для того чтобы метод Зейделя (2.2.17) сходился при любом начальном приближении х<°>, необходимо и достаточно, чтобы все собственные значения матрицы (Е—Н)~*Р были по модулю меньше единицы. Поэтому при выяснении условий сходимости метода Зейделя нас должны интересовать корни уравнения |(Е-Я)-*Е-ХЕ|=0. Поскольку при построении алгоритма метода Зейделя, как мы видели, в действительности нет необходимости в нахождении матрицы (Е—то уже даже составление такого уравнения вызывает значи-. тельные затруднения. Нетрудно, правда, указать уравнение, корни кото- рого будут совпадать с корнями только что выписанного уравнения, но строиться которое будет более просто. В самом деле, так как определи- тель произведения квадратных матриц равен произведению определите- лей этих матриц, а определитель матрицы Е—Н равен единице, то | = | (Е-Н)-'(Е-Н) [(E-H)-'F-XE] | = = | (Е-Я) -11 • | F- (Е-Я) ХЕ | = | F+XH-XE |. Таким образом, можно высказать следующее утверждение о сходимо- сти метода Зейделя. Теорема 5. Для того чтобы метод Зейделя (2.2.17) сходился при лю- бом начальном приближении х<°), необходимо и достаточно, чтобы все корни уравнения \F-\-XH—IE |=0 были по модулю меньше единицы. Итак, если исходная система уравнений Ax=f приведена к виду х—Вх+Ь, то сходимость метода Зейделя (2.2.17) связана с корнями уравнения Ьц—X &12 ... bin Xb2i &22—X . . .. b%n n Xbni Xbn2 * • • bnn x Если же для приближенного решения той же системы уравнений избрать метод простой итерации (2.2.3), то, как мы видели, аналогичную роль играет уравнение
140 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ 6ц — Р Ь12 • • • ^1п ^21 &22—Р • • • ^2п &п! ^и2 • • • &пп Уже непосредственное сравнение этих двух уравнений наводит нас на мысль о том, что области сходимости метода простой итерации и методу Зейделя, вообще говоря, различны. Можно привести примеры таких мат* риц В, для которых метод простой итерации сходится, а метод Зейделя над сходится и наоборот. В самом деле, для случая матрицы ; уравнение |В-рЕ| = 2,5 2 =р2—0,25 = 0 имеет корни Р±=—0,5 и р2=0,5, и метод простой итерации будет сходя* щимся. Метод же Зейделя в случае такой матрицы В сходиться не будете так как уравнение \F+kH-№\ = 2,5-Х 2Х -3 -2,5-Х =Х2+6Х—6,25=0 имеет один корень, больший единицы по модулю. Наоборот, для случая матрицы —2 I -0,1 -I сходиться будет метод Зейделя (Х[= — 0,6 и Хг=0,7), а процесс простой итерации будет расходящимся (Р2—4,10+3,58=0 и Pi02> 1). Используя установленную связь между методом Зейделя и методом простой итерации и опираясь на теорему 2, можно высказать также и утверждение, дающее одно из достаточных условий сходимости метода Зейделя. А именно, для того чтобы метод Зейделя (2.2.17) сходился, до- статочно, чтобы какая-либо норма матрицы (Е—Н)~*Р была меньше единицы. Правда, по упомянутым уже ранее причинам проверка этого условия также затруднительна. Получим сейчас более просто проверяемые достаточные условия схо- димости рассматриваемого метода, которые будут формулироваться не- посредственно через элементы матрицы В. Для доказательства справед- ливости таких условий нам понадобится вспомогательная лемма об опре- делителе матрицы с доминирующими диагональными элементами, кото- рую мы предварительно и докажем.
§ 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 141 Лемма 1. Если диагональные элементы матрицы A=(aij) (/, /=1, 2, ... , п) доминируют по строкам или по столбцам матрицы, т. е. если или п (f— 1, 2, ... , ft) п г=1, j#=i (/ —1,2, ..., ft), то определитель матрицы А отличен от нуля. Доказательство. Проверим справедливость леммы лишь в слу- чае доминирования диагональных элементов матрицы по строкам (слу- чай доминирования по столбцам исследуется аналогично). Для доказательства проверяемого утверждения леммы достаточно показать, что система линейных однородных алгебраических уравнений Ах=0, где х= (х^ Х2, ... , хпу, имеет только тривиальное решение. Предполо- жим противное, т. е. допустим, что эта система имеет и ненулевое реше- ние %(*)= (х<*>, х(*), ... , х(*}у. Среди координат вектора х(*> выберем мак- симальную по модулю: I ч*’ I । х(р । (/=1.2,... , и). • «г Положим %=%(*) и рассмотрим соответствующее значение левой части /-го уравнения введенной однородной системы. Тогда | ацх<*)+а{2х(*)+.. .+ацх<р+.. .+ainx(*)| > |ан| • — 1 4 »4 4 j=l, j=l, так как по сделанному предположению >0, а П I | j=l, I ^гг | по условию леммы. Полученное противоречие и доказывает справедли- вость высказанного утверждения. Теперь уже нетрудно доказать и следующую теорему о достаточных условиях сходимости метода Зейделя.
.142 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Теорема 6. Для того чтобы метод Зейделя (2.2.16) сходился, доста- точно, чтобы выполнялось одно из условий ||B||i= max 1 i п или ||В||ц.= -тах 1 <гп JEj I bij I < 1 JE1 I I < 1 • 1=1 Доказательство. Рассмотрим только случай первого условия (достаточность условия ||В||п<1 проверяется аналогично). Для доказательства высказанного утверждения достаточно показать, что при выполнении условий п j=l значение Z=X*, для которого |V| не может быть корнем уравнения \F-\-kH—ХВ| =0 (см. теорему 5). В самом деле, если рассмотреть при таком %* сумму модулей недиагональных элементов любой строки опре- делителя |F+X//~X£|, то можно записать: | V | • | би | +• • •+1 I ‘ I Ьи-i I + Нг г+1 I+- . .+ Ргп| Полученные неравенства представляют собой как раз условия доминирования по строке диаго- нальных элементов матрицы F+V/7-VF. Тогда, согласно лемме 1,
j 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 143 следовательно, при выполнении условия ||B||i<1 все корни уравнения \F+Mi—hE\=0 По модулю меньше единицы, и метод Зейделя сходится. Итак, при выяснении вопроса о сходимости данного алгоритма метода Зс'йделя мы имеем право на основании последней теоремы воспользо- ваться частью из известных признаков сходимости метода простой ите- рации. При практическом использовании метода не менее важно не только Выяснить, что данный процесс будет сходящимся, но и знать, как быстро он будет сходиться. Для метода простой итерации мы имели ряд оценок погрешности, которые позволяли составить представление о быстроте сходимости рас- сматриваемого итерационного процесса. Используя установленную связь между методом простой итерации и методом Зейделя, можно эти оценки Перенести и на случай последнего метода. Но ’использование таких оце- нок будет затруднено тем, что матрица (Е-Н)-Ч7 фактически нам не Известна. Правда, подобно тому, как это было в только что рассмотрен- ном нами случае с достаточными признаками сходимости, некоторые из оценок погрешности метода простой итерации остаются в силе и для метода Зейделя. Например, мы знаем/что при выполнении условия п ||B||i= max 1 i<С п j=l для метода простой итерации (2.2.3) имеет место оценка Оказывается, что в этом случае для метода Зейделя (2.2.16) не, только справедлива такая же оценка, но и имеет место несколько лучшая'оценка ||x(*)_x(h) || I и'|| X(*)_x(fe-i) || 1( где г—1 п Рг== | bij |, Уг== 1 I • j—i j=i В самом деле, так как п %(*)== £ bijX^+bi (i=l, 2, ., n), J j=l то, вычитая из этих равенств соответственно равенства
144 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ г—1 п x(fe>= jg d^xW-f- ЬцхФ~9-\-Ь{ (i= 1, 2, ... , n), l 3 J j—i j—i получим 2—1 П X(*)_XW= % ьiJ(xW—x^) + J} bij(x(*)—x^-1)) (t=l, 2.......n). j=l j=2 Тогда 2—1 П j=i j—i CPil|x(*)-x(ft)||I+Yi||x(‘)-x(ft-1)||I (i= 1, 2, ... , n). Если |x(?)—x<NI достигает максимума при i=io, то z ь или и утверждаемая оценка доказана. Осталось только убедиться, что Действительно, так как при всех i= 1, 2, ... , п то ц'= max -V- - = ‘ sCPi.+Yii^ max (Pi+Y<) =C|A 1—Pi 1 Pil i^icn что и требовалось показать. Однако, как мы видели ранее, метод Зейделя не всегда оказывается более выгодным, чем метод простой итерации. Он даже может расходить- ся при сходящемся соответствующем процессе простых итераций. Обла- сти сходимости этих двух методов, вообще говоря, различны, при этом очень многое здесь зависит от способа приведения исходной системы (2.2.1) к виду (2.2.2), удобному для итерации. Мы уже знакомились ранее с рядом способов приведения исходной системы линей- ных алгебраических уравнений к виду (2.2.2). Рассмотрим сейчас лишь один из них, который позволяет для достаточно широкого класса систем построить одношаговый ите- рационный процесс с более широкой областью сходимости, .чем у соответствующего метода простой итерации. Речь пойдет о модификации метода Зейделя, параллельной модификации метода простой итерации, которую мы называли методом Якоби. При этом, как мы знаем, исходная система
§ 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 145 п ai}x}=ft (i=l,2............п) j = l приводится к виду г' —1 п (1 = 1, 2, . по которому и записывается алгоритм метода Якоби (!=1, 2.....п; 6=0, 1, 2, ...). Соответствующий одношаговый итерационный процесс i — i п Oi j Т О i j f i — *<*+*)- > --------------x<k>+------- (1= i; 2, .... n; fe=0, 1, 2, ...) cii i i ci a i an j = i j = i +1 часто называют методом Некрасова. Для этого метода условия сходимости достаточно удобно формулируются посред- ством исходной матрицы оц 0,12 ... Ош 021 022 . . . О2п. *•••••••• Oni Оп2 .. . Опп В самом деле, в случае методов Якоби и Некрасова подготовка системы Ax = f к виду х=Вх-\-Ь основана, как мы. видели, на предварительном умножении системы на диагональную матрицу £)-!= [а1Ь а22; ,.. , апп]-1, т. е. здесь или В = Е~Б-ЦМ+О+М) = —D~iM—D~lN, где 0 0 ... 0 6?21 0 ... 0 Oni Оп2 ... 0 0 Я12 ... Ощ 0 0 ... О2п о о ... о Таким образом, если придерживаться обозначений, принятых в общем случае метода Зейделя, можно записать, что Н = —О~хМ, a F = —.D~iN. Матрица (Е—по соб- ственным значениям которой можно судить о сходимости метода Некрасова, может быть записана в следующем виде: (E-H)-iF = -(E+D-lM)-iD~iN = -[D(E+D-lM)]-iN = -(D+M^N.
146 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Тогда многочлен | — (D+M)~iN—ЛЕ| после умножения на | — (D-f-M) | принимает вид ^4-X(D+M) |. Следовательно, для того чтобы метод Некрасова сходился при любом начальном прибли- жении, необходимо и достаточно, чтобы все корни уравнения ацХ а^2 ..» Uin Й21А, а22*Ь ... а2п Unl К а п 2^* • • • CLnn были по модулю меньше единицы. Если матрица А системы (2.2.1) симметрична, то можно сформулировать еще одно важное условие сходимости метода Некрасова. А именно, для того чтобы метод Некра- сова в случае системы линейных алгебраических уравнений с симметричной матрицей А, имеющей положительные диагональные элементы, сходился при любом выборе началь- ного приближения, необходимо и достаточно, чтобы матрица А была положительно опре- делена. Для доказательства достаточности высказанного условия представим симметричную матрицу А в виде А=#'+£>+#, * где Z)=[aib ^22, ...» апп], а W— треугольная матрица, образованная элементами мат- рицы А, лежащими выше главной диагонали. Тогда, как мы видели выше, факт сходи- мости метода Некрасова вполне определяется собственными значениями матрицы Покажем, что в случае положительно определенной матрицы А все собственные зна- чения матрицы по модулю меньше единицы, чем и будет доказана доста- точность высказанного условия. Пусть (3 — какое-то собственное значение,матрицы (Z)+A^,)“W, a z — соответствую- щий собственный вектор, т. е. . (£>+#')-Wz=pz. Тогда Nz— (D+N')$z= (A—N)$z=$Az—$Nz и (Nz, z)=f>(Az, z)—$(Nz, z). Отсюда находим „ (Nz, I) (Az, z) — (Nz, z) Обозначим (Az,z)=p, (Dz,z)=q, (Nz,z)=aA-ib. Тогда aA-ib ₽= r p—a—ib и а2А-Ьг l₽l2= 21 • (p-ay+b*
§ 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 147 По р = (Л z, z) = (Dz, z) + (TVz, z) + (W'z, z\=q+2at так как (N'z, z) = (z, Wz) — a—ib. Поэтому (p—a)2=p2—2ap-t-a2 = p (p—2a) -\-a2=pq-}-a2 и q2_L^2 |P|2= ------------. pq-\-a2-\-b2 Так как z=^0, а матрицы А и D положительно определены, то p=(4z, z)>0, q = •= (Dzy г)>0и | p[2< 1, чем сходимость метода Некрасова доказана. Докажем теперь необходимость высказанного условия. Обратим внимание сейчас на циклический характер метода Некрасова и рассмотрим два соседних приближения в (k+1) -м цикле: |(nfc + t-l) = (X(fe + l)t . . . , х(Ь + 1\ Х(М, . 1 i — 1 i n г г 4- n Тогда где ГО (I) о О "1 г г — О О О о о Пусть — точное решение системы (2.2.1), а gCnh + i-l) — ^*)—g(nk + i-l) и e(nA + i) = x'.'*)—g(wft + O ______________ соответствующие векторы-ошибки. Очевидно, что Q(nk + i) = £i(nh + i-i)—£^.2)-1Де(п^ + г-1) = £(пй + г-1)— — r(nfc + i-i)^ 0>г i i — , (nh + i — 1) — i-де е.= (0, .. t, 0, 1, 0, ... , 0) , а г,- — i-я компонента вектора невязки r(nft+*-i) = eKi*J_i4Y(nA+i-i)==y4e(nfe+i-i)> Тогда (Де(*гЬ + г), e(nfe + i)) = (Де(пЛ + г (nk + i-1) Гг O'i i (nft + i-1) -----------1 (Лёг, 7i) = (4e<nft+i“1), ац J e(nft+i—i так как (Де(пЛ + г-1)э + eij =aii.
148 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Поскольку ан>0, то теперь уже очевидно, что (Ле(пк+г*\ . Если бы неособенная матрица А не была положительно определена, то всегда можно было бы выбрать исходное приближение так, чтобы выполнялось условие (Ле(°>, ё<0)) <0. Тогда в силу предыдущего неравенства на протяжении всего итерационного процесса имело бы место ограничение ?°)) <0 и предельное соотношение е<т)—>0 было бы невозможно. Этим справедливость выска- т-*оо занного утверждения доказана, наконец, полностью. Доказав такой критерий сходимости, мы тем самым показали, что в случае системы (2.2.1) с симметричной матрицей А, имеющей положительные диагональные элементы, область сходимости метода Некрасова шире области сходимости метода Якоби. В самом деле, для сходимости метода Некрасова при любом начальном приближении необходима и достаточна положительная определенность матрицы Л, в то время как в случае метода Якоби необходимым и достаточным условием этого является положительная определен- ность матриц А и 2D—А, отличающихся друг от друга знаками недиагональных эле- ментов. Уделим сейчас немного внимания нестационарным методам типа (2.2.7). Построим пример такого метода, отправляясь от известного уже нам метода Зейделя ^+4=6nxW+612xW+.. .+bln-lXw +binxM+bl, = . . + &2n-l^ l +^2n^-4-^2, 4 it x(k^=bnlX(k^^ . .+Ьпп^х(^+Ьппх^+Ьп (k= 0, 1,2,^ .). Согласно выписанному алгоритму, компоненты вектора вычис- ляются в строго определенном порядке, при этом находятся они по раз- ным правилам (первая компонента, например, выражается только через компоненты вектора x(h\ а последняя — уже в основном через компонен- ты вектора который, вообще говоря, ближе к точному решению чем вектор х^). Такой порядок вычислений определен лишь порядком следования компонент. Так как все компоненты вектора, вообще говоря, «равноправны», то можно начинать вычисления (при каждом значении k) с любой (не обязательно первой) компоненты, при этом порядок нахож- дения компонент можно подчинить какому-нибудь разумному принципу.
§ 2.2. ИТЕРАЦИОННЫЕ МЕТОДЫ 149 Например, не лишена здравого смысла мысль исправлять в первую оче- редь ту компоненту решения, которая хуже найдена, чтобы при нахож- дении остальных компонент участвовало уже улучшенное значение ее. Эта идея ослабления влияния «плохой» компоненты может быть осуще- ствлена по-разному. Например, о точности приближенного решения можно судить по величине (в том или ином смысле) вектора ошибки е(Ю=х<*)—x(k\ Правда, этот вектор не может быть вычислен без знания точного решения исходной системы (мы можем лишь оценить его). Иногда вместо вектора %(ft) рассматривают вектор (№=х№— —который легко вычисляется и по которому в практике вычислений часто судят о близости приближенного решения к точному. Тогда при нахождении вектора вычисляют его компоненты в порядке убыва- ния модулей компонент вектора 6(/l)=(6\ft), 6c9ft), Л. , а именно, пер- вой находится та компонента вектора номер которой совпадает с номером максимальной по модулю компоненты вектора 6(Ч потом (с участием только что найденной компоненты) вычисляется та из остав- шихся компонент, номер которой совпадает с номером второй по вели- чине модуля среди компонент вектора и т. д. Построенный метод является, очевидно, нестационарным методом вида (2.2.7). Это есть один из примеров так называемых методов релак- сации. Принцип релаксации является одним из важных принципов построе- ния итерационных процессов. Он предполагает такой выбор матриц СМ в алгоритмах типа (2.2.4), например, чтобы на каждом шаге процесса уменьшалась какая-либо величина, характеризующая точность решения исходной системы линейных алгебраических уравнений. Судить о точно- сти решения этой системы можно, скажем, по уже упоминавшемуся век- тору ошибки е^)=х(*>—Подобную же роль может также играть век- тор невязки rM=f—АхМ=А&М, Методы релаксации могут строиться, например, на уменьшении любой нормы каждого из этих векторов. Если симметричная матрица А системы (2.2.1) положительно опре- делена, то удобной мерой точности может служить так называемая функ- ция ошибки G(x<fe)) = (Л^), Sfe)) = (ё<4 7^) = (4-W, 7w). В силу положительной определенности матрицы А функция ошибки всег- да неотрицательна, при этом G(x^)=0 только при xW=%(*). Так как G (%(*)) = (?Ч 7<ft>) = (%(*)—xW, J—AxW) =
150 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ = (*Н Г) - Т) ~ (*(Ч Ax{h)) + (х(Ч ЛлДО) = = (*(Ч Г) — (*(Ч Г) — (x(h\ 4х<*)) + (Лх<4 XW) = = (Ах&, XW) -2 (x№, ft + (x<*), J); то значения функции ошибки лишь постоянным слагаемым отличаются от значений функционала F(xW) = (XxW, xW)-2(xW, f). Поэтому, хотя функция ошибки и не может быть вычислена без знания точного решения системы Ax=f, мы можем судить об убывании функции ошибки, сравнивая между собой соответствующие значения функционала F(x^). Ряд релаксационных методов может быть построен также, на принципе уменьшения функции ошибки. Мы не станем здесь приводить примеры таких методов. Несколько методов, основанных на минимизации функционала F(x&ft будет построено в § 2.5. Там же будет построен и < пример нелинейного метода типа (2.2.8). § 13. МЕТОДЫ ИСКЛЮЧЕНИЯ В этом параграфе мы изложим некоторые методы, позволяющие полу- чать точное решение системы линейных алгебраических уравнений в ре- зультате выполнения конечного числа арифметических операций. Будут рассмотрены методы, в основе которых лежит идея последовательного исключения неизвестных из уравнений системы. При этом исключение неизвестных из уравнений системы может производиться как путем под- ходящего комбинирования уравнений системы, так и с помощью спе- циальным образом подобранных матриц (например, матриц вращения, отражения), имеющих целью на одном шаге преобразований обратить в нуль какой-либо элемент матрицы искомой системы или, быть может, обратить в нуль все поддиагональные элементы произвольного столбца этой матрицы. Как в первом, так и во втором случаях преобразования в конечном счете направлены на то, чтобы заданную систему привести к эквивалентной системе и чтобы последняя имела матрицу простого вида. В сжатой форме большинство подобных методов может быть уложено в следующую схему. Пусть дана система Ax=f. (2.3.1) Будем преобразовывать эту систему к эквивалентной системе с матрицей простого вида путем умножения ее слева на невырожденные матрицы Lt, Lz, , Ln (о способе выбора таких матриц будет сказано ниже).
§ 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 151 После выполнения k шагов таких преобразований система (2.3.1) будет приведена к виду Bx=g, (2.3.2) где B = Lk-Lk-t... LiA, g = Lh-Lk-i... Lif. Будем считать, что матрицы'Ц подобраны таким образом, что систему (2.3.2) можно легко решить. Это будет иметь место, например, в случае, когда матрица В — диагональная, унитарная*) или треугольная. Если матрица В — диагональная или унитарная, то искомое решение находит- ся соответственно по формулам: x=B~ig (здесь В-1 — тоже диагональ- ная матрица) и x=B*g. В случае, когда матрица В — треугольная, для вычисления компонент вектора х легко могут быть указаны рекурсионные формулы. Из формул (2.3.2) можно вывести также следующие правила для вычисления обратной матрицы Л-1 и определителя |Л|: A~i = B~i • LkLk-i ... Llf Одним из наиболее распространенных методов, основанных на ука- занных выше преобразованиях, является метод Гаусса. Этот метод, во- обще говоря, можно рассматривать как метод, в котором исключение неизвестных производится с помощью левых треугольных матриц Li и искомая система приводится к эквивалентной системе с правой треуголь- ной матрицей. В приложениях, однако, к построению матриц Li в этом случае не прибегают и реализуют метод Гаусса, как метод, основанный на исключении неизвестных путем комбинирования соответствующих уравнений. 2.3.1. Метод Гаусса Метод имеет много различных вычислительных схем. Мы рассмотрим так называемую схему единственного деления. Пусть дана система уравнений (2.3.3) #11X14“ ^12^2+ • • — fly ^21^14”^22X24”‘ • •~\~a2n^n = f2, *) Матрица В называется унитарной, если В*В = Е.
152 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Выберем какое-либо уравнение и в нем возьмем какое-нибудь неизвест- ное, коэффициент при котором отличен от нуля. Исключим взятое не- известное из всех других уравнений. Не уменьшая общности рассужде- ний, можно считать, что выбрано первое уравнение, взято первое неизве- стное Xi и ац=#0. Разделим это уравнение на коэффициент а,ц, который будем называть ведущим на первом шаге, в результате чего получим новое уравнение . *~\-binXn = gi, (2.3.4) где bV=~ (7>2), (2.3.5) #11 ац Для исключения х± из всех уравнений (2.3.3), начиная со второго, будем умножать полученное уравнение последовательно, на a2i, Язь ... и вычи- тать соответственно из второго, третьего и т. д. уравнений системы. Пре- образованные уравнения будут иметь вид: #22.1^2“Н • -Л~а2п.1^п--/2.1, (2.3.6) an2.i%2~h- • •~]~Clnn.i^n = fn.li где ciij.i = aij—anbij (i, fiA=f—augi. (2.3.7) Аналогичным преобразованиям подвергнем систему (2.3.6). Будем счи- тать, что мы избрали неизвестное х2, и предположим, что коэффициент #22.1 (ведущий на втором шаге) отличен от нуля. Разделим коэффициенты уравнения на а22д. Мы получим уравнение Х2-\-Ь23^3~\-> • •4"^2n^n = g’2, где' (2.3.8) Исключая с помощью равенства (2.3.8) неизвестное х2 из уравнений (2.3.6), начиная со второго, мы придем к уравнениям #33.2^34“. • .4"^зп.2-^п = /з.2, ^п3.2^з4“. • •~\~апп.2^п-/п.2, где Ctij.2 = aijA — ^i2.1b2j (l, f i.2 = f iAT~ai2Agb- Продолжая процесс исключения неизвестных и считая, что возможны все шаги до m-го включительно, получим
§ 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 153 Хтп +Ь m — Smt an m+i.m. .-|-0 nn.m^n — Tn.m> (2.3.9) где <_ I _ im.m—1 Ьтз=—^— (/>"*+!), gm=---------------: 1 Q’im.m—l^mj (G J^^AM-|“1), Предположим, что шаг номера т есть последний возможный шаг пре- образований. Могут представиться два случая: т=п и m<n. Если т = п, то это означает, что после преобразований мы получим систему Х14"&i2^24~b 13X34-.. •-\-binxn=gii *2+^23*3“H • • + ^2п^п = ^2, (2 3 10) • • • ^п^=ёп , с треугольной матрицей, эквивалентную исходной системе. Из системы (2.3.10) значения для неизвестных находим последовательно от хп к Xt по формулам Xk — Qk • • bknXn (k — П 1» П 2, (2.3.11) Процесс нахождения коэффициентов треугольной системы (2.3.10) мы будем называть прямым ходом, а процесс получения ее решения по фор- мулам (2.3.11) —обратным ходом метода Гаусса. Пусть /п<п и m-е уравнение системы и следующие за ним приведены к виду (2.3.9). Так как шаг т мы считаем последним возможным, то это значит, что в уравнениях (2.3.9), начиная со второго, нельзя выделить ведущего элемента, все aij.m (i, / = т4-1, ..« , я) равны нулю и уравне- ния имеют вид Хщ^ ^тт+1^т-{-1~1~ • • •4“^пгп«^п — ёт» 0 — fn.m Если свободные члены fi.m (i=m+\9 .,. , и) все равны нулю, то полу- чим только одно первое уравнение.
154 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Объединив первые уравнения всех шагов до гй-го включительно, мы получим систему *2“]т&23*3“Н . .Н”^2п^п = ^2> • • • А~^тп^п— ^>тп, из которой можем найти выражения неизвестных Xt, %2, ... , хт через не- известные Хт+ь xw+2, , хп и свободные члены. В этом случае система (2.3.3) имеет бесчисленное множество решений. Если т<п и хотя бы одно fs.m¥=0 (m+l ^s^n), то система (2.3.3) несовместна. В практике вычислений обычно применяется контроль, который осно- ван на следующем обстоятельстве. Если наряду с системой (2.3.1) рас- смотреть систему A у=Ь, (2.3.12) где и у=(У1, уъ, упУ, b={bi, &2,..., ьпу bi — &ik —1» 2, . . . , Al), k=l то, очевидно, должны иметь место равенства У г — Xi~j~ 1 — 1 > 2, ... , и). Поскольку у этих систем матрица одна и та же, то при вычислении век- тора у в прямом ходе следует вести преобразования только компонент вектора Ь. Число умножений и делений, нужных для нахождения решения си- и стемы п уравнений по схеме единственного деления, равно -(п2+6п—1).*) Отметим еще, что для своей реализации на ЭВМ метод Гаусса тре- бует п(п-Н) рабочих ячеек в памяти машины, из них п2 ячеек для хра- нения матрицы А и п ячеек для хранения вектора f. • Изложенная схема единственного деления применима в том случае, когда все ведущие элементы отличны от нуля. Однако это обстоятельство не известно до начала вычислений, кроме того, близость ведущих эле- ментов к нулю может быть причиной значительной потери точности. *) Здесь учтены операции умножения и деления, необходимые также и для контроля вычислений. Далее всюду приводится число операций умножения и деления над веще- ственными числами без учета операций контроля.
f 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 155 Поэтому данную схему исключения необходимо несколько видоизменить. Достаточно удобной в этом случае будет схема единственного деления с выбором максимального элемента по строке или столбцу или по всей таблице коэффициентов. Например, при выборе максимального элемента по строке в качестве ведущего элемента (&+1)-го шага будем брать максимальный по модулю элемент того уравнения, которое получается из (&+1)-го уравнения после исключения из него всех неизвестных, со- ответствующих ведущим элементам первых k шагов. Ведущим элементом первого шага будет максимальный по модулю элемент'первого уравне- ния системы (2.3.1). 2.3.2. Метод оптимального исключения Метод применяется для решения системы (2.3.3) с произвольной не- особенной матрицей А. Пусть ведущий элемент первого шага ац=^=0 и это уравнение приведено к виду (2.3.4). Выберем теперь второе уравнение в исключим из него неизвестное Мы получим первое уравнение си- стемы (2.3.6): ^22.1^2 4“ • • -A~a2n.l^n — f2.1> Остальные уравнения системы (2.3.3) оставляем без изменения. Предпо- ложим, что #22.1 ¥= 0, и приведем названное уравнение к. виду (2.3.8). Исключим из уравнения (2.3.4) Х1-Н612Х2+.. >-t-binxn=gi неизвестное х2 с помощью уравнения (2.3.8) Тогда получим где Х24“^2з^з4“- • — g2- Х14-&1з,1Хз-|-. . .4-£in.i*n=gi.i, Х24“&23.1-^3+• . •А~^2п.1^п = §2.1у (2.3.13) bij.i=bij—bi2b2j.i glA = gi — bi2g2.1> b2j.l = b2j1 g2A-----------g2> Предположим, что после преобразования первых т уравнений система (2.3.3) приведена к эквивалентной системе (2.3.14) т+1.т-1%т+1А~‘ • •4~bln.m-l^n=gl.m-h Х2"Ь^2т+1.т—1Хт+1~\~* • • 4"^2n.m-l^n =g2.m—l, ХтА~Ьт m+i.m— ЯпЙ-Ь • — fn»
156 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Исключим неизвестные хь х2?...» хш из (т+1)-го уравнения этой систе- мы посредством вычитания из него первых k уравнений, умноженных соответственно на ат4_ц, 2, ...» Mim, и разделим вновь полученное уравнение на ведущий элемент (т-|-1)-го шага (за который мы прини- маем коэффициент, стоящий при неизвестном Хщ-и). Теперь уравнение примет такой вид: m+2.mXm+2~t~• • п.т^п == Sm-t-l.m- Исключая с помощью этого уравнения неизвестное xw+i из первых т уравнений системы (2.3.14), получим опять систему такого же вида, но с заменой индекса т на т4-1, при этом: т s=l m+ip.m— _ , s=l ip.m— bip.m—1 bm+lpsmbim+i.m—l (4=1, 2, ... , m; p = m+2, m+3, ... , n), m — §i.m— Si.m—l gm+i mVim+l.m—l (t=l, 2, ... , m), в предположении, что m s=i Если все n шагов преобразований возможны, то в результате для иско- мого решения получим формулы Xi=gin-i (i=l, 2, ... , п). (2.3.15) Контроль правильности вычислений осуществляется здесь так же, как и в схеме единственного деления. Для решения системы уравнений п-го порядка по методу оптимального исключения необходимо выполнить — n(n2+3n+2) умножений и делений, т. е. почти столько же, сколько и в методе Гаусса.
• 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 157 Метод оптимального исключения по своей структуре весьма близок к методу Гаусса, поэтому его реализация на ЭВМ и реализация метода Гаусса аналогичны. Однако метод оптимального исключения позволяет более эффективно использовать память машины и за счет этого решать системы уравнений приблизительно вдвое большего порядка. Действи- тельно, в силу вида системы (2.3.14) после реализации m-го шага послед- ние п—т уравнений исходной системы остаются без изменения. Поэтому в память машины следует вводить не всю матрицу сразу, а последова- тельно по одной строке перед каждым шагом. Тогда для проведения 1) -го шага достаточно иметь всего o(m) =т(п—т-|-1) +^+1 рабочих ячеек памяти, которые нужны будут для хранения матрицы Ь1т+1.т—1 bin.m—i §1.т—1 mm-H.m-1 • • • Ьтп.т—i gm.m—1 и коэффициентов (т-|-1)-го уравнения системы (2.3.14). Так как max o(m) = (n+l)(n+5) ~ / n \2 4 ~ ' 2 ' ’ го для решения системы линейных алгебраических уравнений n-го поряд- ка по методу оптимального исключения достаточно иметь поле ячеек величиной —(п-{-1) (п+5), в то время как в методе Гаусса для этой цели необходимо было иметь (п+1)п ячеек. Это позволяет при одинаковом объеме памяти машины решать системы вдвое более высокого порядка, чем по методу Гаусса. Для осуществления описанной здесь схемы метода оптимального исключения необходимо отличие от нуля всех ведущих элементов. Если этот факт заранее не известен, то целесообразно видоизменить всю схему, перейдя к исключению с выбором главного элемента по строке, как это мы делали в случае схемы единственного деления. Для этого, если в (т-Н)-м уравнении после исключения из него Xi, Хг, ... , xm макси- мальным по модулю окажется элемент т S bsp.m—l^m-j-1 s s=l то необходимо переставить местами (т-[-1)-й и р-й столбцы и продол- жить исключение по указанному в методе оптимального исключения правилу.
158 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИИ 2.3.3. Метод окаймления Рассмотрим систему (2.3.1) и предположим матрицу А неособенной; В основе метода окаймления лежит идея вычисления решения системы более высокого порядка через решения вспомогательных систем низшего порядка. Так, например, если Bz=b (2.3.16) есть система линейных алгебраических уравнений некоторого порядка s и (2.3.17) есть система линейных алгебраических уравнений порядка $+1, в кото- рой матрица G -и векторы у, g определяются по правилу где и= (^1, и2, ... , us)\ v = (i>i, v2, ... , у5) ; a — число; и т — векторы- столбцы размерности <$; 0, у — числа, то между системами указанного вида* и их решениями может быть установлена следующая связь: й (у, й)—у 7 О (^J)-a -1 (2.3.18) В формуле (2.3.18) через f обозначено решение системы вида (2.3.16) в случае, когда Ь = и, а через й— аналогичное решение при й = т. Дей- ствительно, из (2.3.17) получим Всо4-0и = т, (у, со)+а0 = у. Если detB^O, то из первого уравнения находим со = —0 (2.3.19) Умножив полученное выражение скалярно на v и учитывая, что (у, со) =у—а0,
« 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 159 получим (v, В“1т)—у (v, В-'и) — а (2.3.20) Положив Bf=u, Bh = %, мы с помощью формул (2.3.19) — (2.3.20) окон- чательно получим искомое выражение для у, даваемое формулой (2.3.18). Основной смысл этой формулы состоит в том, что если нам известны ре- шения f и h систем порядка s с матрицей В, то решение любой другой системы вида (2.3.17) может быть получено как линейная комбинация векторов . При этом нам придется выполнить такие прос- тые операции, как скалярное умножение векторов, умножение вектора на число и сложение векторов. Поскольку матрица G получается путем окаймления матрицы В векторами, u, v и числом а и это обстоятельство существенно используется в формуле (2.3.18), то и происходящий отсюда метод получил название метода окаймления. Применительно к системе (2.3.1) схема этого метода выглядит так. Запишем систему в развернутом виде: ПцХ1-|-П12Х2“|“. • = #21-^1 + 0,22^2 4" • • •4~^2п-^п = /!2, и рассмотрим вспомогательную систему порядка k AkXkp — b kpi (2.3.21) где ЙЦ Л12 ... CLlk a2k dhh Xkp— (^lp, -^2p, . . . , •£/tp),> _ tffel ^h2 bhp — {^ipi <?2p> . . • , #fcp) \ k— 1, 2, . . . , fl. Предполагается, что p>k и 6nn+i=(fi, fc, ... , fn)'. Предположение о том, что p>k, нужно нам для того, чтобы иметь возможность в даль- нейшем находить все решения этой системы, а именно: Ал+i, ...» Xkn+i- Эти решения понадобятся нам при построении схемы метода окаймления.
160 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Наряду с системой (2.3.21) рассмотрим систему порядка &+1 вида Ak+iXk+1 р — р, где Qn Q12 • . . Qik Qik+i Q2i Q22 • • • a2k Q2k+1 Ah+i— ......................................... Qkl ak2 . . . akk Qkk+1 _Qh+ii Qk+12 Qh+ik+i_ — (-^lp, ^2p (2.3.22) bk+lp—(#lp> Q2p, • • • , Qk+lp) , p^> На основании формул (2.3.16) —(2.3.18) установим связь между xh+ip и Xkp. В нашем случае и=—bkk+i, v = Vk+t= (Qk+11, Qk+12, ••.iQk+ik), a = Qk+ik+i, n = bkp, Y== Qk+ip- Следовательно, в силу формулы (2.3.18) для Xk+ip получим Xk+ip — Xkp (flk-H, Xkp) ~j~#k+lp (t>k+i, Xkk+i) —Qk+i k+i (2.3.23) 0 (l^fe^n—1, HKp^^+l)- Заметим здесь, что по идее метода векторы Xkp и Xkk+i, являющиеся со- ответственно решениями систем более низкого порядка, а именно систем AkXkp=>6kp и AkXkh+i = bkk+i, должны быть известны. Таким образом, все вычисления в методе окайм- ления укладываются в следующую схему: 1) сначала вычисляем величины Х12, Х13, ...» Xin+i из уравнений QiiXip — Ь^р (p^2)t bip— Qip, bin+i—-ftf в предположении, что «ц#=0; 2) затем вычисляем векторы х2з, *24, ... , ^2n+i по формуле (2.3.23) при k=l и З^р^п+1. Продолжаем этот процесс по аналогии до тех пор, пока не получим вектор Xnn+i, который, являясь решением системы
• 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 161 /1 пХпп+1 — ^пп+1, будет искомым, ибо последняя совпадает с системой (2.3.1). Рассмотренную схему метода окаймления можно реализовать лишь в том случае, если все коэффициенты (v/i+i, Xkk+i)—^k+ik+i (&=0, 1, ... , п—1), на которые производится деление в формуле (2.3.18), отличны от нуля. Если окажется, что при некотором значении k коэффициент (0/t+i, %hh+i) — ли-i равен нулю, то в этом случае целесообразно изменить схему метода окаймления, выполняя в формуле (2.3.23) деление на коэффи- циент (v/t+i, Xfcs)—который по абсолютной величине является наи- большим среди всех коэффициентов вида (y^+i, АР)~ан1р- (&+1^ ^.р^п). Тогда формулу (2.3.23) можно переписать так: Xk+l р — (^fe+l, Xkp) р (^fe+1, ^fe+1 s (2.3.24) (l^Z^n—l, p = k-}-lt k+2, ... , s— 1, s+h ...» n+1). Определяемую этой формулой схему метода окаймления называют схе- мой с выбором максимального элемента по строке. Укажем в заключение на связь метода окаймления с методом опти- мального исключения. Рассмотрим вектор Ьр.т—1— (J?ip,m—1, Ь2р.т—1> • • > Ьтр.т—1) , компонентами которого являются элементы р-го столбца матрицы систе- мы (2.3.14). Сравнивая правило получения bp.m-i и вектора хтр по фор- муле (2.3.23), убедимся в том, что Xmp = bp.m-t (р = т+1, т+2, ... , п). Как и в методе оптимального исключения для решения системы ли- нейных алгебраических уравнений n-го порядка по методу окаймления достаточно иметь поле рабочих ячеек величиной / Ч (п+1)(«+5) max a(m) =---------------, ибо на (т+1)-м шаге при вычислении векторов xm+ip тре-
162 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ------------------------------------------------------------------ч| 'j буется знание только векторов хтр (р>т) и коэффициентов (т-|-1)-г6 уравнения исходной системы, т. е. числового массива величиной o(m) =m(n—т+1)+^4-1. Для решения системы (2.3.1) по методу окаймления необходимо вы- полнить я(2п2+9п+1) умножений и делений — примерно столько же, 6 сколько в методах Гаусса и оптимального исключения. 2.3.4. Вычисление определителей Каждая из рассмотренных в пп. 2.3.1—2.3.3 схем для решения систем может быть применена и для вычисления определителей. Остановимся сначала на описании схемы единственного деления. Пусть #11 #12 #21 #22 • • • • #nl #п2 #1п . #2п • • #пп и пусть #ц=/= 0. Вынося элемент ан из первой строки, получим 1 612 61п Д = #и #21 #22 • • • #2п < • #nl #п2 #пп где величины b±j определяются по формулам (2.3.5). Вычитая из каждой строки, начиная со второй, первую строку, умноженную соответственно на 6Z21, #з1, •. • , #ni, мы получим, очевидно, Д=ац 1 0 612 #22.1 • • • • • • 61П #2п.1 =#11 #22.1 #32.1 #23.1 #33.1 • • • • • • #2п.1 #3п.1 0 #п2.1 #пп.1 #п2.1 #п3.1 • • #пп.1 где величины а^л определяются по формулам (2.3.7). С образовавшимся определителем (п—1)-го порядка поступаем совершенно таким же обра- зом, еСЛИ ТОЛЬКО #22.1#=0. Продолжая процесс, мы получим, что искомый определитель равен произведению ведущих элементов: Д = #11 • #22.1 • #33.2 • #пп.п-1«
| 8.8. МЕТОДЫ ИСКЛЮЧЕНИЯ 163 Аналогично вычисляется определитель и в методе оптимального Исключения, если все ведущие элементы отличны от нуля. При этом Имеем: п—1 / тп \ А = йц I m+1 2F? ^sm+l.m^m+ls ] « т=1 \ s=l 7 Если хотя бы один ведущий элемент равен нулю и схема метода опти- мального исключения реализуется с выбором максимального элемента По строке, то определитель также будет равен произведению этих новых Ведущих элементов, которые мы обозначим через аь (&=1, 2, ... , п). Однако в этом случае, чтобы сохранить знак определителя, надо каждый Элемент ah умножить на (—где Ik — номер неизвестного, исклю- ченного на (й-|-1)-м шаге, если все неизвестные, не исключенные на пер- вых k шагах, были занумерованы подряд слева направо числами 1,2,..., n—k. Таким образом, Д= Ц (—1)^+1-аь. fe=i При вычислении определителя по любой из этих трех формул может для некоторого числа сомножителей произойти переполнение разрядной сет- ки машины (или образование машинного нуля), хотя сам определитель А не очень велик (мал). Этого можно избежать, вычисляя определитель, например, по третьей формуле так: CCk t где q близко к максимальному допустимому в ЭВМ числу, г — близко к минимальному, причем qr= 1 и все | aj| 1, а | а&| 1. Остановимся, наконец, на правиле вычисленйя определителя в методе окаймления. Для этого установим прежде всего связь между определи- телями матриц В и _ Г В и ] L v a J ’ При описании метода окаймления мы рассматривали систему * •' Всо+Ри = т, (у, со)4-₽а=у.
164 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЯ _ J Отсюда, используя выражение для со, можно перейти к эквивалентной’ системе 5 Всо+р« = т, | B~iu)]=y—(v3 В-1т), ч определитель которой по теореме Лапласа равен j (а— (у, В-*и)) • |В|. Следовательно, ' | G | = (а- (F, В-Чь)) | В |. (2.3.25) Теперь по аналогии устанавливается связь между определителями мат-j риц Ah и Л/г+1, а именно: Иы-1| = (tffc+i fe+i—(^fe+i, xk м-i)) • I Да I (2.3.26): (£=l,2,...,n-l). Применяя рекуррентно формулу (2.3.26) для определителя матрицы Д, получим Д = ацД (aft+ift+1— (Vfe+i, Xfefe+i)). (2.3.27) k=i Отметим здесь, что из формулы (2.3.26) следует, что множители (dk+ik+i—(^м-1, Xhh+i)) будут все отличными от нуля тогда и только тогда, когда все главные миноры матрицы А будут отличными от нуля. Если этот факт известен заранее (| Ah | 0), то метод окаймления для системы Ax=f можно реализовать по схеме, определяемой формулой (2.3.23). Сравнивая процесс Гаусса для решения системы с процессом вычис- ления определителя, мы видим, что объем вычислений для решения си- стемы лишь немногим превышает объем вычисления одного определи- теля. Этим, в частности, объясняется то, что пользоваться формулами Крамера для численного решения системы не целесообразно. 2.3.5. Обращение матриц Задача решения системы линейных алгебраических уравнений тесно -связана с задачей обращения матрицы, поэтому все рассмотренные выше методы исключения можно приспособить также и к нахождению обрат- ной матрицы. Действительно, если матрица А неособенна, то по опре- делению обратной матрицы
j 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 165 АХ=Е, (2.3.28) Где через X обозначена обратная к А матрица. Пусть хк= %k2, ... , — k-й столбец матрицы X и ек = (0, 0, ... , 0, 1,0,..., 0)'— единич- ен Ный вектор. Тогда в силу (2.3.28) следует, что определение элементов обратной матрицы эквивалентно решению п систем линейных алгебраи- ческих уравнений вида Ахк=ек (А=1, 2, ... , и). Для контроля вычисления и оценки точности результата целесообразно Произвести умножение А на Х=А~^ С другой стороны, если известна Л-1, то сразу можно записать реше- ние х любой системы Ax=f в виде х=А~11 Метод оптимального исключения может быть более эффективно при- менен к задаче обращения матрицы. Ниже мы изложим один из вариан- тов метода исключения для обращения матрицы, принадлежащий Жор- днпу. Суть его в следующем. Пусть требуется найти матрицу, обратную К Л, и пусть матрица А приведена к виду (2.3.29) Предположим, что Hfe+ife+i=7^0, и разделим (й+1)-ю строку матрицы Ак На этот коэффициент, который назовем ведущим элементом. С помощью лтон преобразованной строки исключим все внедиагональные элементы (k-[ 1) -го столбца, для чего будем последовательно умножать эту строку (к) (k) (k) (k) IIл щ/41, • • • , аы+ь CLk+2h+i, ... , dnh+i и вычитать соответственно из пер- вой, второй и т. д. строк. После выполнения этих операций мы придем к матрице Ак+1 вида
166 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕН (Ml) (Ml) (Ml) (Ml) #k+l М2 . . » Q'h+in (Ml) (Ml) ^M2M2 (2fe+2n (Ml) (Ml) &nk+2 • • • &nn которая, как это легко проверить, связана с Ак равенством Лм1=^мИа, где (А) #пМ1 Ml Ml Преобразуя последовательно матрицу Л0=Л матрицами Li, Х2, ... , Ln мы получим матрицы Лъ Л2, ... , Ап, причем Ап=Е. Таким образом, Ло =Л, А± =LiXo, Л2 =L^i, п—!• Отсюда и, значит, Л 1 =з^ Ln • Хп—1 (2.3.31)
§ 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 167 Матрицу А-1 удобно вычислять по следующей рекурсионной формуле: Bh+i = Lh+iBh (й=1, 2, ... , п-1), (2.3.32) где полагаем Bi = Li. Очевидно, что ВП=Л-1. В силу формулы (2.3.32) переход от матрицы Bk к матрице Bk+i осуществляется таким же обра- зом, как и переход от Ak к Ak+i. Отметим еще, что матрицы’Ль и Bk имеют специальный вид: в Ak первые k столбцов, а в Bk последние п—k столбцов совпадают с соответ- ствующими столбцами единичной матрицы и не нуждаются в отдельном запоминании их в памяти машины. Поэтому обе матрицы можно хранить и преобразовывать на том же месте, где хранилась матрица А. Обозначим Со=Л и через Ck обозначим квадратную матрицу поряд- ка п, первыми k столбцами которой являются , столбцы матрицы Bk (начиная с первого и до й-го включительно). Оставшиеся п—k столбцов матрицы Ck являются соответственно (начиная с (й+0"го столбца) столбцами матрицы Л&. Тогда вычисление обратной матрицы, учитывая формулы (2.3.30) — (2.3.32), сводится к построению последовательности матриц G, С2, ... , Сп, коэффициенты которых определяются по таким рекуррентным формулам: (Z, /=1, 2, ... , n; 6 = 0, 1, 2, ... , п— 1). Таким образом, при обращении матрицы Л по методу Жордана мы используем только формулы (2.3.33) и окончательный, результат полу- чаем в виде матрицы Сп, которая равна Л-1. При этом необходимо вы- полнить п3 умножений и делений. Если среди главных миноров матрицы Л есть равные нулю, то тогда нулю может равняться и какой-либо ведущий элемент. В этом случае целесообразно применить схему метода Жордана с выбором максималь- ного элемента по строке. Тогда в качестве ведущего элемента на (£-Н)“М
168 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ шаге берется тот коэффициент в (&-]- 1)-й строке, который среди ее коэф- фициентов, находящихся в столбцах, не исключенных на первых k шагах, является максимальным по модулю. Перед выполнением преобразований (2.3.33) целесообразно переставить (&+1)-й столбец и столбец с веду- щим элементом. Чтобы сохранить матрицу А~\ надо в матрице Сп пере- ставить строки в порядке, обратном порядку перестановки столбцов. Рассмотрим еще применение идеи метода окаймления к задаче нахождения обратной матрицы. Пусть требуется найти обратную к А матрицу и пусть Лд— некоторая неособенная квадратная матрица, для которой обратная матрица известна. Установим связь между матрицами Л"1 и Л~^ в предположении, что Л Ah Uh Ы-1 = Vh аь и Uh, Vk, ak — известные векторы и число. Пусть Qh гь 1 Ра Нам надо, считая матрицу Л^1 известной, найти матрицу Л^, т. е. опре- о - 1 делить матрицу Ph, вектор-столбец гь, вектор-строку qh и число —. По определению обратной матрицы Л/ц-1Ль+1= AhPh-{-Uhqh VhPk-[-ahQk где Eh — единичная матрица порядка k. Отсюда получим: Л h Ph+и kQk=Eh, Ahrk+ 4" uk=Q, ₽ft _ _ VhPk-}-cch<iii=O, (Vft, гл) + алт-=1. (2.3.34)
§ 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 169 По существу система (2.3.34) является системой (й-Н)2-линейных алге- браических уравнений для определения такого же числа неизвестных — элементов обратной матрицы Д^+i. Для наших целей систему (2.3.34) удобно рассматривать как систему уравнений с четырьмя неизвестными: - - 1 -1 Pk, Qk, rh, —, ибо по условию нам известна матрица Ak . Поэтому из второго уравнения системы (2.3.34) имеем - 1 л -1 - гк = —— Ak uk. рл. (2.3.35) Подставив это выражение в четвертое уравнение системы (2.3.34), получим /- 1 л -1- \ . ak t I Vk,—Uh I "b “o—— x рь ' рл Следовательно, Рь=ось— (vk, Ak 1 uk). (2.3.36) Из первого уравнения системы (2.3.34) определим матрицу Pk'. Ph=Ak1 —Ak^ UkQk- (2.3.37) Наконец, из третьего уравнения системы (2.3.34), используя формулу (2.3.37), найдем Vk(Ak i—AkiUkqk)+akqk = VkAki + + (ak— (vkt Ak 1 uk)) qk = VkAk 1 +H=0' и отсюда получим qk: (2.3.38) Учитывая это выражение для qk, из (2.3.37) для матрицы Pk окончатель- но получим такое выражение: Ph=A^ + Ah 1 UkVkAk1 Рл (2.3.39) Таким образом, зная обратную матрицу Ak, мы сможем с помощью фор- мул (2.3.35) — (2.3.39) вычислить обратную матрицу к Лд+1, при этом
Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ УкАь1 Pfe А^ Uk ~рг (2.3.40) Pfc Характерно, что при вычислении матрицы Д&+1 по формуле (2.3.40) мы: нигде не занимаемся обращением матриц как таковым, а выполняем только такие более простые операции, как умножение матриц, умножение матрицы на вектор и деление на число р& (при вычислении р& выполняет- ся операция скалярного умножения векторов). Заметим здесь, что в силу формулы (2.3.25) число р^ имеет следующий смысл: ибо применительно к матрице Ak+i эту формулу можно записать в виде | Ak+i | = (аь— (vk, Ak1 Uk)) • | | • Как описанный здесь процесс применить к решению задачи об обращении матрицы X? Предположим, что эта матрица имеет отличные от нуля главные миноры. Тогда, последовательно обращая по формуле (2.3.40) матрицы Ai= [0ц] , Az = 0ц 012 021 022 0ц 021 031 012 022 032 013 023 033 каждая из которых получается окаймлением предыдущей, найдем матри- цу А-1. Для этого необходимо выполнить п3 умножений и делений. Особенно метод окаймления.эффективен при обращении эрмитовых и треугольных матриц. Действительно, если А эрмитова, то для всех k в этом случае имеют место равенства Ah+i= (Лд+О* и vh=Uk, ибо (Ak+iAk+i)*=E= (Л/i+i) * Ak+i. _i Следовательно, матрицу Ak+i можно записать в таком виде:
$ 2.3. МЕТОДЫ ИСКЛЮЧЕНИЯ 171 pk=Ak uk, Pfe=afc—(Ufc, ph). Ри ₽* 1 где Поскольку в эрмитовых матрицах после определения вектора Рк - qu = —— вектор Гь определяется путем перехода к транспонированному p/t _ и комплексно сопряженному вектору то для. обращения эрмитовой матрицы необходимо выполнить вдвое меньше арифметических операций, чем для обращения произвольной матрицы, например надо выполнить >2 п2(^+1) умножений и делений. Еще более простым будет алгоритм обращения треугольной матрицы. Рассмотрим, например, правую треугольную матрицу А. Для нее все 1^ = 0, а А^1 — треугольные матрицы того же наименования. Поэтому в силу формулы (2.3.40) А Ak1 Uk - 1 т-п(и24-' о Лля обращения треугольной матрицы необходимо выполнить 4-Зп+2) умножений и делений. Понятно, что описанные схемы метода окаймления проходят лишь для матриц с отличными от нуля главными минорами. В общем случае надо' применять схему с выбором главного элемента по строке аналогично тому, как мы это делали в методе Жордана. Обращение матрицы по указанным выше схемам не дает уверенности в точности полученных результатов из-за неизбежных округлений, влия- ние которых на конечный результат трудно оценить. Поэтому, как мы уже отмечали, для контроля точности вычисления обратной матрицы надо выполнить умножение матрицы на ее обратную и результат сравнить с единичной матрицей. Несовпадение произведения с единичной
172 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ матрицей указывает на степень неточности в вычислении обратной мат- рицы. Если неточности большие и результат нельзя считать удовлетвори- тельным, то целесообразно прибегнуть к уточнению элементов обратной матрицы по следующему правилу. Пусть Do — матрица, полученная из данной матрицы А каким-либо процессом обращения. Рассмотрим матрицу Ro, являющуюся погрешно- стью обращения и определяемую формулой Ro=E-ADo, (2.3.41) и предположим, что ||/?о11 ^К<. 1. При этом условии элементы обратной матрицы А-1 могут быть вычислены при помощи следующего итерацион- ного процесса со сколь угодно большой точностью. Образуем две после- довательности матриц {Dk} и {Rk}, члены которых определяются по формулам Dk=Dk-i(E+Rk-i), Rk=E—ADh (£=1,2,...). (2.3.42) Покажем, что последовательность матриц {Rk} быстро убывающая и что lirn/?m=0. В силу формул (2.3.42) имеем т->оо Rm—Е—ADm—Е ADm—i (E~i~Rm—i) — (Е ADm—i) ADm—iRm_i=z == Rm—1 ADm—i Rm—1 = Rm—!• Значит, R,=Rl 9 92 P _ P4 _ P Z A2-Al --AO , (2.3.43) 9 9m Rm = Rm-i = • . . = Ro . 2m 2m Поэтому <lltfoll и lira ||/?m||=0, откуда следует, что m->oo lim/?m=0. Далее, учитывая формулы (2.3.42), (2.3.43), получим m->oo пГП Dm=A-^E-R% ). (2.3.44) Эта формула показывает, что Dm стремится при возрастании т к А~\ причем сходимость процесса очень быстрая. Дадим оценку погрешности, т. е. разности Dm—А-1. Имеем 9т Dm-A-i=-A~iRo .
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 173 Так как Д-1=Оо(ЛДо)_1 и ADq=E—/?о, то окончательно получим 9т 9тп ||£>т-Л-1|| = ||-Л-‘Яо 11 = 11-Оо(£-7?о)-^о ||< 9гп ,т К2 <||Doll -ll(£-^о)-Ч1 -||/?o II HDoll -г-Г- (2.3.45) Из оценки (2.3.45) видно, что если К<^1, то сходимость Dm к Л-1 будет очень быстрой и для уточнения обратной матрицы не придется выполнять большое число итераций. Отметим еще, что члены последовательности матриц {Dk} можно вычислять по несколько видоизмененной формуле (2.3.42), а именно: Dk=Dk-i (E+Rk-i) (Е—ADk-i). В этой формуле второе слагаемое будет играть роль поправочного члена. Общие методы уточнения полученных решений и способы ускорения сходимости итерационных процессов при решении задач линейной алгеб- ры будут рассмотрены нами в следующей главе. Заканчивая параграф, обратим внимание на следующее обстоятель- ство. Как правило, задачи решения системы уравнений, вычисления опре- делителей, обращения матриц будут решаться тем точнее, чем меньшей будет суммарная ошибка, вносимая при выполнении ряда операций, свя- занных с сильным накоплением погрешностей округлений. Это в первую очередь относится к операциям вычисления скалярного произведения, произведения матриц, произведения матрицы на вектор и т. д. Поэтому п в суммах вида должны выполняться арифметические операции h=i с двойной точностью и округляться должно не каждое слагаемое, а весь результат. § 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ В предыдущем параграфе мы рассмотрели несколько методов исклю- чения, которые в силу формулы (2.3.2) можно было трактовать также и как методы, основанные на разложениях матрицы системы (2.3.1) в произведение двух или более матриц специального вида. Однако во всех этих методах разложение матрицы в произведение матриц в явном виде не выписывается и сам вид матриц произведения по существу остается нам неизвестным и никак в схемах методов не используется. Там в полной мере присутствует только идея исключения неизвестных с помощью линейного комбинирования строк матрицы. Поэтому мы и объединили эти методы под общим названием методов исключения.
174 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Ниже мы рассмотрим методы решения систем вида (2.3.1), в основу которых положена идея разложения искомой матрицы в произведение двух или более матриц специального вида, причем здесь в схемах мето- дов существенную роль будут играть сами матрицы произведения, их вид, структура. Из числа таких матриц чаще всего используются матрицы особого вида, предназначенные для исключения одного или нескольких неизвестных, так называемые матрицы вращения и отражения. 2.4.1. Метод квадратного корня Этот метод применяется при решении систем вида (2.3.1) с неособен- ной эрмитовой матрицей. Если матрица А не является эрмитовой, то без предварительного преобразования системы к виду A*Ax=A*f метод при- менять* нельзя. Однако преобразование системы'к указанному выше виду связано с выполнением большого числа дополнительных операций умно- жения и сложения, число которых намного превосходит число аналогич- ных операций, необходимых при решении системы с эрмитовой матрицей по методу квадратного корня. Поэтому выполнять указанное преобразо- вание и затем применять к решению системы метод квадратного корня, как правило, не целесообразно. Пусть матрица А системы Ax=f эрмитова. Схема метода квадратного корня строится на идее представления матрицы А в виде произведения треугольных и диагональных матриц, а именно: находим такую правую треугольную, матрицу S и диагональную матрицу D с элементами ±1 по главной диагонали, чтобы имело место равенство X=S*DS, (2.4.1) где приняты обозначения $11 $12 . . . О $22 • • • • • о о ... $пп О 0 " ^22 ... О • ♦ • • • О ... dnn Предположим, что мы нашли такие матрицы S и D, для которых имеет место равенство (2.4.1). Тогда решение системы Ax=f осуществляется по такому правилу. Введем следующие обозначения: B=S*D, B=(pi;), Sx=y, y=(yi, уъ ... , УпУ, где В — известная матрица; у — неизвестный вектор. Для определения у, в силу формул
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 175 Ax=S*DSx= (S*D')Sx=f, имеем такую систему линейных алгебраических уравнений: By=f. (2.4.2) Здесь особенно важно то, что матрица этой системы является левой тре- угольной, т. е. имеет вид " рн О О £___ Р21 Р22 ... О _ Pnl Pn2 Рпп __ Это позволяет сразу из системы (2.4.2) выписать ее решение, выполняя только обратный ход метода Гаусса сверху вниз. В результате получим рн k-i 8 8=1 Уъ= fikh Определив вектор у, находим затем из системы Sx=y искомое реше- ние системы Ax=f. Для этого нам надо будет в системе Sx=y выполнить обратный ход метода Гаусса снизу вверх, после чего получим ___ Уп п__ > $ПП п Ук S SkpXp p=k-i-i Shk (2.4.4) (k=n— 1, n—2, Как мы видим, для вычисления векторов у и х требуются простые, не- громоздкие вычисления. Теперь, чтобы придать схеме метода оконча- тельный вид, надо указать правило, по которому следует вычислять эле- менты матриц S и D. Соотношение (2.4.1) можно рассматривать как систему алгебраических уравнений для определения п(п+1) элементов 2
176 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ матрицы S и п элементов матрицы D, Так как матрица А эрмитова, то п(п-|-1) мы будем располагать--------уравнениями следующего вида: Здесь Sjj — число, комплексно сопряженное с Sij. В системе (2.4.5) число уравнений меньше числа неизвестных на п. Чтобы разложение (2.4.1) было однозначным, определим диагональные элементы su так, чтобы они были вещественны и положительны. Тогда из второго уравнения системы (2.4.5) при 1=1 имеем | $11|2б/ц = ац. Положим du = sign 0ц и из предыдущего ур1авнения для $ц получим 5ц=у | Лц|. Из первого уравнения системы (2.4.5) при /=1 найдем Sij= - (j=2, 3, ... , п). Таким образом, мы сможем определить ац<$и элементы первой строки матрицы S. Далее, аналогично, из второго урав- нения системы (2.4.5) и из первого уравнения при 1=2 находим: d22=Sign(fl22—| S12] 2б/±1) , $22 = У | #22—|$12|2^ц|, ^2~<Si2dllSij S2j= —-j----------- (/ = 3, 4, ... , и). #22<$22 Эти формулы позволяют вычислить элементы второй строки матрицы S. Продолжая этот процесс, мы сможем вычислить все элементы матрицы S. Укажем в общем виде формулы, по которым должны вестись вычисления элементов tZij / \ d,i = sign (а»,— |sPi12dpp I, Р=1 Sii — Spi| 2dpp F P=1 2—1 _ Spidpp • Spj p=i Sij= —————— ац8ц
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 177 Таким образом, при решении системы Ax=f по методу квадратного корня необходимо: 1) сначала убедиться в том, что А— эрмитова матрица, и затем по формулам (2.4.6) вычислить элементы матрицы S; 2) используя формулы (2.4.3), вычислить вектор у; 3) наконец, по формулам (2.4.4) найти искомое решение системы Ax=f — вектор х. Если матрица А — вещественная и симметрическая, то ее можно раз- ложить в произведение двух транспонированных друг другу треугольных матриц, а именно: X=S'S, где S — правая треугольная. В этом случае формулы (2.4.6) несколько упростятся и будут иметь вид (2.4.7). — п(п2+9и+8), Заметим, что в указанном разложении диагональные элементы матри- цы S будут* вещественными и положительными только в случае, когда матрица А положительно определенная. В противном случае среди эле- ментов sa, равно как и среди других элементов Sij матрицы S, могут быть и комплексные. Для решения системы линейных алгебраических уравнений с веще- ственной симметрической матрицей порядка п по методу квадратного корня необходимо выполнить: умножений и делений извлечений квадратных корней п. Отметим в заключение, что метод квадратного корня очень эффекти- вен при решении систем с положительно определенной эрмитовой матри- цей. Такие системы, как правило, возникают при решении задач мини- мизации положительно определенных квадратичных форм. Кроме того, в методе квадратного корня имеется возможность полнее использовать другие специфические свойства матрицы А. Так, например, если матрица А имеет вид такой, как на рис. 2.4.1, а и б, то матрицы S будут иметь соответственно вид (рис. 2.4.2, а и б). Действительно, если при некото- ром / коэффициенты эрмитовой матрицы А удовлетворяют условию
178 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕ] aij=O для всех 1 то тогда, как это следует из формул (2.4 и все соответствующие элементы S{j = O. Исключение операций для э нулевых элементов матрицы S позволяют не только решать системы стрее, но и увеличивать порядок решаемых систем. Рис. 2.4.1 Рис. 2:4.2 В общем случае, когда матрица А системы Ax=f не является эрм вой, к решению системы также может быть применена идея разложс матрицы А в произведение двух матриц специального вида. Основан для этого служит следующая
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 179 Теорема 1. Какова бы ни была матрица А с отличными от нуля глав- ными минорами #н=И=0, #ii #12 #21 #22 #=0, #11 ... #1 п-1 #n—1 1 • • • #n—1 п—1 ее всегда можно разложить в произведение двух треугольных матриц А = ВС, _ (2.4.8) где В — левая треугольная матрица: "Рн 0 ... 0 ' р__ Р21 Р22 ... 0 z? — » Рп1 Рп2 • • • Рип _ С — правая треугольная матрица: Г Yu Y12 ... Yin с=| о Y22 ... Y2n • •••••• _ 0 0 Ynn _ Доказательство. Отметим прежде всего, что если разложение вида (2.4.8) существует, то оно заведомо неединственно. В самом деле, если имеет место А = ВС, то и A = (BD~A} (DC), где D — невырожденная диагональная матрица, опять будет произведе- нием левой треугольной матрицы BD~i на правую треугольную мат- рицу DC. Перейдем теперь непосредственно к доказательству теоремы. Выпол- нив в формуле (2.4.8) умножение матриц, получим min (г, э) JS ^ikyhj==aij. (2.4.9) k=l Отсюда при /=/=1 имеем: PhYh = #h. Это уравнение позволяет опреде- лить Ри и Yu с-точностью до некоторого произвольного постоянного мно- жителя, например, можно положить Yu^Si^O и рц= Далее при i = />l имеем
Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ г—1 РггУгг’Ч” JXj == ^гг- k=i (2.4.10) Из (2.4.10) при i=2 аналогично определим £22 и угг- Когда i>/, то (2.4.9) дает следующую формулу для определения J-1 &ij а при j>i (2.4.9) дает формулу для определения у*}! 2 — 1 (2.4.12) После определения Р22 и Y22 из (2.4.11) при /=2, /=1 находим p2i, а из (2.4.12) при г=1, / = 2 находим Y12. Последовательно используя формулы (2.4.10) — (2.4.12), мы сможем определить элементы третьей строки мат- рицы В и третьего столбца матрицы С и т. д. Этот процесс можно осуще- ствить только в том случае, когда PiiYn^O ПРИ всех /=1, 2, ... , п— 1, так как на эти элементы выполняется деление в формулах (2.4.11), (2.4.12). Покажем, что если матрица А имеет отличные от нуля главные миноры, то piiYit^O при всех 1=1, 2, ... , п— 1. Действительно, если бы рггУгГ=#О при /=1, 2, ... , k— 1, a р^у^=О при некотором k^.n— 1, то, в силу формул (2.3.10) — (2.3.12), было бы возможно разложение Ak=BhCh, где Ah, Bh, Ch — главные миноры порядка k соответственно матриц Л, В, С. Вычисляя теперь определитель матрицы Ah, мы получили бы |Ah| = |Вй| -1CftI = 7J риу^ = о (ибо pftfeYfeA=O) что невозможно, так как по условию теоремы |Л^| =#0. Значит, наше предположение о том, что — 0 при k^n— 1 не верно и разложение вида (2.3.8) существует. Теорема доказана. Отметим, что при фиксировании элементов по главной диагонали у матриц В или С разложение вида (2.4.8) будет единственным. Можно, например, полагать уц=у22=.. .=упп=1. После того как матрица А системы Ax=f разложена в произведение вида (2.4.8), искомый вектор х может быть вычислен по формулам типа (2.4.3), (2.4.4).
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 181 2.4.2. Метод отражений Этот метод Основан на разложении матрицы А системы Ax=f в произведение уни- тарной матрицы на правую треугольную матрицу. Причем здесь унитарная матрица образуется как произведение нескольких квадратных матриц, так называемых матриц отражения. Это название матрицы получили из-за их свойства осуществлять преобразо- вание векторного пространства по правилу отражения векторов от заданной плоскости. Изложим правило построения таких матриц. Пусть Q — некоторая заданная плоскость. Рассмотрим произвольный вектор z0 = %+*/, где вектор х обладает свойством (х, (о)=0, (о— вектор-столбец единичной длины, орто- гональный Q, г/ = асо, а — произвольное число. Вектор Zi, полученный как результат отражения z0 от Q, очевидно, имеет такой вид: Zi = x—у. Матрицу отражения, переводя- щую z0 в Zb обозначим через V, Vzo = zi. Вид этой матрицы определяется формулой У=£-2о)ю*. (2.4.13) Проверим, что Vzo = zi: VzQ = (Е—2(д (O*)zo = zo—2(0 со*(х+а(о) = z0—2со со*х—а-2со со*со = =z0—2а(о=х4-асо—2асо = х—aco = Zb ибо со со*х = со (х, со)=0 и со со*со = со (со’ со) =(0. Легко проверяется и тот факт, что V—унитарная матрица: VV* = (Е—2(0 (о*) (£—2(0 (о*) =£—2(о со*—2со (о*+4(о (о*(о со* = = £—4<о (о*+4(о((о*(о (о*) =£—4(0 (о*+4(о (со*) =£. Матрицы отражения V могут быть эффективно использованы при решении задачи о приведении заданной матрицы к виду правой треугольной. Чтобы показать это, рас- смотрим сначала, как с помощью матрицы V перевести произвольный вектор $ в задан- ный вектор I единичной длины, т. е. как определить матрицу V и число а, чтобы имело место равенство Vs = a7. (2.4.14) Его можно также записать в таком виде: 2(s, (o)(o = s—aZ (2.4.15) или co = x(s—aZ), 1 где x= —:-------. Подставив это выражение для со в формулу (2.4.15), получим: 2(s, (о) 2(s, х(s—aZ)) • х(s—aZ) =<s—uZ или [2|x|2(s, s—aZ) —1] (s—aZ) =0.
182 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Выберем х таким образом, чтобы выражение в квадратной скобке обратилось в нуль. Это дает 1 |х|2= __ _ 2(s, s—al) Здесь число а подлежит выбору. Определим его таким образом, чтобы (s, s—а/) >0. Имеем (s, s—al) = (s, s)—а($, Z). Положим |а| = V (s, s). Тогда (s, s—al) = | а|2—a(s, I) = | a|2— | a|arg a|(s, I) | e* arg 0= = |а|2—‘|a| | (7, Z) | e* <-arg a+arg (7, Отсюда следует, что (s, s—aZ)' заведомо* будет больше нуля, если —ei (-arg a+arg (з.Т))— J Для этого достаточно взять —arg a+arg (s, Z) =л, т. е. arg а = л—arg(s, I). Тогда окончательно получим: (s, s—aZ) = |a|2+|a| | (s, I) | и | х |2 —----------------- 2[|ap+|a| | (7,7) |] Таким образом, для того чтобы матрица V=E—2со о* удовлетворяла условию Vs —al, где s и Z — заданные векторы, надо положить - - 1/------------- 1 1 со == х (s—al), a = г (s, s), x=--—- =------ —. У 2(s—al, s—al) V 2( |a|2+ |a| (s, I)) Теперь задача разложения произвольной неособенной комплексной матрицы А в произ- ведение унитарной и правой треугольной матриц решается так. На первом шаге образуем матрицу Vi, взяв в качестве s и Z следующие векторы: $=(аи, <22i, ... , anl)'t I— (1, 0, ... , 0)' и вычислив со, а и х по указанным выше формулам. Умножив А слева на Vi, мы придем к матрице АО) вида Д(1)=у1А = ~ (1) (1) Лц <212 п О) 0 0,22 (1) ~1 <4 п (1) ^2п (1) @71 п Очевидно, что ац =а. На втором шаге аналогичным путем образуем матрицу |/2 по век- — (1) (1) — торам $= (0, <222, , ci2n) , е= (0, 1,0,..., 0)' и выполним умножение слева АО) на V2, в результате чего получим матрицу АО) вида
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 183 Л(2)= у2Д(1)= y2ViA = (2) an (2) 012 (2) 013 • • • (2) 01 n 0 (2) 022 (2) O23 • • • (2) O2n 0 0 (2) O33 4 • • (2) Озп 0 0 (2) On3 • • • (2) On n В этой матрице первая строка имеет тот же вид, что и аналогичная строка в матрице Л*1)» в силу того, что матрица V2 имеет такой вид: Продолжая этот процесс дальше, мы V2 = £—2(0 (о* = A(”)=VnVn-i ... V2VtA 1 0 0 0 (2) U22 (2) W32 0 (2) O23 (2) O33 • • • 0 . " (2) O2n (2) ОЗп • на 0 n-M (2) (2) Un2 Wn3 . . шаге придем • к (2) On n матрице j A<n> вида — (n) On 0 - (n) Oi2 (n) 022 • • (n) Oln — l (n) O2n-i (n) • 0177, (n) О2тг 0 0 0 (n) On n _ Обозначив здесь VnVn-i ... Vi через V, мы получим Л<п> = VA, откуда уже следует искомое представление матрицы Л в виде произведения унитарной матрицы на правую треугольную матрицу, т. е. A = V*A(n\ Основываясь на изложенной выше теории, построим вычислительную схему метода отражений. Пусть требуется решить систему Ax = f с неособенной комплексной матрицей Л. Рассмотрим расширенную матрицу этой системы —(0) —(0) —(0) —(0) со столбцами а\ , а2 , ... , ап , an+t и обозначим ее через Ло, таким образом, л . г-(о) -(0) -(0) До=|_01 ♦ 0,2 , .. > Лп + 1], где —(°) . - . . л . —(0) "7 Оk — \OiO2ht • • • » On k) \k — 1, 2, ... , /2-) , Оn +1 /.
184 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Будем преобразовывать ее-по правилу Ah+i = Vk+iAk (6=0, 1, ... , п-2), (2.4.16) где Vi, V2, •.. , Vn-i — матрицы отражения. Из (2.4.16) следует, что ^<'‘+1>=Ий+1а<?) (1=1,2........п+1). (2.4.17) Как мы видели, при построении матрицы Vi в качестве s и I надо взять такие векторы: s = ai(0)= (ап, a2i, ... , ani)', ^=(1, 0, ... , 0)'. В силу выбора s и I получим —(1) —(0) cii =Viai (j=l, 2, ... , n-H), -d) -d) , d) л -d) , и вектор tzi имеет вид = (an, 0, ... , 0) , а другие при i>l являются векто- рами общего вида. Предположим теперь, что уже построена матрица Ak, у которой (&) ац =0 ((>/,/=!, 2,..., 6). (2.4.18) Тогда при построении матрицы Vk+i следует взять /п n (h} • (А) (ft) ч/ s — QU, ...» U, ak+i fc+i, flft+2 fc+i, ...» ank+i) , 7=(0, ... ,0, 1,0, ...,0)'. (Л+i) Построенная после этого матрица Ah+i = Vh+iAk будет обладать свойством аг*+1) = 0 при />/, / = 1, 2, ... , 64-1. Понятно, что после (п—1)-го шага будет получена матрица А п-i, первые п столбцов которой образуют правую треугольную матрицу. При этом система Ax = f примет следующий вид: (п-1) (п-1) (п-1) (п-1) ац Х14-#12 ^24“- • •~га1п xn = ain+it (п-1) (п-1) . (п-1) а22 х2-[-.. .-]-а2п хп = а2п + 1, (п-1) (п-1) __ (п-1) ап-1 п—I'Xn—i-f~an-1 п^п — an-i n+i, i (п — 1) (п — 1) Ппп Хп==ап п + 1. Отсюда получим: (п-1) an n+i %п = ' п п (п — 1) (п — 1) ak n+i akp Хр Хк= —----------3>~'1+*-------- (k = n—l, п—2, ... , 1). а(п-1) kh
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 185 Отметим, что невозможность выполнения очередного шага связана лишь с равенством пулю очередного вектора s, ибо тогда а = 0 и нельзя вычислить число х. Однако вектор s не может быть нулевым, так как матрица А невырождена и преобразуется она унитар- ными матрицами. Рекомендуется с целью уменьшения общего объема вычислений фор- мулу (2.4.17) использовать в такой форме: —(ft+i) (Л). Л/-(А) “ ~ ai =ai —2{ai , со)со. Этот вид формулы следует из (2.4.17), если учесть, -что (со со*)^^ = (сгР\ со)со. Для решения системы линейных алгебраических уравнений методом отражений не- 1 обходимо выполнить — (4п34-15п2+23п—6) умножений и делений и п— 1 извлечений 6 квадратных корней. В изложенном выше методе отражений исключение неизвестных на каждом шаге производилось с помощью матриц отражения. Обратим внимание на то, что эта же за- дача может быть решена и с помощью элементарных унитарных матриц /?гДф, ф) вида (/) О cos <р lip . —е sin ф /?и(ф, ф) = —lip . е sin ф COS ф о Действительно, если А — произвольная неособенная комплексная матрица, то, умножив ее слева на матрицу ф), мы получим новую матрицу В, у которой элементы i-й и /-й строк определяются по формулам bip=cos ф-Ягр—sin Ф ег^ >ajp, I (2.4.19) , 6jp = sin ф-е^Лгр+соз ф-Ц;Р (р= 1, 2, ... , п), ) а остальные элементы матрицы В такие же, как и у матрицы А. Если теперь мы хотим элемент bj8 матрицы В обратить в нуль (это эквивалентно исключению из /-го уравнения неизвестного xs с помощью операции /?o4x=/?of); то необходимо в формуле (2.4.19) при p = s взять ф = аг§ ciiS—arg czjs, | ais | cos ф = —-------------- 1 У Iais|2+1ajs12 (2.4.20) sin ф = I УЙ7Г12+l«js|2
186 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ^ если У |#fs|2~b lfljs|2=/=0. В противном случае следует положить cos<p=l, sin <р = 0. Такое свойство матриц Ф) позволяет утверждать, что справедлива Теорема 2. Любая комплексная матрица А преобразуется в правую треугольную- матрицу посредством умножения слева на конечную цепочку матриц Rij (ср, ф). Доказательство. Умножим матрицу А слева на матрицы R12, R13, ... , выбирая их так, чтобы последовательно аннулировать все поддиагональные элементы.? первого столбца. В результате мы получим: A^i^ = RinRi n-i ... = Г 011 (1) 012 (1) 0щ 0 (1) 022 •, • • (1) 02п _ 0 (1) On 2 • • « (1) On п На втором шаге матрицу умножаем на соответствующим образом подобранные мат- рицы R23, R2^ ... , R2n, на третьем шаге — на /?33, /?34, ... ‘, Rsn и т. д. В конце процесса мы получим правую треугольную матрицу по формуле A(^ = Rn-i nRn-2 nRn-2 n-i ... W. (2.4.21) Теорема доказана. Из формулы (2.4.21) следует уже. установленный нами ранее факт, что любая ком-; плексная матрица есть произведение унитарной на правую треугольную. Действительно, матрица V=Rn-mRn-2nRn-2 n-i ... R12 — унитарна, поэтому из (2.4.21) получим: Д = У*Д(П-1), но V* также унитарна. Сравнивая описанный процесс приведения матрицы к виду правой треугольной: с аналогичным процессом, осуществляемым с помощью матриц отражения, мы видим, что применение матриц отражения в этой задаче оказывается более эффективным, ибо с их помощью на каждом шаге можно обращать в нуль все поддиагональные элементы неко- торого столбца. 2.4.3. Вычисление определителей Метод квадратного корня и метод отражений при решении системы уравнений могут быть попутно использованы также и для вычисления определителя матрицы. Действи- тельно, из формулы (2.4.1) имеем |Д I = |S*| • |D| |S| = [[ladiiSH. . 1=1 Значит, |4|= |s-a |2 da. (2.4.22) i = 1 Формула (2.4.22) является искомой для вычисления определителя матрицы А в методе квадратного корня.
§ 2.4. МЕТОДЫ, ОСНОВАННЫЕ НА РАЗЛОЖЕНИЯХ МАТРИЦЫ 187 Применяя формулу (2.4.16) п—1 раз, получим: Отсюда Ап —1 — Vn-iVn-2 ••• ViA. |4п-!|= Д |^|-|Л|. г = 1 Значит, (2.4.23) По формуле (2.4.23) можно вычислить определитель матрицы А, если мы сможем опре- делить значение определителей матриц Vi. Докажем, что, независимо от выбора вектора со, определитель матрицы отражения равен минус единице, т. е. |Vi|= —1 при-любом i. Рассмотрим матрицу V=E—2со со* и покажем, что | V| = —1, если со — вектор единичной длины. Пусть (V) — собственные числа матрицы V. Тогда |V|= ДМЮ- (2.4.24) i = 1 Изучим свойства чисел %i(V). С этой целью введем в рассмотрение матрицу W = со со* и собственные числа Ki(W)< этой матрицы. Очевидно, что МУ) = 1-2МЮ 0=1, 2, ... , п). Если теперь мы определим ХД^), то тем самым будут определены и M(V). Матрица W — нормальная, т. е. она перестановочна со своей сопряженной. Действительно, W*W— WW* = (со со*)*(со со*) —(со со*) (со со*)* = 0. Для такой матрицы известна связь между квадратом ее сферической нормы и собствен- ными значениями [2, стр. 26], а именно: ЛГ2(Ю = £ |MW> г = 1 где №(Ц7)= |Wt.(dj|2 = Sp WW, Ц7=(<о«о)). i, 3 = 1 Но Sp №*№=Sp (co co*)*(co co*) =Sp (co co\co co*) =Sp (co co*co)co*=* _________ n __ = Sp CO C0*= У СОгСОг= (co, CO) = 1, i = 1 значит, №(U7)=Sp W*W= jg (U7) |2=l. (2.4.25) i = 1
188 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ (2.4.26) Так как матрица W имеет одно собственное значение, равное единице, ибо №й= to, то в силу (2.4.25) собственные значения W распределены с точностью до нумерации сле- дующим образом: Ai(IF)=l, МЮ=0 (fc = 2, 3, ... , п). Следовательно, можно считать, что МИ =-1> W) = l (6 = 2, 3, ... , п). Из (2.4.24) теперь окончательно получим: |V|=-1. Это позволяет переписать формулу (2.4.23) так: |Л| = (-1)»-1 д -----------д (-ан-1) ). (2.4.27) i = 1 i = 1 Формула (2.4.27) является искомой для вычисления определителя в методе отражений. Отметим, что при вычислении .определителей по формулам (2.4.22), (2.4.27.) следует пользоваться приемом, изложенным в п. 2.3.4, с тем чтобы избежать получения машин- ного нуля или переполнения. 2.4.4. Обращение матриц Вычислёния, проводимые при решении системы уравнений по методу квадратного корня, не представляется возможным непосредственно использовать в задаче обращения матрицы. Однако этот метод можно применить для нахождения обратной матрицы в слу- чае неособенных эрмитовых матриц аналогично тому, как это мы делали в методе Гаусса (п. 2.3.5). Более эффективно могут быть использованы для обращения матрицы вычисления, проводимые в методе отражений. Действительно, применяя формулу (2.4.16) п— 1 раз, получим An-i = Vn-iVn-2 ... ViA, (2.4.28) где Ап-1 — правая треугольная матрица. Ее элементы известны. Из (2.4.28) находим: А-*=Ап-1Уп-1Уп-2 ... Vi. (2.4.29) Формула (2.4.29) является искомой для обращения матрицы по методу отражений. Заметим, что поскольку матрица An-t — правая треугольная, то ее следует обращать по упрощенной схеме метода окаймления, указанной в п. 2.3.5. При реализации формулы (2.4.29) нет необходимости матрицы запоминать отдельно и хранить в памяти ма- шины. Целесообразнее хранить в памяти машины только соответствующие векторы со, а матрицы Vk вычислять по формуле (2.4.13), используя нужный вектор со. Это позволит существенно экономить память машины, так как для хранения векторов со нужно всего п(п-Н) иметь лишь---------- 1 ячеек. 2
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 189 § 2.5. МЕТОДЫ, ОСНОВАННЫЕ НА ПОСТРОЕНИИ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ, ОРТОГОНАЛЬНЫХ В НЕКОТОРОЙ МЕТРИКЕ Основной особенностью рассматриваемых ниже методов является то, что в них искомое решение определяется как последний вектор в специ- альным образом построенной вспомогательной системе векторов. В мето- де ортогонализации, например, таким будет вектор, ортогональный к подпространству, натянутому на векторы-строки матрицы системы уравнений, и имеющий последнюю координату, равную единице; в методе сопряженных градиентов таким будет вектор последовательных прибли- жений к решению системы, обращающий в нуль один из ортогональных векторов-невязок системы. Оба упомянутых метода позволяют получить точное решение системы п линейных алгебраических уравнений не позже /г-го шага преобразований. По своей идее эти методы сильно отличаются друг от друга, однако схемы их реализации имеют многие общие черты, обусловленные в основ- ном процессом ортогонализации, проводимым в обоих методах. В этом же параграфе мы изложим метод скорейшего спуска, который является итерационным и, следовательно, не позволяет получить точное решение за конечное число шагов, как это имело место в предыдущих методах. Целесообразность изложения этого метода здесь объясняется тем, что по своей структуре он очень тесно связан с методом сопряжен- ных градиентов и может рассматриваться как упрощенный вариант этого метода. 2.5.1. Метод ортогонализации Рассмотрим систему линейных алгебраических уравнений с неособен- ной матрицей • •~\~^2nxn = f21 и запишем ее в таком виде: (аь у)=0, */)=0, > в < • • • (On, у)=0, . (2.5.1) где приняты следующие обозначения:
190 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЕМ #A== Clk2, • • • , ^kn, tthn+i) , k= 1, 2, ... , я, a,kn+i== fk, » y= (*i, x2, 1)'. Из (2.5.1) следует, что решение системы'линейных алгебраических уравЯ нений с неособенной матрицей А сводится к вычислению такого векЯ тора у, который был бы ортогонален к линейно независимым векторам» а2, ... , и имел последнюю координату, равную единице. ОртогоЯ нальность вектора у к векторам а2> ... , ап влечет за собой такжеЯ ортогональность у ко всему подпространству Рп, натянутому на векторьЦ 02, , ап, и, следовательно, к любому базису этого подпространствам И наоборот, ортогональность у к любому базису Рп влечет за собой ортоЯ тональность вектора у .ко всему подпространству Рп и, следовательноЦ ортогональность к векторам а4, a2i ... , ап. Это обстоятельство позволяете указать следующий путь для вычисления вектора у. Строим какой-либсЯ ортогональный базис подпространства Рп и находим вектор г, ортогоЯ нальный к этому базису. Тогда, если z<n+1)—последняя координата векЦ тора z, то для у получим искомую формулу Я -__• Z Я z(n+i) ’ М я из которой находится решение системы уравнений в таком виде: Я zw я Xi= 2(П+1) (/=1, 2, ... , п)г | Все это определяет такой способ решения рассматриваемой задачи,! Добавим к системе линейно независимых векторов а2, ..., ап еще один?! линейно независимый вектор. Таким вектором, как в этом легко убедить-; ся, будет вектор an+i вида ] &п+1—(о> о?»»» , о, 1) • п Будем строить систему ортонормированных векторов 6i, b2, ... , 6п+1 та*ч ких, что для любого k (l^&^n+l) последовательность векторов*; 61, Ь2, ... , bk будет являться ортонормированным базисом подпростран- ства Pk, натянутого на векторы ai, а2, ... , В этом случае вектор 6n+j будет ортогонален к пространству Рп, натянутому на векторы а2, ... „
§ 2.5 ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 191 ап, и поэтому искомое решение системы уравнений можно будет вычис- лять по формуле xt= ’ (*=1, 2, ... , п), (2.5.2) п+1 где б!п+1) (&=1, 2, . .. , п+1) — компоненты вектора Ьп+1. Укажем теперь правило Шмидта для построения ортонормирован- ного базиса пространства, натянутого на заданные линейно независимые векторы. Обозначим через пА, п2, ... , Uk ортогональный базис Pk, а через 61, 62, • • . , bk — ортонормированный в евклидовой метрике базис того же пространства. При k= 1 имеем т Ui = cti и bi = —т----, I! «1 ||ш где ||П1||ш==У(«1, ui). Предположим, что для 6>>1 мы построили ортого- нальный базис (векторы u2, . .. , иъ) и ортонормированный базис (век- торы 61, 62, , bh) подпространства /\. Как теперь вычислить следую- щие векторы и bk+i для /Vm? Будем разыскивать вектор u^+i в виде — — (А) — Па+1 — Ci bi, (2.5.3) 1=1 (k} где Ci — неизвестные величины, которые по смыслу задачи следует опре- делить таким образом, чтобы выполнялось условие (uk+i, Ui) =0 (i= 1, 2, ... , k) или, что то же самое, условие (па+1, Ь^ =0 (Z= 1, 2, ... , k). (2.5.4) Используя (2.5.3), (2.5.4), получим __ ____ й __________ _ (ak+i, bs)+ of (bi, bs) =0. 2 = 1 По
192 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ!^ Значит, I c^ = -(ah+l, bs) (s=l,*2, (2.5.5* Таким образом, для Uk+t имеем Uk+i = ak+i— £ (ak+i, bi)bi. (2.5.6Y 2 = 1 i Вектор bk+i получим, нормируя nft+1: bh+i= Uk+l-------. (2.5.7): II Wfe+lllm Изложим теперь весь алгоритм метода ортогонализации: 1) вычисляем векторы и bi; 2) по формуле (2.5.5) при k=l вычисляем и по формулам (2.5.6), (2.5.7) вычисляем U2, Ьг\ гг+1) по формуле (2.5.5) при k = n вычисляем с(”\ с^\ ... , с™ и по формулам (2.5.6), (2.5.7) вычисляем un+i, bn+i. Зная вектор bn+i, искомое решение системы уравнений вычисляем по формуле (2.5.2). В методе ортогонализации для нахождения решения системы п урав- нений необходимо выполнить операций умножения и деления и п извлечений квадратного корня. Метод ортогонализации легко реализуется на ЭВМ и это является одним из его основных достоинств. Однако удовлетворительные по точ- ности результаты этот метод позволяет получать не для всех систем уравнений с неособенной матрицей. Основная причина этого явления л.ежит в неустойчивости процесса вычисления векторов по формуле (2.5.6), из-за которой нарушается основное свойство этих векторов — ортогональность. Остановимся на этом вопросе подробнее. С целью упрощения вычислений предположим матрицу А системы вещественной и будем считать, что для некоторого нами вычислены векторы g*i, §2, ... , gk, являющиеся приближенными значениями соответ- ственно векторов bt, b2, ... , bk. Предположим при этом, что Ьг gi == И max lleillm^e, . (2.5.8) l^i
$ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 193 где в — некоторое положительное число. Для векторов gi свойство орто- нормированности нарушается из-за погрешностей вг, поэтому для скаляр- ного произведения (gi, gj) мы получим: (^г‘, ^fj) — (^г bj Bj) — 6гj, (2.5.9) где 8ij — символ Кронекера, е^= —(ей ftj) — (bi, ej) + (8i, 8j) —числа, которые в силу (2.5.8) для всех i, j^k будут величинами порядка в. Условимся это записывать так: | гц | = О (в). Ясно, что система векторов gi, g2, ... , gk будет ортонормированной в том и только в том случае, когда все числа е;, будут равны нулю. Поскольку ошибки округлений носят случайный характер, то нельзя за- ранее предсказать поведение погрешностей вг-, а следовательно, и чисел Bij, нельзя также надеяться на то, что все числа в^ будут равняться нулю. В связи с этим представляют интерес поведение погрешности при вычис- лении следующего вектора gk+i и оценка чисел sa+i j. По определению 6А+1 j= (gk+1, gj) —6/1+1 j или в/i+i j= (gk+ii gj)» (2.5.10) ибо 6fc+ij=0 при Чтобы да4ь оценку ba+i j, надо указать фор- мулу, по которой реально вычисляется вектор gk+i- В силу формул (2.5.6) ь (2.5.7) Uh+i — ^k+i (fyi+ij gi) gi i—i И gk+i= “h+1------. (2.5.11) II w/t+lllm Из (2.5.10), (2.5.11) следует, что e*+ij= (/=1,2, (2.5.12) ll^ft+llllll Вычислим евклидову норму вектора Uk+ii
194 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ 1 <! ||^fe+l||lll= I/ (Wfc+1, U/H-1) = £ Учитывая, что gi = bi~ег-, и оценку (2.5.8), получим: J Приступим теперь к вычислению j. Из (2.5.12), (2.5.13) имеем Но _ k _ _ _ _ - (&М-1 gi)gi> gj) = (<2/i+b bj 8j) i=l h _ - _ _ _ _ _ _ _ _ ___ ( (^ft+1, b{ 6i) (bi 8г) , bj 8j) = (й/г+l, bj 8j) 2=1 k ___ ___ J* ft _ __ _ (^fc+i, bi 6г) (й/г-i-i, bi 8г) 8ij = i=l i—1 k _ _ k _ _ ' (^ft+l, bi^8ij~j~ 8i^8ij. г=1 г=1 Окончательно, для 8/t+i j получим fe — — k _ _ (^й+1> bi^ 8г*;“}“ (^k+lf 8г) ^ij i=l i=i 8fe+1 j= ------------------------------------—--------- . _ - _ k _ _ i [ (^fe+l, 0A+1) — S (^fe+1, 6г)2]2+О(е) г=1 или k _ _ (^fc+l> bi) 8ij SA+1 }=---------------—-----------------------— +o (e2); (2.5.14) [ (^&+b ^fe+l) (^A+l, ^i)2] 2 2 = 1
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 195 Чтобы иметь суждение о поведении погрешности e^+i j, нам необходимо выяснить смысл коэффициентов, стоящих в формуле (2.5.14) при 8ij, т. е. смысл чисел --------- (/=1, 2 д) (2.5.15) • _ _ k _ _ 2 [(iZfe+l, Фн-1)— S bi)2] 2 2 = 1 С этой целью введем в рассмотрение угол (яа+1, Pk) между вектором и пространством Pk, натянутым на векторы а2, ... , аь. Косинус этого угла определим по формуле cos(aft+i, Pk) = max cos (a&+1, z). Так как z^Pk, a bi, b2, ..., bk — базис пространства Pk, то для вектора z верно представление _ k _ Z = OLibi, 2 = 1 где щ — некоторые числа. Таким образом, cos(a/r+i, Pk) = max cos(ak+i, z) = max z^pk Z(=pk Ы, z) ||tffc+l|[lll- ll^llin = max a. 2 1 — ... k _ (^fe+i, a%bi) 2 = 1 i Z7 Z Г k _ k — -1~2 (^fe+’l, ^fe+1) I ( O,ibi) I 2 = 1 2 = 1 (2.5.16) Обозначим Pi=(afe+i, bi) и введем в рассмотрение вспомогательные век- торы а=(аь «2, ••• > аь), ₽=(₽ь ₽2, ... , Ph). Тогда формулу (2.5.16)
196 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЕ можно записать в таком виде: ибо cos («л+i, Рь) = max max а. г max cos (а, р) = а. г (2.5.17). , я max cos (а, 0) = 1. а. г Используя формулы (2.5.15) и (2.5.17) для ctg2(afe+i, Pft), получим такое выражение: — л л ctg2 (aft+i, Pft) = £ у2. г=1 X (2.5.18) Отсюда видно, что если среди чисел ctg2(aft+i, Pk) (&= 1, 2, ...» п) есть большие числа, то большими по модулю будут и некоторые из чисел уг*. В этом случае величины ошибок ek+ij могут стать значительными по сравнению с ошибками eij, полученными на предыдущих шагах. Это в свою очередь означает, что может сильно возрастать погрешность е&+1. Заметим, что числа ctg2(a/i+i, Pk) будут большими в том случае, когда угол (ам-1, Pk) близок к нулю. Близость же указанного угла к нулю озна- чает, что векторы а2, ... , ak+i почти линейно зависимы. Итак, метод ортогонализации может оказаться неустойчивым к ошиб- кам округления при решении систем уравнений с матрицами, имеющими две или более почти линейно зависимых строк.
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 197 2.5.2. Алгоритм Уилкинсона Неустойчивость процесса ортогонализации векторов ... , Ял+i можно устранить, если мы укажем другое правило для вычисления коэф- фициентов отличное от правила, определяемого формулой (2.5.5). Прежде всего заметим, что коэффициенты (№ определяются из условия ортогональности вектора Uk+t к векторам &i, &2, . •. , что приводит к следующей системе линейных алгебраических уравнений относительно с&\ с^\ ... , 1 ’ 2 ’ ’ k (6b 61)с^+(62, 6i) cW +.. .+ (6ft, 61)cW=-(aft+i, 6i), (6i, 62)cf + (62, 62)CW +•. •+ (6ft, 62)cW=-(aft+1, 62), (2 5,19) (6i, 6ft)cW+(62, 6A)e>+.. .+ (6ft,.6ft)c<w=- (aft+1, 6ft). 1м ft- Если векторы blf , bk ортонормированы, то из (2.5.19) сразу сле- дует (2.5.5). Если же векторы bi не удовлетворяют условию (&г, 6;)=6г}’ l^f, (Sij — символ Кронекера), а удовлетворяют лишь условию вида (^г, bj) —Sij-pEij, где £ij — достаточно малые величины, то тогда матрица системы (2.5.19) должна быть достаточно близкой к единичной матрице и эту систему можно будет решить, например, методом последовательных приближе- ний. При этом коэффициенты с(® могут быть вычислены весьма точно. Однако существует путь, при котором не надо вычислять коэффициен- ты а сразу можно определять вектор Uk+i как предел итерационной последовательности }, т. е. Uk+1= 11ГП Ufe+i, m->oo где k .(т) (т-1) _ .—(т-1) \~L ^fe+1 — (^t+l > ^г)^г i=l (m=l, 2, ...), (2.5.20) Uk+l = Clh+l> Покажем, что предельный вектор tik+i будет ортогонален к базису про-
198 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ странства Pk — векторам bi, , bk. С этой целью образуем, используя (2.5.20), вспомогательную систему следующего вида: (Л = («&Л *1)- 2 («м-11’, bi) (bi, bi), г=1 (2.5.21) (u№i, bk) = («ЙГ1’, bk)- % Л1’- bi) (bi, bk)', 2 = 1 которую мы перепишем в векторной форме (2.5.22) положив V(m)— (v(m), v(m)^ > ylm))' 12 C rv^T“ 1 Из (2.5.22) следует, что ||VW||<^||E—В||™.||1/(°)||. (2.5.23) Если векторы bj удовлетворяют упомянутому выше условию (&г-, bj) = = 6г;+ег;, то любая норма матрицы Е—В будет меньше единицы. Поэто- му, положив ||Е—ВЦ1, из (2.5.23) получим: lim II И™)|| С m->od lim p.m|| W|| =0. m->oo Таким образом, lim || VW|| =o. m->oo (2.5.24) Из (2.5.24) следует, что lim Ит)= V=0 и, значит, m->oo lim №>= (lim , bi) = (uh+i, bi) =0 (i= 1, 2, .... k), t> rV"] X m->oo m-*oo что и требовалось показать. Отметим еще, что по построению вектор Uk+i является вектором вида (2.5.6), т. е. принадлежит пространству Ph+i. Точность решения системы линейных алгебраических уравнений по алгоритму Уилкинсона сильно зависит от числа выполненных по фор-
9 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 199 муле (2.5.20) итераций. При wft+i = uA+1 получим обычную схему метода ортогонализации. Как мы видели, в этом случае метод может оказаться неустойчивым. Значительно лучшие результаты получаются при uh+i==uku- Вообще же число итераций обусловливается требованиями точности вычисления вектора Uk+i. Отметим, наконец, что алгоритм Уилкинсона направлен на более точ- ное вычисление вектора Uk+i. После того как этот вектор вычислен, даль- нейшие вычисления проводятся по схеме метода ортогонализации, т. е. вычисляется вектор bk+i и т. д< 2.5.3. Метод сопряженных градиентов Этот метод предназначен для решения системы линейных алгебраических уравнений Ax=f (2.5.25) с вещественной симметрической положйтельно определенной матрицей. В методе сопряженных градиентов отыскание решения системы (2.5.25) связывается' с задачей минимизации следующего функционала: F (х) = (Ах, 7) —2 (К х), (2.5.26) являющегося квадратичной функцией относительно Xi, хг}... , хп. Дело в том, что реше- ние системы (2.5.25) — вектор х<*>=4~7— доставляет минимум функционалу (2.5.26) на множестве векторов из вещественного векторного пространства. Действительно, из (2.5.25), (2.5.26) следует F(x)—F(x<*>) = (Дх, х) — 2(f, х) — (Дх<*), x(*))+2(f, х<*)) = (Дх, х)—2(Дх(*), х) — — (Дх<*), х(*))+2(Дх<*), х(*)) = (Д (х-"х<*)), (х-х(*))) >0, (2.5.27) так как матрица А положительно определенная. При этом знак равенства в (2.5.27) возможен лишь при х—х(*> = 0, т. е. при х=х<*). Таким образом, задача нахождения решения системы (2.5.25) сводится к задаче отыскания вектора х, доставляющего мини- мум функционалу Г(х). Прежде чем переходить к изложению правила для отыскания такого вектора, оста- новимся кратко на понятии градиента функционала. Пусть F(x) — некоторый функцио- нал и пусть у — произвольный вектор единичной длины с координатами t/i, yz, ... , уп* Производной от функционала F в точке х по направлению у называется выражение dF(x) _ = lim ду t->0 dF(x\ Производная------—— характеризует скорость изменения функционала F при изменении д~У «аргумента» в направлении вектора у. Имеем далее dt t=o
200 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ F(*+ty) =F(Xi+tyi, ... , Xn+^n), поэтому dF (x) d ----— = + , Xn + tyn) dy dt dF(x) dFlx) ---------- -------yi+-. .4 :-----Уп = (г, у), dxt----дхп где z=(zu z2; Вектор z называется градиентом функционала F(x). Из последнего равенства вытекает, что дГ(х) — — ----= |z| cos (г, у), ду ибо |у| = 1. Отсюда следует, что dF (х) ду dF(x) - причем ----—— = 12|, если направление у совпадает с направлением градиента, и - ду dF(x) -------= — |z|, если направление противоположно направлению градиента. Поэтому ду направление градиента есть направление наибольшей скорости роста функционала F в данной точке, а направление, противоположное градиенту, есть направление наиболь- шей скорости убывания. Это последнее направление существенно используется в методе сопряженных градиентов для отыскания минимума функционала F(x). Перейдем к изложению схемы метода. Вектор, доставляющий минимум функционалу F(x), будем находить итерационным способом. Пусть х<°) — произвольный начальный вектор. Рассмотрим функционал (2.5.26) и вычислим его градиент. Имеем: dF(x) d - - -X-L^—Flx+ty) ду dt d — —-------------— = — И (x+ty)—2f, x+ty) t=o dt t = Q — "7Г [(2(АУ- y)~2t(f—Ax, y)+F(x)]t=o = —2(f—Ax, y)=2(Ax—f, y). dt Следовательно, градиент F(x) равен 2Ax—2f. Так как в дальнейшем нам важно лишь направление градиента, мы отбрасываем положительный множитель 2 и будем рассмат- ривать вместо градиента функционала F(x) вектор Ах—f. Вектор, имеющий в точке х(°> направление, противоположное градиенту, обозначим через г<°), т. е. r(°)=f—Ax(°). (2.5.28)
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 201 Заметим, что в направлении этого вектора, который мы будем называть также вектором невязок системы, скорость убывания функционала F(x) в точке х<°> наибольшая. Будем теперь двигаться из точки х<°> в направлении вектора г(0) до тех пор, пока функция F(x<°)+ar<0)) достигнет своего минимального значения в этом направлении. Это будет d — _ при —/?(х(0)+аг<0)) ==0, т. е. при da (г(°), г(°)) Оо = (Г(°), Дг(°)) (2.5.29) Здесь (г<°), Дг<°)) >0 при любых г<°>=#=0 в силу предположений относительно матрицы А. Если г<°) = 0, то из (2.5.28) видно, что х<°) совпадает с решением и никаких дальнейших вычислений проводить не следует. За новое приближение к решению при г(°)у=0 при- нимаем вектор х(1) = х(°)4-аог(О\ (2.5.30) Отметим еще, что вектор невязок г<°> имеет направление нормали к поверхности F(x) = = F(x^) в точке х=х<°\ ибо направление быстрейшего изменения функции F (х) в этой точке совпадает с направлением нормали. Следующее приближение х<2> находится так. Обозначим через Га гиперплоскость k измерений (способы задания Га для каждого k будем указывать ниже) и проведем через точку х*1) гиперплоскость Гп-1 (Дг<°), х-х(!)) =0. Обозначим через г*1) новую невязку системы r(i)=f—AxM=г<°)- а0Л м'Ч (2.5.31) Вектор направлен по нормали к поверхности F(х) =F (х<*)) в точке х=х^), а вектор г<°) параллелен касательной плоскости в этой точке. Значит, г<°) и ортогональны, т. е. (г(°), гМ) =0. (2.5.32) Ортогональность г<°> и г(1> следует также из формул (2.5.28) — (2.5.31), в чем легко убе- диться. Гиперплоскость Гп-1 проходит через точку х(*)=Д~1Д ибо (Лг<°), Д-1/—х<4)) = (г<°), 7-ДхШ) = (г(0), rd)) =о. Теперь нам известно, что решение системы лежит в гиперплоскости Гп-ь проходящей через точку х(1\ Однако нам не известно направление, двигаясь по которому в гипер- плоскости Гп-1 можно достичь точки х(*Х Пока у нас нет достаточных сведений для определения этого направления и все, что мы можем сделать, это определить некоторый вектор р(1), лежащий в Гп-ь и затем двигаться из точки х<*) в направлении этого вектора до тех пор, пока функция F(х^Д-ар^1)) не достигнет минимума. По построению вектор
202 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ f(1)+Pf(0) параллелен некоторой нормальной плоскости к поверхности F(x)=F(xtv] в точке при любом 0. Выберем 0 таким образом, чтобы этот вектор лежал в Гя-1| т. е. был ортогонален к Дг<°). Это дает 1 д7°)) = (7ч д7°))+р0(70), д7°))=о. Отсюда - * « (2.5.33^ i Таким образом, по смыслу задачи в качестве вектора р<1> можно принять вектор +Ро/'(О), лежащий в rn-i: _ _ _ J p(i)=r(i)+por(O). (2.5.345; —— ’>S* Отметим, что этот вектор имеет направление нормали к сечению поверхности F(x)=J - - d - — =F(x<4)) гиперплоскостью Гя-1 в точке х^\ Далее, из условия —F(x^+ap^>) =G da получим cii = (2.5.35^ В качестве второго приближениям решению системы примем вектор х^:, х^^^+аТр^ (2.5.36). г Укажем еще правило для вычисления вектора х^3\ после чего станет ясной вся схем^ метода сопряженных градиентов. Как и векторы Н1), вектор невязок i 7(2) =7—47(2) =7(1)_а1Лр(1) (2.5.37) имеет направление нормали к соответствующей поверхности F (х) = F (х<2У) в точке х(2). Покажем, что г<2> ортогонален к г<°) и г(1>. Действительно, используя (2.5.32) — (2.5.37), получим: (72), 7°)) = (7(П-а1д7(1\ 7°)) =-ai(4p(1),7°)) =—ai(71), Д7<») =0; (72), 7*)) = (7(1)-аИр(1), 7<1)-р07°)) = (7п, 7(1)) -ai (7Ч Ар^) =0. Рассмотрим гиперплоскость Гя-2 (Д7<°), Г-71)) =0, (ApW, 7-7<2)) =0, проходящую через точку х^. На Гя-2 лежит и точка ибо (4г<°), х(*)—х<4>) =0, так как р*)еГя-1, а (Ар<1\ 7*)—Г2)) = (71) *72))) = (71), Д'Д-^-Д'^2)) = (71)+р07°), 72)) =о±
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 203 Теперь мы находимся в тех же условиях, что и при нахождении х<2\ а именно: нам из- вестно приближение х&\ гиперплоскость Гп-2, проходящая через х<2) и через искомое решение х<*\ Далее будем действовать аналогично предыдущему. Вектор г(2)+Рр(1) параллелен Гп-1 при любом р, ибо _ _ _ - / _ 1 _ _ \ (г<2>4-рр(П, Лг(°)) = (г(2\ Лг<°)) +Р(р<4 Дг<°))=( г&\ —(r(°)-r(i)) ) =0. 'do / Выберем Р так, чтобы г(2)+Рр(1) был параллелен Гп-2^ т. е. потребуем ортогональности этого вектора к вектору Лр(1\ Это дает следующее условие для определения Pi: (r(2)+pip(1), Др*1*) = (г<2), Др*1*)+Р1(р*1), Др*1*)=0 или (г(2), Лр(Р) (р*Ч Др*1*) (2.5.38) Вектор р(2)=г(2)+р1Р(1) (2.5.39) будет иметь направление нормали к сечению поверхности. Г (х) =F(x*2)) гиперплоскостью Гп_2 в точке х*2\ Минимизируя функцию /7(х<2>4-ар*2*), получим для аг такое выра- жение: Значит, вектор • (г(2), р*2)) а2= —-----------з— (р(2), Лр(2)) ^3)==^(2) + а2р(2) (2.5.40) (2.5.41) будет новым приближением к х*. По этому вектору вычисляем новый вектор невязок rW=f—Лх<3)=г<2)—а2Др(2) и продолжаем процесс по аналогии с предыдущим. В результате мы получим последо- вательности векторов {x(ft)}, {р№} и чисел {ал}, {Ра } I определяемые следующими рекуррентными соотношениями: р(0) = г(0) = ^Дх(0)> x(fc+i) = x(fc)4-aAp(fc)t г(ь+1)=^—Лх<к+1)=г<*)—а^Др^, , (2.5.42) (r(fe+4 Др(/1)) Ра — — -------» (ptft), Лр<^>) /г = 0, 1, ... , s, p^+n=r^+l)+pkp<4
204 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Докажем конечность определяемого формулами (2.5.42) алгоритма, для чего уста- новим факт, что x<fe)=x<*) при некотором k^n. Покажем сначала, что (7(0,р(5))=о при i>j, (2.5.43) (r(<), г(5)) =о при t#=/. (2.5.44) По построению (7<Ч Др(Л) = (Д'р(О, 7(5)) = (47Ч 7(5)) =0 при i^=j. Далее при i>/ (7(0, р(П) = 7(5)) = (7(^-1), 7J0 -аг-1 (Л7‘"Ч 7*(J)) • Здесь правая часть равна нулю, если i=j+l, в силу определения а<-1. Если то (Др^-1\ p(J)) =0 и, значит, (7(0, 7(j)) = (rb'-O, 7(5)у. (2.5.45) Отсюда получим (?О, 7(5)) = (^i-1), 7(5)) = (7u-2), 7(Л) = .. .= (7(5+1), 7(0) = = (r^—ajApW, р(5)) = (r(5), р(5))—аДЛр<5), р(5))=0 в силу определения aj. Итак, соотношения (2.5.43) доказаны. Для доказательства (2.5.44) предположим, например, что i>/. Тогда в силу (2.5.43). Понятно, что верно и (г^\ г(5))=о при /</. Таким образом, система векторов г<°), ... , r(ft) ортогональна. Но поскольку в n-мерном векторном пространстве не может быть более п взаимно ортогональных век- торов, то на некотором шаге k^n получим r(ft) = 0. Значит, (—Ах№ = 0 и вектор x(ft) будет искомым решением системы уравнений Ax = f. Вся схема метода сопряженных градиентов определяется формулами (2.5.42). Реализуются эти формулы просто. В процессе вычислений контроль точности вычисления вектора x(ft) можно проводить путем оценки вектора невязок в какой-либо метрике. Порядок систем, решаемых на ЭВМ, в основном зависит от объема числовой информа- ции, необходимой для определения элементов матрицы А. Это объясняется тем, что основной операцией в методе является многократное вычисление произведений матрицы А на векторы Поэтому метод сопряженных градиентов целесообразно использовать для решения систем уравнений, в которых матрица А имеет много нулевых элементов. В этом случае умножение А на для ЭВМ можно организовать так, чтобы в арифме- тических операциях участвовали только ненулевые элементы матрицы. Методу сопряженных градиентов свойствен и некоторый недостаток. Проводимый в этом методе процесс ортогонализации может оказаться неустойчивым к ошибкам округ- ления, как это было в случае метода ортогонализации. Чтобы ослабить неустойчивость, надо время от времени, вычисляя вектор по формуле r(A) = r(A~1)—afcAp(ft-i), прово- дить затем еще вычисления и по формуле r^=f—Ax<h\ и при расхождениях брать второй результат. Отметим, что метод сопряженных градиентов может быть распространен и на систе- мы уравнений с произвольной невырожденной матрицей.
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 205 2.5.4. Вариант метода сопряженных градиентов Рассматриваемый ниже вариант метода требует несколько больших вычислений, чем это было в предыдущем случае. Зато он менее чувствителен к ошибкам округления, что часто позволяет получить хорошее приближение к решению за меньшее число шагов по сравнению с методом сопряженных градиентов. Суть варианта в следующем. Как и ранее, будем разыскивать минимум функционала F(x) на некотором множестве X векторов х, определяемых формулой (2.5.46) где у^\ т)<0~ р<0 — некоторые векторы, у и б — числа. Укажем правило для их опре- деления. Вектор уЮ будет обозначать i-e последовательное приближение к решению системы Ax=f, в качестве т]<0 и р<0 возьмем следующие векторы: 7(1)=7-л7(О. (2.5.47) Будем считать, что два начальных приближения yW и у<*> выбраны таким образом, что выполняется условие (7(1), 7(1)) =0. (2.5.48) Пусть мы уже вычислили векторы у&\ т](Ч p(ft) (k=0, 1, ... , i) такие, что справедливы равенства (р(*), 7<*)) =0 (k= 1, ...» I). (2.5.49) Чтобы вычислить минимум функционала F(x) на множестве X, приравняем нулю частные производные от Г(^(О-|-ут)(ОЧ-6р(П) по у и по 6. Это даст следующую систему уравнений для определения у и 6: (Д (^)-Hn(f) Wf)) -7, n(i)) =0, (4 (^i)+yn(i)+6p(i))-7 P(i)) =0 или, с учетом (2.5.49) при k = i, у(т)(О, Дт)<О)4-6(р(О, Дт](г'))=0, у(р(О, А7(г)) +6 (p(i), 4p(i)) = (Р<4 P(i)). ‘ Обозначим через у», бг решение этой системы: -(P(i), 4n(i,)'(P(i)» P(i)) = —--------Z----Z-----Z------Z-----Z-----> (n(i), Лт]<0) (p<4 Др(О)-(р<о, 4r](i))2 (7(o, л7<о) (7(o, 7(0) O|— __ _____ ___ _____ ______ _____ (n(O, Лт](О)(р(О, Лр(О)-(р(О, Лт](0)2 (2.5.50) (2.5.51)
206 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Отметим, что определитель системы (2.5.50) отличен от нуля, ибо в силу неравенства Коши — Буняковского (р<4 2(т)<4 (р(О* Др(Ч); причем равенство здесь имеет место тогда и только тогда, когда векторы р(г’> и кол- линеарны. За (Н-1) -е приближение к решению системы примем вектор ^+П=^)+у^(О+б^О. (2.5.52) Покажем, что равенство (2.5.49) выполняется и при & = Н-1. Действительно, в силу (2.5.47), (2.5.50) и (2.5.52) (р7+Ч ^(0) =о, (р7+Ч Р(г’>) =0. (2.5.53) Значит, (р7+Ч ^(i+1)) = (р(*+Ч = ф(*+Ч Yi^(O+6<7«)) =0. (2.5.54) Докажем теперь теорему о сходимости и конечности варианта метода сопряженных градиентов. Теорема 1. Если начальные приближения у<& и у^ к решению х<*) системы Ax=f выбраны таким образом, что ^(i)=7<4 (2.5.55) то при всех i будет иметь место равенство y^=~x^t (2.5.56) где х^ — вектор, определяемый формулами (2.5.42) и обладающий свойством х(*)==х<*) при некотором k^n (п — порядок системы). Доказательство. Сначала проверим, что условие (2.5.49) выполняется для &=1, если векторы yW и уЮ определяются по формуле (2.5.55). Действительно, р(1)=7—Л71)=71\ 7с1) = ^1)“'7(0)=^1)—х(°) = аог(0) и, значит, (p(i), if(D) =а0 (7(П, 7°)) =0 в силу (2.5.32). Равенство у^ = х^ будем доказывать по индукции. Предположим, что это равенство имеет место при & = 0, 1, ... , f, и докажем его справедливость при k = Имеем p(i)=f - Ау(i) = f—Ax( i) =7 У ибо по предположению у^ = х^. Значит, {/(1 + Ч = Х(г’)+угТ](^4-6гГ(г'), X<i + 1) = X^-j-CLipM. Для вектора p{i\ используя (2.5.42), получим p(o=7<)+pi-ip(’-i>=7(<)+ ft*"1 (7(i)—7(^п) =7(*)+ —~1 77). <X*-1 аг-1
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 207 Поэтому — — — агВг-1 — ССг —1 Докажем теперь коллинеарность векторов — — diPi-i — — УгТ](О4-6^(г) и ------------Т](г)+агГ(О. (2.5.57) Oi-1 Из (2.5.42) и (2.5.51) имеем Уг (р(Ч Дт](г)) ^ai-lP(i-1)) б, (тфЧ Дт](г)) (ai-ip(i_1), /lai-ipt*’1)) a^i (г(Ч Ap^-V) аг-i Рг-i аг₽г-1 1 =------------------------= -------- Рг-1= ----- ----------------, 2 — .— 2 Иг —1 di — i di di-t (p^-V, Ар^-1)} ai-i что и доказывает коллинеарность векторов (2.5.57). По построению вектор у^+и дает минимум функционалу F в плоскости, проходящей через точку и натянутой на векторы и НЧ Но этот же минимум, по ранее дока- занному предложению в методе сопряженных градиентов, лежит на прям'ой, проходящей через точку в направлении вектора р^\ и достигается на векторе А это и означает, что Таким образом, равенство 4/(ft) = x<ft) имеет место и при & = что и доказывает спра- ведливость равенства (2.5.56) при всех i. Теорема доказана. В заключение изложим порядок вычислений в рассматриваемом варианте метода сопряженных градиентов. При решении системы уравнений Ax=f с симметрической положительно определен- ной матрицей выбираем сначала вектор х(0) — некоторое нулевое приближение к решению — и полагаем z/0) = x(°). Затем вычисляем вектор r(0)==f—Лх<°> и число (г0>), 7°)) а0= —з------з-----, (г(°), Аг(°)) а по ним — вектор xfl)=x(°)+ao/'(0). Полагаем z/<1) = xt1). Далее, по формулам (2.5.47) при 4=1 вычисляем и р(1\ а по формулам (2.5.51) при 4=1 —числа yi и 61. Второе приближение к решению — вектор 4/(2)—вычисляем по формуле (2.5.52) при 4=1. Для вычисления вектора у<3> используем формулы (2.5.47), (2.5.51) и (2.5.52) при 4 = 2 и т. д. Контроль точности вычисления векторов *у№ можно осуществлять путем оценки векторов и р^> в некоторой метрике, например в евклидовой.
208 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ 2.5.5. Метод скорейшего спуска В основе метода, как и в методе сопряженных градиентов, лежит идея нахождения вектора, доставляющего минимум функционалу F(x) (2.5.26). Как мы видели, такой век- тор является решением системы уравнений Ax=f с положительно определенной симмет- рической матрицей. Метод имеет следующую вычислительную схему. Исходя из некоторого начального приближения к решению системы х<*\ вычисляем по такому же правилу, как и в методе сопряженных градиентов, вектор rW=f—Ах<°), число (rW, Н°)) cto= —“------~---- (г(°), Дг<°>) и следующее приближение — вектор х(*)=х(°)+аоГ(О>.- __ * ______________________________________________ ______ _ ________________ Вектор х<2) вычисляем из условия минимума функции F (xW-j-ard)), где rd)=f—Axd)= = r(°)—а0Аг(°). Это дает следующие формулы: (R1), ai = —------------ (rd), Ard)) и x(2) = x(1)4-air(1). Далее процесс продолжается по формулам: r(h)=f—Ax(ft) = r(ft-1)—ah-iXr^-1), (2.5.58) (г«, Тс*)) aA = —2------2----, (2.5.59) (/•(*), Дг«) x^+^=xW'+aJ^ (6=2,3,...,. (2.5.60) Заметим, что обычно векторы r<ft), особенно при большом порядке матрицы системы, удобно вычислять по формуле r(ft) = r(ft-1)—afc-iAr**-1). А чтобы из-за ошибок округле- ния так вычисленные векторы r<fe) через несколько шагов не начали сильно отклоняться от истинных невязок f—Ax^h\ их надо время от времени вычислять по формуле r(ft)=f— —Ax(h\ В отличие от метода сопряженных градиентов здесь ортогонализация векторов- невязок системы rd) не проводится. 4 ___ __ _ Исследуем свойства последовательности векторов х<°), xd), х(2), 11 для этой цели нам потребуются две леммы, которые мы ниже и докажем. Лемма 1, Если ai — некоторые положительные числа, а у* — числа, удовлетворяю- щие неравенствам то справедливо неравенство
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 209 п п 1 (2.5.61) Доказательство. Введем обозначения Cli Тогда неравенство (2.5.61) примет вид Отметим, что и Уг= у fnM di. (2.5.62) Так как среднее геометрическое меньше среднего арифметического или будет Ф(д)=б+ 4- равно ему, то (2.5.63) Функция принимает наибольшее значение на отрезке при Это значение в обоих случаях равно Значит, (2.5.64) Cl 2 при всех i= 1, 2, ... п.
210 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Теперь из (2.5.63) в силу (2.5.64) получим п ибо = Лемма доказана. г = 1 Введем в рассмотрение понятие функции ошибки, определив ее формулой ' 6(х) = (Лё, ё), (2.5.65) где £ = %(*)—х— вектор ошибки, х<*>— точное решение системы Ах—f. Имеет место сле- дующая лемма. Лемма 2. Последовательность значений функции ошибки G(x<°)), G(x(!)), ... , <j(x<A>), , где определяются формулами (2.5.60), стремится к нулю при &->оо. Доказательство. В силу формул (2.5.58) — (2.5/60), (2.5.65) имеем _ _ ж*) 7(A)) а _ _ _ G(x(fe+i))_G(x(fe))=__l_!—_Z_ и Q (x&Y) = rW). (г<*), Ar^) Значит, GCx^+V) 1 Г - (И*), 7<ft))2 т ----=----=-----—----- G (%(*)) - _ - _-- = 1 -qk, (2.5.66) G(x^) G(x<ft)) 'L (r<h\ ArW) J (ИЦ 7(Ц2 где qk = ——-------—----Z-----Z---• Оиеним снизу величину qh. Пусть (г(Ц A-W) (г(Ц ЯЛ*)), Xi % 2 ... X 7l> ‘ собственные значения матрицы А и Ut, u£ ... , un — принадлежащие им собственные векторы, ортогональные друг к другу и нормированные так, что (цг-, «г) = 1 при i=l, 2, ... , п. Все Хг>0, ибо А — положительно определенная матрица. Пусть и Разложим вектор по собственным векторам матрицы А: r(A)==f1^1-|-C2U2+ . . • -t~CnUn. (2.5.67) Так как под мы понимаем ненулевой вектор невязок системы, то в разложении (2.5.67) не все Сг равны нулю. Имеем = CiXiUf-f-C2X2^2“!“ . . . “pCnXnWn и А — С1Х1 W1~|“C2X2 W2“{“ • • • 4“CnXn Wn.
§ 2.5. ПОСТРОЕНИЕ ВСПОМОГАТЕЛЬНОЙ СИСТЕМЫ ВЕКТОРОВ 211 Следовательно, (г<4 г(*))=£сА i = i (г'Ч Аг<*>) = i = 1 А-'Л'») = £ Л.-1 с?. i = 1 Теперь для дь получим Qk = ^гСг2 г = 1 г =1 В силу неравенства (2.5.61) из формулы для дъ. следует: Значит, Далее получим или М—т М+т М—т j2 М+т - М—т т2(*+1) _ ------ G (х«»). М+т J v (2.5.68) М—т , — Коэффициент-------<1, поэтому из (2.5.68) следует, что С? (х<Л+4))—при &->оо. М+т Лемма доказана. Теорема 2. Последовательные приближения х<°), х^\ х<2>, ... , построенные по методу скорейшего спуска, сходятся к решению системы Ax = f со скоростью геометрической про- грессии. Доказательство. Из леммы 2 следует, что G(x(ft)) = (Д (х(*>—x(ft))t х<*>—x(ft))->0 при £->оо. А это означает, что x(ft>->x<*) при £->оо, так как матрица А положительно определенная. Определим теперь скорость сходимости. Имеем G(xW) = (A&h\ 1<М) |ё<А)|2, (2.5.69) где e<ft) = x<*)—х<4 Из (2.5.68) и (2.5.69) следует оценка
212 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Л1—т М-^-т означающая, что |е(А)| стремится к нулю со скоростью геометрической прогрессии. Тем самым утверждение теоремы доказано. Отметим два свойства приближений метода скорейшего спуска. 1. Невязки двух последовательных приближений ортогональны друг другу. Действительно, 7А+1)=г(Л)—алДг(А\ откуда (r(A+1\. r<ft>) = (r(h), r<A)) —а&(ДЛА), = 0 на основании определения ал.' 2. Каждое последующее приближение ближе к точному решению, чем предыду- щее, т. е. ||7о_7(Л+1)ц |[7(*)_7(М||. (2.5.70) Иначе говоря, длина вектора ошибки при переходе к новому приближению строго убы- вает. Имеем е(Ь + 1) = g(fc)—CLkl'^. Значит, (8<А+1\ е<А+1)) = е<А>)—2ал(е<А\ r<k))+ah(rih\ r<h)) = — — — — a.k Г (£(4 r(ft)) r(A)) — — 1 = (e(A), 8<A))—ал(е(А), 8<A>)--——Z--------------------------------(r(h\ r(ft))2 = - (/-(*), r(b)) afe -* 2 — — — — cu Г — — — — — — i = (e(fe), e(^))— aft(e(A\ -----—---Z----1 (rl4 Дг(А)) — (г(А), r(*))2 (r(fc\ r(fc)) L ’J’ Покажем, что (8<4 7*)) (7A), Д7А)) — (7a>, 7a))2>0. Положим Д=В2, где В — положительно определенная матрица [2, стр. 113]. Тогда, учи- тывая, что е<А) = х(*)—*(А)=Л-7—х(А)=4-1(7—4х<А)) =А~^г^\ в силу неравенства Коши — Бундовского получим (7ч 7ч (7а>, д7а)) —(7а),7<а))2=(7ч A-Tr<ft)) д7А>) — — (7ч 7а))2=(В-17а), в-17а)) (в7ч в7ч —(в7ч b-W)2>o. Таким образом, (е(А+1), e<ft+1>) (е<4 е<А))—aft(e(A), г<А>) < (е<4 7А)), (2.5.71) ибо аЛ>0 и (е<А>, г<А>) = (х<*)—х<А), f—Дх<А>) = (х<*)—х^к\ А (Д-1/—х(А))) = (е<А>, Де(А>) >0. Следовательно, (2.5.70) следует из (2.5.71). Метод скорейшего спуска может быть применен и к системам с несимметричной матрицей после умножения слева системы (2.5.25) на матрицу Д'. При этом в вычисли-
§ 2.6. СПОСОБЫ ОЦЕНКИ ПОГРЕШНОСТИ ПРИБЛИЖЕННОГО РЕШЕНИЯ СИСТЕМЫ 213 тельной схеме метода матрица А' А фактически может не вычисляться. Действительно, при указанном умножении A'Ax=A'f, и мы должны в качестве невязки взять вектор rVft)=4'r<fe), где r^k>)=f—Ax^h\ так, что расчетные формулы будут следующими: при (тфЧ T](ft)) aA = (Л'Лт](Ч т](*)). (ЛAT](fc)) (k = 0, 1,2,...). § 2.6. СПОСОБЫ ОЦЕНКИ ПОГРЕШНОСТИ ПРИБЛИЖЕННОГО РЕШЕНИЯ СИСТЕМЫ Как мы уже отмечали, в некоторых методах численного решения систем линейных алгебраических уравнений о точности полученного приближенного решения чаще всего судят по векторам невязок системы. Однако для одного класса матриц малость вектора невязок в некоторой метрике означает и малость компонент вектора погрешностей, для дру- гого класса матриц такой связи может и не быть. Чтобы убедиться в этом, рассмотрим систему Ax=f (2.6.1) и обозначим через х<*) ее точное решение, а через у — некоторое прибли- женное решение этой системы. Рассмотрим векторы е=х(*)—у, r=f—Ayt (2.6.2) которые мы будем называть соответственно вектором погрешностей и вектором невязок. Пусть матрица А системы (2.6.1) имеет хотя бы одно очень малое по модулю собственное значение X, а z — соответствующий такому X собственный вектор этой матрицы. Тогда A (x(*>+z) =i4x<*)-|-Xz=f4-Xz и компоненты вектора x(*>A~z могут отличаться весьма сильно от компо- нент вектора х<*), хотя, в силу малости X, компоненты вектора f+2iz будут мало отличаться от компонент вектора f. В связи с этим необходимо ввести такие соотношения между векторами е и г, которые позволяли бы по величине вектора г более точно судить о величине вектора е. При этом в практике вычислений большее значение имеют не нормы векторов е и г, а отношения
214 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИ И являющиеся в некотором смысле «относительными погрешностями». Для количественной характеристики таких отношений, а также и векторов 8 иг, введем понятия обусловленности систем и матриц. 2.6.1. Обусловленность систем уравнений и матриц Введем в рассмотрение величину p = sup г (2.6.3) Если р мало, то из (2.6.3) следует, что и малость нормы вектора невязок означает малость нормы вектора по- грешностей. В этом случае говорят, что система (2.6.1) хорошо обуслов- лена. Если р велико, то малость нормы ||г|| еще не означает малости нор- мы ||81|. В этом случае говорят, что система (2.6.1) плохо обусловлена. Число р называют мерой обусловленности системы (2.6.1). По аналогии можно ввести и понятие обусловленности матрицы. Из (2.6.2) и опреде- ления нормы матрицы имеем 11ё|1 ||ё(*)-ёН ЦЛ-17Ц sup-------=sup--------------=sup------------= ||Д-1||. (2.6.4) 7 1Й1 7 1Й1 7 1Й1 Учитывая (2.6.3), из формулы (2.6.4) получим /2.6.5) Будем теперь рассматривать систему (2.6.1) при всевозможных значе- ниях f. Тогда решением этой системы будет некоторое множество X — векторов х(*), отвечающих соответствующим значениям f при одной и той же матрице А. Изучим поведение величины р, определяемой по формуле (2.6.5), при хЮ^Х, а именно, вычислим
§ 2.6. СПОСОБЫ ОЦЕНКИ ПОГРЕШНОСТИ ПРИБЛИЖЕННОГО РЕШЕНИЯ СИСТЕМЫ 215 Имеем sup ц. х(*)еХ II Д г(*)|1 ' V= sup ц= sup 11 . IIА-1Ц = IIЛII.IIД-1Ц. x(*)SA x(*)^X ||X(*)|] (2.6.6) Назовем v числом обусловленности матрицы А. Из (2.6.6) видно, что если матрица А близка к особенной, то число v будет для такой матрицы ве- лико. В этом случае говорят, что матрица А плохо обусловлена. Если число v мало, то соответствующую матрицу А называют хорошо обуслов- ленной. Как правило, система с плохо (хорошо) обусловленной матри- цей А будет плохо (хорошо) обусловленной системой. Значения у зависят от того, каким образом мы определяем норму матрицы А. Так, например, в случае третьей нормы получим vm= ЦЛ Пш-||Л“1||ш=У max У max л,, (2.6.7) где gi — собственные значения матрицы Д'Д, щ— собственные значения матрицы (Д“1),^“1* Так как (Д_1)'Д-1= (ДД')-1 и матрицы Д'Д, ДД' подобны, то собственные значения & и лг- связаны между собой формулой Лг= Значит, если через Кп и Xi обозначим наибольшее и наименьшее собственные значения матрицы Д'Д, то из (2.6.7) получим vin= ||Д ||ш • IIЛ 111ш=1/ -т—• г Л1 (2.6.8) Из (2.6.8) следует, что Это неравенство любом выборе нормы матрицы. Действительно, справедливо для v при v = ||Д || • ||Д-1 П J^max |ог-1 max | рг-1 = max |ог-1 max тах|ог| min|oi| ибо ||Д||>|ог| и ||Д-1Н^ |рг|, где О; и рг — собственные значения матриц А и Д-1 соответственно. 2.6.2. Оценка погрешности 8 Такая оценка в сильной степени зависит от того, как изменяется реше- ние, системы (2.6.1) при малых изменениях ее коэффициентов и свобод- ных членов. А это означает, что оценка е зависит от меры и числа* обус- ловленности матрицы системы, т. е. от р, и v.
216 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ Рассмотрим наряду с системой (2.6.1) систему такого вида: By=g, (2.6.9) где В и g — заданные матрицы и вектор. Предположим, что В и g свя- заны с А и f равенствами В=А—СА, g=f+K (2.6.10) где 1|С||=^<1, HSH^p. Заметим, что во многих вычислительных алгоритмах приближенное ре- шение системы Ax=f удовлетворяет системам вида (2.6.9), для которых матрица С и вектор 6 могут быть вычислены реально. Получим теперь оценку погрешности е=х(*>—у. Из (2.6.9), (2.6.10) имеем (Е—C)Ay=g ИЛИ Ау= (E-c)-'g= (е+с+&+: : •) (7+6) = =f+ (С+СЧ-...)7+ (£+С+С*+...) б. Сравнивая эту формулу с формулой r=f—Ay, замечаем, что вектор г= — [(С4-С24~.. .)f+(£4"C+C2+.. .)б] можно рассматривать как не- вязку при приближенном решении у системы (2.6.1). Таким образом, в силу определения ц и v, имеем Отсюда видно, что «относительная погрешность» —— тем меньше, чем меньше число обусловленности v. Малость такой погрешности сильно за- висит также от того, сколь сильно уклоняются матрица В и вектор g соответственно от матрицы А и вектора f, т. е. зависит от малости вели- чин q и р. Из (2.6.11) можно получить далее оценку для ||е||, которой
§ 2.6. СПОСОБЫ ОЦЕНКИ ПОГРЕШНОСТИ ПРИБЛИЖЕННОГО РЕШЕНИЯ СИСТЕМЫ 217 можно будет пользоваться в практике вычислений. Обозначим /(р, ?) = д 1-9 1 р 1-9’ Ilf II ' Учитывая, что ||(/4-л*‘>—yXllyll + llx<‘)—i/IXI|i/||+l|e||, из (2.6.11) по- лучим |Гп^-|Гп v-/(p, 9) Hell < llt/ll • ---г 1—v/(p, 9) (2.6.12) при условии, что 1—v-l(p, ?)>0. Реально нам известны матрица В и*век- тор g, а не А и f, поэтому вместо оценки (2.6.12) можно рассматривать следующую оценку: — _ #(*)) Ы1^И!/11 ,_|(р <2.<5.13) где — число обусловленности матрицы В, (/(*)= IIDB-1!), D = B—A #(*) 1 р и1(р, ---+------------ 1— 1— ?(*> llgll Большое .число методов решения системы вида (2.6.1) основано на преобразовании матрицы А к некоторому простейшему виду (например, к диагональному, треугольному и т. д.). Чаще всего такое преобразова- ние выполняется путем умножения матрицы А слева на некоторую не- вырожденную матрицу М. В связи с этим выясйим, какой класс матриц М при указанном преобразовании не меняет числа обусловленности мат- рицы Д, т. е. определим матрицы Л4, для которых имеет место равенство v(M4) =v(4). Для любой невырожденной матрицы М верно неравенство v(AL4)^v(M)v(4), ибо ||Л1Д||^||Л1||.||Д|| и ||Л-^М-1||^||Д-1||.||Л1-1||. С другой стороны, v(m'4)ss^(Vv<-4)' так как на основании неравенства' (2.6.15) v (А X v (М-1) v (М А) = v (М) v (М А). (2.6.14) (2.6.15) (2.6.16)
218 Гл. 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ. АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ^ г* Аналогично получим v(M-4)> (2.6.17) Таким образом, max (twv(X)’ 'Wv(M)^ ^М'А^М^АУ <2-618\ Из (2.6.18) видно, что если при некоторой заданной матрице М правая граница неравенства достигается для какой-либо матрицы А и v(M) велико, то число обусловленности v(M-4) может стать очень большим. Если положить v (М) = 1, то из (2.6.18) сразу будет следовать (2.6.14). Значит, все невырожденные матрицы, у которых число обусловленности равно единице (v(M) = l), не меняют числа обусловленности матрицы 4, т. е. v(A4-4) =v(4). Отметим, что указанным свойством в случае третьей нормы, очевидно, обладают ортогональные.и унитарные матрицы. Литература 1. Б е р е з и н И. С., Ж и д к о в Н. П. Методы вычислений, т. 1. М., 1966. 2. Воеводин В. В. Численные методы алгебры (теория и алгоритмы). М., 1966. 3. Л анцош К. Практические методы прикладного анализа. М., 1961. 4. Фаддеев Д. К., Фаддеева В. Н. Вычислительные методы линейной алгебры. М., 1963. 5. Форсайт Дж., Молер К. Численное решение систем линейных алгебраических уравнений. М., 1969. 6. Уилкинсон Дж. X. Алгебраическая проблема собственных значений. М., 1970. 7. Хаусхолдер А. С. Основы численного анализа. М., 1956. 8. Forsythe G. Решение линейных алгебраических уравнений может быть инте- ресным. Bull. Amer. Math. Soc., 59, № 64, 1953.
Глава 3 ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИИ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ § 3.1. О СОДЕРЖАНИИ ЗАДАЧИ В предыдущей главе мы ознакомились лишь с одной из основных групп вычислительных задач линейной алгебры — с задачами числен- ного нахождения решения системы линейных алгебраических уравнений. Сейчас мы рассмотрим другую важную группу таких 3a#a4j порождае- мую так называемой проблемой собственных значений. Как мы уже отмечали, собственным значением (или характеристиче- ским числом) квадратной матрицы А называется такое число X, что для некоторого ненулевого вектора х имеет место равенство Лх=й. (3.1.1) Любой ненулевой вектор х, удовлетворяющий этому равенству, называ- ется собственным вектором матрицы А, соответствующим (или принадле- жащим) собственному значению X. Очевидно, что все собственные век- торы матрицы определены с точностью до числового множителя. Уже в предыдущей главе мы имели возможность убедиться, насколько ценной бывает информаци-я о собственных значениях матрицы. Напри- мер, скорость и сам факт сходимости процесса простых итераций, при- меняемого для приближенного решения системы линейных алгебраиче- ских уравнений вида х=Вх-\-Ь, существенным образом зависят от величины максимального по модулю собственного значения матрицы В. Задача нахождения собственных зна- чений и собственных векторов матрицы важна не только как вспомога- тельная. Многие научно-технические. задачи (особенно задачи физики, механики, астрономии) приводят к проблеме отыскания нетривиального решения однородной системы линейных алгебраических уравнений вида (3.1.1) и тех значений числового параметра %, при которых такое решение существует. Во всех явлениях неустойчивых колебаний и вибраций проб- лема собственных значений играет очень важную роль, так как частота колебаний определяется собственными значениями некоторой матрицы»
220 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ а форму этих колебаний указывают собственные векторы этой матрицы. Анализ собственных значений матриц является важной темой научно- технических исследований. Условием существования у однородной системы (3.1.1) ненулевого решения (для наглядности запишем эту систему в виде (А—ХЕ)х=0) является требование Это уравнение обычно называют вековым (или характеристическим) уравнением матрицы А. Такие уравнения часто встречаются в приложе- ниях. Левая часть векового уравнения |А — Х£| = (— 1)”(А,П—р2Кп~2—..рп) носит название характеристического полинома матрицы А. Старший коэффициент этого полинома равен (—1)п. Иногда вместо характеристи- ческого полинома рассматривают полином, отличающийся от характери- стического множителем (—1)п. Этот полином P(fi) =^n—pikn-i—p2'kn-2—...—рп обычно называют собственным многочленом матрицы. Собственные зна- чения матрицы являются корнями собственного многочлена. Совокуп- ность всех собственных значений М, Хг, ... , Хп матрицы А, где каждое собственное значение выписано столько раз, какова его кратность как корня собственного многочлена, называется спектром этой матрицы. Собственными же векторами матрицы А являются нетривиальные реше- ния однородной системы (3.1.1), в которой вместо % подставлены соб- ственные значения матрицы. В том случае, когда для данного собствен- ного значения система (3.1.1) имеет несколько линейно независимых решений, этому собственному значению принадлежит несколько собст- венных векторов. Отметим, что в случае вещественной матрицы ком- плексному собственному значению соответствуют собственные векторы, координаты которых также будут комплексными числами. Вектор, коор- динаты которого комплексно сопряжены с координатами собственного вектора вещественной матрицы, также будет собственным вектором дан- ной матрицы, соответствующим комплексно сопряженному собственному значению ее. В этом легко убедиться, если в равенстве Ах=\х заменить все числа комплексно сопряженными.
§ 3.1. О СОДЕРЖАНИИ ЗАДАЧИ 221 Задачу вычисления собственных значений и1 собственных векторов матрицы А можно разбить на три естественных этапа: 1) построение собственного многочлена Р(Х) матрицы; 2) решение уравнения Р(Х) =0 и нахождение собственных значе- ний Xi (i= 1, 2, ... , п) матрицы; 3) отыскание нетривиальных решений однородных систем (Д—Хг£)х=0 (1=1, 2, ... , и), т. е. нахождение собственных векторов матрицы. Как мы увидим в дальнейшем, иногда можно вычислять собственные значения и принадлежащие им собственные векторы матрицы, минуя этап построения собственного многочлена этой матрицы. Этого удается достигнуть при помощи различных косвенных соображений, использую- щих те или иные свойства собственных значений и собственных векторов матрицы. Каждый из трех отмеченных этапов решения проблемы собственных значений представляет собой достаточно сложную вычислительную задачу. В самом деле, построение собственного многочлена Р(Х), например, связано с развертыванием определителя 4Z11—к CLi2 #21 #22—X = (— l)n(V— р2Кп~2— -...-Pn) = (-i)nP(x), Яп1 &п2 &пп (3.1.2) что представляет собой значительные технические трудности. Основное затруднение вызвано тем обстоятельством, что X входит в каждую строку и в каждый столбец определителя. В общем же случае, как известно из алгебры, коэффициенты рг собственного многочлена Л(Х) представляют собой взятые со знаком (—l)i-1 суммы всех главных миноров (т. е. мино- ров, симметрично расположенных относительно главной диагонали) порядка i определителя матрицы А. Число таких миноров для каждого i равно числу сочетаний из п по i. Значит, непосредственное вычисление коэффициентов собственного многочлена Р(Х) квадратной матрицы по- рядка п связано с вычислением Сп+Сп+.. .+Сп =2Л—1 определителей различных порядков. Для матриц достаточно высоких порядков последняя задача сопряжена с большими затратами вычисли- тельного труда.
222 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Полезно отметить, что в силу известной теоремы Виета, дающей связь корней многочлена с его коэффициентами, можно записать следующие равенства: А1Н-А2+. . .-|-Ачг = Р1, Аг1 • Л-2 . . . Ап•= ( 1) п~ 1рп. Так как в силу равенства (3.1.2) Р1=ац -j-ci22~h Pn=(-l)n-‘ |Л I, то A14~A2-|-. . .4-Лп = 0Ц“|”Я22”Н • = Sp Л, Al • Аг . . . Ап — | Л |. Таким образом, сумма всех собственных значений матрицы совпадает с ее следом, а произведение их равно значению определителя этой мат- рицы. В частности, отсюда следует, что матрица Л тогда и только тогда имеет хотя бы одно собственное значение, равное нулю, когда |Л | =0, т. е. если она особенная. Трудности в непосредственном осуществлении второго и третьего эта- пов решения проблемы собственных значений, т. е. трудности, связанные с решением алгебраических уравнений высоких степеней, и трудности в нахождении нетривиальных решений систем однородных, линейных алгебраических уравнений, также значительны. После ознакомления с содержанием первых двух глав книги уже нетрудно оценить объем вы- числительной работы, необходимый для непосредственного осуществле- ния этих этапов рассматриваемой проблемы. К настоящему времени создано немало специальных вычислительных приемов,, упрощающих численное нахождение, собственных значений и собственных векторов матрицы. Все эти методы, как и в случае проблемы численного решения системы линейных алгебраических уравнений, мож- но разделить на точные и итерационные методы. К первой группе отно- сятся методы, по которым сначала строят собственный многочлен матри- цы (т. е. вычисляют его коэффициенты plf р2, ... , рп), затем, находя его корни, получают собственные значения матрицы и уже по ним находят соответствующие собственные векторы. При этом во многих случаях, используя промежуточные результаты вычислений, получают собствен- ные векторы матрицы, принадлежащие вычисленным собственным значе- ниям, не прибегая к решению указанных выше систем однородных линей- ных алгебраических уравнений. Методы этой группы получили название точных, методов в связи с тем обстоятельством, что в случае точного за- дания (рациональными числами) элементов матрицы и при точном
§ 3.1. О СОДЕРЖАНИИ ЗАДАЧИ 223 (по правилам действий над обыкновенными дробями) проведении вычис- лений такие методы приводят к точным значениям коэффициентов соб- ственного многочлена, а координаты собственных векторов при этом оказываются выраженными через соответствующие собственные зна- чения. В методах второй группы собственные значения матрицы определя- ются непосредственно, без обращения к собственному многочлену, при этом обычно одновременно вычисляются и соответствующие собственные векторы. Вычислительные схемы таких методов носят итерационный характер. В них используется многократное умножение матрицы на вектор. Схемы этого типа обычно приводят к последовательности векто- ров, имеющей своим пределом собственный вектор, и к числовой после- довательности, предел которой является соответствующим собственным значением. При этом ход итерационного процесса существенным образом зависит от характера канонической формы Жордана для данной матри- цы, а также от наличия у матрицы вещественных или комплексных соб- ственных значений. Сам факт сходимости этого процесса и ее скорость определяются величиной отношения модулей различных соседних соб- ственных значений. Как правило, итерационные методы позволяют с достаточной точно- стью определить лишь первые (наибольшие по модулю, например) соб- ственные значения и соответствующие им собственные векторы. Поэтому методы этой группы чаще всего применяются к решению так называемой частичной проблемы собственных значений, т. е. их чаще используют лишь для отыскания одного или нескольких собственных значений мат- рицы и соответствующих собственных векторов. Точные же методы позволяют решать также и полную проблему собственных значений, т. е. дают возможность находить все собственные значения матрицы.и все принадлежащие им собственные векторы. Полная проблема собственных значений в некоторых случаях может быть решена также и специаль- ными итерационными методами. Эти методы, конечно, более трудоемки, чем точные методы и чем итерационные методы решения частичной про- блемы собственных значений. Их практическое использование стало воз- можным лишь с появлением быстродействующих вычислительных машин. Однако перед точными методами решения полной проблемы собственных значений итерационные методы имеют одно несомненное преимущество, связанное с возможностью нахождения всех собственных значений без предварительного построения собственного многочлена матрицы. Это особенно важно в связи с тем, что ошибки в вычислении коэффициентов собственного многочлена могут сильно сказываться на точности опре- деления его корней, т. е. на точности нахождения собственных значений исходной матрицы (и соответствующих им собственных векторов). Кроме того, большим достоинством итерационных методов перед точными явля- ется простота и единообразие производимых действий, что особенно цен- но при использовании быстродействующих вычислительных машин.
224 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Полная и частичная проблемы собственных значений сильно разли- чаются как по методам их решения, так и по области приложений. Так как решение полной проблемы собственных значений даже в случае матриц не очень высокого порядка обычно связано с очень большим объемом вычислительного труда, то возможность решения частичной проблемы собственных значений другими методами, минуя вычислитель- ные трудности решения полной проблемы, является очень ценной для практики. Изложение вычислительных методов решения проблемы собственных значений мы начнем с рассмотрения группы точных методов, при этом, если противное не оговорено особо, мы будем иметь в виду лишь матрицы с вещественными элементами. § 3.2. МЕТОД А. Н. КРЫЛОВА В начале тридцатых годов нашего столетия А. Н. Крыловым был предложен достаточно удобный метод нахождения собственных значений и собственных векторов матриц. Сообщение об этом методе положило начало большому циклу работ, посвященных приведению векового урав- нения |А-Х£| = #11—% #12 . . • #1п #21 #22—к • • • #2п #nl ^п2 • • • ^пп к полиномиальному виду (_1)п(^п_рДп-1—р2Хп-2—. . Рп) =0. (3:2.1) (3.2.2) К настоящему времени вычислительная схема метода значительно улуч- шена, однако основная идея метода не претерпела больших изменений. Для иллюстрации ее А. Н. Крылов вводит в рассмотрение каноническую систему однородных обыкновенных дифференциальных уравнений пер- вого порядка с постоянными коэффициентами yi =О'ПУ1-\~^12У2-\~- • *-\"а1пУп1 У2' =^21//14“#^22i/2“|". . . + ^2пУп, Уп' — ^nl//l“|"^n2f/2~|“. . .4-ЯппУп, связанную с исходной матрицей А. Характеристическое уравнение этой системы имеет вид (3.2.1). Корни характеристического уравнения систе- мы являются собственными значениями матрицы А. Если эту систему
§ 3.2. МЕТОД А. Н. КРЫЛОВА 225 уравнений первого порядка удастся свести к одному дифференциальному уравнению порядка п с постоянными коэффициентами то по виду этого уравнения легко записать его характеристическое урав- нение рдп-1_р2^-2—.. —рп=0, корни которого должны совпадать с корнями уравнения (3.2.1). Итак, выполнив преобразование введенной системы обыкновенных дифферен- циальных уравнений первого порядка к одному уравнению порядка п, мы построим математический образ, по виду которого непосредственно записывается вековое уравнение исходной матрицы в полиномиальном виде (3.2.2). Во многих случаях такой прием оказался не только воз- можным, но и достаточно удобным для вычислений. А. Н. Крылов указал и на возможность алгебраической интерпрета- ции этой идеи, хотя сам разработкой ее не занимался. Мы сейчас оста- новимся именно на построении такого алгебраического образа, по виду которого можно будет непосредственно записать собственный многочлен Р(Х) матрицы А или его делитель, при этом, оказывается, результаты промежуточных алгебраических преобразований могут быть использо- ваны и для вычисления собственных векторов матрицы. Прежде чем приступить к рассмотрению этой алгебраической интер- претации метода Крылова, мы приведем здесь некоторые сведения из высшей алгебры, необходимые нам для изложения. 3.2.1. Некоторые сведения из алгебры Назовем многочлен f (А,) = аннулирующим многочленом для квадратной матрицы А, если f (A) = aoAm-f-aiAm- 1-(-.. iA-j-amE ==0. Нулевой многочлен является аннулирующим для любой матрицы. Будем рассматривать только приведенные (со старшим коэффициентом, равным единице) аннулирующие многочлены. Для каждой матрицы множество таких многочленов не пусто. Действительно, в алгебре матриц хорошо известна теорема Гамильтона — Кели, утверждающая, что если есть собственный многочлен матрицы А, то Р(А)=0, т. е., условно гово- ря, матрица является корнем своего собственного многочлена. Таким образом, любая квадратная матрица порядка п имеет аннулирующий многочлен п-и степени. Очевидно, что этот многочлен не единственный, 15 Зак. 367
226 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ так как если многочлен P(Z) является аннулирующим для матрицы А, то этим свойством обладает и всякий многочлен, делящийся на Р(к). Среди всего множества многочленов f(2i), аннулирующих для данной матрицы Д, особо выделяют многочлен гр(Х) наименьшей степени. Такой многочлен называется минимальным многочленом матрицы. Укажем на некоторые почти очевидные свойства этого многочлена. 1. Если /(Д)=0, то многочлен f(X) делится нацело на минимальный многочлен гр (Z) матрицы А. В самом деле, пусть где многочлен г (X) имеет степень меньшую, чем многочлен гр(Х). Пока- жем, что это возможно лишь в случае г(^)=0. Действительно, подста- новка в последнее равенство А вместо Z приводит нас к-результату г(Д)=0, который возможен лишь в случае г(20=О, ибо многочлен гр(Х) имеет наименьшую степень среди всех многочленов, аннулирующих для мат- рицы А. 2. Все корни минимального многочлена матрицы являются собствен- ными значениями этой матрицы. Это свойство является прямым следствием свойства 1. Можно показать также, что корнями минимального многочлена мат- рицы служат все различные между собой собственные значения матрицы. 3. Минимальный многочлен матрицы единствен. Действительно, если грДХ) и грг(^) есть два минимальных многочлена матрицы Д, то многочлен меньшей степени Q(X) =xpi (X) —гр2 (А,) будет аннулирующим многочленом для этой матрицы, а это может быть лишь в случае Q(Z) =0, т. е. при грДХ) =гр2(Л), так как приведенные мно- гочлены г|?1 (X) и г|?2(А) имеют наименьшую степень среди всех многочле- нов, для которых матрица А является корнем. Пусть, далее, наряду с квадратной матрицей А имеется некоторый вектор согласованный по размерности с матрицей Д. Рассмотрим множество приведенных многочленов g(X) таких, что £(Д)с=б. Очевидно, что множество таких многочленов g(k) включает в себя рас- смотренное выше множество многочленов f(X), для которых матрица А является корнем. Этому множеству принадлежат, в частности, собствен- ный и минимальный многочлены матрицы, но ему могут принадлежать
§ 3.2. МЕТОД А. Н. КРЫЛОВА 227 и такие многочлены, для которых условие g~(A)=0 не выполняется. Среди многочленов этого множества также особо выделяют многочлен ф(Х) наименьшей степени, который обычно называют минимальным ан- нулирующим вектор с многочленом матрицы А. Как и в случае мини- мального многочлена ф(Х) матрицы А, можно проверить, что введенный нами минимальный аннулирующий вектор с многочлен ф(%) матрицы А обладает свойствами, аналогичными свойствам минимального многочле- на матрицы. 1. Если g(A)c=0, то многочлен нацело делится на минималь- ный аннулирующий вектор с многочлен ф(Х) матрицы А. 2. Все корни многочлена ф(^) являются собственными значениями матрицы А. Корни многочлена ф(Х) дают, вообще говоря, только часть различных собственных значений матрицы. 3. Минимальный аннулирующий вектор с многочлен матрицы А единствен. < - ' Приведенные сведения из алгебры будут необходимы при рассмот- рении алгебраической интерпретации метода А. Н. Крылова, к описанию которой мы и переходим. 3.2.2. Нахождение собственных значений матрицы Рассмотрим произвольный вектор с<°)=/=0, согласованный по размер- ности с исходной квадратной матрицей А. Очень часто в качестве вектора берут, например, вектор (1, 0, 0, ... , 0)'. По этому вектору будем составлять последовательность векторов с(1)=Дс(°), c<?>=AcW=A2c(Q\ с(3)=Дзс(0) и т. д д0 Тех пор, пока не встретим первый вектор (например, вектор c<m)=Amc(°)), который будет являться линейной комбинацией пре- дыдущих линейно независимых векторов, т. е; пока не будет справедливо следующее равенство: . .-|-?т7(0)=7(ш) ( ?г2>0). . ' i=i ' Очевидно, что m^n, где п — размерность вектора с<°). Для того чтобы практически определить число m и найти коэффициенты qit q2, ... , qm соответствующей линейной комбинации, можно поступить следующим образом. Запишем предельно возможную (m = n) линейную комбинацию . .4-<7пС(0)=с(п)
228 Гл- 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ в координатах: 91С(”-‘)4-^2С(«-2)4-.. .+qnc^=c^\ 91C(n-i)_|_^2c("-2)+.. .+дпс(°>=с%\ & & ы ы 91С(”-1)+?2^-2>+. . .+?nC«) = CW. Здесь числа с(Ъ ..., № есть соответствующие координаты вектора 1 2л 71 (i=0, 1, ..., /г). Для определения коэффициентов <?2, ... , qn получаем неоднород- ную систему и линейных алгебраических.уравнений. Определитель этой системы с(п-1) f , С(О) c(n~l> ,.. с(°) п п будет отличен от нуля лишь в случае линейной независимости векторов dn-1\ dn~2\ ... , с(°) (столбцы определителя состоят из координат этих векторов). Только в этом случае (zn = n) система имеет единственное решение q2, • •. , ?п. Чтобы выяснить, отличен ли от нуля определи- тель Д, обычно построенную систему линейных алгебраических уравне- ний решают методом Гаусса. Если все п шагов прямого хода метода Гаусса выполнимы и система приводится к треугольному виду <714-61292+^13?3“H . .4-^ln?n — gu ?2+^23?зЧ“. . .H“^2n<7n = ^2, ?n — gn, то это свидетельствует о том, что Д=/=0 и векторы с@\ ... , с(п~^ линей- но независимы. Тогда из последней системы обратным ходом метода Гаусса мы единственным образом находим последовательно все коэф- фициенты qn, qn-i, ... , qt рассматриваемой линейной комбинации. Если же выполнимы только т шагов прямого хода метода Гаусса, то линейно независимыми будут только т первых векторов с®\ с^\ ..., Записав соответствующую линейную комбинацию
§ 3.2. МЕТОД А. Н. КРЫЛОВА 229 покоординатно 91C(m-l)+92C(.m-2)+_ ^qmc^ = C^\ q^m-i}+q2Cim-2)+t 4 .+qmCW = c<™\ бы ы ы <71С(т-1)_|_е72С(™-2)+. ; \+qmC^ = C^. и выбрав (например; по методу Гаусса) из этих п линейных алгебраиче- ских уравнений т линейно независимых, мы найдем коэффициенты ^2, ..., Цт разыскиваемой линейной комбинации. Оказывается, построенная линейная комбинация и будет тем алгебра- ическим образом, по виду которого можно непосредственно записать либо собственный многочлен матрицы (при /и = п), либо его делитель (при т<п). Рассмотрим сначала случай, когда т=п. В этом случае, оказывается, коэффициенты qi, q2, ..., qn линейной комбинации ^1c(n-1)-|"92^(n“2)+.. r±qncW=cW равны соответствующим коэффициентам р4’ р2,... , рп собственного мно- гочлена Р(%) рДп-1—р2Хп“2—.. рп, т. е. qi=pi (/=1, 2, ..., и). Действительно, на основании теоремы Гамильтона — Кели Р(Д) =Дп_р1Дп-1__р2Дп-2__> ш —РпЕ = 0' Умножая это равенство на вектор с(0) и принимая во внимание, что М°)=?(0 (f=l, 2, ... , и), получим р1С(п-1)^_р2С(п-2)_рф , ,4-рпс(0) = с(п). С другой стороны, ^1C(n-i)_|_^2c(n“2)+.. ,-}-qncW= с<п\ Значит, (pt—qi)c(n-1)+ (p2—qi) dn^+.. •+ (Рп—Яп) c(°)=0. Так как векторы c<°), с<*>, линейно независимы, то последнее равенство возможно лишь в случае, если pt=qi (i=l, 2, ...,/|).
230 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Таким образом, в случае т = п по виду построенной нами линейной: комбинации можно непосредственно записать собственный многочлен Р(Х) матрицы А. Решая уравнение Р(Х)=0 (например, методом Нью- тона), мы найдем все собственные значения этой матрицы. В случае шея построенная линейная комбинация имеет вид Если учесть, что №=А*№ (i=l, 2, ... , m), то последнее равенство можно переписать в виде или (Ат—q2Am~2—..qmE)c^ = 0 q)(4)d°)=0, где ф(Х) =Km—qi/Jn-\~q2K'fn~2—.. .—qm. Следовательно, найдя коэффициенты 71, q2, ... , qm искомой линейной комбинации, мы тем самым построим многочлен ф(Х), который будет являться минимальным аннулирующим вектор многочленом матри- цы А (если бы существовал многочлен g(^), удовлетворяющий условию 5‘(Д)с(°)=0 и имеющий степень меньшую, чем степень многочлена <р(Х)-, то это противоречило бы условию линейной независимости векторов с(°), сЮ, ... , Зт~^). Таким образом, в случае по виду построенной линейной комби- нации мы сможем записать не сам собственный многочлен Р(Л) матри- цы Д, а лишь его делитель ф(Х). Решив уравнение ф(М =0, мы найдем лишь часть собственных значений этой матрицы. Изменяя исходный вектор можно на этом пути найти и недостающие собствен- ные значения. 3.2.3. Вычисление собственных векторов матрицы После того как собственное значение Кг матрицы А вычислено, задача нахождения принадлежащих ему собственных векторов этой матрицы сводится, вообще говоря, к решению следующей однородной системы линейных алгебраических уравнений: (Л— KiE)x=0.
§ 3.2. МЕТОД А. Н. КРЫЛОВА 231 Но часто промежуточные результаты вычислений при нахождении соб- ственных значений матрицы могут быть с успехом использованы и для вычисления соответствующих собственных векторов. Это, как правило, позволяет сократить затраты вычислительного труда при решении по- следнего этапа проблемы собственных значений. Такая возможность, в частности, представляется и описанным выше алгоритмом метода Крылова. Пусть известен корень hi минимального аннулирующего вектор с<°) многочлена <р(Х) =hm—q2hm~2—.. .—qm матрицы А (все последующие рассуждения имеют место как для регу- лярного случая т = п, так и для особого случая m<n). Собственный вектор матрицы Д, принадлежащий этому собственному значению, будем искать в виде линейной комбинации линейно независимых векто- ров с<°), ... , построенных при нахождении многочлена ф(Х): X(0 = pilC(m-l)+p.2f(7n-2)_|_. , ,+pimC(0). (3.2.3) Коэффициенты p$j (/ = 1, 2, ... , т) надлежит выбрать так, чтобы удов- летворить условию Ах^ = КгХ^. Умножим линейную комбинацию (3.2.3) на матрицу Д, учитывая ра- венства сО)=Дс^’”1) (/=lv2, ... , tri) и требование Дх(*)=Хг-х(*); Xi (Pil>-1)+Pi2^W“2)+• • .+₽imCW) =pii>)+₽t2^w-1)+. . •+₽гт^1). (3.2.4) Если же, кроме того, учесть, что ср(Д) с<°)=0, т. е. что равенство (3.2.4) можно переписать в виде Xi (Pil^-1) + Pi2^-2) + . • . + P«J<0)) = =₽ii(^ic(m-1)+^m-2)+.: «ч^т^0)) 4~Pi2£(m—^“ЬРгз^772-2)-]-* : .h-Pzwa1) ПЛИ (?mPil XiPim) (^m—iPil+Pim XiPim—1) + (^m-2pil+pim-l—XiPim-2) • .+ (?1Ри+Рг2—XiPfi) = 0.
232 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ В силу линейной независимости векторов с<°), ..., с(™-г) все коэффици- енты последней линейной комбинации должны быть равны нулю, т. е. должны выполняться следующие равенства: tfmfiii кг$гт== О, M’Pim—1 = 0, Я т—гР г 1 Р гт—1 ^г Р гт—2 = 0, ?2Рг1Н“РгЗ—^г’Рг2—.0, Я 1Рг1“}“Рг2—^г’Рг! = 0. Из этих равенств, начиная с последнего, последовательно находим: Рг2 — (^г Q1) Рг1, РгЗ = (АЛ —q&i — ?2)рг1, V Рггп— 1 2 ^2^/? 3 ... фи—1)Рг1, 4 v v qm)0и=(Х Последнее равенство справедливо для любых конечных значений ргч, так как <p(Xi) =%7—q^™-1—q2№~2—.. — qm=o. V I V Полагая, например, ргч= 1, мы будем иметь для нахождения искомых коэффициентов линейной комбинации следующие расчетные формулы: Рг1 1» Рг’2 ^1, РгЗ = — <?2, ?,дт-з_. С v с Если данному собственному значению Хг- матрицы А принадлежат не- сколько линейно независимых собственных векторов, то для их разыска- ния можно повторить весь процесс, исходя из других начальных векторов.
§ 3.3. МЕТОД А. М. ДАНИЛЕВСКОГО 233 § 3.3. МЕТОД А. М. ДАНИЛЕВСКОГО Достаточно простой и экономичный способ решения проблемы соб- ственных значений был предложен в конце тридцатых годов этого сто- летия А. М. Данилевским. Этот метод основан на известном из линейной алгебры факте о том, что преобразование подобия S-1AS не изменяет характеристического полинома матрицы А. Действительно, | S-MS-XE | = |S-US-A S~lES | = | S-11 • | А —ХЕ | • | S | = | А —ХЕ |. Поэтому, удачно подобрав преобразование подобия, можно надеяться получить матрицу, собственный многочлен которой выписывается непо- средственно по виду ее. А. М. Данилевский предложил приводить исход- ную матрицу А преобразованием подобия S-1AS к так называемой кано- нической форме Фробениуса 0*6 0 характеристический полином которой легко записать. В самом деле, раз- лагая определитель |Ф—ХД| последовательно по элементам первого столбца, будем иметь | ф—ХЕ | = Pi—X 1 о Рг —X 1 Рз 0 —X рп—1 рп о о = (Pl-М о о ООО 1 — X Рг Рз ... pn—i Рп I —X ... о о = (Pl-Л) (-А)п-1-Р2(-Х)п-2+ 0 0 1 — X Рз Рк • • • pn—i Рп 1 —X ... о о О О ... 1 — X = (Р1-х) (-х)«-‘-р2(-л)’,-2+рз(-%)п-3-: . .+(-1)"+‘ря= == (—1)П(ХП— р1Хп~1—р2Хп~г—.—рп) = (— 1)пР(Х),
234 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Таким образом, элементы pi, р2, ... , Рп первой строки матрицы Фробе- ниуса являются соответствующими коэффициентами ее собственного многочлена, а значит, и собственного многочлена исходной матрицы А, связанной с матрицей Ф преобразованием подобия Ф = 5-1А5. Решая уравнение Р(Х) =0, мы найдем интересующие нас собственные значения матрицы А. Кроме того, оказывается, неособенная матрица S, с помощью которой было построено нужное нам преобразование подобия, может быть использована при нахождении собственных векторов матри- цы А. Основная задача, таким образом, сводится к разысканию нужной нам матрицы S. А. М,. Данилевский предложил строить эту матрицу и тем самым осуществлять переход от матрицы А к матрице Ф последовательно с помощью л—1 преобразований подобия, переводящих строки матрицы А, начиная с последней, в соответствующие строки матрицы Ф. Рассмот- рим эти преобразования подробнее. 3.3.1. Построение собственного многочлена матрицы В зависимости от элементов матрицы А в методе Данилевского можно встретиться с двумя возможными случаями: регулярным и нерегуляр- ным. Рассмотрим сначала регулярный случай. Предположим, что элемент ann-t матрицы А отличен от нуля. Тогда, разделив (и—1)-й столбец матрицы А на этот элемент и вычитая этот столбец из f-ro столбца матрицы, домножив его предварительно на эле- мент ani (для всех f=l, 2, ... , п—2, л), мы приведем последнюю строку матрицы к форме Фробениуса. Непосредственно проверяется, что такое преобразование равносильно умножению матрицы А справа на матрицу 1 —0 ... 0 0 0 " 0 1 ... 0 0 0 Мп-1 #п2 ^пп-2 1 ^пп J @пп—1 0 ^пп—1 0 , 1 0 «-пп—1 0 1 1 В результате такого умножения последняя строка матрицы принимает нужный вид, однако преобразование AMn-i не будет, вообще говоря, пре- образованием подобия для матрицы А. Исправить этот недостаток можно умножением полученной матрицы следа на матрицу которая суще- ствует, так как ?—#=0. Непосредственно убеждаемся, что йпп—1 —1 матрица Л/n-i имеет следующий вид: , . .
§ 3.3. МЕТОД А. М. ДАНИЛЕВСКОГО 235 Г 1 о ... о О 1 ... о Мп1=....................... Q-nl &п2 . . * ^пп-1 о о ... О 0 1 о Unn 1 1 Очевидно, что преобразование MnliAMn-i не изменяет последней строки матрицы AMn-i. Таким образом, после выполнения первого шага метода Данилевского мы получим матрицу следующего вида: Mn-1AMn-1=Aw= (1) «11 fl) «12 (1) «171—1 «171 (1) «21 (1) «22 • • • (1) «271-1 «271 (1) «71—11 fl) «71—12 n W un—1 71—1 a(1) «71— О о In О Заметим, что матрицы A4n_i и Mn-lt умножением на которые соответ- ственно слева и справа мы переходим от матрицы А к матрице вы- писываются непосредственно по виду матрицы А. Предположим далее, что и элемент a(n-2n-i матрицы Ж1) отличен от нуля (имеем в виду регулярный случай). Тогда второй шаг метода Дани- левского совершенно аналогичен первому и состоит в приведении второй снизу строки матрицы Ж1) к форме Фробениуса (при сохранении неизмен- ной первой снизу строки). Результат таких преобразований можно за- писать в виде О V Mnl2Mn-iXMn_1Mn_2=MnL2A(Mn-2= =Д(2> = (2) «11 (2) ~ «171-2 (21 @Лп—1 (2) «171 (2) «71—21 (2) «71—2 71—2 Л (2\ «71—2 п—1 Л(2) «тг—2тг О о о о о о
236 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ где г Мп-2 = L 1 о ... о о О 1 ... о о «п-11 «п-12 па) Un—ln—3 1 а<‘). „ а(« ’ * ’ а(Ц а(1) л п п—1п<-2 п—in— 2 n—ln—2 п—in—2 0 0 0 0 0 0 0 0 Г 1 0 0 0 1 0 Мп-2 = (1) О'П—11 J1) Яп-12 I О о L о о Закон построения матриц Мп-2 и Мп~2 по виду матрицы AW, как ви- дим, вполне аналогичен соответствующему правилу построения на пре- дыдущем шаге метода матриц Mn_i и Afn_i по виду матрицы Л=Л<°). Эта же закономерность сохраняется и на последующих шагах метода. Итак, если ann-i=/=0, an-in-z^O, Оп-гп-зт^О, ... , ¥=0, то после п—1 шагов метода Данилевского будем иметь мг'мг~*Mn-iAMn-iMn-2.;. м1=Л("-*)= Pi 1 о Р2 О о Р п—1 Рп о о 1 о = <D = S-MS. Тем самым исходная матрица А посредством преобразования подобия с неособенной матрицей S=Mn_1Mn_2 ... Afi будет приведена к канони- ческой форме Фробениуса, непосредственно по виду первой строки кото- рой записывается собственный многочлен Р(К) =^п^р^п-1^р2^п-2^ ,
§ 3.3. МЕТОД А. М. ДАНИЛЕВСКОГО 237 Рассмотрим далее нерегулярный случай. Будем считать, что процесс последовательного приведения строк исходной матрицы Л к виду Фробе- ниуса по методу Данилевского доведен до строки номера А, т. е. выпол- нено ti’—k шагов метода, но при этом оказалось, что элемент akk-i мат- рицы равен нулю. Следующий (п—шаг метода изложен- ным выше способом осуществлен быть не может. В зависимости от того, есть ли среди элементов k-и. строки матрицы стоящих левее эле- мента akk-i=0, отличные от нуля или таковых нет, дальнейшее продол- жение процесса возможно, например, по двум следующим вариантам. Предположим сначала, что имеет место первая из двух оговоренных выше возможностей, т. е. в строке номера k левее элемента akk-i =0 есть элемент, отличный от нуля. Пусть, к примеру, этот элемент стоит в ьм (i<Zk—Y) столбце матрицы Тогда дальнейшее продолжение про- цесса может быть сведено к регулярному случаю. Для этого, оказывает- ся, достаточно в матрице A(n~h) поменять местами столбцы с номерами i и А—1, а также строки с такими номерами. Непосредственно легко про- верить, что такое преобразование может быть записано в виде ТД(п-й)Г, где (Ц (л-i) 0 0 о . . (О . . о (k-i) 0 1 Легко проверяется также, что преобразование ТА^п~^Т есть преобразо- вание подобия для матрицы A^n~hX В самом деле, поскольку после двой- ной перестановки строк или столбцов мы получаем исходную матрицу,
238 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРО’В МАТРИЦ то Т2=£, т. е. T=T~i. Значит, преобразование ТА^п~^Т есть подобное преобразование матрицы Проведя такое преобразование (дополнительные затраты труда на это невелики), мы сможем следующий шаг метода Данилевского выполнять, как и в регулярном случае. Рассмотрим сейчас вторую возможность, которая может предста- виться в нерегулярном случае, т. е. предположим, что „ (n-k) (п-k) (n-k) &kl = 0ft2 —• • • = Q'hh-l = Матрица в этом случае имеет вид An-k) иц (n—k) (n—k) #lft-l &1А An-k) ®Лп—1 An-h) “An Atn-k)— An-k) ^ft—11 0 0 (n—k) (n—ft) G-k-ik-i #ft-lft A n 0 tfftft 0 1 6 ’ ’ o •’ (n—ft) (n—ft) ^ft—in—1 ^ft—ln (n—ft) (n—ft) ^ftn—1 O'kn fi(n-ft) ’ 0 Q(n-ft) где 5(n-ft)_ ф(п-К) = Тогда (n—ft) 01ft-l „ (n—k) &2ft-l (n—ft) (n—ft) « (n—ft) flft-11 ak-12 . . • flft-ift-l Ац-k) ttkk (n—ft) (n—ft) ^ftn-1 ^ftn о 0 1 0 IX(n-ft)_I = |B('^)-XEft-i| • |ф(”-М-ХЕп_А+1|.*) *) Это равенство является простым следствием теоремы Лапласа (см., например, А. Г. Кур ош. Курс высшей алгебры. М., 1962, гл. I, § 6). Индексами снизу в правой части равенства обозначены, порядки единичных матриц. 0
§ 3.3. МЕТОД А. М. ДАНИЛЕВСКОГО 239 Так как матрица ф(п~л) есть матрица Фробениуса, то ее характеристик ческий многочлен выписывается непосредственно по виду первой строки. Значит, для нахождения многочлена | достаточно привести к канонической форме Фробениуса лишь квадратную матрицу по- рядка А—1</г. Таким образом, в этом случае задача построения соб- ственного многочлена матрицы даже упрощается. Нетрудно простым подсчетом необходимых арифметических операций убедиться в том, что метод Данилевского является одним из самых эко- номичных среди известных методов построения собственного многочлена матрицы. Однако, как и почти все точные методы, он очень чувствителен к ошибкам в результатах промежуточных вычислений. Известным уже нам простым приемом можно несколько повысить надежность вычисле- ний в методе Данилевского, если на (п—&4-1)-м шаге метода на место элемента a^-i ставить с помощью преобразования подобия наибольший по модулю среди элементов матриЦьГ A^n~k\ стоящих' в&ше или левее элемента akk-t. Для контроля вычислении при этом полезно сравнивать полученное значение коэффициента pi со следом матрицы. 3.3.2. Вычисление собственных векторов матрицы Если найдены собственные значения Аг (Z= 1, 2, ... , п) матрицы А и известна неособенная матрица S, преобразование подобия с помощью которой приводит исходную матрицу к канонической форме Фробениуса, то в методе Данилевского, как и в случае метода Крылова, при нахожде- нии собственных векторов матрицы А можно обойтись и без решения систем однородных линейных алгебраических уравнений Ах=КгХ (i= 1, 2, ...» и). Результаты промежуточных вычислений при нахождении собственных значений матрицы здесь также могут быть использованы и для вычисле- ния собственных векторов этой матрицы. Как мы уже отмечали, матрицы, связанные преобразованием подобия, имеют одинаковые спектры. Собственные же векторы этих матриц, при- надлежащие одним и тем же собственным значениям, будут, вообще го- воря, различны. Но между ними существует связь, а именно: если век- тор х есть собственный вектор матрицы А, принадлежащий собственному значению %, а вектор у — собственный вектор подобной ей матрицы ф=3~хА8, принадлежащий тому же собственному значению %, то вектор Sy также будет собственным вектором матрицы А, соответствующим соб- ственному значению К. Действительно, так как фу—Ху и Ф=5“М5, то 3-*А8у=Ху.
240 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Умножая это равенство слева на матрицу S, получаем утверждаемое: ASy=KSy. Таким образом, собственные векторы исходной матрицы А легко на- ходятся по соответствующим собственным векторам ее канонической формы Фробениуса. Проблема же нахождения собственных векторов матрицы Фробениуса решается просто. Действительно, если % — извест- ное значение матрицы Ф, то ИЛИ Запишем это векторное равенство покоординатно: Р1У1~\~Р2У2~\“* • -+РпУп = ЪУъ Уп—1----tyjn* Принимая во внимание, что собственный вектор матрицы определен с точностью до постоянного множителя, положим уп=\. Тогда из пре- дыдущих равенств можно последовательно найти остальные координаты вектора у. Равенство же Уп—1 — Уп—2 — А-2, • • • , У1 — ^>п Ч Р1У1~{-р2У2-]г> • -~[~РпУп = ^У1 при этом принимает тривиальный вид Р(Х) р^п-2—..рп = 0. Его можно использовать для контроля вычислений. Таким образом, вектор (Xn“4, Zn~2, 1)' является собственным вектором матрицы Фробениуса, соответствующим собственному значе- нию X. Итак, зная матрицу S, нетрудно решить и задачу нахождения соб- ственных векторов исходной матрицы А, Если нахождение собственных
§ 34. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 241 значений производилось по методу Данилевского, то матрица S непо- средственно выписывается в регулярном случае метода и в первом вари- анте нерегулярного случая (когда перестановками соответствующих строк и столбцов вычисления сводятся к регулярному случаю). Напри- мер, в регулярном случае S=Mn-iMn^2 •. • Aff. Так как матрицы Мг (/=1, 2, ... , п—1) только одной строкой отлича- ются от единичной, то вектор x=Sy=Mn-iMn-2 ... Мм удобнее строить, не находя предварительно произведения S = =Мп-\Мп-2 ... а производя умножения вектора у последовательно на матрицы Mlf М2, ... , Mn-i. При этом от умножения на матрицу 7Иг- будет, очевидно, изменяться лишь i-я координата вектора. При втором варианте в нерегулярном случае метода Данилевского, когда последовательное приведение (снизу) строк данной матрицы к форме Фробениуса провести до конца не удается, использовать описан- ный выше прием, значительно облегчающий задачу вычисления собствен- ных векторов исходной матрицы, естественно, нельзя. § 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ Выше мы рассмотрели два точных метода решения полной проблемы собственных значений: метод Крылова и метод Данилевского. К настоя- щему времени известно также большое число других методов, позволяю- щих находить собственный многочлен матрицы. Не ставя перед собой задачи дать полное и подробное изложение этих методов, мы ограничим- ся здесь лишь кратким обзором некоторых из них. 3.4.1. Интерполяционный метод Как мы уже отмечали ранее, задача построения характеристического многочлена трудна тем, что требует непосредственного развертывания определителя. Метод интерполяции позволяет заменить трудоемкую за- дачу развертывания определителя |4— ХЕ] более простой задачей вы- числения значений этого определителя при фиксированных значениях переменной X Идея метода основана на хорошо известном из алгебры факте о том, что алгебраический многочлен степени и вполне определяет- ся своими значениями в n-f-l точках. Так как старший коэффициент интересующего нас характеристического многочлена равен (—1)п, то для восстановления остальных его п коэффициентов достаточно подсчитать п значений определителя |Л— АЕ|.
242 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Зададим п любых различных значений (/=1, 2, ... , п) перемен- ной X и подсчитаем значения Di= |Л—ХгЕ| (i= 1, 2, ... , п) рассматри- ваемого определителя. Эту задачу можно решить одним из численных методов, рассмотренных в предыдущей главе. Тогда для определения коэффициентов ръ, ... , рп собственного многочлена Р(Х) мы получим следующую систему п линейных алгебраических уравнений: = D1> (-1)П(Х«. -рп) =D2, u ii (-l)n(Xn _рДп-1_р2Хп-2_. ,-pn) =jDn. Определитель этой системы с точностью до знака совпадает с определи- телем Вандермонда Хп-1 хп-2 ... Zi 1 А."-1 А"-2 А2 1 • • • • е • • • • V-1 А”-2 ... An 1 п п Так^как значения (f= 1, 2, ... , п) попарно различны, то этот опре- делитель отличен от нуля. Следовательно, коэффициенты собственного многочлена Р(Х) могут быть найдены и при этом единственным образом. Описанный метод называют интерполяционным, так как задача точ- ного или приближенного восстановления функции по нескольким извест- ным ее значениям является простейшей задачей теории интерполиро- вания, которая будет подробно изложена в следующей главе этой книги. Там же будет указан и ряд способов построения- интерполяционного мно- гочлена, которые позволят после подсчета значений £)г==|Л—Zi£| (/=1, 2, . . . , п) находить коэффициенты собственного многочлена P(h) матрицы Д, минуя задачу решения выписанной выше системы линейных алгебраических уравнений. Интерполяционный метод построения собственного многочлена мат- рицы, хотя и значительно упрощает задачу непосредственного разверты- вания определителя |Д—ХЕ|, все же остается достаточно громоздким, так как требует вычисления п значений определителя. Этот метод удобен, если матрица А имеет невысокий порядок и если легко можно подобрать такие значения переменной %, для которых определитель |Д—ХЕ| вычис- ляется просто. Кроме того, метод интерполяции не позволяет как-нибудь упростить задачу нахождения собственных векторов матрицы, в то время как методы, например, Крылова и Данилевского значительно облегчают решение этой задачи. Однако интерполяционный метод важен и интере- сен прежде всего широкой областью его применимости, а также тем, что
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 243 он позволяет'решать и более общие задачи. В самом деле, так как для этого метода специальный вид определителя, дающего характеристиче- ский многочлен, не имеет значения, то он, очевидно, с успехом может быть применен к задаче развертывания определителя Pii (%) Р12 (X) P21 (А,) Р22 (X) Р 1п (а) Ргп (h) Р п! (^) Р n2(h) ... Рпп(Х) где Pij(X) (г, /=1, 2, ... , п) — известные алгебраические многочлены переменной X. 3.4.2. Метод Леверье Этот метод является хронологически одним из первых методов, пред- ложенных для решения рассматриваемой проблемы. Несмотря на боль- шой объем работы, обусловленный вычислительной схемой метода, он давно получил признание как один из универсальных и простых по ло- гике алгоритма методов построения собственного многочлена матрицы. Идея метода Леверье основана на использовании хорошо известных из алгебры формул Ньютона kph = Sk—p2Sk-2—..Pk-tSi (k=l, 2, .,. , n), (3.4.1) 9 связывающих коэффициенты pi, рг,..., рп собственного многочлена P(l) =A,n—pn матрицы А с симметрическими функциями ” k Sk=^K- (Л=1, 2,..., n) его корней, т. е. собственных значений Кг, ... , Кп этой матрицы. Если значения S& известны, то формулы Ньютона (3.4.1) позволяют последовательно вычислять коэффициенты собственного многочлена матрицы: Pt = Si, Р2 = -у (З2—SiPi), Рз = "7Г (5з—S2P1—S1P2) Рп— (Sn Sn—iPi Sn—2p2 j*. ^iPn—1).
244 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Величины же принципиально нетрудно подсчитать по исходной матри- це А. В самом деле, так как собственные значения матрицы Ak есть . k -k * h М , Л2 , • • • , Ап, ТО Sft=Xift+^2+•. .+Xn = Sp4ft= «н, i=l где через а$ (£,/=1,2,..., и) обозначены элементы матрицы Ак. Таким образом, для нахождения собственного многочлена мат- рицы А нужно по этой матрице составить матрицы А2, Д3, ... , Лп, под- считать следы Sfc = SpXft (А=1, 2, ... , п) этих матриц и по формулам Ньютона получить коэффициенты pi, p2i..., рп искомого многочлена. Если учесть, что для вычисления следа матрицы нужно знать не все ее элементы, а лишь диагональные, то можно ограничиться составлением матриц Ah лишь при & = 2, 3, т, где т = . Следы же матриц Лт+1, Ат+2, ... , Ап теперь уже можно находить, минуя вычисление не- диагональных элементов этих матриц. Это позволяет значительно сокра- тить объем вычислений. Но и при учете сделанного замечания метод Леверье остается очень трудоемким, так как он связан с многократным умножением матриц. 3.4.3. Метод Д. К. Фаддеева Интересное видоизменение метода Леверье было предложено Д. К. Фаддеевым. Оно не только позволяет вычислять коэффициенты собственного многочлена матрицы, но и дает возможность эффективно находить матрицу, обратную данной, а также может быть использовано и для получения собственных векторов исходной матрицы. Предлагается вместо последовательности матриц Д, Д2, ... , Дп находить другую матричную последовательность Д1’, Аг, ... , Ап, построенную следующим образом: Д1=Д, Дг=ДВ1, В1=Д1—qiEt Bz=A2—q2E, Д n-rl — АВп-2, Sp An-i —^n-l, n—1 Bn—i—Д n—i qn—\.E, Д п —ABn-i, Sp Дп -----------Qn, tl Bn —An qnE. При этом, оказывается, будут справедливы следующие утверждения: 1) qi ^=Pi (j—— 1, 2, ... , п), 2) матрица Вп есть нулевая матрица,
§3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 245 3) если матрица А — неособенная, то Рп Проверим сначала первое утверждение. Для доказательства равенств qi=pt (f=l, 2, ... , п) применим метод математической индукции. При i=l справедливость утверждаемого очевидна: pi = Sp A = Sp Ai = qi. Предположив, что выполняются равенства qt=Pi для всех 1 = 1, 2, ... , k—\, докажем, что qk=pk- Так как по построению Ah=Ah—qiA11-*—q2Ah~2—..qk-iA, а по предположению qi—pi для f= 1, 2, ... , k— 1, to Ак=Ак—piA*-*—p2Ak~2—.. —pk-iA. Следовательно, £pA = Sp z4ft = Sp Ah—pi Sp Ah-i—p2 Sp Ah~2—..ph-i Sp A = = Sh~PiSh-l—P2$h-2—. . —ph-iSi, Но в силу формул Ньютона (3.4.1) Sh—piSk-i—р2$к-2—•..—ph-iSi = kph. Значит, kqk = kph, что и доказывает справедливость первого утверждения. Второе утверждение также легко доказать, если воспользоваться теоремой Гамиль- тона — Кели: Вп=Ап—qnE=АП— рИ71-1—р2Ап~2—..pn-iA — pnE=Q. Проверим, наконец, последнее утверждение. Так как по только что доказанному Ап=РпЕ, а по построению Ап=АВп-1, то АВ п—1 =рпЕ или 1 А 1 = — Вп-1, Рп что и требовалось доказать. Можно показать, что в случае особенной матрицы А матрица С= (—l)n-1 Bn-i будет союзной с матрицей А, т. е. С=(А„)' (г, /=1, 2, ... , и), где через Aij обозначено алгебраическое дополнение элемента в определителе мат- рицы А. Заметим, что доказанное ранее равенство Ап=РпЕ может быть использовано и для контроля вычислений: об их точности можно судить по отклонению матрицы Ап от ска- лярной. Метод Фаддеева позволяет также эффективно находить и собственные векторы мат- рицы: для этих целей используются промежуточные результаты вычислений, производи- мых при построении собственного многочлена матрицы.
246 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Рассмотрим матрицу Q(X) =Xn“1E-f-Xn“2Bi4~Xn~3Z?2-}-.. .-{-XBn—24-En—i. Можно показать, что если все собственные значения Xi, Хг, ... , Хп исходной матрицы А различны, то матрицы Q(X,) (/=1, 2, л. , п)—ненулевые. В этом случае, оказы- вается, любой ненулевой столбец матрицы Q(Xi) может быть принят в качестве соб- ственного вектора матрицы Д, соответствующего собственному значению Xi. В самом деле, (ХгЕ—Д) Q(Xf) = (ХгЕ—Д) (Xi f+Xi В1Д-Хг ВгД-.. .Д-ХгВп-гЧ-Вп—i) = = Xi E-f-Xi (Bi—Д)Д-Хг (Вг—ДВ1)Д-.. .Д-Xi(Bn_i—ДВп-г)—ДВП_1== = (Xf—piX? ргХг11-2—..рп)Е = 0, так как по построению Bk-ABk-i = — р*Е (k = 1, 2, ... , п), а Хг есть корень собствен- ного многочлена. Из полученного равенства (ХгЕ-Д)(2(Хг)=0 следует, что (ХгЕ-Д)х=0 или Дх = ХгХ, где х — любой столбец матрицы Q(Xi). Таким образом, любой ненулевой столбец матрицы Q(Xi) может быть принят в ка- честве собственного вектора матрицы Д, принадлежащего собственному значению Хг-. При нахождении собственных векторов матрицы А таким способом нет необходимо- сти, конечно, строить всю матрицу Q(Xi), а достаточно для каждого Xi (i= 1, 2, ... , п) ограничиться вычислением лишь одного ее столбца. В случае кратных собственных значений задача нахождения соответствующих собственных векторов усложняется. Наряду с матрицей Q(X) здесь может понадобиться привлекать к рассмотрению также матрицы, полученные дифференцированием ее по X. 3.4.4. Метод окаймления Идея окаймления, с которой мы встречались уже в проблеме нахож- дения решения системы линейных алгебраических уравнений (см. п. 2.3.3) может быть полезной и в проблеме нахождения собственных значений матрицы. Пусть нам необходимо найти характеристический многочлен Z)(X) = =£>П(Х) квадратной матрицы А=Ап порядка п. Трудность построения такого многочлена Оп(^) — IAn Xfnl возрастает с увеличением п. При п=2, например, эта задача решается еще совсем просто. Безусловно полезной была бы индуктивная конструк- ция, посредством которой по характеристическому многочлену Dn-i (^)
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 247 квадратной матрицы Дп-1 порядка п—1 можно было бы построить харак- теристический многочлен £>П(Х) матрицы Лп, полученной окаймлением матрицы Такую конструкцию и дает рассматриваемый метод. Итак, пусть матрицы Ап й An-i связаны между собой следующим образом: А=А An-i и(п~ч (3.4.2) п V^n О'пп Здесь у(п й— 6Zn2, • • • » ^п п—1)> ц(п 1)— (^1п, ^2п> • • • , &п—1 п) • Введем в рассмотрение матрицу Q(Z0 =Qn(X) = (Qij)', союзную для мат- рицы Лп—ХЕП. По определению союзной матрицы Qnn (А0 —Dn—i (X). Произведем разбиение на клетки матрицы Qn(Z) аналогично только что выполненному разбиению (3.4.2) матрицы Ап: > хп (Л)-- Здесь ft(n-D(X) = (Qln(X), Q2n(X), ... , Qn_i п(Л)), g(n-i)(^ = (Qnl(x), Qn2(X), .... , Qn n-i(20)', a Dn-iCk) есть характеристический многочлен матрицы An-i. Как известно из алгебры, между матрицей А и ее союзной матрицей С существует следующая связь: АС = |Л\Е. В нашем случае последнее равенство принимает вид (An—KEn) Qn (2i) =Dn QC)En или An-1—KEn-i y(n-l) (X) —Dn (У)Еп. Dn-i (20 _ ^nn 'h
248 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Отсюда, в частности, вытекают следующие равенства: (4nrl-XE„-i)gM (X) +u^-i)Dn.i (X) =0, V(n-I)gr(n-1) (X) + (ann-X) Dn-1 (X) =Dn (A). Первое из этих равенств позволяет найти вектор g(n“f)(X), после чего второе из них дает возможность построить интересующий нас характери- стический многочлен Dn(X) матрицы Ап. При этом обычно первое из упомянутых равенств переписывают в виде %g(n-i) (х) = A n-ig^ (X) (X) и вектор g(n-1)(X) находят последовательно по слагаемым путем сравне- ния коэффициентов при одинаковых степенях % в правой и левой частях последнего векторного равенства. Начинают этот процесс с коэффициен- та при Хп-2 в £(П-1)(Х), равного, очевидно, вектору Таким образом, исходя из непосредственно вычисляемого характери- стического многочлена Z)2(X), можно последовательно находить много- члены £>з(Х), О4(Х), ... , Z)n-i(X) и jDn(X)=D(X). 3.4.5. Эскалаторный метод Этот метод также носит индуктивный характер и представляет собой совокупность правил, посредством которых по известным собственным значениям и собственным век- торам матрицы An-i и ее транспонированной можно построить уравнение, корнями кото- рого будут являться собственные значения матрицы Лп, полученной окаймлением мат- рицы Ап-1, а затем по найденным собственным значениям матрицы Ап найти соответ- ствующие собственные векторы этой матрицы и ее транспонированной. В отличие от рассмотренного выше метода окаймления эскалаторный метод требует на каждом этапе фактического решения соответствующего характеристического уравнения. Для простоты изложения идеи метода рассмотрим только случай симметричной мат- рицы, при этом будем предполагать, что все ее собственные значения различны. Пусть симметричные матрицы А=Ап и An-t связаны соотношением (3.4.2), при этом вектор-столбец цС71-1) получен транспонированием вектора-строки iH71-1). Будем считать собственные значения матрицы A n-i и соответствующие им ортонормированные собственные векторы х(г)= (xi , х2 ;... , Xn-i) (i=l,2,..., п— 1) известными. Для них справедливо равенство n—i^n — i Хп — 1Ап — 1, (3.4.3)
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 249 где Собственный вектор у матрицы А=Ап станем искать в виде (3.4.4) где — некоторый (n—1) -мерный вектор-столбец, а а —число. Учитывая равенства (3.4.2), (3.4.4), из требования получаем: Ап—iXn-i^n = XXn—iz(n Ц, v(n-^Xn-iZ(n-^+aann =%a. (3.4.5) (3.4.6) Уравнение (3.4.5) с учетом равенства (3.4.3) может быть записано в виде Хп—1АП-iz<n = ХХп—tz(n *). Умножая последнее уравнение на матрицу X'n-i слева и учитывая равенство X'n-iXn-i = £n-i (условие ортонормированности собственных векторов матрицы An-i), находим Отсюда находим вектор г*71-1); 2(77“i)=a(XEn-i-An-i)“1X'n_iu(71-1). (3.4.7) Подставим это выражение для в равенство (3.4.4): Xn-i(hEn-i—An-i) 1 X'n-iUSn Ч Так как собственный вектор матрицы определен с точностью до постоянного множителя, то мы можем выбрать а произвольным, отличным от нуля числом. Тогда последнее ра- венство дает нам возможность найти собственный вектор матрицы А=Ап, принадлежа- щий ее собственному значению Л, если,, конечно, последнее известно. Значение же Л можно найти из уравнения (3.4.6), если подставить туда вместо вектора г(п~1).его выражение по формуле (3.4.7). Произведя после такой подстановки сокращение на а=#0, можем записать: v(n ^Xn-i(^En-i—An—i) 1 Xfn-iU(n —Ann.
250 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Так как вектор-столбец и^п~^ получен транспонированием вектора-строки гЛ7*-1), то в скалярной форме это уравнение принимает следующий вид: —— X- Опп. Последнее уравнение обычно называют эскалаторной формой характеристического урав- нения матрицы А=Ап, полученной окаймлением матрицы An-i. Найдя корни этого уравнения, мы получим все п собственных значений матрицы Ап. Процесс разыскания корней эскалаторного уравнения матрицы Ап значительно облегчается тем обстоятель- ством, что они отделены известными собственными значениями матрицы Ап-с имеется точно один корень A<Xi, точно один корень между каждой парой if+i (i=l, 2, ... , п—2) последовательных собственных значений матрицы An-i и точно один корень Х>ЛП. Действительно, при изменении X от —оо до левая часть эскала- торного уравнения убывает от 0 до — оо, при изменении А, от A,i до А-г она убывает от 4-оо до —оо и т. д., при изменении X от до 4"°° левая часть рассматриваемого урав- нения убывает от 4-об до 0. Правая же часть этого уравнения всюду линейно возрастает. Это и доказывает разделенность корней эскалаторного уравнения. Такое обстоятельство значительно облегчает задачу вычисления собственных значений матрицы А, которые обычно находятся по методу Ньютона. Эскалаторная форма характеристического урав- нения удобна для применения метода Ньютона, так как вычисление значений функций И f (А,) —Л йПп Х(0)2 А,—А»г . (и(п~1), х(г*))2 нужно производить по очень близким формулам. f 3.4.6. Метод ортогонализации Этот метод, подобно методу Крылова, основан на построении равной нулю линейной комбинации векторов, полученных последовательным ите- рированием с помощью исходной матрицы А произвольного вектора с(°)у=0. Однако если в методе Крылова построение такой линейной ком- бинации связано с решением системы линейных алгебраических уравне- ний, то в рассматриваемом методе для этого применяется процесс орто- гонализации. Как и знакомый уже нам метод ортогонализации решения систем линейных алгебраических уравнений (см. п. 2.5.1), излагаемый здесь метод ортогонализации решения проблемы собственных значений матрицы предполагает предварительное построение системы взаимно ортогональных векторов. Построение таких векторов ведется последова- тельно.
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 251 По исходному вектору с(°)=^=0 и его итерации Лс<°) строим вектор c^=Ac^—g^\ ортогональный к вектору с(0). Это всегда можно сделать. Условие ортого- нальности с<°)) =0 позволяет подобрать нужный коэффициент gio: (ЛсОТ, с<°)) gio= ———и------. (с(°), с(°)) Если окажется, что = 0, то это будет означать, что векторы с<°) и Л с<°> линейно зависимы. Тогда многочлен <Pi (X) =%—gio будет минимальным аннулирующим вектор многочленом матрицы Л, так как с<°)=^=0, а ф1 (Л) = (Л —giof) с(°)==0. Корни такого многочлена, как мы знаем, являются собственными значе- ниями матрицы. Если же с^#=0, то строим вектор Л^1) и составляем но- вый вектор С® = x7(l)_g21^(l)_^r207(0)> ортогональный к векторам и с<°). Требования ортогональности (с(2), c(i)) =0 и (с<2\ с<°>) =0 дают нужные коэффициенты g2i и g20: (Л71), 7(D) (Лс(0), 7(0) £21 = = =-----, £20 = = ~. (fW, d1)) (с(0), с(0)) Если построенный вектор с® будет нулевым, то равенство O^^-g^-^o) или 0= [(A—g2lE') (Л— gioE)— gzoE]cW будет давать нулевую линейную комбинацию Л2с(0)— (g10+g2i) Лс(°)— (gw—gugio) с(0)=б
252 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ векторов А2с(0\ с<°). Тогда многочлен Фг(М = (А,—g2i) £ю) —£20 = (X—£21)(^) —620 будет делителем минимального многочлена матрицы А и его корни, сле- довательно, будут собственными значениями этой матрицы. Если же окажется, что с(2)=И=0, то процесс ортогонализации следует продолжить. Пусть выполнено т—шагов процесса ортогонализации и по исход- ному вектору с(°)=#0 построены ненулевые векторы ... , удовлетворяющие условиям сО))=0 при i=£j (i, j=0, 1, 2, , m— 1). Тогда составляем вектор c№ = Ac<™-V--gm m-2C(m-^—. : —gmoC(Q\ при этом коэффициенты gm m_if gm m_2, ... , gmo подбираем так, чтобы этот вектор был ортогонален к каждому из векторов с<°), с^\ ... , с(т-У. Требования ортогональности (с^т\ с^))=0 (г = 0, 1, 2, ... , m—1) дают нужные нам коэффициенты gmi- gmi=^—zi—=—- G’=0, 1, 2, ... , т— 1). (^‘), с(*)) Одновременно с построением векторов с(0>, с*1), ... , с<т) строим много- члены фо(М = 1> <Pi(M = (^—£ю)фо(М> ф2(Х) = (X—£21)<Pi (^) —£гофо(^), фз(Х) = (Л—£з2)/Р2(^)—£з1ф1(М—йзофо(^), фт(^) == т—1)фгп—1 (^) §тп тп—2фт—2 (А-) . . . ^тОфо(^)* Поскольку в рассматриваемом n-мерном векторном пространстве имеется не более п взаимно ортогональных векторов, то на каком-то т-м (/п^п) шаге процесса ортогонализации обязательно получим нулевой вектор с^т\ Тогда равенство 0 = Лс(т-1)__gm m-.lC^-^—gm тп-2С^-2У—. . .—gmoC<°) будет означать линейнук? зависимость векторов с<°), Ас(°), А27<°), ..., А™№.
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 253 Поэтому соответствующий многочлен фтп(Х) будет делителем минималь- ного многочлена матрицы А. Если такое обстоятельство встретится лишь при т=п, то многочлен фп(%) будет являться собственным многочленом матрицы А. В случае же мы будем иметь лишь делитель собствен- ного многочлена и сможем, вообще говоря, найти лишь, часть собствен- ных значений матрицы. Для отыскания недостающих собственных зна- чений в этом случае приходится брать новый начальный вектор. Его вы- бирают ортогональным к векторам с(°>, с^\ ... , с^т~^ и весь процесс повторяют заново. Система взаимно ортогональных векторов £<4 ...» построенных по методу ортогонализации при разыскании минимального аннулирующего вектор с<°) многочлена фт(Х) матрицы Д, может быть использована и для нахождения собственных векторов этой матрицы. Пусть Хг- — корень многочлена фт(Х). Подобно тому, как мы поступаем при нахож- дении собственных векторов в методе Крылова, будем искать собственный вектор матрицы Д, принадлежащий данному собственному значению Xi, в виде линейной ком- бинации векторов с<°), ... , 7(i)=Pii7(wi-1)4-₽i27(7n-2)+.. .+Pimc(°). Коэффициенты Pij (/ = 1, 2, ... , иг) подберем так, чтобы удовлетворить условию д7(о=Хх(г'). Умножая записанную линейную комбинацию на матрицу А и учитывая равенства Дс<^ = с(*+1Н-£ж jC(J)+gj+i . .+gj+i ос(О) (/=0, 1, 2, ... , т— 1) и требование Дх(г') = Хг-х(г’\ получим: Xi (pi 1^-1)+ pi27<™-2)+. . .4-pim^°)) = ==Pil(^fm m—2^^m—“F + Pi2(C<m-1)+^m-l m-2^m-24^m-l m-3C<m-3)4-. . (Д0))+ + Pi3(?<W-2)+gm-2 m->-H^m-2 . .+gm-2 (Д0)) + + Рггп(^1)+^1ОС“°)). ИЛИ (XiPim Pil^fmO Pi2^m — 1 0 • • • Pim^fio) C(°)~F (Xt‘Pi m — i Pil^fml Рг2^тл —1 1 • Pi m — i&2i Pim)C^"F H”(XiPi m—2 Pil^?n2 fii2§m — 1 2 . .. Pi m —2§32 Pi m — H” (XfPii — Piigm m — 1— Pi2) =
254 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ В силу линейной независимости векторов с(0\ с(1), ... , c<m~v из последнего равенства следует, что Au’Pim Pil^fmO Pi2^m —1 0 . . . Pim^fl0==0$ А^гРг' т — 1 Pil^jfml Рг'2^т —1 1 . •• Рг m — ig2l _Рг'т==0, Аи'Рг т — 2 Рг1^т2 Рг’2^т — 1 2 ••• Рг m — 2g32 Рг т —1==0, > А-гРг’2 Pil^fm т — 2 Рг2^т —1 тп — 2 РгЗ==О, ^г'Рг! РгЧ^гп тп — 1 Рг2==0« ) (3.4.8) Так как собственный вектор матрицы определен с точностью до постоянного множи- теля, то можно положить, например, Рм = 1 (коэффициент Ри должен быть отличен от нуля, ибо в противном случае, как следует из равенств (3.4.8), были бы равны нулю и остальные коэффициенты рг-, (/ = 2, 3, ... , т) составляемой линейной комбинации). Теперь из уравнений (3.4.8), начиная с последнего, можно последовательно находить и все остальные коэффициенты Рг2, Ргз, ...» Рг?п этой комбинации. Первое же из урав- нений (3.4.8) при этом не используется. Оно является следствием остальных и условия фт (А«г) == 0. Проверим последнее утверждение и заодно получим выражения для искомых коэф- фициентов Рг, (/=1, 2, ... , т). Для этого введем в рассмотрение следующие много- члены: фо(Х) = 1, ф1 (А,) = (А, gm т — 1) фо (А,) , фг(А,) = (А, gm — 1 т —2)Ф1(Х) gm т — гфо(Х), фз(А/) = (А« gm —2 т — з)фг(А) gm — 1 т — зф1(А/) gm т — зфо(А,), фт —1(А>)— (А» ^21) фт — 2 (А/) £з1ф?п —з(Аг) ... £т1фо(А,), Фт (А-) = (А/ gю) фт —1 (А,) ^2офт —2 (А/) . . . ^тофо (А,) . Построенный так многочлен фт(А.) представляет собой лишь иную форму записи много- члена фт(А-). Из уравнений (3.4.8), начиная с последнего, последовательно находим (положив Pii = 1): Pit == 1 == фо (Au), Рг2== (Au gm т — 1) Рг 1 = (Au gm т — 1) фо (Au) = ф1 (Au) , Pi3== .(^i gm — 1 m —2) Рг‘2 gm т — 2Рг1=== == (^>i~^~gm — 1 т — 2')ф1(Аг) gm т — 2фо (A^f ) = фг (Au) , Ргт— (Au ^21)Рг т — 1 £з1Рг т — 2 ... £т1Рг1 — = (Au ^21) фт — 2 (Au) ^31фт — 3 (Au) ~'• • •” £т1фо (Au) ==фт —1 (Au) . Первое же из равенств (3.4.8) при этом принимает тривиальный вид: (Au §\о)фт — 1 (^г) ^2офт—2 (Au) • • ^>тофо(Аи) =0 ИЛИ фт(Аи) —фт(Аи) —0.
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 255 Таким образом, собственный вектор x(i) матрицы Д, принадлежащий собственному зна- чению Ki, может быть записан в следующем виде: Х(О = 'ф0(Хг)с(т-1)+ф1(Хг)с(т-2)+. . . + г|)т-1(Хг)с(°). (3.4.9) Изложенный выше подход к нахождению собственных векторов матрицы в методе ортогонализации близок рассмотренному ранее (п. 3.2.3) способу нахождения собствен- ных векторов матрицы в методе Крылова и применим при любом т^п. В случае же т = п можно предложить, например, и несколько иной путь к решению этой задачи, более близкий по идее к подходу, характерному для регулярного случая метода Дани-, левского (см. п. 3.3.2). Непосредственно проверяется, что система векторных равенств c^=AcW-glQcW, ^2)=i47(i)_^217(i)_g20^o)j С(П-1) = ДС(П-2)—gn-l n-2C(n“2)—gn-l n-3C(n“3) —. . gn-1 oC<°), 0 = с(п) = Дс(п-1)—gn n-i^n-^ — gn n-2^n-2) — ..—gnOC(^ равносильна матричному равенству AC—CG = 0, (3.4.10) где C=[c(°), cd), ... , c^-1)], G = £10 1 0 g20 g2l 1 £30 g3i g$2 gn-l 0 gn — 1 1 gn-l 2 gnO gnl gn2 0 0 gn n—i _ Так как векторы c<°\ cd), ... , c(n~!) линейно независимы, то существует матрица С-1 и последнее матричное равенство может быть приведено к виду Д = ССС-1. Значит, матрица А подобна матрице G и собственный вектор xd) матрицы А, принадле- жащий собственному значению Хг-, связан соотношением х^ = Су^ с собственным вектором t/d) = (у^\ ytt\ ... , уН))' матрицы G, соответствующим тому же 12 Tt собственному значению (см., например, п. 3.3.2). Собственные же векторы матрицы G находятся просто. Действительно, записав равенство Gy^ = Kiy^ покоординатно:
256 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ 12 3 n 1 y{i. )+^21«/(J)+^31^(i)+. . -+gniy{i} = hiy{i\ 1 Z О 7T Z 2 3 П 3 y(i) . +gn n-ty^^iy^ n — 1 n n и положив г/(О=1, мы сможем найти последовательно и остальные координаты у^ , уЮ $... , у& собственного вектора у№ матрицы G: y(i) .=\|)j(Xi) (/=1, 2, ... , п— 1). п — J При этом оставшееся неиспользованным равенство £10^/(г)"^"£20Лг)^“• • •^rgnoy^ = ^iy(-y 12 П 1 обычно служит для контроля вычислений (оно является следствием остальных равенств И УСЛОВИЯ фп (Хг) ='фп (Хг) =0). Итак, в случае т=п интересующий нас собственный вектор х^ матрицы А может быть записан в виде 7(О===С^О = г|)л_1(Хг)7(°)+1|)п_2(Хг)с(1)+. . . + 1|)о(Хг)7^-Ч уже знакомом нам по формуле (3.4.9). Изложенный выше метод ортогонализации решения проблемы соб- ственных значений матрицы значительно упрощается для случая сим- метричных матриц. В самом деле, для таких матриц равенства можно переписать в виде откуда в силу условий ортогональности (с^\ с^-^) =0 (0<&^л)
Q 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 257 непосредственно следует, что j = 0, если /О’—1. Поэтому для сим- метричных матриц равенства С(г+1) = Дс(О—gi+i 'cW—gi+i —g-i+1 07°) (t=0, 1,2,..., m— 1; m^n) принимают вид с(Ж) = Лс<г’)—gi+i iC^—gi+l i-lC^ и вид многочленов фг-И (^) — gi+i г)фг(^) gi-t-1 г—1фг—1 (^) • ♦ • gi+1 Офо(^) (Z=0, 1,2,..., т— 1; т=Сл) также упрощается: фг+i (А*) == (X gi+l г)фг (A*) ^fi+l г—1фг—1 (^) ♦ Это позволяет значительно упростить и вычислительную схему метода. Поэтому метод ортогонализации в применении к симметричным матри- цам называют обычно методом минимальных итераций. Подобного же упрощения можно добиться и для случая несимметрич- ной матрицы, заменив процесс ортогонализации процессом биортогонали- зации, который мы сейчас и рассмотрим. Изберем два начальных вектора и &<°) и по ним построим векторы сЮ=Ас<®— и такие, чтобы выполнялись условия (?(1), 7<°)) = (71), 7°)) =0. Если исходные векторы с(°) и &<°) не были ортогональны, то искомые век- торы и ЬЮ всегда можно построить, при этом (47°), 7<°)) (7о), 4'7(0)) £ю— zz = = ———zz-------—hio. (с(0), &(0)) (с(0), &(0)) - i V Будем предполагать условие (с<°), &<о))у=0 выполненным и по найденным векторам с(*) и построим новые векторы
258 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ с(2)=A cW-g21cW-gwc(0) и 6<2)=a 'bW—h2i~bW—/г2о6<°> такие, что (с(2), 6(D) = (&, 6(°>) = (ТА2), с<0) = (6(2>, 7(°)) =0. Такое построение возможно, если векторы c(D и 6<*> также неортогональ- ны, при этом получим: (Дс<‘), 6(D) (c<D, Л'6<‘>) g2i=------—---—----- = ------------- = «21, (c<d, ьт) (c(D, bw) (Де»), 6(«>) (с(‘>, Л'>) g2S)= -------------- = -----“----- ---- = (с<°), 6<°)) (с(°), 6(°)) (7(1), 6(1)4-/г106(0)) _ (7(Р, 6(D) _ (Д7(°)—giocW, 6(D) (7(°), 6(°)) (с(°), 6(°)) (с(°), 6(0)) ~ (Дс(°), 6(D) (с(°), A '6(D) = -----=---—----- = ----=----—---~ =^20. (с(0), 6<°)) (с(°), 6<°)) Предположим, что (7<°), 6(°)) #=0, (cd), 6(D) #=0, (с<2)( 6(2)) ^0, и продолжим процесс биортогонализации. Пусть подобным же образом построены векторы 3°), cd),..., 7<о, 6(°),6(1), ...,6<D, такие, что (60), 7<ft))=0 (j^k) и (6О),7б))^0 (j,k=O, 1,2, ...,i). « .Тогда следующая пара векторов с<{+0, 6(’+D находится по формулам
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 259 &(Ш) = Д^(г)_/1.+1 г.&(г)-йгЧ1 . -hi+i , при этом коэффициенты gi+i j и hi+i j (/ = 0, 1,2,..., Г) выбираются такими, чтобьгвыполнялись условия (F(H1) J(j)) = (6(г+1)? 7о-)) =0 (/ = 0, 1, 2, . . . , Удовлетворяя эти требования, находим, что < (Лс<’>, &о>) (с«, А'ЬОУ) gi+i j= ~ ~ = z: г (с«), Ь<») ((&>, bW) (с<Я b(}+»+hj+i jb(i>) (с<Я, hi+1 i при j=i, (c(0, b&) —------=---- при j=i— 1, 0 при j<Zi—1, (A'b&, c«) _ (F«, Лс(») _ (ft», cO+i)4-gH1 jC(b) hi-±i j1— ~ ~ ~ ~ ~ ~ (cC«, 6»)) (c(j), &(>)) Si+i i при j=i, --------=----- =gi+l i-1 при j — i— 1, (cV-v, b^-^) 0 при /Ci—1. Таким образом, равенства (3.4.11), посредством которых строятся биортогональные системы векторов, значительно упрощаются к прини- мают следующий вид: ^+1)=Д^)—gi+i г^—gi+i i-icV-V, b(i+1)=A'b(i)—gi+1. ib^—gi+i i-ib^-i>.
260 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ При этом такие построения будут возможны, если найденные на преды- дущем шаге процесса векторы с^\ удовлетворяли требованию (сО), &(*))у=0. Это требование может нарушаться либо в случае, если век- торы и &(*)у=0 окажутся ортогональными (такой случай свиде- тельствует о неудачном выборе исходных векторов и Ь^ и его можно избежать, выбрав новые начальные векторы), либо тогда, когда хотя бы один из векторов с^\ Ь& окажется нулевым (в этом случае мы сможем найти минимальный многочлен матрицы А или его делитель). Если сте- пень минимального многочлена матрицы равна т, то будут линейно за- висимыми векторы с<°), Лс<°), Л2с(°), ... , Атс^ и векторы А'Ъ@\ А'2Ь^\ ..., А'тЫ^ (минимальные многочлены матриц Л и Л', как известно, совпадают). Поэтому процесс биортогонализации должен обязательно закончиться не позже, чем через шагов, и в случае, если хотя бы один из векторов № или Ь^ окажется нулевым, мы получим линейную зависимость между векторами с^\ Ас(°>, Л2с<°), ... , Л^(°) или векторами A'b(°> A'2b(°\ ... , А'*Ь<°). Тогда, как и в случае процесса ортогонализа- ции, мы сможем последовательно найти минимальный многочлен мат- рицы Л или его делитель по следующим формулам: фо(А,) = 1, Ф1(М = (А—£ю)фо(А), фг(А.) = (А—g2i) Ф1 (А,) —£гофо(А), фз(А) = (А—£з2)ф2(А) —£з1ф1 (А), фг (А/) — (Л £г . г—1)фг—1 (А-) £г г—2фг‘—2(А*) « Метод минимальных итераций и его обобщение на случай несиммет- ричных матриц, связанное с процессом биортогонализации, были впервые описаны американским математиком Корнелием Ланцошем. Поэтому такой способ решения проблемы собственных значений часто называют также методом Ланцоша. 3.4.7. Метод Хессенберга Этот метод, так же как метод Крылова и метод ортогонализации, основан на отыскании нулевой линейной комбинации векторов, получен- ных итерированием; начального вектора (Я с помощью данной матри- цы Л. Построение такой линейной комбинации по методу Хессенберга* осуществляется следующим образом.
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 261 Возьмем произвольный вектор с(°>У=0 и по нему построим вектор 7(1)=л7(°)—g-107<°), при этом коэффициент gw подберем так, чтобы первая координата век- тора d1) была равна нулю.^По векторам с<°) и строим, далее, вектор 7(2)=A cW-gzicW-gzo^ выбирая коэффициенты g2i и g2o из условия равенства нулю двух первых координат вектора Подобным же образом продолжаем процесс по- строения векторов с^\ первые i координат которых будут нулевыми. При этом каждый последующий вектор получается итерированием матри- цей А предыдущего вектора с последующей коррекцией результата по- средством добавления подходящей линейной комбинации всех предшест- вующих векторов, т. е. /ПЛ Л „(г+1) W £(г+1)— (0, 0, , 0, Ci+2 , Ci+3 , • . . , Сп ) = = Ac^—gi+l iCW—gi+i . .“gn-l (Л Такой процесс построения по вектору с<°> векторов с^\ с<2\ ... , с*71-1) не всегда удается осуществить до конца. Если окажется, что у вектора (г+1) равна нулю координата сг+2 , то естественное течение процесса нару- шается. Будем пока иметь в виду лишь регулярный случай, т. е. будем предполагать, что у, (°) Л (п-i) , п С1 :?=С), С2 =#0, ... , сп =г=0. Тогда векторы с(0>, с(1), ... , с(п-1> будут, очевидно, линейно независимы и матрица С= сЧ ... , ?"-*)] будет неособенной. При этом вектор № (/=0, 1, 2, ... , п) может быть представлен в виде 7(г)=фг.(Л)7°), где, как и в случае метода ортогонализации, многочлены <рг(Х) строятся последовательно по формулам
262 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ ф0(Х) = 1, <Р1(Х) = (X—£ю)фо(А,)» ф2(^) = — &21)ф1(М —§2Офо(^), фз(М = (Z—^32)ф2(^)—£з1ф1(^)—£зОфо(^), (3.4.12) фг(А,) = (А,—gz 1-1)фг-1(Х)—gi г-2фг-2(Х)—. ..—£гОфо(А,). Так как векторы с<°), с^\ ... , линейно независимы, то равенство (рДД)В°)=0 невозможно при i<Zn. Полином же фп(^) по построению удовлетворяет требованию фп(4)7(О)=7(п)=о. Так как, кроме того, степень этого многочлена равна п и его старший коэффициент равен единице, то он совпадает с собственным многочленом матрицы А. Таким образом, проведя в регулярном случае п шагов метода Хессен- берга, мы сможем построить собственный многочлен данной квадратной матрицы порядка и. Остановимся несколько подробнее на организации вычислений при нахождении коэффициентов gij (J<i, 4=1, 2, . .. , п). Как и в случае метода ортогонализации, система векторных равенств g10c<°), C^ = Ac^—g2iC^—g20C^ n-2C^-gn-l n-3^(n-3)-. . -gn-1 0С(°), 0 = ^) = Лс^-1)—gn n-^n~i}—gn .п-2^п~2)—. • gn<^ равносильна матричному равенству (3.4.10). Равенство AC—CG = 0 позволяет последовательно находить коэффи- циенты gij (j<i, /=1, 2, ... , п) составляемых линейных комбинаций и координаты Ci (Z= 1, 2, ... , п; /=0, 1,2,..., п— 1) векторов с^\ при этом для удобства вычислений его обычно представляют в форме
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 263 И1с)(-=о) =0’ где прямоугольные матрицы (Л | С) и имеют следующий вид: (0) (1) бп-1) Сп Сп . . . Сп —glO —g20 • . . —gnO — 1 —g21 . . . —gnl gn n—i До начала вычислений мы знаем лишь матрицу А и первый столбец матрицы С. Умножая первую строку матрицы (А | С) на первый столбец матрицы (—) и пРиРавнивая результат умножения нулю, мы полу- чим линейное уравнение для нахождения коэффициента gw. Точно так же умножение остальных строк матрицы (Л | С) на первый столбец матрицы / С \ ( —— I позволяет последовательно определить координаты , № \ - (j / 1 1 2'3' TL вектора После этого умножением матрицы (Л | С) на второй столбец / С \ и матрицы I —— I мы последовательно найдем элементы g2i, g2o, с(2)> \ --(j / 3 * с(2)- Далее производим последовательное умножение матрицы (Д|С) на остальные столбцы матрицы (д') • Вычисления по такой схеме условно обозначим следующим образом:
264 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Иногда вычисления организуют также по схеме заменив умножение строк на столбцы умножением столбцов. Такая схе- ма, несмотря на двойную запись элементов матрицы С, оправдывает себя простотой действий при работе на настольных машинах. Найдя значения коэффициентов gn (j<i, *=1, 2, ... , и), мы сможем по формулам вида (3.4.12) последовательно записать собственный много- член фп(Х) исходной матрицы А. Этот многочлен можно найти и иначе, если учесть, что (см. равенства (3.4.10)) матрица A = CGC~i подобна матрице G. Так как собственные многочлены подобных матриц совпадают, то можно искать собственный многочлен матрицы А по мат- рице G. Учитывая специальный вид этой матрицы, для нахождения ее собственного многочлена с успехом можно воспользоваться методом Крылова. Отметим, кстати, что равенство A = CGC~i позволяет также истолко- вывать метод Хессенберга как метод приведения данной матрицы А пре- образованием подобия С~*АС с треугольной матрицей С к матрице спе- циального вида giO g%) йзо • • • gnQ 1 g21 • • • gni G — 0 1 g32 • • • gn2 _ 0 0 0 • 4 • gn собственный многочлен и собственные векторы которой находятся сравнительно просто. Это обстоятельство сближает метод Хессенберга с методом Данилевского. В частности, в регулярном случае метода Хес- сенберга собственные векторы матрицы А можно находить, как и в мето- де Данилевского, опираясь на известную связь соответствующих соб- ственных векторов подобных матриц (см., например, п. 3.3.2). Как мы уже отмечали и ранее (см. п., 3.4.6), после вычисления собственных значений матрицы G соответствующие собственные векторы этой матрицы нахо- дятся просто из условия Gy=ky. Остановимся теперь вкратце на рассмотрении исключительных слу- чаев, которые могут встретиться при реализации алгоритма Хессенберга.
§ 3.4. ДРУГИЕ МЕТОДЫ ПОЛУЧЕНИЯ СОБСТВЕННОГО МНОГОЧЛЕНА МАТРИЦЫ 265 Предположим, что после выполнения f-го шага процесса оказалась равной нулю (кроме первых i координат) также и (Z-f-l)-n координата вектора №. Тогда естественное течение процесса нарушается. Если при этом будут нулевыми и все остальные координаты этого вектора, то процесс построения векторов № по данному начальному век.- тору заканчивается, так как уже получена искомая нулевая линейная комбинация векторов ?°), А№\ 42?°), ... , А~№. Многочлен при этом обладает свойством (Д)^°)=0 и будет, следовательно, делителем собственного многочлена матрицы А. Его корни дадут нам, вообще говоря, лишь часть собственных значений этой матрицы. Разыскание же остальных собственных значений ее свя- зано, как и в случае других методов подобного типа, с выбором нового начального вектора. Если же хотя бы одна из координат номера />/-}-1 вектора № отлич- на от нуля, то это является свидетельством неудачного выбора векто- ра d°). При этом, правда, не обязательно нужно изменять начальный вектор. Процесс можно продолжить. Но, заполняя в матрице С столбец для вектора следует поставить нули только на тех местах, на кото- рых за счет добавления линейной комбинации предшествующих столбцов можно фактически добиться нулевых значений. Если в результате даль- нейшего продолжения процесса при этом мы получим п ненулевых век- торов с<°>, с(1), ...» то они, очевидно, также будут линейно незави- симы и посредством матрицы С, составленной по ним, можно будет осу- ществить преобразование подобия матрицы А в новую матрицу G, про- блема собственных значений которой решается сравнительно просто. Матрица С в этом случае уже не будет треугольной, но будет получаться из треугольной перестановкой столбцов. 3.4.8. Метод Самуэльсона Укажем еще на один метод нахождения собственного многочлена матрицы, очень близкий по идее методу Крылова. Вычислительная схема метода Самуэльсона была первоначально получена автором посредством специального преобразования системы линейных дифференциальных урав- нений первого порядка с постоянными коэффициентами, связанной с данной матрицей Л, к одному дифференциальному уравнению порядка п. Мы рассмотрим здесь лишь краткое алгебраическое обоснование этой схемы.
266 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Изберем произвольный ненулевой вектор — Г с(°) 1 с(°)= (с<°\ с(°), . . . , С(°) )'= -1 k 1 2 ’ П ' [ g(0)J и будем итерировать его посредством исходной матрицы А: - _ г с(1) 1 - — Дс(°)=с(1)= (С(1) С(1) ... £(!))'= _1 , 42с(°) = с(2)=(с<2) с(2) .... с(2))'= ' 1 2 ’ п 1 L g(!) J 1 2 п ' Дпс(0) = с(п)= /с(п) £(пГ 4 1 2 Г с(п) 1 с<п))' = -J п [_ о(п) Матрицу А=Ап путем разбиения на клетки представим в следующем виде: А —А п — #11 #12 #1П #21 #22 ... #2 71 # n 1 #п2 ... #?гп #11 у(п-1) В п — 1 где #(n-1)=(#i2, #1з, . .± , #щ), u(n"1)=(#2i, #з1, #711) '. Тогда результат /-й (/=1, 2, ... , п) итерации вектора с<°) матрицей А может быть описан посредством следующих равенств: Отсюда последовательно находим c(^ = a11c(j-i)4-^(n-i)^j-i) = aiiC(j-i)^w(n-i)y(n-i)C(j-2)_^ufn-i)£n_1g(j-2)—:. ti 1 1 = #iic<^-1)4-u(n-1)y(n-1)c(J-2)4-u(n-1)Bn_i?(n-1)c(j-3)+u(n-1)B2 = 11 1 П — 1 = .. . = a1ic(j-i)4-u<n-1)y(n-1)c(i-2)+#(n-1)Bn_iy(n-1)c(j-3)+.. .+ +u(n-4)BJ-2 g(°) n — 1 1 n — 1 ° ИЛИ ^(n-i)^j-i p-(0)~c(j)——u(n-1)y<n_1)cO’_2)—и(п~1^Вп-^п~^с(з-з)— n-l 11 1 1 —(/=1, 2, ... , n). (3.4.13) Таким образом, мы получаем систему п линейных соотношений между с<п), cCn-i), , С(О)> которую можно охарактеризовать матрицей 1 1
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 267 и<п~Ч j О О i о о — 2 I и(п-^Вп-1 I о О ...........I • 4 п-1 * Lu<w-1>Bn-i | 1 —ли о о о — и(П-1)у(П-1) 1 --#11 Л — t^n-l^n-!) — Л11 —u(n-i)^(n-i) • • • » — ^п—2— (3.4.14) Исключив из этих п равенств координаты вектора g<°>, мы найдем одно линейное соотно- шение между числами сС"-1), .... с^\ Коэффициенты этого соотношения будут по- стоянными числами, не зависящими от выбора начального вектора с<°>. Для собственного многочлена Р(Л) по теореме Гамильтона — Кели справедливо ра- венство Р (Л )= О. Умножив это матричное равенство на вектор с(°), можно, в частности, снова получить линейную зависимость между числами с^\ сС»1-1), ... , с<°) с постоянными коэффициен- тами 1, —Рь —Рг, ...» —Рп, не зависящими от выбора начального вектора с(°): cOO-picO»-*)—р2£(”~2)—..рпс^°) = О (мы выписали здесь лишь связь между первыми координатами векторного равенства Р(Д)^о) = о). Приведенное соотношение между числами с^п\ , с<°) будет совпадать с со- 11 1 ответствующим соотношением, получаемым в процессе исключения из равенств (3.4.13) координат вектора g(0\ если матрица А такова, что числа с<°>, с*1), ... , со*-1) можно считать независимыми переменными, т. е. если им можно независимо друг от друга при- давать произвольные значения, подбирая подходящим образом вектор g(0), получаемый из вектора с(0) усечением первой координаты. В этом случае сравнение соответствующих коэффициентов этих соотношений даст нам искомые коэффициенты собственного много- члена матрицы А. Таким образом, вычислительная схема метода Самуэльсона предполагает построение прямоугольной матрицы (3.4.14) и исключение из нее посредством элементарных преобра- — п — 1 зований вектора-строки ц(п~1)Вп_1. Тогда остальные элементы последней строки мат- рицы (3.4.14) будут давать, вообще говоря, коэффициенты собственного многочлена исходной матрицы А. § 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ НАХОЖДЕНИЯ СОБСТВЕННЫХ ЗНАЧЕНИИ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦЫ Этим параграфом мы начинаем рассмотрение так называемой частич- ной проблемы собственных значений, состоящей в определении обычно одного или нескольких наибольших по модулю собственных значений матрицы и принадлежащих им собственных векторов. Для решения такой проблемы разработано большое число методов, в основу которых поло- жены идеи- использования тех или других частных свойств собственных
268 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ значений и собственных векторов, например распределение по модулю и кратность собственных значений, ортогональность собственных векто- ров и т. д. Все методы, предназначенные для решения частичной проб- лемы, являются итерационными. 3.5.1. Степенной метод Для вычисления наибольшего по4 модулю собственного значения матрицы и соответствующего собственного вектора Этот метод позволяет находить наибольшее по модулю собственное значение матрицы и принадлежащий ему собственный вектор при помо- щи вычисления последовательности итераций произвольного вектора матрицей А до тех пор, пока в этой последовательности станет преобла- дающей одна составляющая в разложении упомянутого вектора по соб- ственным векторам матрицы. Качество указанного итерационного про- цесса существенно зависит от того, как входит наибольшее по модулю собственное значение матрицы в ее каноническую форму Жордана. Как мы увидим, процесс может усложниться и не привести к цели, если наи- большему по модулю собственному значению матрицы А будут соответ- ствовать нелинейные элементарные делители высокой степени. Поэтому мы остановимся на некоторых простых случаях степенного метода, когда вычисления, как правило, приводят к цели. В частности, мы будем пред- полагать, что элементарные делители матрицы А линейны. Такое пред- положение наверное будет выполняться в двух важных частных случаях: 1) матрица А — симметрическая, 2) собственные числл матрицы А раз- личны. Отдельно будет рассмотрен случай, когда элементарный делитель матрицы Л, отвечающий наибольшему по модулю собственному значе- нию, имеет вторую степень. Итак, пусть А — вещественная матрица, все собственные значения которой имеют линейные элементарные делители. Обозначим собствен- ные значения и соответствующие им собственные векторы матрицы А через ^1, ^2, • • • , Й • • • , Для определенности записи условимся, что собственные значения мат- рицы А перенумерованы в порядке невозрастания их модулей, т. е. IМI 2^ I ^21 . 2^ | |. Будем рассматривать случай, когда — наибольшее по модулю собст- венное значение, вещественное и простое, и имеют место неравенства IМ | М 2^||• (3.5.1)
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 269 Выберем произвольный ненулевой вектор у№ и с помощью матрицы А построим итерационную последовательность векторов F(1), F(2):...»y{k\... по следующему степенному правилу: . =AkyW (A=l, 2, ...). При сделанных предположениях относительно матрицы А ее собственные векторы образуют полную систему и, следовательно, мы можем записать: у^== CZ2-^2~F. • •~i~anXn* (3.5.2) Здесь аг — некоторые числа, среди которых могут быть и равные нулю. Предположим, что ai=#0. Если ai = 0 и это условие будет каким-либо образом выявлено, то выбор начального вектора у(°> следует изменить и добиться такого положения, чтобы а1У=0. Учитывая разложение вектора у<® по формуле (3.5.2) и принимая во внимание, что АкХг = *м Xi (i= 1, 2, ... , п), получим. =у4= cciA-i Xi-j~a2^2 X2~j“.. .-J-anknXn- (3.5.3) В рассматриваемом степенном методе о собственных значениях и собст- венных векторах матрицы А судят по последовательности векторов у№. С этой целью введем обозначения: 7к)=^\уг\...,у(пУ (^ = 0,1,2,...), Хр= (Х1р, %2р, • • • > Хпр)' (р= 1, 2, . . . , /1) и установим связь между компонентами векторов уЮ и наибольшим соб- ственным значением М- Из формулы (3.5.3) получим < Уг — 0*1 XilH-ОС2^»2 •^г2~Н« • • “|“ап^пХгп (i — 1, 2, . « • , м) . Пусть компонента xsi вектора %i отлична от нуля. В этом случае Уз )=PsAl 4"ps2^2 + • • .“FPsnA-п» (3.5.4) где Psi = aiXSi и Psi=#O.
270 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Отношение компонент у<к+ъ и у№ дает S S +Ps2^2+ +• • •4_P«n^n+1 W” • .+₽sn^ r+w|+- • -+y 6П1^^П Ы tv fe+l Psi Ysi==“₽r’ = (3.5.5) (3.5.6) Если k достаточно велико, то в силу (3.5.1), (3.5.5) и (3.5.6) получим, что ys =М+О(|ц2р), yW и, следовательно, в качестве М можно при больших k взять такое прибли- женное значение: Xi ,/fe+i) Уз (3.5.7) Обычно несколько компонент вектора Xt отличны от нуля, поэтому в фор- муле (3.5.7) можно вычислять отношения при нескольких значениях s и, если эти отношения в принятой точности вычислений оказываются по- стоянными, то это означает, что Xi вычислено с заданной точностью. Быстрота сходимости процесса в рассматриваемом случае определя- ется величиной ц2 (Im^I <1). Она может быть медленной, если |ц2| бли- зок к единице. При вычислении векторов у№ иногда может оказаться, что компо- ненты этих векторов быстро растут. Чтобы избежать этого нежелатель- ного явления, можно на каждом шаге нормировать получаемые векторы 1 1 умножая их, например, на числа —-----или —=------. При этом вме- l|t/W||i ll^llm сто последовательности у№ мы получим последовательность = где рй — один из нормирующих множителей. Теперь для получения Xi надо брать отношения компонент векторов AzW и
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 271 Рассматриваемый процесс дает возможность определить также соб- ственный вектор матрицы Л, отвечающий наибольшему собственному значению 2ц. Действительно»,, из (3.5.3) имеем yW=h\ . .+рЛ апХп]- (3.5.8) X 6Л ! V Если учесть, что |цг| <1 (1 = 2, 3, ... , п), то йз (3.5.8) следует, что при больших k с точностью до постоянного множителя в качестве собствен- ного вектора, отвечающего М, приближенно можно взять вектор y^k\ Когда матрица А симметрична, ’можно легко указать другой вычисли- тельный процесс, более быстро сходящийся к наибольшему по модулю собственному значению 2ц. Напомним прежде всего, что симметричная матрица А всегда имеет полную систему собственных векторов %i, Х2, и мы вправе эти векторы считать ортонормированными, т. е. такими, что для них выполняется равенство * (%i, Xj) —L 6гj (£, j 1,2,..., ft) . Составим скалярные произведения (z/<fe), у№) и (i/(ft+1), no- мощью (3.5.3) для них получим &h\ 7(ft)) =«2^+^^+.. . + a2nХ2П\ y(ft)) =a2X2fe+l + a2X2h+l + . . , + a2nX2h+l и, значит, =Х1+О(|иг|г>). („«>, jlW) Предположим теперь, что собственные значения матрицы А распре- делены по модулю так: | 2ц | > | ^г+11 | ^г+2 | | hn | И = 2Ц = • . • == hr. Здесь г означает кратность собственного значения 2ц. В этом случае фор- мула (3.5.3) верна, но она примет такой вид: _ Д — — — ft ' * п = (0ЦХ1“|“OC2^2“f“. • .~f~CXr^r) “f“CXr+Ar+l^r+l_F. •
272 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ I 1 . ! f По аналогии с формулой (3.5.4) можно записать Уз = PsiM r+Ar+14-.. где Psl= аЛ14"0С2^824". . .“bar-^sr, Psi~<Xi-^82 (r = /*+l, г4“2, . . . , м). Полагаем также, что psi¥=0. Если k достаточно велико, то для вычисле- ния получим формулу (fe-M) ^г=Х1+0(|Иг+1р). (3.5.9) Отметим, что сама формула (3.5.9) не дает возможности судить о крат- ности собственного значения М. Как и в предыдущем случае, в качестве собственного вектора матрицы Л, соответствующего собственному зна- чению Л1, приближенно можно взять вектор Исходя из различных начальных векторов у^\ мы, вообще говоря, придем к различным собст- венным векторам y^=Ahy^\ что даст возможность вычислить другие собственные векторы, отвечающие собственному значению Ль Рассмотрим также случай, когда матрица А имеет два наибольших по модулю собственных значения и эти значения вещественны и противо- положны по знаку. Будем считать, что собственные значения матрицы А распределены по модулю следующим образом: | Л11 = | Л21 > | Лз | | Л41 | Лп | и Л1 = —Л2. Тогда, в еилу формулы (3.5.3), получим ^(2Л)з=а1Л2Лх1+а2Л2лх2+азЛ2лх3+.. .+апЛ2/1хп = 1 Z «5 П =A.2ft(aiXi+«2^2) 4-аз^2ч^з+. . .+ап^2йхп, А м II/ ^+»=ai^+ixi+a^+lx2+a^+ix3+. • .+an^2ft+iXn = 1 Л и 7Т ^X2ft+1(aiXi—а2*2)+азХ2,+1Хз+.. .+ап№+1хп. 1 о 71 Отсюда видно, что векторы y(2k) и у№+1) одновременно нельзя использо- вать для определения Xi, ибо у этих векторов различные главные части, а именно: Z2/t(aiXi4-a2x2)—у первого и XiX2ft(aiXi—а2х2)—у второго
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 273 вектора. Однако в этом случае мы сможем определить X2, используя век- торы у^ и f/<2ft+2) или yW-V и (/<2fe+1). Действительно, при некотором р y(P)=^P)XP+^s3KP+.. .+psnV, О О Л 1 О 1Ъ где ==O£l^sl_|”( 1)^OC2^s2j Psi== CLiXsi (^* — 3, 4, . . « , /1). Если p взять равным 2k и 2k-[-2, то у компонент y&V и z/(2fe+2) главные час- ти будут равны соответственно X2ftp(2^ и X2 X2fe Р(2^+2), причем Р(2^ = Р(2^+2). То же самое можно сказать и о компонентах и у(2Л+1). Следова- тельно, (2М-2) (2^+1) s S Для нахождения собственных векторов, принадлежащих Xi и Х2= — Xi, целесообразно построить векторы = (Хз4“Х1)хз-|“. • -4“ 4-ocnX^-1 (Xn4-Xi)Xn = X^ [2aiXi4~O (| Цз|ft) ]» IV * 1) = 2&2(—Xi) ^2“Ь<ХзХk-1 (Х3—Х1)Хз4“. . .-f“ 4~(XnX^-1 (Xn—hi) xn = №2 [2a^2~j-O (| цз|. Из этих формул видно, что с точностью до постоянного множителя в ка- честве собственного вектора, отвечающего Хь можно приближенно взять вектор y(ft)+Xii/<ft-1\ а в качестве собственного вектора, отвечающего Хг,— вектор у^—Xit/(fe-1). Если матрица А имеет пару наибольших по модулю комплексно со- пряженных собственных значений, то указанные выше приемы нельзя применить к нахождению этих двух собственных значений. Поэтому целесообразно в этом случае несколько видоизменить схему вычислений. Будем считать, что | Xi | = | Хг | > | Хз | .. ^ | Хп |, Ki=reiQ, X2=re-iQ и Xi=X2.
274 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Как и ранее, получим ^) = Psl^+psAA + . . . + 0sn^n, (3.5.10) где pS2=aiXSi (i= 1, 2, . .. , ti). Допустим, что psi и ps2 отличны от нуля. Поскольку матрица А и начальный вектор у№ вещественны, то веществен- ным будет и вектор y(k)=AhyW. Значит, в формуле (3.5.10) величины psi и pS2 должны быть комплексно сопряженными. Пусть psl = 7?s^4, $s2=Rse-™s. Теперь из формулы (3.5.10) получим y&)=2Rsrk cos(£0+xs)+|WH- • .+₽™Ч- о О /С- (3.5.11) Тот факт, что матрица А имеет пару наибольших по модулю комплексно сопряженных собственных значений, проявляется обычно в сильном коле- бании по величине и переменах знака в компонентах уЫ векторов у№. Так, например, при достаточно больших k и значении аргумента й04-х5, близком к нулю, главным в формуле (3.5.11) будет член 2Rsrkcos (kQ-\-ns), если же аргумент A9+xs близок к то главный член выделить, вообще говоря, нельзя. Заметим также, что при изменении k могут быть пере- мены знака в компонентах U S Мы сможем вычислить собственные значения и Х2, если укажем правило для нахождения чисел г и 0. При достаточно большом k в силу условия |Х2|>|Х3| из формулы (3.5.11) получим = 2Rsrk cos (/?0+xs) + О (| U | *). s (3.5.12) Наряду с равенством (3.5.12) будут иметь место следующие аналогичные равенства: t/(fe+i)=2tfsrft+1 cos [(£+l)0+xs] + O(|ta|*+1) (3.5.13) и y(k+2)=2Rsrh+2 cos [ (6+2) 0+xs)+0(1^1^). (3.5.14) Эти равенства мы используем для того, чтобы найти приближенные зна- чения г и 0. С этой целью введем в рассмотрение определитель
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 275 и вычислим его значение, используя формулы (3.5.12) — (3.5.14). Имеем 7(fe)=4/?2^+2 {cos [(£+2)0+xJ cos (^e+xs) -cos2 [(4-1 )0+O} + s s +Msr*O (| X3p) = -4/?2 r2fe+2 sin2 94-Л45гЮ (|X3 p), где Ms — некоторая константа. Здесь sin 0=#O, ибо Xi и X2 — по предполо- жению комплексные числа. Аналогично получим 47?2/2ft sin2 0+ЯА-Ю (| Хзp). Значит, модуль комплексного числа Zi можно приближенно вычислить по такой формуле: (k) (k+i))2 Us ys \ys ) (3.5.15) Эти отношения следует определять для нескольких значений $. Совпаде- ние результатов будет свидетельствовать о достижении необходимой точ- ности в вычислении г2. После того как мы найдем г, аргумент комплекс- ного числа можно находить приближенно по формуле cos 0» у™ +A4ft) (3.5.16) так как i/(fe+2)_|_r2y(fe)==2/?sr'1+2 {cos [(fe+2)e+xs]+cos(^0+xs)) + s s +Ms.O(|X3|h)=2/?srft+2cos [(^+l)G+xs] cos 0+ +Ж• О(|X31ft) =2ryW cos 0+<• О(|%31*). Теперь для M и X2 окончательно получим Xi=r(cos 0-H sin 0), X2=r(cos 0—i sin 0). Отметим, что формулы (3.5.15) и (3.5.16) позволяют вычислять величины k г2 и cos 0 с погрешностью О ^3 Х2 Если и Х2 найдены, то легко можно найти и собственные векторы, отвечающие этим собственным значениям. Действительно, в силу фор- мулы (3.5.3) имеем
276 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ t/(fe) = a A^i+ О (| Хз |fe), y(ft+D=а Afe+%+ а2№+1х2+ О (| Х31 ft+4). Отсюда находим y(k+i)—\2у^ = осА^ (М—Хг) *1+О (| Х31ft), ^(fe+i)—Xiz/k)=0С2А,£ (Хг—hi) x2-\-О (| X31h). Таким образом, в качестве собственного вектора, отвечающего собствен- ному значению Хь при больших k приближенно можно взять вектор f/(fe+1)—Хг//(Ч другой вектор z/(fe+1)—Xii/ft) в свою очередь можно прибли- женно принять за собственный вектор, отвечающий собственному зна- чению Х2. Во всех предыдущих случаях вычислительные схемы степенного метода строились в предположении, что матрица А имеет линейные элементарные делители, отвечающие наибольшему по модулю собственному значению. Как это будет показано ниже, в сте- пенном методе имеется возможность вычислять также и наибольшее по модулю собствен- ное значение, которому соответствует нелинейный элементарный делитель. Однако при этом ход итерационного степенного процесса существенно усложняется. Рассмотрим, например, случай, когда Xi вещественно и принадлежит в канонической Г Х1 0 1 форме Жордана ящику I . При этом мы будем считать, что другим собствен- L 1 Xi J ным значениям матрицы А соответствуют линейные элементарные делители и все соб- ственные значения по модулю распределены следующим образом: | Xi | > | Хз | | Хп |. В этом случае при решении задачи о вычислении собственного значения Xi удобно ис- пользовать вместо базиса из собственных векторов канонический базис. Пусть векторы Xi, Х2? хп образуют канонический базис матрицы А. Известно, что воздействие мат- рицы А на векторы этого базиса происходит по формулам Лх1 = Х1Х1+х2, Л%2 = Х1Х2, л- . - (3.5.17) Лхз = ХзХз, Значит, AhXi = №xi+khh-lX2, AhX2 = hhX2y > AhXi = KhXi (i=3, 4, ... , n). i t (3.5.18)
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 277 Покажем теперь, каким образом может быть найдено собственное значение Xi при указанном распределении собственных значений матрицы А. Пусть yW — начальный век- тор. Напишем разложение у№ по векторам канонического базиса матрицы А: г/(°) = а1Х14-а2Х2+азХз+.. .+<Мп. (3.5.19) Используя формулы (3.5.18) и (3.5.19), получим у(Ь)=А(Ь)у(<))==№ (а^+агХг) +a2&Xft“1X2+a3’Vx3+.. .+an V хп. (3.5.20) 1 1 3 71 На основании формулы (3.5.20) можно теперь записать такое выражение для i-й компо- ненты вектора у<к>; г пЛ Предположим, что при некотором i=s коэффициент (12Х$2 0. Тогда отношение компонент у<Ъ*Ъ и у^ может быть представлено в виде 3 8 (h + i) Уз у{к) (3.5.21) (Ы-1) Уз Полученная формула показывает, что отношение -------------- стремится к Xi при &->оо. y{h) s Однако из-за наличия множителя k во втором слагаемом формулы (3.5.20) сходимость будет медленнее, чем сходимость любой геометрической прогрессии со знаменателем, (Ь + 1) Уз меньшим единицы. А это означает, что найти в этом случае М из отношения -------------- У™ практически невозможно. Поэтому в рассматриваемом случае целесообразно находить не само собственное значение М, а коэффициенты р = — 2М и ^=Х12 квадратного урав- нения Л2+рХ+^ = 0, кратным корнем которого является М. Введем обозначения psl = aiXsi+a2Xs2, pS2 = a2xa2; sn — QnXsn и запишем выражение для у^: z/(M=pslV+^ps2v-i_|_ps3v+<. ,+psnV. Значит, n(fc+i)_[_p^(fe)-|_^(fc-i) = pslXft~1 (X2 4-pXi+^) +Ps2V-2 [&(X2 +pXi+^) + (^? ?)] + *838 11 1* * =О(|ЛзГ).
278 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Аналогично при некоторомполучим у(к+^+ру^+ду^~^ = О(\кз\кУ t it После того как мы вычислим для рассматриваемой матрицы А векторы у^ и компоненты у<г\ У{г) (r=k— 1, k, &+1), искомые значения величин р и q определяются как решение системы y(k+i)+py(h)^.qy(k-i) х 0> 3 S3 y(k+i)^.py(k)_^qy(k-i) ~ о, I Г • Значит, (Ь-1) (Jt + 1) (А —1) (Л + 1) Уз yt —yt Уз y(k-i) y(h)_y(h-l) y(k) (Ji) (Л+i) (h) (k + iy Уз yt —yt Уз y(k-i) y(k)_y(h-i) y(k) s u t ~t s Отметим, что эти формулы позволяют определять коэффициенты р и q с точностью до величин порядка О Аз Xi ft. Для определения собственного значения %i, очевидно, достаточно вычислить один из коэффициентов р или q, ибо р = —2Аа, a (? = Аа2. В то же время совпадение чисел р .Г -----и у q, определяемых по найденным значениям р и q, служит контролем правиль- ности предположения о вхождении собственного значения в канонический ящик Г Аа О'! L 1 М J* Используя формулу (3.5.20), можно легко найти собственный вектор хъ, отвечающий собственному значению Ль Действительно, в силу названной формулы имеем ^(fe) = %fe(a1xi4-a2X2)+a2^Xfe-1X2+O( |Лз|к), I 1 ’ _ Г (3.5.22) у(^+1) == +1 (aiXi+a2X2) -pct2 1) АЛХ24-О(|Лз | . I 1 1 Ji Отсюда получим (^(^+1)—=а2х2+О АЛ 1 Таким образом, в качестве собственного вектора, отвечающего собственному значению Аа, можно приближенно взять вектор 1 Лз к \ Аа /
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 279 Формулы (3.5.22) позволяют определить также и вектор 01*1+012X2. Обозначим х=оцх1+ +02X2. Тогда = Х^х+а2/?Л^~1х2+О( |Хз|й) и ^ft+i) = V+1x+a2(^+l)Mx2+O(|X3|ft). Отсюда получим 1 - / %з к \ "г \ Л1 / Полученный вектор х есть проекция начального вектора #<°) на корневое подпространство векторов, соответствующих собственному значению Xi. Зная вектор х, можно корневой вектор Xi, соответствующий собственному значению М, определить с точностью до сла- гаемого, пропорционального собственному вектору х2’ а именно: сцХ1 = х—а2х2. Указанный выше порядок вычислений можно применять и тогда, когда собственные значения М и %2 вещественны и выполняются неравенства | Л11 >> | Х21 > | Х31 I A,n I, Х2 %i причем отношение близко к единице. Как это было показано выше, находить М можно, вообще говоря, по формуле (* + 1) ^2 Xi Однако из-за близости отношения Xi к единице выражение (Ь + 1) Уз___ У^ при возрастании k будет медленно стремиться к V, и тем медленнее, чем ближе друг к другу значения |Л1| и |Х21. Поэтому %i и Х2 следует вычислять по такой схеме. Сначала по заданной матрице А и вектору z/(0) строим итерационную последовательность векторов Затем выби- раем из этой последовательности векторы y(h\ y(k+i> и по компонентам номеров $ и /, как и ранее, вычисляем коэффициенты р и q для многочлена X2+pZ+</. Находим корни этого многочлена и принимаем их за искомые собственные значения и Х2. Заметим, что по смыслу решаемой задачи корни у многочлена должны быть веществен- ными и близкими по модулю. 3.5.2. Вычисление всех собственных значений положительно определенной симметрической матрицы Рассмотренные выше случаи позволяют находить для широкого клас- са вещественных матриц одно или два наибольших по абсолютной вели- чине собственных значения, используя только сведения о распределении значений по абсолютной величине и элементарных делителях матрицы Л. При этом в вычислительных схемах не учитываются другие специальные свойства матриц, такие, например, как симметричность, положительная определенность и др.
280 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Оказывается, что в некоторых случаях, используя эти свойства, мож- но упростить процесс вычислений и получить возможность вычислить все собственные значения и векторы. Так будет, например, в случае, когда вещественная матрица А положительно определенная и симметрическая. Известно, что у этой матрицы все собственные значения вещественны и положительны, собственные векторы Xi, Х2, ... , хп могут быть выбраны так, чтобы удовлетворялось условие ортогональности (хг«, Xj)=0 при Если собственные значения Zi, Х2, ... , матрицы А занумерованы в по- рядке невозрастания, то Напишем систему, из которой определяется собственный вектор хь отве- чающий собственному значению М: (#11 А1) Хц-|-#12X214~« . = 0, #21Хц-[- (#22~^2)Х214”« • 'А~а2п%п1 = 0, (3.5.23) ап1%и~}~ ап2^21 + • • «4“(^пп—Х1)ХП1 = О. Одна из компонент вектора х4 может быть взята произвольной. Положим, например, хп1=1. Тогда система (3.5.23)' будет системой п нелинейных алгебраических уравнений с п неизвестными хн, Х21, ... , xn-i 1, М. Приведем эту систему к виду, удобному для применения метода ите- рации: Хн — X21— ~ (#21Хц-|-#22X21 “И. . .”]-#2п) М (3.5.24) Хп—1 1— ~— (#п—1 1Хц-[-#п—1 2X214"- • • + Лп-1 п) Л1 — ^п1Х114-^п2Х214“- • ‘4~^пп- Систему (3.5.24) можно пытаться решать методом итераций, выбирая некоторые начальные приближения для компонент собственного вектора и собственного значения Хн, x2i, ... , xn-i 1 и м . Вычислительные фор- мулы будут иметь следующий вид:
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 281 п—1 WD= £ anjx^+ann (fe=0, 1,2,...). & J л j=i Заметим’ что при вычислении вместо значений х(^ можно брать зна- чения Можно также для решения системы* (3.5.24) использовать метод Зейделя. Если метод итерации для системы ,(3.5.24) при указанном начальном приближении сходится, то для достаточно больших значений k можно принять приближенно 1 и р1)'. Чтобы найти второе собственное значение %2 и соответствующий ему собственный вектор %2, воспользуемся опять системой, порождающей Хг и %2- Запишем эту систему в виде п (3.5.25) Используя условие ортогональности векторов Xi и %2, получим (%1, Х2) Х12-1-ХУ9 -^221Хп-1 г+^п2=0. £ Л м£ I v £ £ Выразим отсюда, например, хП2 через другие компоненты вектора х2 и найденное выражение для хП2 подставим в систему (3.5.25). При этом условии система (3.5.25) может быть записана в эквивалентной форме п—1 Н) ftn—1 ft 2), %п—1 2 Э Xj2, (1)_ „ ГДе Clij — Uij Xji Clin*
282 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Положив xn-i 2=1 и выбрав начальное приближение х±2, *22, ... ♦ Хп-2 2, ^2°\ решаем эту систему опять по методу итерации. При_условии сходимости итерационной последовательности в качестве Х2 и х2 можно принять приближения некоторого номера k и 7 ~ r(ft) Х2~ (Л12, %22, , Хп-2 2, 1, ХП2У. Последнее уравнение системы (3.5.25) при i=n можно использовать для л (ft) (ft) (ft) (h) контроля правильности вычисления л2 и компонент Х12, Х22, ... , хп_2 2. Это уравнение должно выполняться с необходимой точностью при под- становке в него указанных значении К2 и Xi2, а также значении xn-i 2= 1 (fe) (k) (Л) И X^i2— Xji Xj2 Xn—1 1. j=l ' Аналогично определяются другие собственные значения Xj (/=3, 4, ... , ti) и соответствующие им собственные векторы Xj. Следует отметить, что, в силу изложенной здесь схемы метода, последующие соб- ственные значения и векторы могут быть вычислены, вообще говоря, с меньшей точностью, чем предыдущие. Рассматриваемый метод может иметь исключительные случаи, свя- занные с тем, что при определении собственного значения Zs компонента Xn-s+i « собственного вектора xs может оказаться равной нулю, например уже на первом шаге будет особенный случай, если xni = 0. Поскольку такая особенность варианта возникает из-за избранного способа приве- дения системы (3.5.23) к виду, удобному для применения метода итера- ции, то ее можно устранить. Но мы на этом вопросе останавливаться не будем. 3.5.3. Видоизменения степенного метода Изложенный в п. 3.5.1 степенной метод может быть усовершенствован в смысле ускорения сходимости получающихся итерационных последова- тельностей. В основе одного такого видоизменения, пригодного для сим- метрических матриц, лежит идея сдвига собственных значений таким образом, чтобы величина одного из них стала достаточно малой. При этом величина, обратная сдвинутому собственному значению, будет боль- шой и составит при итерациях вектора обратной матрицей А-1 глав- ную часть в обычных для степенного метода разложениях. Это может
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 283 быть использовано затем для вычисления непосредственно соответствую- щего собственного значения. Пусть А— симметрическая матрица и Ai, Аг, ... , Ап — ее собственные значения. Будем называть числа Л& сдвину- тыми на величину р собственными значениями матрицы Л, если эти числа являются собственными значениями матрицы А — т. е. если они удов- летворяют равенствам Ль=Аь—р (й=1, 2, ... , п). Рассмотрим некоторый начальный вектор у<® и построим итерацион- ные последовательности {рь} и {у^}, каждый член которых определяется по формулам Нл= 1}) . (А-^у^уЮ (3.5.26) (A=l, 2, ...). Выясним смысл величин р& и свойства последовательности {рь}. С этой целью запишем разложение вектора у^ по собственным векторам мат- рицы А, отвечающим попарно различным собственным значениям Аь Аг, , As, а именно положим, что У^—(Х1Х14“^2-^24“. • «“bcXs-^s, (3.5.27) где векторы хг- удовлетворяют условиям Используя формулы (3.5.26) и (3.5.27), получим yW= (A—ixkE')-ly^= ~ -ai— xi+ ”2 x2+...+ . CTs xs, Ai—Pfe Аг—рь As—рь ибо матрица (Л—pU?)-1 воздействует на векторы хг- по формулам (Д р&7?) Следовательно, для рь+i получим
284 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ а? (M-Pfe)2 J ai2 м.-пЛг (Аут, ут) M-fe+i= ———<— (ут, ут>) Ct 92 i+ ”77-----ta+- (/12—Pfe)2 . аг2 . аз2 . (Хз-Hfe)2 8 а52 (^s-—|lfe)2 Если, например, сдвинутое на величину р& собственное значение Ai = =Xi—fife мало, то в предыдущей формуле в числителе и знаменателе выделится главный член за счет дроби —----------—. Значит, главная часть (М—ра)2 величины должна быть близкой к Хь Рассмотрим разность -л--а2\2- (^2-М)+.. •+ а а%г (^2—|lfe)2 (Лз—Pfe)2 аз2 (ta—|ife)2 Нм-i—М= 0С12 — 111. 2 Отсюда следует, что ОС22 (Хг—|м)2 И (Х«-|м)2 1 8 а?+ (Ий-М)2 [ -,.-а22-^2- +.. .+ — (3.5.28) Ha основании формулы (3.5.28) можно записать, что ||ife+i—М| ^^(|ife—М)2, где 9>0 — некоторая константа. Отсюда получим | ра+1—М| ^^(|ife—М)2^<7 [#(рл-1—М)2]2^ ^9i+2+...+2ft ‘(tll-AI)2ft=<72ft-i(Fll_x1)2ft= 1- [t7(|X1_A,1)]2't. (3.5.29) Оценка (3.5.29) показывает, что если выбрано удачно, т. е. ?(щ—М)<1, то последовательность {ца} сходящаяся и Ищ |ife=M. fe->oo
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 285 Из формулы (3.5.29) видно, что сходимость квадратическая. В аналогич- ном случае степенной метод сходится со скоростью геометрической про- грессии, т. е. гораздо медленнее, чем предлагаемое видоизменение метода. Из формулы - ai — . аг — . . as — У(ft)— ”7---*1+ "7------• •+ V7----------Xs Al— |Wfe Аг—JUlfe As — Ц/i видно, что при достаточно больших k и при условии сходимости после- довательности {pjJ в этом случае в качестве собственного вектора, отве- чающего собственному значению М, с точностью до произвольного по- стоянного множителя приближенно можно взять вектор у(к\ Практически метод реализуется так. Сначала вычисляем число (ЛМ°), z/°)) . - - - и,±=—=—, затем, решая систему (Л — |цЕ)уЮ=у(% находим век- _ ^(0)’ , ТОр у^= (yil\ У2}, . , У^У, потом, аналогично, по формулам (3.5.26) вычисляем ц2 и у<® и продолжаем процесс до тех пор, пока два последо- вательных приближения и jjla+i совпадут друг с другом на заданное число знаков. В рассматриваемом выше итерационном процессе векторы у№ опре- делялись из формулы (Л—|iftE)(/(ft) = r/(°), в которой правая часть фикси- рована и равна у<®. Если правую часть менять на каждом шаге и вычис- лять векторы у& по формуле (Л — ^/kE')y^=y(h~i) (&=1, 2, ...), а числа по формуле (3.5.26), то при симметрической матрице Л получающийся итерационный процесс будет иметь кубическую сходимость [9]. Укажем еще на один прием, позволяющий иногда быстрее, чем это имеет место в степенном' методе, получать искомый результат при реше- нии задачи о вычислении наибольшего по абсолютной величине собствен- ного значения матрицы Л. Этот прием связан с последовательным полу- чением четных высоких степеней матрицы Л, а именно: Л2, Л4, Л8, Л16, ... На первый взгляд, такое вычисление степеней матриц может быть сопря- жено с увеличением объема работы по сравнению со степенным методом, ибо, например, возведение матрицы Л в квадрат по объему работы равно- сильно образованию п итераций вектора yW матрицей Л. Вычисление же матрицы A2h по указанному выше правилу, следовательно, равносильно в смысле числа-выполняемых операций построению kn итераций вектора у^ матрицей Л. Таким образом, при равном объеме работы мы, исполь- зуя указанный прием, сможем, например, вычислить yW=A2hy(°\ а в сте- пенном методе сможем вычислить Если при этом окажется, что
286 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ h+l<2h, то это будет означать, что при одинаковом числе операций мы сможем по видоизмененному методу вычислить более старшие члены итерационной последовательности по сравнению с последним итерацион- ным членом вычисляемым в этом случае по степенному методу. В этом и заключается преимущество перед степенным методом указан- ного выше видоизменения. Отметим, что при нахождении итераций вектора порядок вычислений может быть различным. Можно, например, ограничиться вычислением некоторой фиксированной степени матрицы Я, а затем составлять итера- ции посредством вычисленной степени матрицы. Так, если нам нужно вычислить у(49)=Я49г/°>, то мы, вычислив, например, Я2, Я4, Я8, Я16, нахо- дим затем Я16у<°), Я16(Я16г/<°>), Я16[Я16(Я16г/<°)) ] и, наконец, Я {Я16[Я16(Я16//<°)) ]}. Если мы вычислили вектор у(2к)=А2ку^\ то далее наибольшее по абсо- лютной величине собственное значение матрицы Я следует вычислять по одному из правил, изложенных в п. 3.5.1, в зависимости от того, как рас- положены по абсолютной величине собственные значения матрицы и ка- кова ее жорданова форма. Если собственные значения матрицы Я по абсолютной величине рас- положены следующим образом: |М > |М |Хз1 >. ..> |Х„|, (3.5.30) то процесс вычисления степеней матрицы можно использовать непосред- ственно для определения наибольшего по модулю собственного значения Ai, которое мы будем считать вещественным. Образуем последовательность матриц Я, Я2, Я4, Я8, .. .>, А2\ ... Известно, что 71 7Z 71 2%i = Sp^, Jg Л2 =Sp А2, Xm=Sp А™ 'If 2 = 1 Будем считать, что m = 2k. Значит, Отсюда следует, что 1 [/ Хо \т / \т 1т т--------------- 1+ 4~) +-..+ 4* J =У8рЛ- (3.5.31)
§ 3.5. ИТЕРАЦИОННЫЕ МЕТОДЫ 287 Учитывая неравенства (3.5.30), из формулы (3.5.31) получим т------- |Xi|=lim ]/Sp4m. 7П->ОО Таким образом, при достаточно большом т мы можем положить т------ |Х1|~ у SpXm. (3.5.32) Формула (3.5.32) неудобна тем, что при больших п она требует извлече- ния корня высокой степени. Поэтому выгоднее пользоваться следующей очевидной формулой: Sp Л2^1 Sp A2h При этом нет необходимости вычислять всю матрицу А2М1. Достаточно определить ее след, т. е. определить диагональные элементы и их сумму. На этом мы заканчиваем изложение теории степенного метода и неко- торых его видоизменений, предназначенных в основном для вычисления наибольшего по модулю собственного значения матрицы. 3.5.4. Метод Х-разности Этот метод позволяет находить собственное значение Хг после вычис- ления Х1 при условии, что |Х1| > |Х2| > |Хз| . .^|ХП|. (3.5.33) Рассмотрим некоторый начальный вектор у<® и предположим, что для него имеет место разложение (3.5.2) по собственным векторам матри- цы А, причем будем считать, что в этом разложении коэффициенты ai и аг отличны от нуля. Пусть мы вычислили последовательность где AkyW=y(h\ и по какому-либо методу вычислили М. Введем обозначение (6 = 0, 1,2,...). (3.5.34) Величину &ку№ будем называть Х-разностью от у^\ На основании формул (3.5.3) и (3.5.34) для некоторой компоненты s получим
288 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ = —hiyW—аг(Аг—М)^2 Xs2"H • •Ч~ап(^п—XSn О О о £л tv И = У™—^iy(h~^ = 0С2 (Аг—Al) 2-1*s2+ • • • + ОСп (кп—Ad) AA-1xsn. О , О iv Если k достаточно велико, то в выражениях для ДмУ(Л) и ДмУ(ь-1) преобла- 3 S дающими будут члены, содержащие А* Значит, А _, Ах, уТ Заметим, что если мы определяли Ai по формуле u{h+i} ~ У8 то Аг целесообразно определять по следующей формуле: А (т) , _ Ал, Уз Л2 \ ", 7Г, Дх, у<™-‘> О (3.5.35) (3.5.36) где m<_k и т является наименьшим из чисел, при котором преобладание А™ над следующими членами А™ ($=3, 4, ... , п) уже начинает сказы- ваться. Эта формула имеет преимущество перед формулой (3.5.35) в том, что здесь при определении Ах, у<™> и Ах, у(™-1) нам не приходится вычитать близкие друг к другу числа (имеется в виду у<™+1), Ai у<™) и у<™), Ai yf™-1)), в то время как в случае формулы (3.5.35) мы имеем y(ft+i)—At yW «О и уЮ—Ai y(ft-<) » 0. S3 S3 В качестве собственного вектора матрицы А, отвечающего Аг, прибли- женно можно взять вектор Дм y^h\ ибо Дм У^ = ^2^2—А1)АЛх2-Н • •Н“ОСп(Ап—Ai)A^xn. Теоретически возможно метод А-разности применять и к вычислению следующих собственных значений, однако результаты будут еще менее надежными, чем в случае Аг. Причина этого явления кроется в том, что названные вычисления связаны с операцией уничтожения главной части в линейных выражениях вида (3.5.3). А это влечет за собой большую потерю значащих цифр.
§ 3.6. МЕТОД ВРАЩЕНИЙ 289 В заключение следует сказать, что многим изложенным здесь итера- ционным методам нахождения собственных значений и собственных век- торов матриц присущи наряду с такими положительными свойствами, как простота вычислительного алгоритма, возможность контроля точно- сти получаемого результата и др., и существенные недостатки. Это в пер- вую очередь их медленная сходимость при определении наибольшего по модулю собственного значения и еще более медленная сходимость при определении последующих значений. В связи с высказанным выше замечанием приобретают важное значе- ние методы, предназначенные для ускорения сходимости таких итераци- онных процессов. Теория некоторых названных методов будет изложена в § 3.7. § 3.6. МЕТОД ВРАЩЕНИИ Элементарные унитарные матрицы и матрицы вращения, рассмотрен- ные нами в гл. 2 при решении систем линейных алгебраических уравне- ний, можно использовать также для построения итерационных процессов, решающих полную проблему собственных значений для симметрических и эрмитовых матриц. Один из таких процессов, предложенный Якоби, известен еще с середины прошлого века. Однако он долгое время не на- ходил практического применения из-за большого объема вычислений, необходимых для.его реализации. И лишь с появлением быстродействую- щих электронных вычислительных машин стало возможным его широкое применение, которое показало, что метод вращений является одним из самых эффективных методов решения полной проблемы собственных зна- чений симметрических и эрмитовых матриц. Между прочим, пример с историей метода вращений еще раз показы- вает необходимость и большую значимость в вычислительной матема- тике, равно как и в других областях науки, теоретических исследований, практическая реализация которых на первых порах затруднительна или вообще невозможна. Отметим, что в настоящее время известно большое число итерацион- ных процессов, предназначенных для решения полной проблемы собст- венных значений симметрических и эрмитовых матриц. Основой для построения таких процессов служит известная теорема из алгебры, утверждающая, что если А — эрмитова матрица, то суще- ствует такая унитарная матрица V, что преобразование подобия с этой матрицей приводит А к диагональному виду, т. е. У-1Д17=Л, (3.6.1) где Л — диагональная матрица из собственных значений матрицы А. Так как для унитарной матрицы выполняется условие V*V=E, то
290 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ и, значит, формулу (3.6.1) можно записать иначе: (3.6.2) Равенство (3.6.2) не может быть использовано для прямого вычисления элементов матрицы V и диагональной матрицы А, ибо оно представляет собою, вообще говоря, систему п2 уравнений с п2-\-п неизвестными (и2 элементов матрицы V плюс п элементов матрицы А). Однако имеется возможность трактовать задачу приведения заданной эрмитовой матри- цы А к диагональному виду как приближенную задачу в следующем смысле. Предположим, что мы преобразованиями типа (3.6.2) привели мат- рицу А к некоторой матрице А вида Ai Ain ^2п (3.6.3) — Ап1 ^п2 Предположим также, что внедиагональные элементы матрицы таковы, что величинами СЦ = JE I Ац I 2, 02= S |^2г|2, г=2 г=1, г#=2 п—1 On—1 == | An—1 г | 2, On === | Апг г=1, г#=п—1 г=1 по сравнению соответственно с Ai, Аг, ...» Ап можно пренебречь. Тогда мы получим >V*AV=K и, значит, в силу разложения (3.6.2), в качестве приближенных собствен- ных значений матрицы А можно в пределах принятой точности взять числа Ai, Аг, ... , Ап. Эти числа, естественно, совпадут с точными собствен- ными значениями Ai, Аг, ... , Ап матрицы Д, если все Ог = 0 (/= 1, 2, ... , п). Высказанные выше соображения можно использовать при построении итерационного процесса для вычисления всех собственных значений эрмитовой матрицы А. Действительно, пусть 16 Дер, ф) —некоторые эле- ментарные унитарные матрицы. О правиле построения таких матриц мы еще будем говорить (см. формулу (3.6.32)). Подвергнем с помощью упомянутых матриц преобразованиям подобия матрицу А и предполо- жим, что в результате мы получили последовательность матриц Д(°)=Д, Ди), Д(2), ... , Д(М ... (3.6.4)
§ 3.6. МЕТОД ВРАЩЕНИЙ Будем считать, что каждый элементарный шаг преобразований, заклю- чающийся в умножении матрицы А слева на 1Л* (<р, -ф) и справа на Vij(cp, г|?)> выбирается таким образом, что матрица AW при й->оо скбль угодно близко приближается к диагональной матрице. Ниже мы пока- жем, что такой выбор матриц Уц(ф, гр) возможен. Близость эрмитовой матрицы А к диагональной мы будем характери- зовать числом п /2И) = 2 KI2. 'i, j=i, i^j т. е. суммой квадратов модулей всех недиагональных элементов матри- цы А. Эта близость может быть охарактеризована также любой нормой матрицы А—D, где D — диагональная матрица, составленная из диаго- нальных элементов матрицы А. Итерационный процесс построения последовательности (3.6.4) будем называть монотонным, если выполняется,условие /2(X(fe))<Z2(A(ft~1)) (й=1, 2, ...).’ Отметим еще, что если разложение вида (3.6.2) найдено, то легко могут быть указаны правила для вычисления собственных векторов мат- рицы А. Пусть Хг — i-й диагональный элемент матрицы А и ег-= (0, 0, , О, 1, 0, ... , 0)' — соответствующий этому собственному значению собст- венный вектор матрицы А. Тогда Лег = У*А Увг = или AVei=KiVei. (3.6.5)' Обозначим через Xi= Vei= (uu, u2i, ... , uniy i-й столбец матрицы V, Теперь формула (3.6.5) примет вид и, значит, в качестве собственного вектора матрицы А, отвечающего соб- ственному значению можно взять вектор хг-, компонентами которого являются элементы f-ro столбца матрицы К Приступим теперь к построению формул итерационного процесса. В целях упрощения выкладок будем сначала рассматривать веществен- ные симметрические матрицы и для них подробно изложим теорию мето- да вращений, а затем укажем, как полученные результаты переносятся на эрмитовы матрицы.
292 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ 3.6.1. Случай вещественных симметрических матриц Пусть А — одна из названных матриц. Для такой матрицы метод вра- щений заключается в построении последовательности матриц Л<°)=Л, Д(1), А(2), ... , 4W, ... , в которой каждая последующая матрица получается из предыдущей при помощи элементарного шага, состоящего в преобразовании подобия пре- дыдущей матрицы посредством некоторой ортогональной матрицы вра- щения Vij (ф) вида Vij (<р) = cos ф ... —sin ф . 1 1 sin ф ... cos ф (3.6.6) Пусть указанные выше преобразования доведены до А-го шага, и мы получили матрицу Л^)=(аД)). Построим формулы для определения из матрицы AW следующей матрицы Л^+1). Поскольку конечной целью ите- рационного процесса является диагонализация матрицы Л, то матрицы К;(ф) мы должны будем выбирать таким образом, чтобы образующийся процесс был монотонным, т. е. чтобы выполнялось условие /2(Д(А+1))</2(Д(/1)): Существует много способов выбора матрицы 1ЛДф), при которых это условие будет выполняться. Мы остановимся на способе, который бы- стрее всех других способов приводит к цели. А именно, рассмотрим мат- рицу А<М и найдем в ней максимальный по абсолютной величине внедиа- гональный элемент. Поскольку Л^— симметрическая матрица, то усло- (fe) вимся считать искомым некоторый элемент , для которого г</. На основании этих индексов t, j и элемента построим ортогональную Т/(А) . матрицу Vij по формуле !/<*>= .
§ 3.6. МЕТОД ВРАЩЕНИЙ 293 где матрица Vo*(q/ft)) получается из матрицы Vij(cp) заменой ф на ф*Ч Значение параметра ф<ь> нам еще предстоит определить. Будем находить <p(fc) из условия равенства нулю у матрицы Д(й+1)= A^wTj (3.6.7) элемента д$+1). Укажем формулы для вычисления элементов матрицы Д(л+1)# Обозначим Bm=A^ViT и В(л>=(^)). Тогда, в силу формулы (3.6.6), матрица В^ во всех столбцах, кроме /-го и j-го, будет иметь те же элементы, что и матрица A<hX Для элементов 4-го и /-го столбцов имеют место соответственно формулы bf- =а$ cos ф^+а^ sin | (3 6 8) b(vk) = - sinq/ft4-a$ созф^ (v= 1, 2, ..., n). j / Аналогично, матрица A<ft+4)= во всех строках, кроме 4-й и /-й, будет иметь те же элементы, что и матрица B(k\ Элементы 4-й и /*-й строк матрицы имеют соответственно вид = b<% cos ф^+&^ sin qXfe), ► а$+1) =—С sin ф^+ftj^ cosq/ft) (v= 1, 2, ... , n). (3.6.9) Таким образом, для элемента a\j из формул (3.6.8) и (3.6.9) полу- чим выражение аг^+1) =bij cos ф^+6^ sin ф(*)= (—sin ф^)+ +«4ft)cos ф(/г)) cos ф(^+ sin cos sin = ai7)cos 2ф^>+ (ajj—a^})sin 2ф^\ (3.6.10) так как а$=а$\ Теперь из условия аг^+1)=0 и формулы (3.6.10) опре* деляем ф^>: 2tZiV / . . л \ (l^’l< г) (3-6--"> ii jj
294 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ ИЛИ COS<p<h)= [у (l + (l+p2ft) 1 1 2 1 ~2 (3.6.12) где pk= a(k)—aty гг jj 1 1 2 1 2 < Покажем теперь, что при таком выборе матрицы К*/ максимально уменьшается сумма квадратов внедиагональных элементов матрицы по сравнению с соответствующей суммой матрицы A<h\ Действи- тельно, учитывая формулы (3.6.8) — (3.6.10) и симметричность матрицы ДМ, получим /2 (Д(л+1)) = /2 (Д(М) —2 [а^]г-]- -1- [ (cffl-cffl) sin £ +2fl/3ft)cos2<p<ft)]2=/2(X(''))-2[aij)]2+ у [2о$+1)]2= = /2(ДИ)—2[a/3ft)]2 (3.6.13) ибо, как уже отмечалось, =0. Поскольку мы считаем, что Oij — максимальный по абсолютной величине внедиагональный элемент мат- рицы Л<4 то из формулы (3.6.13) следует, что преобразование подобия с матрицей Vif максимально уменьшает величину /2(Д<к>), т. е. является оптимальным для целей диагонализации матрицы AW. Теперь можно изложить алгоритм метода вращений и порядок вычис- лений: 1) в матрице А^ (й=0, 1, 2, ...) среди всех наддиагональных эле- ментов выбираем максимальный по абсолютной величине элемент, опре- деляем номера строки и столбца, в которых находится этот элемент, т. е. определяем числа i и / (если наибольших по абсолютной величине эле- ментов несколько, то в качестве искомого можно в^ять любой или тот, для которого i имеет наименьшее значение); 2) по формуле (3.6.12) вычисляем cosq/ft), sin и, используя назван- ные числа I, /, находим по формулам (3.6.8), (3.6.9) элементы матрицы Д(Л+1);
§ 3.6. МЕТОД ВРАЩЕНИЙ 295 3) итерационный процесс останавливаем, когда в пределах принятой точности величиной /2(Л(Л+1)) можно пренебречь, и в качестве приближен- ных собственных значений матрицы А с точностью до нумерации берем Xi=a^+i) (i=l,2, ... , и), (3.6.14) а в качестве собственных векторов — соответствующие столбцы матрицы X&+V = . l/d). ... VW. . (3.6.15) Vo Vi Wk 4 1 3.6.2. Сходимость метода вращений В этом пункте мы докажем сходимость метода вращений и получим некоторые сопутствующие этому вопросу оценки. При введенных нами обозначениях сходимость метода вращений означает, что lim/2(Л^)) =0. &->оо Установим этот факт. В силу выбора элемента /2(ДИ)^п(п-1)[а^]2. Значит, /2 (ДМ) п(п— 1) (3.6.16) Далее из формулы (3.6.13), используя неравенство (3.6.16), получим где Р(Д (A+D) = /2 (ДМ) —2 [а/'0]2^2 (ДМ) _ 2t2(AW) п(п— 1) = <^2(ДМ), 1 «(/I—1) 0<<7< 1, ибо п^2 (п— порядок матрицы Д). Теперь легко выводятся такие не- равенства: P(A<»)s^qtz(Am), t2(A<2>~) s^qt2(A^) s^q2t2(A^, t2(AW)^qhf2(Am). (3.6.17)
296 Гл. 3; ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Так как /2(Д(°)) =/2(А) ==const >0 и 0<^<1, то из формулы (3.6.17) следует, что lim /2(AW)=0. fe->oo А это и означает, что описанный выше итерационный процесс сходится. Перейдем к исследованию вопроса о скорости сходимости метода вращений и оцен- ках погрешности в определении собственных значений и собственных векторов. С этой целью рассмотрим некоторую симметрическую матрицу 4, внедиагональные элементы которой являются величинами не ниже первого порядка малости относительно е>0, и получим формулы, дающие возможность вычислять собственные значения и собствен- ные векторы этой матрицы с точностью до некоторых величин, имеющих порядок мало- сти относительно е не ниже, чем второй. Предположим, что названная матрица А — вещественная и ее собственные значения таковы, что внедиагональные элементы матрицы А малы по сравнению с числом р, опре- деляемым по правилу р= min |Xi—Xj|* (3.6.18) где X< — собственные значения матрицы А. Очевидно, что если все Хг- равны между собой: Х1=%2=.. .=ХП=Х; то А — диагональная матрица, ибо в этом случае найдется такая ортогональная матрица V, что V'AV=A = hE, и, следовательно,' A=hEVV' = hE, ибо VV' = E по определению ортогональной матрицы. Пусть наибольшее по абсолютной величине собственное значение матрицы А имеет кратность иг (Х1 = Хг = .. . = Хт = Х и |Х| > |Xw+i | ^.. .^ |ХП |) и пусть диагональные элементы матрицы А расположены в порядке убывания их абсолютных величин. Разо- бьем матрицу А на клетки [А 11 А12 "1 (3.6.19) Д21 А22 -1 таким образом, чтобы диагональные элементы Ац и только они были бы близкими к максимальному собственному значению X. Порядок матрицы Ац должен, по-видимому, при этом совпасть с кратностью т собственного значения X, если е достаточно мало. Для определения собственных векторов х, соответствующих собственному значе- нию X, необходимо решить системы уравнений вида (4-ХЕ)х=0. (3.6.20) Решения будут составлять подпространство размерности /и, и вычислить их можно, на- пример, следующим образом. Обозначим \ где /= (Xi, Х2, . . ♦ , Хгп)', 2= (Хт + 1, *т+2, ...» *п)'.
§ 3.6. МЕТОД ВРАЩЕНИЙ 297 Систему (3.6.20) с учетом формулы (3.6.19) запишем в таком виде: е (Ли—кЕ) у 4-Л 12^=0, ► Л 21^4" (Л 22 — кЕ) 2 = 0. (3.6.21) Первые т строк матрицы Л—КЕ линейно зависимы с остальными, поэтому в качестве * pi I первого собственного вектора Xi= — I, отвечающего X, можно взять вектор, для L zi J которого определяется условно, как вектор (1, 0, ... , 0)' a Zi — на основе формулы (3.6.21): ------ 21 = — (Л 22—ХЕ); 1Лг1^1, так как матрица (Л22—КЕ)~1 невырождена в силу формулы (3.6.18) и условий |Х > |Xm+i | |ХП |. Аналогично в качестве второго собственного вектора х2= I — I , отвечающего X, можно взять вектор, для которого г/2=(0, 1, 0, . .± , 0)', L Z2 J _ —. _ т a z2 = —(Л22—А,£’)“1Л21Г/2, и т. д. Продолжая этот процесс, мы в результате получим в качестве фундаментальной системы решений столбцы прямоугольной матрицы *-'771 — (Л 22 — hE) ~iA 21 (3.6.22) размерности где Ет — единичная матрица порядка т. Очевидно, что каждый из столбцов этой матрицы является собственным вектором матрицы Л, отвечающим кратно- му собственному значению X. Все столбцы матрицы X образуют в совокупности систему линейно независимых собственных векторов матрицы Л, относящихся к Л. Вычислим теперь в явном виде элементы хц /=1, 2, ... , tn) матри- цы X. В силу формулы (3.6.22) и предположений относительно диагональных и вне- диагональных элементов матрицы Л имеем а г з * Xi>=~4~~~ +°(е2)> (3.6.23) Л Cli г где ац — элементы матрицы Лгь Предположение об упорядоченности диагональных элементов матрицы Л, которые мы сделали выше, можно опустить. Действительно, занумеруем собственные значения таким образом, чтобы X, было близко к диагональному элементу того же индекса, т. е. к ац. Аналогично тому, как это мы делали в предыдущем случае, можно показать, что собственные векторы матрицы А образуют соответственно столбцы матрицы X = E+ff, (3.6.24) где элементы hij матрицы Н определяются по формулам 0, если Хг = Х/, CLi j -----------|-О(е2), если Xi=/=Xj’. Xj CL i i (3.6.25)
298 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Таким образом, если внедиагональные элементы вещественной симметрической мат- рицы имеют-порядок малости не ниже первого относительно е и малы по сравнению с числом р, то для собственных векторов такой матрицы имеют место формулы (3.6.24) и (3.6.25). . Выведем теперь аналогичные формулы для собственных значений Хг. Обозначим через А диагональную матрицу собственных значений матрицы А. Известно, что ' Х~1АХ=А. Используя формулу (3.6.24), из этого равенства получим А=(Е+Н)А(Е+Н)~1=(Е+Н)А(Е-Н+Н*-...) = =А+ (НА-АН) - (НА—АН)Н-\-О(Н3). (3.6.26) Вычислим теперь элемент матрицы А+ (НА—АН) — (НА—АН)Н< стоящий на главной диагонали в i-й строке. Такими элементами будут: Хг— у матрицы А, 0 — у матрицы п (НА—АН) и ^7 hkihik(^k—Хг)—у матрицы (НА—АН)Н. Значит, искомый элемент А = 1 есть сумма Хг-J-O—hkihik(Ха Хг), А = 1 и поэтому в силу формулы (3.6.26) п Хг==Цг'г“|“ ^Ai^ia(Xa Хг) А = 1 или, учитывая формулы (3.6.25), окончательно получим п Хг'==^гг“|_ р=1, Рейг Пгр^рг(Ар Аг) ' (Хр &г‘г) (Хг‘ Црр) + О(63), (3.6.27) где Ri — множество тех чисел / из ряда 1, 2, ... , п, для которых Xj = Xf. В этой формуле отношения X р X г (Хр Q-гг) (Хг Ярр) ограничены сверху, ибо при достаточно малом 8 |Хр—«н|^р, |Хг—^ppI^P и р>0. Так как внедиагональные элементы матрицы А по абсолютной величине имеют порядок малости не ниже первого относительно 8, то из формулы (3.6.27) теперь следует, что Хг = Цгг+О(е2), (3.6.28) независимо от кратности корня Хг*. Этим выражением можно воспользоваться при записи формул (3.6.25) и (3.6.27), что дает такое правило для вычисления элементов Кц мат- рицы Н и собственных чисел матрицы А: » ^зз О, если Хг#=Х;; 1+О(82), еСЛИ Xi=Xj (3.6.29)
§ 3-6. МЕТОД ВРАЩЕНИЙ 299 и + 0(е3). (3.6.30) Все вышеизложенное дает нам основание сформулировать следующую теорему, до- казанную впервые В. В. Воеводиным в более общем виде, чем тот, который мы здесь приводим. Теорема 1. Если матрица А вещественная и симметрическая и ее внедиагональные элементы являются величинами не ниже первого порядка малости относительно е,*) то для матрицы X, составленной из собственных векторов матрицы А, и собственных зна- чений Xi справедливы формулы (3.6.24), (3.6.29) и (3.6.30). Укажем здесь еще на одно важное обстоятельство, а именно, на особое свойство элементов матрицы Л, для которых X<=Xj. Оказывается, что такие элементы матри- цы А будут величинами не ниже второго порядка малости относительно е. Действитель- но, будем вычислять внедиагональные элементы матрицы А по формуле (3.6.26), считая flij известными матрицы Л и Н. Так как /iij = 0 при Xi = Xj и hu=-----------|-О(е2) при a j j ~ a i i Xi#=Xj, то из формулы (3.6.26) следует, что ац есть величина не ниже второго порядка малости относительно е при Xi = Xj. Покажем теперь, как эти результаты могут быть применены к исследованию скорости сходимости метода вращений в случае вещественной симметрической матрицы А. Пусть есть матрица, полученная после выполнения k-ro шага метода вращений, и пусть ац —ее элементы. Предположим, что все внедиагональные элементы этой мат- рицы являются величинами не ниже первого порядка малости относительно некоторого достаточно малого числа 8>0. Тогда с учетом симметричности матрицы в силу формулы (3.6.30) получим Г (Л)12 1 (ft) ( хп ^aip J I /П/ 34 Xi — ац -j- -|-О(8 ). _ . „ — r, (*)• p ’ i a i i Qpp Матрицу V собственных векторов исходной матрицы А можно вычислить таким пу- тем. По смыслу алгоритма метода вращений имеем А^ = Т'АТ, где Т= v/o°'o... Применительно к матрице можно вычислить такую мат- (fe) рицу X по формулам (3.6.24) и (3.6.29), заменяя в последней формуле ац на ац , что будет справедливо равенство Х-'А^Х = Л, где Л — диагональная матрица собственных значений искомой матрицы А. Значит, Х-* 1А^Х = Х-^Т~1АТХ = А, (3.6.31) *) В качестве величины, характеризующей малость внедиагональных элементов не- М особенной матрицы, можно, например, взять отношение е=—, где Al = max |tfij|, i =# j zn = min [ай I• При преобразованиях вращения эта величина будет меняться от шага г к шагу и при увеличении числа преобразований будет стремиться к нулю.
300 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ ибо Т — ортогональная матрица и для нее Г, = Т“1. Поэтому из (3.6.31) следует, что искомая матрица V равна у__tv__у/0? i/V! у^. у — 1Л—Уго’оУг1Н--' Vikih Докажем теперь теорему о скорости сходимости метода вращений. Теорема 2. Какова бы ни была вещественная симметрическая матрица А, метод вра- щений для нее обладает квадратичной сходимостью. Доказательство. Предположим, что процесс метода вращений проведен на- столько далеко, что все внедиагональные элементы матрицы A(fe) стали величинами не ниже первого порядка малости относительно е и малыми по сравнению с величиной р, определяемой по формуле (3.6.18). Такое число k существует, ибо мы показали ранее, (fe) что Z2(A(ft))->0 при /?—>оо. Мы уже отмечали, что элементы ац , соответствующие соб- ственным значениям = являются величинами не ниже второго порядка малости Относительно е. Поэтому среди этих элементов максимального внедиагонального эле- мента матрицы A(fe) не будет, ибо по идее метода вращений такой элемент на рассматри- ваемом шаге преобразований должен быть величиной первого порядка малости относи- сь) тельно е. Мы предположим, что максимальный элемент, например ац будет величиной порядка е. Чтобы в методе вращений аннулировать этот элемент, надо для соответствующей матрицы вращения определить cos cp(fe) и sin <р<4 Из формул (3.6.12) следует, что в этом случае ибо cos cp(fe>= 1 + О(е2), sin <p(fe) = 0(e), 2ац 2aij pk=--------------=------------------ Xi-Xj+O(e2) it jj и число Xi—^j+O(e2) ограничено снизу, а ац имеет по предположению первый порядок относительно е. Ясно, что с таким образом подобранным углом поворота (p(fe) все элемен- ты, меняющиеся на (&+1)-м шаге преобразований подобия могут изменяться (см. фор- мулы (3.6.8) и (3.6.9)) только на величины порядка е2. При этом a<h+V и я(^+1) равны нулю по построению матрицы вращения. Заметим, что элемент матрицы A(ft), аннулиро- ванный на предыдущем шаге, может стать не более величины порядка е2. Учитывая то, что А .симметричная матрица и симметричны все матрицы вида А<й), мы сможем не более / п(п-|-1) \ чем за fi -------j элементарных шагов все внедиагональные элементы (n(n—1) \ число их равно ---- I сделать величинами не ниже второго порядка малости относительно е. Таким образом, если /2(А^)) ^О(е), то /2(А<\)) ^О(е2), где &i = £+ri. Продолжая по аналогии этот процесс, получим 2m /2(А )^О(е ), где п(п— 1) km = k+ri+r2+- •-+Гт и ----- (1^^/П)._ Это и доказывает квадратичную сходимость метода вращений.
§ 3.6. МЕТОД ВРАЩЕНИЙ 301 3.6.3. Случай эрмитовых матриц Пусть А — эрмитова матрица. Элементарный шаг метода вращений в этом случае заключается в преобразовании подобия матрицы А посред- ством элементарной унитарной матрицы 'Мф. ^) = 1 cos ф ... —sin ф . 1 1 g-гтр sjn ф ф е ф CQS ф (3.6.32) о Предположим, что мы выполнили уже k таких преобразований и полу- чили матрицу А<4 Укажем формулы для получения из матрицы А<№ сле- дующей матрицы A^h+i\ Пусть в матрице А^ максимальным по модулю наддиагональным элементом будет а$ (/</). Взяв индексы f, j этого элемента, построим по формуле (3.6.32) матрицу 1Л;(ф(Ч ф(/1)) и опреде- лим правило, по которому следует вычислять параметры фМ и ф<4 Имеем А (*+*)= Vij (ф<4 ip)) AWVij (ф<4 ф<й>). Для элементов матрицы B^=A^hWij(^h\ ф(*)), находящихся в ьм и /-м столбцах, используя (3.6.32) с заменой в этой формуле ф на ф^> и ф на ф(Ч соответственно получим b^i=a^ cos sin ф<4 b^ = — а$ e^(h} sin cos (v=l, 2, ... , n). В других столбцах матрицы будут те же элементы, что и у матри- цы А<4 Для элементов аг?+1) матрицы A(ft+1>= (qXft), ф<*)) B(k\ находя- щихся в f-й и /-й строках, по аналогии соответственно получим at-v+1)= biv} cos e-^(h} sin • ajv+1)= b$ sin ф^+^Д1 cos (v=l, 2, ... , n). (3.6.34)
302 Гл 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Другие строки матрицы A^+i) будут иметь те же элементы, что и строки матрицы В^. Так как матрица А эрмитова, то-а^=а^, а следовательно, и =aji, Поэтому на основании формул (3.6.33) и (3.6.34) между величинами /2(Д(М-1)) и /2(Д(/1)) может быть установлена следующая связь: /2 (Л(й+1)) = t2 (AW) —21 aff |2+2[ | al? | (e»“(ft> COS2 фМ— —£>Wft)-a(ft)) sin^W) + (dff —C$ )6^-^ (3.6.35) где обозначено a(fe)=arg . В этой формуле а//, как уже отмечалось,— наибольший по модулю внедиагональный элемент матрицы А<к\ Значит, из формулы (3.6.35) следует, что для максимального уменьшения /2(Л^+1)) параметры и следует выбирать так, чтобы выполнялось условие |а(4} | (e^(ft)cos2q)W—eW(ft)-a(fe)) sin2(pW) + + sin 2q/fe) =0. Это условие будет выполнено, если мы положим 9 I z//9 | / тт \ t|}(fe)=arg4), tg 2q/fe>= -a(ft) Д(й) - ii jj Определив таким образом и и построив с этими значениями мат- рицу ф(/1)), мы сможем затем выполнить элементарный шаг пре* образований подобия матрицы А<к\ Это преобразование для целей диа- гонализации матрицы будет оптимальным, ибо оно максимально уменьшает t2(A^). Полученные расчетные формулы несущественно отличаются от анало- гичных формул в случае вещественных симметрических матриц. Отме- тим, что все результаты, которые мы получили по сходимости и скорости сходимости метода вращений, могут быть перенесены и на эрмитовы матрицы [2]. Если матрица косоэрмитова, т. е. матрица, удовлетворяющая условию А = —Л*, то к ней-метод вращений можно применить после несложной замены. А именно, вместо матрицы А рассмотрим матрицу В, определяе- мую по правилу В = 1А.
§ 3.6. МЕТОД ВРАЩЕНИЙ 303 Легко проверить, что В = В*, и, значит, В — эрмитова матрица. К ней можно применить метод вращений и найти таким образом ее собственные значения Хд(В). Но Х/г(Л) =—йтДВ), чем и заканчивается задача о вы- числении собственных значений %&(Л) косоэрмитовой матрицы А. В заключение укажем на некоторые особенности метода вращений при его реализации на .ЭВМ. Вычислительная практика показала высо- кую надежность и нечувствительность метода вращений к таким свой- ствам матрицы, как расположение по абсолютной величине собственных значений, в частности их близость и кратность. Это делает метод вра- щений одним из наиболее эффективных методов решения полной проб- лемы собственных значений. Недостатком описанного здесь алгоритма является то, что на каждом шаге приходится отыскивать максимальный по модулю внедиагональный элемент. На эту операцию при использовании ЭВМ затрачивается много машинного времени, что снижает эффективность алгоритма. Поэтому заслуживает внимания следующий выбор внедиагонального элемента, подлежащего аннулированию на (&+1)-м шаге. Как мы видели, если аннулируемым на (/?4-1)-м шаге был элемент а$, то в силу формулы (3.6.35) должны иметь место равенства т=1, т^=р т=1, т^=р для всех /. Эти равенства говорят о том, что если в начале процесса вычислений по матрице Д(°)=Л составить суммы квадратов модулей вне- диагональных элементов каждой строки и обозначить их через п Ь1, 02, ...,Оп (Ор= 1арт]2, (р=1, 2, ..., п), т=1, т=£р то при выполнении в дальнейшем над матрицей Л(°)=Л элементарного шага преобразований с матрицей ф(0)) будут меняться только два числа, а именно и cfj, другие жё числа останутся без изменения. Этот факт позволяет находить почти максимальный (будем называть его оптимальным) элемент матрицы Л путем просмотра всего лишь 2п—1 чисел. Делается это так. Сначала находим суммы oi, 02, ... , оп и выби- раем среди них наибольшую. Пусть это будет, например, о^. Ясно, что для нахождения этой суммы надо выполнить п просмотров. Далее по ин- дексу этой суммы находим f-ю строку в матрице Лив этой строке на- ходим наибольший по модулю элемент. Это можно сделать, выполнив п—1 просмотров. Пусть таким элементом будет (/=/=0- Его и прини- мают за искомый оптимальный элемент, подлежащий аннулированию.
304 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Конечно, из сказанного здесь не следует, что оптимальный элемент будет обязательно наибольшим по модулю внедиагональным элементом матри- цы А. Однако он будет близким к такому элементу и во всяком случае будет не менее среднего квадратического всех внедиагональных элемен- тов. После аннулирования оптимального элемента суммы оч, 02, . • •, подготавливаются к следующему шагу путем пересчета только вг и Oj, другие суммы остаются прежними. Отметим, что теория метода вращений с выбором максимального элемента переносится на вариант метода вращений с выбором оптималь- ного элемента [2]. § 3.7. УТОЧНЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИИ И ПРИНАДЛЕЖАЩИХ ИМ СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ И УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ ПРИ РЕШЕНИИ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ При решении полной и частичной проблем собственных значений ино- гда возникает необходимость уточнить полученные результаты, и в таких случаях важно располагать приемами, позволяющими уточнять получен- ные приближенные собственные значения и отвечающие им собственные векторы. Необходимость уточнения может быть обусловлена различными причинами, например при решении полной проблемы собственных значе- ний методами, основанными на получении характеристического полинома матрицы, может оказаться, что из-за неустойчивости метода к ошибкам округления такой многочлен будет получен с неудовлетворительной точ- ностью и, следовательно, нельзя будет хорошо вычислить и собственные значения матрицы. Аналогично если решается частичная проблема, то, как мы видели/ большинство рассматриваемых методов в этом случае имеет медленную сходимость, не превышающую скорости сходимости геометрической про- грессии. Это обстоятельство заставляет выполнять большое число итера- ций, для того чтобы получить результат с требуемой точностью. Здесь возникает проблема ускорения сходимости медленно сходящихся после- довательностей. Такая же проблема возникает и для некоторых итераци- онных методов, предназначенных для решения систем линейных алгеб- раических уравнений. Изучению этих вопросов и посвящается настоящий параграф. 3.7.1. Уточнение полной проблемы собственных значений Пусть матрица А имеет попарно различные собственные значения, которые удовлетворяют, например, таким неравенствам: | | ^ | Х21 | Хп 1. Предположим, что, используя какой-либо из методов, рассмотренных нами в этой главе, мы нашли приближенные собственные значения
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 305 Ai, Аг, ... , матрицы А и отвечающие им приближенные собственные векторы Xi, х2, ... , хп. Пусть нам известны также и приближенные соб- ственные векторы У1, у2, ..., уп сопряженной матрицы А*, Поставим задачу уточнить всю совокупность перечисленных прибли- женных величин. Уточненные значения U, Xi и yi будем разыскивать в виде (3.7.1) где величины ДА$, Дхг-, Af/г имеют смысл поправок, которые мы будем считать малыми и которые нам предстоит определить. Запишем разложение векторов хг-|-Дхг- и Уг+Ауг соответственно по базисам хь х2,..., хп и t/i, у2, ..., Уп' (3.7.2) Поскольку собственные векторы xit х2, ... , хп и уи у2, ... , уп опре- деляются с точностью до произвольного множителя, то можно, не нару- шая общности, положить в приведенных выше разложениях коэффици- енты Иц и gu равными единице. Тогда из формулы (3.7.2) получим п Agi— ёгЗУэ- j=i, j=Ai (3.7.3) Так как Дхг- и Ayi по предположению малы, то в силу формулы (3.7.3) малыми, вообще говоря, должны быть и числа /гг> gij. Эта формула пока- зывает, что если мы сможем определить числа hij и gij, то тем самым будут определены и искомые поправки Дхг-, Ayi. Поэтому сейчас перед нами встает проблема нахождения коэффициентов hij, gij и поправки ДАг.
306 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Укажем способ вычисления ДАг- и коэффициентов hij и gij через не- вязки известного нам приближенного решения полной проблемы собст- венных значений, т. е. через величины (3.7.4) Si — A*gi 'hi gi, \ / где hi — числа, комплексно сопряженные с hi. Будем находить поправки ДАг-, Дхг-, Дг/г таким образом, чтобы выпол- нялись равенства Axi=hiXiy (3.7.5) A* yi=zhiyi, (3.7.6) где hi, х^ yi определяются по формулам (3.7.1). Перепишем формулу (3.7.5) в таком виде: Л (Xi“f"AXi) —‘ (Лг4“Д%г) (Xi-f-AXi). Это соотношение можно рассматривать как нелинейное уравнение отно- сительно неизвестных Д%; и ДАг*. Удерживая в этом выражении только линейные члены относительно Дхг- и Д^ и используя формулу (3.7.4), получим из него линейное уравнение AkXi—hi^Xi Ж — G + ДХг Xi. (3.7.7) Отметим, что если Дхг- и ДАг- достаточно малы, то уравнение (3.7.7) позво- лит определить главные части точных значений погрешностей, и отбра- сывание членов второго порядка малости, которое мы совершили, не повлияет сильно на окончательный результат. Образуем теперь с помо- щью формулы (3.7.7) и векторов gj .(/ = 1, 2, .. . , п) скалярные произ- ведения * (ДДХг', Z/j) hi (Дх^ уj) = (fi, //j) ДА-i (%i, t/j). (3.7.8)
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 307 Из уравнения (3.7.8) неизвестное Дх; можно исключить следующим путем. По определению (ЛДх«, Z/j) = (ДХ|, А* у]) = (ДХг, 4* (у~). Значит, с точностью до величин второго порядка малости верно равен- ство (A\xit y^—Kj^Xi, У;) А?0. (3.7.9) Положим в формулах (3.7.8) и (3.7.9) j=i, тогда для ДХ, можно полу- чить такое выражение: ДМ (3.7.10) Из этой формулы при г=1, 2, ... , п вычислим искомые поправки ДМ, ДМ, . .. , ДМъ после чего уточненные значения собственных чисел М, М, ..., Мг найдем по формуле (3.7.1). Укажем теперь правила для вычисления поправок Дхг- и Дг/г. В силу формулы (3.7.3) для этого достаточно указать правила для вычисления коэффициентов hij и gij (/ = 1, 2, ... , и). Пусть г=/=/, тогда, используя формулу (3.7.3), получим (Дхг, у>) уj) и ДМ (М‘, Г/j) ~ 0. (3.7.11) Эти приближенные равенства выводятся следующим путем. По опреде- лению величин Д%г, Хг и г/г имеем ~ ~ П ~ ~ П _ ~ ~ (Д%г, Уj) == ( his^S) Уj) — his(%s Д-^8, Уз~^~^Уз) ==- 8=1, s=#l 8=1, n _ _ 71 _ ________ Oi — d' = $7 hiS(xS) Уз)~^~ his [ (Дх5, Уз) (-^s, Дг/j) {“ (Д-^s, &Уз) ] • s=l, s^=i s=l, Учитывая, что (х5, Уз) =0 при s=^=j, для скалярного произведения (Д%г, Уз) получим:
308 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ (Дхг, уj)—yj) [ (Дх}, yj) (%j> ДУз)4“(Д^ь АУ;)]”Ь П Z^Z _ _____ Z^Z Z^Z Z*^Z Z*4Z z^z + • JE? his [— (Axs, yj) — (xs, by,) + (Дх4, Ду,) ] =hij(xj, yj) + 8=1, s=#i, j П ~ + 2 [—(Д*»« f/j)~ (*s, Ду/) + (Дх4, At/j)]. s=l, s=#i, j Отсюда следует первое приближенное равенство из формулы (3.7.11). Второе приближенное равенство становится очевидным, если учесть усло- вие (Х;, У^=0 при £=/=/ И формулы (3.7.1). Далее с помощью формулы (3.7.9) из уравнения (3.7.8) получим ХДДХг', Уj) Хг’(Дхг*, gj') (/*{, Уj') "4~ДХг (Хг', уj) . Отбрасывая здесь величину ДХДхг, г/j), имеющую второй порядок мало- сти относительно ДМ-, Дхг-, Ayj, и учитывая, что (Дхг-, yj) ~hij(Xj, у^). окон- чательно получим следующее приближенное уравнение для определе- ния hiji Z^Z Z^Z (Xj Хг’) h{j (Xj, yj) (гi, у j) . Таким образом, коэффициент можно находить по формуле (/=1,2, ...,п, /=#0. (3.7.12) Аналогично из формулы (3.7.6) можно получить правило также и для вычисления коэффициента I (^г, Xj) gij^ L’ 2 (/=1,2,..., и, МО. (3.7.13) (A,, Xj) (Xj, У)) После того как будут найдены коэффициенты и gij, по формуле (3.7.3) определяются поправки Дх^ и Дг/г- и по правилу (3.7.1) —уточ- ек ненные значения соответствующих собственных векторов Xi и yi. Заме- тим, что для определения поправок ДХг- и коэффициентов gij, кроме
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 309 исходных величин Хг-, хг-, Уй необходимо знать еще невязки гг- и $г, т. е. те величины, которые получаются в результате контрольных вычислений. Если при контрольных вычислениях окажется, что невязка Г{ велика, то вторую невязку Si можно по формуле (3.7.4) не вычислять, ибо она нужна только для вычисления коэффициентов gij. А эти коэффициенты после определения hij можно находить, как в этом легко убедиться, по формуле ------------Уj) 4~^ij(Xj, Z/j) gij___. ~ ~ ’ (Хг, Z/г) где gij — число, комплексно сопряженное с gij. /X/ Избранный нами процесс определения поправок ДХг-, Дхг- и Дуг-, как можно убедиться, эквивалентен применению одного шага метода Нью- тона (гл. 1) к нелинейной системе уравнений (3.7.5) и (3.7.6). Если матрица А — вещественная и симметрическая, то Хг=уг-, и фор- мулу (3.7.10) и (3.7.12) упрощаются: Изложенный здесь способ уточнения собственных значений и векторов матрицы А следует повторить, если полученные уточненные величины будут неудовлетворительными по точности. 3.7.2. Уточнение отдельного собственного значения и принадлежащего ему собственного вектора Пусть мы нашли приближенное собственное значение % и отвечающий ему собственный вектор х некоторой матрицы А. Соответствующие точ- ные значения обозначим через X и х. Пусть Х=Х-|-ДХ, х=х+Дх.
310 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Поставим задачу определить поправки ДА и Дх, исходя только из прибли- женных значений А, х и матрицы А. При принятых здесь обозначениях формула (3.7.7) (в ней Аг, Хг и гг- заменяются соответственно на А, х и г) может быть записана в таком виде: —ДА x-j- (Д—А)Дх«—г, (3.7.14) где г=Ах—Кх. Обозначим х= (хь х2,..., хп)', Дх= (Дхь Дх2, ... , Дхп)г, r=(rb г2, ... , гпу. Тогда из уравнения (3.7.14) в компонентах векторов х, Дх и г получим следующую систему нелинейных уравнений: —ДАХ1+ (бХц—А) ДХ1+^12Дх2+. . .“}-'Л1пДХп.^—гь — ДАХ2+#21ДХ1+(#22—А)Дх2-|-. . .+ П2пДХп^—^2, (3.7.15) AX%n-|_^nlA-£l-|_^n2AX2~f-. .(япп—Х)ДхпЛ1—fп. В этой системе п уравнений и п+1 неизвестных: ДА, Дхь , Дхп. Поскольку собственный вектор х определен с точностью до постоянного множителя, то, не нарушая общности, можно считать, что первая компо- нента Дх4 вектора Дх равна нулю. Положив в системе (3.7.15) ДХ1 = 0, находим ее решение и на основании полученных величин ДА, Дх вычис- ляем уточненное собственное значение А=А+ДА и отвечающий ему уточненный собственный вектор х=х+Дх. При необходимости процесс можно повторить. Изложенный здесь прием указан Дерведюэ. Для симметрических матриц можно указать более эффективное правило улучшения отдельного собственного значения и принадлежащего ему собственного вектора. В осно- ве такого правила лежит принцип возмущений, разработанный М. К. Гавуриным [4]. - Применительно к симметрическим матрицам суть принципа возмущений состоит в сле- дующем. Пусть До и А — некоторые симметрические матрицы, одну из которых можно, вообще говоря, рассматривать как матрицу, полученную в результате вариации другой матрицы. Пусть Ао — простое собственное значение матрицы До, а хо — соответствующий Ао собственный вектор, так что До*о = АоХо. Определим вспомогательную матрицу R из условий 7? (До—К0Е)у = у, /?хо = О, где у — любой вектор, ортогональный к вектору Хо.
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 311 Матрица 7? существует. Действительно, если потребовать, чтобы условие /?(Л0—UE)y=y выполнялось на подпространстве векторов у, ортогональных к вектору, хо, то это будет эквивалентно образованию системы п2—п линейных уравнений для определения п2 эле- ментов матрицы R: (j=l, 2, , п— 1),- где (Уъ *о) =0 и векторы r/i, г/г, ... , yn-i линейно независимы. Если учесть еще условие /?хо = О, то для определения элементов матрицы R мы получим линейную систему п2 уравнений вида ВъГ = Ь, где приняты обозначения: 0 Z11 Z12 Z21 Z22 -.. zni .. . Zn2 z = • • • • • • • • • 4 • 2 _ Zm—1 .Хю Z2n —1 Х20 . . • Zn n — 1 . . . XnO zj = (До—UE)yjt yj= (уц, y2j, ...» т/n j) Zj = (Zij, %2j> • • . , ^nj) , Xq = (Хю, X20, • • • > ^no) , 7= (7 ц, Г12, ... , Tin» Г21, Г22» ... , 7гn,,. . . , 7nl, 7n2, ... , 7n n) b— (i/11, У12, ...» У \ n — 1, 0» ^/21, ^/22, . • • , У2 71 — 1» 0, ... , J/nl, Уn2, . • • , Уп n — 1, 0) • Матрица Ло—К0Е неособенна на подпространстве векторов r/j, ортогональных к век- тору Хо, т. е. (Ло—ХоЕ)г/;У=О. В самом деле, если бы (До—Хо£) Т/j — O, то тогда было бы Доуз = коУз и уз являлся бы собственным вектором матрицы Ло, отвечающим Хо. А это невозможно, так как (t/j, х0)=0 и Хо является простым собственным значением мат- рицы До. . Векторы уз и Хо линейно независимы, в силу вышеизложенного линейно независи- мыми будут и векторы zj, хо. Поэтому detz=#O и матрица Во неособенна. Заметим, что мы только выяснили здесь вопрос существования матрицы R. Как мы увидим далее, в рассматриваемом правиле улучшения собственного значения не будет необходимости находить элементы матрицы R из системы B$r = b. / Будем считать также, что X — собственное значение матрицы Д, а х — соответствую- щий ему собственный вектор и что для векторов х0 и х выполняется условие (х, х0)#=0. При этом можно полагать, что x = xo4~z и (z, Хо) =0.
312 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Введем в рассмотрение матрицу В и число р, определяемые по формулам В=А—До, р. A* Хо, и поставим задачу найти вектор х и число ц, используя величины R, В и Хо. Сначала проверим справедливость следующих равенств: ((цЕ-В)х, хо)=О (3.7.16) и (Е-Я(цЕ-В))х=Хо. (3.7.17) Имеем (цЕ—В)х = (КЕ—А)х— (ХоЕ—До)х = (До—ХоЕ) х, ибо (ХЕ—Д)х = 0 по определению X и х. Далее получим ((рЕ—В)х, Хо) = ((До—ХоЕ)х, х0) = (х, (До—ХоЕ)х0) =0, так как До=До/ и (До—ХоЕ)хо = О. Таким образом, справедливость формулы (3.7.16) доказана. Аналогично проверяется и справедливость формулы (3.7.17), а именно: (Е—7?(рЕ—В))х = х—R([iE—В)х = х—R (До—ХоЕ)х = = х—7? (До—ХоЕ)(хо+г) =x—R(AQ—koE)z = x—z = Xot ибо по определению R при любом ^ортогональном к Хо, 7?(До—XoE)z=z. Пусть числа ||В|| и |р| настолько малы, что матрица Е—7?(рЕ—В) невырожденная. Тогда из формулы (3.7.17) можно выразить вектор х: х= (E—R (iiE-B)) -1 хо. (3.7.18) При малых ||В|| и |ц| правую часть равенства (3.7.18) можно разложить в ряд. Ограни- чиваясь членами второго порядка малости относительно р и В и принимая во внимание, что 7?хо = О, получим формулу для приближенного вычисления вектора х: х » Хо—RBxo+RBRBxq—р7?2Вх0. (3.7.19) Умножив сначала слева это равенство на матрицу рЕ—В, а затем обе части скалярно на вектор х0 и принимая во внимание равенство (3.7.16), для приближенного вычисле- ния р найдем такую формулу: (Вхо, Xq) — (RBxo, Bxo) + (BRBxq, RBxo) Р «------------—=---------2---------------. (3.7.20) ||xoll2+ll7?Bxoll2 Этим заканчивается решение зад'ачи об определении вектора х и числа р. Применим высказанные здесь соображения к решению задачи об уточнении отдель- ного собственного значения симметрической матрицы и отвечающего ему собственного вектора.
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 313 Предположим, что для рассматриваемой симметрической матрицы А мй каким-либо способом нашли приближенный собственный вектор Хо', который будем считать норми- рованным в евклидовой метрике, и приближенное собственное значение Хо = (Дх0, х0). Соответствующие точные значения для матрицы А обозначим через X и х. Полученные выше результаты можно будет применить, если мы построим такую симметрическую матрицу До’ для которой Хо и х0 будут точными собственными значением и вектором, т. е. будет выполняться условие Дохо = ХоХО. Можно показать, что искомой матрицей будет матрица До=Д—Хог'—гх0',! где г=Дх0—ХоХо. Действительно, матрица До симметрична, ибо AJ—A'—rxo'—хог'=А—Хог'—rxo'=Ao и для нее выполняется условие ДоХо = ХоХо, так как ДоХо = ХоХО—(х0, г)хо = %оХо— (хо" Ахо—Хохо)хо = = ХоХо—[(хо, Дхо)—Хо (Хо, Хо)]хо = ЛоХо. Здесь выражение в квадратных скобках равно нулю, потому что по предположению (Хо, хо) =1 иХ0 = (Дх0, Хо). На основании формул (3.7.19) и (3.7.20) теперь можно записать такие формулы для приближенного вычисления х и X: х ж Xo—Rr—pj?2r, (3.7.21) (Rry г) Х«Хо----------(3.7.22) шт2 Здесь учтено, что ||хо||2=(хо, х0) = 1,‘ Вхо= (Д— До).хо= (хо г'+г хо')7о=г, (г, *о) =0 и RBRr=l). (3.7.23) При вычислениях по формулам (3.7.21) и (3.7.22) достаточно знать не матрицу R, а век- торы Zi = Rr и Z2 = R2ry которые можно находить соответственно из систем , (До—Хо£)?1 = г, (zi, Хо) =0 и (До—KqE) Z2 = ?it I (z2, хо)=О, Так как |До—Хо£|=О, то одно из первых п уравнений в системах (3.7.23) и (3.7.24) может быть отброшено при решении и затем использовано только лишь для контроля правильности вычислений. Найдя из этих систем векторы Zi и z2, уточняем далее по формулам (3.7.21) и (3.7.22) собственный вектор и собственное значение.
314 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ — I Заметим, что если в формуле (3.7.21) отбросить член ytR2r второго порядка малости! относительно величин р, и г, то отпадет необходимость в решении системы (3.7.24), из которой определяется вектор Z2 — R2r. При проведении итерационного процесса посредством «-кратного повторного приме- 5П нения формул (3.7.21) и (3.7.22) скорость сходимости будет иметь порядок q , где q = их — расстояние от уточняемого собственного значения до ближай- шего соседнего, г=Лх0—%о*о. Если аналогично использовать формулу (3.7.21) с отбра- — зп сыванием в ней члена ц/?2г, то скорость сходимости будет иметь порядок q . Более подробно об оценках такого рода можно прочитать в упомянутой работе М. К. Гаву- рин.а [4]. 3.7.3. 62-Процесс Эйткена . В §3.5 мы отмечали, что степенной метод нахождения наибольшего по абсолютной величине собственного значения матрицы во многих слу- чаях имеет недостаточно быструю сходимость, что требует выполнения большого числа итераций для получения решения с желаемой точностью. Ниже!мы рассмотрим приемы ускорения сходимости некоторых последо- вательностей и, в' частности, последовательностей, получающихся при использовании степенного метода. Одним из таких приемов является 62-пропесс Эйткена, о котором уже говорилось в § 1.3. ' Напомним существо проблемы. Пусть задана числовая или функцио- нальная последовательность . , ип, ... Требуется преобразовать эту последовательность в новую последовательность которая схо- дилась бы к тому же самому пределу, что и последовательность {ип}, но быстрее последней. . Каждый член последовательности {vn} будем определять по формуле Эйткена °-= <"='2' <3-7-25’ W’n-j-l ZU 71 ~Г^П—1 где предполагается, что un+i—2^n+^n-i¥=0. Если последовательность {ип} сходится со скоростью геометрической прогрессии или близкой к ней, то, как указывалось в § 1.3, преобразование членов этой последо- вательности по формуле (3.7.25) может дать точное значение предела или сильно улучшить сходимость. Если собственные значения матрицы А удовлетворяют условию | Xi | > | %21 > | | то преобразование Эйткена можно использовать для ускорения сходи- мости последовательности {М(,1)}, возникающей в степенном методе. Изве- стно, что в этом случае
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 315 И (fe) _ Ув ' у»' ' (3.7.26) Поскольку Л* изменяется по закону, близкому к геометрической про- грессии, то можно ожидать, что последовательность {^а}, каждый член которой определяется по формуле Эйткена = [^)]2 (*=1, 2, ...), будет иметь более быструю сходимость к искомому пределу Xi — наи- большему по абсолютной величине собственному значению матрицы А. Будем считать, что собственное значение М найдено достаточно точно. В этом случае б2-процесс Эйткена можно применить также и к определе- нию уточненного собственного вектора, отвечающего М. Приближенно собственный вектор, отвечающий Xi, в силу, формулы (3.5.8) равен /у(Ю=У4(^(0)ф Правило уточнения собственного вектора построим таким образом, чтобы каждая компонента вектора уточнялась отдельно. В силу формулы (3.5.4) для s-й компоненты вектора у№ имеем ^) = psl^+₽s2V+. . .+psn^; Рассмотрим наряду с вектором векторы и выберем в этих, векторах компоненты у(к~*\ Составим величины о о и применим к ним формулу Эйткена. Тогда получим (3.7.27)-
316 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ Аналогичное выражение можно записать и для у№: $ Поскольку по предположению 11+0 А-i ^2 Xi (3.7.28) , то из формул (3.7.27) и (3.7.28) следует, что последовательность будет быстрее, чем по- следовательность {ys }, сходиться к искомому пределу — s-и компоненте собственного вектора, отвечающего Причем эта сходимость будет тем быстрее, чем |Хз| меньше |Х2|. Укажем еще, как в некоторых случаях изложенный здесь прием мож- но использовать и для решения задачи об ускорении сходимости итера- ционных последовательностей, возникающих при решении систем урав- нений. Пусть рассматривается следующая система: Ах=Ь. Запишем для нее формулу стационарного линейного итерационного про- цесса в виде = ВхМ+СЬ, (3.7.29) где В и С — такие матрицы, что В+СА=Е. (3.7.30) Будем считать, что матрица В имеет линейные элементарные де- лители и все ее собственные значения вещественны, причем |XJ<;1 (Z=l, 2, ... , п). Предположим также, что М является наибольшим по абсолютной величине собственным значением матрицы В. Обозначим собственные векторы этой матрицы через z^ z2, ... , zn и разложим по ним вектор х^—х<°), где х^ — точное решение системы Ах=Ь, а х<°) — некоторое начальное приближение к решению: %(*)—х(°)=а121+а2г2+.. .+апгп. (3.7.31) Как ранее было показано (п. 2.2.2), имеет место равенство %(*)—х№ = Вт (%(*)—х(°)), (3.7.32) где х№— приближение номера т, полученное по формуле (3.7.29) при начальном векторе х<°). В силу формул (3.7.31) и (3.7.32) имеем
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 317 х(*)—х(™)=ai^zi+a2X^z2+.. .+an^mzn. (3.7.33) 1 6* Записывая это равенство для s-й компоненты векторов, получим х*—x(™)=aiX72sl4-a2X™zs2+.. .+an^zsn, (3.7.34) Ь о Л £ Tt где zSk есть s-я компонента вектора z^ s=l, 2, ... , п. Формулу (3.7.34) можно записать иначе: %(«)=%(*)—[1+о( ^2 в предположении, что т достаточно велико. Из этой формулы видно, что х(ш) изменяется по закону, близкому к геометрической прогрессии, поэто- му последовательность где „(т+1) , (т) . 2 v(m)= Xs Xs > s x(m+1)—2x(m'>-lt-x(m-^ ’ S 8 S будет быстрее сходиться к Xs*} — s-й компоненте искомого решения х<*\ чем последовательность (xs б2-Процесс Эйткена можно обобщить и на итерационные процессы с матрицей В, у которой преобладающих по абсолютной величине соб- ственных значений будет два или больше. В этом случае формулы Эйтке- на усложняются, и мы их здесь приводить не будем. Они имеются в учеб- ном пособии [1]. 3.7.4. Метод М. К. Гавурина Пусть, к'ак и ранее, рассматривается система линейных алгебраиче- ских уравнений Ax=b и для численного нахождения решения этой системы, избрана формула (3.7.29) с некоторым начальным вектором х(°). Предположим, что матрица В удовлетворяет сформулированным в пре- дыдущем пункте условиям и итерационная последовательность, построен- ная по формуле (3.7.29), имеет медленную сходимость к своему пределу %(*) — решению системы Ах=Ь. Это будет иметь место, например, в слу- чае, когда все собственные значения матрицы В по абсолютной вели- чине меньше единицы, но среди |Хг| есть некоторые, близкие к единице. Действительно, в силу формулы (3.7.33) при некотором |Хг | 1 в векторе ошибок %<*)—составляющая aA™%i будет медленно убывать при воз-
318 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ растании т. Как можно ускорить сходимость в таком случае? Очевидно, что решению проблемы способствовали бы такие преобразования после- довательности {х<т>}, которые позволили бы уменьшить влияние компо- ненты аАг^г И некоторых других компонент, ДЛЯ которых |Xj| близок к единице, в разложениях типа (3.7.33). Делается это следующим путем. Пусть, начиная с некоторого векто- ра х<°), мы вычислили по. формуле (3.7.29) векторы х^\ х<2>, ... , x^+O. Составим разности xW—x<°V х<2)—xW, . . . , x<s+1)—x<s) и укажем правило для определения некоторых коэффициентов ai таким образом, чтобы век- тор у, вычисляемый по формуле y=x(O)_|_ao(x(D—х(°)).+.. ,4-as(x(s+1)_^)), (3.7.35). возможно точнее совпал с вектором х(*)— решением системы Ах = Ь, Запишем разложение вектора х^—х<°) по собственным векторам Zi мат- рицы В: хС1)—X(0) = p1Z1+p2Z2+? .' . + pnZn. Используя формулу (3.7.29), для вектора х^-хЮ получим х<2)—х^ = в(х^~ х(°)). Значит, х^2)—х(1) = рД1г1+р2Х2г2+.. -Ч-ртАп^п- По аналогии для любого вектора x(M-i)_-x(fe)=B(x(fe)—х^-1)) найдем вы- ражение x(ft+i)_xW==p1^z1+p2%*z2+.:.+₽n^'zn= JjpA^- (3.7.36) г=1 (£=0,1,2,...). По условию последовательность {x(fe>} — сходящаяся (lim по- _ fe->oo этому точное решение х^ можно записать в виде fe=0 fe=0 2=1 — п R. _ =Х(0)+ % Zi< (3.7.37)
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 319 ибо |^|<1 и , л 1 Для вектора же у в силу формул (3.7.35) и (3.7.36) получим теперь такое выражение: _ S fl 71 __ у=х«»+ £ак ^piP(Xi)zf, (3.7.38) k—О г=1 г=1 где через Р(Л) обозначен многочлен 8 Р(Х)= S fe=0 Таким образом, разность —у можно представить в форме (3.7.39) По смыслу задачи мы должны стремиться уменьшить разность xW—y, Сделать это мы сможем за счет выбора коэффициентов а;, ибо из фор- мулы (3.7.39) видно, что чем меньше будут разности 1 1— U -Р(Хг) по модулю, тем меньше будет и норма вектора х^—у. Пусть max =Л4<1. В связи с вышеизложенным, задача мини- мизации разности х<*)—у сводится теперь к следующему: найти много- член степени не выше s, такой, чтобы он на отрезке [—Л4, Л4] наи- А 1 менее отклонялся от функции -——. Полином степени $, удовлетворяю- 1 —л щий последнему требованию, известен (см. [1], гл. IV, задача 10) и равен
320 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ где а= 4 V1F “1 ’ Ti+i (/) (0 ~Ti-1 (/) ’ 7о(/) = 1, i=l, 2, ...,s, te[-l, 1]. Следовательно, алгоритм метода Гавурина может быть реализован таким образом: 1) по формуле (3.7.29) вычисляем несколько приближений к реше- нию, например, х(1), х(2\ ... , x<s+1) (s^ 1); 2) определяем каким-либо приближенным путем число М и по ука- занной выше формуле находим коэффициенты ад многочлена Р(Х); 3) используя эти коэффициенты, получаем по формуле (3.7.35) век- тор у, являющийся более точным приближением к искомому решению системы, чем вектор x(s+1\ Отметим, что для больших значений s вычисления по формуле (3.7.35) могут быть связаны с потерей значащих цифр из-за сильного возрастания коэффициентов аь. Поэтому s большим брать в разложении (3.7.35) не всегда можно. 3.7.5. Метод Л. А. Люстерника Идея метода заключается в выделении главной части из остатка. Пусть опять мы рассматриваем систему уравнений Ах=Ь и решение этой системы отыскиваем по итерационной формуле (3.7.29). Предположим, что мы вычислили несколько членов итерационной последовательности и убедились, что ее сходимость недостаточно быстрая. Поэтому перед нами встает вопрос об ускорении сходимости последовательности Это можно сделать в отдельных случаях, а именно, когда: 1) матрица В обладает полной системой собственных векторов; 2) среди собственных чисел Xi матрицы В есть наибольшее по моду- лю т е (3.7.40) Поскольку мы предположили последовательность {х^>} сходящейся к решению х№ системы Ах=Ь и начальный вектор х<°) считается произ- вольным, то мы должны считать, что |Хг| <1 (*=1, 2, ... , п). Итак, получим остаток х^—х^ и найдем его главную часть. По фор- муле (3.7.36) имеем x(fe+i)-x(h)= £ (6=0, 1,2,...). (3.7.41) 1=1
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 321 Значит, (3.7.42) Если k достаточно велико, то в силу условий (3.7.40) из формул (3.7.41) и (3.7.42) сможем выделить главные части и получить приближенные равенства x(A+i)-x(fe)» р Д?Z1, (3.7.43) _ _ ________ x<*)-xW « Pi —(3.7.44) 1 —Л1 Определим из формулы (3.7.43) вектор Pi^i и подставим это значение в формулу (3.7.44), тогда для вектора х<*> приближенно получим %(*) ж х^+ —— 1—Zi (X(b+i)__x(fe)). Следовательно, можно ожидать, что вектор г/, определяемый по формуле ------1— (X(fe+i)_x(fe)) ( 1— (3.7.45) где через М обозначено приближенное наибольшее по модулю собствен- ное значение матрицы В, будет ближе к х(*\ чем вектор или х&+1\ Оценим разность х<*>—у. Будем считать, что для вычисления Ai ис- пользуется последовательность {х^}. Это возможно осуществить, ибо в силу формулы (3.7.41) имеем: д;(Ы-1)-X(fe) = PlZ^21-|-p2^2^24“- • * + Рп^ 1 . 7с> ^)^-1)=р1^-1г1+р2^-1г2+.. ,+Рп^"1^. Значит, Ai может быть определено как отношение одноименных ком- понент векторов х^-и)—x(k) и x(k)—%(&-!). в этом случае, как это было по- казано в п. 3.5.1, можно положить Xi—Ai-j-e,
322 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ где ^2 Xi k Установим связь между векторами х^—у и для чего введем в рассмотрение матрицу В1у определяемую равенством В1= —5— [В—Х1Е]. 1—м Легко проверить, что у=В^ (%(*)—Действительно, %(*)—У = х^—Х^----------------(x(fe+l)—-%(&)) =%(*)—%(Ю— i-£i ----!--- [ (х<Л+1)—Г(*)) + (х<*)—xW) ] = —?------В (х(*)—x<ft>) + 1 —£i 1 —Xi так как х<*>—x(ft+1) = В (х<*>—х№). Далее, используя формулу (3.7.42), получим %(*)—у = Bt (%<*>—Х^)) = -------- [ S— P1^1 + 1 —Xi . ^2 (^2—М) о — I । ^п(^п—М) п “ 1 Ч---------Г-2" ₽2Z2+. • .4---------7---— I • 1 Л^2 1 A-jx ^2 Учитывая, что е = О ) , будем иметь х(*)—^=0 (|Х2| (3.7.46) Так как д силу формулы (3.7.44) ^»)-^)=О(|Л1р)г1, (3.7.47) то из равенств (3.7.46) и (3.7.47) следует, что улучшение сходимости л будет тем больше, чем меньше отношение -т— .
§ 3.7. УСКОРЕНИЕ СХОДИМОСТИ МЕТОДА ИТЕРАЦИИ 323 Если Xi близко к 1, то множитель------ может принимать большое 1—М значение и при вычислениях по формуле (3.7.45) из-за этого может прои- зойти потеря значащих цифр. Поэтому вместо названной формулы целе- сообразно пользоваться следующей: у=х<М-]----’--(х(Л+Р)—%(?)) 1—Z? (при условии, что Х* существенно меньше 1). Эта формула выводится так же, как и формула (3.7.45). Метод Л. А. Люстерника можно распространить и на случай, когда матрица В имеет несколько равных наибольших по модулю собственных значений, т. е. | Xi | = | Х21 — Покажем, как это можно сделать при наличии у матрицы пары ком- плексно сопряженных собственных значений, наибольших по модулю. Матрицу В будем считать вещественной и предположим, что | Х1 | = | Х2 | > | Хз | Xi = Х2, где через Х2 обозначено число, комплексно сопряженное с Хг. Собствен- ным значениям Xi и Х2 соответствуют комплексно сопряженные собствен- ные векторы Zi и г2 матрицы В. При достаточно большом k из формул (3.7.41) и (3.7.42) получим приближенные равенства X(A+i)__x(fe) ~ рД^+РгХ^Зг, 1 М (3.7.48) %(fe+2)_x(fe+i) ~ р ДМ-‘21+р2^+1г2 (3.7.49) и А А А А — — ’ Ai — А? — %(*)_X(fe) ~ — p1Z1_|_ — p2z2. 1 —Ai 1 —Аг (3.7.50) Из равенств (3.7.48) и (3.7.49) найдем векторы PiZi и p2z2 и подставим эти значения в равенство (3.7.50). Тогда для вектора будет справед- ливо следующее приближенное равенство:
324 Гл. 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ [ 1 — (Х1+Х2) ] 1 (Аг1“|“^2) 4"^1^2 где s=x(ft+2)—х^+Ч p=x(h^—х<4 Таким образом, в качестве вектора у, улучшенного приближения к х{*\ в этом случае следует взять вектор у=х^+ [1 (М+^2) ]p-f-s 1 — (X1-I-X2) 4-ZA2 где через М и %2 обозначена пара приближенных комплексно сопряжен- ных собственных значений матрицы В. Литература 1. Б е р е з и н И. С., Ж и д к о в Н. П. Методы вычислений, т. I. М., 1966. 2. Воеводин В. В. Численные методы алгебры (теория и алгорифмы). М., 1966. 3. Г а в у р и н М. К. Применение полиномов наилучшего приближения к улучшению сходимости итерационных процессов. УМН, 5 : 3, (37), 1956. 4. Г а в у р и н М. К. О методе ложных возмущений для разыскания собственных значений. Журн. вычисл. матем. и матем. физики, I, № 5, 1961. 5. Д е м и д о в и ч Б. П., Марон И. А. Основы вычислительной математики. М., 1963. 6. Л а н ц о ш К. Практические методы прикладного анализа. М., 1961. 7. Л ю с т е р н и к Л. А. Замечания к численному решению краевых задач для урав- нения Лапласа и вычислению собственных значений методом сеток. Тр. матем. ин-та им. В. А. Стеклова, 20, 1947. 8. М и л н В. Э. Численный анализ. М., 1951. 9. Ф а д д е е в Д. К., Ф а д д е е в а В. Н. Вычислительные методы линейной алгебры. М., 1963. 10. Хаусхолдер А. С. Основы численного анализа. М., 1956. 11. Aitken A. Studies in practical mathematics, II. The evalution of the latent roots and latent vectors of a matrix. Proc. Roy. Soc. Edinburgh, Sec. A., 1936, 1937, 57. 12. Derwidue L. Une methode mecanique de calcul des vecteurs d’une matrice quelconque. Bull. Soc. roy. sci. hiege, 24, № 5, 1955.
Глава 4 ИНТЕРПОЛИРОВАНИЕ § 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 4.1.1. Об интерполяционных приближениях Слово «интерполирование» означает нахождение промежуточных зна- чений. В математике этому термину придают более определенный, однако не всегда одинаковый смысл. Причиной такого расхождения в понимании в первую очередь является то обстоятельство, что проблемы, которые можно отнести к интерполяционным, очень разнообразны и методы реше- ния их могут сильно различаться между собой. Мы будем рассматривать лишь частную задачу интерполирования, в которой целью является нахождение значений функции. В достаточно общей форме эта задача может быть высказана в следующих словах. Пусть на конечном или бесконечном отрезке <Z.a, Ь> рассматривается некоторая m-кратно непрерывно дифференцируемая функция f. Предпо- ложим, что в kQ точках xOi, *02, ... , %оло известны значения функции f (xoi), /(*02), ...» f(^ofeo), в ki точках Хн, %i2, ... , хц^ известны значения первой производной от нее f'(xn), ... , /'(хцц) и т. д. и в km точках xmi, ... , xmhm известны значения производной от f порядка т: .. . , Все перечисленные величины называются исходными данными интер- полирования, а точки Xij — узлами интерполирования. Общее число известных значений функции f и производных обозна- чим п: &0+&1+.. ,-]-km=n. Возьмем любую точку х отличную от узлов ХОг (4=1, ... , йо), и поставим себе задачу найти, пользуясь исходными дан- ными, значение f(x). Такая задача является, очевидно, весьма неопреде- ленной и может решаться лишь приближенно. Чтобы понять степень ее неопределенности, достаточно рассмотреть простейший случай задачи, когда интерполирование выполняется по значениям только самой функ- ции, значения же производных отсутствуют. Пусть в п точках Xi, х2, ... , хп известны значения yi = f (*i), t/2=/(а:2)»...» yn=f(xn) функции f. Геомет- рически это означает, что в плоскости с системой координат ху даны п точек Mk(Xk, уь) (й=1, 2, ... , и) на графике I функции f. По ним мы должны найти f(x), и так как х может быть любой точкой отрезка b>, то дело идет о восстановлении графика f (х) на <а, &>. Прежде всего необходимо условиться о том, должна ли линия, кото- рую мы предполагаем приближенно принять за график /, точно прохо-
326 Гл. 4. ИНТЕРПОЛИРОВАНИЕ дить через заданные точки Mh или она должна идти лишь достаточно близко от них. Необходимость в таком условии возникает, например, в' том случае, когда значения находятся из опыта. Точность таких значений бы- вает, как правило, невысокой и ограничивается точностью измерений. В таких задачах излишне требовать, чтобы линия, которую мы должны построить, проходила точно через точки достаточно, чтобы она откло- нялась от Mk по ординате у на величину, не большую погрешности изме- рений. Такой же вопрос, если говорить о принципиальной стороне дела, воз- никает и при нахождении значений функции f, заданной таблично. Точ- ность совпадения f(Xk) и ординат нужной нам линии при x=Xk (й= 1, ... , п) должна быть не выше точности таблицы. В нашем изложении мы встанем на крайнюю точку зрения и будем требовать точного прохождения линии через Mk. Отметим лишь, что та- кая постановка задачи интерполирования является не единственно воз- можной и не во всех случаях самой целесообразной. Допустим, что через точки Mk (6=1, ... , п) мы провели некоторую линию % и пусть ср(х) есть функция, для которой % будет графиком. ф(х) ниже мы будем называть интерполяционным приближением к f(x). По построению <р будет выполнять равенства <p(xA)=/(xft) (k=l, 2,..., п). (4.1.1) Таких линий % и соответствующих им функций ср существует бесконечное множество. В узлах интерполирования f и. ср совпадают, но, когда х изменяется между узлами или в стороне от их расположения, линии I и X могут рас- ходиться й расхождение может быть весьма сильным, даже если узлов много и они мало удалены друг от друга. Так может случиться, например, когда I будет сильно извилистой или даже р-азрывной линией, а в каче- стве К мы возьмем аналитическую линию или линию, обладающую высо- ким порядком гладкости. Чтобы надеяться получить удовлетворительное совпадение I и X, нужно как-то согласовать между собой свойства этих линий. Но выбор способа проведения линии К есть не что иное, как выбор правила интерполирования. Если с наглядного геометрического языка перейти на язык числовых переменных, то можно сказать, что для получе- ния удовлетворительного правила интерполирования необходимо способ интерполирования в каких-то разумных границах согласовать с заранее известными свойствами интерполируемой функции /, такими, как непре- рывность, дифференцируемость, аналитичность и др. О таком согласова- нии мы будем говорить более подробно немного позже, а сейчас приведем простые пояснительные примеры. Если функция f достаточно гладкая и ее нужно интерполировать на конечном отрезке, то можно надеяться получить хорошую точность, если интерполирующую функцию ср искать среди целых алгебраических многочленов.
§ 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 327 Когда необходимо интерполировать функцию f на полуоси [0, оо), гладкую там и имеющую конечный предел lim f(x) =f(-|-oo), то в каче- х->оо стве интерполирующей функции можно взять рациональную функцию где Р и Q — многочлены, причем степень Р не больше степени Q и нули знаменателя Q лежат вне полуоси [0, оо). Наконец, если мы интерполируем на всей оси гладкую периодическую функцию, то можем воспользоваться тригонометрическим многочленом с тем же периодом и т. д. В предшествующем изложении мы хотели обратить внимание на то, что в задаче интерполирования функций, даже при строгом выполнении исходных условий типа (4.1.1), остается еще большой произвол в способе построения интерполяционного приближения ф и этим произволом нужно воспользоваться так, чтобы добиться, насколько это окажется возмож- ным, лучшей точности результата в нахождении значений f. Возвратимся теперь к общей задаче, сформулированной нами раньше, об интерполировании f(x) по нескольким значениям самой функции и производных от нее до порядка т. Пусть задано множество F функций f, подлежащих интерполирова- нию. Обычно это бывает множество функций, обладающих одинаковыми структурными свойствами, такими, например, как одинаковый порядок дифференцируемости, периодичность, аналитичность и др. Предположим также, что мы выбрали множество Ф функций ср, среди которых будем находить интерполяционные приближения для каждой функции f. Функ- ция ср должна удовлетворять условиям q>(i)(^j)=f(i)(^j) (/=1, 2, ... , ki, f=0, 1, ... , tri). (4.1.2) Нашей ближайшей целью будет указать на некоторые требования, кото- рым должен быть подчинен выбор множества Ф, чтобы при интерполиро- вании можно было надеяться на хорошую точность. Прежде всего необходимо указать на техническое требование, кото- рому должны удовлетворять функции ср. Они применяются для прибли- жения и нахождения значений f и поэтому должны быть достаточно простыми и удобными для вычислений. Число т, являющееся наивысшим порядком производных, входящих в условия (4.1.2), будем считать для простоты фиксированным, что же касается чисел ki (/=(), 1, ..., tn) и, следовательно, общего числа усло- вий n=/e0+&i+-. то их мы будем предполагать произвольными, по определенными в каждой частной задаче интерполирования.
328 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Формальные требования, которые предъявляет к множеству Ф сама проблема интерполирования, состоят в следующем. Во-первых, в условия (4.1.2) входят значения ф(т)(л:т^) и, так как узлы xmj (/=1, ...» km) могут лежать в любом месте отрезка и f непрерывно дифференцируема там, функции ф должны быть т-кратно непрерывно дифференцируемыми на &>. Во-вторых, число условий (4.1.2) равно п и, чтобы выполнить их, нужно, вообще говоря, иметь семейство функции ф, зависящее от п чис- ленных параметров: ф=фп(х, ai, а2, ... , ап). (4.1.3) Последние выбирают так, чтобы выполнялись уравнения д* dxi tZ2, • • • , О-п) — (4.1.4) (/= 1, 2, ... , ki, Z=0, 1, ... , m). В реальных задачах множества функций f, для которых строятся пра- вила интерполирования, бывают весьма широкими и среди функций f будет существовать такая, для которой будут равны наперед за- данным произвольным числам. Поэтому необходимо требовать, чтобы система (4.1.4) была разрешимой при любых правых частях fW(Xij),*) Третье требование, предъявляемое к выбору множества Ф, которое будет определено через несколько строк, является, по сути дела, условием плотности Ф повсюду в множестве F. Оно не достаточно для возможности сколь угодно точного интерполирования f, но, как будет видно из даль- нейшего изложения, является необходимым в том смысле, что если это условие не выполняется, то интерполировать функцию fczF со сколь угодно малой погрешностью можно будет лишь в исключительных, как правило, случаях. До настоящего места мы предполагали узлы х^ фиксированными и говорили только об одном шаге интерполяционного процесса. Он опре- деляется таблицей узлов **) *) По самому смыслу интерполяционной проблемы, если заданы исходные условия (4.1.2), то интерполяционное приближение ф должно определяться однозначно. Когда система (4.1.4) имеет несколько решений, то при подстановке их в (4.1.3) должна полу- читься одна и та же функция <рп. Если же разным решениям системы будут отвечать разные функции фп, то выбор семейства (4.1.3) следует, по-видимому, признать неудач- ным и отказаться строить при помощи такой <рп(х, at, ... , ап) интерполяционное при- ближение. **) Элементы хц таблицы зависят не только от номера п, что подразумевается, но для простоты не отмечено в (4.1.5). С изменением п могут изменяться как сами элемен- ты, так и длины строк. Некоторые строки могут оказаться пустыми. Таблицу можно было бы обозначить Xk0, ... , в тексте же принято более краткое обозначение Хп и число n~k0-{-ki+.. .-{-km, равное количеству исходных значений функции и производ- ных, принято за номер таблицы.
§ 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 329 Xoi Xq2 • • • Xofco 1 хп=- Хп Х12 • • • Xihi 1 %т1 Хт2 Xmhm . (4.1.5) и семейством функций фп(х, 0i, 02, . .. , an). Будем говорить, что задан интерполяционный процесс, если дана последовательность таблиц Хп для всяких п=1, 2, ... (или для избран- ной последовательности значений п) и последовательность соответствую- щих им семейств функций срп (х, , ап), обладающих указанными выше свойствами. За множество Ф принимается теоретико-множественная сумма се- мейств функций (4.1.3), что условно можно записать в виде Ф---U фп(*, ^1» • • • , ^п) • п Правило выбора на шаге номера п из Ф интерполяционного приближе- ния ф описано выше: из Ф выделяется семейство фп(х, ... t ап), для него по таблице Хп составляется система (4.1.4), из которой находятся параметры ... , ап. Пусть это будут значения а™\ ...» <№. Для полу- чения интерполяционного приближения осталось найденные значения подставить в уравнение семейства (4.1.3): , к / (п) (п)ч ф ) — фп (х, CL± , . . . , ап ). Чтобы оценить близость интерполяционного приближения ф(п> к f, нужно, как обычно, ввести меру погрешности приближения. Если мы хо- тим выполнить интерполирование f в одной точке х, то естественной мерой погрешности является абсолютная величина разности: lf(x)—<p(n)W I =p(f> <p(n))- Более многообразно может быть определена мера погрешности в слу- чае интерполяционного приближения на отрезке <а, 6>. Будем счи- тать сейчас, что нами избрана какая-либо мера погрешности p(f, ф(п>), и отметим, что. в последующем для конечного отрезка [а, 6] мы будем пользоваться почти исключительно метрикой С, полагая Р (f, ф(п)) = шах | / (х) —ф<п) (х) |. х Примем следующее обычное определение.
330 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Множество Ф называется всюду плотным в F, если для любой функ- ции f^F и любого е>0 существует такое пи такие значения а2, ... , ап, что будет р(А фп(х, «ь п2, ... , ап))<8. (4.1.6) Иными словами говоря, для каждой fczF существует последовательность функций фп из Ф, которая сходится к f в принятой метрике. Если семейства фп выбраны при интерполировании так, что множе- ство Ф этим свойством не обладает, то трудно рассчитывать на то, что интерполяционный процесс будет сходящимся, т. е. будет р (f, qXn>)->0 (n—>оо). В самом деле, в F будут существовать такие функции f, для каждой из которых нельзя будет построить последовательности функции ф= =фп(х, .... , пп), сходящейся к f в оценке р, как бы мы ни выбирали п и постоянные ai, ... , ап. Тогда никакая последовательность интерполя- ционных приближений не может сходиться к f. Но если Ф обладает свойством плотности всюду в F, то этого еще недостаточно, чтобы имела место сходимость интерполяционной после- довательности. В самом деле, пусть f.^F. Тогда существует последовательность фп(х, ai, аг, , оп), сходящаяся к f. Каждая из фп отвечает некоторым значениям Oi, п2, ..., оп. Возьмем какую-нибудь из фп=фп(х, щ, ... , ап) и рассмотрим интерполяционное приближение ф(п)=ф(п)(х, a(tn), ... , а^) того же номера п. При построении ф<п) параметры берутся не произ- вольно, а находятся из системы (4.1.4). Они зависят от узлов Хц, а по- следние могут быть расположены так, что будут иметь значения, далекие от значений входящих в фп(*, ai, ... , ап). Поэтому интер- поляционное приближение ф(п) может оказаться сильно отличающимся от фп(х, «1, ... , ап). Если взятая последовательность фп сходится к f, то последовательность соответствующих интерполяционных приближе- ний не обязана обладать такой сходимостью. Предшествующее изложение относилось к общему случаю, когда семейства функций (4.1.3) могли зависеть от параметров ak любым обра- зом. Картина построения приближения ф<п> значительно упрощается, если фп(х, ai, ... , ап) линейно зависит от так как тогда параметры нахо- дятся из линейной системы, и становится особенно простой и наглядной в следующем частном случае. Пусть на [а, 6] дана последовательность линейно независимых m-кратно дифференцируемых функций coi(x), со2(*), ... , ®п(х), За семейство (4.1.3) примем линейную комбинацию с произвольными коэффициентами первых п функций со&: *) Функции ©л бесконечной системы называются линейно независимыми, если любой конечный отрезок этой системы состоит из линейно независимых функций.
§ 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 331 фп — tZfCOi (х) • .“bunton (х). (4.1.7) Система (4.1.4) для нахождения численных значений будет состоять из п линейных уравнений й1СОр 4“#2(02 4“» • (-^гj) =f^ (Xij) (4.1.8) и условием ее разрешимости при всяких f(i)(Aj) будет неравенство нулю определителя системы. Решение тогда будет единственным. Множеством Ф здесь будет множество всевозможных конечных ли- нейных комбинаций из со^ вида (4.1.7). Функции cob (х) должны быть выбраны так, чтобы линейные комбина- ции их были всюду плотны в F в принятой мере погрешности р. Приведем примеры. 1. Рассмотрим систему степеней переменной х: 1, х, х2, ... , хп, ... Это — линейно независимые функции. Линейная комбинация первых п из них есть многочлен степени п—1: a0xn-1+ai*n“2+.. .+.an_i=Pn_i(x). Интерполирование при помощи многочленов называется алгебраиче- ским. Множество Ф есть множество всех многочленов с действительными коэффициентами. В математическом анализе доказывается теорема.*) Если отрезок [а, 6] конечный и замкнутый и функция f непрерывна там вместе с производными первых пг порядков, то для всякого е>>0 существует многочлен некоторой степени п Рп(х), для которого при вся- ких х^[а, Ь] выполняются неравенства (х.)|<8 (i=0, 1, , rn). Эта теорема позволяет надеяться на то, что алгебраическое ийтерпо- лирование может дать, по крайней мере в некоторых случаях, хорошее средство для вычисления не только значений самой функции, но и произ- водных от нее всех порядков, когда они существуют и непрерывны. 2. В связи с интерполированием периодических функций, период ко- торых мы считаем приведенным к 2л, рассмотрим систему тригонометри- ческих функций 1, cos х, sin х, cos 2х, sin 2х, ... Они линейно независимы. Линейная комбинация первых 2n-j-l их есть тригонометрический много- член степени п\ *) Она является простым следствием известной теоремы о том, что на конечном отрезке [a, ft] можно равномерно и сколь угодно точно приблизиться при помощи много- члена ко всякой непрерывной на [a, ft] функции.
332 Гл. 4. ИНТЕРПОЛИРОВАНИЕ п ф2п+1 (х) =ао+ (ak cos kx-\-bk sin kx) =pn(x). k=i Интерполирование при помощи pn(x) называется тригонометрическим. В этом случае Ф есть множество всех тригонометрических многочле- нов. Для них верна теорема о приближении при помощи рп(х) непрерыв- но дифференцируемых периодических функций, аналогичная той, которая приведена в примере 1 для алгебраических многочленов. Она позволяет надеяться, что тригонометрическое интерполирование может оказаться полезным для вычисления значений периодических функций и их произ- водных. Выше было описано множество Ф, из которого выбираются интер- поляционные приближения и указаны требования, обычно предъяв- ляемые к Ф. Указаны также условия (4.1.4), при помощи которых нахо- дятся Этим заканчивается лишь первая часть подготовительной работы для вычислений и исследований. После этого ф(п>(х) подвергают преобразованиям, объяснить которые в общем виде затруднительно и сделать это легче на частных типах интерполирования. Более подробно с такими преобразованиями можно ознакомиться на примере алгебраи- ческого интерполирования в следующих параграфах этой главы. Сейчас же мы вынуждены ограничиться несколькими, быть может недостаточно поучительными, общими фразами, объясняющими лишь цель таких пре- образований. В основе всего лежит тот факт, что не существует аналитического выражения для которое было бы удобным для всех случаев. Так как целей, для достижения которых употребляются приближения q/n)(x), существует много, то это вынуждает строить многочисленные представ- ления ф(п)(х), приспособленные к разным задачам: придавать q/n)(x) форму, удобную для вычислений на быстродействующих машинах или вручную, удобную для оценки погрешности в наиболее важных классах функции, удобную для исследования сходимости интерполяционных про- цессов в этих классах и т. д. Все эти вопросы имеют, несомненно, техни- ческий характер, но они важны в вычислениях и исследованиях. 4.1.2. Остаток интерполирования. Сходимость интерполяционного процесса Разница между функцией f и ее интерполяционным приближением Ф<п) называется остатком или погрешностью интерполирования f(x) — q/n)(x)=/?n(x). При наших предположениях о f и ф и ввиду условий (4.1.2) R есть /n-кратно дифференцируемая функция на &>, удовлетворяющая условиям R^(x^=Q (/=1,2,...,^, i=0s 1, ... , m).
§ 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 333 Заметим прежде всего, что остаток является величиной весьма слож- ной природы, зависящей от многих факторов: от свойств функции f, от выбора семейства фп(х, ai, #2,..., ап), при помощи которого выполняется интерполирование, от таблицы Хп узлов Xij, в частности от расположе- ния Xij на отрезке <а, 6>, что, как мы узнаем ниже, сильно влияет на значение и на поведение остатка как функции от х, и, наконец, от положения точки интерполирования х. С проблемой изучения остатка интерполирования Rn(x) тесно связана другая проблема, которая в значительной мере является ее следствием и в которой изучаются вопросы поведения остатка при изменении л, в частности вопросы сходимости интерполирования. Заключения о сходи- мости нередко вытекают из оценок остатка. Задача о сходимости явля- ется многосторонней, с различными выборами критерия сходимости. Чтобы показать, насколько разнообразно могут быть поставлены здесь исследования, мы приведем некоторые примеры. Наиболее просто формулируется задача в том случае, когда мы стре- мимся найти только значения функции. Если х фиксировано и речь идет о нахождении значения f в этой точке, то f(x), ср(п)(х), будут чис- ленными величинами и мы должны определить, будет ли последователь- ность чисел Rn(x) =f(х) — ср(п)(х) сходиться к нулю. Первый вопрос, на который должна здесь ответить теория интерполирования, имеет следую- щее содержание: нужно определить, какими свойствами должны обла- дать функция f, последовательность семейств фп(*> fli, . . . , ап) и таблиц Хп, чтобы было ф(п) (%). Отметим попутно, что для вычислений доказательство сходимости равносильно доказательству принципиальной возможности найти /(х) сколь угодно точно посредством избранного интерполяционного процесса при всяких п, больших некоторого.числа. Если в конкретной задаче или классе задач будет получен положи- тельный или отрицательный ответ на вопрос о сходимости, то он, как правило, является только началом дальнейших исследований: нужно найти, как оценить скорость сходимости, каким будет асимптотическое представление остатка при больших м, какова точная оценка остатка и каким нужно взять и, чтобы найти f(x) с заданной точностью, если схо- димость медленная, то как ее можно ускорить, как можно целесообразно найти численное значение f(x). Если последовательность q/n)(x) расходится, то в вопросе вычисления f (х) еще не все потеряно, так как известно немало средств для нахожде- ния у расходящейся последовательности «обобщенного лредела», роль которого в нашей задаче играет f (%). Таков далеко не полный перечень вопросов, которые могут возникнуть после того, как решена основная задача о сходимости или расходимости (%). Все указанные выше вопросы являются общими и возникают при мно- гих процессах приближений. В частности, они возникают и при других
334 Гл. 4. ИНТЕРПОЛИРОВАНИЕ задачах о сходимости приближений, о которых говорится ниже. Упомя- нули же о них мы в главе об интерполировании потому, что они особенно много и особенно успешно изучались в теории приближения и интерполи- рования функций. Допустим теперь, что х может лежать в любом месте на Ь> и речь идет о построении интерполяционного приближения к f на всем отрезке. Если такое приближение нам нужно для вычисления значений f(x), то мы должны рассматривать поточечную сходимость cp(n)(x)->f (х) на Если же мы ставим вопрос о равномерной сходимости, которая для вычислений имеет большое значение, то за меру погрешности может быть принята величина sup |Rn (х) | = p(f, ф(п))- х В некоторых приложениях интерес представляет не равномерная и даже не поточечная сходимость, а сходимость в смысле стремления к ну- лю среднего квадратичного отклонения q/n) от f, что равносильно стрем- лению к нулю следующего интеграла: ъ ъ J [f (х) —ф(п) (х) ] 2dx = J Rn (х) dx. а а "3 Эту величину и принимают за меру оценки погрешности в таких задачах. При стремлении ее к нулю поточечной сходимости Ф(п)(х)->/(х) всюду на Ь> здесь может не быть. В научных и технических задачах иногда возникает потребность по таблице значений f(x/i) (&=1, 2, ... , п) вычислить не только значения f(x) в нетабличных точках 6>, но и значения производной f'(x) во всех точках отрезка Ь>. Для этого часто по /(х^) составляют интерполяционное приближение <р(п)(х), значения которого принимают за значения f, а производную q/n)'(x) —за Г(х)- За меру погрешности вы- числения обеих функций f и если мы заинтересованы в равномерном к ним приближении, может быть принята величина. p(f, <p(n))=posup If(x) — <p<n>(x) I4-P1 sup If'(x) — (x) I X X (po, pi>0, po+pi=l), где po7pi — весовые коэффициенты. Можно было бы привести еще примеры задач, в которых понятию сходимости придается разное содержание. Возвратимся к проблеме изучения остатка /?п(х). Его оценка явля- ется одной из основных задач. Выше мы обращали внимание на то, что остаток зависит от большого числа факторов. Остановим свое внимание на зависимости его от функции f. При получении оценки используются
§ 4.1. О СОДЕРЖАНИИ ЗАДАЧИ ИНТЕРПОЛИРОВАНИЯ 335 свойства f, такие, как непрерывность, дифференцируемость, аналитич- ность и др. Поэтому каждая оценка рассчитана на класс функций, обла- дающих использованными в оценке свойствами. Чем шире класс функ- ций, тем меньше, вообще говоря, будет существовать свойств, общих для всех функций класса, и тем грубее будет оценка /?п(х) в этом классе, так как оценка должна учитывать функции с «самыми плохими свойст- вами». Такие оценки полезны в исследованиях сходимости интерполяци- онных процессов, так как мы при этом заинтересованы в доказательствах сходимости для возможно широких классов функций. Но такого рода оценки не могут принести большую пользу, когда мы при помощи их попытаемся определить, какое значение п нужно взять, чтобы погреш- ность f(х) — ф(п)(х) =Rn(x) была по абсолютной величине меньше задан- ной границы. Мы будем весьма часто получать завышенное значение номера шага п и рискуем проделать много излишней вычислительной работы для получения нужного результата. В этой последней задаче определения д, так же как и при определении скорости сходимости интерполяционных процессов, полезными являются оценки остатка в более узких классах функций, важных в прикладном или принципиальном отношении. Примерами таких классов могут слу- жить функции, аналитические на Ь>, функции, m-кратно непрерыв- но дифференцируемые там, абсолютно непрерывные и др. Ниже для не- которых типов интерполирования будут даны точные оценки остатков /?п(х) в отдельных классах функций. Средством для их получения будет служить представление остатка, характерное для рассматриваемого класса функций, т. е. такое представление 7?п(х), которое верно для всех функций взятого класса и только для них. Коротко остановимся на зависимости остатка интерполирования Rn от выбора семейства фп(х, ai, ... , ап). До последних трех десятилетий усилия были направлены почти ис- ключительно на исследование остатка алгебраического и, в значительно меньшей степени, тригонометрического интерполирования. Лишь в трид- цатых и сороковых годах текущего века были получены достаточно общие представления /?п(х), позволяющие судить о том, как будет изме- няться форма остатка при изменении семейства фп(х, alt ... , ап) и какой аппарат следует избрать для получения точных оценок остатка.*) Эти результаты найдены для того случая, когда семейство фп зависит от ai, .. . , ап линейно: фп (X, #1, . . . , Пп) = #1(01 (х) -|-(220)2 (х) 4". . (х) . Последний вопрос, на котором мы остановим внимание во вводном параграфе,— это зависимость погрешности интерполирования от выбора *) Е. И. Р е м е з. О некоторых классах линейных функционалов в пространствах Ср и об остаточных членах формул приближенного анализа. Тр. ин-та математики АН УССРЖ 1939, т/З, с. 21—62 и 1940, т. 4, с. 47—62.
336 Гл. 4. ИНТЕРПОЛИРОВАНИЕ узлов Xij. Две следующие задачи имеют здесь, по-видимому, наибольший интерес: построение представлений остатка, дающих возможность доста- точно наглядно судить о зависимости его от узлов, и такой выбор узлов, для которого можно ожидать наименьшего значения Rn(x)> Последняя задача обычно решается в смысле, который мы поясним на примере, где взята простейшая мера погрешности. Пусть рассматривается класс F функций f и для каждой из них взято интерполяционное приближение ср<п) на отрезке <а, 6>. Величиной, ха- рактеризующей точность интерполирования каждой функции f, будет sup |7?п(х) |. За величину же, по которой судят о точности интерполиро- х вания всего семейства, принимают обычно /? = supsup |7?п(х)|. Она за- / х висит от узлов Xij, и их выбирают так, чтобы величина R имела наимень- шее значение. Такой выбор узлов, как показали исследования частных случаев, является часто весьма целесообразным. § 4.2. КОНЕЧНЫЕ РАЗНОСТИ И РАЗНОСТНЫЕ ОТНОШЕНИЯ В этом параграфе мы ознакомимся с некоторыми понятиями и терми- нами теории конечных разностей и разностных отношений. Для нас они будут иметь вспомогательное значение, поэтому мы ограничимся неболь- шим числом лишь самых необходимых сведений и изложение сделаем весьма кратким. 4.2.1. Конечные разности Они применяются в исследованиях и при вычислении функций, задан- ных на сетке равноотстоящих точек. Как будет видно из приводимого ниже определения, конечные разности в вычислительной математике имеют значение, аналогичное дифференциалам в анализе бесконечно малых, и играют сходную роль. Пусть дана сетка равноотстоящих точек с шагом h>0 для аргу- мента х: Хо, Xi=Xo+h, ... , Xk=Xo-\-kh, ... и известны соответствующие им значения функции y=f(x): yQ=f(xo), yi = f(x0+h), . . . , Ук = Нхо+Ыг), . . . Конечными разностями первого порядка от функции y=f(x>) называются следующие величины: &Уо = У1—Уо, &У1 = У2—У1, . . . , &Ук = Ук-М—Ук, . . . Конечные разности от разностей первого порядка называются конечными разностями второго порядка
§ 4.2. КОНЕЧНЫЕ РАЗНОСТИ И РАЗНОСТНЫЕ ОТНОШЕНИЯ 337 Д2г/о=Д//1~А«/о, Д2г/1 = Ду2—ДУ1, ... , Д21/а = Д^+1-“ДУа, .. • и, вообще говоря, конечные разности от разностей порядка п называются конечными разностями порядка п+1 д^+1//0=д^1-т-д^0, дл+^1=д^2—ДпУъ ..., \п^ук=^пУк+1—\пуь>... Укажем на некоторые легко проверяемые свойства конечных разностей. 1. Если f(х) = п(х)+и(х), то для конечной разности Д/(х) = =f (х+Л)— f (х) верно равенство Д/(х) =Дп(х)+Ду (х). 2. Если f (х) = Сп(х), где С — величина постоянная, то Д/(х) = Сп(х). Свойства 1 и 2 мы сформулировали для разностей первого порядка, но они, очевидно, верны для разностей любого порядка. 3. Если t/ = P(x) есть многочлен степени п и х — величина произволь- ная, то конечная разность ДР(х) =Р(х+Л)—Р(х) есть многочлен от х степени п—1. В силу свойств 1 и 2 утверждение достаточно проверить для степе- ней х, что делается весьма просто, так как \xh= (x+/i)ft—xft= — /гх^-1-]——- /i2xfe“2+... Отметим некоторые следствия, вытекающие отсюда. Если утвержде- ние 3 применить дважды, то можно сказать, что разность второго поряд- ка Д2Р(х) от многочлена степени п есть многочлен от х степени п—2 и т. д. Разность порядка п от многочлена степени п есть величина посто- янная, и все разности, порядок которых больше п, будут равны нулю. Выше было дано рекурсионное определение разностей всех порядков, но без труда может быть найдено их выражение непосредственно через значения функции. В самом деле, At/o=У1—Уо, A2i/o=Af/i—Af/o= (Уг~У1) — (У1~Уо) = У2~2ух+уй. Выполняя несложную индукцию, убедимся в том, что для разности лю- бого порядка верно следующее ее представление через значения функ- ции: k k(k_j\ &kyQ = yk-jY Ук-id---21--Ук-2—- • .+ (“1)^0. (4.2.1) Его можно записать более компактно, при помощи «операции увеличе- ния аргумента», а именно, введя операцию £, определенную равенством Ef(x) =f(x+/i). Произвольная действительная степень Еа операции
338 Гл. 4. ИНТЕРПОЛИРОВАНИЕ может быть определена равенством Eaf(x) =f(x-\-ah). Применительно к значениям yh функции эта операция дает Еуи=Уь+\ и Етуь=уь+т- Равенство (4.2.1) при помощи оператора Е может быть коротко за- писано в следующей условной и простой форме: Д*уо=(£-1)*уо. (4.2.2) Столь же просто может быть найдено выражение любого значения уь функции через начальное ее значение уо и начальные значения конечных разностей Ауо, А2уо,.А3Уо, ... В самом деле, по определению разности пер- вого порядка Ауо=У1“Уо имеем У1=уо+Дуо. Далее, аналогично У2=У1+ДУ1 = (уо+Ауо) -р (Ауо+Д2уо) =Уо4"2АуоН“А2уо, Уз —У2~|~Ау2— (уо+2Ауо+А2уо) + (Дуо-|-2А2уо-НА3Уо) = = Уо+ЗДуо+ЗА2Уо+,А3Уо- Продолжив эти вычисления, по индукции найдем k k(k— 1) Ук = Уо+ -р- ДуоН-----А2Уо+.. .+Aftyo (4.2.3) или в условной форме yfe=(l+A)feyo. (4.2.4) Некоторые сведения, касающиеся порядков малости конечных разностей и связи их с производными, будут приведены в конце параграфа, после выяснения аналогичных вопросов для разностных отношений. 4.2.2. Разностные отношения, их свойства и связь с конечными разностями В том случае, когда значения аргумента являются не равноотстоя- щими, а произвольными, для исследования функции и вычислений вместо конечных разностей используют разностные отношения. Их часто назы- вают также «разделенными разностями» и «подъемами» функции. Пусть в произвольных попарно различных точках Хо, Xi, ... известны значения функции f: f(x0), f (xi), ... Разностными отношениями первого порядка называются величины, имеющие смысл средних скоростей роста функции на соответствующих отрезках: Х1—Хо х2—Х1 Кхг, х,)=. Хз—Х2
§ 4.2. КОНЕЧНЫЕ РАЗНОСТИ И РАЗНОСТНЫЕ ОТНОШЕНИЯ 339 По ним составляются разностные отношения второго порядка Хо —*0 f/„ Г г \ - ^Х2’ X3)-f(X!, Х2) , j ^Xf, Л2, %з) > • • Они, очевидно, связаны с изменением средней скорости роста функции при переходе от предыдущего отрезка (x2-i, xj к следующему (хг-, хг+1). Более точно такую связь можно проследить по явному выражению раз- ностных отношений через производные, которые будут даны ниже. Разностные отношения третьего порядка определяются равенствами к f(Xi, Х2, Х3)— f(X0, Х1, х2) f (х0, Xi, х2, Хз) =--------—------------, Хз—Хо f (Xi, х2, Хз, Хь) == f(x2, Хз, Xi)—f(Xi, х2, Хз) Разностное отношение следующего порядка &4-1 определяется через раз- ностные отношения предыдущего порядка: . f(x0, Xi, Х2, ... , Xk, Xft+1) = f(Xj, Хг, ... , xk+i)—f(xo, Xi, ... , xfe) X/i-f-i Xq Укажем на некоторые свойства разностных отношений. Первые два из них являются очевидными, и мы сформулируем их без доказательства. 1. Свойство аддитивности. Если f (х) =u(x)-\-v (х), то f(x0, xi)=w(x0, xi)4-v(xo, Xi). 2. Свойство подобия. Если f(х) = Си(х), где С есть постоян- ная величина, то f(x0, Xi) =Cu(xo, Xt). Свойства 1 и 2 сформулированы для разностных отношений первого порядка, но они верны для разностных отношений любых порядков. Третье свойство мы получим как следствие из представления разност- ного отношения через значения функции. Для разностного отношения первого порядка, по определению, Кго,„)=1^+^ Хо—Xi Х1—Хо
340 Гл: 4. ИНТЕРПОЛИРОВАНИЕ Для разностного отношения второго порядка ч f(*i, х2)—/(Хо, Х1) f (х0, Х1, х2). — --------------- = х2—Хо 1 И f(*i) f(x2) 1 _ Г ffxo) f(Xi) 1|_ Х2—Хо *• Xi—Х2 ""Г" Х2—Xi -I *- Хо—Xi Х1—Хо -* » = f(Xo) f(Xi) f (Х2) (Хо—Х1) (Хо—х2) (Х1—Хо) (Х1—х2) (х2—Хо) (х2—Х1) При помощи индукции можно* показать, что для любого k верно сле- дующее представление: f (Хо, Х1, г=0 f(xt) (О (х) = (х—Хо) (Х—Xi) . . . (X—Xk) . (4.2.5) Если мы выполним любую перестановку аргументов Хо, Xi, ... , х&, то в последней части (4.2.5) переменятся местами слагаемые, что не изменит сумму. Это дает возможностьхсформулировать следующее свойство. 3. Свойство симметрии. Разностное отношение f(x0, х±, ..., Xk) есть симметрическая функция аргументов xQi хи ... , Xk. 4. Если f(x) есть многочлен степени п, то разностное отношение п-го порядка f (х0, Xi, ... , хп) не зависит от х0, хь ... , хп и равняется коэффи- циенту при старшей степени х в многочлене f. Все разностные отношения порядка, большего п, равны нулю. Это свойство может быть без труда доказано вычислениями, но мы его получим как простое следствие доказываемых ниже теорем (см. (4.2.6)). Теорема 1, Если узлы х0, Xi, ... , Xk лежат на отрезке [а, 6] и f(x) имеет непрерывную производную порядка k на [а, Ь], то верно следую- щее представление разностного отношения порядка k через производную ‘ порядка k от f: f (х0, Xi, ... , хк) = J dti J dt2 ... J dtkfw Г Xo+ ti (Xi—Xi-i) 1 . (4.2.6) 0 0 0 1=1
§ 4.2. КОНЕЧНЫЕ РАЗНОСТИ И РАЗНОСТНЫЕ ОТНОШЕНИЯ 341 Заметим, что интеграл, стоящий справа, имеет смысл, так как область интегрирования есть ^-мерная пирамида, определяемая неравенствами 0^/a^/a-i^. . и аргумент k Х = Хо4" = (1 —Л) Хо4” (^1 — ^2) Х14". . .-f“ (61—1 ^а) %k—14~^аХ& = г=1 __ (1—^1)Xo4"G1— ^)Х14”. . »4“ (^А—1 tk)^h—1“Ма^А (1—^i) + (/i—4)“Н • «4"(^а-1—6t)-На равен среднему взвешенному значению, составленному из Хо’, Xi, ... , Xk с неотрицательными коэффициентами, и лежит на отрезке [а, 6], ввиду того что все хг- (/=0, 1, ... , k) лежат на [а, &]. Индуктивное доказательство (4.2.6) не имеет принципиальных труд- ностей и сложно лишь по записи. Мы ограничимся тем, что проверим равенство (4.2.6) для &=1, 2. При&=1 правая часть (4.2.6) будет 1 J dt Г[хо+/(х1—Хо)] = о f[xo+/(xi—Хо)] f(Xi)-f(Xo) Xi—Хо = f(*0, Xi) и равенство верно. При &=2, если интегрировать сначала по будет Jdti J dtz f"[xo~l-ti (Xi—Xo) -j-t2(x2 Xj) ] — J dti oo о i 4"^1(X1 Xo) 4-^2 (Хг Xi) ] = { J dti f [Xo4~^1(^'2 Xo) ] X2—Xi I ,,r f(x0, x2)-f(xb x0) — I dh f [xo+^i (xi—x0) ] f =------— --------= > Л2—Xi 0 = f(xi, Xo, X2)=f(Xo, X1,’X2). Для k = 2 равенство также верно.
342 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Теорема 2. Если выполнены условия теоремы 1, то на [а, Ь] сущест- вует такая точка £, что для разностного отношения порядка k верно ра- венство f(x0,xh (4.2.7) •VI Доказательство. Применим к интегралу (4.2.6) теорему о сред- нем значении. Он будет равен значению в некоторой средней точке области, умноженному на интеграл от единицы. Но для любой точки k (/i, Z2, ... , th) области аргумент х0+ S ti(Xi-Xi-i) принадлежит отрез- г=1 ку [а, Ь]. Поэтому на [а, 6] существует такая точка что f (хо, Х1.........................Xk) =f(k)(£) Jd/2 ... J dth= £-№(!). Отсюда сразу же следует свойство 4: если f (х) = аохп-[-а1хп-1-^ ... , то fn(x) =п! а0 и f (х0, хь ... , хп) = п! ао=ао. Приведем теперь выражение произвольного значения функции /(х^) через начальное ее значение f(x0) и начальные значения разностных от- ношений f(x0, Xi), f(x0, Xi, х2), f(x0, Xi, х2, х3), ... По определению, f(x0, Х1)=-^^—и, следовательно, f(x4) =f(х0) + (xi—x0)f(х0, Xi). Xi — Хо Ввиду полученного результата и определения f(x0, Xl, х2) можно написать . f(x2) =f(xi) + (x2—Xi)f(xit x2) = [f(x0) + (x1—x0)f(x0, Xi)] + + (*2—Xi) [f(x0, Xi) + (x2—Xo)f(Xo, Xi, X2)]=f(Xo) + (X2—Xo)f(Xo, X1) + + (x2—Xo) (x2—Xi)f(Xo, Xi, x2) и T. Д. При помощи несложных индуктивных рассуждений можно показать, что при всяком k будет f(xft) =f(xo) + (xft—Xo)f(Xo, Xi) + (Xk—Xo) (xft—Xi) f (Xo, Xi, x2) + . -+(Xfe—Xo) (xft—Xl).. .(xft—xft_i)/(xo, Xl, ... , Xk). (4.2.8)
§ 4.2. КОНЕЧНЫЕ РАЗНОСТИ И РАЗНОСТНЫЕ ОТНОШЕНИЯ 343 Установим, наконец, связь между разностными отношениями и конеч- ными разностями. Предположим, что значения аргумента Хо, Xi, ... , х&, ... являются равноотстоящими: х0, Х1=Хо+й, ...» Хь=Хо+/?А, ... Тогда .. IM f(Xo+h)-f(х0) yi-yo Ьу0 ' <*" '"+4 = ~(х,+л)-х, = = ЧГГ f(Л. л+Л, xo+2ft)=-f(*°±'1’ X’+h) = (XQ-j-Zil) —Xq _ At/i—Ayo _ Д2Уо — 2/i-U/i — 2!/i2 ’* и при любом k верно равенство f (*о, xo+h,..., Хо+Ыг) = (yi=f(x0-}-ih')'). (4.2.9) . Из теорем 1 и 2 для разностного отношения и (4.2.9) для конечной разности вытекает формулируемая ниже теорема о связи между Afef/0 и производной порядка k. Теорема 3, Если f имеет на отрезке [хо, Хо+^Л] непрерывную произ- водную порядка k, то для конечной разности порядка k верно следующее выражение ее через производную порядка k: 1 Ч ДЬу0=£! hk §dti J dt2 ... J dth [ x0-J-/z ti и на [x0; XQ-\-kh] существует точка g, такая, что верно равенство №yQ=hkfW£y (4.2.10) (4.2.11) По поводу полученного результата полезно сделать замечание. Если h есть малая величина, то конечные разности от функции f порядка k будут малыми величинами и представляет интерес выяснение закона их изме- нения при убывании h. Равенство (4.2.10) показывает, что если fw не обращается в нуль в точке х0, то Afef/0 будет малой величиной порядка k сравнительно с й, и если /(А)(х0) =0, то Afer/o будет иметь порядок малости, больший чем k.
344 Гл. 4. ИНТЕРПОЛИРОВАНИЕ § 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ. ПОГРЕШНОСТЬ ИНТЕРПОЛИРОВАНИЯ 4.3.1. Введение В этом и нескольких следующих параграфах будут рассматриваться простейшие задачи интерполирования функций при помощи алгебраиче- ских многочленов. Начнем с проблемы интерполирования функции по нескольким ее значениям. Допустим, что на конечном отрезке [а, Ь] рассматривается функция f(x), для которой либо строится приближение на всем отрезке, либо вы- числяются с заданной точностью ее значения в нескольких точках от- резка. Возьмем п+1 попарно разных узлов Хо, х^ ... , хп на [а, Ь] и будем считать известными соответствующие им значения функции z/0—f(*o), , yn=f(xn). Рассмотрим алгебраический многочлен сте- пени п. Р(х) =aQxn+aixn~i+.. .+ап, (4.3.1) содержащий п+1 неопределенных коэффициентов Выбор сц подчиним требованиям совпадения значений Р и f в узлах хс Р(xfe) =f(хк) (£=0, 1, ... , n). (4.3.2) Они дадут для пг- систему п+1 линейных уравнений аох^ +П1Хп-1+- • -+an=f (*о), ' аох™ +aixn-1+.. .+an = f (х4), (4.3.3) аох^+а^-1^.. ,-j-an=f(xn). Определитель системы — 71+1 (-^0, Х1, . . . Хп) есть определитель Вандермонда, и так как х^ различны между собой, он отличен от нуля и система имеет единственное решение. Отсюда следует, что интерполирующий многочлен (4.3.1) может быть построен при любых узлах х&, лишь бы они были различны, для любой функции f с конечными значениями в точках Хь и будет единственным. Легко получить явное выражение для Р(х) через х, х&, f(x^) при по- мощи определителей. Для этого присоединим (4.3.1) к системе (4.3.3) и полученные равенства
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 345 —Р(х)4-аох" +(ZiXn-14-.. ,+ап = 0, —f (хо)+аох” 4-а1х”-1+.. ,+ап=0, —f(xn)+aox” +aix"-1+.. ,4-an = 0 * /V 7c* будем рассматривать как однородную систему с неизвестными —1, а0, fli, . . . , ап. Система заведомо имеет ненулевое решение, ввиду того что одно из неизвестных есть —1, и поэтому ее определитель должен быть равен нулю. Если выписать этот определитель, приравнять его нулю и из полученного равенства найти Р(х), получим О хп хп~* Р(Х)=- f(*o) Д-ч) (4.3.4) f (*n) Такое представление Р(х) является сложным и требует вычисления определителей. Его мало применяют как в вычислениях, так и в теорети- ческих исследованиях. Можно построить много других более простых представлений Р(х), удобных в разных отношениях. С некоторыми из них мы ознакомимся в п. 4.3.2 и в § 4.4. Поясним теперь причины, побудившие избрать алгебраическое интер- полирование в качестве основного объекта изучения среди других мето- дов. Главным мотивом к этому был, несомненно, длительный, более чем двухвековой успешный опыт его применения к вычислениям при помощи таблиц, при составлении таблиц, при физических и инженерных расчетах и многом другом. В основе большинства первых применений алгебраического интерпо- лирования лежал простой факт, который легко можно понять, если вос- пользоваться формулой Тейлора. Пусть функция f — аналитическая или обладающая достаточно высоким порядком дифференцируемости, и нуж- но вычислить ее значения вблизи какой-либо точки, например xQ. Она представима там в форме суммы: f (х) =f (Хо) + (х—x0)f'(x0) + 4 (x~x»)2f" (хо) + 4- (*-*о)3Г (Хо) +. . . & VI Если х достаточно близок Хо и разность х—Хо настолько мала, что можно при принятой точности пренебречь всеми членами правой части, начиная'со второго порядка малости, то f (х) с нужной точностью совпа- дет с линейной функцией f(x0) + (х—Xo)f'(xo) и для вычисления f(x) до- статочно будет выполнить интерполирование первой степени по двум ее
346 Гл. 4. ИНТЕРПОЛИРОВАНИЕ значениям f(xQ) и f(x4), когда узел Xi достаточно близок к х0. Если не можем пренебречь членом 2 (х—Хо)2/"(хо), но сможем отбросить мы все члены, содержащие х—х0 в третьей и более высоких степенях, так что с нужной для нас точностью можно положить f (х) « f (х0) + (х—Хо) f' (Хо) + -у (х—Хо) V" (Хо), то для вычисления f(x) можно выполнить интерполирование второй сте- пени при помощи трех значений f(xo), f(xi), /(хг) при условии достаточ- ной близости Xi и х2 к Хо и т. д. Из проделанных несложных рассуждений вытекает, что, для того чтобы иметь возможность вычислить аналитическую или достаточно гладкую функцию в любой точке отрезка [а, 6], можно взять там доста- точно, густую сетку узлов Хо, хь ... , хп и пользоваться интерполирова- нием разумно избранной степени. Чем более высокую степень интер- полирования мы будем допускать, тем более редкую сетку точек можно будет взять. Уже один простой факт возможности представления аналитических и гладких функций на всем отрезке таблицей их значений, часто не- большой по объему, должен был вызвать и вызвал большой интерес к алгебраическому интерполированию и побудил заняться разработкой его теории. Как показало дальнейшее развитие математики, алгебраическое ин- терполирование имеет много большее значение, так как многочлены спо- собны с любой заданной точностью представлять функции не только в «малых областях», а в сколь угодно больших, но конечных областях, при этом не только функции высокой гладкости, но и любые непрерыв- ные, даже, может быть, не дифференцируемые. Соответствующая тео- рема указывалась нами в первом параграфе главы. В простой, но удоб- ной для нас форме она может быть высказана в следующем виде. Если f непрерывна на конечном замкнутом отрезке [а, 6] и е есть любое положительное число, то существует такой многочлен Пт(х) = = соХт-\-с1хт~л-}-.. .+ст, для которого при всяких хе[а, &] выполняется неравенство |f (%) — Пт(х) | Но эта теорема оставляет открытым вопрос о том, можно ли достиг- нуть такого приближения при помощи интерполирования. Дело в том, что коэффициенты интерполяционного многочлена нельзя задавать произвольно, так как они определяются узлами Xh (Z? = 0, 1, ... , п) и соответствующими им значениями функции f(x/t) и должны быть най- дены или из системы (4.3.3), или при помощи явного выражения (4.3.4). В интерполировании задача о равномерном приближении функции долж- на ставиться иначе, чем указано выше.
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 347 Пусть на замкнутом конечном отрезке [а, &] задана непрерывная функция f и указано число е>0. Существует ли такое т и такие узлы Хо, Xi, ... , хт, что интерполяционный многочлен Рт(х), построенный по этим узлам для функции f, будет выполнять неравенство |/(х)~ — Рт(х) | для всех х<=~[а, 6]? Положительный ответ на поставленный вопрос, несомненно, повысил бы значение интерполирования в деле приближения непрерывных функций. Если пользоваться только системой (4.3.3) или явным выражением (4.3.4) для Р(х), то найти ответ затруднительно. Но он легко получается, если воспользоваться двумя известными в конструктивной теории функ- ций результатами.*) Как будет показано в п. 4.8.4, многочлен наилучшего приближения Qm(x) степени т будет одновременно интерполирующим многочленом при некоторой системе m-j-1 узлов: Qw(x)=Pm(x). Последовательность же многочленов Qm(x) равномерно сходится при /?г->оо к f(x) на [а, Ь], и, следовательно, при всяком 8>>0 для всех доста- точно больших т будет выполняться неравенство |f(x)— Qm(x) I — |f(x)— Рт(х) I <е. Этим доказано, что поставленный выше вопрос об интерполяционном приближении непрерывных функций имеет положительный ответ. Чтобы правильно оценить такой результат, необходимо отметить, что он имеет в настоящее время только теоретическое значение, так как в нем нет никакого указания на то, как для заданной функции f эффективно находить соответствующие ей узлы Xk (/г = 0, 1, ... , п), упомянутые в сформулированной выше проблеме. Устанавливается только существо- вание таких узлов. Более того, эти рассуждения заставляют думать, что может не суще- ствовать единого интерполяционного процесса, который мог бы обеспе- чить равномерную сходимость Pn(x)->f(x) на [а,~Ь] для всякой непре- рывной функции. Забегая немного вперед, скажем, что такой процесс действительно невозможен. Этот вопрос и некоторые связанные с ним задачи будут изучаться в параграфе, посвященном проблеме сходимости интерполирования. 4.3.2. Интерполяционные формулы Лагранжа и Ньютона Укажем сейчас два наиболее употребительных представления интер- поляционного многочлена. Начнем с формулы Лагранжа. Введем сна- чала многочлены влияния отдельных узлов. Их называют часто коэф- фициентами Лагранжа. *) Необходимые сведения можно найти в добавлении III.
348 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Рассмотрим узел х^ Многочлен влияния этого узла соа(х) определяет- ся условиями: 1) степень его равна п и 2) он обращается в единицу при x=Xk и в нуль во всех прочих узлах хг- (/#=&)• Так как число узлов Хг равно п, а это есть всевозможные корни многочлена (о&(х), и если принять во внимание условие ш(а) = 1, то будет ясно, что ' _ (Х—Хр). . .(x—Xfe-i) (х~Xfe+j). . .(х—Хп) — (Xfe—Хо). .’. (хА—Xfe-1) (Xfe—Xfc+i) ... (xft—Хп) сол(х) можно записать в более простой форме, если ввести многочлен (о(х), для которого узлы Хо, ... , хп будут всевозможными простыми ну- лями: со (х) = (х—Хо) (х—Xi)... (х—-хп). Очевидно, (х—xfe)co'(xft) ’ Теперь легко проверить правильность следующего выражения интер- поляционного многочлена (4.3.3) через (О/Дх) и значения функции /(х&) (А=0, 1, ... , п): Р (X) = (др (X) f (Хр) + (di (X) f (Xi) +. . «+(0п (х) f (хп) = = vf(xk)- (4.3.5) Действительно, каждый многочлен со/Дх) имеет степень и, поэтому пра- вая часть равенства есть многочлен степени не выше п. При х=х0 будет <оо(х0) = 1, (Ofe(xo) =0 (&>0) и правая часть будет равна 1-/Дх0)4- +O-f(xi)+.. ,4-0.7(xn) =f (хо). Но узел x0 по своему значению ничем не отличается от прочих узлов и, следовательно, при x—xh правая часть равна Кх^) (& = 0, 1, ... , п). Таким образом, правая часть удовлетво- ряет условиям (4.3.2). Этим (4.3.5) доказано. Укажем на некоторые особенности лагранжевой формулы (4.3.5). Свойства интерполяционного многочлена зависят, очевидно, от двух фак- тов: от выбора узлов Xh и от интерполируемой функции f. В формуле (4.3.5) оба фактора разделены, так как многочлены (о&(х) зависят только от узлов, а свойства функции f учитываются множителями f (х&). Это об- стоятельство оказывается полезным в некоторых вопросах теории сходи- мости интерполирования, и формулой (4.3.5) там широко пользуются. В отношении вычислений формула Лагранжа удобна в задаче интер- полирования многих функций в одной точке х, так как значения множи- телей (О/Дх) можно вычислить однажды для всех функций. Но вычисли- тельное применение (4.3.5) имеет существенный недостаток, так как нуж- но заранее определять число п4-1 узлов, необходимое для достижения
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 349 принятой точности. Желание избегнуть ненужной затраты труда побуж- дает вычислителя стараться обойтись наименьшим числом узлов и не- редко оказывается, что заданное им число узлов является недостаточным или бывает необходимо проверить точность полученного результата. В обоих случаях к взятым узлам добавляют еще один или несколько узлов и выполняют вычисления заново. Тогда в формуле (4.3.5) не только добавятся новые члены, но потребуется перевычислить все ранее найден- ные члены суммы, так как в них появятся новые множители. Другое представление Р(х), к которому мы перейдем, допускает по- следовательное уточнение результатов вычислений и часто не требует при применениях предварительного указания степени интерполирования. По строению оно аналогично формуле Тейлора и обращается в нее, если перейти к пределу, когда все узлы интерполирования х0, Xi, ... , хп будут стремиться к какому-либо одному значению, например хь.. Покажем, что интерполирующий многочлен можно записать в приво- димом ниже виде, который называется формулой Ньютона: ч Р (X) = f (Х0) + (Х—Хо) f (Хо, Х1) + (Х—Хо) (Х—Xi) f (Х0, Xi, Х2) + +...+ (х—Хо) (х—Xi)... (х—хп-1) f (Хо, Х1,..., хп). (4.3.6) В правильности равенства проще всего убедиться путем его проверки. Достаточно показать, что многочлен Р(х), определенный равенством (4.3.6) и имеющий, очевидно, степень не большую п, удовлетворяет усло- виям (4.3.2). При x=xQ все члены правой части, начиная со второго, обращаются в нуль и остается Р(х0) =f (х0). При x=Xi справа останется f(x0) + (xi—x0)f(x0, Xi), что, на основании (4.2.8) при k=l, равно f(xr). Значит, P(xi) =f(xi). Продолжая такие вычисления и пользуясь (4.2.8), убедимся в том, что для любого А=0, 1, ... , п будет Р(хк) =f(Xk). Формула Ньютона имеет строение более сложное, чем (4.3.5), и тре- бует составления разностных отношений f(x0, Xi, ..., Xk) (&= 1, 2, ... , и). При добавлении к х0, Xi, ... , хп нового узла xn+i все ранее найденные члены сохраняются и в формуле добавляется еще один член (х—Хо) (х—Xi). . . (х—xn)f(x0, Xi, , Хп, Хп+1). Это позволяет не задавать заранее число узлов и постепенно увеличивать точность результата, добавляя последовательно по одному новому узлу. 4.3.3. Остаток интерполирования и его представления для некоторых классов функций Свойства остатка, или погрешности интерполирования, 7?(х)=7(х) — —Р(х) зависят от свойств функции f и от выбора узлов Xk (й = 0, 1, ..., п) и было бы желательно найти такие представления /?(х), которые учиты- вали бы заранее некоторые наиболее распространенные структурные свойства функций и позволяли бы без больших затруднений судить
350 Гл. 4. ИНТЕРПОЛИРОВАНИЕ о влиянии на остаток расположения на оси узлов Xk и точки х. Начнем с представления /?(х) для общего случая, не налагающего, по сути дела, никаких ограничений на f и предполагающего лишь то, что в точках Хо, Xi, ... , хп, х она имеет конечные значения. Такое представление ввиду его большой общности редко применяется в исследованиях. Для нас оно будет полезным в двух отношениях: во-первых, как источник получения специализированных представлений для более узких классов функций и, во-вторых, при его помощи легко может быт^ получено приближенное выражение для остатка, в,котором все величины, входящие в него, явля- ются вычислимыми. С достаточной простотой нужная нам формула может быть получена, если воспользоваться равенством (4.2.8), дающим значение f в любой точке Xk через начальное значение функции f (х0) и разностные отношения f(x0, Xi), f (хо, Xi, х2), ... , f (х0, Xi, ... , x/t). Применив его к точкам х0, хь х2,... , Хп, х, найдем fW =f(xo) + (x—xo)f(xo, xi) + (x—Хо) (x—Xi)f(x0, xb x2)+.. .+ + (x—X0) . . .(x—Xn-l)f(xo, X1, + (x—Xo)... (x—Xn-1 • , Xn, Если сравнить это равенство с (4.3.6), то будет видно, что сумма всех членов правой части равенства, кроме последнего, есть не что иное, как интерполирующий многочлен Р(х) в форме Ньютона. Поэтому последний член справа есть остаток /?(х). Это дает возможность высказать теорему об остатке /?(х). Теорема 1. Если f есть любая функция с конечными значениями в точ- ках Хо, Xi, ... , Хп, х, то остаток R(x) ее алгебраического интерполирова- ния по значениям в точках Xk при помощи многочлена степени п пред- ставим в виде R (х) = (х—Хо) (х—Xi) ... (х—Хп) f (х0, Xi, ... , Хп, х) = = co(x) f(x0, Х1, . . . , Хп, х) . (4.3.7) Множитель со(х) зависит только от узлов Xk (& = 0, 1, ... , п), со свойствами же функции f связано разностное отношение /(Хо, Xi, ... , Хп, х). Оно не может быть вычислено, так как зависит от дх), но для него, по крайней мере в некоторых случаях, может быть получено вычис- лимое приближенное выражение, полезное как ориентировочное. Чтобы сделать более понятной наглядную сторону вопроса, мы проведем рас- суждения в более ограничительных предположениях, чем выше, именно будем считать, что f имеет непрерывную производную порядка п4~1 на отрезке, содержащем все узлы Xk и точку х, и применим к f (х0, Xi,... , хп, х)
$ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 351 соотношение (4.2.7), устанавливающее связь между разностным отноше- нием и производной. В нашем случае оно дает f(x0, Xi, Хп, х) = /„ ? Л7/(п+1)(В). где £ есть точка указанного выше отрезка. Ее положение зависит от х. Если на этом отрезке произвольная f<n+1)(x) мало изменяется, что навер ное будет, когда и х принадлежат малому отрезку, то будет мало изменяться с изменением х и нужное нам разностное отношение может быть заменено другим, в котором вместо х может быть взято лю- бое табличное значение х, например значение xn+i: f (*о, Xi, . .., xn, х) « «f(x0, Xi, ..., xn, xn+i). Это дает возможность для /?(х) указать прибли- женное выражение 7?(х) ^(o(x)f(xo, Xi, ... , xn, Xn+i), (4.3.8) значение которого может быть вычислено. Получим теперь из >(4.3.7) более специализированное представление /?(х), рассчитанное на функции высокого порядка дифференцируемости. Если говорить более точно, мы будем считать, что все Xk и х принадлежат отрезку [г, d] и f имеет на [с, d] непрерывную производную порядка п+1. К разностному отношению f (х0, Xi, ... , хп, х) может быть приме- нена теорема 1 и формула (4.2.6), если в ней считать k = n-\-\ и xn+i=x. Они дадут интегральное выражение для f(xo, Xi, ... , хп, х) через и позволят высказать теорему об остатке. Теорема 2. Если точки х0, хь ... , хп, х принадлежат отрезку [с, d\ и f имеет на [с, d] непрерывную производную порядка п+1, остаток ее ин- терполирования при помощи многочлена степени п по узлам хо, Xi, ... , хп представим в виде Г С С Г п+1 /?(х) =со(х) J dti] dt2.. .J d/n+if(n+1) xo+ tv(xv—xv-i (•^n+l — • (4.3.9) Полученный результат интересен в том отношении, что он не содер- жит никаких неизвестных величин и позволяет составить достаточно ясное представление о зависимости /?(х) от свойств производной f<n+1)(x). Для /?(х) можно получить более простое выражение, если взять не интегральное представление f(x0, Xi, ... , хп, х), а воспользоваться тео- ремой 2 и более простой формулой (4.2.7), полагая в ней й = п+Д и хп+1=х. Тогда получится
352 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Теорема 3. Если выполняются условия теоремы 2, то на [с, d] суще- ствует точка g, такая, что для остатка R (х) интерполирования f при по- мощи многочлена степени п по узлам х0, Xi, ... , хп верно равенство *<х)=+т^"+1)^)- (4-3.10) (п+1)! Равенство (4.3.10) называется формулой Лагранжа для остатка ин- терполирования. По сравнению с (4.3.9) она выигрывает в простоте, но проигрывает в точности информации, так как содержит величину g, о ко- торой мы знаем лишь то, что она лежит на отрезке [с, d]. Применим'сейча’с (4.3.10) к решению двух простых задач о выборе узлов интерполирования. Рассмотрим всевозможные функции, п+1 раз непрерывно дифференцируемые на [а, 6], с производной порядка п+1, ограниченной по модулю числом М: | f(n+1)(x) | ^2М (хе[а, &]). В таком классе функций остаток интерполирования имеет оценку . in |х—*о| • |х—Х1| ... |х—хп|. (4.3.1 (П+ 1) ! Она является точной и достигается в том случае, когда f есть мно- гочлен степени п+1 вида М х есть не- допустим теперь, что функция f дана нам таблицей значений, табличное значение аргумента и мы должны интерполировать f в точке х при помощи многочлена степени п, взяв за узлы Хо, Xi, ... , хп любые п+1 табличных значений аргумента. Как следует выбрать эти значения, чтобы погрешность интерполирования была наименьшей? Задача весьма простая, имеет очень наглядное значение, и ответ к ней может быть пред- сказан заранее: наименьшее значение |/?(х) | получится, вообще говоря, в случае, когда в качестве узлов х0, хь ... , хп будут взяты п+1 таблич- ных значений аргумента, ближайших к точке х. Точные выражения остатка (4.3.9) и (4.3.10) сложно зависят от узлов Xk и малопригодны для получения из них правила выбора. Сосредоточим свое внимание на оценке (4.3.11). Так как оценка точная, то можно ожи- дать, что значения узлов, для которых она имеет наименьшую величину, М будут наилучшими при интерполировании. Множитель - не зависит от выбора узлов, и мы должны Xk при фиксированном значении х выбрать так, чтобы произведение |х—Хо| • |х—xj ... |х—хп| имело наименьшее значение, когда в качестве Xk берутся табличные значения аргумента.
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 353 Это и подтверждает высказанное правило: за Xk следует взять табличные значения аргумента, ближайшие к х. Рассмотренная простая задача представляет интерес не своим легко предсказываемым ответом, а скорее как испытание на правильность по- лученных представлений остатка и его оценки. Вторая задача имеет не столь очевидный ответ и приводит к более интересным следствиям. Рассмотрим тот же класс функций, что и в пер- вой задаче. Возьмем п-\-\ узлов %о, х^ ... , хп на [а, Ь] и построим по ним интерполяционное приближение Р(х) для f на всем отрезке [а, Ь]. За меру точности приближения в точке х естественно принять |/?(х) | = = |f(x)-P(x)|, за меру же приближения на всем отрезке [а, Ь\ следует принять max |/?(х)|. Наконец, за величину, характеризующую погреш- X ность приближения на [а, Ь] всех функций семейства, должна быть взята величина sup max |/?(х) |. (4.3.12) / X Она зависит от выбора узлов Поставим задачу: как следует выбрать узлы Xk (&=0, 1, ... , и), чтобы их можно было признать наилучшими при построении интерполя- ционных приближений на [а, Ь\ всех функций f взятого класса. Такими узлами, очевидно, нужно признать те, при которых величина (4.3.12) имеет наименьшее значение. Найдем (4.3.12). Из оценки (4.3.11), которую мы запишем коротко lRWlas-(^i)T l“WI> следует: max | <о (х) |. Отметим, что неравенство переходит в равенство для случая, когда f есть указанный выше многочлен М ,(х) = 7^+ТЛх"+,+а*"+--- Так как правая часть неравенства не зависит от Д то М sup max |/?(х) | ——— max |<о(х) |, f х X и так как оценка достижима, то следует взять точное равенство
354 Гл. 4. ИНТЕРПОЛИРОВАНИЕ sup max |/?(х) | = f X М , , м + 1)1 От выбора узлов Xk (й = 0, 1, ... , п) в правой части зависит только множитель тах|<о(х) | =тах| (х—-Хо) (х—Xi).. .(х—хп) | и для него ста- X X вится задача: среди всех многочленов со(х) =xn+1+&ixn+... , корни которых принадлежат отрезку [а, Ь], нужно найти тот, для которого max | со (х) | будет наименьшим. хе[а, Ь] Заметим, что оговорка относительно расположения корней Xk много- члена со(х) вызвана тем, что функции f мы считаем определенными на [а, 6] и интерполировать их можем только по узлам, лежащим на этом отрезке. Можно было бы изменить задачу об со(х) и поставить ее так: среди всех многочленов со(х) =xn+1+&ixn+^2*n“1+- • • с произвольными коэффициентами &2, ... нужно найти тот многочлен, для которого max | о) (х) | будет наименьшим. а<^х<сд Решением ее является многочлен, наименее уклоняющийся от нуля на [а, &]. Для отрезка —таким многочленом будет многочлен Чебышева первого рода (n-J-l) -й степени COS [(n+l)arccosf|=/n+1—. Корнями его являются числа ._____ 2М-1 — COS . . 2(п+1) Они лежат внутри отрезка [—1, 1]. От отрезка [—1, 1] линейным пре- a-\-b b—a „ г , _ образованием х=—-------1---—t можно перейти к [а, Ь\ и получить многочлен, наименее уклоняющийся от нуля на [а, 6]. Корни такого мно- гочлена будут лежать внутри отрезка [а, &]. Поэтому обе задачи о на- хождении многочлена со(х) —с оговоркой и без оговорки о положении корней на [а, 6] — равносильны и имеют одно и то же решение. Мы пришли к заключению, что наилучшими узлами для построения интерполяционного приближения на [а, Ь] функций f, удовлетворяющих условию |f(n+1)(x) | являются корни многочлена степени п+1, наи- менее уклоняющегося от нуля на отрезке [а, &]. Заключение не зависит от значения М и остается верным для всяких функций, (п+1)-кратно непрерывно дифференцируемых на [а, 6].
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 355 В последующем мы увидим, что интерполяционные процессы, в кото- рых выполняется интерполирование по узлам, являющимся корнями мно- гочленов Чебышева первого рода возрастающих степеней, обладают целым рядом замечательных свойств. В частности, такие интерполяцион- ные процессы будут равномерно сходиться для широких множеств функ- ций, например, как будет показано в § 4.5, для всякой абсолютно непре- рывной функции.*) Остановимся еще на представлении остатка интерполирования, харак- терном для аналитических функций. Рассмотрим плоскость комплексной переменной z=x-{-iy и допустим, что в ней указана конечная замкнутая область £>, ограниченная спрямляемым контуром I и содержащая внутри себя отрезок [а, Ь] действительной оси. Предположим теперь, что в D определена однозначная аналитическая функция f (z), регулярная всюду в D, включая и ее контур I. Нас будет интересовать задача интерполирования f только на отрезке [а, Ь] дей- ствительной оси, мы не будем выходить с этого отрезка в комплексную плоскость и оставим в стороне задачу об интерполировании f вне отрезка [а, Ь]. Роль, которую при этом будет играть область Z), мы выясним ниже. Как и выше, возьмем n-Н различных узлов Хо, Xi, ... , хп на [а, &] и пусть z есть точка интерполирования, отличная от них. По ним соста- вим интерполирующий многочлен п Р (2) = 2 г \ f (Xft)> ® (z) = (z-Xo)... (z-xn). (Z—Xk)(D (Xk) (4.3.13) Он определен на всей плоскости z и может быть принят за интерполя- ционное приближение f всюду в D. Несколько позже мы будем его рас- сматривать только на [а, 6], а сейчас z будем считать любой внутренней точкой области £>, отличной от узлов х&. Рассмотрим погрешность интер- полирования R(z)=f(z)—P(z). Это есть аналитическая функция zr регулярная всюду в D. Укажем для нее представление контурным ин- тегралом. Теорема 4. Если выполнены указанные выше условия для f, D, I и z, то для остатка R (z) верно равенство dt. (4.3.14) Доказательство.. Чтобы убедиться в правильности (4.3.14), достаточно вычислить правую часть и показать, что она равна f(z)— *) Функция называется абсолютно непрерывной, если она представима в форме не- определенного интеграла от суммируемой по Лебегу функции.
356 Гл. 4. ИНТЕРПОЛИРОВАНИЕ —P(z). Отбросим на время множитель co(z) и рассмотрим оставшийся после этого контурный интеграл. Он * равен, сумме вычетов функции /(О п с, х —-7-7——г- в особых точках, лежащих внутри D. f(z) не имеет там со(/)(/—Z) особенностей, и особыми точками будут нули знаменателя t=Xk (6 = 0, 1, ... , п) и t=z. Все они простые, и вычеты в этих точках нахо- дятся по известным правилам, которые даются в теории функций ком- плексной переменной: . ?(г) <o(z)’ НО 1 ГЫ со (0 (Z—г) J (=*А <о' (х&) (хй—г) ‘ Поэтому <о(г) f НО 2л1 , Ci)(t)(t—Z) с п h=Q dt=f(z)-J? =f^_p{z}=R{zy Попутно отметим, что при помощи формулы Коши для функции f: и равенства (4.3.14) для остатка легко получается представление много- члена P(z) контурным интегралом' _ 1 f co(Q-co(z). f(t) 2л1 со(/) /—z с (4.3.15) Теперь вернемся к нашей основной задаче изучения остатка в точке х отрезка [а, Ь} действительной оси f(0 со(/) (/—х) dt. (4.3.16) Сначала — несколько чисто качественных замечаний. Вдали от осо- бых точек аналитическая функция изменяется весьма плавно. Чем шире будет область D и чем дальше от [а, 6] будет удалена ее граница /, тем более плавным будет поведение f на [а, &] и тем меньшей погрешности интерполирования можно тогда ожидать. Если же иметь в виду интер-
§ 4.3. АЛГЕБРАИЧЕСКОЕ ИНТЕРПОЛИРОВАНИЕ ПО ЗНАЧЕНИЯМ ФУНКЦИИ 357 поляционный процесс при /г->оо, то тем более быстро он должен сходиться. Рассмотрим несколько более под- робно картину поведения остатка. В его представлении (4.3.16) от выбора узлов Xk и их числа n-Н зависит величина со(х) ®(0 сомножитель ———. Здесь t — переменная точка конту- Г Xk Возьмем один ра /. Если контур I достаточно широкий, то при всяких k и всех положе- . 1 Х—ХЬ Л ГГ й ®(Х) ниях t на I отношение —---будет иметь малый модуль. Дробь —7—- t—xk со (О будет весьма малой величиной, быстро стремящейся к нулю при росте п. Поэтому можно ожидать малой погрешности /?(х) интерполирования и быстрой сходимости интерполяционного процесса при п-+<х>. Самая грубая оценка, которую здесь можно получить,— следующая. При всяком положении х на [а, 6] и любом k имеем |х——а. Обозначим г расстояние от контура I до [а, 6]. Всегда будет |/—хЦ^г и Для R(x) получится оценка р-ахп+1 ! с Ц(/)| I---- I —— I —г-;-г- dt Когда а, то R(x) будет при больших п малой величиной и будет стремиться к нулю не медленнее, чем убывает показательная функция, стоящая в неравенстве справа. Последнее означает, что если рассматри- вать интерполяционный процесс при п->оо с любым выбором узлов Xk на [а, Ь], то Р(х) будет равномерно на [а, Ь] сходиться к f(x). Построим линию %, все точки которой удалены от отрезка [а, 6] на расстояние Ь—а. Она состоит из двух полуокружностей радиусов b—а с центрами в точках а и b и двух прямолинейных отрезков, параллельных [а, 6] и отстоящих от него на расстоянии b—а (рис. 4.3.1). Когда функция f(z) является регулярной в замкнутой области, огра- ниченной линией X, то для нее в качестве I может быть взята некоторая линия, охватывающая X, и условие г>Ь—а для I выполнено. Отсюда следует, что будет верно утверждение:
358 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Если f(z) регулярна в замкнутой области, ограниченной линией %, то для нее интерполяционный процесс при п-^оо будет равномерно на [а, 6] сходиться к [(х) при любом выборе узлов Xk (fe = 0, 1, ... , п) на отрезке [а, &]. Это утверждение мы привели здесь как самую простую иллюстрацию значения формулы (4.3.14) для остатка R(x). Когда контур / недостаточно широк и близко подходит к отрезку \af 6], могут существовать такие k и такие точки t на /, что отношение X—Xk —-----будет иметь модуль, больший единицы. Это может оказать влия- со (%) ние на величину —и заключение о сходимости здесь получить зна- чительно труднее. Чтобы она имела место, нужно, чтобы отношения X—Xk -----, меньшие единицы по модулю, оказывали бы большее влияние Г Xk <0 (Х) х TZ на —т-г—, чем отношения с модулем, большим единицы. Как учитывается влияние отношений обоих типов, будет показано в параграфе о сходимо- сти интерполяционных процессов. § 4.4. НЕКОТОРЫЕ ПРАВИЛА ИНТЕРПОЛИРОВАНИЯ ПРИ РАВНООТСТОЯЩИХ ЗНАЧЕНИЯХ АРГУМЕНТА В случае равноотстоящих узлов х0, Xi=x0+/i, ... , xn=x0+n/i, ... , который встречается в вычислительной практике особенно часто, правила интерполирования и соответствующие им формулы значительно упроща- ются. Этот случай, ввиду его практической важности, привлекал к себе особенно много внимания, и здесь было построено чрезвычайно большое число правил интерполирования, предназначенных часто для узких целей. Мы ознакомимся только с теми из них, которые особенно часто применяются в вычислениях. 4.4.1. Правила для интерполирования в начале и конце таблицы Предположим, что в равноотстоящих точках Xk=xQ-\-kh (6 = 0, 1, 2, ...) известны значения f (Xk) =f(xo-\-kh) =yk функции y(x)=f(x) и нам нужно интерполировать ее «вблизи» точки х0. Для интерполирова- ния тогда естественно привлекать узлы Хь в том порядке, как они идут в таблице: Хо, х0-|-Л, Хо+2/i, ... Применим для интерполирования правило Ньютона (4,3.6) f(x) =f(x0) + (x—х0)/(х0, хо+Л) + (х—хо) (х—х0—й)/(х0, Хо+^, Хо+2А) + +.. .+ (х—Хо) (х—Хо—Л).. .(х—Хо—(fe—l)/i)f(x0, Хо+Л, ... , Xo-{-kh)+Rk'
§ 4.4. НЕКОТОРЫЕ ПРАВИЛА ИНТЕРПОЛИРОВАНИЯ ПРИ РАВНООТСТОЯЩИХ УЗЛАХ 359 Примем прежде всего во внимание выражения (4.2.9) разностных отношений в равноотстоящих точках через конечные разности: f(x0) =у0, f(x0, Хо+Л) = f (Хо, Xo+h, Хо+2/i) = . II I It 1 I L Кроме того, введем новую переменную положив x=Xo-[-tht t= —, Переменная t имеет смысл числа шагов h от х0 до х. x—Xo=th, (х—Хо) (x—Xo—h) = t(t—l)h2, (х—Хо) (x—Xo—h) (х—Xq—2h) = t(t— 1) (f—2)/i3, ... Если внести все указанные величины в выражение для f(x), получим правило Ньютона для интерполирования в начале таблицы t /(/—1) /(/—!)(/—2) Г/(Хо + ^) = f/o + -7Т Af/oH-Z7 А2//оН-—-А3//о + 1! 2.! о! +(4.4.!) rv! Считая y=f(x') £-|-1 раз непрерывно дифференцируемой на отрезке, где лежат точки х, Хо, Хо+/г,..., xa-\-kh, применим для остатка Rk лагран- жево представление (4.3.10). ш(х) = (х—Хо) (х—хо—/г).. .(х—х0—kh~) =hh+it(t—l').. .(t-k), Rk=hk+i f(k+i) (g) t (4.4. где g есть точка указанного выше отрезка. В частности, если точка интер- полирования лежит между Хо и Xo-^-kh, то % тоже принадлежит отрезку [х0, Xo+kh]. Предположим теперь, что мы находимся в конце таблицы с узла- ми ... , хп—ЗЛ, хп—2h, xn—h, хп и пусть точка интерполирования лежит вблизи хп или где угодно справа от нее. При интерполировании в этом случае узлы следует брать в порядке их удаленности от хп: хп, xn—h, xn—2h, ... Правило Ньютона (4.3.6) в этом случае запишется в таком виде: f(x)=f(xn) + (x—xn)f(xn, Хп—h) + + (х—хп) (x—Xn+h).. .(x—Xn+(k—l)h)f(xn, xn—h,..., хп—kh)+Rk.
360 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Если вновь принять во внимание, что f (хп)—Уп> f (Хп) Хп h)—f (%п h, Хп)— ^Уп—1 №Уп—2 f (Хп, хп h, Хп 27г) —f (хп 2/г, хп h, хп) — .о » м • tv и ввести переменную /, положив х=хп+//г, мы получим правило Нью- тона для интерполирования в конце таблицы: , t Ф+1) У (xn+th) =Уп~\—&Уп-1-\-2^—A2J/n-2-h Ф+1НН-2) 3! Л3£/п-3"Ь Ф+1)...(Ж_1) — /\кУп—fe"T“Aft, остаток которого равен Rk=hh+i f(W)(g), (4.4.4) (Я-f-1) ! при этом точка £ лежит на отрезке, содержащем xn—kh, ... , хп, х. 4.4.2. Правила интерполирования внутри таблицы Пусть хп есть внутренний узел таблицы. Предположим, что точка интерполирования х лежит вблизи хп с той или другой стороны. Таблич- ные точки для интерполирования здесь разумно привлекать в следующем порядке: сначала взять хп> затем брать пары точек (x^-f-Тг, xn—h)t (Xn+2/i, xn—2h), ... , (Xn+kh, xn—kh). Число взятых узлов будет нечетным и равным 2&+1- Правило Ньютона (4.3.6) при таком порядке узлов запишется так: f (х) = f (хп) + (x—Xn)f (Хп, Xn+fl) + [х—Хп) (x—xn—h)f(xn, Xn+h, xn—h) + + (x—xn) (x—xn—h).. .(x—Xn+kh—h)f (xnt xn+h, ... , xn+kh) + + (x—xn) (x—xn—h).. .(x—Xn+kh—h) (x~-xn--kh)f(Xn> xn+ht ... , Xn+kh, xn—kh)+R2k, R2k = (x—xn) (x—xn—h) (x—Xn+h).. .(x—xn—kh) (x—xn+kh) (2^+1)!
§ 4.4. НЕКОТОРЫЕ ПРАВИЛА ИНТЕРПОЛИРОВАНИЯ ПРИ РАВНООТСТОЯЩИХ УЗЛАХ 361 Вновь, если заменить x, введя переменную t= . n-, x=xn-\-th, / If и подставить выражения разностных отношений через конечные разности f{xn>)==yn, f (Хп, Xn-^h) = ! , , &?Уп—1 f (Xn, xn-\-h, Xn—h) =f(xn—h, хп, Xn+h) = 2l > f(xn, Xn+h, xn—h, Xn+2h) =f(xn—h, xn, xn+h, xn+2h) = мы получим это равенство в виде: t t(t—-1) /(/—1) G+l) y(Xn+th) =Уп+ -П &Уп-{--------Д2Уп-1Ч--------------57----- Д3Уп-1+, 1! ZI o' /(/-!)(/+!) (^~2) 4! Д4//п-2“|-. . • + —1—- (лн-i)... /(Ж).. .(/-*+1)Д’*-Ь/„_А+1+ ( ZiK 1 j ! Чтобы придать членам правой части симметричный вид, приведем сна- чала равенство к форме
362 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Преобразуем, наконец, прямоугольные скобки, исключив в них раз- ности четного порядка при помощи равенств №Уп—1== &Уп ^Уп—2==^Уп—1 ^Уп—2у • • • В результате получим правило Ньютона — Стирлинга / , t ^Уп + ^Уп-i , t2 А2 . r/(xn+/A) =f/n+ -р-------2------1“ ~2\~ где £ есть точка, принадлежащая отрезку, содержащему xn-k, xn+h и х. Последнее правило, на котором мы остановимся, называется прави- лом Ньютона — Бесселя и предназначается для интерполирования в том случае, когда точка х лежит вблизи середины между табличными зна- чениями. Пусть это будут значения хп и xn+t. Соображения симметрии побуждают строить интерполяционное пра- вило со следующим порядком привлечения узлов: сначала берется пара узлов (хп, хп+/г), затем пары (xn—h, xn-[-2h)y (хп—2/г, xn+3/i), ... , (xn—kh-\-h, xn-\-kh). Число узлов является четным. Правило Ньютона (4.3.6) при таком расположении узлов будет иметь следующий вид: f (х) =f(xn) + (х—xn)f (xn, Xn+h) + + (х—Xn+h) (х—хп) (x—xn—h)f(xny xn+h, xn—h, xn4~2/i)+.. .+ + (x—Хп+АЛ—2/i).. . (x—xn—kh-\-1i)f (xn, xn-pi, ... , Xn+kh—h, Xn—kh-]-h) + (x—xn-\-kh—hY . .(x—xn—kh-\-h)f (xn, xn+^, ...» Xn—kh-\-hy xn-\-k!i) i, (x-xn-i-kh-h).. ,(x-xn—kh) -------------^)!-------------f< )(g)-
§ 4.4. НЕКОТОРЫЕ ПРАВИЛА ИНТЕРПОЛИРОВАНИЯ ПРИ РАВНООТСТОЯЩИХ УЗЛАХ 363 После замены x=xn-\-thf приняв во внимание равенства f (Хп) =Уп, f(Xn, Xn+h) = f(Xn, Xn+h, xn—h) = f 2Д) — /^3 найдем y(xn-\-th) =yn+ — Af/nH—A2f/n-i+ \ 1! Z1 < j ! (^+l)/(/—1) (/—2) , , (t+k-2)...(J-k+l) --------4!-------A Уп~2+- •+----(26=2)!------ A3i/n-i+ A2fe 2Уп-A+1+, A2ft iyn-k+l-^-Rzh-l- Для приведения членов правой части к виду, симметричному относи- тельно точки отделим от четных разностей половины их зна- чений п Уп' а п Д4//п—2, • • * и заменим эти значения при помощи тождеств ~х~ Уп= (//п+1 А//п), ~z_A2//n-i= (&2Уп A3f/n-i), -^-^Уп-2= (А4Уп-1—А5(/п-2), . . . После приведения подобных членов получим интерполяционное пра- вило Ньютона — Бесселя: t---- У (х„+й) = ЗД.+ +
364 Гл. 4. ИНТЕРПОЛИРОВАНИЕ ' (t+k-2)...(t-k+l) ^h~2yn-k+1+^h-2yn-k+2 (2/г—2)! 2 + (*“4-) (Ж-2).. .(/-/г+1) +-------;----,2k_ j} ---------^-'yn-k+i+Rzk-i, (4.4.6) о h2k (Ж+-1 )..•(/-*) ,(2ft),n ----------------(2*)!------f (g)’ где | есть некоторая точка отрезка, содержащего хп—kh-\-h, xn-\-kh, х. § 4.5. ПРИЛОЖЕНИЕ ИНТЕРПОЛИРОВАНИЯ К ЧИСЛЕННОМУ НАХОЖДЕНИЮ ПРОИЗВОДНЫХ 4.5.1. Об интерполяционном правиле вычисления производной от функции, заданной таблично Такая задача может быть решена только приближенно. Наряду с установлением правил вычисления производных одной из основных задач здесь является оценка, погрешности, которая допускается при вы- числении. Предположим, что для (п+1)-кратно непрерывно дифференцируемой функции f в различных точках xQ, Xi, ... , хп отрезка [а, 6] известны ее значения yo=f(xo), */i=f(xi), • • • , Уп=Нхп). По этим исходным данным нужно найти значение производной порядка т от f(x) в любой точке 6]. Одно из возможных решений задачи состоит в следующем. По исходным данным выполняют алгебраическое интерполирование f. Пусть Р(х) есть интерполирующий многочлен, имеющий степень не вы- ше п, и /?(х) — остаток интерполирования, так что f(x)=P(x)+P(x). Вычислим производную порядка т от обоих членов равенства: f(™)(x) = Р(™)(х)+/?(™)(х). (4.5.1) Если пренебречь здесь величиной Р<т)(х), получим численное правило для нахождения нужной производной: /<™)(х) «Р(™)(х), (4.5.2) погрешность которого равна /?<ш)(х). При применении правила мы долж- ны, очевидно, считать m^n, так как все производные от Р порядка, боль- шего п, равны нулю тождественно.
§ 4.5. ЧИСЛЕННОЕ НАХОЖДЕНИЕ ПРОИЗВОДНЫХ 365 Вычисление производной Р<т)(х) от многочлена Р принципиальных трудностей не представляет. Наибольший интерес здесь имеет лишь важ- ный в практике технический вопрос о приведении вычислений к виду, возможно более удобному в работе. Отложим эту задачу на некоторое время и займемся сейчас остатком /?<т)(х). /?(х) есть п+1 раз непрерывно дифференцируемая функция на [а, 6], обращающаяся в нуль в п+1 узлах хо, Xi, ... , хп. Чтобы сделать более наглядными рассуждения, будем считать, что узлы Xk перенумерованы в порядке роста координат: Xk<ZXk+i (&=0, 1, ... , п—1). Рассмотрим вспомогательную функцию со (I) k = *о) G Х1)...(/ хп), (4.5.3) где k есть постоянная, которую мы выберем позже. Аргумент функции ф мы обозначили буквой /, чтобы отличать его от точки х, в которой вычис- ляется f(m)(x). Функция ф(/) обращается в нуль в узлах Xk и имеет на отрезке [х0, хп] по меньшей мере п+1 различных нулей. Между каждой парой узлов (х&, Xfc+i) ф7 будет иметь по меньшей мере один нуль, и число нулей ф' внутри (хо, хп) будет не меньше п и т. д. Производная порядка т ф(т) (/) =7^(т) (/) — будет иметь внутри (хо, хп) по меньшей мере п+1— т различных нулей. Займемся выбором числа k. Предположим, что точка интерполиро- вания х не лежит внутри отрезка [xi, хп], а располагается .вне его или на одном из его концов. Потребуем, чтобы в точке t=x выполнялось равенство ф(т) (х) = /?<w)(x) — (пг^ 1). Так как все нули о)(т)(х) лежат внутри [хо, хп], то со<т)(х)=+0 и число k может быть найдено.*) Кроме того, так как точка х по предположению не лежит внутри [х0, хп], то ф<т)(/) имеет на отрезке, содержащем х, Хо, ... , хп, по меньшей мере n+2—m разных нулей. Производная ф(т+1)(^) будет иметь внутри этого отрезка по меньшей мере n-J-1 — tn раз- личных нулей и т. д. и производная ф(п+1)(/) должна иметь внутри отрезка *) со'(х) есть многочлен степени л, имеющий внутри каждого из отрезков (х&, x&+i) (£ = 0, 1, ... , п—1) по одному нулю и не имеющий никаких других нулей. со"(х) есть многочлен степени п—1, имеющий по одному нулю между каждыми соседними нулями со'(х). Таких нулей п—1, и все они лежат внутри [х0, хп]. Никаких других нулей у со"(х) нет и т. д.
366 Гл. 4. ИНТЕРПОЛИРОВАНИЕ не меньше одного нуля. Назовем его Ввиду со<п+1>(/) = (п+1)! и ^(п+1)—^(n+i)_p(n+i)=j:(n+i)> ПрИ । должно быть ф(п+1) (£) = £(n+l) (g) _k = f("+D (g) — k = 0, k = (g) . Из уравнения для определения k следует f(m) (%) — Р№ (х) =R№ (х) — (п+1)! (4.5.4) что позволяет высказать приводимую ниже теорему. Теорема 1. Пусть на отрезке [а, &], содержащем х и узлы Хо, ... , хп, функция f имеет непрерывную производную и х не лежит между Хо и хп. Тогда на указанном выше отрезке существует такая точка g, что для по- грешности /?<т)(х) вычисления производной f<m)(x) верно равенство (4.5.4). Если точка х лежит внутри отрезка [х0, Xi], то наши рассуждения ста- новятся неправомочными в двух пунктах. Может оказаться, что в точке х производная со(т)(х) =0 и уравнение для k станет неразрешимым или не- определенным. Если уравнение для k разрешимо, то нельзя поручиться за то, что корень /=х для будет отличным от тех п+1 — пг корней, существование которых было доказано при помощи теоремы Ролля, и может оказаться, что q/m>(/) имеет меньше чем n+2—m корней. Поэто- му при расположении точки х между хо и хп мы должны считаться с воз- можностью исключительных случаев, когда исследуемая погрешность /?(™)(х) может не иметь представления вида (4.5.4). Какое можно постро- ить представление /?(т)(х), верное при всяком расположении точки х, мы увидим несколькими строками ниже. Сейчас же рассмотрим одну задачу вычисления производной первого порядка f' при расположении точки х внутри [Хо, хп], в которой остается верным представление погрешности (4.5.4). Пусть Хг есть любой ИЗ узлов И МЫ ХОТИМ ВЫЧИСЛИТЬ f'(Xi). Прибли- женно ПОЛОЖИМ fZ(Xf) ^Р'(Хг) И рЗССМОТрИМ ПОГреШНОСТЬ /?'(Хг) = =f'(Хг). Вспомогательная функция ф(/), как отмечалось выше, обращается в нуль в каждом из узлов Xk (& = 0, 1, ... , п), и q/(/) будет иметь не менее одного нуля внутри каждого из отрезков [х^, х&+1] (& = 0, 1, ... , п). Таких нулей будет по меньшей мере п штук. Выберем теперь k так, чтобы точка t=Xi также была нулем q/; (п+1)! со'(хг) = Д (Хг—Xj) =#0 и число k может быть найдено. Нуль t=Xi отли-
§ 4.5. ЧИСЛЕННОЕ НАХОЖДЕНИЕ ПРОИЗВОДНЫХ 367 чен от нулей, лежащих внутри отрезков [a, x/l+i], и, таким образом, ср' будет иметь не меньше п+1 различных нулей на [х0, хп]. Отсюда следует, что будет иметь на [%о, хп] по крайней мере один нуль: ф(п+1) (g) = ^ ч-D (g) = о, k=R^ (g) = pw (g). Далее остается только повторить рассуждения, проделанные выше для производной любого порядка пг, и мы придем к заключению, что погрешность R'(Xi) =f7 (xi)-—P' (х^ приближенного вычисления произ- водной в узле Хг по правилу f'(xj) ~Р' (%г) имеет представление = -SriVn+1)^) (*о<Ъ<*п). (4.5.5) Теперь укажем представление погрешности /?(т)(х), верное при вся- ком положении точки х на [а, Ь]. Как и выше, будем считать f имеющей непрерывную на [а, &] производную По теореме Тейлора для f вер- но равенство X Г (х—t}n f(x)=Co+Ci(x—а)+.. .-j-cn(x—a)n-j- J <р(/) —dt, (4.5.6) а Ci= 4j-f(i)(a) (i==o, 1, ... , n), q>(O=f(n+1)(O> a^x^b, которое, по существу дела, является структурной формулой или парамет- рическим представлением множества функций f, п+1 раз непрерывно дифференцируемых на [а, 6], так как всякая функция f этого множества представима этой формулой и, наоборот, при любых значениях Сг (f=0, 1, ... , п) и всякой функции ф, непрерывной на [а, 6], функция Д определенная равенством (4.5.6), является непрерывно дифференцируе- мой п+1 раз на [а, &]. В (4.5.6) для наших целей удобнее заменить интеграл с переменной верхней границей на интеграл по отрезку [а, Ь], что можно сделать, если ввести «гасящую» функцию, позволяющую уничтожить лишние участки интегрирования. Определим Е(х) равенством при х>0, при х=0, при х<0. (4.5.6') Как сразу же видно, (4.5.6) может быть записано в форме
368 Гл. 4. ИНТЕРПОЛИРОВАНИЕ п Ъ V7 f (х—t}n f(x) = 2j Ci(x—a)<+ J (0E(x-t) v -+- dt. (4.5.7) г=0 a Остаток R(f; *)=f(x)~ интерполирования функции f будет равен остатку интерполирования ин- п тегрального члена в (4.5.7), так как многочлен Сг{х—а)\ имеющий г=0 степень не выше п, интерполируется точно: ъ х) = J /<”+‘>(0 {£(х-0 а S -(---Ш\Х)/7 Ч Е (Xk t Z) П} dt “ (х—Xk) <j> (Xfc) ' n! J b = $f{n+1)<f)R[E(x-t) a При вычислении производной порядка m^n по х последний интеграл можно дифференцировать по х под его знаком и для интересующей нас погрешности прлучится равенство ь RM(f- х) = J(/) [ Е (x-t) х 1 dt. (4.5.8) Г UI J а ' Это выражение для х) остается, очевидно, верным при всяком расположении точки х на [а, 6]. Равенство же (4.5.4) получится отсюда, если применить к интегралу теорему о среднем значении, что возможно, вообще говоря, лишь в том случае, когда ядро интеграла ^ [£(%-/) (Х )П сохраняет, как функция от /, знак на отрезке a^t^b.
§ 4.5. ЧИСЛЕННОЕ НАХОЖДЕНИЕ ПРОИЗВОДНЫХ 369 Если рассмотреть множество функций f, имеющих на [а, 6] непрерыв- ную производную порядка п+1, удовлетворяющую условию |f(n+1)(x) | ^Л1п+1, то для него остаток (f; х) имеет следующую точную оценку: ь x)|^Afn+1J dt. (4.5.9) а 4.5.2. Некоторые частные правила вычисления производных При вычислениях на быстродействующих вычислительных машинах, когда мы заинтересованы скорее не в малом количестве арифметических операций, а в экономии элементов памяти и в простоте программирова- ния, достаточно выгодным является использование представления интер- полирующего многочлена Р(х) в форме Лагранжа (4.3.5). Например, при вычислении первой производной, когда х не совпадает ни с одним узлом Xk (й = 0> 1, ... , п), можно воспользоваться следующим выраже- нием для Р': п f'(х) «Р'.(х) = со'(х) У -------; ,,т f (xft) - (х—xft) со'(xft) п —СО (х) Si ------7TV7—Г f (%ft) = s (Xft) (X—Xft)co'(Xft) f (A) - (4.5.10) Если же вычислению подлежит значение f' в узле х;-, то можно вос- пользоваться более простым равенством (х;—Xft) со'(Xft) + (4.5.11) При счете на настольных машинах без программного, управления бо- лее рационально, по-видимому, воспользоваться ньютоновой формой
370 Гл. 4. ИНТЕРПОЛИРОВАНИЕ (4.3.6) многочлена Р(х). Обозначив для сокращения записи х—х& = аь, можно придать Р(х) форму Р(х) =f (хо) (хо, Xi) +aoaif(хо, Xi, Х2) -[-aocxiotef(хо, Xi, Х2, Хз)4~ +•. .+aoai ... an-if(*o, *i, ... , xn). Вычисляя производные от обеих частей, получим приводимые ниже выражения для f'(x)xP' (x)=f(xQ, Xi) + (ao4-ai)f(xo, xh x2) + + (aoai+aia2+a2ao) f(%o> хъ хз)+-.. , f" W ~ P"(X) =f(Xo, Xi, X2) + “H ((Xo~H CXi-}-OC2) f (Xq, Xi, X2, Хз)-|-. .. , -ir (X) « =f (*>, Xi, Хг, X3) + О! O! + (cXo4“OCl~boC2H“CZ3)f (X0, Xi, X2, X3, X4) 4“. . . , fIV (X) « P” (x) =f (X0, Xi, X2, X3, X4) + 4* (ао+оц+аг+аз+о^)/ (Xo, Xi, x2, x3, Хь, X5)-}-... В частном случае, когда вычисляются значения производных f', f", ... в узле Хо, в предыдущих равенствах нужно положить x=Xq, ао=О, аг=хо—Xi (i= 1, 2, ...). После этого получатся равенства: Г(Хо) «/(Хо, Xi) + (X0—Xi)f(X0, Xi, х2) + Ч-(ХО—Xi) (х0—x2)f(x0, xt, х2, х3)+... , f" (Хо) «f (Хо, Xi, х2) + (2Хо—Xi—x2)f (Хо, Xi, х2, х3) 4- 4- [ (Хо—Х1) (Хо—х2) 4- (х0—Xi) (Хо—Хз) 4- 4-(хо—Х2) (Хо—Хз)]/(х0, Xi, х2, Хз, х4)4-. . . , -^-/"'(хо) (х0, Xi, х2, Хз)4-(Зх0—Х1—х2—x3)f(x0, Xi, х2, Хз, х4)4-. .. , fIV (Хо) « f (Хо, Х1, х2, Хз, х4) 4- 4-(4Хо—Xi—х2—Хз—x4)f(x0, Xi, х2, Хз, х4, х5)4-. .. ,
§ 4.5. ЧИСЛЕННОЕ НАХОЖДЕНИЕ ПРОИЗВОДНЫХ 371 Совершенно аналогично могут быть получены выражения производ- ных через конечные разности в случае равноотстоящих узлов.*) Если, например, исходить из правила Ньютона для интерполирования в начале таблицы (4.4.1), получатся следующие выражения для производных: , Ч I /М А I А2 I 3/2-6Н2 лз . (xo-\-th) = Дz/oН--— Д 2{/oН---------Д3Уо+ 4/з_18/2+22/-6 .. , Ч---------г,-------Л4Уо+. • • , h*y" (хь+tti) = Д2уо+ (/-1) Д3Уо+ 6/2 “Г”- Д4</о+. .. , h^y"'(x0+th) =Д3уо+ Д4//о+\.. , £ При х=хо и i=0 будет Д3Уо----Г А41Л>+ “Г ---------Г &вУ<>+- • • 12 5 *, . 137 Дй ^о+-18О^о----. Д4Уо+ — Д5Уо----Д6Уо+.. • , 4 о /i4z/IV (хо) = Д4г/о—2Д5Уо+ -т- Ь*Уо—... hsyv (хо) = Д5Уо-«- ДвУо+... *) Достаточно большое число правил вычисления производных приведено в книгах; [5] и И. С. Березин, Н. П. Жидков. Методы вычислений, т. 1. М., 1966.
372 Гл. 4. ИНТЕРПОЛИРОВАНИЕ § 4.6. ИНТЕРПОЛЯЦИОННЫЕ МЕТОДЫ РЕШЕНИЯ ЧИСЛЕННЫХ УРАВНЕНИЙ 4.6.1. Введение. Связь с задачей обратного интерполирования В гл. 1, когда обсуждался вопрос об уточнении метода Ньютона, мы обращали внимание на то, что одним из возможных способов уточнения является интерполирование. Ознакомимся сейчас с одной из простейших форм интерполяционного метода и ограничимся изложением лишь на- глядной стороны вопроса. Сначала обратим внимание на связь интерполяционного метода с так называемой «задачей обратного интерполирования». Пусть рассматривается некоторая функция z/ = f(x), для которой изве- стна таблица ее значений Хо Xi х2 • Уо У1 У2 Хп—1 Хп Уп—1 Уп (4.6.1) (lfk=f(xh)). В обычной задаче интерполирования рассматривается такой вопрос: дано нетабличное значение аргумента х и нужно найти соответствующее ему значение y = f(x). Рассмотрим обратную задачу: пусть задано не- табличное значение у* функции y=f(x) и нужно найти, какому значению аргумента х оно отвечает. По существу дела, здесь мы ставим задачу о решении уравнения f(x)=t/*, в котором число у* считается заданным, а аргумент х является неизвестной величиной. При этом функция f(x) считается заданной не аналитически, а таблично и при разыскании х мы имеем право пользоваться только числами х^ Ук, входящими в таб- лицу (4.6.1), и значением у*. К решению поставленной задачи можно идти двумя путями. Первый из них, от которого произошло название задачи, является особенно про- стым, но относится к функциям f(x) частного типа, когда функциональ- ная зависимость y = f(x) является однозначно обратимой. Известно, что это имеет место, наверное, в том случае, когда f(x) является монотонной (возрастающей или убывающей) функцией. f(x) считается заданной таблично, и по таблице значений (4.6.1) легко проследить, будет ли дей- ствительно f обладать свойством монотонности. Допустим, что монотон- ность имеет место, и рассмотрим обратную функцию x=F(y). Она за- дана той же таблицей значений (4.6.1), что и f(x), с тем различием, что yk — теперь значения аргумента, а Хь — соответствующие им значения функции. Интерполируем F(y) при помощи многочлена П(г/) степени п: F(y) ^П(у). Положив здесь у = у\ найдем приближенно нужное нам' значение х: хж П (у*). Второй путь нахождения х имеет более общее значение и применим ко всякой функции f. Но он более труден по вычислениям, так как тре- бует решения алгебраического уравнения. Возвратимся к заданной функ-
§ 4.6. ИНТЕРПОЛЯЦИОННЫЕ МЕТОДЫ РЕШЕНИЯ ЧИСЛЕННЫХ УРАВНЕНИЙ 373 ции f(x)=y и проинтерполируем ее при помощи многочлена Р(х) сте- пени п. Уравнение f(x)=y* заменим новым уравнением P(x).^i/*. Обычно бывает, что значения Xk (&=0, 1, ... , и) принадлежат ма- лому участку и f изменяется на нем достаточно гладко. Кроме того, у* является, как правило, близким к yk (£=0, 1, ... , п), и поэтому урав- нение Р(х)^г/* будет мало отличаться от f(x)=y* и можно ожидать, что решение нового, приближенного уравнения будет близким к иско- мому-значению х.*) Все изложенные соображения являются, разумеется, очень нестро- гими, но они достаточны для наших целей и позволят показать, какое полезное значение имеет проблема обратного интерполирования в задаче решения численных уравнений. Возвратимся к этой последней задаче. Предположим, что дано уравнение f(x)=O. Функция f задается аналити- чески, и мы имеем возможность вычислить значение f в любой точке вблизи решения. Пусть каким-либо путем найдено несколько приближений к решению и составлена таблица (4.6.1). Нам нужно указать правило для нахожде- ния следующего приближения xn+i. Условия этой задачи весьма сходны с теми, в которых мы находились в проблеме обратного интерполирова- ния. Нам дано уравнение f(x)=O и заданное заранее значение функ- ции у* здесь равно нулю. В качестве следующего приближения xn+i естественно поэтому взять то значение х, которое получится по методу обратного интерполирования. В соответствии с этим перед нами откры- вается возможность построить Xn+i двумя методами, соответственно двум возможным путям обратного Л1терполирования. Ниже мы проследим несколько более подробно каждый из двух мето- дов, а сейчас выясним причины, по которым избранная нами форма ин- терполяционного метода была названа простейшей. Здесь дело в том, что для нахождения xn+i мы выполняем интерполирование только по зна- чениям функции и не пользуемся значениями производных. Напомним, что в методе Ньютона следующее приближение xn+i находится по пра- f(*n) вилу xn+i = xn--гл—7 и ПРИ вычислениях ведется таблица вида / \Хп) Хо х^ ... хп—j хп У о У1 ... У п—1 Уп Уо У1 Уп—1 Уп t Если строить интерполяционные методы, уточняющие правило Нью- тона, мы могли бы воспользоваться интерполированием по значениям *) Уравнение Р(х) ~у* может иметь несколько решений, и из всех его решений мы должны выбрать то, которое лежит наиболее близко к Xi (i = 0, 1, ... , п). Такое реше- ние чаще всего бывает единственным.
374 Гл. 4. ИНТЕРПОЛИРОВАНИЕ функции y=f(x') и первой производной z/'=f'(x). Принципиально гово- ря, можно было бы строить интерполяционные методы решения уравне- ний с узлами любых кратностей. Мы же для облегчения изложения из- брали самую простую форму метода, когда интерполирование выполня- ется только по значениям f, но хотим обратить внимание читателя на возможность его обобщений и уточнений. 4.6.2. Метод приближений, основанный на интерполировании обратной функции Точное решение уравнения f(x) =0 обозначим х* и предположим, что на некотором отрезке, содержащем х* и все последовательные приближе- ния Xk (& = 0, 1,...), о которых будет говориться ниже, f(x) имеет одно- значную обратную функцию F(x). Пусть вычисления начаты, доведены до приближения хп и составлена таблица (4.6.1). Рассмотрим обратную функцию x=F(y) и проинтер- полируем ее по £-{-1 значениям, которые она принимает в узлах уп, Уп-i, ...» Уп-k- Интерполирующий многочлен запишем в форме Лаг- ранжа, позволяющей представить все величины в легко обозримом виде, хотя эта форма и не является, по-видимому, самой удобной для вычис- лений,*) F (у) » П (у) = (У Уп—j) й (//n—j) Й(У) %n—j, (4.6.2) й (у) = (у—Уп) (у—Уп-i) (у—уп-k). Положим здесь у=0 и значение П(0) примем за xn+i: h (4.6.3) Затем вычисляем f (хп+1) =уп+и добавляем еще один столбец в таб- лицу (4.6.1) и переходим к нахождению хп+г. Рассмотрим теперь погрешность приближения к решению еп=х*—хп и постараемся выяснить наглядную картину изменения 8П, когда хп близко к х*. Будем считать, что обратная функция F непрерывно диффе- ренцируема &+F раз. Это, наверное, будет так, если f(x) непрерывно дифференцируема &4-1 раз и /,(х)У=0. *) При вычислениях на машинах без программного управления более удобным, ве- роятно, было бы воспользоваться интерполяционной формулой Ньютона, рассчитанной на интерполирование в конце таблицы (4.6.1): П (t/) = F(yn) + (y—Уп)Г(уПу yn-i) + + (У—Уп) (у Уп-i) F(yn, Уп-i, Уп-z) + (У Уп) (у Уп-i) (У Уп-2) F(yn> yn-it Уп—2; Уп—з) +• . «
§ 4.6. ИНТЕРПОЛЯЦИОННЫЕ МЕТОДЫ РЕШЕНИЯ ЧИСЛЕННЫХ УРАВНЕНИЙ 375 Остаток интерполирования F(y) равен Q (и) Г(У)=Р(У)-П(У)= FM (П), (Я “Г 1) ! где т) есть промежуточная точка на отрезке, содержащем уп-г (i=0, и у. Положим здесь у=0 и примем во внимание, что F(0)=x*, П (0) — Еп+1=х*—хп+1 = F (0) — П (0) = г (0) = £2(0) (/г+1)! (т]о) = А к Под т]о здесь понимается точка отрезка, содержащего yn-i (i=0, \,... , k) и точку нуль. Ввиду f (х*) =0 будет 1 к к JJ еп-г Ц f' (х* — 0n-i8n-i) ЯЛ+0 (Т]о). г=0 г=0 Бп+1 (й+'1)! (4.6.4) Чтобы сделать наглядным закон изменения погрешности еп, сохраним в правой части лишь главный член, производя замену /'(%*—0п_г-еп-г) ~ и F(k+1)(г]о) (0). После этого получим приближенное ра- венство, дающее достаточно простую картину изменения еп вблизи реше- ния х*: 8„+1 ~ / Jin [Г (**) 1h+l F(h+l) (°) е”е”-‘ • • <4-6-5) Равенство (4.6.5) позволяет думать, что если f вблизи решения х* имеет непрерывную производную порядка и первую производную, отличную от нуля, а приближения х0, Xi, ... , xh взяты достаточно близ- кими к точному решению, то вычислительный процесс, определяемый правилом (4.6.3), будет сходиться к х* весьма быстро, со скоростью, указанной в (4.6.5).
376 Гл. 4. ИНТЕРПОЛИРОВАНИЕ 4.6.3. Замена точного уравнения /fxJ = 0 приближенным, полученным интерполированием f Метод нахождения х*, о котором здесь будет идти речь, основан на замене заданного уравнения более, вообще говоря, простым алгебраиче- ским уравнением. Рассмотрим &4-1 значений, принимаемых функцией f в узлах хп, хп-ь ... , xn-k, и проинтерполируем ее по этим значениям при помощи многочлена Р(х) степени f(x)=p(x)+/?(x); P(x) = 7^-f(^)a), CO (x) = (x~xn) (x—X n—1 g — принадлежит отрезку, содержащему точки хп, ... , xn-k, х. Отбрасы- вая остаток интерполирования /?(х), заменим заданное уравнение f(x)=O «близким» к нему вспомогательным алгебраическим уравнением Р(х)=0, Новое уравнение может иметь несколько решений, и из них выбирают то, которое будет ближайшим к месту расположения узлов хп, ... , xn_k, или, если _этот признак окажется недостаточно определен- ным, ближайшим к последнему известному приближению хп- Решать уравнение Р(х)=0 удобно методом итерации в следующем виде. Воспользуемся формулой Ньютона для интерполирования в конце таблицы и запишем уравнение в виде Р (X) = f(xn) + (x—Xn)f (Хп, Xn-i) + 4“ (х Хп) (х Xn—i)f(Xn, Хп—1, Хп—2) 4~• • • — Перенесем член (х—xn)f(xn, xn-i) в другую часть равенства и разделим обе части на —f(xn, xn_i): f (-^n, Xn—1, Xr f (Xn> Xn—1) .. .=ф(х). Примем x=xn=xW за исходное приближение к решению вспомога- тельного уравнения Р(х)=0 и построим следующие приближения по правилу x<m+1)=(p(x<m)) (m = 0, 1, ...). Предположим, что решение с нужной точностью найдено. Его примем за следующее приближение xn+i к х*. После этого вычисляем yn+i = =f(xn+i), добавляем столбец в таблицу (4.6.1) и переходим к нахожде- нию хп+2. Для этого интерполируем f по значениям в узлах xn+i, хп, Хп—1, • • • I, Xn—k+i И Т. Д. С вычислительной точки зрения изложенный метод сложнее правила (4.6.3), так как требует решения уравнения Р(х)=0 на. каждом шаге, тогда как (4.6.3) дает явное выражение xn+i через xn, xn-i, ... , xn-k и требует выполнения простых арифметических операций.
§ 4.7. ИНТЕРПОЛИРОВАНИЕ С КРАТНЫМИ УЗЛАМИ 377 Обратимся к выяснению закона изменения погрешностей е,п=х*—-хп, когда приближения хп будут близкими к х*. Для точного решения х* выполняется равенство /(х*) =0 и так как, ввиду P(xn+i) =0, f (^n+l) -Р (Xn+1) » будет f (х*) — f(xn+i) ==— /?(xn+i). Если f вблизи х* имеет непрерывную производную порядка k+1, при этом первая производная отлична от нуля, будут верны приводимые ниже вычисления: f (**) — f (*п+1) =f(x*) (х*—en+i) = еп+1Г (х*—9еп+1) (0 < 0< 1), где g лежит на отрезке, содержащем хп-ь,..., xn+i, Отсюда видно, что когда приближения хп-ь, ... , xn+i будут близки к х*, то £n+i будет малой величиной более высокого порядка малости, чем каждая из погрешностей en, en-i, ... , еп-/ь и каждую из скобок (еп—Sn+i), (en-i—еП4-1), ... можно приближенно заменить соответствен- но На 8п—1, • • ♦ Кроме того, отношение -ы,------г можно f(x*-0en+i) Приближенное равенство также заменить, оче- видно, на 8n8n—1 • • • 8n—k дает, по-видимому, достаточно верное описание закона изменения по- грешности еп при увеличении п. § 4.7. ИНТЕРПОЛИРОВАНИЕ С КРАТНЫМИ УЗЛАМИ 4.7.1. Существование и единственность интерполирующего многочлена. Остаток Предположим, что на отрезке <а, Ь> даны т различных узлов ин- терполирования. Рассмотрим функцию f и будем считать, что в точке х4- известны значения, как самой функции /(Xj), так и ее производных f' (xi), ... , f(ai-1)(xt), в точке х2 даны значения f(x2), /'(хг), .... /(“2-1)(х2) и т. д. Числа ai, а2, ... , а™ называются кратностями соответствующих узлов. Общее число всех исходных данных о функции f обозначим п-|-1 ai+a2-|-..
378 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Поставим задачей найти многочлен Р(х) =аохп-}-а1хп-1+.. .+ап, * (4.7.1) степени не больше п, удовлетворяющий условиям P(i)(Xft) =^)(xfe) (1=0, 1, ... , afe-l, k= 1, 2, ..., m). (4.7.2) Эти условия дадут для определения коэффициентов ak (k = 0, 1, ..., п) многочлена систему линейных уравнений. Чтобы убедиться в существо- вании и единственности решения системы, достаточно показать, что одно- родная система (f=0, 1, .. /, ал—1, k=\, 2, ... , m) имеет только нулевое решение. Но такая система для многочлена Р(х} говорит о том, что узлы Xi, %2, ... , хт должны быть корнями Р(х) крат- ностей не меньше соответственно ai, аг, ... , аш. Сумма кратностей кор- ней Р(х) должна быть больше или равна ai+аг-Н • .+am=n+l. Но сте- пень Р(х) не выше п, и иметь сумму кратностей, большую п, многочлен Р может только в том случае, когда он тождественно равен нулю. Тогда все его коэффициенты ak равны нулю и однородная система имеет, сле- довательно, только нулевое решение. Таким образом, рассматриваемая интерполяционная задача с крат- ными узлами разрешима и имеет только одно решение, каковы бы ни были значения f{r>(Xk) в условиях (4.7.2). Для многочлена Р(х) можно легко выписать явное выражение через узлы Xk и значения f^(Xk) при помощи определителей. Но такое пред- ставление Р(х) имеет сложное строение, и мы оставим его в стороне. В следующем пункте будет построено более простое представление Р(х). Его мы получим, воспользовавшись тем, что представление Р(х) зависит только от чисел f(i)(%ft) и не зависит от того, будет ли f аналитической функцией или не будет. Для аналитической же функции можно указать компактное выражение для Р, из которого нужное нам представление Р следует сравнительно просто. Рассмотрим остаток интерполирования R(x)=f(x)—Р(х). Он являет- ся п4~1 раз непрерывно дифференцируемой функцией на удов- летворяющей условиям R^(xk')=0 (i=0, 1, .. . , aft—1, k=\, ... , m), которые говорят о том, что узлы xif ...,хт для остатка R будут корнями, кратности которых будут не меньше соответственно, ai, ... , ат.
§ 4.7. ИНТЕРПОЛИРОВАНИЕ С КРАТНЫМИ УЗЛАМИ 379 Построим для R(x) одно из простейших известных представлений. Введем многочлен степени п+1, связанный с узлами xit ... , хт и их кратностями ои,..., ат, А (%) = (х—Х1)а* . . . (Х—Хт)ат. (4.7.3) Теорема 1. Если узлы Xk (k = 1, ... , т) и точка интерполирования х принадлежат отрезку [а, 0] и функция f имеет на этом отрезке непрерыв- ную производную порядка п+1, то на [а, 0] существует такая точка £, что для остатка интерполирования R(x) верно равенство (4-7.4) Доказательство. Чтобы отличить в обозначении точку интер- полирования х от аргумента, назовем последний z и рассмотрим вспомо- гательную функцию F (z) =f (г)-Р (г) - [f (х) -Р (х) ]. Она имеет на [а, 0] непрерывную производную порядка п+1 и точки z=Xi, ... , z=xm, z=x для нее будут нулями кратностей не ниже ai, ... , am, 1. Как обычно, мы считаем, что х не совпадает ни с одним из узлов Xfe. Первая производная Ff (z) будет иметь, ввиду теоремы Ролля, внутри каждого отрезка между смежными точками хь ... , хт, х по мень- шей мере один корень. Число таких отрезков равно пг. Кроме того, узлы Xi, ... , хт будут корнями F'(z) кратностей не меньше, чем ai— 1, ... , am— 1. Поэтому F'(z) на [a, 0] имеет нулей не меньше (ai—1)+. • •+ + (ост—-l)+m = ai+. • *+ос?п=п+1. Повторив такие же рассуждения для F'(z), можно прийти к заклю- чению, что F"(z) имеет по меньшей мере п нулей и т. д. и производ- ная F<n+1)(z) порядка п+1 будет иметь на [а, 0] по меньшей мере один нуль. Назовем этот нуль g, и так как F(^+d (2) = (z) — (п+1)! А(х) [f(x)-P(x)]=f(n+i)(2)_ (»+1)! Л(х) /?(х), то должно быть f(n+1)(g) — (п+1)! Л(х) 7?(х)=0, откуда следует (4.7.4).
389 Гл. 4. ИНТЕРПОЛИРОВАНИЕ 4.7.2. Представление R(x) в случае аналитической функции /. Формула Эрмита для многочлена Р(х) Для дальнейшего изложения будет удобно изменить обозначения, указав в них явно функцию Д и вместо Р(х) и Р(х) употреблять знаки P(f;x) и7?(/; х). Многочлен Р(Д х) может быть, очевидно, записан в форме т ak 1 P(f; *)= £ Z Lk,i(x)P(xkl (4.7.5) где Lki(x) есть многочлены степени /г, зависящие от узлов Хь и их крат- ностей ak> Явное выражение их дано ниже в (4.7.8). Будем считать f(z) аналитической функцией комплексной перемен- ной г, регулярной в ограниченной замкнутой области В, содержащей внутри себя хь ... , хт и х. Контур / области будем считать спрямляемой линией. Формула Коши f(x)== ——rJ------dz, дающая представление f всюду Z X внутри Z, позволяет привести интерполяционный многочлен Р(Д х) для f D ( 1 \ 1 к многочлену Р (----; х J для элементарной функции----. Z X z— X Сейчас нам удобнее рассматривать не Р, а остаток Р: 2—X (4.7.6) Рассмотрим зависимость ; х} от z. Это есть правильная рациональная дробь. Для последующего полезно заметить, что z=x есть простой полюс остатка с вычетом, равным 1. Общий знаменатель правой части (4.7.6) есть (г—х)Д(г), и после приведения к нему получим R (—-—; х ) в виде правильной дроби R 1 Z—X B(z, х) (г—х)Л(г)
§ 4.7. ИНТЕРПОЛИРОВАНИЕ С КРАТНЫМИ УЗЛАМИ 381 Здесь B(z, х) есть многочлен от z, степень которого не выше п+1. Мы покажем сейчас, что B(z, х) имеет нулевую степень относительно z и равняется А (х). Когда |z| имеет большое значение, то —:— разлагается в степенной Z X ряд Ввиду линейности оператора оо /? х; х) — R(xv', *). Остаток интерполирования целых степеней х от нулевой до п равен нулю: (xv; х)=0 (v=0, 1, ... , п). Поэтому в предыдущем разложении все члены cv<n равны нулю и разложение начинается с v = n+l оо /? X) = х). V=n+1 Отсюда видно, что при z-^oo остаток R ; х) должен убывать не B(z, х) Z Х медленнее, чем z~n-2, и в —----; . степень числителя B(z, х) отно- (z—x)A(z) 7 сительно z должна быть на п+2 единицы меньше степени знаменателя. Но степень (z—a)A(z) равна п+2, и степень B(z, х) должна равняться нулю: В (г, х) =В(х). Наконец, в полюсе z=x вычет R (—!—; х) равен единице и, стало быть, В(х)=Л(х). Таким образом, J_.J=___________ z—х’ ' (z—x)X(z) Отсюда и из формулы Коши для /?(/; х) вытекает равенство Ш х) = *) f&d2= (z-xWz) dZ- (47-7)
382 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Вычисляя последний интеграл при помощи вычетов, можно просто найти представление P(f\ х) =f(x)—R(f-, х). Вычет A(x)f(z) (z-x)X(z) в простом полюсе z=x равен f(x). Найдем вычет этой функции в полюсе z=Xk- Когда z близко к х^ верны приводимые ниже разложения по степеням z—Xk оо f(?) = ^4- f(s) (Xk) (z-Xh) s, _ I 1 _________1____________ _ V (г— z—x~ (г—хк) — (х—хк) ~ ~ (х—Ха)3*1 ’ (z—Ха) “а V №) / ч , - Л(г) = 2 Cs (Z~X^ ' ' s=0 Вычет функции f(z) _ 1______(z—Ха)gA (г—х)Д(г) (z—Ха) “a Л(г) /(г) z—X в полюсе z=xu получится, если перемножить три приведенных выше ряда и- подсчитать коэффициент при (г—Он равен Все эти вычисления приводят к следующему эрмитову представлению интерполяционного многочлена: P(f; х) = (4.7.8) Мы получили его, предполагая функцию f аналитической. Но в него входят только величины /(й(хл) (i=0, 1, ... , ak— 1, k=\t 2, ... , m) и оно остается верным для всякой функции f, имеющей конечные значе- ния этих величин.
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 383 Рассмотрим пример интерполирования, когда все кратности равны двум: а& = 2 (£=1, 2, ... , т). Степень многочлена P(f; х) равна 2т—1, и условия интерполирования следующие: P(f; xh)=f(xh), P'(f; xk)=f'(xk) (k=\, 2, ... , tn). (4.7.9) В этом случае говорят об интерполировании соприкосновения первого порядка. Равенство (4.7.8) в рассматриваемой задаче имеет вид { [ (*-**) ] f М + (х-xk)f' (хк)}. (4.7.10) 1 u CO (Xk) J > В справедливости его можно убедиться при помощи проверки выполне- ния условий (4.7.9) или при помощи составления (4.7.8) указанным выше путем. § 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ При изучении сходимости интерполяционных процессов мы ограни- чимся наиболее простой* задачей, когда интерполирование выполняется по значениям функции. Рассмотрим интерполяционный процесс, определяемый треугольной таблицей узлов (4.8.1) Отрезок интерполирования [а, Ь} предполагается' конечным и' уз- лы х^} (&=1, 2, ... , п) — лежащими на этом отрезке. Будем считать, (п) (.п) что узлы перенумерованы в порядке роста их координат: xh <Z%k+i (fe=I, 2, ... , п— 1). Допустим, что на [а, Ь] рассматривается некоторая функция f(x). Возьмем узлы (&=1, 2, ... , и), лежащие в строке
384 Гл. 4. ИНТЕРПОЛИРОВАНИЕ номера п, и построим по ним алгебраический многочлен Рп(х) степени n—1, удовлетворяющий условиям pn(4n))=f(^n)) (6=1,2, (4.8.2) Он может быть записан, например, в форме Лагранжа: п k=l п Нас будет интересовать преимущественно равномерная и, в отдель- ных случаях, поточечная сходимость интерполирования на всем отрезке [а, &]: lim Рп(х) =f (х) (a^xs^b). (4.8.3) П->оо Требуется выяснить, как между собой должны быть связаны свойства функции f и таблицы X, чтобы имело место соотношение (4.8.3) во всех точках [а, Ь] или равномерно на [а, Ь], Начнем с наиболее интересного для приложений случая, когда f(x) является аналитической функцией. Как мы увидим ниже, если ограни- читься рассмотрением только тех случаев, которые в этой задаче можно признать «правильными», вопрос о сходимости решается при помощи сравнительно грубых признаков, содержание которых зависит от двух факторов: от области регулярности функции f и от предельной функции распределения узлов интерполирования Изложение начнем с функ- ций распределения. 4.8.1. О предельной функции распределения узлов Узлы интерполирования х{^ предполагаются лежащими на отрезке [а,. Ь] и, в соответствии с этим, функции распределения будут рассматри- ваться только на этом отрезке. Их наглядный смысл весьма прост. Вообразим, что взята единичная масса и мы ее произвольным образом распредёлили на [а, 6]. Пусть х есть любая точка [я, 6], отличная от Ь. Под значением функции ц(х) в точке х будем понимать сумму масс, лежащих строго левее точки х. В частности, |ы(а)=0, так как левее а нет масс. В точке же х = Ь мы положим ц(6) = 1. Функция ц(х) будет обладать свойствами: 1) ц(а) =0 при х = а\ 2) ц(х) есть монотонная неубывающая функция х при а^х<Л>, не- прерывная слева в каждой точке внутри Га, 61: 3) н(Ь) = Гпри’Х=&.
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 385 Эти свойства мы примем за определение функции распределения и всякую функцию ц(х), обладающую ими, будем называть функцией рас- пределения на [а, &]. Допустим, что нам дана последовательность функций распределения цп(*) (и=1, 2, . ..J. Говорят, что последовательность цп(*) сходится в основном к функции ц(х), когда сходимость имеет место во всякой точ- ке непрерывности ц(х) внутри [а, &]. Если ц(х) обладает указанными выше тремя свойствами, то ее называют предельной функцией распреде- ления для заданной последовательности цп(^). Возьмем строку номера п таблицы X, Припишем каждому узлу х<п) массу — и соответствующую функцию распределения обозначим р,п(*). АТ Это есть кусочно постоянная функция, для которой узлы будут точ- л ками разрыва со скачками Д- Если существует функция распределения ц(х), к которой в основном сходится последовательность цп(х), то говорят, что ц(х) есть предельная функция распределения таблицы X. В дальнейшем мы будем рассматривать только тот случай, когда таблица узлов X имеет такую функцию ц(х). Попутно отметим лишь, что если таблица X не имеет единственной предельной функции распре- деления, то принципиальную возможность получить картину сходимости интерполяционного процесса в этом «особом случае» дает известная тео- рема о возможности выбора из любой последовательности функций рас- пределения частичной подпоследовательности ц (&=1, 2, ...), кото- рая сходилась бы в основном. Для нашей задачи это будет означать, что из полной последовательности интерполяционных многочленов нужно выбирать некоторые частичные последовательности и определять для каждой из них свои условия сходимости. 4.8.2. Сходимость интерполирования аналитических функций Будем считать f(z) аналитической функцией, регулярной в некоторой конечной замкнутой области В, содержащей [а, 6] внутри себя. Контур ее можно считать спрямляемой линией. Обозначим его I. Как было показано в § 4.3, остаток интерполирования rn(2)==f(z) — —Рп(г) может быть записан в форме контурного интеграла 1 f (*) f (z) —— I . . . . — — — — — 2Ш у COn(^) z—x (4.8.4) При определении условий стремления гп(х) к нулю большое значение имеет логарифмический потенциал
Гл. 4. ИНТЕРПОЛИРОВАНИЕ Ь и (z) = J1п 1 dp (0. (4.8.5) а I । Интеграл здесь понимается в смысле Стилтьеса. (7(z) есть гармоническая функция всюду в комплексной плоскости z вне отрезка [а, 6]. Когда z удаляется на бесконечность, (7(z) будет стре- миться к —оо. Линия уровня [7(г)=С'при отрицательном С, большом по абсолютной величине, будет содержать внутри себя отрезок [я, Ь] и будет сходной с окружностью большого радиуса. Обозначим ее 1с и область, лежащую внутри ее, назовем Вс- Когда С возрастает, область Вс букет уменьшаться. Точную верхнюю границу значений С, при которых отрезок [а, 6] лежит внутри Вс, назо- вем X и обозначим х открытую область плоскости, где U(z) <%. Дополне- ние к х до комплексной плоскости обозначим 0. Теперь мы в состоянии сформулировать теорему о сходимости интер- полирования. Теорема 1. Если аналитическая функция f(z) регулярна в некоторой области D, содержащей внутри себя 0, то Гп(^)~>0 при п-+оо равномерно относительно х из 0. Доказательство. Область 0 по условию теоремы лежит внут- ри £>, поэтому существует такое значение С'<Х, что соответствующая ему область Вс'4-Zc' лежит внутри D. Между С' и X возьмем число С"\ С'<zC"<%. Линия уровня 1С„ будет лежать внутри 1С' и содержать 0, а следовательно, и отрезок [а, 6] вну- три себя. В интегральном представлении остатка (4.8.4) за линию интегрирова- ния примем / и будем считать, что точка х лежит на /с„. Для остатка гп(*) верна оценка где M = max |f | и 6 есть расстояние между линиями I с, и /с„. Имеем п Каждому узлу интерполирования •(&=!, 2, ,.. , п) припишем массу — и соответствующую функцию распределения обозначим п
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 387 л=1 I г—xW I 1 я 1 > и поэтому ъ и Точка z лежит вне отрезка [а, 6] является непрерывной функцией t. При неограниченном росте п функция рп(0 будет сходиться в основном к р(/). По теореме Хелли о предельном переходе для интег- рала Стилтьеса *) можно утверждать, что верно следующее соотношение: ъ ь JIn -nzjr (0 -> J In -ту^г- dp (/) = С' all all (n—>оо). В интеграле г является параметром и, если проследить ход обычного доказательства теоремы Хелли, будет видно, что сходимость является равномерной относительно 2(=ЛС'. Поэтому существует такое и', что при п>п' и всяких ге/с' будут выполняться неравенства ь С'_-1 (С"-С) < Jln-|-i-rdgn(O<C'+4- О I 4—Z I О a 1 • По аналогичным соображениям можно утверждать, что существует та- кое п", что при п>п" и любых хе/с// будут верны неравенства (С"-С'). Из этих двух результатов следует, что при п>шах(п', и"), и всяких x^lc имеет место оценка » *> В. И. Гл иве нк о. Интеграл Стилтьеса, п° 14. М., 1936. И. П. Натансон, Теория функций вещественной переменной, гл. 8, § 7. М.—Л., 1950.
388 Гл. 4. ИНТЕРПОЛИРОВАНИЕ <&п (х) откуда получаются оценки для отношения ton (х) ton (г) 2 (C"-cz) з 9 и для остатка интерполирования гп(х): I гп (х) | Ms 2л6 (n>max(nz, п"), хе/с„), где s — длина линии /</. Отсюда сразу же следует, что гл(х)->0 (п->оо) равномерно относи- тельно хе/с„, и так как гп(х) есть регулярная аналитическая функция в I С„+В с„, то rn(x)->0 равномерно относительно х в 1с„-\-Всг/. Так как множество р лежит внутри I -\-В с„\ это будет верно и для хер, что доказывает теорему. Из последней оценки видно также, что гп(х) стре- мится к нулю не медленнее, чем по закону геометрической прогрессии со знаменателем ехр Рассмотрим два частных случая доказанной теоремы. 1. Пусть предельная функция р,(х) соответствует равномерному рас- пределению единичной массы на отрезке [а, &]: (а^х^б). Так будет, например, в том случае, когда интерполирование выполняется по равноотстоящим узлам на [а, Ь]: хГ)=а+-^—у (6—a) Не нарушая общности, можно считать отрезок [а, Ь} приведенным к [0, 1] и р,(х)=х. Логарифмический потенциал (4.8.5) здесь есть [7(г) = fin ,-df.
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 389 Ввиду 1 1 z|d/=Re j* ln(/—z)d/=Re {(1 —z) In (1 —z)-J-z In z—1} о о будет U(z) =Re {1—2 In z— (1— z)ln(l— z)} = = 1— x In (1—x)ln У(1—х)2+у2+у arctg Линии уровня потенциала l/(z) изображены на рис. 4.8.1. Область р ограничена линией уровня, проходящей через точки (х=0, у=0) и (х=1, у=0) и имеющей уравнение t/(z)=0 или х In Ух2+у2+ (1 — X) In у (1 —х)2+У2—У arctg 1. Все изложенное позволяет считать доказанной приводимую ниже теорему. Теорема 2. Пусть узлы интерполирования Дп) (£=1, ж.. , п; п=1, 2, ...) лежат на отрезке [0, 1] и предельное распределение их на этом отрезке является равномерным, так что предельная функция рас- пределения для таблицы узлов X есть ц(х)=х. Если аналитическая функция f(z) регулярна в замкнутой области р, изображенной на рис. 4.8.1, то интерполяционный процесс, определяемый таблицей X, схо- дится всюду на [0, 1] равномерно относительно х. 2. Отрезок интерполирования [а, Ь] будем считать приведенным к [—1, 1]. Пусть таблица X узлов х^ имеет предельную функцию рас- пределения X р,(х)=— J - (4.8.6) л-i У1—/2 Ее часто называют функцией Чебышева. Такой предельной функцией будет обладать, например, таблица нулей всякой системы многочленов, ортогональных на [—1, 1] по весу р(х), почти везде положительному на [—1, 1]. Э4о могут быть многочлены Чебышева, Лежандра, Якоби и т. д.
390 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Рассмотрим соответствующий (4.8.6) логарифмический потенциал 1 1 dt 1 о г/ ч ----------г =ReF(z). z—t yi— Рис. 4.8.1 В комплексной плоскости z проведем разрез вдоль действительной оси от точки z=l к —оо и возьмем ту ветвь логарифма, для которой arg(z—/) =0 при действительных z, больших t. 1 ’ dt Интеграл может быть вычислен путем нахождения первообразной функции для при этом выбирается та ветвь корня, которая имеет положительные зна- чения при z>l. F(z)=ln----------. г-yyz2— 1 Для определения С можно воспользоваться условием, что F(z) при больших положительных z имеет разложение вида F(z)=lnl- + ОС2 г?
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 391 Получим С = 2. F(z)=ln-----------. t/(z)=ln------------. (4.8.7) г+yz2— 1 ' | z+]/z2— 11 Линиями уровня потенциала U(z) = const = C при C<ln2 будут эллип- сы, имеющие общие фокусы в точках —1 и +1 на оси х. Для С=1п2 эллипс вырождается в отрезок [—1, 1]. Здесь множество р будет состоять только из прямолинейного отрезка [—1, 1]. Отсюда следует Теорема 3. Пусть узлы интерполирования х^ расположены на от- резке [ —1, 1] и таблица X узлов имеет предельной функцией распреде- ления ц(х) функцию Чебышева (4.8.6). Интерполяционный процесс, определяемый такой таблицей X, сходится на отрезке [ — 1, 1] равномер- но относительно х для всякой аналитической функции f(z), регулярной на отрезке [—1, 1], включая его концы. Интересно отметить, что может быть доказана теорема, обратная теореме 3. Теорема 4. Если для таблицы X узлов интерполирования распо- ложенных на [—1, 1], интерполяционный процесс сходится во всех точ- ках отрезка [—1, 1] для всякой функции f (х) у аналитической на [—1, .1], то для таблицы X существует предельная функция распределения узлов х^ и это есть функция Чебышева (4.8.6). Доказательство теоремы, к сожалению, является сложным и не может быть здесь приведено.*) Остановимся еще на-одном вопросе сходимости. В теории интерполи- рования известна теорема: если функция /(г) —целая, то интерполяци- онный процесс для нее сходится равномерно на [а, &], как бы ни были расположены узлы х&п) на [а, 6]. Но легко видеть, что предположение о регулярности f всюду на комплексной плоскости, кроме бесконечности, является чрезмерно ограничительным. Утверждение о сходимости долж- но остаться верным, если f(z). будет регулярна в некоторой конечной, но достаточно широкой около [а, 6], области. Целью приводимой ниже теоремы будет указать точную наименьшую область, регулярность в которой обеспечивает сходимость интерполяци- онного процесса на [а, 6] при всякой таблице узлов Лп), взятых на от- резке [а, Ь]. Построим два круга радиуса Ь—а с центрами в точках а и b и обоз- начим х замкнутую область, являющуюся суммой этих двух кругов (рис. 4.8.2). *) См., например, В. И. Кр ы л о в. Приближенное вычисление интегралов, гл. 12, § 2. М., 1967.
392 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Теорема 5. Если аналитическая функция f(z) регулярна в области х, то, какова бы ни была таблица X узлов х^, лежащих на [а, 6], интер- поляционный процесс будет сходиться на [а, Ь] равномерно относи- тельно х. Область х является наименьшей, обеспечивающей сходимость интер- поляционного процесса при любой таблице узлов х^п)е[а, &]. Доказательство. При помощи несложных геометрических со- ображений можно убедиться в следующем: предположим, что х и t есть две любые точки [а, Ь\ и z — произвольная точка комплексной плоско- сти. Тогда^ если z лежит вне х, будет |х—/| < |z—-/| и 1, если же z принадлежит х, то найдутся такие х и t на [а, &], что будет |х—/| [z—tl и x—t z—t Так как f(z) предполагается регулярной в области х, включая гра- ницу, существует замкнутая линия /, содержащая х внутри себя, такая, что f (z) будет регулярной внутри I и на ней самой. Остаток интерполиро- вания гп(х) представим контурным интегралом п . 1 f COn(x) f(z) J 1 f f(z) ТТ ( Х—хГ \ ----------тЧ----— dz= I I I -----— I az 2m , <оп (z) z—x 2m , z—x ' z—' I \ f I R=1 H (n) 1, ввиду того, По сделанному выше замечанию будет —------- " "А что х и Xk лежат на [а, 6], а г лежит на I и, стало быть, вне х. Кроме z—x<n) того,, очевидно, существует такое число q<Z е[а, 6] и ге/ выполняются неравенства (п) , что при ВСЯКИХ X, Xk е Поэтому (п) X—Xk z—x(?> h rn (*) I < max J j^J-dz=Aqn, ZjI x ? I & | Отсюда вытекает, что rn(x)->0 (n->oo) равномерно по хе [a, 6]. Про- верим теперь, что область х не может быть уменьшена. Для этого доста- точно показать, что если взять любую точку аех, то существует такая
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 393 функция /(г), регулярная в х везде, кроме точки а, и такая система узлов х£п), что интерполяционный процесс для f будет расходиться в не- которой точке хе [а, 6]. Пусть аех. Можно считать, что а лежит вне [а, Ь]. Возьмем функ- цию f(z) =—-—. За контур I в интегральном, представлении остатка z ос гп(х) может быть принята линия, состоящая из окружности большого радиуса с центром в середине отрезка [а, 6], из малой окружности у, окружающей точку а, и из двух сторон разреза, соединяющего эти окружности. Интегралы по сторонам разреза взаимно уничтожаются и для остатка получится представление con (х) Г ________dz_________ 2ni (On (г) (z—а) (г—х)’ Интеграл по большой окружности Г равен нулю, ввиду того что функ- 1 ция ------------—-----с имеет в бесконечно далекой точке плоскости z (Оп(<г) (z—a) (z—-х) нуль выше первой кратности. Интеграл по малой окружности у берется в направлении движения часовой стрелки и равен вычету интегрируемой функции в точке z=a, умноженному на —2ш: / 1 \ (On (х) Гп I-----, X I = ---- - ?--- 'z—а ' (Оп(а)(х—а Точка а принадлежит х, и поэтому существуют такие точки х и t на [a, fe], что будет ^1. Точку интерполирования х закрепим, а узлы интерполирования возьмем совпадающими с точкой t: Хь =t (k= 1, 2, ..., п). Это будет интерполирование с одним n-кратным узлом t. Выполняться оно будет по значению в точке t функции и производных от нее до порядка п— 1. Интерполирующий многочлен будет отрезком раз- ложения Тейлора для f около точки t. Многочлен (оп(х) здесь есть (on(x) = (х—t)n. Для остатка интерполирования получим Г п X—t \п 1 а—х—а’ Так как 1, остаток не будет стремиться к нулю при неограни- ченном росте п.
394 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Нами был построен пример расходящегося интерполяционного про- цесса с одним n-кратным узлом. Но, очевидно, если взять узлы хь раз- личными и достаточно близкими к t и заставить их достаточно быстро приближаться к t при возрастании п, можно построить пример несходя- щегося интерполяционного процесса с различными узлами. 4.8.3. Некоторые вспомогательные теоремы Мы должны перейти к изучению условий сходимости интерполяционных процессов для множеств непрерывных и непрерывно дифференцируемых на [а, 6] функций. Они много шире множеств аналитических функций, и условия сходимости на них должны быть более ограничительными. Такая характеристика интерполяционного процесса, как предельное распределение узлов, не может здесь быть достаточной для суждения о схо- димости.*) Признаки сходимости потребуют более глубокого проникновения в существо задачи и более детального изучения всей картины вопроса. Сейчас мы рассмотрим неко- торые вспомогательные факты, на которые будем опираться в исследованиях. Лемма 1. ' При х=/=2£л (6=0, ±1, ...) и всяких I и п (I, п=1, 2, ...) верны оценки:' (4.8.8) Доказательство. Рассматриваемые суммы Ci и Si являются действительной и мнимой частью комплексной суммы eihx = Но т«к как должны выполняться и неравенства (4.8.8). *) Пусть рассматривается задача об условиях сходимости интерполяционного про- цесса для множества всех функций, имеющих заданный порядок дифференцируемости на [а, 6]. Такой процесс должен быть сходящимся для всякой функции, аналитической на [а, 6], и тогда по теореме 4 таблица X узлов интерполирования должна иметь пре- дельную функцию распределения узлов, которая должна быть функцией Чебышева (4.8.6).
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 395 Лемма 2. При всяких х и п верна оценка |<7п (*)| = ^2 У л. (4.8.9) Доказательство. оп является 2л-периодической и нечетной функцией. Ее до- статочно рассмотреть на отрезке [0, л] и так как при х=0 и х = л ап(х) обращается- в нуль, то можно считать 0<х<л. Пусть т есть целое число, для которого выполнено неравенство —У л<т+1. х (4.8.10) Тогда sin kx k sin kx ~k При этом считается, что при m = 0 справа отсутствует первая сумма, а для т^п отсут- ствует вторая сумма. Ввиду |sin <р| | ср|, для первой суммы получим (4.8.11) Перейдем ко второй сумме. Если воспользоваться введенным в лемме 1 обозначением п Of = >, sin kx, ее можно записать в виде h^=l 1 \ п 1 I Ч“5тп4-1 П / П Отсюда, если воспользоваться второй оценкой (4.8.8),
396 Гл. 4. ИНТЕРПОЛИРОВАНИЕ sin t Л В отношении —-—- для 0^/^ числитель возрастает медленнее знаменателя, и сво- л sin t 2 его наименьшего значения отношение достигает при t = —. Стало быть, —:. 2 __ /л хх ]/л Отсюда следует, что sin— . Кроме того, ввиду (4.8.10), /п+1>-и 2 л х sin kx Из последнего неравенства и (4.8.11) следует утверждение леммы. Отметим полезное для дальнейшего неравенство, вытекающее из (4.8.9). Рассмотрим тригонометрические многочлены cos 0 cos 20 Л(0)=-------- +------- п—1 п—2 cos (п+1) 0 cos (п+2) 0 в (0) = j - cos (п—1)0 cos (2п—1)0 п—1 (4.8.12) Проверим выполнение неравенства. (4.8.13) В самом деле, ♦ п — 1 VI cos(n—k)Q Л(0)-В(0) = > -------Ч-2- h = i cos(n+&)0 и так как cos (п—&)0—cos(n+&)0 = 2 sin kQ sin n0, будет п — 1 sin kft п — 1 А (0) —В (0) = 2 sin п0 |Л(0)-В(0)|<2 Ь = 1 sin kQ k Для проверки (4.8.13) осталось лишь воспользоваться оценкой (4.8.9). Лемма 3. При всяких значениях 0f, 02, ... , 0п (О^0ь^л), различных между собой, и любых числах fi, f2, ... , fn существует четный тригонометрический многочлен 7(0), степени не больше п—1, выполняющий условия T(Qi)=fi (1=1, 2.....п)._ (4.8.14) Такой многочлен — единственный.
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ, 397 Доказательство. Всякий четный тригонометрический многочлен может быть разложен по степеням cos 0: Т(0) =а0+^1 cos 04-аг cos204-. . cosn-1 0. Заменим переменную 0, положив cos0 = x. При этом отрезок 0^0^л изменения 0 вза- имно однозначно преобразуется в отрезок [—1, 1] оси х. Значения 0г- перейдут в Xi = = cos 0i, также различные между собой. Тригонометрический многочлен Г(0) преобра- зуется в алгебраический многочлен Р(х) =ao+aiX+a2X2+,. .-j-an-iX71-1. Условия же (4.8.13) дадут для Р(х) систему равенств P(Xi)=fi, которую можно рассматривать как условия построения многочлена степени п— 1, интерполирующего не- которую функцию по ее значениям fi в п различных точках Xi, Многочлен Р(х), как мы выяснили выше, всегда может быть построен и будет единственным. По многочлену Р (х), выполнив замену x=cos 0, найдем Г(0). Лемма 4. При всяких значениях 01, 02? ...» 0п (О^0л^л; 0г=/=0л, i=£k) суще- ствует четный тригонометрический многочлен Г(0), степени не больше п— 1, который выполняет неравенства |Т(0А) I ^8 У л (£=1, 2?...,п) и для которого существует на [0, л] такая точка а, что будет Т(а) >1п п. (4.8.15) (4.8.16) Доказательство. Рассмотрим Аетные тригонометрические многочлены Ск(О (£=1, 2, ... , п) степени п— 1, выполняющие условия Существование таких многочленов гарантируется леммой 3. Затем введем тригонометри- ческий многочлен п =Л (20) — £ [B(0*4-0)+B(0k-0)] СА(0), k — 1 где 4(0) и В(0) указаны в (4.8.12). £7(0) есть четный тригонометрический многочлен. Покажем, что его среднее значение равно нулю: л л f 1 f J (7(0)d0=—J £/(0)d0=O. 0 2 -Л (4.8.17) Действительно, A (20) есть тригонометрический многочлен без свободного члена и он, следовательно, ортогонален на [—л, л] к 1. Что же касается суммы В(0л4-0)4-Щ0а—0), то это есть линейная комбинация, составленная из cos mx при т>п, и потому она орто- гональна на [—л, л] ко всякому тригонометрическому многочлену, степени не выше п. В частности, она ортогональна к многочленам Ск (0)/, степень которых меньше п.
398 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Из (4.8.17) следует, что на [О', л] (7(0) изменяет знак и, значит, там существует такая точка а, где (7(0) обращается в нуль: (7(a) =0. Положим Т(0) = [Д(О+а)+Л(0-а)]- J/ [B(0H-a)+B(0ft-a)] Cft(0)t k = i Это есть четный тригонометрический многочлен, степень .которого не превосходит п—1. Ввиду (4.8.13), IТ(вл) I = I [Л (Эл+а)-В (0*+а) ] + [4 (0ft-a)-В (0*-а) ] | =С4 f^+4 /7 = 8 fn • и для Г(0) выполняются неравенства (4.8.15). При 0 = а п Г (а) =А (0) + (7(а) =Л (0) = 1+ — ..+ —— > [ — =1п п 2 п— 1 J х 1 и, следовательно, выполняется также (4.8.16). Приводимая ниже лемма 5 есть простое следствие леммы 4. Лемма 5, Каковы бы ни были на отрезке [a, Ь] узлы xit хг, ... , хп; различные между собой, существует алгебраический многочлен Р(х), степени не большей п—1, выполняю- щий неравенства |Р(хл)|с8Ул (*=1, 2,.... , п), (4.8.18) для которого в некоторой точке с^[а, д] будет |Р(с) | >1пп. (4.8.19) Доказательство. Не уменьшая общности, можно считать, что отрезок а^х^Ь линейным преобразованием приведен к [—1, 1]. Выполним замену x=cos0, переводящую [—1, 1] взаимно однозначно в [0, л].. Пусть при этом точки хи перейдут в 0&. Последние будут различны между собой. Если Т(0) =a0+ai cos 0+аг cos20+.. .+an-i cos”-1 0 есть многочлен, существование которого доказано в лемме 4, то Р(х) =T(arccos х) =ao+ai*4-tf2X2+.. .-J-fln-i*”"1 будет удовлетворять неравенствам (4.8.18) и (4.8.19), при этом c = cosa. Перейдем теперь к доказательству важной для наших целей теоремы. Предположим, что на конечном отрезке [а, 6] дана бесконечная треугольная таблица X узлов х^\ Пусть на [а, д] задана функция f. Возьмем в X строку номера п с узлами х£л) (k= 1, 2, ... , п) и построим многочлен Рп(х) степени не выше и—1, интерполирующий f (п) по ее значениям в узлах хь, ;
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 399 п СОп(х) к = 1 к к п fc = l При исследовании условий сходимости Рп(х) к f (х) существенное значение имеет функция (X) = • рп Л (я) |. к^1 Мы будем рассматривать численную величину Хя=тахХп(х)) (а^х^д). (4.8.20) Теорема 6. Для всякой таблицы X узлов Хк выполняется неравенство In п (4.8.21) Доказательство. По лемме 5 найдется многочлен Р(х), имеющий степень не вышё п—1 и выполняющий неравенства (4.8.18) и (4.8.19). Р(х) можно представить в виде п (п) Р(х) = JS lnk(x)P(Xh ’). к ==1 Отсюда следует, ввиду |Р(хл) | ^8 У л, что PW 1^8 У nJ; \lnk(x)\, k — i и так как |Р(с) | >1п п, будет In п 8 У л что доказывает неравенство (4:8.21). 4.8.4. Сходимость интерполирования на множествах непрерывных и непрерывно дифференцируемых функций Как и выше, будем считать отрезок [а, &] интерполирования конечным и узлы Хл — лежащими на этом отрезке. Пусть дана таблица узлов X (4.8.1), определяющая интер- поляционный процесс. Рассмотрим множество Ст всех функций, г раз непрерывно дифференцируемых на [а, Ь]. Нашей основной задачей будет выяснить, какими свойствами должна обладать таблица X, чтобы интерполяционный процесс сходился на [а, 6] для всех функций f^Cr,
400 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Главное внимание мы обратим на условия равномерной сходимости и значительно мень- шее место отведем изучению поточечной сходимости. С увеличением г множество Сг будет уменьшаться и условия сходимости будут ста- новиться менее ограничительными. Быть может, будет интересным проследить, какое влияние на условия сходимости оказывает изменение порядка дифференцируемости г. В некоторых случаях с целью выяснить, какое влияние оказывают на сходимость другие структурные свойства функций, мы будем отходить от множеств Сг и рассматри- вать, например, множества Аг функций Д имеющих на [а, д] не просто непрерывную, а абсолютно непрерывную производную порядка г. Начнем с доказательства простой теоремы, устанавливающей принципиальную воз- можность интерполировать равномерно и сколь угодно точно любую функцию, непре- рывную на [а, 6]. Теорема 7. Если функция f непрерывна на [а, &], то для нее существует такая таб- лица X, что соответствующий ей интерполяционный процесс для f будет сходиться равно- мерно на [а, 6]. Доказательство. Рассмотрим последовательность алгебраических многочленов наилучшего приближения*) к f на [а, Ь]. Она сходится к f(x) равномерно на [а, Ь]. Возьмем из этой последовательности многочлен Пп-1 (х) степени п— 1. Как известно, существует на [а, 6] по меньшей мере п+1 точек yi<Zy2<i.. .<Zyn+i, в которых разность f—Пп-i принимает значения поочередно противоположных знаков. В каждом из проме- жутков (yk, Ук+i) разность по меньшей мере один раз обращается в нуль и Пп-1 при- нимает значение, одинаковое с f. Таких точек не меньше п. Примем п из них за узлы интерполирования Xk (я=1, ... , п) и поместим в строку номера п таблицы X, Соответствующий интерполирующий многочлен, который выше мы обозначали Рп(х), будет совпадать с Пп-i(x). При п->оо, как отмечено несколькими строками выше, Рп ==ПП-1 равномерно сходится к f. Доказанная теорема имеет, по-видимому, лишь теоретический интерес, так как на- (п) •- ходить указанные в ней узлы Хь крайне трудно и в нашем распоряжении нет для этого эффективных средств. Но даже если в некоторых случаях их удастся найти, то значение таблицы X с такими узлами будет, как правило, ограниченным, так как X обеспечит сходимость интерполирования для f и еще, может быть, для узкого множества функций, близких по поведению к f. Естественно поднять вопрос, существует ли такая таблица X, которая обеспечила бы равномерную сходимость интерполирования для всякой непрерывной функции. Если бы такая таблица существовала, ее разыскание имело бы большое значение. К сожалению, как показывает теорема 8, в этой задаче необходимо дать отрицательный ответ. Теорема 8. Какова бы ни была таблица X, существует функция f, непрерывная на [а. *1, для которой последовательность интерполяционных многочленов Рп(х), опреде- ленных таблицей X, не будет равномерно сходиться к f при п-+оо. Доказательство. Допустим противоположное: пусть интерполяционный про- цесс будет равномерно'сходиться для всякой функции Д-непрерывной на [а, 6], и по- кажем, что это приводит к противоречию с известным фактом теории интерполирования. Если на множестве непрерывных функций определить норму ||/]| с = max | /1, то оно х станет полным линейным нормированным пространством, которое принято обозначать буквой С. Сходимость последовательности элементов из С означает равномерную сходи- мость последовательности функций. *) Необходимые сведения о многочленах наилучшего приближения можно найти в добавлении IIL
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 401 Интерполяционный многочлен Рп (X) =Pn(f; х) = Jj lnk(x)f(x? } fc=l является линейным оператором, отображающим пространство С в себя. По допущению, последовательность операторов является сходящейся, так как для всякой непрерывной функции/ (/; равномерно. По теореме же Банаха — Штейнгауза *) одним из условий сходимости последова- тельности линейных операторов, переводящих полное линейное нормированное простран- ство в пространство того же типа, является требование ограниченности норм операторов в совокупности: 11Рп|1с^М<оо (п=1, 2, (4.8.22) По определению нормы оператора, ( П ) l|Pnllc= sup max |Pn(*)[= sup max | lnk(x)f(Xk ) | ^max |/пь(х) | =Xn. ||/||=1 x ||/|| = i « k = i * fc=i С другой стороны, найденная оценка для нормы Рп (/; х) достигается для определяемой ниже непрерывной функции. п Пусть У? \lnh(х) | достигает своего максимума при х=%: п У} |/пм(£)|=%». Ь = 1 Определим функцию fi(x) в узлах Xk равенством: fi (xln))=sign/nA(g). В промежутках между соседними узлами считаем ее линейной и на отрезках и Xk =0^1 — постоянной. Такая функция непрерывна на [а, я] и имеет норму, равную единице: ||/ill = l. Для нее многочлен Рп(х] в точке х=^ принимает значение п п Pn(f-,l)^Pn(l)= sign/nA(§) = 5? |/»»(5)|==An h — i Л=1 Поэтому верна цепочка неравенств: ( Л ) ( 71) Kn=Pn(f,t}= 2ln*te)fi(xk х sup max | £ lnk(x)f(xk) | ==||Pn[|c. k = l ||/||=1 * & = * *) Добавление I, § 2, теорема 2. В § 2 добавления можно найти сведения и понятия, нужные для понимания дальнейшего изложения доказательства теоремы.
402 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Сличение двух *) полученных цепочек неравенств дает значение для нормы Рп (f't х): II Р.п |] С — Хп. Неравенство (4.8.22) говорит о том, что должно существовать такое число М, что при всяких п=1, 2, ... должно выполняться неравенство Но этот результат противоречит неравенству (4.8.21), доказанному в теореме 6. . Как показала теорема 8, множество всех непрерывных на [а, 6] функций является настолько широким, что невозможно построить таблицу X, которая обеспечила бы равно- мерную сходимость интерполирования для всякой функции этого множества. Таблицы X, обладающие этим свойством, могут существовать лишь в более узких множествах функций. В этой связи, быть может, представляет интерес, показать, что для множества абсолютно непрерывных на [а, 6] функций существует таблица X такая, что соответствующий ей интерполяционный процесс будет равномерно сходиться для любой функции множества. Установим сначала признак такой сходимости. Теорема 9. Для того чтобы интерполяционный процесс, определяемый таблицей X, равномерно сходился для всякой функции f, абсолютно непрерывной на [а, 6], необхо- димо и достаточно существование такого числа Л4<оо, чтобы частичные суммы лагран- жевых коэффициентов Xnj(x)— lnk(x) h = j выполняли неравенство |A„j(x) | = | % lnk(x) (n=l,2,; /=1, 2,... , n). h = j (4.8.23) Доказательство. Характерным представлением абсолютно непрерывных функ- ций является следующая формула: f(x)=C+ f F(t)dt=C+ f F(t)E (x-i)dt. (4.8.24) Здесь С есть постоянная, равная значению f в точке a: C=f(a), F — любая суммируе- мая функция и Е(х) определена формулой (4.5.6). Интерполяционный многочлен для таких функций представим в форме __ (п) pn(x)=pn(f- Х)=С+ f F(t) £ lnk(x)E(xh-t)dt. (4.8.25) Для нас полезно найти значение ядра интеграла во всех .точках отрезка [а, 6] и со- ставить ясное представление о его поведении. Приведенная ниже таблица дает необхо- димые нам сведения: ♦) Для доказательства теоремы 8 достаточным является неравенство Хп^||Рп||с. Неравенство же ||Рп II с Хп было получено для нахождения имеющего самостоятельный интерес значения нормы оператора Pn(f, х).
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 403 п In к (я) = 1, к = 1 ___, («) a^2t<Zxi ; n 1 lnk(x)~{------^nl(x), к = 2 п In к (х), (л) . (п) Vi </<х2 ; к = 2 Кп(х. t)= lnk(x)E(x(kn}-t)= < к = 1 n 1 Ink (-^) “f“ In2 (х)\ 2 fe = 3 , (п) 1 = Х2 п 1пк(х), к = 3 (п) (п) х2 <.t<.X3 ; X О, Ядро Кп есть кусочно постоянная функция t с точками разрыва х£п). Величина (») . скачка в %л равна — 1Пк(х) и значение ядра в месте разрыва есть полусумма левого и правого предельных значений: Кп(х, хкп))= -у [Кп(х, +0)+Кп(х, Х(к} —0)]. £ При каждом фиксированном значении х |АП |, как функция от t, достигает своего мак- симума на некотором открытом отрезке, ограниченном двумя какими-то смежными узла- (п) (п) ми Xi и Xf+i. Что же касается зависимости дп от х, то при каждом значении t ядро Кп есть многочлен степени n—1 от х. Сходимость последовательности многочленов Рп(х) равносильна сходимости после- довательности линейных интегральных операторов ь п (п) ЛПГ= f F(t) 1пк(х)Е(хк —t)dt = Pn(x)—Ci (4.8.26) а k = i преобразующих множество суммируемых на [а, Ь\ функций F в множество функций, непрерывных на [а, д]. Если на множестве F ввести £-норму, положив ъ ||ЕЦЬ= f \F(t)\dt, а оно станет пространством банахова типа. Аналогично, если на множестве непрерывных на [a, Z?] функций f ввести С-норму ||f||c=max |f(х) I. X это множество станет пространством банахова типа.
404 Гл. 4. ИНТЕРПОЛИРОВАНИЕ Операторы AnF выполняют преобразование L^C и к сходимости последовательности AnF к f(x)—C можно применить теорему Банаха — Штейнгауза.*) Необходимым и до- статочным условием сходимости является выполнение двух требований. 1. Сходимость AnF-+f(x)— С должна иметь место на всюду плотном в L множестве элементов. За такое множество может быть принято множество алгебраических много- членов.**) Если F есть многочлен степени р— 1, то соответствующая ему функция f, опре- деленная равенством (4.8.24), есть многочлен степени р. При интерполирующий ее многочлен Рп (х) будет совпадать с f и интерполяционный процесс для f будет, очевидно, сходящимся к f. Но в таком случае будет сходиться к f(x)—С последовательность зна- чений операторов AnF=Pn(x)—C и первое условие теоремы Банаха — Штейнгауза бу- дет выполняться. 2. Нормы операторов Ап должны быть ограничены в совокупности. Выясним содержание этого условия в нашей задаче. Для этого вычислим сначала С-норму A nF: ***) Ь п . 1ИпЛс = тах | f F(t) 1Пк(х)Е(хь —t)dt[ х a k — i П (п) Ь max max | lnk (x)E(Xk —ty | • f |F(f)|d/ x t h — i a и, значит, Mnllc^ max x. t | £ 1„>(х)Е(х(ля) -t)J. k = i Как мы покажем сейчас, в найденной оценке нормы оператора Ап должен иметь место знак равенства. В самом деле, пусть участвующий в оценке максимум по х и t дости- гается в точке х=хо, / = /о и пусть /0 принадлежит интервалу Xi <Zt<ZXi+i. Обозначим длину этого интервала буквой I и построим функцию равную <— на указанном ин- тервале и нулю вне его. Очевидно,-ЦЕ» ||ь = 1. Теперь запишем для нормы оператора Ап цепочку простых неравенств. Для упрощения записи воспользуемся обозначением К(х, t) для ядра, а не знаком суммы: ъ ь ||Лп||с= sup max | /£(/)/<(x;0d/|>| /К(хо, 0Л(0^| = ||F||<-1 X (n) = IK(x0, to) I = max |K(x, t) |, X, t *) Добавление I, § 2, теорема 2'. . **) Плотность множества алгебраических многочленов в множестве суммируемых функций становится очевидной, если принять во внимание, что к каждой суммируемой функции F можно в метрике L приблизиться сколь угодно точно при помощи функции <р, непрерывной на [а, д], к непрерывной же функции можно приблизиться сколь угодно точно и равномерно на [а, Ь] с помощью многочлена. (См. Л. А. Люстерник, В. И. Соболев. Элементы функционального анализа, гл. I, § 8. М.—Л., 1951). ***) При вычислении С-нормы AnF мы без подробных объяснений пользовались зна- ками наибольших значений. Из сделанных выше пояснений зависимости ядра Кп от х и t следует, что все максимумы, участвующие в оценках нормы, существуют.
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 405 ||Ля||с>тах| Ink (х)Е(х^} — 0 |. х, t h = l Сравнение этого результата с предыдущей оценкой показывает, что для нормы Ап верно равенство ||ЛпIIс = max | lnk(x}E(x(hn} —t) |. х, t h = l Условием сходимости операторов Лп' поэтому является существование такого числа Af, чтобы при всяких п=1, 2, ... выполнялось неравенство ( П } ||Лп||с = max I 2S lnkE(xh — 0 | X, t h = l Но оно равносильно (4.8.23), и можно сказать, что необходимым и достаточным условием сходимости Лп, а следовательно, и равномерной сходимости интерполяционных много- членов Рп (х) —Рп (f't х) —C-{-AnF является выполнение (4.8.23). Теперь приведем пример такой таблицы X, что отвечающий ей интерполяционный процесс будет сходиться для всякой абсолютно непрерывной функции. Пусть отрезок интерполирования есть [—1, 1] и за узлы хь (6=1, ...» л) при- няты корни многочлена Чебышева Тп (х) =cos (n arccos х): (n) 2(п—&)“|-1 Xk =cos---------------л (6=1, 2, ... , и). (4.8.27) Многочлен Pn(x)t интерполирующий f по ее значениям в Xk , есть п (п) Тп(х) Р п(х)= lnk(x)f (Xk ), lnk(x)=-— (п\\Т // ’ Теорема 10. Если f(x) абсолютно непрерывна на [—1, 1], то при п-+оо многочлен Рп(х) сходится к f(x) равномерно относительно х на отрезке [—1, 1J. Доказательство. По теореме 9 достаточно установить ограниченность в сово- купности частичных сумм лагранжевых коэффициентов: п |bniWl = l (-1<х<1; n=l,2, ...;/ = 1.2, ... , n). (4.8.28) k = j n В теореме 6 показано, что сумма абсолютных значений у] |/пл(х)| не может быть k = t ограниченной при п= 1, 2, ... , так как п In п Xn = max |/пл(х)|^5---— * ft=1 8Ул
406 Гл. 4. ИНТЕРПОЛИРОВАНИЕ для любой таблицы X узлов Xk , и следовательно, неограниченно возрастает при п->оо. Ограниченность частичных сумм Xnj(x) может выполняться только за счет того, что lnk(x) являются знакопеременными и при сложении их происходит уничтожение , главных частей /па(х). При больших п проследить за такими сокращениями в суммах п Knj(x)= lnk(x) было бы сложно, но, как мы сейчас увидим, суммирование здесь k=j может быть выполнено при помощи контурного интеграла и это очень упростит исследо- вание сумм hnj(x). В комплексной плоскости z возьмем замкнутую линию Tj’ содержащую внутри себя (п) (п) узлы Xk (k=jt /+К ... , п) и оставляющую Xk (k = 1, ... , /—1) вне себя. Тогда п f Г Тп (х) 1 dz A.nj(x)= V Z»ft(x) = (2m)-‘ I 1----- -------------= 7/ г«<г) J z~x = (2ш)-4 Tn(z)—Tn(x) Tn(z) dz z—x В самом деле, интеграл равен сумме вычетоЪ интегрируемой функции в особых точ- ках, лежащих внутри Г3*. Такими точками являются корни х^- делителя Tn(z)t отвечаю- щие k=j, ... , п. По правилам, известным из теории функций комплексной переменной, (п) вычет в точке z=Xk легко вычисляется и равен значению в этой точке функции Tn(z)—Tn(x) 1 T.n'(z) z—x' т / (n)\ n а так как Tn{Xk ) = 0, вычет равен Тп (х) ----------------------= In k (х) . TV^71)) (x(n)—х) k h Этим доказано приведенное выше равенство для Xnj(x). Интеграл равен нулю или единице в зависимости от того, лежит ли х вне или внутри Г,. Кроме того, |Гп(х) | С 1 (— и для проверки (4.8.28) достаточно доказать неравенство (-l^x^l; n=l, 2, ... ; /=1, 2, ... , n). (4.8.29) 1 Функция —-------------при z->oo убывает не медленнее, чем z~2. Это дает возмож- Tn(z)(z—x) ность в качестве линии Tj взять ветвь гиперболы
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 407 1 1 /-1 х= — (p+p-^cosO, у'—— (р—p-1)sinO, оо>р>0, 0=-----------------л, 2 2 п проходимой в направлении убывания р. Она пересекает ось х в точке cos 6 и оставляет корни Xk (*=]> /+1» • • • » п) слева от себя. Найдем на гиперболе значения всех величин, входящих в интеграл. В теории много- членов Чебышева известно следующее представление Tn(z)t верное на всей комплексной плоскости: г"(г)= ~ 1(г+ у*2—1)"+(г—/гг1-1)п]. & На избранной гиперболе: z=xf ^iy' — — (р^6-4-р-1е~*6), 2 У г2— 1 = — (рег‘0—р-* 1^-^), г+У г2—1 =рег‘б z—| г2—1 =р“1е-*9, 2 1 1 (-Ip-1 TnC?) — — (рпегпО+р-пе-гп0) = — (pn+p“n)cos(j— 1)л=-(Рп+Р”п)« 2'2 2 Дальше, ввиду того, что движение по гиперболе отвечает направлению убывания р, будет 1 , dp dz=------[рег0—р-1^-^] — 2 р dz Tn(z) (z—x) (4.8.30) оо 1 оо Интеграл по полуоси (0, оо) разложим по схеме J = f + J ив интеграле по отрезку 0 0 1 1 [0, 1] заменим переменную интегрирования, положив р= — (оо>р'>1). При замене р' 1. примем во внимание, что точки гиперболы, отвечающие значениям р и —, располагают- Р ся симметрично относительно действительной оси х и им отвечают сопряженные значе- ния z. После замены, отбросив штрих у р', получим оо ре?б—p-1e~ie dp Г 1 Г рег‘б—p-1^-*® । р-^б—ре-*б ' dp (pn+p~n) (z—х) р * (pn+p-n) z—x z—x Jp oo f dP = 2i ------------- J p(pn+p-n} 1 После подстановки в последний интеграл вместо z значения z= — (ре^+Р'1^-10)
408 Гл. 4. ИНТЕРПОЛИРОВАНИЕ и несложных вычислений коэффициента при мнимой части величины, стоящей в прямо угольных скобках, найдем “ COS0------*(р+р~*) . dz Г 2 dp '=4i(-l)i-‘ sin е I — - у (р"+р-") |z Так как при р^1 рп+р-п^2,' для наших целей достаточно доказать существование числа Q, для которого выполняется неравенство “ |cos 0-— х(р+р-‘) I I * J |z—х|2 (4.8.31) (—ls£xsgl; П=1, 2, ; /=1, 2, . , n). 1 Положив — (р+р“*) =S> придадим последнему интегралу форму Для . f |cos0—х£| d% sin 0 I-------------------------— £2—2х £ cos 0+%2—sin20 У£2—1 cos 8—x% d% sin 0-------------------------- I2—2x I cos 04-x2—sin20 f I2— 1 (4.8.32) cos 0—xl первообразной функцией является arctg------- . Каждая ветвь ее ограничена на sin0yg2-1 отрезке l^g<oo некоторым числом, не зависящим от п, /, х. Если мы хотим вычислить интеграл (4.8.32) при помощи первообразной, воспользо- вавшись известной связью между нею и определенным интегралом, нужно отрезок ин- тегрирования [1, оо) разделить на участки, где cos 0—сохраняет знак, найти прира- щение первообразной на каждом участке и затем сложить их, приписав приращениям знак + или —. Так как cos 0—х£ есть линейная функция от £, таких участков будет не более двух. Ввиду же ограниченности первообразной, наверное существует число Q, при котором выполняется (4.8.31). Обратимся теперь к задаче установления признаков сходимости интерполирования на множествах непрерывно дифференцируемых функций. Пусть рассматривается интерполяционный процесс, определенный таблицей узлов X (4.8.1): п (Ип (х) (П) ' п (п) Рп (h х) (х) = (х 'чх(п» f(~Xk ) = 2 ). (4.8.33) * = ! (Х-Х\>)<Лп t = i Введем функцию Fno(t)=Fno(t; х, х!,"' )= lnk(x)E(t—x!tn\), fc = l
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 409 зависящую от узлов Xk и положения точки интерполирования х и аналогичную ядру Кп, встречавшемуся в доказательстве теоремы 9. Кроме того, нам потребуются первообраз- ные для нее Рпв(/', х)—Fns(t) — lnk(x)E(t—Xhn)) — (t—Xkn})a,] (J) определяемые начальными условиями Fns (а)=0 (1 = ®, 1, ... , s—1). Говорят, что функция f принадлежит классу Сг [а, &К если она имеет производную f<r> порядка г, непрерывную на [а, Ь]. Характерное представление таких функций дается формулой Тейлора, и мы возьмем ее в виде: х Ь Ъ = П,_1(х) + (-1)’- jg(t)E(t—x) а (t-xy-^ (^—1)1 dt, (4.8.34) c.= _LZ(z)(Z?); g(/) =/(')(/). Параметрами представления являются числа (i = 0, 1, ... , г—1) и непрерывная на [а, Ь] функция g. Теорема 11. Для того чтобы интерполяционный процесс сходился при п-^оо равно- мерно на [а, Ь] для всякой функции f^Cr [а, b] (г^1), необходимо и достаточно су- ществование числа для которого выполняется неравенство ъ ъ f |Fn,r-i(0l^= VarF„r(t)^M (П=1,2, ...; а^х^Ь). (4.8.35) а а Доказательство. Можно считать п^г. Внесем в Рп(х) (4.8.33) вместо f ее представление (4.8.34). При этом многочлен Пг-1(х) интерполируется точно: ъ С ™ _ (п) 1 (л) Р„(х)=Пг-1(х) + (-1)'Jg(Q £lnHx)E(t-xl ’) (t~Xk ’)^dt= a k=i * ' b = IL-1 (X) + (- 1) T j g (0 Fn, r-1 (t)dt. а Сходимость многочлена Pn(z) к f(x) и сходимость интегрального оператора ъ J g{t)FntT^(t)dt=(-\Y [Рп(х)-Пг-1(х)] а I
410 Гл. 4. ИНТЕРПОЛИРОВАНИЕ к (—l)r [f (х)— IL-i(x)] равносильны. Ап есть линейный оператор, определенный на множестве непрерывных на [а, Ь] функций g. Значения оператора принадлежат тому же множеству. Введем на этом множестве норму С, полагая ||g|| = max|g(x) |. После этого X мы можем сказать, что оператор А будет осуществлять отображение банахова простран- ства С [а, Ь] в себя. Для нахождения условий сходимости мы можем, как выше, при- менить теорему Банаха — Штейнгауза (добавление I, § 2, теорема 2'). Рассмотрим множество алгебраических многочленов. Во-первых, оно плотно в С [а, Ь]. Во-вторых, если g есть многочлен некоторой степени /л, то f есть многочлен степени m-f-r—1. При интерполирование f будет точным и Рп совпадает с Д Интерполяционный процесс станет стационарным и будет равномерно сходиться: Но тогда будет сходиться равномерно последовательность Ang — Рп (X) Пг-1(Х) к (“1)Г [f«-nr-!(x)] = ь J g(t)E(t—х) (!—х)г~* dt. а Первое условие теоремы о сходимости последовательности Ang на всюду плотном мно- жестве элементов в С [а, 6] здесь, очевидно, выполняется. Остановимся на втором условии теоремы об ограниченности в совокупности норм операторов Лп. Вычислим норму Ап: ь ъ ||Л ngll = max | f g(t)Fn,r-i(t)dt\^max { f \Fn, \dt% x a x a b Xmax|g(0 |}=max f |Fn, r-i(0 |Л-||£||. t x a4 Для нормы оператора An отсюда следует оценка сверху Mnll^max X 1^*п, г—1 (0 \dt. (4.8.36) а Пусть максимум интеграла, стоящий в неравенстве справа, достигается при х = х0: ь ъ max J* \Fn, r-i(0 |d/ = max J |Fn x a x a b r_i(/, x)\dt = f \Fntr-i(t, xo)\dt, a b ||ЛП||= sup max | J Fn, r-i(tt x)g(t)dt\ = sup ||^|| = 1 x a i|g||=l b | f Fn, r-i(t, Xo)g(t)dt[. a Функция Xo) = lnh(xo)E(t—Xk}) — (/—Xk} )s si (n) (n) (n) (л) внутри каждого из интервалов (а, х0 . ), (х± , х2 ),..., (хп , о) есть некоторый мно- гочлен от t и имеет, следовательно, либо конечное число нулей, либо является тождест-
§ 4.8. СХОДИМОСТЬ ИНТЕРПОЛЯЦИОННЫХ ПРОЦЕССОВ 411 венным нулем и функция sign Fn> r-\ (ty Хо) может на отрезке a^.t^.b иметь только конечное число точек разрыва. Но тогда ясно, что при всяком е>0 существует такая непрерывная функция ge(t) (llg8(0 11^ 1), что будет ъ ь f Fn, xa}ge(t)dt> f Fn,r-i(t, xo)sign|Fn, xo) |rf/—e= a a b b = J \Fn,r~i(t, x0)\dt—e = max f |Fn,r-i(f, x)\dt—s. a x a Поэтому b b ||ЛП||= sup I f Fn,T-i(t, Xo)g(t)dt\^ f Fn,r-i(t, Xo)ge(t)dt> ||«||=1 a a ь max f |Fn.r-i(/, x) [dt—e x a и так как неравенство верно при всяком е>0, то должно быть ь ||Лл||>тах f \Fn,r-i(t, x)\dt. х а Сравнение с (4.8.36) позволяет сказать, что ь ||Лп|| = шах J |fn,r-1(*, х)\dt. х а Требование ограниченности норм операторов Ап в совокупности равносильно неравен- ству (4.8.35) и выполнение (4.8.35) является, следовательно, необходимым и достаточным условием сходимости последовательности линейных операторов Ап к предельному ли- нейному оператору «г ь (t-x) (t-x) idt = (-1) г [f (X) -Пг-1 (X) ]. Отсюда следует равномерная сходимость Рп(х) к f(x). Отметим частный случай доказанной теоремы, который имеет также самостоятельный интерес. Пусть г=1 и мы рассматриваем множество непрерывно дифференцируемых функций. Составим для этого случая условие (4.8.35): f \FnQ(t)\dt= f | lnk(x)E(t-Xkn))\dt a a fc = i и, так как на отрезках между узлами хд интегрируемая функция имеет приводимые ниже значения
412 Гл. 4. ИНТЕРПОЛИРОВАНИЕ £ In к (х) £(/-х?’) = . Л = 1 1 / ч <п> (п) Zni(x), Х1 </<х2 ; /ni (я) 4~/п2(я)’ <Zt<ZX3 ; /nl(^)4"Zn2(x)4-. . .4”/nn (-^), Хп интеграл легко вычисляется и это позволяет высказать следующую теорему. Теорема 12, Для того чтобы интерполяционный процесс, определяемый таблицей X, сходился равномерно на [а, Ь] для всякой функции f, непрерывно дифференцируемой на этом отрезке, необходимо и достаточно существование числа Af<oo такого, что выпол- няется неравенство I/ Z \ I z (П> (П)ч I И / ч I 1 , ч1 / (п) (п) ч । t \lni (х) I (х2 — Xi ) + \lnl(x)+ln2(x) I (Хз —Х2 )+...+ + |/nl (*) +• • »4"^n n-11 (хп —Xn-i)^-M (/1=1,2,...). (4.8.37) Мы приведем еще одну теорему, устанавливающую интересную связь между ско- ростью убывания погрешности наилучшего приближения и проблемой сходимости интер- полирования. Рассмотрим две величины, связанные с таблицей X узлов интерполирования: ^W= S PnftWI и ^n= max Кп(х). А = 1 х€Е:[а’ Ч Теорема 13. Пусть f непрерывна на отрезке [а, 6] и Еп есть погрешность ее наилуч- шего приближения многочленами степени не больше п. Если En-i^n (хо)->О (п->оо), то последовательность значений интерполяционных многочленов в точке хо стремится к значению f(xo): Pn(xo)-+f(xo) (n->oo). Если же En-i^n-^О (п->оо), то Рп(х) стремится к f(x) равномерно на отрезке [а, &]. Доказательство. Пусть Пп-1(х) есть многочлен степени и—1 наилучшего приближения к f на [а, Ь]. Интерполяционный многочлен Рп(Пп-1; х), составленный для него, будет совпадать с Пп-1(х) и поэтому x)-f(x)| = | UMf; х)-Рв (Пп-ii x)] + [n„_i(x)-f(x)]| С |Pn(f-nn-i, x) | + |f(x)-n„-i(x) |. Ho |Р»а-Пп-ъх)| = | ^lnk(x) [/(х?))-Пп-1(х<Ап) )] |s££n-iXn(xJ и k = l И(х)-П„_1(х)| n—1>
ЛИТЕРАТУРА 413 значит, I n (f; х) f (х) | [Xn (х) +1 ] Еп-1. Все дальнейшее является очевидным. Литература 1. Гончаров В. Л. Теория интерполирования и приближения функций, изд. 2-е. М., 1954. 2. М а р к о в А. А. Исчисление конечных разностей. Одесса, 1910. 3. Н а т а н с о н И. П. Конструктивная теория функций. М.—Л., 1949. 4. Стеффенсен И. Ф. Теория интерполяций. М.—Л., 1935. 5. Уиттекер Э., Робинсон Г. Математическая обработка результатов наблю- дений. М.—Л., 1935.
Глава 5 ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ § 5.1. КВАДРАТУРНАЯ СУММА И УСЛОВИЯ ЕЕ ПОСТРОЕНИЯ. ОСТАТОК КВАДРАТУРЫ Здесь будет рассматриваться задача о вычислении интеграла при по- мощи нескольких значений интегрируемой функции. Достоинство этого метода состоит в его простоте и универсальности. Мы будем рассматри- вать почти исключительно задачу о вычислении простого (однократного) интеграла. Более трудную задачу о вычислении кратных интегралов мы оставим в стороне и рассмотрим только вопрос о приведении их к после- довательному вычислению нескольких простых интегралов. Начнем с проблемы вычисления определенного интеграла. 5.1.1. О квадратурной сумме « Придадим интегралу специальную форму ь ) p(x)f(X)dx, а (5.1.1) где <а, есть любой конечный или бесконечный отрезок числовой оси, р(х)—некоторая фиксированная функция, которую называют весовой функцией или весом, и f(x) —произвольная функция некоторого класса. Выбор такой формы для интеграла связан со следующими соображе- ниями. Методы вычислений, рассчитанные на очень широкие классы функций, обычно обладают невысокой точностью и, если увеличивать число значе- ний функции, участвующих в вычислениях, показывают медленную схо- димость. Поясним это простым примером. Рассмотрим интеграл в его ь обычной форме f F(x)dx. Будем считать отрезок [а, 6] конечным и F(x) а любой интегрируемой в смысле Римана функцией. Каждый такой интег- п рал является пределом суммы вида F(gi) Д%г, и можно, принципиально г=1 говоря, найти интеграл с любой заданной точностью, взяв достаточно
§ 5.1. КВАДРАТУРНАЯ СУММА И УСЛОВИЯ ЕЕ ПОСТРОЕНИЯ 415 малые частичные отрезки [Xi-i/Хг] и вычислив достаточно много значе- ний/7^). Каждая интегральная сумма определяется способом деления |Х £] на части Дхг- и выбором в каждой из них промежуточных точек &• Когда мы ставим задачу о построении правила вычисления, одинако- вого для всех функций F, мы не можем отдать предпочтения одним час- тичным промежуткам Дх* перед другими и вынуждены будем взять все b—а \Xi одинаковыми, ПОЛОЖИВ Дхг- =---- = й. п Кроме того, на основании сходных соображений о равноправности между собой точек каждого частичного отрезка Дхг- за мы должны будем выбрать середины.частичных отрезков и принять следующее пра- вило интегрирования: * ь J F,(x)dx»h [ F (-^-) +F (yph) +F (-|-/i) + а Оно действительно позволяет вычислить интеграл сколь угодно точно при всякой функции F, но является весьма медленно сходящимся даже для случая аналитической функции F и требует для достижения хорошей точности нахождения интеграла весьма большого числа значений F. По этой причине в практике вычислений указанное правило применяется редко и лишь в специальных случаях. Его можно, например, применять при численном интегрировании периодических функций, где это правило, как выясняется ниже, может дать высокую точность (см. конец § 5.5). Отметим попутно, что указанное правило, вообще говоря, становится ъ неприменимым, если интеграл f F(x)dx является несобственным: когда а F(x) есть неограниченная функция или когда отрезок [а, Ь]—бес- конечный. Лучшую точность и большее значение имеют правила численного интегрирования, рассчитанные на более узкие классы функций, которые обладают некоторыми общими свойствами. Тогда точность вычисления может быть увеличена, если заранее принять во внимание эти свойства. Каждое правило, о котором, будет говориться ниже, основано на за- мене интегрируемой функции на какую-либо элементарную функцию — алгебраический многочлен, рациональную функцию, тригонометрический многочлен и т. п. Чтобы такая замена имела хорошую точность, необхо- димо, чтобы заменяемая функция F обладала высоким порядком глад- кости.
416 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Если F(x) имеет какие-нибудь особенности, мы будем заинтересованы в выделении их. Такое выделение обычно делается при помощи разло- жения F(x) на два сомножителя F(x) =p(x)f (х), где р(х) имеет особен- ности того же типа, что и F(x), a f(x) есть гладкая функция. Это раз- ложение приведет нас к интегралу вида (5.1.1). Считая вес р(х) фикси- рованным, a f(x) любой гладкой функцией, мы будем строить правило интегрирования, рассчитанное на функции, имеющие одинаковые, зара- нее известные особенности. Но значение р(х) не ограничивается только одним этим, а является более широким. Поясним это двумя примерами. Часто приходится вы- числять несобственные интегралы вида f Fix'jdx, в которых F (х) может а не иметь особенностей, быть гладкой и стремиться к нулю при х->оо. В вычислении интеграла многое зависит от того, каков закон убывания |F(x)|. в этом случае F(x) разумно разложить на два сомножителя F(x) =р(х)/:(х), первый из которых р(х) характеризует скорость стрем- ления F(x) к нулю, а второй f(x) есть некоторая гладкая функция, до- пускающая хорошие приближения многочленами или рациональными функциями. При решении граничных задач дифференциальных уравнений нередко приходится иметь дело с функциями, обращающимися в нуль на концах ютрезка. Здесь естественно при интегрировании учесть это свойство, положить Е(х) = (х—а) (6—x)f(х) и построить правило для интегриро- вания с весом р (х) = (х—а) (6—х). Возвратимся к интегралу (5.1.1). Вес р(х) будем считать не эквива- лентным нулю и таким, что его произведение pf на любую функцию Д принадлежащую взятому множеству, абсолютно интегрируемо на <Za, b>. Будем строить правила вычисления следующего вида: ъ J p(x)f(x)dx^ а п Ё Akf(xk). h=l (5.1.2) Такое равенство часто называют формулой механических квадратур, п сумму Ahf(Xk) —квадратурной суммой, Аи — квадратурными коэф- k=l фициентами и хь. — квадратурными узлами, м, х& и Ak (&== 1, 2, ... , п) являются параметрами правила (5.1.2) и их надлежит выбрать так, что- бы достигнуть «возможно лучшего» результата интегрирования для всех функций избранного класса. Заметим, что в некоторых задачах не все параметры являются произвольными. Так, например, если функция f задается таблицей значений, то мы стеснены в выборе узлов хь: мы мо- жем взять в качестве узлов либо все табличные значения, либо часть их.
§ 5.1. КВАДРАТУРНАЯ СУММА И УСЛОВИЯ ЕЕ ПОСТРОЕНИЯ 417 Чтобы пояснить идею правила выбора, которой мы будем руковод- ствоваться, достаточно ее указать для того случая, когда параметры не подчинены никаким ограничениям и выбор их свободен. Роль числа узлов п в квадратурной сумме вполне ясна: чем больше /г, тем большей точности можно достигнуть при построении правила (5.1.2). Поэтому п считают произвольным, но фиксированным числом и рассмат- ривают задачу о выборе Ak и х^ Правом такого выбора мы воспользуем- ся ниже преимущественно для одной цели — увеличения степени точно- сти правила, понимая под этим следующее. Рассмотрим последовательность линейно независимых функций сот(х) (т = 0, 1,2,...) таких, что произведения рыт являются абсолютно интег- рируемыми. Выбор cow(x) подчиним условию полноты в множестве f, придав ему естественный в нашей задаче смысл. Составим линейную комбинацию п sn(x) = £ akak(x). k=i За «расстояние» между f и sn примем величину ь p(f, sn)= J |p(f—sn)|dx. a I Последовательность сопг(х) условимся называть полной в множестве f, если для каждой функции f из взятого множества и всякого е>0 суще- ствует такая линейная комбинация sn, что p(f, sn) Когда условие полноты выполняется, из неравенства ъ J pfdx— а Ъ f |p(f-Sn) | dX = p(f, Sn) а b следует, что J pfdx может быть вычислен сколь угодно точно, если взять а линейную комбинацию достаточно большого числа первых функций сот и надлежащим образом избрать численные значения аь. Очевидно при этом, что можно достигнуть тем большей точности, чем большее значение будет иметь п. Можно надеяться на то, что если мы при помощи выбора Ah и Xk до- стигнем хорошей точности в интегрировании функций со™, то такое пра- вило должно дать хороший результат при интегрировании любой функ^ ции f из взятого множества. Изложенные соображения позволяют ука- зать принцип выбора параметров Аь и хь в правиле интегрирования.
418 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Условимся говорить, что правило (5.1.2) имеет степень точности ап, если оно дает точный результат при интегрировании coo, coi, ... , cow: рсого!х= Льсог(хл) (i = 0, 1, ... , m), и не точно для (оП41- При выборе Ak и Xk ставят задачу сделать степень точности наивыс- шей возможной. Можно ожидать, вообще говоря, такого результата: так как число параметров Ak и Xk равно 2и, можно надеяться правило (5.1.2) сделать точным для первых 2п функций сощ и достигнуть того, чтобы сте- пень точности правила стала равной 2и—1. Можно предполагать также, что 2п—1 является, вообще говоря, наивысшей возможной степенью точ- ности. Это только гипотезы, и нужно выяснить условия, при которых они будут верными. Ak и Xk должны удовлетворять системе уравнений Ak(Oi(Xk) (i=0, 1, ... , 2n— 1) линейной относительно Ak и нелинейной относительно Xk. За функции сот примем последовательность степеней х: 1, х, х2, ... , хт, ... Линейной комбинацией sn здесь будет алгебраический многочлен степени п sn(x)= £ akxk = Pn(<x'). k—0 Если отрезок [а, 6] конечный, то многочлены Рп(х) позволяют прибли- зиться сколь угодно точно в равномерной метрике С к любой непрерыв- ной на [а, &] функции и будут, очевидно, обладать полнотой и в указан- ной выше метрике p(f, sn). Поэтому можно ожидать, что правила интег- рирования, имеющие наивысшую алгебраическую степень точности, должны дать удовлетворительный результат для вычисления интеграла (5.1.2) при всякой непрерывной функции f. Всюду ниже, если не будет сделано на этот счет указания, будут иметься в виду правила численного интегрирования, построенные на основе приближения f алгебраическим многочленом. Повышение степени точности не единственная цель, которую можно поставить при построении правила (5.1.2). Можно стремиться, например, к упрощению вычислений при применении этого правила и потребовать, чтобы все коэффициенты Ak были равны между ‘собой и правило интегри- рования имело бы форму
§ 5.1. КВАДРАТУРНАЯ СУММА И УСЛОВИЯ ЕЕ ПОСТРОЕНИЯ 419 Jp(x)f(x)dx«C [f(x1)+f(x2)+.. (Xn)]. (5.1.3) В него входят п+1 параметров С, хн (&=1, 2, ...» п), и выбором их можно надеяться достигнуть того, чтобы правило имело степень точности не ниже п. 5.1.2. Остаток приближенной квадратуры Остаток квадратурного правила (5.1.2) p(x)f(x)dx— Akf(Xk) = J pfdx-— Qn(x) зависит от свойств функции f и от выбора правила. При изложении задач, которые ставятся в изучении R(P)t пришлось бы в значительной мере повторить то, что говорилось об остатке интер- полирования. Это позволяет быть более кратким. Две основные проблемы ставятся в исследованиях R(f). Во-первых, оценка его в наиболее часто встречающихся классах функ- ций. Представляют интерес как грубые оценки в широких классах f,. полезные в изучении вопросов сходимости, так и точные оценки в более узких классах, важные при рассмотрении зависимости R(f) от свойств- интегрируемой функции f. Такие оценки имеют значение также при опре- делении числа п членов в квадратурной сумме, какое нужно взять, чтобы получить значение интеграла с требуемой точностью. Во-вторых, исследование сходимости квадратурных процессов, т. ё. выяснение условий, при которых Rn(f)-+0 (п->оо). По сравнению с ин- терполированием это более простая задача, так как остаток квадратуры есть число и вопрос стоит о стремлении к нулю численной переменной Квадратурный процесс, иначе говоря, последовательность квадратур- ных правил, определяется двумя треугольными таблицами: таблицей узлов (5.1.4)
420 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ и таблицей коэффициентов Л® А? л!3)' л(3) Лз(3) (5.1.5) В вопросах сходимости процесса приходится иметь дело с тремя фак- торами: с классом F функций f и таблицами X и А. Две основные задачи теории сходимости имеют следующий смысл, 1. Задан класс F функций f, и нужно определить, при каких А и X квадратурный процесс будет сходиться для всякой функции faF. 2. Задан квадратурный процесс с таблицами X и Л, и нужно найти класс F функций f, для которых процесс будет сходиться. Обе эти задачи могут быть объединены в одной более общей: нужно определить, какая должна существовать связь между классом функций F и таблицами А и X, чтобы имела место сходимость квадратурного про- цесса. Некоторые из задач такого вида будут рассматриваться в параграфе о сходимости. § 5.2. ИНТЕРПОЛЯЦИОННЫЕ КВАДРАТУРНЫЕ ПРАВИЛА И ИХ ПОГРЕШНОСТИ Часто возникает потребность вычислить интеграл в том случае, когда известна таблица значений функции f. Мы можем пользоваться’для этого табличными значениями /л, выбирая в качестве узлов Xk квадратурного правила лишь табличные значения аргумента, и лишены возможности произвольного выбора х& В распоряжении вычислителя остается право выбора коэффициентов Ль и нашей первой задачей будет выяснить, ка- кая степень точности может быть при этом достигнута. Для упрощения изложения будем считать отрезок интегрирования [а, конечным, хотя в дальнейшем для многих вопросов такое пред- положение не является обязательным. Один из возможных способов построения правила интегрирования состоит в следующем. Пусть узлы Xk избраны каким-либо образом и фиксированы. Интерполируем функцию f по ее значениям /(*&) (&=1, 2, ... , п) при помощи алгебраического многочлена степени n—1 п fW=PW+rW, (5.2.1) со (х) = (х—Xi)... (х—Хп) .
§ 5.2. ИНТЕРПОЛЯЦИОННЫЕ КВАДРАТУРНЫЕ ПРАВИЛА И ИХ ПОГРЕШНОСТИ 421 Подстановка полученного представления f в интеграл (5.1.1) дает ра- венство ъ ь ь J p(x)f(x)dx= Jp(x)P(x)rfx+ §р(х)г (x)dx. а а а Если здесь отбросить интеграл с остаточным членом г(х), мы получим правило приближенного вычисления интеграла, которое характеризуется определенным законом выбора коэффициентов Ak. В связи со способом получения, оно названо интерполяционным правилом: ъ Л п J р(х)f (х)dx« Akf(xk), a k=i а <о(х) . 7—----\ /7 <dx- (x—Xk)to(Xk) (5.2.2) Погрешность его имеет следующее выражение через остаток интерполи- рования г(х): ь ь С п с Rn= J pfdx— £ Ahf (xfe) = J р(х)г(х)dx. fe=l а а (5.2.3) Теорема 1. Для того чтобы квадратурное правило (5.1.2) было точным для всяких алгебраических многочленов степени п—1, необходимо и до- статочно, чтобы оно было интерполяционным. Доказательство. Начнем с проверки необходимости. Положим f/ \ °(х) / \ f (х) = -г:.- A Ajt = (х) • Это есть многочлен степени п—1, принимающий в узлах х^ значения coi(x/i)=0 (&#=0 и (Ог(х.г) = 1. Так как правило (5.1.2) предполагается точным для всякого многочлена степени п—1, оно верно и для соДх) и должно быть ь ь J р(х)(Ог(х)ЙХ = J р(х) а а со(х) и правило (5.1.2) действительно является интерполяционным: Теперь докажем достаточность. Пусть f есть произвольный много- член, степень которого не больше п—1. Если f интерполировать по значе- ниям в узлах х^ то, в силу единственности интерполяционного многочле- на, должно быть точным равенство
422 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ п /(*) = 2j-f---------\ л /(**)• Кроме того, правило предполагается интерполяционным и, стало быть, его коэффициенты имеют значения (5.2.2). Поэтому верны равенства и правило (5.1.2) точно выполняется для f. Доказанная теорема позволяет утверждать, что всякое квадратурное правило (5.1.2), степень точности которого не меньше п—1, является ин- терполяционным. Рассмотрим остаток (5.2.3). Каждое известное представление погреш- ности интерполирования г(х) порождает соответствующее ему представ- ление остатка Rn. Например, известно, что остаток г(х) для каждой функции f с конечными значениями в узлах и точке х имеет форму (4.3.7), которая в нашем случае может быть записана как г(х) = co(x)f (хь х2, ... , хп, х). Это дает возможность утверждать, что для любой f с конечными значе- ниями на [а, 6] и такой, что произведение p(x)co(x)f(х) интегрируемо на [а, 6], погрешность Rn интерполяционного правила (5.2.2) представи- ма в виде ь Rn = J р (х) CD (х) f (Х1, Х2, . . . , Хп, х) dx, а (5.2.4) Если, кроме того, f имеет непрерывную производную порядка п на [а, 6], то f(*i, Х2, , Хп, *) = / V 1 где g есть некоторая точка на7 [а, 6]. Для остатка квадратуры Rn в этом случае верно равенство ь #п = -^J.p(x)(o(x)f(’l)(g)dx. (5.2.5) j 4* J а
§ 5.2. ИНТЕРПОЛЯЦИОННЫЕ КВАДРАТУРНЫЕ ПРАВИЛА И ИХ ПОГРЕШНОСТИ 423 Рассмотрим функции /, для которых производная порядка п непре- рывна и ограничена по абсолютному значению числом Мп\ |/(п)(х) | ^Мп (а^х^Ь). (5.2.6) Для них из (5.2.5) следует оценка остатка ь J |р(х)ш(х)рх. (5.2.7) а Полученная оценка является точной, когда произведение р(х)со(х) со- храняет знак на [а, &], и достигается для многочлена хп f(x) = — Мп+а,1Хп-1+. \ .+ап. Оценку Rn в классе (5.2.6), точную при любых р(х) и узлах хь, можно без труда получить, если воспользоваться характерным представлением классов непрерывно дифференцируемых функций, о котором мы говорили в конце § 4.5. Всякая функция, имеющая на [а, Ь] непрерывную производную по- рядка и, представима в виде п—1 Ь /«= +J (5.2.8) л и • ( г V ~ ~ 1 J • г=0 а 4 ' Если (5.2.8) внести в остаток общего квадратурного правила ь р п Rn(f)= J p(x)f(x)dx— Akffxk) k=i a и изменить порядок интегрирования по переменным х и /, что при пред- положениях о конечности [а, 6] и абсолютной интегрируемости р(х) является возможным, мы получим для Rn(P) следующее равенство: п—1 Ъ Rn Х = 2-^ f(i) (а) [ (х-а) ’] + J f(") (0 Лп (0dt, (5.2.9) г=0 а Ь Kn(f) = Jp(x) t (x-t)n~l (n—1) I (Xk — t)n-* (n-1)! {t=^=a, xh (k—l, 2, ... , n)}.
424 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Если же квадратурное правило является интерполяционным и, сле- довательно, точным для всяких многочленов степени не выше п—1, то /?п[(х—п)г‘] =0 (i=0, 1, ... , п—1) и остаток такого правила будет иметь представление ь • (5.2.10) а Точная его оценка в классе функций, имеющих непрерывную произ- водную порядка п, удовлетворяющую неравенству (5.2.6), будет .. * ь JiMOid/. (5.2.11) а § 5.3. ПРАВИЛА НЬЮТОНА — КОТЕСА Интерполяционные квадратурные правила с равноотстоящими узлами рассматривались еще Ньютоном. Котесом была составлена таблица коэффициентов Ak для них в случае постоянной весовой функции р(х) = 1 И /2=1(1)10. Отрезок интегрирования [а, Ь} разделим на п одинаковых частей b—а длины h=------- и точки деления a^-kh (ft = 0, 1, ... , п) примем за м узлы интерполяционного квадратурного правила. Само правило запишем в виде ь J p(x)f(x)dx^ (&—n) Bh f (a-\-kh), (5.3.1) fe=0 a b B£ = (b-a)-'Ah= (b-a)-^p(x) ,,, dx, co(x) = (x—a) (x—a—h}.. .(x—a—nh). Коэффициентам можно придать другую форму, если ввести новую переменную /, положив x=a-\-th со (х) =hn+it(t— 1) (/—2)...(/—n), х—a—kh = h(t^— ft), cd'(a-f-ft/z) = (— \)n~hhnk\ (n—ft)!,
§ 5.3. ПРАВИЛА НЬЮТОНА - КОТЕСА 425 О П п (— l)n-fe г z 7——- p(a-\-th) nkl(n—k)l 7 t(t— 1)...(/—n) dt. (5.3.2) Остановимся более подробно на случае постоянной весовой функции р(х) = 1. ь x'jdxzx (b-cd) Bk f(a-\-kh'), (5.3.3) fe=0 tlk\(n—k)\“ t—k Как говорилось выше, Котесом были вычислены коэффициенты В£ для п — 1 (1) 10: n=2; В2 В2=1 В2 = -Ь U 2 (j 1 (j п=3; =вз3 _ 1:. — 8 ’ Вз _3_. ~~ 8 ’ п=4; В4о _7_ ~ 90’ В4 =в\ _32. — 90’ В4 —11. —90’ п=5; В5о =в\ 19 — 288’ В\ =в\ 75 “ 288’ 552 ~В1 50 — 288’ п=6; fi60 =вйй 41 — 840’ В\ =в\ 216 — 840’ В62 ~В1 27 “840’ 272 В6 = —; 3 840’ п=7; #7 —.57 _---751 _—3577 £7 ,—£7 _—!_323_ ° 7 17280 ’ 1 6 17280 2 5 17280 2989 В7 =^7 ___±Z2Z_. 3 4 17280 ’
426 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ п =8; Во ~В*з~ 989 28350 ’ -В3- 5888 28350 ’ А = А — —928 28350 ’ В*з ~В1 - 10496 28350 —4540 28350’ = 9; В90 =В1 = 2857 - А - - 15741 R9 1080 89600 ’ 89600 ’ 1 89600 ’ В\ -В\~ 19344 89600 ’ А -А - 5778 89600 ’ и = 10; В1з ~В^~ 16067 510 _в»_ 106300, В‘°= 2 _ /210 -48525 п 598752 ’ 598752 ’ А 598752’ 10 — £?Ю- 272400 . -260550 427368 3 7 598752’ 4 6 598752’ 5 598752 В настоящее время эта таблица значительно продолжена. Но так как при больших п правила Ньютона — Котеса почти не применяются в вы- числениях, мы ограничимся только приведенной таблицей, достаточной для наших целей. Уже при беглом рассмотрении ее можно заметить, что изменение В^ при возрастании k, начиная с м=4 и особенно при п^б, имеет «неправильности», которые трудно считать приемлемыми. При п=8 и п==10 эти неправильности становятся особенно очевидными,, так как некоторые из коэффициентов являются отрицательными. Заметим, что при каждом п сумма коэффициентов B% всегда равна единице. В этом легко убедиться, если в правиле (5.3.3) положить fsl. п Поэтому появление среди Bh отрицательных чисел вызовет рост \В% |, k=Q что может повлечь за собой потерю точности при вычислении п Bkf(a-j-kh), так как в сумме, как правило, будут встречаться слагае- fe=0 мые разных знаков. Кроме того,, значения f(a-f-kh) мы знаем, обычно, только приближенно. Если погрешности известных значений f оценива- п ются числом 8, то погрешность в вычислении суммы S В? ?(&-}-kb) долж- п k=Q на быть оценена величиной 8 S \Вь |, которая может иметь большие * н значения, если сумма £ |В/Г| будет большой. Поэтому при изучении h
§ 5.3. ПРАВИЛА НЬЮТОНА — КОТЕСА 427 правила Котеса имеет значение исследовать, при каких п среди коэффи- циентов Вь встречаются отрицательные и какими будут значения Bk при больших п. Теорема 1. В правиле Ньютона — Котеса (5.3.3) для всех п^Ю существуют отри- п цательные Вь . Доказательство. Не уменьшая общности рассуждений, можно считать отрезок [а, Ь] совпадающим с [—1, 1]. Рассмотрим следующую формулу с п+1 узлами, один из которых фиксирован в точке 1: 1 П . ff(x)dx^^Akf(yk)+Af{\) -1 Л = 1 (5.3.4) и одновременно с ней возьмем формулу с m-j-l (гп-<.п) узлами, из которых два фикси- рованы в точках —1 и 1: 1 771 — 1 J f(x)dx»p-if(—l)+ £ Pif(Xi)+P+i(l). -1 1 = 1 (5.3.5) В § 5.7 будет доказано, что узлы последнего правила и его коэффициенты могут быть выбраны так, что равенство (5.3.5) будет выполняться точно для всякого многочлена сте- пени 2m— 1, при этом узлы Xi тогда должны быть корнями многочлена Якоби степени /п—1 индексов 1, 1: у(х) =Рт-*1(х): Предположим, что уь, и Xi перенумерованы в порядке возрастания.' Лемма 1, Если правило интегрирования (5.3.4) верно для многочленов степени 2m—1 (n>m) и если 4ь>0 (k = 1, ... , п), то уп Доказательство. Применим правила (5.3.4) и (5.3.5) к многочлену /(*) = y*(x)(\-x2) 1 X Хщ — i имеющему степень 2m—1. Оба правила должны дать точный результат, причем второе из них дает, очевидно, нуль. После сравнения результатов получим равенство J? Akf(yk) =0. k = i Ввиду n>/n не все слагаемые в сумме равны нулю. Среди них должны быть положи- тельные и отрицательные. Но при xm-i<zx<zl будёт f(x)>0 и при — 1<х<х7П_1 f(x)<0. Следовательно, должно быть у п Xjn — i. Для оценки наибольшего корня Pm-i (х) нам потребуется Лемма 2. Для наибольшего корня xm-i многочлена Якоби Pm’-i (х) верно нера- венство 1 Хщ — 1 ______8_______ (/п—1) (/п+2)+4 (/п>3). (5.3.6)
428 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Чтобы не прерывать рассуждений, связанных со знаками коэффициентов формулы Котеса, отложим на несколько строк доказательство леммы и допустим, что она верна. Рассмотрим правило Ньютона — Котеса для отрезка [—1» 1]: 1 Г п / 2k \ f(x)dx^ У Ahf ( -1+ — (5.3.7) J \ п / -1 fc = 0 и предположим, что его коэффициейты Да положительны. Пусть п есть нечетное число. Правило (5.3.7) верно для многочленов степени п, и можно считать 2fn— 1=п, /п=0,5(п4-1). Ввиду лемм 1 и 2, должно быть 2(n—1) 32 —14" ——— >>Xm—i>l—-----------—-------------, п (п— 1) (^4-5)4-16 откуда следует 1 16 —- <------------------- и nd 1. п (n—1) (П4-5) 4-16 Предположим, что п есть число четное. Правило (5.3.7) верно для всех многочленов степени и, так как оно интерполяционное. Кроме того, оно верно для всякой нечетной функции, ввиду того что интеграл J fdx тогда равен нулю и сумма также равна нулю, 2k - -1 так как узлы уь = — 14 расположены симметрично относительно начала координат и Дп-а=Да- Поэтому правило (5.3.7) точно для многочленов степени «4"! и можно считать 2m—1=п4-1> m = 0,5(n+2). Согласно с леммами 1 и 2, должны выполняться неравенства 2(n—1) 32 —14-----------Z>xm—1 > 1-------------. п п(п4-6)4-1б Отсюда 1 16 — <--------------- и п<8. п п(п4-6)4-16 Можно считать теорему 1 доказанной. R) Осталось еще доказать лемму 2. Известно, что’ многочлены Якоби Рп р (х) любых индексов а, (3 удовлетворяют дифференциальному уравнению (1— х2)/Ч-[₽~а— (а+р+2)х]/+п(п+а+Р+1)«/=0. Для y = Pm-i (*) это уравнение будет [(1-x2)V]'4-(m-1) (m4-2) (1-x2)z/ = 0. (5.3.8) (1» 1) Пусть в уравнение вместо у подставлен многочлен y(x)=Pm-i (х). Проинтегрируем обе части равенства от xm-i до 1. Ниже нам придется иметь дело только с наибольшим корнем хт-1, и для упрощения записи мы обозначим его х, отбросив индекс т— 1. 1 (l-x2)V(x) = (m-l)(m4-2) J (\-t^)y(t)dt = X
§ 5.3. ПРАВИЛА НЬЮТОНА — КОТЕСА 429 = (m—1) (/и+2) тп — 1 </(v)(x) (1— t2) (t—x^dt. X В наибольшем корне х все производные у^Цх) положительны. Сохраним справа только два первых члена и отбросим остальные. Когда /п>3, правая часть уменьшится и полу- чится неравенство (1-х’)У(х)> 1 1 >(m-l)(/n+2) [/(х) J(1-x)dt+ ——у"(х) J(l-/2)(/-x)MZ X X Из уравнения (5.3.8) вытекает, что в корне многочлена Якоби будет 4х У"(х) = -—ту'^- \—х2 Внесем это значение у"(х) в последнее неравенство и сократим результат на (Г— х)2*/'(х), что не равно нулю. Получится Дробь (1+х)2> (m-1) (т+2) убывает при поэтому правая часть уменьшится, если ее заменить значением 5 —, соответствующим х=1. После замены и сокращения на l-j-х, будет (/и—1) (/п4-2) (1-х). Отсюда сразу следует утверждение леммы 2. Чтобы получить представление об особенностях формулы Ньютона — Котеса при п большом числе узлов, найдем асимптотическое представление Вь для больших п. С этой целью рассмотрим интеграл J х—k о входящий в выражение (5.3.3). Очевидно,
430 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ На основании известного равенства для функции Г(г): 1 Г(1— z) sinus Г(г) л можно написать Г(х-Н) п Г(х+1)Г(п+1— x)sin пх Г(х-п) “ ~ л И , , п» f* Г(х+1)Г(«+1-х) . , I = (—1)п I-----------------sin пх ах. J n(x-ty Представим интеграл как сумму трех слагаемых: п 3 п — 3 п / = f + f + f =а+р+у. 0 0 3 п-3 Рассмотрим сначала слагаемое (3. В теории функции Г(г) известно разложение лога- рифмической производной Г(?) у / i 1 V T(z) z \ k k-\-z )/ где С — постоянная Эйлера.*) Из него следует, что при z>0 отношение тонная возрастающая функция. Поэтому Г' (г) —— есть моно- Г(г) Г'(х-Н) Г'(п+1-х) Г(х+1) Г(п4-1— х) будет монотонной возрастающей функцией при — 1<х<п+1 и, следовательно, In Г(х+1)Г(п+1—х) и произведение Г(х-Н)Г(п+1-х) при З^х^п—3 будут иметь наибольшее значение при х=п—3: 0^Г(х+1)Г(п+1-х)^Г(4)Г(п-2)=6Г(/г-2). Так как при всяких х верно неравенство sin лх л (х—k) то |Р|^6Г(п-2)п = 6Г(п+1) = Г Г(п+1) I (n—2)(n—1) L п2 J *> См., например, Янке и Эмде. Таблицы функций. М., 1959, стр. 108, 109.
§5.3. ПРАВИЛА НЬЮТОНА — КОТЕСА 431 Из двух интегралов а и у, ввиду их равноправности, достаточно рассмотреть один, например а. Будем считать l^&s^n—1. В рассуждениях для нас полезными являются следующие известные факты: *) при больших значениях z верны равенства ф' (г) = О ( — \ z Воспользовавшись формулой Тейлора и предыдущими равенствами, получим: In Г (п+1—х) =1п Г (п+1) — х Гх(п+1) Г(п+1) Г(п+1— х) =Г(п+1)е-х 1п п [<)] При О^х^З верно, очевидно, равенство Г(х+1) sin лх . х / х2 =------+ О I — л(х—k) k \ k Стало быть, з а = Jr(n4-l)e-*ln п [ 14-0 - )] [ т-_7“+° (~’)] dx> о Л и так как 3 In п xdx = 1 1 / 3 1п2п п3\ 1п п 1 1п2п 3 Г 2 1/96 2 I е-х In п X2dx =-/--1-----1_-- * 1п3п п3 \ 1п п 1п2п 1п3п о то Сходные вычисления для интеграла у дадут (п—&)1п2п L \ In п / J Два последних результата и ранее полученная оценка для 3 позволяют построить для 1 асимпотическое выражение
432 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ которое приводит к нужному нам асимптотическому представлению котесова коэффи- _ п циента Bk : в.-- ..М+±^]Г1+0(_!_\1 (,^„-1). (5.М k\ (п—k)! п ln2nL k n—k J L \ Inn / J n n Аналогично, для Bo и Вп получатся равенства п п 1Г / 1 \ "I Во =ВП =—----- 1+0 ----- . (5.3.10) nlnnL \ Inп / J Найденные выражения для Bk позволяют сказать, что при больших п среди В" будут как положительные, так и отрицательные, превосходящие по абсолютной величине любое наперед заданное число. Весьма часты будут случаи, когда смежные коэффици- п п енты Bk и Bk+i будут иметь разные знаки. Это заставляет думать, что при больших п правила Ньютона — Котеса становятся малопригодными для вычислений. §5.4 . НЕКОТОРЫЕ ПРОСТЕЙШИЕ ПРАВИЛА НЬЮТОНА — КОТЕСА В вычислениях наиболее часто употребляются правила Ньютона — Котеса с малым числом узлов. Они имеют невысокую точность, и для уменьшения погрешности отрезок интегрирования [а, 6] нужно предва- рительно разделить на достаточно большое число малых интервалов, к каждому из них применить избранное правило и затем взять сумму по веем интервалам.- 5.4.1. Правило трапеций Положим п=\. Интерполирование в этом случае выполняется по двум значениям f(a) и f(b), которые принимает f на концах отрезка [а, Ь]. Равенство (5.3.3) имеет вид ь J f(x)dx^ [f(a)+f(6)] а (5.4.1) и является простейшим правилом трапеций. Ввиду р(х) = 1 и со(х) = = (х—а) (х—Ь), погрешность (5.2.5) правила равна ь ад=-И (s-w"®dx. а \ Так как множитель (х—а) (х—6) сохраняет знак на [а, 6], то при
§ 5.4. НЕКОТОРЫЕ ПРОСТЕЙШИЕ ПРАВИЛА НЬЮТОНА — КОТЕСА 433 условии непрерывности второй производной от f на [а, &•] должна суще- ствовать такая точка т), для которой ъ (х—a) (x-fc)dx. а Вычисление последнего интеграла приведет к такому выражению для по- грешности (5.4.1): 1 (5.4.2) Разделим теперь отрезок [а, Ь] на п одинаковых частей длины h= — (b—a) и рассмотрим отрезок \a-\-kh, а+(^+1)М- Для вычи.сле- fl ния интеграла по нему применим равенство (5.4.1): a+(fe+l)h J f(x')dx= — [fk^fk+l] -\~Rh [fk = f (# + ^)], a+kh h3 1 <1 t Сумма таких результатов по всем частичным отрезкам приведет к об- щей формуле трапеций: ь а Здесь Величина — • •+f// (т)п-1) ] есть среднее арифметическое значе- fl ние, составленное из п значений второй производной /" в п точках отрезка [а, 6]. Оно лежит между максимальным М и минимальным tn значения-
434 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ ми f" на [а, д], а так как непрерывная функция принимает всякое значе- ние между М и т, на [cz, fe] существует такая точка g, что (5.4.4) 5.4.2. Правило парабол (формула Симпсона) Перейдем к случаю п = 2. Интерполирование f выполняется по трем значениям в точках а, с= — (а+&), Ь. Квадратурное правило (5.3.3) будет ъ J f (х) dx« [f (а) +4/(с) +/(&)]. (5.4.5) а Равенство является точным для всех многочленов второй степени. Но необходимо заметить, что если f есть функция нечетная относительно точки с, являющейся серединой отрезка [а, 6], т. е. если f (с—t) = — —при всяких t, то левая и правая части в (5.4.5) обращаются в нуль и равенство будет выполняться точно. В частности, оно будет точным для f=(x—с)3. Это позволит утверждать, что правило (5.4.5) является точным для всех многочленов третьей степени. Чтобы найти погрешность (5.4.5), построим многочлен третьей сте- пени Р3(х), удовлетворяющий условиям P3(a)=f(a)_, P3(c)=f(c), P3'(c)=f'(c'), P3(b)=f(b). P3(x) интерполирует f (x) по двум однократным узлам а и b и одному двукратному узлу с: f(x)=P3(x)+r(x). Здесь г(х) есть остаток интерполирования. ь ь ь J f(x)dx= J Р3 (х) dx+ J г (х) dx. а а а Так как (5.4.5) точно для всякого многочлена третьей степени, то ь ь Jf(x)dx= [Р3(а)+4Р3(с)+Р3(6)] + Jr(x)dx= a G
§ 5.4. НЕКОТОРЫЕ ПРОСТЕЙШИЕ ПРАВИЛА НЬЮТОНА - КОТЕСА 435 Ь—а ~6~ ь [f(a)+4f(c)+f(Z>)]+Jr(x)dx а Ъ и f r(x)dx есть погрешность (5.4.5): а b R— j г (x)dx. а Предположим, что f имеет на [а, Ь] непрерывную производную чет- вертого порядка. Для остатка г(х) интерполирования тогда верно равен- ство вида (4.7.4}, которое в нашем случае будет таким: flv(g) и, стало быть, ь (х“а) (x-c^x-b^^dx. а Множитель (х—а) (х—с)2(х—-Ь) не меняет знака на [а, &]. Обычное в таких случаях рассуждение показывает, что на [а, Ь] существует точка т] такая, что верно равенство ъ fl=^IV(n) J(x-a)(x-C)2(x-&)dx. а После несложных вычислений для остатка получится /? = ——( )5fIV(n). 90' 2 ' 1 Разделим отрезок [а, &] на четное число п равных частей длины h= - а. Возьмем удвоенный частичный отрезок 1)А, а+(^+0^] и применим к нему правило парабол (5.4.5) с остатком a+(k+l)A J f(x')dx= — [fk-r]-4fh-[-fk+i] -[-Rk, [fk=f a+(k-l)h
436 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Применив это равенство к отрезкам [a, a-j-2h], [a-f-2/i, а+4/i], ... и сложив почленно результаты, построим общее правило парабол или правило Симпсона J ffx'jdx— [/о+/п+2(/г+/4+.. .+/п-г) + ОЛ1 Остаток 4*4 (/ 1+/з+- • (5.4.6) Так как R=- ™ A5 [fIV (m) +fIV (Т)з)+• • -+fIV (Пп-!) ]. и и 4 [fiv(ni)+...+fiv(nn-i)]=fiva)> где £ есть некоторая точка отрезка [а, 6], для R верно равенство *=-4o^',v® (5.4.7) 5.4.3. Правило «трех восьмых» При п=3 формула (5.3.3) приведет к ньютонову правилу «трех восьмых» + ++(<н-я) ] +*. О' О ' О J (5.4.8) H = b—a. Пусть п есть число, кратное трем. Вновь разделим [а, 6] на п равных b—а частей h= ——. Применив правило (5.4.8) к строенным отрезкам [а, а+ЗЛ], [а+3/i, а+6Л], ... и сложив результаты, получим общее пра- вило «трех восьмых», сходное с правилом Симпсона: J f(x)dx— — -— [ (/о+/п)+2(/з+/б+-. -+/п-з) + о п 4-3(fl+/2+f4+/5+- • •+fn-2+/n-i) ] (5.4.9)
§ 5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ 437 § 5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ Пусть в правиле численного интегрирования Р (*) f (*) dx& % Akf (Xk) (5.5.1) <а, b> есть любой конечный или бесконечный отрезок и весовая функ- ция р(х) такова, что ее произведение на любую неотрицательную сте- пень х абсолютно интегрируемо на <а, 6>: J |р.(х)хг‘|йх<оо (i^O). Кроме того, как всюду выше, будем считать р(х) не эквивалентной нулю: У Ip(x) I dx>0. Правило при фиксированном п содержит 2/г параметров х^ Аь и вы- брать их можно так, чтобы равенство (5.5.1) выполнялось точно для всех алгебраических многочленов степени не выше 2п—1 или, что равносиль- но, чтобы выполнялись равенства f If « р(х)х*(1х= AkXk (£=0, 1, ... , 2n—1). В каком случае и каким путем это может быть достигнуто, увидим ниже. 5.5.1. Построение правила и его единственность Выясним условия, при которых (5.5.1) точно выполняется для всех многочленов степени 2п—1. Нам удобнее иметь дело не с узлами х&, а с многочленом со(х) = = (х—%i) (х—-Хг).. .(х—хп). Знания Хь и многочлена со(х), очевидно, равносильны. Но если мы хотим нахождение Хк заменить нахождением со(х), мы обязаны будем показать, что корни со(х) действительны, раз- личны и принадлежат отрезку <а, Ь>.
438 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Теорема 1. Для того чтобы правило (5.5.1) было точным для всех многочленов степени не больше 2п—1, необходимо и достаточно выпол- нения условий: 1) правило (5.5.1) — интерполяционное:' ъ Ak= I* р(х) a (x-Xh)^(Xk) I (5.5.2) 2) многочлен со(х) ортогонален на <zat Ь> по весу р(х) ко всякому многочлену Q(x), степени меньшей п: ъ J p(x)co(x)Q(x)dx=0. а (5.5.3) Доказательство. Необходимость первого условия очевидна: если равенство (5.5.1) верно для всякого многочлена степени меньшей 2п, то оно верно для многочленов степени меньшей п и должно быть, по теореме 1 § 5.1, интерполяционным. Необходимость второго условия проверяется столь же просто. Пусть Q(x)—любой многочлен степени меньшей п. Положим f(х) = co(x)Q(x). Это есть многочлен, степень которого меньше 2п. Для него правило (5.5.1) должно быть точным. Но так как f(%fe)=0 (fe=l, 2, ... , п), правая часть (5.5.1) есть нуль и должно выполняться равенство (5.5.3), Докажем достаточность условий теоремы. Допустим, что f есть про- извольный многочлен степени меньшей 2п. Разделив f на со, можно пред- ставить f в форме f(x) =co(x)Q(x)+p(x), где степени Q(x) и р(х) меньше п. Кроме того, ввиду co(xft)=0, будет f (х^ = р(х^). ь ъ ъ Jp(x)f (x)dx= J p(x)co(x)Q(x)dx+ J p(x)p(x)dx. a a a Первый интеграл правой части равен нулю по второму условию и, так как по первому условию правило (5.5.1) интерполяционное, верно ра- венство ь Г п I p(x)p(x)dx= £ Akp(Xh). k=l а Но p(xft) =f (xh) и должно также быть верным равенство
§ 5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ 439 p(x')f(x')dx= Щ Akf(Xk) что доказывает достаточность условий теоремы. Доказанная теорема приводит вопрос о возможности построения ра- венства (5.5.1), точного для всяких многочленов степени меньшей 2п, к проблеме существования многочлена со(х), обладающего свойством ортогональности (5.5.3). Теорема 2. Если весовая функция р(х) не меняет знак на например остается неотрицательной, то существует и при этом единст- венный многочлен со(х) =хп-^-aixn . .-[-ап, ортогональный на <сц Ь> по весу р(х) ко всякому многочлену степени меньшей п. Доказательство. Будем искать многочлен со(х) в форме раз- ложения по степеням х, как указано в формулировке теоремы. Для опре- деления коэффициентов а^ ... , ап условия ортогональности дадут си- стему п уравнений [хп-\-а1Хп-1-\-.. .+nn]x^x=0 (/ = 0, 1, ... , п—1). Нам достаточно убедиться в том, что соответствующая однородная система [п1Хп-1+.. .+пп] х^х = 0 (f=0, 1, ... , п—1) имеет только нулевое решение, так как отсюда следует, что определитель рассматриваемой системы отличен от нуля и она имеет единственное решение. Если выписать подробно уравнения однородной системы для i = 0, 1, ... , n—1, умножить их последовательно на ап, an_if ... , а^ и сложить, получится равенство J Р(*) [Я1*п-1+« • -+^n]2 dx—0. Если бы многочлен aixn-1+. • -+nn не был бы тождественным нулем, он мог бы обращаться в нуль не больше чем в п—1 точках и равенство *
440 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Ъ не могло бы выполняться, так как р(х)^0 и / p(x)dx>0. Значит, а t?ixn+- • -+^n тождественно равняется нулю, все его коэффициенты аи ... , ап равны, следовательно, нулю и однородная система имеет толь- ко нулевое решение. Теорема 3. Если р(х) не меняет знак на Ь> и многочлен со(х) ортогонален на <а, Ь> по весу р(х) ко всякому многочлену Q(x), сте- пени меньше п, то все корни многочлена со(х) действительные, различные и лежат внутри <а, Ь>. Доказательство. Рассмотрим корни многочлена <о(х), которые лежат внутри <а,6> и имеют нечетную кратность. Пусть таких корней m и это есть g2, . . • , Нам достаточно показать, что m = n, так как отсюда следует, что никаких других корней у со (%) нет и все корни — простые. Допустим противоположное: ш<п и покажем, что это противоречит свойству ортогональности. Составим многочлен Р (^) ^1) • • • ‘ Его степень m меньше и, и для него должно выполняться равенство ъ J p(x)co(x)p(x)dx=O. Но сразу же видно, что это равенство не может быть выполнено, так как со(х) и р(х) имеют внутри <а, Ь> одинаковые точки перемены знака и произведение сор сохраняет знак на Ь>. Кроме того, со(х)р(х) обращается в нуль только в конечном числе точек, так как со и р отличны от тождественного нуля. Ввиду того что вес р(х) также сохраняет знак ъ на <za, Ь> и не эквивалентен нулю, интеграл J pcopdx должен быть от- а личен от нуля, а это противоречит предыдущему. Во всех предшествующих рассуждениях число п могло быть любым целым и положительным. Доказанные теоремы позволяют высказать следующее утверждение. Если вес р(х) сохраняет знак на <а, &>, то квадратурное правило (5.5.1), верное для многочленов степени не выше 2n—1, существует при всяких п=1, 2, ... и является единственным для каждого п. Осталось выяснить, будет ли 2п— 1 наивысшей возможной степенью точности. Ответ дает Теорема 4. Если р(х) сохраняет знак на <Za, Ь>, то ни при каком выборе хь и Ak равенство (5.5.1) не может'быть верным для всех много- членов степени 2п.
§ 5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ 441 Доказательство. Для проверки правильности утверждения достаточно построить многочлен, имеющий степень 2п, для которого (5.5.1) не может быть выполнено точно. Положим f (х) = сд2(х). Это есть положительный многочлен степени 2п. Для него ъ J pfdx=£O, а а сумма п п (%а) = Ё АкЫ2(хь) k=i fe=l равна нулю, так как ®(хк)=-0 (fe=l, 2, ... , и), и равенство (5.5.1) не может выполняться точно. Отсюда следует, что при знакопостоянной весовой функции р(х) сте- пень точности 2п—1 действительно является наивысшей возможной. 5.5.2. Два замечания о квадратурных коэффициентах Покажем, что в правиле наивысшей алгебраической степени точности, отвечающей'неотрицательной весовой функции р(х), все коэффициенты Ak положительны. Это утверждение есть следствие приводимой ниже теоремы. Теорема 5. Если р(х)^0 и квадратурное правило (5.5.1) верно для всех многочленов степени 2п—2, то все коэффициенты Ak в нем положи- тельны. Доказательство. Положим Это есть многочлен степени 2п—2 и для него равенство (5.5.1) должна быть верным. Но и, следовательно, Аг (5.5.4)
442 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Второе замечание о коэффициентах Ak касается способов их вычисле- ния. Для Ak было дано два явных выражения: (5.5.2) и (5.5.4). Можно указать иное выражение для Ak, более удобное для вычислений. Рассмот- рим систему ортогональных на Ь> по весу р(х) многочленов Pn(x)=anxn+bnxn-1+.:!.: (n=0, 1,...). Для определенности формул, положим их нормированными: ь JpP2ndx=l, ап>0. а Многочлен Рп(х) отличается от со(х) лишь численным множителем Рп(х)=ап(я(х). Корни Xk многочлена Рп(х) являются узлами квадра- турного правила, коэффициенты же Ak имеют следующее выражение через Рп'. ь л Г / \ Рп(х) , Ak~ J р(х) (x-xk)Pn' (xk)d Интеграл может быть просто вычислен, если воспользоваться извест- ным в теории ортогональных многочленов тождеством Дарбу — Крис- тоффеля.*) В нужной нам форме это соотношение может быть записано так: п—1 (Х-0 Pi (х) Pi (0 = [Рп (X) Рп_! (О +Рп-1 (X) Рп (t) ] . 1=0 п Положим здесь t=Xh и разделим обе части равенства на x—Xk: п—1 Умножим теперь обе части равенства на вес р(х) и проинтегрируем по 6>. Ввиду ортогональности между собой многочленов Pk(x) и нормированное™ их интеграл ь Pi (xft) J р (х) Pi (х) dx а *) См., например, Л. В. Гончаров. Теория интерполирования и приближения функций, гл. III, п° 40. М., 1954.
f 5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ 443 равен нулю при 1 и равен единице при /=0. ъ 1= Рп-1 (хь) f р(х) Рп^ dx= Рп' (xft)Pn-i(xft)4ft, (5.5.5) CIji X Xji dji ^n—i 1 Pn. (-^a) Pn—1 (-^й) Найденное выражение для Ah более удобно при вычислениях, так как не требует интегрирований. 5.5.3. Остаток квадратурного правила Теорема 6. Если р(х) сохраняет знак на Ь> и f имеет непрерыв- ную производную порядка 2п на <а, то существует такая точка bZ>, что для остатка ь Pn(f)= Jp(x)f(x)dx— Akf(xh) Й=1 a квадратурного правила наивысшей степени точности верно равенство ъ Рп (f)-= /(2n) (|) Jр (х) 0)2 (х) dx- (5-5-6) Доказательство. Рассмотрим интерполяционный многочлен Н(х) степени не выше 2п— 1, удовлетворяющий условиям H(xk)=Hxh), H'(xk)=f'(Xh). При сделанном предположении о непрерывности f<2n\ остаток интерполи- рования может быть представлен в форме где т] — некоторая точка отрезка, содержащего х и Xk (&=1Ъ... , и), и ъ ь ь $p(x)f (х) dx = J р (х) Н (х) с?х+ 1 J f<2n> (Т)) со2 (х) dx, а а (2п)!а
444 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Существование последнего интеграла следует из существования двух других. Так как квадратурное правило верно для всех многочленов сте- пени не выше 2п—1, то ь \ p(x)H(x)dx= AkH (Xk)= 2 Akf(Xk) fe=l fc=l a и остаток Rn(f) имеет, следовательно, значение ь Rn (f) = f f(2n) (n) P W (X) dx. Путем обычных рассуждений отсюда можно легко прийти к заклю- чению о существовании точки £ на <а, &>, для которой выполняется равенство (5.5.6). 5.5.4. Сходимость квадратурного процесса наивысшей степени точности Пусть весовая функция неотрицательна: р(х)^0. Квадратурное пра- вило наивысшей степени точности может быть построено для любого п=1, 2, ... Узлы и коэффициенты правила будут иметь свои значения для каждого п, и их мы будем обозначать Хь и Ah . ъ f п J p(x)f(x)dx= £ AZf(xZ)+Rn(f)=Qn(f)+Rn(f). k=l а Говорят, что квадратурный процесс сходится для f, если ь p(x)f(x)dx (n->oo). а Нашей задачей будет выяснить, для какого класса интегралов можно гарантировать сходимость квадратурного процесса наивысшей степени точности. Теорема, которую мы докажем сейчас, является частным слу- чаем более общей теоремы, доказываемой ниже — в параграфе о сходи- мости квадратурных процессов. Но доказательство, которое мы приведем сейчас, основано на простых и хорошо известных фактах математическо- го анализа и элементарно по ходу рассуждений, тогда как доказатель- ство более общей теоремы опирается на значительно более сложные све- дения из теории операторов.
§5.5. КВАДРАТУРНЫЕ ПРАВИЛА НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ 445 Теорема 7. Если р(х)^0, отрезок <Z&, Ь> конечный и замкнутый и функция f непрерывна на нем, то квадратурный процесс наивысшей степени точности сходится.' Доказательство, существует многочлен Р(х) ~Р(х)|<е. Ввиду непрерывности f, при всяком е>0 такой, что при любом хе [а, 6] будет |f(x) — ь п pfdx- % Affix? k=i b a Ho b f n \pPdx- £ A£ P(Xk) fe=i а b ‘ b J pfdx— I pPdx = Кроме того, так-как TO li=i [P(xftn)-f(xft")]|. b $p(f-P)dx a p n J p.\dx= Ak, b n nr | £ A? [P(xAn)-f(xAn)]|<e ^ЛАп=е| pdx. k=i k=i a Наконец, если m есть степень многочлена Р, то при 2n— 1 ъ \'pPdx= Ak P(Xk) и для таких п a a ь ъ г п )pfdx- £ A? f(x?) pdx, что доказывает теорему.
446 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 5.5.5. Замечание об интегрировании периодических функций Мы закончим настоящий параграф замечанием об интегрировании гладких периодических функций. Оно отчасти выходит за границы пара- графа, так как здесь речь будет идти о наивысшей тригонометрической, а не алгебраической степени точности. Пусть f(x) есть произвольная периодическая функция. Ее период 2л всегда можно считать приведенным к 2л. Рассмотрим интеграл f f(x)dx, о в котором весовая функция считается величиной постоянной, и для его вычисления будем строить правило вида 2л J f (x)dx^ Akf (xft), 0^хА<2л (fe=l, ... , и). (5.5.7) 4 k=i В курсах анализа доказывается, что всякую непрерывную 2л-перио- дическую функцию f можно равномерно и сколь угодно точно приблизить при помощи тригонометрического многочлена т Тт(х) =а0+ 2 (аь cos kx-\-bh sin kx). k=i Поэтому естественно стремиться параметры Ah и Xh выбрать так, чтобы правило (5.5.7) давало точный результат для многочленов Лп(х) воз- можно высокой степени. Можно просто проверить, что при любых Ah и Xh правило не может быть точным для всех тригонометрических многочленов степени п. Чтобы показать это, возьмем функцию п Т (х) = JJsin2 fe=i (х—Xh). Из равенства sin2— (х—xh) = — [1— cos(x—xft)] ясно, что T (х) есть тригонометрический многочлен степени п. Но для не- 2л' го правило (5.5.7) не может быть точным, так как f T(x)dx>0, п О a AhT(xk) =0, ввиду того что все Xh являются корнями многочлена k=t Т(х).
§ 5.6. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 447 Тригонометрическая степень точности правила (5.5.7) всегда мень- ше п и при помощи выбора Ah и хь ее можно надеяться сделать равной самое большее п—1. Как оказывается, наивысшая степень точности n—1 достигается квадратурной формулой с равными коэффициентами 2л « Ah= — (6=1, * *. , п) и равноотстоящими узлами. _ л , 2л Пусть а есть любое число, выполняющее неравенство 0^а<п= —. Рассмотрим точки Xi = a-\-ih (f=0, 1, ... , п—1). Они лежат на отрезке 0^х<2л> Примем их за узлы Хь и построим квадратурное правило 2Л J f(x)dx& о п (5.5.8) Убедимся в том, что оно является точным для всех тригонометрических многочленов степени п—1. Для этого достаточно проверить, что (5.5.8) точно выполняется для функций eintx (т=0, 1, . . . , n— 1). При т = 0 это, очевидно, верно. Для вычисления дают результаты: 2л f eimxdx= —— (eim2n— 1) =0, г im т gim[a+(k—i)h] := gim а gi(k—i)mh — k=i gimnh__j gim 2л_j — gim а____________ — gim а_____.____ gimh__| gimh__| что доказывает точное выполнение (5.5.8) и в этом случае. § 5.6. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ НАИВЫСШЕЙ АЛГЕБРАИЧЕСКОЙ СТЕПЕНИ ТОЧНОСТИ Ниже будут рассматриваться квадратурные правила, отвечающие весовым функциям, особенно часто встречающимся в приложениях. 5.6.1. Постоянная весовая функция Отрезок интегрирования [а, Ь] считается конечным, и интеграл бе рется в форме ь
448 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ где/(х) предполагается достаточно гладкой функцией. Интегралы такого типа особенно часто встречаются в приложениях. Соответствующее этому случаю правило было найдено Гауссом и носит его имя. Всякий конечный отрезок [а, Ь] линейной заменой переменной может быть преобразован в [—1, 1], и мы будем считать, что интеграл приведен к виду 1 §f(x)dx. (5.6.1) -1 Систему многочленов, ортогональную на [—1, 1] с весом р(х)==1, образуют, как известно, многочлены Лежандра 2"n! dx" (*2 1)П- В квадратурной, формуле с п узлами 1 р п f(x)dx« Akf(Xk), h=l (5.6.2) имеющей наивысшую степень точности 2п— 1, узлы Xk (k= 1, 2, ... , и) должны располагаться в корнях многочлена Лежандра степени п: РпМ =0 (6=1, 2, ... , п). Коэффициенты Ak могут быть вычислены, например, при помощи равен- ства вида (5.5.5). Напомним, что при записи этого равенства мы поль- зовались нормированными многочленами. Поэтому при применении его в нашем случае мы должны воспользоваться многочленами Рп (х) = 1/ 2П9+1 Рп (х). Старшие коэффициенты их имеют значение т/ 2п+1 (2га)! йп~ Г 2 2п(га!)2’ Несложные вычисления позволяют найти для Ak равенство . =__________2________ k~ nPn-l(Xk.)Pn'(XkY (5.6.3)
9 5. в. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 449 Оно может быть приведено к виду, несколько более удобному для вы- числений, если воспользоваться известным в теории многочленов Лежан- дра соотношением (1 —х2) Рп (х) = п [ Рп-1 (*) —хРп (*) ]. Положим здесь х=±хь: (1 —х2) Рп (xk) = пРп-1 (xft). Это равенство позволяет исключить одну из величин Рп' или Pn-i и при- вести (5.6.3), например, к виду А (5.6.4) Когда функция f имеет на [—1, 1] непрерывную производную поряд- ка 2/1, для нахождения погрешности гауссовой формулы (5.6.2) можно воспользоваться равенством (5.5.6). В нем мы должны положить р(х) = 1. Что же касается многочлена <о(х), то он может отличаться от Рп(х) только постоянным множителем и, так как старший коэффициент со(х) равен единице, а в Рп(х) он равен (2п)! 2п(м!)2 ’ то , . _ 2п(п!)2 _ . . ®<х)- ~(2п)! ' Рп * Кроме того, если принять во внимание, что 1 J P*dx = -1 2 2п+1 ’ из (5.5.6) для погрешности правила Гаусса получится 92П+1 г (»П2 -12
450 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Ь 5.6.2. Интегралы вида f (b—x)a(x—a)$f(x)dx а Как видно из записи интеграла, соответствующее ему правило пред- назначено для интегрирования функций, имеющих на концах отрезка [а, 6] степенные особенности, или когда заранее известно, что точки а и b являются нулями /, и известна также кратность этих нулей. Линейным преобразованием х= —(а-|-&)+ a)t отрезок [а, приводится к [—1, 1], и можно ограничиться рассмотрением интеграла 1 J (1—x)a(l+x)Pf(x)dx (a, P> — 1). -1 Системой многочленов, ортогональных на [—1, 1] по весу р(х) = (1—х)а(Ц-х)₽, является система многочленов Якоби г/ \ । /1 I \ о । i Г (ос Ц-р2/2-1“ 1) — [( —х)“ "( 4-х) п]= 2пп! г(а4-₽4-«4-1) При построении для рассматриваемого интеграла правила наивысшей степени точности 2n—1 1 J (1— x)a(l+x)PfAkf(Xk) (5.6.7) -1 мы должны в качестве узлов х& взять корни многочлена Якоби степени п: р<“’»(Xft.) =0 (k=\, 2, ... , п). Коэффициенты Ak могут быть найдены при помощи (5.5.5). Нормированные многочлены Якоби, как известно,*) есть Рпа'₽)(х) =бГ?/>п ,Э) (X), * • *> Г. С е г ё. Ортогональные многочлены. М., 1962.
| 6.6. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 451 где 2*+Р+1Г-(а4-п+1) Г (Р+^+1) (а+Р+2п+1)^! Г(а4“Р4“л4* 1) Старший коэффициент его П _.*-4 Г(а+р+2п+1) п п 2«п! Г(а+р+п+1) ‘ Несложные вычисления дадут для Ak значение __ (а+Р+2п)2а+Р Г(а+^)Г(Р+^) п\ Г(а+₽+«+ l)P(“’f)(A) [Р<«- ₽>(xft)]' Его можно упростить, если воспользоваться известным в теории много- членов Якоби равенством.*) (а+Р+2п)(1-х2)4^«“ %) = ал (а в) (а. 6) = —п[ (а4-р+2п)%4~Р—ос] Рп (я) +2(ос-рм) Pn-i (я). Положив здесь x=Xk, получим равенство (а+₽+2п) (1-Xfe) [РГ ₽)]'=2(а+п) (₽+«)Рп-®(%л), Л n(“- ₽) / X п(а- Р) / позволяющее исключить любую из величин Рп (xfe) или Pn-i (*ь т т Г>(а’ Р) / \ Л Например, если мы исключим Pn-i (А), то для Ak получится Дй = 2“+р+1 Г(а+п+1)Г(р+п+1)______ п! Г(а+₽+п+1) (l-хг ) [Р<“> ’ (5.6.7') Для построения остатка правила (5.6.7) можно, как и в случае гаус- сова правила, воспользоваться равенством (5.5.6). Старший коэффициент Р}?’® (х) указан в (5.6.6). Многочлен о(х) п (а- 3) связан с Рп равенством *> См. предыдущую сноску.
452 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 2пп! Г(а+Р+п+1) р(а, р) , х “W= Г(«+₽+2Я+1) W' Поэтому /? (П =f(2n)® [ 2”га!г(«+р+п+1) I2 *п(1) (2п)! L Г(а+р+2«+1) -1 А 1 X J (l-x)«(l+x)₽[^a’₽)(x)]2dx= -1 _ ^(2n)(g) 2a+P+2n+1n! Г(а+п+1)Г(Р+п+1)Г(а+₽+п+1) ~ (2п)! (a+p+2n+1) Г2(a+p+2n+1) Квадратурная формула (5.6.7) содержит произвольные параметры аир и является источником многих полезных частных случаев. Частным слу- чаем ее является квадратурное правило Гаусса, получающееся при а=р = 0. Рассмотрим еще частный случай, когда а=р = Весовая функция здесь будет р(х) = У1 —х2 ’ Многочлены Якоби °'5’ 0,5> (х) только численным множителем отлича- ются от многочленов Чебышева первого рода: Рп °’5’ ~°’5) (%) = СпТп (х) = Сп cos (п arccos х). Узлы квадратурного правила должны ' совпадать с нулями много- члена Тп: 2k—\ л х xfe=cos —----л (k= 1, 2, ... , п). 2п Коэффициенты Ak можно подсчитать при помощи (5.6.7х): п Тп =sin(n arccos х^) - -- Vl-x2 С1-^) [Р(;°'5--°>5>'(а)]2=с2п (1-х2й)Г2 (xft)=C2nn2,
| 5.e. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 453 Н H+-L) А п2Г (п) С2п п2 ' Правая часть последнего равенства не зависит от k, и все коэффи- циенты Ak будут одинаковы. Общую величину их обозначим А. Наиболее просто А можно найти, если воспользоваться тем, что квадратурная фор- мула должна быть точной для f=l: 1 п С dx л л Ak=nA= j — - - =л, А=—< k=i —i У1 Таким образом, квадратурное правило наивысшей степени точности с весом р(х) = - имеет вид У1 — х2 1 п J f(x) dx= 2L f ( cos ——L л) 4-tfn(f), (5.6.8) -i ]/l— x2 n h=i 2n Rn = -^2n)! рП) ® (-1 1) • В связи с этим П. Л. Чебышевым была поставлена задача о построе- нии правил приближенной квадратуры с равными коэффициентами с лю- бой весовой функцией р(х), в частности с постоянным весом. Эта задача будет рассматриваться в одном из следующих параграфов. Укажем еще на возможность приложения правила квадратур с весом Якоби (5.6.7) к задаче кратного численного интегрирования. Проблема вычисления кратных интегралов существенно отличается от случая простых интегралов. Если в однократном интеграле практиче- ски важная область интегрирования очень простая — ею является отре- зок, то для многократных интегралов область интегрирования может быть очень сложной. Это обстоятельство сильно затрудняет задачу по- строения правил интегрирования, и в одном из способов ее решения интегралы с весовой функцией Якоби могут оказать, как будет показано ниже, существенную помощь. Идея этого с достаточной полнотой может быть выяснена на примере двойного интеграла в декартовых коорди- натах y)dxdy.
454 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ • Если область интегрирования со обладает хорошо известными в кур- сах анализа геометрическими свойствами, вычисление двойного интег- рала может быть приведено к нахождению двух однократных интегралов У2(х) Ъ Р(Х)= $ f(x, y)dy, I=$-F(x)d», - УМ а где а> b зависят от формы области и имеют известные зна- чения. Выбор правила для вычисления I должен быть согласован со свой- ствами функции f, во-первых, и со свойствами области со, во-вторых. Сейчас . мы хотим выяснить вопрос о влиянии на выбор правила свойств со. Поэтому будем предполагать f достаточно гладкой всюду в со. В интеграле F(x) функция f(x, //), по нашему допущению, не имеет особенностей, и он может быть вычислен по одному из известных правил с постоянным весом для простых интегралов, например по правилу Гаус- са, Симпсона и др. Форма области со оказывает влияние только на гра- ницы интегрирования yi и у2. Отрезок [r/i, г/2] можно привести к канони- ческому, например [0, 1], подстановкой у = У\-\-{У2—у\)у] (О^т)^ 1). Тогда получим - 1 ^W = [f/2(x)— i/i(x>] J f{x, f/i(x) + [z/2(x) — У1(х)]г)}Л1= о = [i/2 (x) —1/1 (x) ] Ф (x) . Выделившийся при замене в интеграле ь ь J F(x)dx= J [f/2(л;) — i/i (х) ] Ф (х)dx а а (5.6.9) множитель —i/i(x) является естественной весовой функцией в (5.6.9). При вычислении (5.6.9) можно воспользоваться любым квадра- турным правилом, построенным для веса р(х) =у2(х)— у^х), например правилом наивысшей степени точности. Такой полный учет формы области, вероятно, не разумно делать, так как каждой области со будет отвечать свой вес р(х) и пришлось бы вы- числять большое число таблиц квадратурных узлов Xk и коэффициен- тов Аь Можно упростить задачу на основании следующих простых со- ображений. Рассмотрим две весовые функции р(х) и q(x), отличающиеся друг от друга достаточно гладким множителем р(х), не обращающимся в нуль на [а, 6]: q(x) =р(х)р(х).
j В.6. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 455 Можно ожидать, что квадратурные правила, соответствующие этим двум весам р(х) и <?(х), будут близкими по своей точности. Возвратимся к весовой функции Якоби q(x) = (x—a)^{b—х)а. Она зависит от двух показателей а и р, и их часто можно подобрать так, что- бы отношение //г(х)—гл(х) (asgx^ft) р(х) = (6—х)а(х—-а)Р было ограничено сверху и снизу положитель- ными числами 0<Cm^p(x) <оо. В этом случае для вычисления интеграла (5.6.9) мож- но воспользоваться весом q(x) = (£—х)аХ X (х—ар, преобразовав интеграл / к виду ь 1= J (&—х)а(х—а)Р T(x)dx, Чг(х)=р(х)Ф(х), а и известными таблицами х& и Ak для якобиева веса. Приведем пояснительный пример. Допустим, что область со имеет вид, изображенный на рис. 5.6.1, и ее контур X в точках А и В имеет с пря- мыми х=а и х=Ь соприкосновение первого порядка.*) В качестве д(х) можно тогда взять q(x) =У (6—х) (х—• а) и привести интеграл / к виду 1= J У(6—х) (х—a)4r(x)dx, Т(х) = [(&—х) (х—а)] 2F(x). а 5.6.3. Интегралы вида J x<*e-xf(x)dx о Ортогональными на полуоси [0, оо) по весу р(х) =хае~х (а> —1) являются многочлены Чебышева — Лягерра (а) П Ln (х) = (—1) пх~аех (ха+пе~х) =хп---------------- dxn 11 Хп~^.; a В квадратурном правиле наивысшей степени точности *) Говорят, что точка А является точкой соприкосновения первого порядка, если урав- нение контура X вблизи А можно записать в форме х = а+сг(у—Уо)2+с3(у—г/о)3+... , С2=/=0. Аналогично для точки В.
456 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ оо jxae~xf (х) dx= £ Akftxnj+Rntf) о ft==1 (5.6.10) узлами Xk должны служить корни многочлена (х) степени п: L^\xk)=0 (6=1, 2, ... , п). Для L(n\x) верно равенство оо f хае~х [L(n} (х)]2 dx=n\ Г(п+а4-1), о поэтому ортонормальными многочленами Чебышева—Лягерра будут (х) = [и! Г (n+а+1) ]" "2 L(n (х). Старшие коэффициенты их ап = [п! Г(п+а+1)] 2 и формула (5.5.5) для Ak дает значение Г(п)Г(п+а) А W(xft)L<«)_1 (xft) • Для многочленов Лягерра известно следующее соотношение: xLn(a) (х) =«£„“’ (х) +и («+а) L(“-i (х). Если в нем положить x=Xk, то получится равенство xhLn} (Xk) =n(n+a)Ln-i(xft), позволяющее найденное выражение Для Ац привести к виду л __ Г(и+1)Г(п+а+1) ха[£<“)'(ха)? ’
| в.в. НЕКОТОРЫЕ ЧАСТНЫЕ СЛУЧАИ КВАДРАТУРНЫХ ПРАВИЛ 457 Когда f имеет непрерывную производную порядка 2п на полуоси [О, оо), равенство (5.5.6) дает для остатка Rn(f) в (5.6.10) следующее Представление: Rn(f)= Г(П+1)/Г2(п^П+1) f(2n)(g), £е[0, оо). (5.6.11) 1.6.4. Интегралы вида f e~xZf(x)dx — оо Систему многочленов, ортогональных на оси —оо<х<;оо по весу е~х\ образуют многочлены Чебышева — Эрмита Яп(х) = (-1)пе«г dn dxn е~х1=2пхп—. В соответствующей квадратурной формуле наивысшей алгебраичес кой степени точности 2п—1 оо f п J e~x2f(x)dx= Ё Akf(xk)+Kn(f) fc=l —оо (5.6.12) узлы Xh должны быть корнями многочлена Нп\ Hn(xk)=0 (&=1, 2, ..., п). Так как оо J е~х2 Нп(x)dx—2nn\ ]/ л, —оо нормированными многочленами Чебышева — Эрмита являются 1 hn (х) = [2пп! Ул] 2 Нп (х). Старшие коэффициенты их есть п 1 ап = 22 [и! Ул] 2. Приняв, кроме того, во внимание соотношение Нп'(х) =2n/7n_i(x), при помощи (5.5.5) для Ah получим
458 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 2п+1п! У л h= (5.6.13) Наконец, при предположении существования у f непрерывной произ- водной порядка 2п на всей оси—оо<х<оо для остатка Rn(j), на осно- вании (5.5.6), получим <5614) § 5.7. КВАДРАТУРНЫЕ. ПРАВИЛ А НАИВЫСШЕЙ СТЕПЕНИ ТОЧНОСТИ, ИМЕЮЩИЕ ФИКСИРОВАННЫЕ ЗАРАНЕЕ УЗЛЫ 5.7.1. Некоторые общие теоремы При вычислениях нередко приходится иметь дело с интегралами, в которых заранее известны или легко вычисляются значения интегри- руемой функции в одной или нескольких точках. Примером может слу- жить интеграл, содержащий решение граничной задачи, когда значения функции на концах отрезка задаются заранее. Поэтому естественно строить квадратурные правила, которые позволяли бы учитывать эти известные значения, если не всегда, то., по крайней мере, в наиболее часто встречающихся и важных случаях. Рассмотрим правило квадратур вида ь р пт J р (х') f (х) dx л; Akf(xk)+ 2 h=l i=i a (5.7.1) содержащее m фиксированных узлов a2, ... , am. Формула содержит 2n-\-m параметров Ak, Xk (6=1, ... , п) и Bi (/= 1, ... , m). Выясним возможность такого выбора их, чтобы сделать равенство (5.7.1) точным для всевозможных алгебраических многочленов степени 2n-|-m—1. Напомним, что при любых Xk и сц только за счет выбора коэффициен- тов Ak и Bi равенство (5.7.1) можно сделать точным для всяких много- членов степени n+m—1. Для этого достаточно считать правило интер- поляционным. В нашем случае это означает, что его коэффициенты должны быть следующими: ь JpW <o(x)Q(x) (х—xft) ©' (хл) Q (*л) dx,
§ Б.7. КВАДРАТУРНЫЕ ПРАВИЛА, ИМЕЮЩИЕ ФИКСИРОВАННЫЕ УЗЛЫ 459 (5-7'2) (О (х) = (х—Xf) . . . (Х“~Хп) , Q (х) = (x—fli) . . . (х—ат) . После этого в нашем распоряжении останется еще выбор узлов Xk (6=1,..., л). Теорема 1. Для того чтобы правило (5.7.1) было точным для много- членов степени 2п-\-пг—1, необходимо и достаточно выполнение двух условий: 1) правило является интерполяционным, т. е. его коэффициенты Ak и В г имеют значения (5.7.2); 2) многочлен со(х) ортогонален на [a, ft] по весу p(x)Q(x) ко всякому многочлену Q (х) степени меньшей п: ъ J p(x)Q(x)co(x)Q(x)dx=0. (5.7.3) а Доказательство. Необходимость первого условия легко про- верить, так как если правило точно для многочленов степени 2п-\-т—1, то оно точно и для многочленов степени п-\-т— 1, а тогда по теореме 1 § 5.2, оно должно быть интерполяционным. Для доказательства необхо- димости второго условия достаточно положить f = co(x)Q(x)Q(x). Так как f есть многочлен степени не выше 2n-|-m—1, для него равенство (5.7.1) должно выполняться точно. Но, ввиду того что f обращается в нуль в точках Хь и аг-, правая часть (5.7.1) равна нулю и должно выпол- няться (5.7.3)/ Пусть f есть произвольный многочлен степени 2п-\-т—1. Если раз- делить f на coQ, его можно представить в форме f (х) = Q (х) со (х) Q (х) 4-г (х), где Q(x) и г(х) —многочлены степеней соответственно не больше п—1 и п+пг— 1. Очевидно, f(xft) =r(xft) и f (аг-) = г(Яг). Если выполняются условия 1 и 2, то будет верной следующая цепь точных равенств, доказывающая достаточность условий теоремы: п т п т — £ 4ftr(xft)+ £ В{г(а{)= £ Ahf(xk)+ fc=l i=l k=i i=i
460 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Построение правила (5.7.1), точного для многочленов степени 2n+m—1, приводится к нахождению многочлена о(х), удовлетворяю- щего условию ортогональности (5.7.3). Корни его Xk должны быть при- няты за узлы Xh правила. Желательно, чтобы корни принадлежали отрезку интегрирования [а, 6], так как правила квадратур с узлами, лежащими вне отрезка интегрирования, имеют сравнительно ограничен- ную область применения. * Допустим, что многочлен со(х), имеющий нужные нам свойства, суще- ствует и правило (5.7.1), точное для многочленов степени 2n4-/n—1, может быть построено. Получим одно из возможных представлений по- грешности правила. Выполним интерполирование f при помощи много- члена Н (х) степени 2п-\-т—1 по условиям Н(аг) =f (аг) (i= 1, 2, ... ,/п), H(xk) =f(xh), H'(xk)=f'(xk) (A= При предположении о существовании у f непрерывной производной порядка 2п-\-т остаток интерполирования r(x).=f(x)—Н(х) можно записать в виде г (х) = ю2 (х) Q (х) ——, /, Для погрешности /?(f) квадратуры верно равенство R (f) = R (Н) +R(r) и, так как R(H) =0, будет ь Г п т R(f)=R(r')= J prdx— £ Akr(Xk)— £ ВгГ(аг). h=i i=l Ввиду r(Xfe)=0 (A=l, , п) и г(йг)=о (i=l, ...,/п) для Rtf') получим ь £(f) = J p(x)r(x)dx= ь (2n+/n)! (5.7.4) Полученное выражение для R(f) позволяет просто решить вопрос о степени точности (5.7.1). Покажем, что если ь 1= J pQ(o2dx=#0,
9 Б.7. КВАДРАТУРНЫЕ ПРАВИЛА, ИМЕЮЩИЕ ФИКСИРОВАННЫЕ УЗЛЫ 451 то равенство (5.7.1) не может быть точным для многочленов степени 2п-\-т и, стало быть, степень точности его равна 2п-\-т—1. В самом деле, когда / есть многочлен степени 2n4~m, производная f(2n+™) будет величиной постоянной, не равной нулю. Для такого многочлена остаток /?(/) имеет значение (2n+m)! pQco2dx, а отличное от нуля, и равенство (5.7.1) не может быть точным. В исключительном случае, когда /=0, на рассмотрении которого мы не останавливаемся, степень точности правила больше 2п-\-т—1 и может быть указан признак для ее определения. 5.7.2. Некоторые частные квадратурные правила Рассмотрим частные случаи правил интегрирования с постоянной весовой функцией р(х) = 1 и одним или двумя фиксированными узлами, лежащими на концах отрезка интегрирования. Последний считается ко- нечным. Чтобы воспользоваться при вычислениях многочленами Якоби, будем считать этот отрезок приведенным к [—1, 1]. Полагая т=1, возь- мем квадратурную формулу вида 1 J f(x)dx=Af(-l) + ZAkf(xk)+K(f). (5.7.5) , k=l Здесь Q(x) = 14-x. Вспомогательная весовая функция, участвующая в условии ортогональности (5.7.3): р (х) =р (х) Q (х) = 14-х положительна внутри [—1, 1]. Многочлен со(х) существует при всяких значениях п= 1, 2, ... Он ортогонален на [—1, 1] по весу р(х) = 14-х ко всякому многочлену меньшей степени и может, следовательно, отличаться от многочлена Якоби Р(п 1}(х) лишь численным множителем, равным обрат- ной величине старшего коэффициента, со(х) = 2пп[ Г(п4-2) Г(2п4-2) (х). Наивысшая степень точности формулы (5.7.5) равна 2п. Она дости- гается, если в качестве узлов Xk взять корни многочлена Рп’(х) и коэф- фициенты определить при помощи равенств (5.7.2), которые в рассмат- риваемом случае принимают вид:
462 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 1 Ak= -гт— J (1 +х) ~1----t \ dx (^=1 > (X—Хй)(О (х&) 1 <0, 1) f (0, 1) А=[Рп (-l)]-ijPn (x)dx. -i Оба интеграла могут быть без больших затруднений вычислены при по- мощи известных фактов теории многочленов Якоби, на которых мы не останавливаемся, и окончательно получится Ah (i4-xft)(i-x2)[^.‘>'(xft)]2’ (57,6) А= % («+1)2‘ Остаток может быть найден при помощи общей формулы (5.7.4): R(f} = -(2п+1)!' | (’+x)®2(x)f(2n+1)(l)dx- Так как ядро интеграла (1+х)со2(х) сохраняет знак на [—1, 1], на этом отрезке найдется такая точка т), что будет верным равенство 1 f(2n+l)Г *(/)= J(2n-H)! j (X+x>^dx= f&n+i) (2»4-l)l Г 2nra!(n+l)! L (2n-H)! П a+wr -1 (x) ]2 dx= 2 Г 2пп!(п+1)! I2 f<2"+1)(ri) «4-1 * (2«4-l)! -» (2«4-l)! (- 1<T]<1). (5.7.7) Случай фиксированного узла в точке 1.и соответствующей ему фор- мулы 1 Р п J f(x)dx= 2 AkKXk)+Af(X)+R(J) k=l
$ 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 463 приводится к (5.7.5) заменой х на — х и рассматриваться отдельно не будет. Остановимся еще на правиле интегрирования с двумя фиксирован- ными узлами в точках —1 и 1: 1 Г п f(x)dx=Af(-l) + £ Xhf(xA)+Bf(l)+S(f). л k=i (5.7.8) Здесь Q(x) = l—%2. Вспомогательная весовая функция р(х) =p(x)Q(x) = 1— х2 положительна на (—1, 1), и многочлен <о(х) существует при всяком п. Он ортогонален на [—1, 1] по весу 1—х2 ко всякому многочлену низшей степени и отличается от якобиева многочлена Рп'(%) жителем постоянным мно- со(х) = 2пп\ Г (п+3) Г(2п+3) Рп П (х). Наивысшая степень точности (5.7.8) равна 2п+1. Она достигается, если за Xk принять корни Рп’А) (х) и коэффициенты Ak, А, В вычислить согласно (5.7.2). Расчеты дадут для коэффициентов и остатка значения: Лй-8‘ п+2' (1- х*) [Р«. ‘>'(xft)]2 ’ А В (п+1)(п+2)’ р/п— 8 (п+1) Г 2”п!(п+2)! 12^+2)^) (2п+3)(п+2) L (2п+2)! J (2п+2)! (—1<П<1). (5.7.9) § 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 5.8.1. Построение формул Чебышева. Существование и единственность Правила приближенного интегрирования, все коэффициенты которых одинаковы: ь f р (х) f (х) dx « Сп £ Ка), (5.8.1) Й=1 а весьма удобны при графических расчетах, так как сумму ординат легко можно снять с чертежа при помощи простых измерительных приборов, таких, например, как длинномер.
464 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ (5.8.1) содержит п+1 параметров Сп и хн (А=1, 2, ... , и). Их мож- но пытаться выбрать так, чтобы равенство выполнялось точно для всех многочленов степени п, что равносильно выполнению равенств ь J p(x')xidx=Cn Xk (i=0, 1,...» и). (5.8.2) Правила интегрирования, обладающие этим свойством, называются формулами Чебышева. Мы увидим сейчас, что при выполнении одного естественного условия формула Чебышева может быть построена и при этом единственным образом. Условие точного выполнения (5.8.1) для /н=1 доставит уравнение для нахождения Сп: ь ь J p(x')dx=Cn-n, Сп= — J p(x)dx. а а Случай Сп = 0, очевидно, является особенным и интереса не представ- ь ляет. Всюду ниже мы будем поэтому считать J p(x)dx=#0. а Если потребовать, чтобы (5.8.1) выполнялось точно для f=x, %2, ... , хп, получим для нахождения Xk систему уравнений ь Si =Xi -j-X2 +•. .-j-xn = C~i I pxdx=C~iHi, fl V llr a b S2 =x\ +*2 +.. ,+x2=C;‘J a (5.8.3) ь Sn=x”+x”+.. .+x« = C;‘J pxMx=C-‘p.n. a Нам удобнее искать не узлы х& (6=1, 2, ... , п), а многочлен ©(х), для которого они будут простыми корнями: <в(х) = (х—Х1) (х—Х2). . . (х—Хп) =Хп+Л1Хп-1+ +АгХп-2+. • -+Ап. (5.8.4)
§ 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 465 Коэффициенты его Ап являются хорошо известными элементарными симметрическими функциями корней хп. Левые части равенств (5.8.3) si, S2,..., sn также есть симметрические функции Хп, справа же стоят их значения. В алгебре известны соотноше- ния между Ai и Sj\ *) 514“А1 = 0, S2+A<$l + 2A2=0, S3 -}-А i<$2“f“ A 2$i -j- ЗА з=О, (5.8.5) 5п+Л15п-1+Л25п-2+- • .Н“ЯЛП— 0. Они позволяют по известным значениям si, S2, ... , sn найти последо- вательно и при этом единственным образом Ль Л2, ... , Лп. По коэффи- циентам Ап мы можем построить со(х) и, решив уравнение со(х)=0, найти узлы Хп правила интегрирования. При этом может оказаться, что некоторые хп будут комплексными. Из проведенных рассуждений следует *) Логарифмическая производная от со(х) дает равенство со'(х) 1 со(х) X—Xi' Когда |x|>|xJ дробь-------может быть разложена в степенной ряд вида X—Xi 00 v = o Если же | х | > | Хг | (i = 1, 2, ... , п), будет верным разложение <«/(х) (0(х) v . . V $V = X1 -j-.. .~^-хп. После умножения на со(х) =xn+Aixn-i-j-... отсюда получится cd'(x) =nxn-1+(n—l)Aixn-2+.. .+Лп-1= (xn-j-Alxn-iA-. . .-Мп) v=o Сравнение здесь коэффициентов при хп~2, хп~3, ... , х-1 приведет к соотношениям (5.8.5).
466 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Теорема 1. Если f p^dx^O, формула (5.8.1) с действительными или комплексными узлами хь всегда может быть построена и при этом единственным способом. Когда среди Xk существуют комплексные, правило (5.8.1) будет иметь ограниченное значение и может оказаться полезным лишь при интегри- ровании аналитических функций f, регулярных в области, охватывающей отрезок [а, Ь] и достаточно широкой. Поэтому одной из задач теории формул Чебышева является нахожде- ние тех случаев, когда все узлы Xk будут действительными. Правило (5.6.8) интегрирования с весом р(х) = — -- дает пример, У1— х2 когда формула Чебышева *) имеет только действительные узлы при всяких п. Были сделаны попытки строить формулы Чебышева для других весо- вых функций, но вычисления каждый раз показывали, что, начиная с некоторого значения /г, среди узлов хь будут существовать комплек- сные. Лишь сравнительно недавно были найдены весовые функции, для которых правило Чебышева (5.8.2) с действительными Хь может быть построено при всяких /г, или для бесконечного числа значений п. 5.8.2. Случай постоянного веса р(х) = 1 Отрезок интегрирования будем считать приведенным к [—1, 1] и рас- смотрим формулу f (х) dx ж Сп f (xft). k=l (5.8.6) Сп и Xk нужно выбрать так, чтобы равенство было точным для степеней х от нулевой до п. Коэффициент Сп определится из условия, чтобы фор- мула давала точный результат для /ее=1: J xkdx= - [1—-(— уравнения (5.8.3) для определе- ния Xk здесь будут *> Правило (5.6.8) является точным, когда f есть произвольный многочлен степени 2n—1, а не только степени п, как это требуется для формулы Чебышева.
| 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 467 Si =Xi -|-Х2 +• ; .4-Хп = 0, Они дают значения симметрических функций Sk и позволяют при помощи соотношений (5.8.5) построить систему уравнений для коэффициентов Ah многочлена ш(х): Л = 0, — +2X2=0, Хз=0, ——|- — /12+4X4=0, о о х5=о, п , п л , п л , „ л . „ — + — Х2+ — Х4+бХ6=0, /О о Х? = 0, (5.8.8) Так как Хд с нечетными индексами k равны нулю, в многочлене со(х) сохраняются только либо одни четные, либо одни нечетные степени х: со(х) =хп+Х2хл“2+Х4хп-4+. .. Корни со(х), я-вляющиеся узлами правила (5.8.6), будут располагать- ся симметрично относительно нуля оси х. При нечетном п один из корней хь будет равен нулю. При четном п, кроме уравнений (5.8.7), ввиду симметрии расположе- ния Xk относительно нуля оси х, будет выполняться также равенство Sn+1=х”+1+х”+1+.. .+х"+1 = 0 X 6л Т1 и правило (5.8.6) будет точным для многочленов степени п+1, а не толь- ко степени п, как предусматривается в постановке задачи. Рассмотрим несколько частных случаев. Прип=1 со(х)=х, Xi = 0, G = 2, 1 J f (х) dx 2f (0). -1
468 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Это есть правило прямоугольников с высотой, равной ординате в средней точке. При/1 = 2 со(х)=х2 —, Xi =--------—, х2= —С2=1, з уз уз 1 J f(x)dx«f (-4-) +f( -^) . -i уз уз Правило выполняется точно для многочленов третьей степени и совпа- дает с формулой Ньютона для двух узлов. 11 12 При п=3 <о(х)=х3--х, Xi =-—, х2=0, х3= —С3= —, 2 У2 У2 3 1 J f (x)dx^ а р (_ _L) +f(0)+f (-Ц1. Л 3 L ' У2 ' ' У2 ' J Приведем еще таблицу узлов формулы Чебышева для п=1 (1)7,9. п=1 Xi=0 п=2 Хг=—Xi=0,57735 02691 п=3 Хз=— Xi=0,70710 67812 х2=0 п=4 x4=—xt=0,79465 44723 х3=—х2=0,18759 24741 п=5 x5=—Xi=0,83249 74870 х4= — х2=0,37454 14096 х3=0 п=6 х6=—Xi=0,86624 68181 х5=—х2=0,42251 86538 х4=—хз=0,26663 54015 п=7 x7=—xi=0,88386 17008 х6=— х2=0,52965 67753 х5=—х3=0,32391 18105 х4=0 п=9 х9=—Xi=0,91158 93007 х8=—х2=0,60101 86554 х7=—х3=0,52876 17831 х6=—х4=0,16790 61842 х5=0
§ 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 469 При п = 8, как показали вычисления, среди Xk будут два комплёксных. Расчеты были сделаны для нескольких п>9, но каждый раз оказы- валось, что некоторые узлы хь являются комплексными. В общем виде вопрос о возможности или невозможности построения правила Чебы- шева с действительными узлами для п>9 был решен в тридцатых годах текущего столетия С. Н. Бернштейном, показавшим, что при всяких п>9 среди узлов Чебышева будут комплексные. Мы приведем доказательство теоремы Бернштейна, сохраняя порядок его рассужде- ний, но внеся в них некоторые упрощения. Докажем сначала несколько простых лемм: Лемма 1. Допустим, что правило интегрирования 1 71 (5.8.9) имеет действительные узлы Xi<x2<Z ... <хп и является точным для всякого много- члена степени 2m—1, где пг<п. Обозначим наибольший корень многочлена Лежандра Рт(х) степени т. Тогда хп>Ъ>т- Рт (х) Доказательство. Положим f ------------ X т—1, и он поэтому ортогонален к Рт(х)-. Рт (х) -------есть многочлен степени X—1т Рт (х) dx = 0. f(x) есть многочлен степени 2т— 1, для него равенство (5.8.9) должно быть точным и, стало быть, п k = l Нулями f(x) являются корни многочлена Рт(х]. Их т штук и, так как m<zn, не все слагаемые f(Xk) (6=1, ... , п) равны нулю. Среди них должны быть как положи- тельные, так и отрицательные. Но f(x) принимает положительные значения при x>gm и отрицательные при х<£т. Значит, для наибольшего узла непременно должно быть Хп ^т- Рассмотрим гауссово правило интегрирования с т узлами т f(x)dx^ £ (5.8.10) 0, А( (1_g2)[/Va<)]2 (i=l, 2, ... , m).
470 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Лемма 2. Если равенство (5.8.9) верно для всяких многочленов степени 2m— 1 (щ<п), то Ат> —. (5.8.11) п Доказательство. Положим f есть многочлен степени 2т—2, обращающийся в единицу в узле gm и в нуль в прочих узлах gi (г<щ). Квадратурная сумма Гаусса для f приводится к одному слагаемому A-mf (gm) ===И m * 1. 1 Правила (5.8.10) й (5.8.9) для / должны дать точное значение J fdx, л поэтому -1 f(xk)=A Так как f (х) ^0 при всяких х, отсюда следует 2 f(Xn) ^•Дт» П (5.8.12) Но из равенства f(4=[^'(g-)]-2(X-gl)2 ... (АГ-gm-l)2 видно, что f(x) монотонно возрастает при x^g m> И, ВВИДУ Xn^>gyn, будет f (xn) Z>f (gm) — 1. Отсюда и из (5.8.12) следует утверждение леммы. Чтобы воспользоваться неравенством (5.8.11), нужно оценить ______. 2________ (1-F )[Pm'(U)P ’ m для чего нам потребуется установить вспомогательные неравенства для gm и Рт'(gm). Лемма 3. При любом значении т для наибольшего корня g7n многочлена Лежандра Рт(х) верно неравенство 1 —£т 3 zn(/n-H) ’ (5 8.13) Доказательство. Воспользуемся дифференциальным уравнением для Рт(х): d — [{i-x2)Pm'(x)]±m(m-]-l)Pm(x) =0. dx
§ 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 471 После интегрирования его от gm до 1 найдем 1 (l-fm)Prn'(^)=m(m+l) J Pm(x)dx. Если разложить Рт(х) в ряд Тейлора по степеням х— и выполнить почленное интегрирование, получим т 2 Х.4! (1—gm)Pm'(gm) =tn(m+\) i = 1 (1-U)i+1 («+1)1 Pm (gm). Корни многочлена Pm(x) действительные, простые и лежат внутри отрезка [—1, 1]. По теореме Ролля, между каждыми двумя корнями gi, gi+i многочлена Рт лежит корень многочлена Рт'(х). Стало быть, все корни Рт' являются простыми и лежат левее gm. Аналогично, все корни Рт" являются простыми и лежат левее gm и т. д. Поэтому (г) Pm (gm)>0 (t = l, 2, ...» /и) и все слагаемые в сумме последнего равенства поло- жительны. Сохраним в сумме два первых члена и отбросим остальные, кроме того, сократим обе части на положительный множитель 1—gm: (l+gm)An'(U) >/П(/и+1) Г (l-gm)Pm'(U)+ 4" (1 ~gm) 2Рт" (gm) 1 . А О J Pm" (gm) найдем из уравнения (1 -х2) Рт"-2хРт'+т (т+ 1)Рт = 0, положив в нем x = gm: Рт"(1т)=-^—Рт'(М- 1-^т Подставим это значение в неравенство и сократим обе части на Рт'(%™)' tn Усилим неравенство, заменив l+gm в знаменателе последнего члена правой части на большую величину 2: г 1 1 1 l+grn>/n(m+l) I— (l-gm)+ — U(l+gm) L L 2 6 J
Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Отсюда, обозначив для сокращения щ(/п+1)=А, получим: Ag^+2(3+A)gm+6-ЗА>0. (5.8.14) Чтобы решить это неравенство, достаточно рассмотреть квадратное уравнение Az2+2(3+A)z4-6-3A=0. ± У4А2+9—3—А z=-------------- А Для нас имеет интерес лишь положительный корень z. Если gm удовлетворяет неравен- ству (5.8.14), то gm больше z: У4А2+9-3-А 2А-3-А 3 3 gm>--------------->----------= 1-----= 1----------. A A A m(m+l) Лемма 3 доказана. Лемма 4. Для значения ^производной многочлена Лежандра в наибольшем корне х=%т выполняется неравенство 2 Г t Г(лп4-4) 3(l-gm) L 288Г(/п—2) (5.8.15) Доказательство. Построим соотношение между gm и Pm'(gm.), которое для нас будет исходным. Запишем формулу Тейлора для Рт(х) с остатком в виде интеграла: X т Положим Х=1 И ВСПОМНИМ, ЧТО Рт(1)=1: 1 1=Рт'(§т)(1-5те)+-1-Р;(5го)(1-5т)’4-^-f (5.8.16) При доказательстве леммы 3 мы обращали внимание на то, что корни всех производных Р<<)(х) (i=l, 2, ... , т— 1) лежат левее gm. В частности, это верно для Р"'(х) и Р"'(х) будет монотонной возрастающей функцией на [gm^ 1], достигающей своего наибольшего значения в точке х=1. Значение Pz"(l) можно при помощи несложных вычислений най- т ти, если воспользоваться дифференциальным уравнением (1 —х2) Рт" (х) —2хРт' (х) +т (т+1) Рт (х) = О
§ 5.8. КВАДРАТУРНЫЕ ПРАВИЛА С РАВНЫМИ КОЭФФИЦИЕНТАМИ 473 и дважды его дифференцировать: Г (/п+4) 48 Г (/п—2) Если в (5.8.16) заменить Р" (gm) ее значением, указанным выше, и Р'" (t) —боль- шей величиной Р'"(1), получим неравенство т Рт/(Втп) (1 fem) Г(т+4) (1-gm)3 48Г(/и—2) 6 Так как-------< —, отсюда сразу получаем (5.8.15). 1+Ет 2 На основании лемм 3 и 4 может быть построена нужная оценка для (1-[/V(U)]1 2 ‘ Рт'(£т) заменим меньшей величиной из (5.8.15): 9(1-U) Г г Г(т+4) 2(1+U) L 288Г(/п—2) Для наших целей достаточна более грубая оценка. возрастает при увеличении т. Будем рассматривать т^6 и, так как £в = 0,93246 .... , мы можем считать 1+£т>1,93. 3 . Далее, заменим везде 1—|т большим числом-----------. т(Ап+1), Наконец, оценим величину, стоящую в квадратных скобках: (/п+3) (гп—2) =т(т+1)— 6</п(/п+1), (/п+2) (/п—1) = /п(/п+1)—2</п(/п+1), Г(/п+4) 288 Г (/п-2) /П3(/п+1)3 288 З3 29 /п3(/п+1)3 32’ 27-322 1 _ 8,517 2-1,93-292 /п(/п+1) ~ /п(/п+1) ’ (5.8.17) Теорема 2. При п^Ю в правиле Чебышева (5.8.6) среди узлов х& есть комплексные. Доказательство. Будем рассматривать такие значения п, при которых в пра- виле Чебышева (5.8.9) все узлы х& действительные. Предположим, что п есть число нечетное: 1 1 п = 2т— 1, т=— (n+i), /п(/п+1)=— (п+1) (п+3).
474 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Для Ат должно выполняться неравенство 4-8,517 (п+1) (п+3) ' Ввиду леммы 2, должно также быть или 4-8,517 2 (п+1) (п+3) > п п2-13,034п+3<0; п<13. Следовательно, при п^13 в правиле Чебышева не все Xk являются действительными. Для и=11 все Xk также не могут быть действительными, так как тогда т = 6, 4е = 2 2 = 0,173 ...» — =0,1818 и неравенство — <Дб не выполняется. Пусть п — четное. Правило Чебышева (5.8.6) будет точным для многочленов сте- пени п+1. Положим 1 п+1 = 2m— 1, т= — (п+2). Согласно (5.8.11) и (5.8.17), должно быть 4-8,517 2 (п+2) (п+4) > п и п<11. Стало быть, для четных п>10 среди узлов Чебышева есть комплексные. При п=10 это 2 также верно, так как неравенство Дб = 0,173 ...> — =0,2 не выполняется. § 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ. ФОРМУЛЫ ЭЙЛЕРОВА вида 5.9.1. Введение Выберем какое-либо определенное квадратурное правило и рассмот- рим его остаток ь R(f) = f p(x)f (x)dx— Akf(Xk). fc=l a Численное значение его зависит от двух фактов: от свойств интегрируе- мой функции f и от свойств избранного правила. Поэтому в задаче уменьшения погрешности вычисления интеграла можно наметить два направления. 1. Правила приближенных квадратур, о которых говорилось выше, были построены при помощи замены интегрируемой функции f алгебраи-
§ 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 475 ческим многочленом и рассчитаны, следовательно, на интегрирование функций, имеющих тот или иной порядок гладкости. Так, например, по- грешность правила Гаусса с п узлами зависит от того, насколько точно f может быть на всем отрезке Ь> приближена многочленом степени 2п—1. Аналогично, погрешность правила трапеций (5.4.3) зависит от того, как сильно на каждом частичном отрезке \a-\-kh, a+(A+l)/i] гра- фик f будет отличаться от прямолинейной хорды, соединяющей концы соответствующего участка графика. Если функция f в недостаточной степени обладает теми свойствами, при которых можно ожидать хорошей точности результата, например будет разрывной или непрерывной, но имеющей разрывную первую про- изводную, она не может быть хорошо приближена многочленом невысо- кой степени, и тогда трудно ожидать малой погрешности R(f) при ее приближенном интегрировании. Иногда большое значение погрешности можно получить при интегрировании аналитических функций, если их особенности лежат вблизи отрезка &>. В этих случаях полезно перед интегрированием предварительно преобразовать функцию f так, чтобы устранить или ослабить те ее свойства, которые могут вызвать большие значения R (f). Нередко можно значительно увеличить точность вычисления, если выделить из f «особую часть» путем разложения f на два слагаемых f = fi+f2 так, чтобы fi содержала «все» особенности f или «главную часть» особенностей. Кроме того, fi должна быть такой, чтобы интеграл ъ f pfidx вычислялся точно. Второе же слагаемое /и либо совсем не должно а иметь особенностей, либо его особенности должны быть настолько слабее ь особенностей f, чтобы интеграл f pfzdx мог быть вычислен при помощи а взятого правила приближенной квадратуры с достаточной точностью. Некоторые способы выделения и ослабления особенностей функций бу- дут рассмотрены в следующем параграфе. 2. Рассмотрим ту часть погрешности, которая вызвана недостаточ- ной точностью избранного правила. Чтобы увел-ичить точность правила, п нужно к квадратурной сумме 2S Akf(Xk) добавить дополнительное сла- k=i гаемое и выбрать его так, чтобы оно являлось главной частью остатка R(f). От него мы должны потребовать вычислимости и достаточной простоты. Один из методов выделения главной части из Я (f), приводящий к естественному обобщению формулы Эйлера — Маклорена, будет изло- жен в следующем пункте. Пусть новый член квадратурного правила найден. Если добавление его к квадратурной сумме исправит ранее найденный результат до нуж- ной точности, на этом улучшение правила можно закончить. Если же
476 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ нужная точность не будет достигнута, то следует найти остаток улучшен- ного правила и выделить из него в свою очередь главную часть и т. д. В различных задачах приходится выделять разное число главных частей и при построении теории уточнения правил мы должны преду- смотреть разложение /?(/) в ряд, состоящий из главных частей возрас- тающих порядков, и найти остаток, получающийся после выделения из R(f) любого конечного числа членов такого разложения. 5.9.2. Правила эйлерова вида Рассмотрим квадратурное правило ь р п I p(x)f(x)dx= Akf(xk)+R(f) k=i а (5.9.1) и предположим, что оно имеет степень точности т—1. Отрезок интегри- рования [а, 6] считается конечным. Остаток R (f), если воспользоваться тейлоровым разложением функции т—1 г=1 Ъ f«(a) + J №(t)E(x—/) а и внести его в равенство ь R(f) = п pfdx— Akf(xk), к=1 как это мы делали в конце § 5.2, можно представить в форме, достаточно удобной для наших целей: ъ а (5.9.2) Ъ п Способы выделения из /?(/) главной части тесно связаны со свой- ствами ядра K(t). Если значения ядра в какой-то мере равномерно рас- пределены вдоль всего отрезка [а, Ь] и ядро не сильно изменяется, то на образование R(f) наибольшее влияние будет оказывать среднее зна-
$ 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 477 чение ядра. Чтобы пояснить эту мысль примером, возьмем общую фор- мулу трапеции (5.4.3). Она получена путем деления отрезка [а, 6] на некоторое число одинаковых частей «малой длины» h и применения к каждой части элементарного правила трапеций (5.4.1). Формула верна для линейной функции и остаток ее выражается через вторую производ- ную f". Совершенно ясно, что если для остатка формулы (5.4.3) написать интегральное представление типа (5.9.2), оно будет иметь форму ь а и ядро /С(/) его будет на [а, Ь] периодической функцией с «малым перио- дом» h. Оно будет обладать указанным выше свойством. Аналогичное можно сказать об общих правилах парабол (5.4.6) и «трех восьмых» (5.4.9), так же как о всяком другом правиле прибли- женного интегрирования, основанном на делении [а, 6] на «малые час- ти», применении к каждой части какого-либо одного и того же правила и последующем сложении результатов. Полученные ниже результаты верны для всякого квадратурного пра- вила (5.9.1). Наглядные соображения, которые были приведены выше, позволяют лишь предвидеть, для каких правил полученные формулы могут дать хорошие результаты при применении их для улучшения точ- ности вычисления интеграла. Для выделения из /?(/) (5.9.2) главной части достаточно положить ъ Ct=(b-d)-^ K(f)dt, ВД = Со+[7<(/)-Со], а Ъ b R (j) = Со J (t) dt- J f^> (/) [Co-K(O ] dt= Co [p”-1) (6) (a) ] 4- a a b t + J(/)/,!(0^, L1(O = J [Co-K(x)]dx. a a При получении последней части системы равенств в интеграле ъ J^(m) [C0^K]dt a , ч было выполнено интегрирование по частям.
478 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Из интеграла ь J а в свою очередь может быть выделена главная часть и т. д. После's-кратного выделения из остатка главных частей получим для улучшения точности формулы (5.9.1) следующее правило эйлерова вида: ь Jp(x')f(x')dx= Akf(xh)+C0[f(m~v(b')— . .-f- a ft=1 + G-i [f(»+*-2) (6)-f(m+s-2) f (5.9.3) b t Ci= (b—a)-* JLi(f)dt, Li+i(t) = J [Cf—Li(x)]dx, L0(C)=K(t), a a b Rs (f) = J f(m+s) (/) Ls(f) dt. (5.9.4) Исходное правило (5.9.1) было, по предположению, точным для много- п членов степени т— 1. Если к квадратурной сумме Akf(Xk) прибавить fe=i слагаемое Со[^т~1}(Ь)—f(m-1)(a)], получится правило, верное для много- членов степени т, добавление еще второго слагаемого Ci[f(m)(6.) —f(m)(a)] сделает правило верным для многочленов степени т-}-1 и т. д. Формулы (5.9.4) позволяют находить последовательно Ci и Li(t). Можно построить их выражения непосредственно через ядро К(f). Для этого в интегральном выражении (5.9.2) для /((/) заменим ее разложением по многочленам Бернулли *) [добавление II, (11.21)] ь f(m)(/) = (fe_a)-l J f(m)(x}dx+ а *) Здесь Bi(x) есть многочлен Бернулли степени i и Bi*(x) есть 1-периодическая функция, совпадающая с Вг(х) на промежутке 0^х<1.
| Б.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 479 t—X \ b—a ' —в* S t—a Ь—а )] dx. Это.приведет к равенству ь ь п /• p(x)f(x)dx= £ Лл/(хй) + (&-а)-‘ I+ h=l а b b (h_oV-1 Г Г Г / t____X \ I 1 ’ K(f) №+‘)(x) B* -L--------- —B*\ s! J > J ' ' > L s \ ь—а ' s' a a t—a \‘ b—a ' - dxdt. Оно должно совпадать с (5.9.3) для всякой функции /, имеющей на [а, Ь] непрерывную производную порядка m+s, что может быть только в том случае, когда будут одинаковыми коэффициенты при — —f(rn+i-i)(aj (i=l, 2, ... , 5—1) и множители при f(m>(/) в интегральных выражениях для остаточных членов: Сделаем добавление к полученному результату. Из сравнения выраже- ния (5.9.5) для Ci с представлением (5.9.2) остатка видно, что G есть остаток квадратуры некоторой функции, производная которой порядка т равна Правило дифференцирования многочленов Бернулли [добавление II, (П. 11)] говорит, что за такую функцию можно принять (6—a)^-1 / t—a \ (m-j-0! т+г ' Ь—а '
480 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ и, стало быть, (/n-H) I L ' о—a' J b n = {JpwBm+i (in) dl- % AtBM (|=-“)}. (5:9.6) (m+t) 1 I Ja ' b—a ' ' b—a' ) ' ' Сходные соображения применимы к Ls(0 и (b—а}т+8~1 Г * / х—t \ * / х—а \ 1 Ls(/) = (m+s)! Rx I Bm+S ( ~b^ ) ~Bm+s ( b^) ] ’ • (5’9’7) где знак x, стоящий около /?, показывает, что вычисляется остаток квад- ратуры по переменной х, тогда как величина t является параметром. 5.9.3. Формула Эйлера — Маклорена Рассмотрим простейшее правило трапеций и построим для него уточ- няющее равенство (5.9.3). ь Jf (х)dx = [f (a) +f (b) ] 4-7? (f). (5.9.8) a Алгебраическая степень точности правила равна единице, и нужно считать т = 2. Для вычисления Ci воспользуемся (5.9.6). Вспомним, что многочлены Бернулли Bn\z) (п=2, 3, ...) принимают в точках z—0 и z=\ одинаковые значения и, следовательно, ь J Вг+2 ( \ ) dt= [Вг+з(1)+^г+з(0)] =0, а 1 С» = ~ '(д(Г+2)Т~‘Т [^+2(0)+В*2(1)] = (ft—а)г+2 14-(—1)1+2 ~ (1’4-2)! 2! <+2‘ Отсюда видно, что при нечетных значениях i все Сг- равны нулю: С1 = С3=С5=.. . = 0. Для четных значений i=2k будет: (ft__a)2fe+2 ^2/Н-2- 2k = (2^+2)!
| 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 481 Остаток /?(f) формулы (5.9.8) найдем, воспользовавшись (5.9.4) и (5.9.7): ь L,w=-(4=1) (pi (s+2)! I ~ L ' b—a' \ b—a -b;+2(o) ) + (в;+2 () -b;+2( »))]}- Так как является (6—а)-периодической функцией х, то интегралы dx и х—а Ь—а dx имеют одно и то же значение и интегральный член в £$(/) исчезает. Далее, йД2 и, следовательно, I ft\— (Мн2[п« / b—1\ ] (6—a)5+2 . , / b—t \ («+2)! LBs+2'6-<J '-I (s+2)! ys+z\ b-a> ' Для простейшего правила трапеций (5.9.8) можно теперь образовать разложение (5.9.3). Все члены, содержащие С\ нечетных индексов, будут отсутствовать. Считая s числом четным и полагая s-|-2 = 2v, можно за- писать разложение (5.9.3) в форме ь £ V— 1 B2k [^-‘) (ft) -Г-‘) (a) ] +p2v (f), (5.9.9) ь (b—a}2v С » / b—t \
482 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Ниже нам удобнее будет пользоваться другой формой остаточного члена p2v(f). Положим t=a-\-(b—a)u (O^u^l). Так как t/2v ( ~~7- ) ==^/2v(l—^)==^2v(l В zv = В 2v (и') r^2v—-^/2v(^) > ' Ь — а ' для остатка найдем i (h—aVv+1 f P2v(f) = - -;о ----J f<2v)[a+(b—a)u] [B2v(u)—B2v]du = \^) • 0 1 (A__a)2v+1 f zQ x.---J f(2v)[<*+ (b—a)u]y2v(u)du. (5.9.10) Для получения правила увеличения точности общей формулы трапе- ций (5.4.3) отрезок [а, 6] разделим на п одинаковых частей точками a-\~ph (р=0, 1, .r, n), h= (6—а) и применим равенство (5.9.9) к частичному отрезку [a-j-ph9 а+(р+1)Л]. a+(p+i)h J f(x)dx= -у {f M7>ft]+f[a4-(p+l)/i]} — a+ph ~ v—1 Л 7^ [a+ (p+ 1) h][a+p/i]} +pW(f), fc=i W 1 /?2v+l f P(£> (f) = -(2v) , J f(2v) (P+«) ] P2V (u) du. Если суммировать такие равенства для всех отрезков (р = 0, 1, ... , V—1 п—1), слагаемые в суммах , отвечающие точкам деления, которые Ь=1 лежат внутри [а, &], сократятся и останутся лишь слагаемые, отвечаю- щие концам а и b отрезка интегрирования, и мы получим широко изве- стную формулу Эйлера — Маклорена Ъ V—1 f f(x)dx=Tn-^ a k=i Вы [f^-1) (&) -/<»-*)(а) ] +P2V (f) =
§ 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 483 = Тп- [f' (&) -Г (а) ] + [{"' (Ь) -Г (а) ] - he № где “ 47900760 [/'”(4)“,W(“)1+" +₽г’(/)' (5-911) ’=* [vf(»)+f(»+*)+f(o+2'l)+-- +4-/(4 ]. p2v (f) = V—1 Если неограниченно увеличивать v, то сумма в пределе дает ряд k=i \лгч! В добавлении II показывается, что числа Бернулли B2k с ростом k начинают быстро возрастать, при больших k верно приближенное равен- ство В2къ 2 (-1) (2/г)! (2л) -и и ряд будет сходиться для узкого множества функций Д В широком клас- се случаев члены ряда, начиная с некоторого номера, неограниченно воз- растают и формула Эйлера — Маклорена не даст возможности вычис- лить интеграл сколь угодно точно. Но часто оказывается, что остаток p2v(f) для первых значений v убывает с ростом v и имеет малую величину, и если это выполняется, то формула (5.9.11) может принести заметную пользу в уточнении правила трапеций. При изучении остатка p2v(/) нередко можно воспользоваться приво- димыми ниже двумя теоремами. Теорема 1. Если f<2v)(x) непрерывна на отрезке [а, 6], то существует такая точка £ (a^|^&), что для остатка p2v(f) верно равенство p2v(f)=-----(2^TB2v/<2V)(g)‘ (5.9.12)
484 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Доказательство. Для доказательства рассмотрим интеграл 1 1 ;П—1 Г y2v(u) pv^(a-\-ph-\-hu)du = ] y2v(u)ci(u)du. о р=° о В добавлении II показывается, что y2v(x) сохраняет знак на отрезке 0<и<1 и здесь применима теорема о среднем взвешенном значении: 1 о Если М и т есть наибольшее и наименьшее значения f<2v)(u) (O^w^l), то o(u), очевидно, лежит в следующих границах: nm^o(u) ^.пМ. Поэто- му для о(у) имеет место равенство о(у)=пР при пг^Р^М. Ввиду же непрерывности f(2v)(u), существует на [а, 6] такая точка g, что о(у) = = nf<2v)(g). Кроме того, 1 1 J y2v(u)du= § [B2v(u)~B2v]du= — B2v о о и, значит, /=—B2vttf(2v)(6). Отсюда и из выражения остатка p2v(f), ука- занного в (5.9.11), сразу следует утверждение теоремы. Теорема 2. Если f<2v+2)(x) непрерывна на [а, 6] и при всяких х (a^Lx^Zb) будет либо f(2v)(x)^0 и f<2v+2)(x) ^>0, либо f<2v>(x)sC0 и pv+2)^^Qt то величины p2v(f) и —p2v+2(f) имеют такие же знаки, как h2v этого члена формулы. Доказательство. Для остатков p2v(f) и p2v+2(f) верна следую- щая связь: ft2v P2V (n=“ 72<П B2v [f(2v-1) (6) _f(2v_1) (а) ] +p2v+2 (n • B2v [f(2v-1)(6)—f(2v-1)(a)] и no абсолютному значению не больше Ее можно переписать в виде P2v (f) + [—P2v+2 (f) ] = (2v)!0 ft2v+l П—1 p=0
§ 5.9. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 485 /i2v+3 (2v-f-2)! 1 J [—t/2v+2(«)] Я f^+^{a-\-ph-\-hu)du = О ' р=0 A2V = ~ W!B2V lf(2V_1)(b)“^V-1)(a)]- По предположению, f(2v>(x) и f<2v+2)(x) сохраняют одинаковые знаки всюду на [а, 6]. В добавлении II доказывается, что на [0, 1] #2v(^) и — t/2v+2(u) также сохраняют один и тот же знак [добавление II, § 2]. Поэтому p2v(f) и —p2v+2(f) имеют один и тот же знак. Этот знак должен совпадать со знаком последней части, и каждая из этих величин не боль- ше по модулю последнего члена равенства. Формула Эйлера — Маклорена является единственным конкретным правилом эйлерова вида для увеличения точности механических квадра- тур, на котором мы остановились. Но такие правила, как отмечалось выше, могут быть построены для каждой квадратурной формулы. Для ознакомления с некоторыми из них мы отсылаем к справочной литературе [4]. 5.9.4. Разностные видоизменения формулы Эйлера — Маклорена Формула Эйлера — Маклорена требует вычисления производных f', f//z, ... на концах отрезка интегрирования, что не всегда просто и даже не всегда возможно. Можно построить несколько разновидностей этой формулы, в которых уточняющие члены выражаются через значения функции и не содержат производных. Все они могут быть получены из (5.9.11) путем замены там производных на приближенные выражения их через значения f в точках a-\-kh (А = 0, ±1, ±2, ...). Замена может быть сделана многими способами и можно построить не одно, а несколь- ко таких правил. Мы остановимся только на одном из них, в котором используются узлы, не выходящие за границу отрезка [а, 6]. Начнем с вычисления производных в точке а. Интерполируем f(x) по ее значениям в точках a, a-\-h, a-}-2hy ... Это может быть сделано при помощи формулы Ньютона (4.4.1) для интерполирования в начале таб- лицы f(x)=f(a+^)=fo+^Afo+ Д2М- • .4-r(x), Вычислив производные и полагая х = а, t=0, получим: *) *) Равенства были получены в конце § 4.5 и воспроизведены здесь для облегчения чтения.
486 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ hf'(a) =&f0- -1 Д2/о+ 4 A3fo- 4 Д4А>+ 4 A5fo+. • •+/'(«),' 2 О 4 О h2f" (а) = A2fo-AVo+ 4 Д4^- 4 д5^+- • •+''"(«). 1 Zw VI h3f"'(а) =Д3Го~ 4 Д^+ 4 Д^“- • +r"'W> h^)(a)=A^fo-2A5fo+... , /i5f<5)(a)=A5fo“... (5.9.13) Для нахождения производных на правом конце х—Ь выполним ин- терполирование f по значениям в точках b = a-{-nh, а-\-(п—1)й, а+(я—2)Л, ..., воспользовавшись формулой Ньютона (4.4.3) для интер- полирования в конце таблицы f (х) =f(b+ih) =fn+ 4 Afn-1+ -^4* Д2М-2+,. -+р(х). Отсюда при x=b = a-\-nh, 1=0 получим: hf'(b) =Д/„_1+ 4 Д2/п-2+ 4 Д3М-з+ 4Д4М-4+ 4Д5^-5+ < о 4 О +...+р'(&), h2f" (&) =Д2/„-2+Д3/п-з+ 4 Д4/п-4+ 4 A5fn-5+- • • , 12 о h3f"'(b) =Д3/„-з+ 4 Д4/п-4+ 4 Д5/п-5~И • • , ЩЩЬ) =Д4/„_4+2Д5/п_5+. .. , h!>№(b) =Д5/п-в+... - Отбросим теперь остаточные члены в равенствах (5.9.13) и (5.9.14) и полученные приближенные значения производных внесем в формулу Эйлера — Маклорена. После некоторых преобразований получится фор- мула Грегори a+nh J f(x)dx=Tn — (Afn-l—Д/о)—(Д2/п-2+Д2А)) — 1 ЛшЛ 4W А 19/1 /лз; 720 п 3 З/i . . , 863/г 160 60 480
§ 5.10. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 487 97 RA W-eWo)-• • 1)^0]+/?.(/), (5.9.15) z-4 1 uZ (*+!)!' § 5.10. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ. ОСЛАБЛЕНИЕ ОСОБЕННОСТЕЙ ИНТЕГРИРУЕМОЙ ФУНКЦИИ В настоящем параграфе мы рассмотрим некоторые вопросы, связан- ные с подготовкой функции к интегрированию, и укажем несколько прак- тически полезных для этого правил. Чтобы выяснить идеи, положенные в основу предварительных преобразований, достаточно рассмотреть ин- теграл простейшего вида с постоянной весовой функцией и конечным отрезком интегрирования. Каждое правило приближенной квадратуры, рассмотренное нами выше, ь г п J f(x)dx= fe=l а (5.10.1) было основано на замене функции f алгебраическим многочленом на всем отрезке или на его частях, и следует ожидать, что правило может дать хорошую точность, если f обладает «достаточно высоким по- рядком» гладкости. Поэтому одной из первых целей, которую ставят при предварительной подготовке функции к интегрированию, является повы- шение ее гладкости до границ, оптимальных для избранного правила. За меру гладкости функции принимают порядок ее непрерывной диф- ференцируемости и улучшение гладкости функции означает в первую очередь повышение этого порядка. Достигается это путем выделения из f ее «особой части». С некоторыми правилами такого выделения мы озна- комимся ниже. Отметим, что повышение порядка дифференцируемости, хотя и является весьма полезным для улучшения точности, имеет ограни- ченное значение. Границы его целесообразности для каждого правила будут свои и зависят от степени точности правила. Пояснить это обстоя- тельство можно наиболее просто на примере. Рассмотрим общее правило парабол (5.4.6). Оно дает точный результат, если f есть многочлен тре- тьей степени. Остаток его может быть выражен через четвертую произ- водную функции f. Для /?(/) было получено представление (5.4.7) 180n4 ' v k )
488 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Из него, в частности, видно, что 7?=#0, если fIV(x) отлична от нуля всюду на [а, Ь], Нам удобнее воспользоваться другим представлением остатка, не содержащим неизвестных величин. Так как степень точности правила парабол равна 3, для ее остатка будет справедлива формула (5.9.2) при т=4: ь R(f) = j fiv (xjKfxjdx. (5.10.2) а Явное выражение для ядра /С(х) интеграла нам сейчас не потребует- ся, и мы не станем его приводить. Но полезно отметить, что ядро К(х) непрерывно и не изменяет знака на [а, 6], так как если бы К(х) изме- няло знак, то существовала бы такая функция f, имеющая непрерывную и сохраняющую знак производную fIV, для которой /?(f)=0, а это, как отмечалось выше, невозможно. Возвратимся к задаче об увеличении порядка дифференцируемости f. При применении правила парабол естественно стремиться к тому, чтобы интегрируемая функция f была трижды или, лучше, четырежды непре- рывно дифференцируемой. Пусть мы достигли четырехкратной диффе- ренцируемости f. Нас интересует вопрос, можно ли ожидать значитель- ного увеличения точности, если стремиться к дальнейшему повышению порядка дифференцируемости f. Ответ на этот вопрос может быть полу- чен при первом взгляде на (5.10.2). Для всякой функции сколь угодно высокого порядка дифференцируемости, лишь бы он не был меньше четырех, остаток всегда представим в форме (5.10.2) и при одном только повышении порядка дифференцируемости, без целесообразного измене- ния свойств четвертой производной, уменьшение остатка /?(/) может наступить только случайно. Его можно достигнуть только при помощи более глубоко лежащих средств. Для подготовки функции к интегрированию может быть, по-види- мому, рекомендовано следующее не вполне строгое практическое правило. Если избранное правило квадратур (5.10.1) имеет алгебраическую степень точности т—1, то следует стремиться к тому, чтобы интегрируе- мая функция f была m-кратно непрерывно дифференцируемой. Укажем теперь некоторые правила увеличения порядка дифференци- руемости. 1. Пусть интеграл имеет форму ъ J (х—xi)a(p(x)dx, (5.10.3) a где Xi есть некоторая точка, лежащая на отрезке [а, 6] или близко от него. Для определенности остановимся на случае, когда Xi принадлежит
$ б.10. УВЕЛИЧЕНИЕ ТОЧНОСТИ КВАДРАТУРНЫХ ПРАВИЛ 489 [а, 6]. Показатель степени а будем предполагать большим —1 и не рав- ным целому числу. Функцию ф предположим /-кратно непрерывно дифференцируемой на [а, 6] и такой, что ф(Х1)=#0. Когда а <0, интеграл будет несобственным, при а>0 у интегрируе- мой функции производные в точке Xi не будут существовать, начиная с некоторого порядка. Разложим ф(х) по формуле Тейлора около точки Xi, выделим из раз- ложения k первых членов (й^т) и положим f (х) = (х—Xi) “ф (х) = fl (х) +f2 (х), fl(x) = (x-Xi)“ [ф(Х1)+ Х~Х1.ф'(Х1)+.--+ — У-----^-«(^1) ]» 1 • К; f2 (х) = (х—Х1) “ [ ф (х) —ф (Х1) — ф' (Х1) — Первый из интегралов может быть легко вычислен точно. f2(x) в точке х4 имеет порядок дифференцируемости на k единиц выше, нежели f(x) ъ и J f2(x)dx может быть вычислен при помощи правила приближенных а квадратур с лучшей точностью, чем интеграл (5.10.3). 2. Мы рассмотрели случай, когда интегрируемая функция имеет сте- пенную особенность в одной точке. Подобные преобразования могут быть проделаны, если такие особенности будут существовать в несколь- ких точках [а, &]. Рассмотрим интеграл вида ь ъ J f(x')dx= J (х—Xi)ai(x—x2)a2 ••• (х—xm)a™ ф(х)б/х. (5.10.4) а а Возьмем точку Xi, отделим соответствующий ей множитель (х—Xi)a и разложим по степеням х—Xi произведение остальных множителей: (х—х2)а2... (х—хш)а^ф(х) =ф1(х) =ф1(х1) + — ф/(Х1) +? • •
490 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Отделим в разложении ki первых членов и положим Нх)=А(х) + т-А(х)], [(Х—Х<)^1~1 1 ф1(Х1)+. . •+ J • Порядок дифференцируемости в точке Xt разности f(x)—fi(x) будет на ki выше, чем функции f(x). Аналогично строятся разложения f в осталь- ных точках Xji f(x)=fj(x) + [f(x)— fj(x)] (/=1, 2, ... ,т). После этого интеграл (5.10.4) разлагается на два: ъ ь Jf(x)dx= j [fi(x)+f2(x)+.. .+fm(x)]dx+ a a b + J [f(x)~fi(x)—..fm(x)]dx. a Из них первый вычисляется точно, во втором же слагаемом интегрируе- мая функция будет иметь на [а, Ь\ производные более высокого порядка, чем f(x) и применение к этому интегралу квадратурной формулы должно дать более точный результат, чем для (5.10.4). 3. Степенное разложение Тейлора может быть использовано для ослабления особенностей интегрируемой функции, очевидно, всякий раз, когда интеграл имеет форму ь J (*)<₽.(*) dx, а где ф(х) гралы имеет особенность в некоторой точке отрезка [а, 6], и инте- ь J ф (х) (х—Xi) Шх (j = 0, I,'..,) а вычисляются точно, функция же <р(х) имеет производные достаточно высокого порядка. Таким будет, например,
§ 5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 491 ь J (х—Х1)а 1пР|%—Х1|ф(х)б/Х а (а> — 1 й р есть целое число). 4. Та же идея может быть применена в том случае, когда f(x) есть аналитическая функция, регулярная на [а, 6], но имеющая в некоторой точке xlf лежащей вблизи [а, 6], особую точку степенного типа, и мы хотим устранить эту особую точку или ослабить ее влияние на погреш- ность приближенного интегрирования. Вот простой пример: пусть в точ- ке Xi функция f(x) имеет полюс порядка т и представима, следователь- но, в виде fM = где ф(х) регулярна в некоторой области, содержащей в себе х* и [а, 6]. Разложим ф(х) в ряд Тейлора по степеням х—xlt отделим в нем члены до степени k включительно (&^т) и положим f(x)=A(x) + [f(x)- AWL f 1 (х) = (х—Х1) ~т k (х—Xi)^ <р(’)(Х1). ь Интеграл f fi(x)dx вычисляется точно в простых функциях. Так как для а А f(x)~Л(х) точка Xf не будет особой, j [f—fi]dx при помощи правила а b (5.10.1) вычислится, вообще говоря, более точно, чем f fdx. а § 5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 5.11.1. Условия сходимости общего квадратурного процесса Будем рассматривать квадратурный процесс, определяемый бесконечными треуголь- (п) (п) ными таблицами узлов Xk и коэффициентов Ak :
492 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Квадратурное правило, отвечающее строкам номера п этих таблиц, ь [p(x)f(x)rfx= )+R„(f) =Qn (f) +Rn(f) (5.11.2) J k = i a называется сходящимся для функции f, если » b lim Qn(f) = lim Ak = J p(x)f(x)dx. П —► OO n->oo k = l Выясним сейчас, каким условиям должны удовлетворять матрицы X и .4, чтобы про- цесс сходился для всех функций некоторых классов. Такую задачу мы рассмотрим в классах дифференцируемых и аналитических функций, имеющих для приложений, по-видимому, наибольший интерес. Отрезок интегрирования [а, 6] предполагается ко- нечным и вес р(х)—любой суммируемой на [а, 6] функцией, не эквивалентной нулю. Теорема 1, Для того чтобы квадратурный процесс (5.11.2) сходился для всякой функции f, непрерывной на [а, Ь], необходимо и достаточно выполнение условий: 1) квадратурный процесс сходится для всякого многочлена, 2) существует число М такое, что для всех п=1, 2, ... выполняется неравенство k = i |^М. (5.11.3) Доказательство. В множестве непрерывных на [а, 6] функций может быть введена норма ||х(0II = тах|х(/) |, после чего такое множество станет*) полным линей- t ным нормированным пространством или пространством банахова типа С [а, &]. Интеграл ь J P(x)f(x)dx а и квадратурная сумма л /.ч Д . <п) с, <") . Qn(t)=^Ak f(xh ) есть два линейных функционала, преобразующих пространство С [а, 6] в числовое про- странство, которое также является пространством типа Банаха. Для выяснения условий, при которых Qn (/)->/(/) (п->оо)' можно воспользоваться теоремой Банаха — Штейнгауза о сходимости последовательности линейных операто- ров.**) Она говорит о том, что для сходимости Qn (/) к / (f) необходимо и достаточно выполнение двух условий: 1) множество элементов всюду плотно в пространстве, где определены операторы; 2) нормы операторов ограничены в совокупности. *) Добавление I, § 2. **) Добавление I, § 2, теорема 2'.
§5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 493 За множество, всюду плотное в С [а, Ь], может быть принято множество алгебраи- ческих многочленов, так как, по теореме Вейерштрасса, ко всякой функции /, непрерыв- ной на [а, 6], можно приблизиться равномерно на [а, и сколь угодно точно при по- мощи таких многочленов. Первое условие теоремы Банаха — Штейнгауза будет выполнено в нашей задаче, если сходимость Qn (/)->/(/) имеет место для всякого алгебраического многочлена. Так как IIQn(f)ll= max A = i „ (n) A = 1 второе условие об ограниченности в совокупности норм функционалов эквивалентно неравенству (5.11.3). Этим теорема доказана. Получим два простых следствия из нее. Рассмотрим интерполяционный квадратур- ныи процесс. Напомним, это означает, что коэффициенты Да имеют следующие зна- чения: ь -(*) f / х / \ г/ (п) х // (n) х! < Л Да. = р(х)(Оп (х) [(х—xh )(йп (хь J]"1 ах, /X / (п) \ / (п) X <Оп(х) = (х—Х1 )...(х—Хп ). Такой процесс определяется таблицей узлов X. Теорема 2. Чтобы интерполяционный квадратурный процесс сходился для всякой непрерывной функции, необходимо и достаточно выполнение неравенства (5.11.3): И'?’ |<м<оо («=1,2,...). А = 1 Доказательство. Первое условие теоремы 1 здесь, очевидно, выполняется, так как если f есть многочлен степени пг, то при п^>пг будет ь Qn (Г) = J pfdx. a Второе же условие теоремы 1 совпадает с условием теоремы 2. Следует заметить, что хотя теорема 2 дает необходимый и достаточный признак сходимости, но этот признак нельзя, к сожалению, признать эффективным, так как весьма трудно сказать, какое заключение о расположении узлов х& на [a, pj вытекает из неравенства (5.11.3). Теорема 3. Если коэффициенты Ak неотрицательны, то квадратурный процесс схо- дится для всякой непрерывной функции f в том и только в том случае, когда он является сходящимся для всякого алгебраического многочлена.
494 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Доказательство. Необходимость условия является очевидной. Нужно про- верить лишь его достаточность. Когда f есть многочлен нулевой степени должно быть ъ (/?—>оо). а Поэтому множество чисел Qn (1) ограничено: Qn(l) Отсюда следует У |Да |= 7^7 Аь =Qn(l) k = i k — 1 Таким образом, из допущения о сходимости процесса для алгебраических много- членов следует выполнение второго условия теоремы 1 и процесс будет сходиться для всякой непрерывней функции. Отметим попутно, что теорема 7 § 5.5 о сходимости квадратурного процесса наивыс- шей алгебраической степени точности может быть получена как прямое следствие тео- ремы 3. В самом деле, если р(х)^0, то квадратурное правило наивысшей степени точ- ности может быть построено при всяком п. Коэффициенты Да , как доказано в тео- реме 5 § 5.2, положительны. Последовательность таких правил образует квадратурный процесс с положитель- (п) ными Ak . Если f есть многочлен степени т, то при 2п— \^т будет Qn(f) = / (f) и процесс сходится для всякого многочлена. Но по теореме 3 он тогда будет сходиться для всякой непрерывной на [а, 6] функции. Теперь перейдем к выяснению условий сходимости квадратурного процесса (5.11.2) на множествах дифференцируемых функций. с (п) Будем считать, что узлы Xk перенумерованы в порядке роста: (п) a^xt (п) Хи и введем кусочно постоянную функцию, связанную с узлами хк и значениями коэф- фициентов Ak \ Г / \ яД л (п) г, X Fn0(x)= Ak E(x—Xk ). k=i Наряду с Fno(x) будем рассматривать первообразные функции для нее Fnr(x) Г, U) любого порядка г, удовлетворяющие начальным условиям Fnr(a)=0 = 1, ... , Г-1), Fnr(x)= У ДаП) E(x—x(k} ) — (x—Xkn))r. (5.11.4) г! k = t Рассмотрим множество Сг [а, &] функций, имеющих непрерывные производные по- рядка г на [а, 6]. - Теорема 4. Чтобы квадратурный процесс (5.11.2) сходился для всякой функции f<=Cr [а, 6] необходимо и достаточно выполнение условий: 1) процесс сходится для всякого многочлена;
§ 5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 495 2) существует число Л1<оо такое, что при всяких значениях п=1, 2, ... выпол- няется условие . ъ J |Fn.r-1(0|d^Af<oo, (5.11.5) Доказательство. Сначала убедимся в необходимости условий. Необходимость первого из них очевидна и мы должны проверить лишь необходимость второго. Для этой цели воспользуемся представлением (4.8.34), характерным для функций из Сг [я, Ь]: ъ /(*) = с,(х-Ьу+(-\у Jg(/)E((-x) г =0 а (5.11.6) c.= ±f(<w я(0==/(г)(0. t! Напомним, что ct здесь — произвольные численные параметры и g(t) —любая непрерыв- ная функция. Остаток квадратуры ь если в него внести вместо f ее представление (5.11.6), примет следующий вид: ь t Rn(f)= i CiRn [(*-&?]+(-1)’ J g(0 [f RW u ] dt- i=0 a a ' ' Стремление Rn(!) к нулю, ввиду независимости параметров с, и g(/), равносильно выполнению следующих соотношений при п->-оо: Rn [М)’Н (f=0, г-1) (5.11.7) и ь t Rn(g)= fg(O [ [ Р(х) Х\ djc—Fn,r-i(i) ld/->0. a L« (*—1)« J (5.11.8) Остановим свое внимание на условии (5.11.8). Оно должно выполняться для всякой непрерывной функции g(t). Введем на множестве таких функций норму ||g|| = max|g(/) |. t Rn(g) можно рассматривать как оператор, переводящий пространство С [а, 6], принад- лежащее банахову типу, в одномерное числовое пространство и (5.11.8) есть условие сходимости последовательности Rn(g) к нулевому оператору. Здесь может быть при- менена теорема Банаха — Штейнгауза (см. добавление I, § 2, теорема 2), согласно кото- рой для сходимости последовательности операторов, переводящих пространство банахова
496 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ типа в пространство того же типа, независимо от того, каким будет предельный оператор, необходимо и достаточно выполнение двух условий. 1. Последовательность операторов должна сходиться на множестве элементов, всюду плотном в пространстве, где заданы операторы. Для нас сейчас это условие значения не имеет, так как в необходимости выполнения неравенства (5.11.5) мы убедимся, не пользуясь им. 2. Нормы операторов должны быть ограничены в совокупности. Так как ь t j g(t) J pW a a (t-X)r-i dxdt (r-l)l не зависит от n, такое требование равносильно ограниченности в совокупности норм операторов ь Лп(Я)= j g{t)Fn,T-i(t)dt. а Очевидно, Ь Ь |Я»(й)|С Г iFn.r-iWl^niax |g(/)|= f |Fn. \dt ||g[|. J t J a a Поэтому для нормы Rn верно неравенство ь a (n) (n) (n) (n) Функция Fn, r-i(O внутри каждого из отрезков (a, ), (%i , x2 (xn , b), как видно из (5.11.4), есть многочлен и имеет либо конечное число перемен знака, либо есть тождественный нуль. Поэтому signFn, r-i(0 имеет на [а, 6] только конечное число точек разрыва, и для любого 8>0 наверное существует такая непрерывная функция g(0 (1^(0’1<0, что будет ь ъ ь I |Fn, r-i(t)\dt—е= Fn, r-i(/)sign Fn, r-i(t)dt—e< | Fn, r-i(t)g(t)dt. a a % a Для оценки II/?n II это даст b b |l/?nll= sup > J g(t)Fn, r-i(t)dt> J |F„, |dt-t. a и так как неравенство верно при всяких е, то
§ 5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 497 ъ ИЯ»||> J |Г».Г-,(О|Л. а Сравнение с полученной раньше оценкой сверху приводит к заключению, что ь ПЛ»0= j |Fn, ,-.(/)\dt. а Таким образом, второе условие теоремы и требование ограниченности в совокупности норм операторов Rn(g) —равносильны. Проведенные рассуждения убеждают в том, что условия теоремы являются необхо- димыми. Теперь проверим достаточность условий теоремы 4. Предположим, что они выпол- нены. Если g(/) есть многочлен, то f также будет многочленом и, по первому условию, квадратурный процесс должен сходиться: /?п(/)->0. Но «»(/) = £ ‘iRn [(Х-*)’] + (-1)ГЯ"&). i=0 и так как Rn [(*—(п->оо), то для любого многочлена g(t) должно быть /?n(g)->0. Таким образом, на множестве многочленов, всюду плотном в С [а, д], последовательность Rn(g) сходится к нулю. Условие (5.11.5) означает, что нормы операторов Rn(y) ограничены в совокупности числом М; Но тогда, на что мы обращали внимание выше, будут ограничены в совокупности и нор- мы операторов Rn(g)'. \\Rn(g)\\^N. Для операторов Rn(g) выполняются оба условия видоизмененной теоремы Банаха — Штейнгауза *> и последовательность Rn должна сходиться к нулю на С [а, д]. Вместе с ней должна сходиться к нулю и последовательность операторов Rn(f) при всякой функ- ции f^Cr [а, Ь]. Этим доказана достаточность условий теоремы 4. Рассмотрим частный случай теоремы 4 для г=1 и найдем условия сходимости про- цесса (5.11.2) на множестве однократно непрерывно дифференцируемых функций. Fno(t) есть кусочно постоянная функция со следующими значениями на интервалах между узлами: ♦) Добавление I, § 2, теорема 2'.
498 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ fno(/) = О л (п) Ai - («) . ,(«) А, +Аг при , (п) (п) при Xi <Zt<Cx2 , (n) (n) при X2 <l<*3 . .(») I , Л (n) (n) At при xn <t^b. Значит, b f । „ /j(4 . I , (n) I , <n) <n> 4 , . ,<n> , /П) . z (n> X , . J |Fno(0 |dt = |/41 | (*2 —xt ) + |4i +Л2 | (*з —<^2 )+•.•+ a , I л (n) , , л (n) (n) (71) (n) (n) (n) (n) + |Л1 4». . -+Д 71-1 Г(*П -*71-1) + I Ai +. ..+4п-14-Лп I Xn )• Отсюда следует Теорема 5. Для сходимости квадратурного процесса (5:11.2) на множестве непре- рывно дифференцируемых на [а, 6] функций необходимо и достаточно выполнение условий: 1) процесс сходится для всякого многочлена; 2) существует число М такое, что при п=1, 2, ... выполняются неравенства . , (п)| . (п) (71) . (П) (71) (71) (П) (п) (П) (П) |Д1 | (х2 Xi ) + И1 4-4 2 | (хз —х2 ) -|-..|4i 4-. ..4-Дп | (Ь Хп 5.11.2. Сходимость интерполяционных квадратурных процессов Интерполяционный квадратурный процесс Jp(x)f(x)dx= л£п)/(хГ*)+#п, (5.11.9) ъ (п) k С0п(х) ах, (х-х^)^п'^}) Я А •* /к ТТ f in) х (Отг= _ДГ (X—Xj ), А ъ j = l определяется таблицей X узлов (5.11.1). Погрешность правила Rn равна интегралу от остатка интерполирования: Ь тг Г V'J С0п(х) (П) p(x)rn(x)dx, rn(x)=f(x)- > -------------——— f(xh ). (5.11.10) Cl ** A rv tv Многие теоремы о сходимости интерполирования могут служить источниками теорем о сходимости интерполяционных квадратурных процессов с теми же таблицами уз- лов Xk . В частности, если отрезок интегрирования |а, о] конечный и если интерполя- ционный процесс на [а, Ь] сходится равномерно, то будет сходиться и интерполяционный
§ 5.11. СХОДИМОСТЬ КВАДРАТУРНОГО ПРОЦЕССА 499 квадратурный процесс (5.11.9) с той же таблицей X узлов при любой суммируемой весо- вой функции р(х). Приведем несколько примеров теорем такого рода. Рассмотрим правило Ньютона — Котеса 1 п Jp(x)f(x)dx& Bk f 0 k = i (5.11.11). 71 ----------I ---------------at. nk\(n—k)\ * t—k Таблица узлов для него: (5.11.12) Она, очевидно, имеет предельную функцию распределения ц(х) =х. К интерполиро- ванию с таблицей узлов (5.11.12) применима теорема 2 § 4.8 и она дает возможность высказать теорему о сходимости процесса Ньютона — Котеса. Теорема 6. Если аналитическая функция f(z) регулярна в замкнутой области, огра- ниченной линией *> Re [г lnz+(l—z)ln(l—г)] = 1/ то квадратурный процесс Ньютона — Котеса для нее сходится при всякой суммируемой весовой функции р(х). Простым следствием теоремы 3 § 4.8 является Теорема 7. Пусть отрезок интегрирования есть [—1, 1]. Если таблица узлов X имеет предельную функцию распределения и она является функцией Чебышева С dt И(х)=л-1 —------, -1 yi-/2 то интерполяционный квадратурный процесс сходится для всякой функции f (х), анали- тической на отрезке [-1,1]. при любом суммируемом весе р(х). Можно было бы увеличить число таких теорем, но мы ограничимся двумя приведен- ными примерами. ) См. рис. 4.8.1.
500 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ § 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 5.12.1. Введение Предположим, что на отрезке [х0, задана непрерывная функция f(x). Всякая первообразная для нее, как известно, представима в форме X У(х)=Уо+ (5.12.1) Хо и ее вычисление приводится к нахождению значений интеграла с пере- менной границей. Тот факт, что верхняя граница х является переменной и значения у(х) нужно находить обычно для многих х, делает задачу неопределенного интегрирования своеобразной и побуждает для ее реше- ния строить свои методы, учитывающие особенности этой задачи. Пусть нужно вычислить (5.12.1) для заданной сетки значений аргу- мента х: , X0<X1<CX2<... Допустим, что вычисления начаты, доведены до значения хп и составлена приводимая в тексте таблица. Найти нужно yn+i. Для этого можно воспользоваться любыми уже найденными значе- ниями yk (£<л), так же как любыми значениями f, которые можно применить в вычислениях. Поясним это немного подробнее. Когда f задана таблично, мы имеем право выбора как числа значе- ний f, так и положения этих значений в таблице. Зада- ча построения правила вычислений является в этом случае комбинаторной и принадлежит дискретной математике. Если же f задана формулой, в нашем распоряже- нии имеются значительно большие возможности, так как мы можем про- извольно избирать те точки х, в которых берутся значения f, и ограничи- вать себя только в числе таких значений. Выбором значений х обычно стремятся достичь возможно высокой алгебраической степени точности вычисления yn+i, что часто позволяет сделать погрешность не выше заданной границы при меньшем числе зна- чений f, чем в других правилах нахождения yn+i, и это дает возможность экономить вычислительный труд. Все изложенное является одинаковым как в задаче определенного, так и неопределенного интегрирования, но при неопределенном интегри- ровании есть еще. другое средство сбережения времени работы машин и труда вычислителя. Ввиду того что находить нужно многие значения г/(х), можно стремиться к тому, чтобы каждое значение f применялось для нахождения не одного, а нескольких значений функции у(х). Задержим внимание на этом факте и поясним его на частном правиле. Для нахождения yn+i можно, например, воспользоваться равенством
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 501 хп+1 Уп+1 = Уп~1~ J f ( Вычислить интеграл, стоящий справа, можно было бы при помощи почти любого из правил нахождения численного значения определенного интеграла, о которых говорилось* выше. Для этого мы должны будем на отрезке интегрирования [хп, xn+i] взять несколько узлов, найти зна- чения f в них и, наконец, образовать линейную комбинацию из них с со- ответствующими квадратурными коэффициентами. Это — возможный способ вычисления, и к нему нередко прибегают, но мы не будем останавливаться на такого рода методах, так как они являются простым применением к неопределенному интегрированию уже знакомых правил вычисления определенных интегралов. Эти методы имеют очевидный недостаток: значения функции f, если они не отвечают концам отрезка [xn, xn+i], используются только для вычисления yn+i и не участвуют в вычислениях предшествующих значений уп, Уп-i, • • • , так же как и следующих значений уп+г, Уп+ъ ... В дальнейшем мы будем говорить преимущественно о таких методах, которые позволяют использовать каждое значение f на нескольких шагах вычислений. Укажем еще на возникающую в связи с неопределенным интегриро- ванием, но имеющую, как мы увидим ниже, много более широкое значе- ние проблему роста погрешности при вычислениях на большое число шагов. Пусть для нахождения значения уп+\ избрано какое-либо правило. При его применении на каждом шаге мы будем совершать некоторую погрешность. Такие погрешности постепенно будут накапливаться, и ве- личина погрешности будет, вообще говоря, от шага к шагу увеличи- ваться. Закон увеличения погрешности, если говорить в весьма общих чертах и иметь в виду не только задачу неопределенного интегрирования, но и другие аналогичные задачи, решение которых требует многократного применения одного и того же вычислительного правила, зависит как от самой задачи, так и от избранного правила вычислений. При неудачном выборе правила рост погрешности может оказаться настолько быстрым, что уже через небольшое число шагов она может стать выше допустимой границы. Более наглядным и поучительным, чем общие рассуждения, здесь, вероятно, будет приводимый ниже простой пример. Пусть на от- резке [0, 1] нужно вычислить в равноотстоящих точках значения инте- грала х у(х) = 1. о
502 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Для нахождения yn+t воспользуемся сначала двумя предшествующими значениями функции уп и уп-\ и двумя предшествующими значениями производной yn'=fn и y'n-t=fn-i и выполним по ним интерполирование Уп+i- Это есть интерполирование с двумя двукратными узлами и к нему может быть применено правило (4.7.10), которое в нашем случае будет: Уп+1 = —4z/n-|-5r/n-iH-^'(4fn4-2fn-i). (5.12.2) Равенство является точным для всех алгебраических многочленов третьей степени’ При применений оно требует знания двух начальных значений yQ и //4. Проведем вычисления с шагом Л = 0,2,‘ считая известными yo=Q и //! = //(0,2) «0,22140. Вычисления выполнены с запасными знаками, чтобы показать, что погрешности вызваны не недостаточным числом Хп Уп погрешность 0,0 0,00000 0,2 0,22140 0,4 0,49152 +0,00030 0,6 1,82296 -0,00082 0,8 1,22026 +0,00528 1,0 1,74294 -0,02466 верных значащих цифр, а иными причинами. По таблице результатов видно, что погрешность быстро растет при удалении от начала таблицы. Покажем теперь, что быстрый рост вызван не большой величи- ной шага h и поведение погреш- ности не ’может быть улучшено при помощи уменьшения h. Уменьшим шаг вдвое, положив й=0,1, и выполним вычисления вторично, приняв известными значения //(0) =0, //(0, 1) =0,10517. Хп У п погрешность Хп У п погрешность 0,0 0,00000 - 0,6 0,81810 +0,00402 0,1 0,10517 0,7 1,03610 —0,02235 0,2 0,22139 +0,00001 0,8 1,11602 +0,10952 0,3 0,34988 -0,00002 0,9 2,01039 —0,55079 0,4 0,49165 +0,00017 1,0 -1,03251 +2,75079 0,5 0,64950 —0,00078 Как видно, уменьшение шага в два раза позволило улучшить лишь зна- чение //(0, 4), погрешности же остальных значений возросли. Рост по- грешности остался столь же быстрым, как и раньше. Наконец, чтобы убедиться в том, что рост погрешности вызван только плохими свойствами расчетного правила (5.12.2), выполним вычисление того же интеграла при помощи другого правила, которое имеет меньшую
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 503 алгебраическую степень точности, но для которого закон роста погреш- ности является много более благоприятным, чем для (5.12.2). Если в ра- венстве ?г+1 f(X)dt интеграл вычислить при помощи элементарного правила трапеций и от- бросить остаточный член, получится правило У n+\.z= У п~\ jr (fn4"fn+i) • (5.12.3) Оно дает верный результат в том случае, когда f есть линейная функ- ция, и алгебраическая степень точности его ниже, чем у (5.12.2). Поэтому естественно было бы думать, что применение (5.12.3) должно для уп дать значения менее точные, чем (5.12.2). Хп Уп (5.12.3) погрешность Хп Уп (5.12.3) погрешность 0,0 0,00000 0,6 0,82280 -0,00068 0,1 0,10526 -0,00009 0,7 1,01459 84 0,2 0,22159 19 0,8 1,22656 102 0,3 0,35015 29 0,9 1,46082 122 0,4 0,49223 41 1,0 1,71971 143 0,5 0,64926 54 Для нескольких первых значений уп это действительно так и есть, но для правила (5.12.3) погрешности растут заметно медленнее, чем для (5.12.2), и значения уп, не близкие к началу таблицы, получаются более точными. Приведенные- примеры показывают, что вычислительные правила, даже если они имеют не низкую степень точности и могут дать малую погрешность при однократном их применении, не всегда являются при- годными при счете на большое число шагов. При выборе и построении правил вычисления необходимо обращать внимание на соответствующий им рост погрешностей, и чем большее число шагов нужно выполнить, тем более тщательным должен быть отбор правил. Для характеризации применимости правил к многошаговым вычисле- ниям были введены понятия «устойчивости» и «неустойчивости» правил относительно роста погрешности. Так как характер изменения погреш- ности, кроме вычислительного правила, зависит также от типа решаемой
504 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ задачи, то содержание этих двух понятий для каждой задачи может быть своим. Понятия еще не вполне установились, но какое бы содержание в них ни вкладывалось, «устойчивыми», по-видимому, следует считать лишь такие правила, которые позволяют найти сколь угодно точно реше- ние задачи. Иными словами говоря, «устойчивыми» следует признать только те правила вычислений, которые позволяют построить вычисли- тельный процесс,*) сходящийся к точному решению. Более подробно вопрос об «устойчивости» будет рассматриваться ниже при изучении методов решения дифференциальных уравнений, обыкновенных и в частных производных. Задача неопределенного интег- рирования является простой в принципиальном отношении и, как будет выяснено ниже, для нее вопрос о том, какие правила вычислений следует считать «устойчивыми» и какие «неустойчивыми», выясняется достаточно просто. Заметим также, что разделения правил вычислений лишь на два класса — «устойчивых» и «неустойчивых» относительно роста погрешно- стей — недостаточно, чтобы характеризовать достоинства и недостатки правил. В частности, такое разделение не дает никаких сведений о ско- рости роста погрешности и о потере числа верных значащих цифр. В некоторых случаях возникает потребность говорить о более сильной или более слабой неустойчивости и бывает целесообразно ввести числен- ную меру неустойчивости, состоящую из одного числа или нескольких чисел. Аналогичные вопросы возникают и при сравнении между собой «устойчивых» правил вычислений. 5.12.2. Погрешность вычислений и сходимость Всюду ниже мы будем считать, что неопределенный интеграл (5.12.1) нужно найти для равноотстоящих значений аргумента Xk=Xo-\-kh (Л>0). . Для пояснения вопроса о росте погрешности при неопределенном интегрировании достаточно рассмотреть вычислительное правило (5.12.4) Оно должно быть дополнено начальными значениями r/о, #i, . . . , Ур функции у(х) и, кроме того,— указано правило округления при вычисле- нии правой части. Если операцию округления обозначить фигурными скобками, то действительное расчетное правило будет *) Равенство (5.12.2) вместе с указанием способа нахождения начальных значений у0 и г/i и указанием закона округления при вычислении правой части образует вычисли- тельный алгоритм. Последовательность же таких алгоритмов, отвечающих последователь- ности значений h, сходящейся к нулю, составляет вычислительный процесс.
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 505 (5.12.5) Введем понятие о погрешности формулы (5.12.4). Если в нее вместо Уь подставить точные значения у(хь) первообразной, равенство не будет выполняться и в правую часть его необходимо ввести дополнительный член У (-^n+1)---- (5.12.6) Величина гп называется погрешностью формулы (5.12.4). Рассмотрим теперь погрешность вычисления и получим уравнение для нее. Приближенное значение уп находится по правилу (5.12.5), которое, если погрешность округления обозначить — ап, равносильно правилу р т Уп+1== АгУп—г~\~к Bnjf (^nj) г=0 • j=l (5.12.7) Вычитание его из (5.12.6) дает ёп + 1 - 2=0 (5.12.8) Это есть линейное неоднородное уравнение в конечных разностях по- рядка р+1 с постоянными коэффициентами. При его решении значения погрешностей ео, ei, ... , ер, отвечающие приближенным значениям уь (fe=0, 1, ... , р), образующим начало расчетной таблицы, мы должны предполагать известными. Все следующие значения еп (п>р) должны быть найдены из (5.12.8). Положив там п=р, мы найдем ep+i в форме линейной комбинации гк (&=0, 1, ..., р) и величины Гр+ар. Пользуясь этим результатом и положив в (5.12.8) п = р+1,'найдем &р+2 в виде ли- нейной комбинации тех же начальных погрешностей (& = 0, 1, ... , р) и величин Гр+ар, Гр+i+ap+i и т. д. При помощи уравнения (5.12.8) погрешность еп будет найдена как линейная однородная функция начальных погрешностей ел (&=Ср) и величин /р+ар, ... , fn-i+an-i. Коэффициенты этой функции будут, очевидно, зависеть от и: 8П — Гп°ео+Гп,б1+.. .+Гпр8р+ ^Сп;(^‘+а;)- j=p (5.12.9)
506 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ В написанном равенстве можно считать n=0, 1, 2, ... , если усло- n—1 виться сумму заменять нулем в тех случаях, когда верхняя граница 3=Р суммирования п—1 становится меньшей р. IV называется функцией влияния или гриновой функцией начального значения 8г. Аналогично, GJ называют функцией влияния значения rj+<Xj свободного члена уравнения. IV и Gni являются частными решениями уравнения вида (5.12.8) с указываемыми ниже начальными условиями. Возьмем сначала Гп°. Положим свободный член уравнения тождест- венно равным нулю: Гп+ап = 0 (п=р, р+1, ...) и рассмотрим однородное уравнение Затем будем считать 8о= 1, 8i = .. . = 8р = 0. Тогда, как видно из (5.12.9), будет 8п = Гп°. Значит, можно сказать, что Гп° есть решение однородного уравнения L(gn)=0 с начальными условиями 8о— 1, 81 — 82—• • • — 8р— 0. Функция влияния IV начального значения 81 есть решение однород- ного уравнения L(en)=0 с начальными значениями 8о = О, 81=1, 82=. . . = 8р = 0, . . . Для нас особый интерес будет иметь функция влияния IV, принад- лежащая последнему начальному значению ер. Она есть решение сле- дующей задачи: ^(en)=0, 8o=8i = .. . = 8р-1 = 0, 8р=1. (5.12.10) В некоторых вопросах удобно продолжить IV на отрицательные зна- чения и, считая.IV = 0 при n = — 1, —2, . .. Через несколько строк будет показано, что IV для разностного уравнения с постоянными коэффици- ентами, каким является (5.12.8), тесно связана с функцией влияния Gn\ к рассмотрению которой мы переходим. Если в (5.12.9) положить 0 при j=/=i, 1 при j=i, то получится gn=Gn\ и поэтому Gn* есть решение следующей задачи: 80---• • •-8р, Г; + (Х;---
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 507 Ц&п) =6п* (я, f^p), 80=.. . = 8р = 0. (5.12.11) Здесь 6П? — символ Кронекера. При n^Zi— 1 правая часть 6п* = 0, урав- нение будет однородным L(en)=0 и, так как начальные значения е& = 0 (6 = 0, 1, ... , р), будет еп = 0 при n<L При n=i уравнение (5.12.11) даст (®п) | n=i — В/4-1 — £г-|-1—1. j=0 Для n>i уравнение (5.12.11) вновь становится однородным, и 6пг будет решением задачи £ (8п) =0 (/2^>f) , 8г—p4.i = 0, 8г—р4-2 = 0, . . . , 8г = 0, 8г4-1 = 1. Такая задача отличается от задачи (5.12.10), определяющей Гпр, лишь СДВИГОМ ПО ОСИ П На Г—р+1 еДИНИЦ И ПОЭТОМУ Gn = Vn+p-i-l- Это дает возможность записать 8П в следующей более удобной для нас форме: п „ n-i о р р 8п = Гп8о+Гп181 + . . . + ГП 62+ rn4-p-j-l • 2 (5.12.12) Сообразно с представлениями (5.12.9) и (5.12.12) разложим погреш- ность на три части: (5.12.13) Первая из них Еп дает часть погрешности еп, происходящую от неточ- ности значений г/0, у и ... , уР, составляющих начало расчетной таблицы. Еп является решением однородного уравнения £(£п)=0 с начальными значениями Еп = &п (n=0, 1, ... , р). Второе слагаемое Еп' учитывает влияние на еп погрешностей округ- лений aj и есть решение неоднородного уравнения £(Еп')=ап с нуле- выми начальными значениями £n'=0 (n=0, 1, ... , р). Наконец, Еп" дает часть погрешности еп, происходящую от неточно- стей гп расчетной формулы. Еп" есть решение неоднородного уравнения L(En") =гп с нулевыми начальными значениями En"=Q (п = 0, 1,... , р). Ниже будут рассматриваться условия равномерной сходимости при Л~>0 приближенно вычисленного неопределенного интёграла с таблицей значений уп (n=0, 1, ... , N) к точным значениям у(хп) этой функции.
508 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ За расстояние между ними должна быть принята величина p(*A t/n)=max|y(xn)—i/n|, п I и нам нужно выяснить условия, при которых будет р(у’, уп)->0 (й->0). Ввиду независимости величин Ь» (i=0, 1, ... , р), гп и ап каждая из трех частей Еп, Еп', Еп" должна в принятой метрике стремиться к нулю: max|En|->0, max|£n'|->0, max|£,n"|->0 (5.12.14) п п п . Величины Еп и Еп' зависят от погрешностей ы (i=0, 1, ... , р) и ап (п^>р), и совершенно ясно, что при всяком фиксированном h точность вычислений начальных значений р0, У1, ... , Ур и правых частей (5.12.5) можно увеличить настолько, чтобы сделать max|En| и maxlE/l сколь п п угодно малыми. Поэтому за счет увеличения точности вычисления, прин- ципиально говоря, всегда можно добиться того, чтобы при й->0 было max|En|->0 и max|Enz|-^0. Вопрос здесь-заключается лишь в том, на- п п сколько быстро для этого необходимо увеличивать точность при убыва- нии h. Если при погрешности (t^p) и ап должны быстро убы- вать, то такая вычислительная схема будет малопригодной для при- ложений. В этом отношении нужно отдать предпочтение тем вычислительным схемам, для которых точность вычисления yi (i^Zp) и правых частей (5.12.5) должна возрастать возможно медленнее при /г->0, если мы хо- тим, чтобы было шах|Еп|->0 и maxlEVI-H). п п Рассмотрим этот вопрос более подробно и начнем с изучения Еп. Если считать, что начальные-погрешности ег- (t’^p) ограничены по абсолют- ной величине числом е и в остальном произвольны, для Еп из (5.12.13) вытекает следующая точная оценка: |£п| г |Г„|. г=0 Будем считать, что правило (5.12.4) является точным для того случая, когда у есть постоянная величина ♦) и f = 0. Коэффициенты Ак такого правила должны выполнять равенство *) Если правило вычислений не обладает этим свойством, то это правило, по-види- мому, не имеет значения.
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 509 р 2S Ai=i. г=0 Это означает, что еп=1 есть решение однородного уравнения L(£n)=0. Для него представление (5.12л12) примет форму 1=ГП°+ +ГП'+.. .+Гпр. Отсюда следует, что при любых значениях п выпол- няется неравенство В отношений порядка роста Еп при неограниченном увеличении п наибо- Р 2 лее благоприятным является случай, когда сумма |ГП| будет ограни- г=0 ченной. В связи с изложенным выше в задаче вычисления неопределенного интеграла целесообразно, по-видимому, принять следующее определение. Правило вычислений (5.12.4) называется устойчивым относительно погрешностей начальных значений (f^p), если существует число М такое, что при любых значениях п^р будет выполняться неравенство |£п| = | Гпбг | г=0 если только |ej (г^р). Можно легко установить признак устойчивости. Общее решение *) однородного линейного уравнения с постоянными коэффициентами р L(gn)=gn+1— Aien-i=0 определяется алгебраическим уравнением г=0 степени р+1 р V+1— ддр-г‘=^+1—Aq№—А др-1—...— Ар = 0. (5.12.15) i=0 Если корни уравнения есть М, Х2, ... , Хт и кратности их равны сооъ ветственно fei, й2, ... , km, тогда функции ХГ /г; (/=0, 1, ... , k~l; t=l, 2, ... , tri) образуют фундаментальную систему решений однород- ного уравнения L(gn)=0. Всякое решение уравнения является их линей- ной комбинацией. *> Необходимые сведения из теории уравнений с конечными разностями приведены в добавлении IV*
510 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ С другой стороны, функции влияния Tn (i=0, 1, ... , р) начальных значений также образуют, очевидно, фундаментальную систему и полу- Г" чаются из решений к? nJ линейным преобразованием с неособенной мат- рицей. п Ограниченность суммы |Гп| равносильна ограниченности функ- г=0 ций Гп (i=0, 1, ... , р) и, следовательно, равносильна ограниченности при п= 1,2,... решений ХГп> (/=0, 1, ... , k — 1; i= 1, 2, ... , m), что возможно в том и только в том случае, когда среди нет чисел, больших по модулю единицы, и если |Х2| =1, то тогда ki=\. Отсюда следует тео- рема, дающая нужный признак, i Теорема 1. Для того чтобы правило (5.12.4) было устойчивым относи- тельно погрешностей начальных значений yt (f=0, 1, ... , р), необхо- димо и достаточно выполнение условий: 1) среди корней Хг- уравнения г=0 нет больших единицы по модулю; 2) корни уравнения, равные по модулю единице, являются простыми. Перейдем теперь к части погрешности, происходящей от ошибок округлений ап: £п == Гп+р—j—i(Xj. (5.12.16) j=p Предположим, что верхняя грань а для погрешности округлений ука- зана одинаковой для всех шагов вычислений: |ап|^а (п^р). п—1 р 1Вп | ОС | Гп-|-р—J—11, j=p р р maxlE/l^a^J |Г^р_н| = а |Г, |. (5.12.17) п j=p j=p N-i Когда А->0, N будет неограниченно возрастать. Значение суммы £ |Г>Р | © г=р будет зависеть от поведения Г/ при неограниченном росте /. Рассмотрим р+1 функций р П i (5.12.18)
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 511 Они являются решениями однородного уравнения £(еп)=0. При и = 0, 1, ... , р их значения образуют таблицу определитель которой отличен от нуля. Поэтому решения (5.12.18) со- • о 1 г р ставляют фундаментальную систему и связаны с Гп, Гп , ... , Гп, а сле- довательно, й с решениями Х”п? неособенными линейными преобразова- ниями. Их ограниченность при п->оо равносильна ограниченности Гп (1<р) и"'!1 2 (/=0, 1, . .. , ki— 1; i=l, 2, ... , т). Проведенные сейчас и выше рассуждения позволяют утверждать, что N-1 р для возможно медленного роста при Af->oo суммы £ |Гл | наиболее ь=р благоприятным будет случай, когда все ГьР, а значит и X? будут огра- jv-i р ничены. При этом условии сумма |Гл | будет величиной порядка * h=p O(N). Изложенные соображения побуждают принять приводимое ниже определение. Правило вычислений (5.12.4) называется устойчивым относительно погрешностей округлений ап, если существует число Mit не зависящее от А, такое, что при всяких N>p будет выполнено неравенство |£n'| (п=р, р+1, ... , N—V). (5.12.19) Просто доказывается приводимая ниже теорема, дающая признак такой устойчивости. Теорема 2, Для того чтобы правило (5.12,4) было устойчиво относи- тельно погрешности округлений ап, достаточно выполнение условий: 1) уравнение X?+1— ДДр-г‘ = 0 не имеет корней по модулю боль- г=0 ших единицы и 2) корни, равные единице по модулю, являются простыми.
512 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Доказательство. Действительно, при выполнении условий тео- ремы будут ограничены решения Xf/P (/=0, 1, , £—1; f=I, 2, ... , m), а вместе с ними будут ограничены и функции влияния Гп в ча- Р стности, Гп I Из (5.12.17) и отсюда следует утверждение теоремы. Рассмотрим, наконец, третью часть погрешности, которая зависит от ошибок гп самого вычислительного правила (5.12.4): Напомним, что при помощи увеличения точности вычисления началь- ных значений yi и уменьшения погрешностей округления ап можно всегда добиться того, чтобы при /г->0 было тах|£п|-^0 и шах|Еп'|->0. Это дает нам право сказать, что правило (5.12.4) наверное допускает равномерно сходящийся вычислительный процесс, если maxlE/J-H) (/i->0). (5.12.20) Предположим, что r=r(/i) есть верхняя граница для абсолютной ве- личины погрешности гп при всяких п (p^n^Af—1): [rn| ^r=r(/z). Для Еп" верны оценки W-1 max|En"|^r |Гь |. (5.12.21) Отсюда, очевидно, следует Теорема 3. Если при h-+0 будет
§ 5.12. ВЫЧИСЛЕНИЕ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 513 N-1 р r(h) % |Га НО, k=p то правило (5.12.4) допускает равномерно сходящийся вычислительный процесс. Рассмотрим еще частный случай этой теоремы. Пусть правило (5.12.4) таково, что для соответствующего ему урав- р нения %?+*= Аг№~г выполняются условия теорем 1 и 2. Тогда, как г=0 выяснилось выше, существует такое число Mi, что при всяких k^p будет V |ГЙ И Ml. Отсюда и из (5.12.21) получается оценка max | Еп"| (Х-х0), из которой вытекает р Теорема 4. Если уравнение не имеет корней, модули 1=0 которых больше 1, и корни его, по модулю равные единице, являются однократными, то правило (5.12.4) допускает равномерно сходящийся вычислительный процесс всякий раз, когда Г (11) П 1 л п Приведем еще одну простую теорему, дающую достаточное условие устойчивости расчетного правила (5.12.5). Теорема 5. Если коэффициенты правила (5.12.5) неотрицательны: р Ai^O (i=0, 1, ... , р) и S Ai=l, то правило устойчиво относительно г=о роста погрешности. Возьмем соответствующее правилу однородное разностное уравнение р Уп+1== Aiyn—i. 1=0 Отсюда получается следующая оценка: р р IУп+11 А-1l/n-iI тах 1х/л| Д? А= max |г/л|. » = ° n—p^k^n i = 0 n—P^k^Zn
514 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Если применить оценку | yn+t | max |г/&| несколько раз, то можно П—р ^.kt^n прийти к заключению, что при любом п должно быть |r/n| max \yk\, иначе говоря, все значения решения однородного уравнения не больше максимального из модулей начальных значений yQi уи ... , ур. Отсюда следует ограниченность абсолютных значений всех функций влияния начальных значений единицей: |Гп1<1 (i=0, 1, ..., р; n=0, 1, 2, ...). Это, как было выяснено выше, позволяет утверждать, что среди корней уравнения V>+i= £ ЛДР“г‘ г=0 нет по модулю больших единицы и* корни, равные единице по модулю, являются простыми й, стало быть, правило (5.12.5) устойчиво. § 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ НЕОПРЕДЕЛЕННОГО ИНТЕГРАЛА 5.13.1. Интегрирование функции, заданной таблицей значений Пусть на отрезке [х0, в равноотстоящих точках xn=Xo-[-nh 1, ... , N; xo+Af/i^X<Xo+(^+l)^) известны значения функ- ции f и по ним нужно вычислить значения интеграла х 1/(*) = f/o+J* f(f)dt (5.13.1) хо в тех же равноотстоящих точках xn=Xe-\-nh, где задана функция f. Рассмотрим сначала задачу продолжения уже начатой таблицы. Вопросы о составлении начала и конца таблицы будут изучаться позже. Предположим, что вычисления доведены до узла xn=xQ-]-nh и у(хп) есть последнее найденное значение функции у(х)- Для нахождения сле- дующего значения y(xn+i) мы могли бы воспользоваться любыми изве- стными значениями y(xk) и какими угодно табличными значе- ниями f. Мы остановимся на методах, когда для нахождения y(xn+t) пользуются лишь одним предыдущим значением у(хп). Точное представ- ление y(xn+i) через у(хп) и функцию f есть Хп+1 у(хп+1)=У(Хп') + J f(f)dt.
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 515 Чтобы воспользоваться им, нужно знать f(t) всюду на отрезке [xn, Xn+i]. Точные значения f(/) нам не известны, но мы можем найти j(f) приближенно, выполнив интерполирование ее на [xn, xn+i] по задан- ной таблице значений f. Для интерполирования целесообразно привлечь табличные узлы, ближайшие к отрезку [хп, xn+i], и взять одинаковое число их с каждой стороны от отрезка. В качестве аппарата представле- ния интерполирующего многочлена может быть использована формула Ньютона — Бесселя (4.4.6). В нашем случае эта формула может быть записана, если считать f непрерывно дифференцируемой 2&-|-2 раза на [xn—kh, %п+(^+1)Л], в виде: №fn_i+№fn 2 + f (/) = /(х,+оЛ) = + Ц+ 4f.+ м 11 £ 1 (26)! A2Vn-fe+A2ftfn-ft+i (и—0,5) («+6— 1).. .(«—k) (26+1)! A2ft+1fn-ft+/-(0. r(/)=/l2ft+2 («+6) («+6—1).. .(«—6—1) (26+2)! f(2h+2) (Ю, Хп—6/l<g<Xn+(6+l)/l. Подстановка такого представления f в интеграл ®п+1 1 f f(f)dt=h. J f {xn-\-uh)du и несложные вычисления дадут следующее выражение для у (xn+i): 11 . A4fn-2+A4fn-i 191 Aefn-3+A6fn-2 720 ’ 2 60 480’ 2 (5.13.2Х
516 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 1 (u— Rn,k = h\ r(xn+uh)du = о 1 h2k+3 С = (2^+2)! j ("+Ч(“+‘-0- (и—k— l)f»+»(g)rf« = ft2k+3 (2^+2)! /(2^+2)^) J (u + k) (u-j-Й—1). . .(u~k~V)du, 0 Xn—kh<x]<Zxn+ (&+1) h. При переходе к последней части равенства было вынесено за знак интег- рала среднее значение производной ^2к+2\ что можно сделать, так как ядро интеграла (u+&).. .(u—k—1) сохраняет знак на отрезке [0, 1]. Если в (5.13.2) отбросить неизвестный остаток Rn,k, получится при- ближенное расчетное правило. Когда мы хотим применить его с самого начала вычислений для нахождения значений yz, ... , ук, мы должны выйти налево из интервала [хо, й найти дополнительно значения (х0—й), f_2=f (хо—2й), ... , f-k=f (х0—Mi). Если мы не имеем такой возможности или хотим избежать затраты труда на дополнительные вычисления, мы должны будем при построении правила вычисления изменить в интерполировании выбор узлов. Так, например, имея целью построить правило для нахождения r/(xi): xi У (*1) = У (*о) + J хо можно для интерполирования f на [х0, Xi] воспользоваться правилом Ньютона для интерполирования в начале таблицы (4.4.1): и и(и—1) Г (О =f (Xo+u/i) =fo+ ур д/о+ -4г2 Д2/о+ и (и—1) (и—2) 3! A3f ,«(«-!)...(и-й+1) 4 f"+'' + ’------*!------- Mf.+G
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 517 и (и— 1).. . (и—k} r=hh+l-L-(^r- Подстановка в интеграл приведет к равенству у ы = у (х.) +к [ Ай- _ 2_ A!fo+ ± д./0_ 1L мо+ _1_ д5/о+ +.. .+CftAftf0 ] +Яп, k (k^2), 1 Ck= -|rj u(u--l).. ,(u—£+l)du, Rn, ft=CA+1M+2/(^)(^), xQ<l<xk. (5.13.3) После отбрасывания остатка Rn, & получится приближенное равен- ство, позволяющее вычислить y(xi) по у(хо) и значениям f в точках, не выходящих налево за Хо- То же равенство с заменой Хо на Xi позволит вычислить у(х2) и т. д. Аналогичное можно сказать о вычислениях вблизи конечной точки xN. При помощи правила (5.13.2) можно найти у(хп) до y(xN-k) включи- тельно. Для вычисления значений y(xN_k+i), ... , y(xN} при помощи того же правила необходимо было бы вычислить значения /jv-m, ...» fN+k. Чтобы избежать этого, можно .воспользоваться правилом Ньютона для интерполирования в конце таблицы (4.4.3). Вычисления, сходные с про- деланными выше для точки Хо, приведут к следующему результату: - ТЕК AVn-5-- • •- (-О^СаД^-а! +Яп, k (&>2). IbU J Это правило может быть применено к нахождению У (^-л+1), - - - , У (xN) - 5.13.2. Вычисление при помощи периодически расположенных узлов При вычислении интеграла (5.13.1) наибольшего количества труда требует обычно вычисление значений функции f. Так как находить приходится чаще всего много значе- ний у(х), можно значительно сэкономить в работе, если каждое значение применять для нахождения не одного, а многих значений у (х). Этого можно добиться, если узлы, в которых вычисляются Д расположить на оси х периодически с периодом h и на каждом шаге вычислений брать значения f в сходственных точках нескольких промежутков. Поясним эту мысль более подробно.
518 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Остановимся опять на том случае, когда для вычисления y(xn+i) берется только одно предыдущее значение функции. хп + 1 y(Xn+t)=y(Xn)+ Вычислению здесь подлежит интеграл *п + 1 J Предположим, что для нахождения его значений на отрезке [xn, xn + i) взято tn узлов а, Р, хп ^а<Р<.. .<Х<хп+ь Эти узлы назовем основными. Дополнительно возьмем еще а узлов a+pih (i=l, 2, ... , а), сходственных а, b узлов Р+^гЛ (i=l, 2, ... , Ь)\ сходственных Р, I узлов 'k+tih (i== 1, 2, ... , /)', сходственных Л. Положение дополнительных узлов в интервалах [хь, определяется числами Pi, qiy ... , ti. Они могут иметь какие угодно целые значения, отличные от нуля. Их мы будем считать избранными и фиксированными. Обозначим JV-J-l общее число узлов: . .+Z=/V4-1 и рассмотрим правило вычислений’ р а I J f(t)dt^A0f(a)+ £ Aif(a+pi/i)+...+Lof(h)+ £ Lif^+tih). (5.13.4) хп <==Л Равенство содержит М-|-/п4-1 произвольных параметров а, ... , К и Л<, ... , Li (i = 0, 1, ...). Выбором их можно надеяться сделать правило точным для всех алгебраи- ческих многочленов степени Н+гц. Ниже будет показано, что за счет выбора параметров такая степень точности действительно может быть достигнута. Сейчас же мы проверим, что она является наивысшей возможной. Введем следующие многочлены: со(х) = (х—а) (х—Р).. ,(х—X), а I ®aW = И (x—a—pih)...........<0х(х)= П (x—k—tih), i=l г =1 й(х)=ша(х)...<оЛ(х). .Теорема 1. Ни при каких а, р, ... , Л, ...» Li (f=0, 1, ...) правило (5.13.4) не может быть точным для всех многочленов степени Л^+ш+1- Доказательство. Для доказательства достаточно проверить, что при f ==Q(x)6)2(x) равенство (5.13.4) не может-выполняться точно. Qсо2 есть многочлен сте- пени 1 ♦ Узлы квадратурной суммы, стоящей справа в (5.13.4), для него являются
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 519 корнями, и сумма равна нулю. С другой стороны, так как многочлен f = Qco2 сохраняет знак на отрезке [xn‘, Xn+i] и отличен от тождественного нуля, интеграл жп + 1 I Qco2t/x не равен нулю и правило .(5.13.4) не может быть точным. Из доказанной теоремы следует, что алгебраическая степень точности (5.13.4) ниже, чем AZ+m+’l, и самое большее может быть равна N-^m. Теорема 2, Чтобы правило (5.13.4) было точным для всех многочленов степени N-j-m, необходимо и достаточно выполнение условий: 1) правило должно быть интерполяционным; 2) для всякого многочлена Q(x)', степень которого меньше т, должно выполняться равенство жп + 1 I fi(x)o)(x)QWdx=0. (5.13.5) Доказательство. Необходимость первого условия следует из того, что если правило (5.13.4) является точным для многочленов степени то оно точно и для многочленов степени N, а тогда оно должно быть интерполяционным. Чтобы доказать необходимость второго условия, положим f = Q (x)(D (х) Q (х). Это есть многочлен, степень которого не больше N-j-m, и для него равенство (5.13.4) должно выполняться точно. Но во всех узлах правила f обращается в нуль, и поэтому должно быть верным (5.13.5). Для проверки достаточности условий положим, что f есть произвольный многочлен степени Af-Em. Если f разделить на Qco, можно f представить в виде f = QcoQ+r, где г и Q есть многочлены степеней меньше N и m соответственно. Так как Qco обра- щается в нуль во всех узлах правила, fur принимают там одинаковые значения. Ввиду того что выполняется (5.13.5), а степень г не больше N и пра.вило — интер- поляционное, верны следующие равенства, устанавливающие точность (5.13.4) для f: xn + i xn + l xn + i xn + l J f(t)clt = J QcoQt/^4-J rdt— J г^/=Лог(а) + a . э a + ЛгГ(а+рЛ)-^. ...=^A0f(fi)+ Aif (a+pih)+->- i—1 । i = 1 Доказанная теорема приводит вопрос о существовании правила, имеющего наивыс* шую степень точности к вопросу о возможности такого выбора чисел .а', (3,.. . . , Д, чтобы соответствующие им многочлены со(х) и Q(x) обладали свойством ортогональ- ности (5.13.5). Теорема 3. Как бы.ни были выбраны числа рг, . . . , tг, существуют основные узлы а, ... , Л, лежащие внутри [хп, х’л+t], для которых выполняется условие (5.13.5),
520 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Доказательство. Возьмем произвольные числа а, 0, , Л, удовлетворяющие неравенствам . .г^Х^Хп+1. (5.13.6) По ним составим многочлены со(х) и Q(x). Многочлен Q(x) сохраняет знак на [xn, Xn+i], так как нули его лежат вне или на концах этого отрезка. Примем Q(x) за весовую функцию и рассмотрим соответствующую такому весу систему многочленов Рь(х), ортогональную на [xn, хп+1]. Среди них выберем многочлен Рт (х) степени т. Можно считать, что его старший коэффициент равен единице: Рт (х) =Хт+р1Хт-1+. . ,+рт Для всякого многочлена Q(x), степень которого меньше /и, выполняется равенство J Q(x)Pm(x)Q(x)dx = 0. (5.13.7) X п Корни Рт(х) все действительны, различны и лежат внутри отрезка [хп, Хп-н] (см. ,§ 5.5, теорема 3). Обозначим их gh (k= 1, 2, ... , tn), и пусть xi<gi<g2<.. .< <£m<xn+i. Если бы оказалось, что |i = a, £2 = 0, ... , £>т = к, то многочлен Рт совпал бы с со(х) и равенство (5.13.7) было бы равносильно условию (5.13.5). Покажем, что корни непрерывно зависят от а, 0, ...» X. Свойство ортогональ- ности (5.13.7) эквивалентно равенствам хп + 1 J Q (х)Рт (х)хг\/х = 0 х п (1 = 0, 1, ... , т— 1). Если сюда внести вместо Рт его разложение по степеням х, для коэффициентов pk полу- чится система уравнений жп + 1 + + t —• .“Ь^-гРтп ==0 (i = 0, 1, ... , tn 1)> Ci = I О(х)Хг*б/х. n Весовая функция Q (х), а следовательно, и числа Ck есть многочлены от а, 0, .;. , X. Определитель системы Со Ci ... Сщ — 1 г\__ Ci С 2 «л» Ст Сщ — 1 Ст, • • з С2т—2 является вместе с тем определителем положительной квадратичной формы переменных (t=l, 2,... , т) I хт + 1 С / т \2 фт (Z1, z2, ... , zm) = I Й(х) I x^Zi I dx
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 521 и отличен от нуля при всяких а, (3, ... , X из области (5.13.6). Поэтому коэффициенты ph (k = 1,... , т) есть рациональные функции от а, (3, ...» X, непрерывные в указанной области. Корни (k=i, , т) многочлена Рт(х) непрерывно зависят от рк и являются поэтому непрерывными функциями а, ...» X в той же области: Ь = Ф1(а, р, .... X), Ь = ф2(а, Р, ...» X), (5.13.8) 1вт — фт(СЬ, Р, . . . , X) . j Эти равенства имеют указываемый ниже геометрический смысл. Неравенства (5.13.6) выделяют в /n-мерном числовом пространстве замкнутую m-мерную пирамиду. Так как для чисел верны соотношения хп<&<^=>2<.. .<gm<Xn+i, равенства (5.13.8) дают однозначное и непрерывное преобразование указанной пирамиды в себя. По теореме Брауэра,*) при преобразовании такого рода существует неподвижная точка и, следова- тельно, существуют значения а, р, ... , X, удовлетворяющие неравенствам хп<а<р< С.. .<CX<Xn+i, для которых £1 = а, |2=Р, ...» £т = Х, и будет поэтому выполняться (5.13.5). Из существования же таких а, р, ... , X, по теореме 2, вытекает существование правила (5.13.4), имеющего наивысшую степень точности A-f-zn. Вопросы о единственности или числе таких правил не выяснены. Частные правила такого рода, узлы и коэффициенты для них, так же как соответ- ствующие им остатки, приведены в книгах [3, 4]. 5.13.3. О правилах, использующих в вычислениях несколько предшествующих значений интеграла До сих пор мы рассматривали правила вычисления, в которых для нахождения сле- дующего значения уn+i неопределенного интеграла используется только одно предшест- вующее его значение. В достаточно общей форме правила такого вида могут быть за- писаны в виде Уп+i ~ Уп — p+h Вп jf (Js>n j) гп• (5.13.9) j = i Соответствующее алгебраическое уравнение (5.12.15) имеет форму Х?+1=1. Корни его по модулю равны единице и являются однократными. Поэтому правило (5.13.9) устой- чиво относительно роста погрешности и допускает сходящийся вычислительный процесс всякий раз, когда погрешность гп правила будет малой величиной выше первого по- рядка **) сравнительно с h. Более сложной является теория вычислительных правил, в которых для нахождения уn+i используются несколько предшествующих значений интеграла. Одним из затрудне- ний, возникающих при построении таких правил, является то обстоятельство, что стрем- ление к достижению высокой или даже наивысшей степени точности здесь часто оказы- вается несовместимым с требованием устойчивости вычислительной схемы. Поясним эту мысль простым примером. Возвратимся к задаче вычисления неопре- деленного интеграла от функции, заданной таблицей значений в равноотстоящих точках *) При однозначном и непрерывном отображении m-мерной пирамиды в себя суще- ствует по меньшей мере одна неподвижная точка. (См., например, Л. В. Канторович, Г. П. Акилов. Функциональный анализ в нормированных пространствах. М., 1959, стр. 571.) Гп **) —->0 ПРИ равномерно относительно п.
522 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ xn = xo+n/i, и предположим, что вычисления доведены до значения уп- Допустим теперь, что для вычисления уп+i мы хотим воспользоваться k+1 предшествующими значениями функции у(х) и производной от нее: уп, Уп-ь ...» yn-k, yn' = fn\ y'n-i = fn-i, , y'n-k=fn-k и построить правило вычислений вида k Уп+1~ 5! [Aiyn-i-t~hBif п — г]. (5.13.10) г=0 Сделаем одно замечание. В задаче неопределенного интегрирования правило такого вида хотя и является допустимым, но не будет иметь наилучшую форму при вычислениях в середине таблицы, так как не использует значений f в точках, следующих за хп, где f есть известная функция. Правило имеет хорошую форму для вычислений вблизи конца расчетной таблицы, когда мы не знаем значений f дальше X. Для наших целей такой недостаток формы правила не имеет принципиального зна- чения, и нам достаточно знать, что правило является допустимым и может быть в неко- торых случаях полезным. Но, вероятно, следует отметить, что в других, более сложных задачах правила вида (5.13.10) являются естественными и ими широко пользуются в вычислениях. Рассмотрим проблему численного решения дифференциального уравнения первого порядка с начальным условием y' = f(x, УУ уМ=х0, Хо^х^Х. (5.13.11) Она равносильна решению интегрального уравнения X У(х)=у0+ J f(t, y(t))dt, хо и это делает очевидной ее связь с задачей неопределенного интегрирования. Но между этими задачами есть существенное различие. При вычислении неопределенного интеграла (5.13,1) .функция f считается известной на всем отрезке [хо, X] и можно пользоваться любыми значениями f. При численном же нахождении значений решения дифференциаль- ного уравнения на сетке точек Xk = Xo-{-kh (Л = 0, 1, ... , N) мы можем считать функ- цию f известной. только до точки хп и не имеем права без введения дополнительных вычислительных средств пользоваться значениями f в точках, следующих за хп. В этой задаче (5.13.11) правило вида (5.13.10), не использующее значений f в точках за хп, является естественным и его испытание на устойчивость имеет значение. Правило содержит 2^4-2 произвольных параметров Л,, Bi (i=0, 1, ... , k), и их можно выбрать так, чтобы оно было точным всякий раз, когда у(х) есть многочлен степени не выше 2^+1. Для этого достаточно сделать правило интерполяционным, при этом интерполирование yn+i здесь выполняется по 2^+2 значениям функции и первой производной: yn-i, fn-t (i = 0, 1, ... , k). Это есть интерполирование с £+1 двой- ными узлами. Нужное нам выражение для yn+i может быть получено при помощи формулы (4.7.10), если в ней положить х=хп+1 и внести надлежащие изменения к (5.13.12) Как выяснялось в § 5.12, устойчивость. илц неустойчивость правила (5.13.10) относи- тельно роста погрешности зависит от корней алгебраического уравнения
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА .523 k P(X)=V+i- д.^-г=о, 1=0 Если среди корней есть большие единицы по модулю, то правило будет неустойчивым, при этом неустойчивость будет тем более сильной, чем больше будет максимальный модуль корня. Составить такое уравнение для правила (5.13.12) легко, но запись его в общем виде недостаточно показательна, так как по ней просто судить о наличии кор- ней, имеющих модуль, больший единицы, но затруднительно получить сведения о числен- ных значениях модулей корней. Рассмотрим коэффициент Ak при нулевой степени X в многочлене Р(Х). Абсолютное значение его равно произведению модулей всех корней. Без труда вычисляются следующие величины: <о(хп+1) = (Хп+1—ХпЪ . .(Хп+1—Xn-h) = (&+1)! hh+\ to'(Xn-k) = (Xn-k—Xn). , .(Xn-k—Xn-k+i) = (— l)ft k\ hht 1 V Xn—h Xn—ft+1 Это дает k v = r При всяких значениях k Ak больше единицы и среди корней уравнения Р(Х) =0 всегда есть по модулю большие единицы. Поэтому правило (5.13.12) при k^\ всегда неустойчиво в смысле роста погрешностей. Чтобы судить о том, насколько сильной явля- ется эта неустойчивость, достаточно рассмотреть частные случаи. Пусть k=\. Интерполирование уп+\ будет выполняться по двум двойным узлам Хп\ хп-1- Правило (5.13.12) имеет вид yn+i = — 4r/n+5z/n-i+M4fn+2/n-i). Многочлен Р(Х) =Х2+4Х—5, Корни его есть М=1, Х2 = —5. Этим правилом мы пользовались при X вычислении интеграла у(х)у= J* [см. (5.12.2)] в § 5.12 и видели, насколько сильный о рост погрешности вызывает корень Х2 = —5.. Пусть k=2. При интерполировании yn+i используются три двойных узла хп, *n-i, Хп-2> Равенство (5.13.12) будет {/n+i = — 18z/n+9z/n-i+ 10#п-2+Л(9/п + 18fn-i+3fn-2). Корни соответствующего ему многочлена Р(Л) =%3+18Х2—Г9Х—10 есть 1 ------------ , 1 -------------------------- Хг-=1, Х2= — (-19+У 321) «-0,542, Л3= — (-19- У 321) «-18,458. 2 2
524 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Корень Хз позволяет утверждать, что рассматриваемое правило имеет очень быстро воз- растающую погрешность и, по-видимому, является малопригодным для вычислений даже на «небольшое» число шагов. Сейчас мы ознакомимся с одним из способов составления вычислительных правил рассматриваемого вида, когда требование достижения наивысшей степени точности мо- жет быть совмещено с устойчивостью правила. Это достигается, как видно будет ниже, за счет введения «дополнительных» узлов. Предварительно нам потребуются некоторые сведения из теории интерполировация. Пусть у(х) есть произвольная, непрерывно дифференцируемая на конечном отрезке •[а, 6] функция. Возьмем на [a, d] r+s+l разных точек: £1, ... , gr,_ ^г+s + l» ^г+в+2» • • • > ^r+s+l и предположим, что в точках (1 заданы значения функции у(&) (l^i^r), в точках (r<J^r+s)—значения функции и производной у(g<), у'(&) (r<zi^ ^r-f-s) и, наконец, в точках —значения производной у' (r+s<t^r+$+/). Для сокращения записи узлы этих трех видов будем называть со- ответственно простыми, двойными и дополнительными. Будем считать также, что нам дана на отрезке [а, &] точка х, отличная от двойных и простых узлов. Мы не исключаем заранее возможности ее совпадения с одним из дополнительных узлов, хотя, как видно будет через несколько строк, эта возможность в задаче, которой мы будем заниматься, не может осуществляться. Поставим теперь себе целью вычислить у(х) по известным значениям у(&) и у'(&). Для этого возьмем произвольно r-f-s чисел а, (/=1, 2, ... , r-j-s) и s-}-l чисел pj (j=r+l, ... , r+s+О и составим приближенное равенство г+8 r+s+Z у(х) » ад/(^)+ jg j=i j=r+l (5.13.13) Алгебраическая степень точности *) равенства зависит как от коэффициентов а/, Pj, так и от точек х, (7=1, ... , r+s-f-Z). Выясним, какой наивысшей возможной степени точности может достичь равенство и каким условиям должны для этого удовлетворять параметры aj, pj, х, gj. Теорема 4. При всяких aj, Р; и любом положении точек х, gj степень точности пра- вила (5.13.13) всегда меньше r+2s-f-2Z. Доказательство. Достаточно показать, что всегда существует многочлен, имеющий степень не больше r-j-2s-|-2Z, для которого равенство (5.13.13) не может выпол- няться точно. ♦ Пусть х не совпадает ни с одним из дополнительных узлов. Рассмотрим многочлен степени г+2$4-2/ У&) = (г-Ю.. .(z-gr) (г-Ui)2 •. .(z-gr+s+02=4 (г). (5.13.14) Сразу же видно, что A(gj)=O (/=1, ...» г+$+0 и А'(£;)=0 (/>г)- Для у(г} = =A(z) правая часть (5.13.13) равна нулю, тогда как у(х)=А (х) =/=0 и равенство (5.13.13) не может быть точным. *) Напомним, что число тп называют степенью точности равенства, если равенство выполняется точно для всякого многочлена y(z) степени m и не является точным для z/(z)=2m+4a
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 525 Допустим теперь, что х совпадает с одним из дополнительных узлов, например, Л (z) пусть х=£/.+в+г, и введем многочлен B(z) =--------. При В'(%r+s+i) =В'(х)=£0 по- (z—х)2 ложим 1/(г)=В(г) 2-х- В(х) В'(х) у(г) есть многочлен степени r4-2s-|-2/-rl. Ввиду #'(|г+в+;) =у'(х) =0 правая часть (5.13.13) равна нулю, левая же часть , ВЦх) У Х В'(х) отлична от нуля и равенство (5.13.13) не может быть точным. Поэтому в рассматривае- мом случае степень точности (5.13.13) ниже r+2s+2Z— 1. Когда В'(х) =В' (£r+s+i) =0, достаточно положить r/(z) = B(z), чтобы убедиться в том, что степень точности (5.13.13) в этом случае меньше r+2s+2/—2. Теорема 4 показывает, что степень точности т равенства (5.13.13) всегда меньше r+2s+2l и самое большее может быть равна г-]-2s4-2/— 1. Из доказательства теоремы видно, что если т=г4"2$4-2/—1, то точка х должна быть отличной от всех дополнитель- ных узлов gj (r+s<.j^r+s+l). Это условие всюду ниже будем считать выполненным. Докажем теорему, дающую условия, при которых равенство (5.13.13) имеет наивыс- шую степень точности /n=r4-2s4-2/—1. Теорема 5. Для того чтобы равенство (5.13.13) было точным для всяких многочленов степени г4"2s4-2/— 1, необходимо и достаточно выполнение условий: 1) х и должны удовлетворять системе / уравнений (/ = r+s4-l, ... tr+s+l)t (5.13.15) (знак штрих, стоящий у 2, показывает, что должно быть пропущено значение k=j)-t 2) коэффициенты aj и 0j должны иметь значения: (5.13.16) Aj(z)=A(z) (z-gj)-2. где Перед доказательством сделаем замечание о теореме. Она приводит задачу о по- строении равенства (5.13.13), верного для многочленов степени r4-2s-j-2/—1, к вопросу о выполнении уравнений (5.13.15), так как по х и коэффициенты а; и 0, всегда могут быть построены единственным образом при помощи формул (5.13.16).
526 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Построить простое доказательство теоремы можно, если воспользоваться правилами интерполирования с кратными узлами (§ 4.7). Доказательство. Пусть у (г) есть произвольная дифференцируемая функция на [а, 6]. Интерполируем ее по следующим значениям y(z\ и y'(z): У&) (/=1, 2, , r+s+Z), /(Ь) (/=r+i;, N-s+Z). Это есть интерполирование с г простыми узлами gj (/= 1\ .. , г) и s-\-l двойными узлами g> (r</^r4-s+Z). Интерполирующий многочлен Р(у\ z), имеющий степень не больше r+2s4-2Z—1, может быть построен по правилу (4.7.8) и имеет следующий вид: P(z)=P(yt z) = fe = l Л(2) (г-Ь)Л'(^) #(£*) + Ak(z) г+з+!. 1 , V R = 1 + 1 (г-^)/(^) = r+s+Z r+s+Z = jg dk(z)y'G,k). k = i h = r + i (5.13.17) Остаток интерполирования R(y; z) =y(z)—P(y\ z) имеет значение *) R (у, z) = A(z) (r+2s+2Z)! ^+2’+«>(g). Наиболее просто убедиться в справедливости (5.13.17) можно при помощи простой про- верки равенств Р(Ы=У(Ы .(/=1.......r+s+Z) и Р'(^)=/(^). (/=г+1, ... , r+s+Z). Коэффициенты lh(z) и dk(z) являются многочленами влияния соответствующих Зна- чений z/(gk) или z/'(gfe). Каждый из них имеет степень r+2s4-2Z—1. При k>r многочлен Zft(z) = Ak(z) ^(gb) 1-(2-М Аь(Ы обладает следующими свойствами: ( о, * Д(^)= < t , (/ = 1, ... , r+s+Z), Z/(g5)=O (/=r+l, r+s+l). (5.13.18) I 1, l = k, Аналогичные свойства легко указать и для других многочленов влияния Zk(z) (6=1, . ..,/) и dh(z) (k>r). Проверим необходимость условий теоремы. Пусть равенство (5.13.13) точно для мно- гочленов степени r+2$+2Z— 1. В частности, оно должно быть точным для многочлена y(z) =lj(z) при />r+s- Но правая часть (5.13.13) для такого многочлена влияния равна нулю, и должно, следовательно, выполняться равенство *) Приведенное представление остатка R предполагает существование у у(х) не- прерывной производной порядка r+2s4-2Z на [а, Ь],
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 527 Если сократить на не равный нулю множитель (J = r+s+l, ... , r+s+l). (5.13.19) и вычислить логарифмическую производную ---------, сразу же видно будет, что эти равенства совпадут с (5.13.15). Этим доказана необходимость первого условия теоремы. Чтобы доказать необходимость выполнения первого из равенств, входящих во вто- рое условие теоремы, будем считать j лежащим в границах от 1 до г и рассмотрим мно- гочлен влияния Z;(z) = A(Z) Он имеет степень r+2$+2Z— 1 и для него равенство (5.13.13) выполняется точно. Но 1, *=/, О, ^=7^/, (£=1, 2, ... , r+s+o; //(gft)=0 (£=r+l, ... , r+s+l) и (5.13.13) примет вид А (х) Z, (х) =--------------= aj • 1. (х-^)Д'(^) Аналогично доказываются и другие равенства (5.13.16). Достаточность условий проверяется столь же просто. Если у (г) есть произвольный многочлен степени r+2s+2Z—1, для него интерполяционный многочлен (5.13.1?) будет совпадать с y(z) при всяком z. В частности, в точке х будет верно равенство Ак(х) ^л(^) (x-gft)/(^). (5.13.20) r + s + i Условия (5.13.15) равносильны равенствам (5.13.19) и в средней сумме yj верхний k = г +1 индекс суммирования r+$+Z может быть заменен на r+s. А тогда, ввиду значений (5.13.16) коэффициентов aj и Pj, последнее равенство становится равносильным (5.13.13) и, так как это верно для всякого многочлена у (z) степени r+2$4-2Z—1, достаточность можно считать установленной. Теорема 5 позволяет сказать, что мы можем достигнуть в равенстве (5.13.13) наи- высшей степени точности r+2s4-2Z— 1, если узлы выберем так, чтобы выполнялись равенства (5.13.15). После этого достаточно коэффициентам aj, придать значения (5.13.16).
528 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Мы должны теперь выяснить, можно ли выполнить условия (5.13.15), и если можно, то какой произвол останется после этого в нашем распоряжении. Большую помощь нам окажет то обстоятельство, что условия имеют простое и очень наглядное физическое истолкование. Рассмотрим комплексную плоскость, возьмем в ней две точки Zi, z2 и по- местим в них электрические заряды масс и е2. Предположим, что они действуют друг на друга с силой, численное значение которой пропорционально массам eit е2 и обратно пропорционально первой степени расстояния, направленной по прямой, соединяющей Zi и Z2. С взаимодействием такого рода приходится иметь дело в теории плоского элек- тростатического поля. Коэффициент пропорциональности можно принять равным единице. Сила отталки- £1^2 вания, с которой заряд в точке z4 действует на заряд в £г, равна z2—Zi Возьмем теперь на плоскости г+$+1 точек х, gi, g2, ... , gr+s и закрепим их. В точки х, gi, ... , 1г поместим заряды массы 1, а в точки gr+i? ...» gr+s— заряды массы 2. Кроме того, возьмем I свободных зарядов массы 2 и комплексные координаты их обоз- начим gr+s+i, ... , gr+s+z- В положении равновесия равнодействующие всех сил, прило- женных к каждому свободному заряду, должны быть равны нулю: r+s (j=r+$+l, . .а , r+$+Z). Эти уравнения равносильны (5.13.15) и отличаются от них только множителем 2 и со- пряжением. Указанная сейчас аналогия между условиями (5.13.15) и положениями равновесия системы электрических зарядов позволяет исследовать уравнения (5.13.15) наглядным путем и сделать очевидными указываемые ниже результаты. 1. Если х, g> (/=1, ...» r-j-s) есть любые комплексные числа и gj (/ = r+s+l, ... , r+s+Z) удовлетворяют системе (5.13.15), то точки с комплексными координатами gr+s+i, ... ', gr+s+z лежат В' наименьшем выпуклом многоугольнике, содержащем х и gj (/^r-j-s). В частном случае, когда х, gi, ... , gr+s лежат на действительной оси, то gj (/>г+$) лежат внутри наименьшего отрезка, содержащего х, gi, ... , gr+s. 2. Пусть х, gi, ... , gr+s действительны и различны. На числовой оси между точками с такими координатами будет r+s промежутков. Предположим, что указан закон рас- пределения свободных зарядов по таким промежуткам, т. е. указано, сколько свободных зарядов должно лежать в каждом из промежутков. Отметим, что число способов рас- (r+$+Z— 1)! пределения можно подсчитать и оно равно —- ——-----jyp Существует решение системы (5.13.15), имеющее заданный закон распределения свободных зарядов по промежуткам, и если не различать решения, получающиеся друг из друга перестановкой свободных зарядов, то такое решение будет единственным. Изложенные простые соображения позволяют высказать приводимую ниже теорему о равенстве (5.13.13). Теорема 6. При всяких действительных и различных х, gi, ... , gr+s дополнительные » (r+s+Z 1)! узлы gr+e+i, ...» ^r+s+i всегда можно выбрать ----------jyj— способами так, чтобы равенство (5.13.13) имело наивысшую алгебраическую степень точности r+2$+2Z—1. При этом, если заранее указать, какое число дополнительных ‘ узлов должно лежать в каждом из промежутков между х, gi, ... , gr+s, то среди возможных способов дости- жения наивысшей степени точности существует одий и только один способ, при котором дополнительные узлы имеют указанное для них распределение по промежуткам.
§ 5.13. ПОНЯТИЕ О НЕКОТОРЫХ ЧАСТНЫХ МЕТОДАХ ВЫЧИСЛЕНИЯ ИНТЕГРАЛА 529 Возвратимся.к задаче вычисления неопределенного интеграла (5.13.1). Предположим, что последнее найденное значение есть уп, и постараемся выяснить рациональную форму применения правила (5.13.13) к нахождению Уп+i. Роль точки интерполирования х здесь играет табличный узел хп+ь Естественно требовать, чтобы правило имело наивысшую степень точности. Напомним, что тогда в нашем распоряжении находится выбор простых и двойных узлов (/=1, ... , г+$). В качестве их могут быть взяты любые таблич- ные узлы Xky предшествующие xn+i- Предположим, что они как-то избраны и фиксиро- ваны. После этого мы имеем право распорядиться распределением вспомогательных узлов между точками xn+i, . , £r+s. Легко предвидеть, какой закон распределения следует признать наилучшим, если строить правило вычислений для широкого класса функций и не учитывать какие-либо особые их свойства, которые могли бы заставить по-разному оценивать различные уча- стки отрезка [а, Ь]. В этих условиях для достижения лучшей точности выгодно вспомо- гательные узлы взять возможно ближе к точке, где мы вычисляем функцию у(х), и по- местить их в промежуток, примыкающий к xn+i. Можно привести простые соображения, подтверждающие такое предвидение, связан- ные с оценкой погрешности правила (5.13.13). При доказательстве теоремы 5 мы обра- щали внимание на то, что правая часть равенства (5.13.13), если оно имеет наивысшую степень точности, совпадает со значением вспомогательного интерполяционного много- члена P(z)=P(y\ z) (5.13.17) при z = x. Поэтому погрешность правила равна значению остатка интерполирования R(f-, х), аналитическое представление которого приведено двумя строками ниже (5.13.17): R (у, х} = Д(х) ------L2-------„(r+2s+2i) /t) (r+2s+20! А (х) = (х-g,)... (х—lr) (x-gr+i)2... (x-gr+»+i)2. Для множества функций, определяемого условием |^(г+2з+20(г) | ге[й, 6],' погрешность правила имеет следующую точную оценку: ИМ 1-м От выбора узлов в оценке зависит только |А(х) |, и наилучшим расположением узлов естественно считать то, при котором эта величина имеет наименьшее значение. Если счи- тать простые и двойные узлы & лежащими слева от xn+t и если принять во внимание электростатическую аналогию задачи о расположении узлов, то будет ясно, что множители, входящие вЛ(х) и отвечающие вспомогательным узлам х—£r+s+i, ... , £r+s+z, будут иметь наименьшие численные значения, когда ^г+в+ь .... , ir+s+i будут ле- жать в промежутке, примыкающем к xn+i. Произведение (xn+i—£i).. .(xn+i—£r) (xn+i—£r+i)2... (Xn+i—£r+s)2, отвечающее простым и двойным узлам, будет иметь наименьшее значение, очевидно, в том случае, когда эти узлы займут табличные места, ближайшие предшествующие xn+i, при этом двойные узлы следует поместить в точках хп, хп-ъ , *п-з+1 и простые — в точках Хп — 8, ...» Хп — S — г+1. Если воспользоваться электростатической аналогией, то можно сказать, что при та- ком расположении двойных и простых зарядов они будут оказывать на' свободные заря- ды наиболее сильное давление слева направо и прижимать их к заряду в точке xn+i. Поэтому множители (xn+i—£j) (/>r+s), отвечающие свободным зарядам, будут иметь наименьшие, возможные значения. Приведенные наглядные соображения позволяют высказать следующее правило по- строения расчетной формулы (5.13.13).
530 Гл. 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ Если равенство (5.13.13) имеет наивысшую степень точности и его узлы gj и коэф- фициенты dj, Р; удовлетворяют, следовательно, условиям теоремы 5, то для достижения минимального значения оценки погрешности правила нужно: 1) дополнительные узлы поместить внутри отрезка [хп, Xn+i];- 2) двойные узлы взять в точках хп, xn-i, ...» Xn-s+r, 3) в качестве простых узлов взять хп-в, ... , xn-s-r+i- При таком выборе узлов правило (5.13.13) принимает вид yn + i~ У! (азУп-]-\~^У'n-j)+ У С}Уп—S—d$y' (Xn-j-htj} (5.13.21) Покажем теперь, что правило вида (5.13.2Г), имеющее наивысшую степень точности, всегда может быть построено так, чтобы оно было устойчивым относительно роста по- грешности. Для этого достаточно, как показано в теореме 5 § 5.12, чтобы коэффициенты aj и Су при. значениях функции были неотрицательны. Чтобы не вводить новых обозна- чений, возвратимся к старой записи (5.13.13) расчетной формулы, но положим в ней x==Xn+i и будем считать, что ее узлы в соответствии с указанным несколькими стро- ками выше правилом взяты на отрезке, прилежащем к точке xn+t- Мы должны выяснить условия положительности коэффициентов а/. Возьмем один из простых узлов gj (1^/^г) и рассмотрим соответствующий ему коэффициент а,= Аw - МО(x-Ui)2• • • (х-5,+»+о2. (Хп + 1—ЬМ (Ej) Так как узлы все лежат слева от хп+ь значения 4(xn+i) и xn+i—положитель- ны и знак dj совпадает со знаком A'(Jy). Д'(^) = ЬЪ . .(gi-gj-1) (6j—gj+i). . .(^-gr) (Mr+l)2 . - - (^-Us+z)2. Отсюда видно, что значения A'(^j)* а следовательно и aj, отвечающие соседним простым узлам, будут противоположных знаков. Если мы хотим, чтобы все aj были положительными, необходимо считать либо г=0 и не брать ни одного простого узла, либо г=1 и взять лишь один простой узел. Рассмотрим теперь коэффициент aj (г</г^г+$)» отвечающий двойному узлу: .Aj(Xn + i) (^,3 ХП4-1) Г 1 А/(|j) я ^j(^j) xn+i Aj(^j) J Aj(z)=A(z) Простые узлы лежат левее двойных, и поэтому >0. Так как &<.хп+1, множитель перед прямоугольной скобкой отрицателен и условием неотрицательности aj будет не- равенство r + s + Z Xn + 1 Xn + i ^0. (5.13.22) Ему легко придать физический смысл. Возвратимся к электростатической аналогии условий достижения наивысшей степени точности. В левой части неравенства (5.13.22)
ЛИТЕРАТУРА 531 стоит величина, равная половине значения сил отталкиваний, которые испытывает заряд в точке gj со стороны всех других зарядов. Условие же (5.13.22) означает, что эта равно- действующая направлена по числовой оси в отрицательную сторону или равна нулю. Точка Xn+i и все вспомогательные узлы лежат справа от двойного узла и будут толкать заряд в gj налево. Это дает право высказать следующее утверждение. Какими бы ни были числа г и s, для них существует lQ такое, что при I^Iq все aj- (/ = г+1, ••• » г-f-s) будут неотрицательны. Например, допустим, что берется один двойной узел в точке хп и один простой узел в точке хп-1. Коэффициент ai, отвечающий простому узлу xn-i, как выяснено выше, будет положителен. Условие положительности коэффициента аг, отвечающего двойному узлу хп, запишется в виде неравенства Так как gj>xn, оно выполняется при всяких Z^l. Численные значения коэффициентов aj, pj и вспомогательных узлов вычислены для некоторых простейших случаев. Небольшие таблицы их можно найти в книгах [3, 4]. Литература 1. Березин И. С., Жидков Н. П. Методы вычислений, т. I. М., 1966. 2. К р ы л о в А. Н. Лекции о приближенных вычислениях. Л., 1933. 3. К р ы л о в В. И. Приближенное вычисление интегралов. М., 1967. 4. Крылов В. И., Ш у л ь г и на Л. Т. Справочная книга по численному интегриро- ванию. М., 1966.
Добавление I НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА § 1. МЕТРИЧЕСКИЕ ПРОСТРАНСТВА. СХОДИМОСТЬ И ПОЛНОТА Пусть X есть множество элементов х произвольной природы. Оно на- зывается метрическим пространством, если каждым двум элементам х, у^Х поставлено в соответствие число р(х, у), называемое расстоянием между х и у и удовлетворяющее условиям: I) Р(х> р(х, f/)=0 в том и только в том случае, когда х=у\ 2) р(х, у)=р(у, х); 3) р(х, г)^р(х, у)+р(у, г). Эти условия являются аксиомами метрики. Первое из них называют иногда аксиомой различения, второе — аксиомой симметрии и третье — аксиомой треугольника. Расстояние позволяет естественным образом ввести понятие сходи- мости. Последовательность элементов хп (п=1, 2, ...) называется схо- дящейся к элементу х*, если р(хп, х*)->0 (п->оо). В таком случае пишут либо хп->х*, либо lim хп=х*. Укажем на два простых, но важных следствия из аксиом метрики. 1. Если хп—>х* и Уп-+У*, то р(хп, уп)“>р(^*, У*), иначе говоря, рас- стояние р(х, у) есть непрерывная функция своих аргументов х и у. При помощи двукратного применения неравенства треугольника получим соотношение Р« /)^р(*'. х)+р(х, /)^р« х)+р(х, 1/)+р(«/. у')- Отсюда Р« р(*. f/)=sSp« х)+р(/, у). Меняя же местами пары элементов х, у и х', у', получим неравенство с противоположным знаком в левой части, и поэтому I р (*'» у') -р(м) I ^р (*',*) +р (у'. у) • На этом основании можем написать |р(Хп, Уп)~Р(Х*, У*) | ^p(Xn, X*)+p(t/n, У*)->0, что доказывает утверждение.
§ 1. МЕТРИЧЕСКИЕ ПРОСТРАНСТВА. СХОДИМОСТЬ И ПОЛНОТА 533 2. Если хп->х* и хп->х', то х*=х' и сходящаяся последовательность не может иметь двух разных пределов. Действительно, 0=р(хп, хп)->р(х*, х'). Следовательно, р(х*, х')=0 и х*=х'. Для всякой сходящейся последовательности элементов хп выполняет- ся признак Больцано — Коши. В самом деле, если хп->х, то для величины е>0 существует по такое, что при всяком п>п0 будет р(хп, Пусть п>Ио и /п>По. Тогда 1 Обратное, вообще говоря, не верно, так как существуют метрические пространства, в которых из выполнения признака Больцано — Коши для последовательности не обязательно следует, что эта последовательность будет сходящейся. Метрическое пространство X называется полным, если в нем всякая последовательность хп, для которой выполняется признак Больцано — Коши, будет сходящейся. Для полных метрических пространств верна теорема о сходимости: для того, чтобы последовательность элементов хп была сходящейся, необходимо и достаточно, чтобы для нее выполнялся признак Больцано — Коши. Пример неполного метрического пространства дает множество R ра- циональных чисел, в котором за расстояние принято абсолютное значе- ние разности между числами: р(х, у) = |х—у\. Последовательность рациональных чисел хп, выполняющая признак Больцано — Коши, мо- жет не иметь предела в 7?, так как ее пределом может быть иррациональ- ное число, которое не принадлежит R. Приведем примеры метрических пространств, полезных в теории си- стем численных уравнений. Рассмотрим n-мерное числовое пространство /?п, элементами которого являются упорядоченные совокупности п действительных (или комплек- сных) чисел х= (xi, х2, ... , хп). Метрика в Rn может быть введена мно- гими способами. Мы остановимся на трех наиболее употребительных метриках. 1. Кубическая, или m-метрика. Она определяется равен- ством рт(х, z/)=max|Xi—t/i|. * (1.1) Первая и вторая аксиомы метрики, очевидно, выполняются. Выполне- ние третьей аксиомы проверяется легко: рт(х, z) =тах|хг—Zi \ =max| (x~y^ + ^y—^i) I i i
534 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА max [ I Xi—Уг I +1 y—Zi | ] Стах | х —yi | +тах | у—Zi | = i it = Рт(Х, t/)+pm(t/, г). 2. Октаэдрическая, и л и $ - м е т р и к aj Определяется равен- ством п рЖ У)= 2 г—1 Выполнение первой и второй аксиом метрики является очевидным. Третья аксиома просто проверяется: п п ps (х, Z) = £ г=1 п п < 2 1^—|t/i-zf|=ps(x, y)+ps(y, z). i=l i—1 3. Сферическ а я, или /-метрика: Первая и вторая аксиомы метрики столь же очевидно верны, как и в предыдущих метриках, третья же аксиома есть простое следствие неравенства Коши 1 1 п ( п 2 ( п 2 2 I JS аЦ < S ЬЦ . г=1 4=1 ' М=1 J Действительно, 72 72 72 р2(х, г) = £ (xi—ZiY^ £ [ki—+ Zi)]2= jg (Xi—t/i)2+ i—i i=l 2=1 n n + (yi—2*)4-2 (Xi—yt) (yi—Zi)^p2(x, y)+p2(y, z)4- 2 = 1 2 = 1 4-2p (x, </) p (y, z) = [p (x, y) 4-p (y, z) ]2. Во всех, трех приведенных метриках сходимость последовательности элементов х^-^х* (т->оо), очевидно, равносильна п численным «по- координатным» сходимостям (/=1, 2, ... , п). Различными будут лишь «меры скоростей сходимости».
§ 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА 535 § 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА. ЛИНЕЙНЫЕ ОПЕРАТОРЫ Множество X называется линейным множеством или векторным про- странством, если для каждых двух его элементов х и у определена сумма x-j-y, являющаяся элементом того же множества X, и для всякого эле- мента х и числа X (действительного или комплексного) определено произ- ведение Ах, которое есть элемент X, при этом обе указанные операции подчиняются следующим условиям: 1) ассоциативность сложения (х-Н/) -}-z=x-\- (y-\-z); 2) коммутативность сложения х-{-у=у-]-х; . 3) существует элемент 0, называемый нулевым, такой, что при вся- ком х из X х+0=х; 4) для каждого х существует элемент —х, называемый противо- положным, такой, что х+ (-—х) =0; 5) ассоциативность умножения А(цх) = (Ац)х; 6) два распределительных закона: (А+р,)х=А,х4-рх, А(х-]-(/)=' = Ах-|—Ал/; 7) 1-х=х; 8) 0-х=0; 9) если Ах=0 и х=И=0, то А=0. Линейное множество называется линейным нормированным простран- ством, если для каждого элемента хеХ определена норма ||х||, являю- щаяся действительным числом и удовлетворяющая условиям: 1) ||х||^0 и ||х|| = 0 тогда и только тогда, когда х = 0; 2) llx+f/IKIIxll + llf/H; 3) 1|Ах|| = |А| • ||х||. В линейном нормированном пространстве всегда может быть введена метрика, для чего достаточно за расстояние между элементами х и у принять норму их разности х—-у: р(х, у) = Цх—1/11* Это позволяет определить в X сходимость последовательности эле- ментов: если ||Хп—х*|->0, то хп—>х*, и определить полноту пространства. Линейное нормированное и полное пространство называется прост- ранством типа Бахана или, коротко, типа В. В таком пространстве вся- кий «абсолютно» (по норме) сходящийся ряд будет сходиться, т. е. из сходимости числового ряда ||хА|| следует существование предела k=i П ОО lim £хк= S Хк- П->00 /1=1 /1=1
536 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА Приведем нужные нам примеры пространств типа В. 1. Пространство С [а, 6]. Пусть [а, &] есть конечный замкнутый отре- зок и рассматривается множество функций х(/), непрерывных на [а, &]. Сложение элементов и умножение на число есть обычное сложение функ- ций и умножение их на число. За норму функции принимают максимум абсолютного ее значения ||x(/)||=max|x(Z) |. t Сходимость последовательности элементов из [а, 6] есть равномерная сходимость последовательности функций. Пространство С [а, 6] является полным. Из llxn+m(/)-—xn(/)|| = max|xn+m(/)—-хп(/) | вытекает сходи- t мость хп(0 при всяком 6]: limxn(f) =x(f), и так как предел П->оо равномерно сходящейся последовательности непрерывных функций есть функция непрерывная, то x(f)^C[a, 6]. 2. Пространство Lp[at 6]. Рассмотрим множество функций х(/), опре- деленных и измеримых на конечном отрезке [а, 6] и суммируемых там со степенью р ' (р^1): ъ J |х(/) |р dt<Zoo. а Множество X является линейным, так как если х(/)еХ и % — любое число, то Хх(/)еХ, и если х(/), г/(/)еХ, сумма их х (/)+*/(О также при- надлежит X.*) Норма элемента определяется равенством ь I|x(/)||p = $\x(t)\Pdt. Две функции, различающиеся между собой на множестве меры нуль, считаются тождественными. Выполнение аксиом нормы легко проверяется. То, что ||х(/)||^0 и ||х(£) II =0 только когда функция х(/) эквивалентна нулю, так же как то, что ||Zx(Z) || = |Х| -||х(/)|, является очевидным. Проверке подлежит только вторая аксиома нормы: Их(/)+//(/) ||^ ^Цх(О Н + 11у(^)Н- Но она является не чем иным, как известным неравен- ством Минковского *) Это следует из просто проверяемого неравенства |а+0| р^2р (|а| ?+10| р). Для всяких двух чисел а и'Р верно неравенство а+Р‘ сти записи, |а ^|₽|. Тогда |а+р|^2|а|, a-j-p |а +|Р1- Пусть, для определенно- ^2р |а| р (|а[ ₽+| 0 |р).
§ 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА 537 1 A I. (f 1х(0+*/(0 |р^) ( / |х(/)|р^) + (f |у(01р^) Р а а а 1 Метрика, отвечающая принятой норме, есть 1 (Ь \ р f \x(f)—y(t)\Pdt) . а ' Покажем, что пространство Lp[a, &] является полным. Не ограничи- вая общности, можно считать отрезок [а, 6] совпадающим с [0, 1] и рас- сматривать пространство Ар[0, 1]. Ниже мы будем его обозначать Lp. Возьмем последовательность функций хп(0 (п=1, 2, ...) из LPi ужъ- летворяющую условию Больцано — Коши. Последнее значит, что для всякого е&>0 существует такой номер Af(e&), что 1 J* |хп(/) хт(/) | о для п, m>N(e,k). ГТ Р 1 Примем ей = При tn, n>N(ek) неравенство будет выполняться на некотором множестве с мерой, меньшей —. Если мы возьмем и зафиксируем возрастающую последовательность чисел п&, причем Пь>М(бь), можем сказать, что неравенство lXnfe+t (f) Xnk I 2h выполняется только на некотором множестве Ak с мерой, меньшей Для сокращения обозначим хПь (0=^(0 и введем множество • V оо Bh= [0, 1]- £Ai. i=k Очевидно, 00 / 1 mesBfc^l— X mesAi>l—I-ГТ- + \ 2&-H
538 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА и, кроме того, |^n+l(0 Zn(0l=C для на Вк. Отсюда следует, что zn(t) на Вк равномерно сходится. Заметив, что рассмотрим множество J£Bk. Из неравенства mes Вк> 1— 2~ft+1 вытекает, что mes Bq= 1. Каждая точка Во принадлежит некоторому Вк, и последовательность zn(0 (п=1, 2, ...) поэтому сходится всюду на В.о. При этом сходимость на каждом Вк является равномерной. Bq может отличаться от [0, 1] лишь множеством меры нуль и z(£) определена почти везде на [0, 1]. Последовательность zn(/) (п=1, 2, ...) есть часть последователь- ности хп(0 (п=1, 2, ...), и так как для xn(t) выполняется признак Больцано — Коши в метрике Lp, то он будет выполняться и для zn(/): J zn(t) lpdt<s [m, л>По(е)]. Функция, стоящая под знаком интеграла, неотрицательна и верно также неравенство l^m(t)—zn(t)lpdt<8 [m, n>no(e)]. Ввиду равномерной сходимости zm(t) к z(t) на Вк здесь можно перей- ти к пределу при т->оо под знаком интеграла |г(/)-zn(t) \?dt^8 [n>n0(e)]. Неравенство выполняется при всяких k. Переходя к пределу при &->оо, получим J 1г(0"М0 \pdt= j |z(/) — zn(t} \?dt^8 [п>По(е)].
§ 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА 539 Полученное неравенство говорит, в частности, о том, что z(/) — zn(t} принадлежит Lp, и так как 2n(^)eLp, то и z(/) = [z(7)—zn(^)]-|-zw(f) также принадлежит Lp. Кроме того, из неравенства следует, что в метрике Lp p(z, zn)^ =Се р [n>n0(e)] и ввиду произвола е p(z, zn)->0 при п-^оо. Наконец, p(xn, z) ^p(xn, zft)+p(zft, z) =р(х„, xnfe)+p(zft, z)->0, когда n и k неограниченно возрастают. Значит, p(xn, z)->0 (м->оо) и полнота Lp доказана. Пусть X и Y есть два произвольных множества. Говорят, что на мно- жестве X задан оператор А со значениями из множества У, если каждому х^Х соответствует некоторый элемент у из У: у=А(х}. Элемент х на- зывают оригиналом и у его изображением. Ниже часто в обозначении оператора А (х) скобки будем опускать и писать Ах. В частном случае, если У есть множество чисел и оператор Ах ставит в соответствие каждому элементу х<=Х некоторое число, такой опера- тор А называют функционалом. Когда множества X и У являются метрическими пространствами, может быть определено понятие непрерывности оператора. Оператор А называют непрерывным на элементе х, если из сходимости х^^х в про- странстве X следует сходимость Ахп-+Ах в пространстве У. Предположим теперь, что X и У являются линейными нормирован- ными пространствами. Оператор А называется аддитивным, если для всяких двух элементов х* и х2 из X будет А (xi+^г) =Л (Х1)+Л (х2). Остановим внимание на некоторых свойствах аддитивных операторов. 1. Для аддитивного оператора А верны равенства Л(0)=0, Л(—х)=—Л(х). В самом деле, Д(0)=Л(0+0)=Л(0)+Л(0) и Л(0)=0. Далее, 0=Л (0) =А [х+(—х)] =А (х)+Л(—-х) и Л(—х)=— Л(х). 2. Если оператор Л аддитивен и непрерывен, то он однороден, т. е. для любого действительного числа X будет Л (%х) =ХЛ (х). Из аддитивности сразу же вытекает, что для всякого целого положи- тельного числа р будет Л(рх)=рЛ(х).
540 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА Если же р есть целое отрицательное число, то А (рх) = —рА (—х) = — р [— А (х) ]=рА(х). Кроме того, при целом q А(х) —А ( q — х ) = qA ( — х) и л(—х) =—Л(х). к q ' 4 \ q ' ' q > q Поэтому при целых р и q будет л(^х) = ' Я ' -Л(х). Я Пусть X — произвольное действительное число. Возьмем последова- тельность рациональных чисел гп-+к. Используя непрерывность А, найдем А (Ах) = lim A (rnx) = lim rnA (х) =АА (х). Аддитивный оператор А, переводящий нормированное пространство А’ в нормированное пространство У, называется ограниченным, если суще- ствует такое число А1, что при всяких хеХ выполняется неравенство ||Ах||^М||х||. (1.2) Аддитивный и непрерывный оператор А называют линейным. Докажем теорему, дающую критерий линейности аддитивного опе- ратора. Теорема 1. Для линейности аддитивного оператора А необходимо и достаточно, чтобы он был ограниченным. Доказательство. Установим сначала необходимость. Допу- стим, что оператор А неограничен, и покажем, что это противоречит его непрерывности. Существует последовательность хп такая, что 1|А(хп)||^п||х||. Рассмотрим элемент хп Очевидно, хп'->0 (п->оо). Но, с другой стороны, ||Лх/||=-J- -v^-n-IHxJI^1. *1 ||Xn||
§ 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА 541 Поэтому А (хп') не стремится к нулевому элементу при хп'-+0 и оператор А не является непрерывным на элементе 0. Достаточность доказывается столь же просто. Если ||х—хп||->0, то || Л (х) -Л (хп) || = || Л (х-хп) || ^М||х-хп||->0 и, следовательно, Л (хп)-^Л (х). Наименьшее число М, для которого выполняется при любом х не- равенство НЛ (х) ||^М||х||, называют нормой оператора Л и обозначают ||Л||. Отметим следующее равенство, которое может быть полезным в за- даче нахождения нормы: ЦЛ||= sup ||Лх||. (1.3) Ikll^1 Действительно, если ||х|| 1, то 1|Лх||^||Л||. ||х||^||Л||. Поэтому sup ||Лх||^||Л||. (1.31) 1141 При всяком 8>0, по определению нормы, существует элемент х\ для которого ||Лх'||> (||ЛII—е) ||х'||. Положим х= II -V II 11А &11 = тк 11А> тк <11А11 -е) |М1 = 11А11 “е’ IIX II ||А || и так как ||х|| = 1, то sup ||Лх|| > ||Л Ц—8. 1141 Отсюда и из (I.3i) следует (1.3). Приведем пример линейного оператора. Рассмотрим преобразование v-мерного векторного пространства Xv с элементами х(хь ... , xv) в ^-мер- ное векторное пространство Уц с элементами y(f/i, ... , f/ц): У=А(х). При преобразовании любого типа составляющие уг вектора у будут функциями от Xi, .., , xv: IJi — фг (-^1» • • • > ^v) ...,|1).
542 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА Но если преобразование у=А(х) линейное, срг будут аддитивными и не- прерывными функциями своих аргументов и, следовательно, будут линей- ными однородными функциями от *1, ... , xv: yi'==' CLijXj (i=l, 2, ... , p). (Г4) j=i В этом случае оператор А (х) есть не что иное, как линейное преобра- зование с прямоугольной матрицей (atj) (i=l, ... , ц; /=1, ... , v). Наоборот, преобразование такого вида с любой матрицей (%•) будет линейным оператором, совершающим преобразование Xv-^Y^. Рассмотрим вопрос об обращении операторов. Как и выше, будем считать X и Y линейными нормированными пространствами. Пусть А есть аддитивный однородный оператор, отображающий X в У. А(х)=у, (1.5) Говорят, что оператор А имеет обратный, если существует оператор V, определенный всюду на У, удовлетворяющий условиям: 1) при всех х^Х верно равенство VA (х) =х; 2) при всяких у из У выполняется равенство Оператор V называется двусторонним обратным или просто обрат- ным для А и обозначается V=A~1. Значение каждого из этих условий легко выясняется. Первое из них говорит, что если уравнение (1.5) имеет решение, то оно единственно и имеет представление x=Vy=A~1y. Второе же условие означает, что уравнение (1.5) имеет решение при всяком у и за такое решение может быть принят элемент x=Vy=A~iy. Из определения обратного оператора следует, что V=A~1t так же как Д, является аддитивным и однородным. В самом деле, если yl9 г/2еУ, то по второму условию уь=А(хь) при Xk=V{yk) (&=1, 2,). По пер- вому же условию V(Z/i+f/г) = V[A (х,) 4-Л (х2) ] = VA (xi+x2) =xi+x2= V(t/i) + V(f/2). Этим установлена аддитивность V. Подобным образом проверяется одно- родность V. Из определения также следует, что оператор А является обратным для А~\ т. е. (Д-^-^Д.
§ 2. ЛИНЕЙНЫЕ' НОРМИРОВАННЫЕ ПРОСТРАНСТВА 543 Покажем теперь, что если оператор А имеет обратный У=Л~1, то А осуществляет взаимно однозначное отображение X на Y. По второму условию каждый элемент y^Y есть изображение некоторого элемента х^Х. В качестве такого элемента можно взять х= Vy, Необходимо лишь проверить, что если Xi#=x2, то A (xi) У=А (х2). В самом деле, если бы было Д(х1)=Д(х2), то по первому из условий мы имели бы Xi=VA(xi) = = VA(x2) =х2. В некоторых вопросах сходимости вычислительных процессов имеет значение теорема о сходимости последовательности линейных операто- ров, к доказательству которой мы сейчас перейдем. Пусть X и Y — два пространства типа В. Рассмотрим последователь- ность Ап линейных операторов, определенных в X, со значениями из У. Последовательность Ап называется сходящейся, если для всякого х^Х в пространстве Y будет сходиться последовательность элементов уп=Апх. Обозначим lim Апх=у=Ах. Оператор А — аддитивный, так П—>оо как если в равенстве Ап (xi+x2) =AnXi+Anx2 перейти к пределу, то по- лучится A (xiA~x2) =Axi-j-Ax2. Можно показать, что оператор А будет непрерывным и, стало быть, линейным. Сначала докажем лемму. Лемма. Если последовательность Ап (п=1, 2, ...) линейных опера- торов сходится, то нормы их ограничены в совокупности: 1|Лп||^Л4<оо. Доказательство. Допустим противоположное и будем считать sup ||ЛП|| = ОО. Рассмотрим замкнутый шар радиуса 8 с центром в элементе х0: Их—Хо||.^8 и обозначим его S(x0, е). Покажем, что ||Лпх|| не могут быть ограничены в совокупности ни в каком замкнутом шаре. Пусть, в самом деле, ||Дпх|| К для xeS(x0, 8) (п—1, 2, ...). При всяком х<=Х элемент х'=ХоН—гАг х принадлежит S(xo, е), так что Mnx'll = II -jAp АпХ+Апх0Ц I х Отсюда и 1|ЛпХ|1^±МА^!к||х||. 8 Так как последовательность Апх0 сходится и, следовательно, нормы ||ДпХо11 ограничены в совокупности, то существует такое число /G, не за-
544 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА висящее от п и х, что ||Лпх||^Ki||x||, откуда следует ||Лп||Ki, а это про- тиворечит допущению sup ||ЛП|| = оо. Возьмем шар S0(x0, ео). Ввиду неограниченности в нем ||Лпх|| (п=1, 2, ...) найдется такой оператор ЛП1 и такой элемент х4, что ||ЛniXi|| > 1. Так как оператор Ani непрерывен, это неравенство будет выполняться в некотором шаре Si(xi, ei), содержащемся в So(xo, 8о). Для шара рассуждения могут быть повторены: существует такой опе- ратор АП2 и такой элемент x2gS2, что ||ЛП2х2||>2 и т. д. Можно считать, что еп->0 (п->оо). Для построенной последовательности элементов Xi, Хг, ... будет выполняться признак Больцано — Коши, и она будет сходиться ввиду полноты X к некоторому элементу х*^Х. Элемент х* будет принадлежать всем шарам Snk (£=0, 1,...). При этом ||Лпkx*|| Последнее же противоречит сходимости Ап во всех точках X. Теперь просто доказывается ограниченность предельного оператора Л. Согласно лемме, существует число М такое, что ||ЛП||^М. Если в нера- венстве 1|Лпх||^||Лп|| ||х||^М||х|| перейти к пределу, получится ЦЛх||^7И||х|| и оператор Л действительно ограничен. Но так как Л аддитивен, он не- прерывен и, стало быть, линеен. Теорема 2 (Банаха—Штейнгауза). Для сходимости последовательно- сти линейных операторов Ап> отображающих пространство X типа В в пространство Y типа В, необходимо и достаточно выполнение двух условий: 1) нормы операторов Ап ограничены в совокупности: ЦЛnil <оо (п=1, 2, ...); 2) сходимость Ап имеет место на всех элементах множества Е, всюду плотного в X.*) Доказательство. Необходимость первого условия вытекает из доказанной леммы, необходимость же второго условия очевидна. Остает- ся проверить достаточность условий. Возьмем произвольный элемент хеХ и найдем элемент х^Е так, чтобы было. ||х—х||^ ——. ЗМ Последова- тельность Апх сходится, и для больших п будет верно неравенство IIAn+mx Апх[] *) Множество Е называется всюду плотным в X, если каждый элемент хеХ может быть приближен по норме сколь угодно точно элементом из Е.
§ 2. ЛИНЕЙНЫЕ НОРМИРОВАННЫЕ ПРОСТРАНСТВА 545 Для таких п будет +1|Лпх-Ллх||^2Л1||х-х||+ 4 < ^ + А =е. Для последовательности Апх признак Больцано — Коши выполняется, ввиду же полноты пространства У, последовательность будет сходя- щейся: lim Апх=у=Ах П->оо при всяком х^Х. Для некоторых приложений полезна видоизмененная теорема Бана- ха — Штейнгауза, в которой устанавливаются условия сходимости после- довательности операторов к заданному оператору.*) Как и выше, предположим, что X и Y есть пространства типа В и до- пустим, что в X определены линейный оператор А* и последовательность линейных операторов Ап (п= 1, 2, ...) со значениями в, У. Теорема 2' (Банаха—Штейнгауза). Для сходимости последовательно- сти операторов Ап к А* необходимо и достаточно выполнение условий: Г) нормы операторов Ап ограничены в совокупности (п=1,2, ...); 2') на всех элементах х множества Е, всюду плотного в X, имеет место сходимость Апх-+А*х. Эта теорема является очевидным следствием теоремы 2. Проверке подлежит только достаточность условий Iх и 2х. Если они выполняются, то, по теореме 2, существует линейный оператор А такой, что для всякого х из X, будет Апх-+Ах. По второму же условию на всех элементах мно- жества Е должно быть А=А*. Но если два линейных оператора совпа- дают на всюду плотном в X множестве, то они равны, *) Например, когда рассматривается процесс вычисления определенного интеграла при помощи приближенных квадратурных правил ь /(«= f p(x)/(x)dx« ^лГчхГ]=(?я(л: а * = 1 то вопрос о сходимости этого процесса с точки зрения функционального анализа есть проблема сходимости последовательности операторов Qn к интегральному оператору /. Аналогичное можно сказать о процессе интерполирования функции, о процессе разло- жения функции в ряд Фурье и др.
546 чДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА В самом деле, пусть х и х' есть два произвольных элемента соответ- ственно из X и Е. Очевидно, Ах—А*х= [Л (х—х') -|-Лх'] — [Л* (х—х') -|-Л*х'] =А (х—-х') —Л* (х—х7). Поэтому ПЛх—Л*х||^ (||Л|| + ||Л*||)||х—х'Ц. Левая часть неравенства не зависит от х7. Правая же часть может быть сделана меньше любого числа, так как путем выбора х' множитель ||х—х'|| может быть сделан сколь угодно малым. Отсюда следует, что || Л х—Л *х|| =0, Лх=Л*х и оператор Л совпадает с Л* всюду в X. § 3. ДИФФЕРЕНЦИРОВАНИЕ НЕЛИНЕЙНЫХ ОПЕРАТОРОВ И НЕКОТОРЫЕ ТЕОРЕМЫ, С ЭТИМ СВЯЗАННЫЕ Предварительно ознакомимся с некоторыми фактами теории линей- ных и билинейных операторов, необходимыми для изложения теории дифференцирования. Пусть X и Y два линейных нормированных пространства. Рассмотрим множество линейных операторов, переводящих X в У. Такое множество обозначим символом [Х->У]. Убедимся в том, что при надлежащем опре- делении действий сложения, умножения на число и выбора нормы его можно сделать линейным нормированным пространством. Возьмем два произвольных элемента ЛА и Л2 из [Л->У]. Под суммой их Л =Л1+Л2 условимся понимать оператор из X в У, определенный ра- венством Л (х)=Л1(х) +Л2(х). Л есть, очевидно, аддитивный оператор. Кроме того, ввиду IIА (х) || ||Л±(х) +Л2(х) || (||Л!|| +1|Л2||) Цх||, А есть ограниченный, следовательно, линейный оператор и Ле[Х->У]. Из указанного неравенства получается оценка его нормы: Mii^mi+in2ii. (1.6) Далее, пусть X есть произвольное число и Л — линейный оператор из [Х->У]. Под произведением ХЛ=Л понимается оператор, определенный правилом Л (х) —\А (х).
§ 3. ДИФФЕРЕНЦИРОВАНИЕ НЕЛИНЕЙНЫХ ОПЕРАТОРОВ 547 Как и выше, легко убедимся в том, что А<= [X->У] и ||А|| = |М-1ИН. (1.7) В качестве нулевого элемента в множестве [Х->У] выберем опера- тор До, значения которого тождественно равны нулю: До(х)=О при хеХ. (1.8) Можно проверить, что все аксиомы линейного множества, указанные в'начале § 2, будут выполняться. Нам осталось еще определить норму элементов в [Х->У]. За нормуЛ как элемента [Х->У] примем норму оператора А (х): ||Д||= sup ||Л (х)||. Выполнение аксиом нормы, приведенных в начале § 2, легко прове- рить, опираясь на (1.6) — (1.8). Введем понятие о билинейном операторе. Пусть В(х', х) каждой паре элементов Xх, х^Х ставит в соответствие элемент г/еУ: у = В(х\ х). В(хх, х) называется билинейным оператором, если выполняются условия: 1) для В(хх, х) верны равенства В(ах'+а Xх, х) = аВ(хх, В (хх, ахД-а х) = аВ (хх, . при любых числах а, а и элементах х, х 2) существует число М такое, что г неравенство 1|В« X) Н^МН Наименьшее возможное значение X. В(хх, х) и обозначается ||В||. Приведем простой пример билинейного оператора. Допустим, что Xv есть v-мерное векторное пространство с элементами x(xi, Хг, ... , xv) и Уц естьц-мерное векторное пространство с элементами y\yi, У2, . .. , Уи). Рассмотрим билинейный оператор у = В (х', ,х) из Xv в Уи. Каждая составляющая уг элемента у будет, очевидно, билинейной формой состав- ляющих хх(х/, ..., xv') и х(х1? ... , xv): х)+аВ(хх, х), всяких Xх, называется х^Х выполняется (МО) нормой оператора
548 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА yi — fyk — 1,2, ... , p). (1.11) j, k=l Поэтому y=B(x\ *) будет ц-мерный вектор, составляющие которого есть билинейные формы, определенные последним равенством. Что касается нормы оператора В, то ее численное значение зависит от того, как определена норма в Xv и Уи. Например, будем считать, что в Xv и Уц взяты кубические нормы вектора: 11x11^ = 043x1^1 И ||z/||m = max| Уг\. г i llyllm=IIB(x', x)||m=max| i j, k=t ^max la$ I -Ik'llm-Wk i j, k=i И ||B||m^max la$ I- i j, fe=l Как мы увидим несколькими страницами далее, при определении вто- рой производной от оператора нам придется иметь дело с линейными отображениями пространства X на пространство линейных операций А->У]. Множество таких операторов кратко будем обозначать Покажем сейчас, что между этими отображениямй и би- линейными операторами В(х', х) существует простая связь, позволяю- щая сказать, что, по существу дела, равносильно рассматривать В(х', х) как билинейный оператор, или как оператор отображения X->[Х->У]. Это обстоятельство позволит упростить изложение, так как билинейные операторы В являются более наглядным аппаратом, чем операторы из [*->[*-> У]], и часто более удобны для вычислений. Пусть U есть один из операторов, отображающих X в [Х->У]. Возь- мем произвольный элемент х'^Х и положим Дх'=[7(х'). Оператор Ах' принадлежит [X->У] и у=Ах'(х) = U(x')x=B(x', х) является элементом У. Построенный так оператор В(х\ х) будет удовле- творять второму условию (1.9) по аргументу х, так как Дх'(х) есть ли- нейный оператор относительно х, и будет удовлетворять первому из условий (1.9) по х', так как U(x') линеен относительно х'. Условие (1.10) также выполняется, так как \\В (х'> х) || ЦД/11 • ||х|| = || U(х') || • ||х|| || U\\ • Цх'11 • ||х||. Поэтому В(х\ х) есть билинейный оператор, при этом ЦВ||^ \\U\\. (1.12)
§ 3. ДИФФЕРЕНЦИРОВАНИЕ НЕЛИНЕЙНЫХ ОПЕРАТОРОВ 549 Таким образом, каждому оператору U из [А->[Л->У]] указанным способом ставится в соответствие билинейный оператор В(х', х). Прове- рим теперь, что каждый билинейный оператор В(х', х) при указанном законе соответствия является образом некоторого оператора U из [*->[*->/]]. В самом деле, если мы фиксируем х\ то оператор *) t/(x,)=B(x/, .) будет принадлежать множеству [Х->У], и так как \\U(x')\\= sup \\U(x') (х)|| = sup ||В(х', х)||^||В|| .||х'[|, то оператор U линеен и принадлежит множеству [Х->[Х->У]]. Кроме того, ||t/IKI|B||. Сравнение последнего неравенства с (1.12) приводит к заключению: 1М1 = 1|В||Г (113) Дадим определение производной первого порядка от оператора. Будем, как выше, считать X и Y линейными нормированными простран- ствами. Рассмотрим оператор У=1(х), переводящий X в У. Говорят, что оператор f дифференцируем (по Фреше) на элементе х, если существует линейный оператор H^[X-+Y] такой, что ||f (х+Ах) -f (х)—Н (Ах) || ^ ||Ах|| • в (|| Ах||), (1.14) где е(6)->0 при б->0. Оператор Н называют производной оператора f на элементе х: Я=Г(х). Линейное преобразование Я (Ах) имеет смысл дифференциала опе- ратора. Рассмотрим как пример оператор, преобразующий v-мерное вектор- ное пространство Xv в р-мерное векторное пространство Уи. Такое пре- образование y=f(x) определяется совокупностью р функций yi=fi(xi, х2, ... , xv) (Z= 1, 2, ... , р). (1.15) Функции fi будем предполагать дифференцируемыми. По определению производной (1.14), мы должны из изменения опе- ратора f(x-j-Ax) — f(х) выделить такой линейный оператор //(Ах), аргу- ментом которого является изменение Ах вектора х [Дх= (Axi, Ах2, ... , f (х+Ах) — f (х) —Н (Ах) = е (х, Ах), где II8 (х, Ах) II ------------>0 (||Ах||->0). _________ II Ах || *) Под В(х', .) понимается такой оператор V, что V(x)=B(x', х).
550 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА В предыдущем параграфе мы выяснили, какую форму имеет линейный оператор из Xv в Уц, и можно сказать, что преобразование Н(Ал) будет иметь вид {/7(Ах)}г= (i=l, 2, .,. , р). j=i (116) Мы должны определить для него коэффициенты Изменение оператора f (х-|-Дх) — f (х) будет вектором с ц составляю- щими fi(xi+kxi,... t xv+Дху) —ft (xi, ... , xv)=fi(^+Ax)— fi(x) =kfi(x). (1.17) Из приращений функций ДД-(х) нам следует выделить, согласно с (1.16), главную часть, линейно зависящую от ДХ1, ... , Дх¥. Но такая главная часть есть дифференциал функции fi в точке (xi, ... , xv) dfi dx. Таким образом, производная f'-(x) есть линейный оператор, осуще- ствляющий линейное преобразование XV-^Y^ определяемое матрицей Якоби = Г dfj 1 / i=l,2,, ц L dxj J 4=1, 2,... , V Перейдем к определению второй производной от f. Первая производ- ная f'(x) есть линейный оператор, переводящий X в У, и, стало быть, он является элементом пространства линейных операторов ,(Х->У). Этот оператор зависит от элемента х, как от параметра, и для каждого х будет своим, подобно тому как производная F'(f) от функции F(t) за- висит от положения точки /, в которой она вычисляется. H=f'(x) можно рассматривать как оператор, преобразующий пространство X в простран- ство [Х+У]. Может оказаться, что этот последний оператор будет диф- ференцируемым. Производная от f'(x) называется второй производной от f и обозначается f,z(x): v=[r«r=r«. fzz(x) есть элемент пространства [Х->[X->У] ], т. е. это линейный опера- тор, преобразующий X в [Х~>У]. В начале настоящего параграфа мы
§ 3. ДИФФЕРЕНЦИРОВАНИЕ НЕЛИНЕЙНЫХ ОПЕРАТОРОВ 551 выяснили, что рассмотрение такого оператора равносильно рассмотрению билинейного оператора у=В(х\ х) из X в Y. В соответствии с этим под ||//,(х)|| мы будем понимать норму билинейного оператора. Выполним вычисление второй производной f"(x) для частного случая, когда f(x) есть рассмотренный несколькими строками выше оператор, преобразующий v-мерное векторное пространство Xv в ц-мерное вектор- ное пространство Уц. Функции fi(xif ... , xv) в (1.15) будем считать дважды дифференцируемыми. Предположим, что вторая производная f"(x) существует и найдем лишь ее значение. Возьмем произвольный элемент x0^Xv и вычислим вторую производную Г(хо) на х0. По определению (1.14), для вычисления fz,(x0) нужно найти оператор такой, для которого выполняется условие |1Г(хо+Лх)-Г(хо)-^(Д%)11^||Дх||е(||Дх||). (1.18) Мы преобразуем это условие к другой форме, более удобной для вы- числений. Полагая Дх=/х' и разделив обе части (1.18) на /, мы, как следствие, получим соотношение (1.19) В левой и правой частях здесь стоят линейные операторы, принадле- жащие [Х->[Х->У] ]. Нам удобнее найти-вторую производную не в форме оператора 17, а при помощи соответствующей ему билинейной формы B(xz, х). Для этого возьмем произвольный элемент х^Х и, заметив, что Дх'(х) = [7(х/) (х)=В(х', х), от (1.19) перейдем к равенству lim — [Л(хо+/х')х—Г(х0)х] = В(х', х). (1-20) Значение билинейного оператора В(х', х) принадлежит пространству и является вектором у(уи ... , г/и), составляющие yi которого являют- ся билинейными формами от (хь ... , xv), (х/, ... , х/) и даны равен- ством (1.11) ч {В(х', х)}г= ^а$хз'хк. (1.21) j, k=t Нашей задачей является вычисление а% Значение f'(xo)x также яв- ляется вектором из У, и составляющие его были вычислены раньше: v {f'(x0)x}i= /1=1 dfi (хр) dxh Xk.
552 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА Аналогичные выражения с заменой Хо на Хо-j-tx' верны для-составляю- щих f'(xo+tx')x. Векторное равенствам: равенство (1.20) равносильно следующим р численным v lim г» к=1 Отсюда сразу же получается и v j, fc=i d2fj (*о) dxjdxk х/хк={В(х', %)}г (/—1,2,..., р) (г) = d2fi (*о) dxjdxk (1.22) Докажем теперь две теоремы, которые используются при изложении метода Ньютона для решения операторных уравнений. Сначала приведем два простых утверждения, справедливость которых просто проверяется на основании определения (1.14). первой производной. Лемма 1. Пусть f есть линейный оператор из X в Y и х есть произволь- ный элемент из X. Тогда Лемма 2. Пусть X, Y, Z— линейные нормированные пространства. Если Н есть линейный оператор из Y в Z и y=f(x) ‘дифференцируемый оператор из X в У, то Ниже сформулирована и доказывается теорема об изменении опе- ратора. Теорема 1. Если f(x) есть дифференцируемый оператор, то верно не- равенство Ilf(x4-Ax)—f(x)||< sup ||f/(x+9Ax)||• ||Дх||. o<e<i (1-23) Доказательство. Положим f(x-Y-Ax)-f(х) =у и рассмотрим в пространстве У линейный функционал Т, обладающий свойствами imi=i, т(у)=\\у\\.
§ 3. ДИФФЕРЕНЦИРОВАНИЕ НЕЛИНЕЙНЫХ ОПЕРАТОРОВ 553 Существование такого функционала может быть доказано, и на этом мы останавливаться не будем.*) Образуем функцию действительного аргумента /: F(f) =T[f(х+/Дх)]. Ее производная вычисляется при по- мощи леммы 2: F'(t) = Г-/'(х+/Дх)Дх. На основании известной в анализе теоремы о конечном приращении т (у) = т [f (х+Дх) -f (х) ] = F (1)—F (0) =F' (6) = (Tf' (х+6Ах)) \х. Отсюда получается сразу же доказательство теоремы: \\f (х+Дх) (х) [| = т (у) IIТ\\ • \\f' (х+0Дх) II • IIАхII шах Ц/'(х+0Дх)|)-||Дх||. 0^0^! Теорема 2. Если f(x) есть дважды дифференцируемый оператор, то справедлива оценка ||f(x+Ax)-f(x)-f(x)Ax||^ -J- max ||f" (х+0Дх) || • ||Дх||2. °^е^1 Доказательство. В доказательстве будут в значительной мере повторены проделанные в предыдущем случае рассуждения. Обозначим у=/(х4-Дх)—/(х)—/'(х)Дх и построим вспомогательную функцию численного аргумента t: F(t) = T(f(x+tbxY), где Т — тот же функционал, что и в доказательстве предыдущей теоремы. Для F(/) находим следующие значения производных: F' (/) = Т [f' (х+/Дх) Дх], F" (0 = Т [f" (х+/Дх) ДхДх], при этом последняя запись означает, что билинейный оператор /"(х-НД*) должен быть вычислен для одинаковых значений аргументов, равных Дх. После этого остается лишь воспользоваться формулой Тейлора с остатком: h II = т (у) - F (1) —F (0) —F' (0) = = sup 11Г(*+ел*)ll-IIAxii2. °Се<1 *) Это есть простое следствие теоремы Банаха — Хана о продолжении линейного функционала. См., например, Л. А. Люстерник и В. Ид Соболев. Элементы функ- ционального анализа, гл. III, § 21. М., 1951. . :_
Добавление II ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ § 1. ЧИСЛА БЕРНУЛЛИ Определим их при помощи производящей функции. Пусть t есть ком- плексная переменная. Рассмотрим функцию (11.1) Она регулярна в круге |/| <2л и может быть там разложена в степенной ряд по t. Запишем разложение в форме п in. (П.2) Определенные этим равенством величины Вп и называются числами Бернулли. Можно легко построить рекурсионное соотношение, позволяющее последовательно вычислять Вп. Умножим обе части (II.2) на е1—1 = оо Сравнение коэффициентов при Z2, /3, ... дает нужные нам соотно- шения: Во=1, Bq Bi Въ . . Bn—i пГ + (п—1)!1! + (п—2)!2! ‘ 1!(п—1)! (П.З) (п=2, 3, ...). Последнему равенству можно придать удобную для запоминания форму.
§ 1. ЧИСЛА бернуЛли 555 Умножив обе части равенства на и! и прибавив к ним Вп, получим п k=0 k\(ri—k)! Bk—Bn. Левая часть равенства аналогична степени двучлена, и само равенство можно записать в условном виде (l+B)"=Bn, (II.4) где после возведения двучлена в степень нужно показатели степеней В толковать как индексы чисел Бернулли. Покажем, что все числа Бер- нулли с нечетными индексами, большими единицы, равны нулю: 62/1-1-1 = 0 (£=1,2,...). (П.5) Заменим в (II.2) t на —/: Но —t e*-t < , t е-*— 1 — е*— 1 “ + 1 и, следовательно, должно быть Сравнивая здесь коэффициенты при tn (п>1), получим Вп= (—\)nBn. Для п = 2^+1 это дает B2a+i = — В2а-ц и B2a+i=0 (k=l, 2, ...). Приведем значения нескольких первых чисел Бернулли: - JL R — 691 R _2_ R 3617 10 66’ 12 2730’514 6’ 16 510 ‘ Чтобы закончить перечисление нужных свойств чисел-Бернулли, ука- жем еще на связь их с обратными степенями целых чисел: .
556 ДОБАВЛЕНИЕ II. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ Это равенство следует сразу же из доказанного ниже разложения (11.18) многочлена Бернулли в тригонометрический ряд на [0, 1]. Полезно отметить два следствия, вытекающих из (П.6): знак сов- падает с (-—I)*1-1 и числа Бернулли смежных четных номеров всегда противоположны по знаку. При больших k погрешность приводимого ниже приближенного ра- венства будет малой величиной: В2д « 2 (-1) *-* (26)! (2л) "2\ Из него следует, что с увеличением k число Вы будет быстро воз- растать. § 2. МНОГОЧЛЕНЫ БЕРНУЛЛИ И ИХ СВОЙСТВА Возьмем функцию g(x, t)=ext — (П-7) отличающуюся от (П.1) множителем ext. Она регулярна в круге |/]<2л и может быть разложена там в степенной ряд g(x, f)=ext——- оо (П.8) Ниже мы увидим, что коэффициент Вп(х) является многочленом сте- пени и. Он называется многочленом Бернулли. Найдем явное выражение его через числа Бернулли и степени х. оо Xvty Заменим в (II.8) ext рядом ----— v=0 V' и — разложением (П.2): оо v=0 v! оо Вп п\ 71=0 оо n=0 Сравнив коэффициенты при /п, получим равенство
§ 2. МНОГОЧЛЕНЫ БЕРНУЛЛИ И ИХ СВОЙСТВА 557 или после умножения на п\ (11.9) что можно записать в простой условной форме: Вп (х) = (*+В)п. Ознакомимся с некоторыми свойствами многочленов Бернулли. 1. Начальное значение многочлена Бернулли при х=0 рав- но числу Бернулли того же номера: Вп(0)=Вп. (11.10) 2. Дифференцирование и интегрирование Вп(*). Вычислив производную по х от обеих частей равенства (II.8), получим С другой стороны, оо Левые части обоих последних равенств одинаковы, сравнение же коэф- фициентов разложений, стоящих в правых частях, дает Вп'(х) и! Вп—1 (^) (п-1)! или Вп'(х) =пВп-1(х). (11.11) Отсюда, если воспользоваться (II.10), получим правило интегриро- вания х Вп(х)=Вп+и) (11.12) о 3. Си мметрия распределения значений Вп(х'). Точки , 1 х и 1—х расположены симметрично относительно точки х= —являю*
558 -ДОБАВЛЕНИЕ II. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ щейся серединой отрезка [0, 1]. Мы покажем, что при всяком п и лю- бых х выполняется равенство (1—х) = (—l)nBn(x). В частности, отсюда следует, что В2ь(\—х) =В2ь(х) и график многочлена Бернулли четного индекса 2k симметричен относительно прямой х— —. При п = = 2^+1 будет В2/н-1(1— х) =— В2&+1(х) и график В2&+1(х) антисимметри- 1 чен относительно прямой х= —. Для доказательства заменим в (П.8) х на 1— х\ —xt (— Сравнение коэффициентов при tn в первом и последнем разложениях приводит к нужному равенству вп(1— х) = (—1)пВп(х). (11.13) 4. Изменение Вп(х) на отрезке [0, 1]. Будем рассматри- вать многочлены у nix') =Вп(х)—-Вп, несущественно отличающиеся от Вп(х). Пусть п>1. Покажем, что точки х=0 и х=1 являются нулями уп(х). Действительно, на основании (И.5), (11.10) и (11.13) Уп (0) —В„(0) Вп— Вп Вп — о и Уп(1)=Вп(1)-Вп=(-1)^п(0)-Вп = -Вп[1-(^1)п]=0, ввиду того что при четном п равна нулю величина, стоящая в прямых скобках, а при нечетном л, большем единицы, равно нулю число Бер- нулли Вп. Рассмотрим теперь многочлен нечетного номера y2&+i(x) =В2ь+1(х) (£>0). Значение х—— есть нуль у2ь+1(х), так как из (11.13) следует и, значит,
§ 2. МНОГОЧЛЕНЫ БЕРНУЛЛИ И ИХ СВОЙСТВА 559 Убедимся теперь, что внутри [0, 1] у2ь+1(*) не имеет корней, отличных от х= Для этого достаточно показать, что #2м-1(х) не может иметь внутри [0, 1] двух разных нулей. Допустим противоположное: пусть а и р (0<а<р<1) являются нулями //2&+1(х). Ввиду того что х=0 и х=1 также являются нулями, внутри каждого из отрезков [0, а], [а, р] и [р, 1] многочлен С+1 W = B2k+i W = (2*+1) (х) должен иметь по меньшей мере один нуль и, следовательно, многочлен W = (2Л+1) B'2k (х) = (2Н-1) 2ky2k-i (X), а стало быть и у2&-1(х), должен иметь внутри [0, 1] по меньшей мере два разных нуля. Продолжая рассуждения, мы убедимся в том, что много- член уз(*) имеет внутри [0, 1] не меньше двух разных корней. Если к ним присоединить два корня х=0 и х= 1, мы придем к невозможному заклю- чению, что многочлен третьей степени, отличный от тождественного нуля, #з(х) имеет не меньше четырех разных нулей. Поэтому наше допущение о том, что У2ь+1(х) имеет два разных нуля между точками х=0 и х=1 является неверным. Обратимся теперь к многочленам четного индекса у2ь(х). Из только что доказанного вытекает, что внутри [0, 1] */2л (х) не может иметь кор- ней и, следовательно, сохраняет знак на [0, 1]. В самом деле, если бы г/2ь(х) обращался в нуль внутри [0, 1], производная ♦ У= В' (х) = 2kB2k-t (х) = 2ky2k-i (х), а следовательно, и многочлен у2к-\{х) должны были бы иметь внутри [О, 1] не меньше двух разных корней, что невозможно. Знак t/2fc(x) на [0, 1] можно определить, если вычислить его значение в одной внутренней точке [0, 1], например в точке х=Положив 1 2 в (II.8) х= — и выполнив несложные преобразования, получим цепочку равенств У 4 2 / t (e^+pt t n\ e*—1 e*-—1 ег—1 e2 f —1
560 ДОБАВЛЕНИЕ И. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ Вп (4-) =-(1-2-”+1)Вп, £ 1 У2л( 4~) (v) -B2ft=-(2-2-2ft+1)B2fe. Таким образом, внутри [0, 1] у2л(х) сохраняет знак, противополож- ный знаку В2&: Ых)В2й<0 (0<х<1). (11.14) В частности, так как В2д и В2л+2 имеют противоположные знаки, у2ь(х) и у2л+2(х) также будут иметь внутри [0, 1] противоположные знаки. § 3. ПЕРИОДИЧЕСКИЕ ФУНКЦИИ, СВЯЗАННЫЕ С МНОГОЧЛЕНАМИ БЕРНУЛЛИ Определим 1-периодические функции В„(х) равенствами В„(х)=Вп(х) (0^х<1) и Вп(х-М)=Вп(х) (—оо<х<оо), Во (х) = 1. Так как Bt(x)=x----то В/ (х) есть разрывная функция, имеющая £ скачок —1 в целых точках. При п>1 Вп(1)=Вп(0) и В„(х) есть не- прерывная периодическая функция. Построим тригонометрические ряды для В„(х) на [0, 1]. Вп(х) == 4-0ОП)+ [flm’cos 2nmx+&m)sin 2шпх], (11.15) т=1 i i a(m=2 J Bn(x)cos 2nmxdx=2 J Bn (x) cos 2nmxdx, о о % i i 6^=2 J Bn (x) sin 2ntnxdx=2 J Bn (x) sin 2ntnxdx. о о
§ 3. ПЕРИОДИЧЕСКИЕ ФУНКЦИИ, СВЯЗАННЫЕ С МНОГОЧЛЕНАМИ БЕРНУЛЛИ 561 На основании известных в теории рядов Фурье теорем можно утвер- ждать, что равенство (II.15) имеет место при всяких х, когда п>1, ввиду непрерывности Вп(х), и всюду, кроме целых точек, для Bi (х), в целых же точках сумма ряда равна 4 (+°)+в*‘(-°) ]=4 [_ т+41=о- Подсчитаем коэффициенты ат и Ьт. Пусть п>0. 1 1 =2f Bn(x)dx=-^ Вп+1(х)=0 (п=1, 2, Остановимся сначала на случае четного п (n=2k)\ =2 Js2fe(x)cos 2n/nxdx= о 1 1 sin2nmx d / \ 2ft f . o D , . , ---z------B2k (x)-----I sin 2nmxB2h-i M dx. 2nm nm * Внеинтегральный член обращается в нуль. Повторное интегрирование по частям дает а (2k) т 2ft пт 1 ’ 1 cos2nmx о . ft (2ft—1) f _ . ч л , ----z-----B2k-i (х)--4——— J B2h_2 (х) cos 2nmxdx. 2пт (пт)2 J 4 Если ft>l, внеинтегральный член обратится в нуль, так как B2k-i (1) = B2k~i (0) = 0, и получится (2k) 2ft (2ft—1) (2k—2) Qm ~ (2^)^ am (11.16) Для Л=1 интегральный член правой части равен нулю и а<2> _ ______ От (пту' (11.17)
562 ДОБАВЛЕНИЕ II. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ Применение равенства (11.16) k раз даст совместно с (11-17) следую- щее значение для ат : а (2k) т -1)^-1 2>(2fe)! (2nm)2ft Что же касается Ь^\ то, так как #2/1(1—*) =B2/i(x) и sin 2лт(1—-х) =—sin 2лтх, для функции, стоящей под знаком интеграла в выражении выпол- няется равенство B2k (1 — х) sin 2лт (1 —х) = — B2k (х) sin 2лтх, И поэтому Ьт = 0. Ряд Фурье для В2*ь(х) будет Вг1(х) = 22Ь-1.Л2Ь (—l)ft-i(2&)! cos 2л/пх m2fe т=1 (11.18) При х=0 отсюда получаются равенства (II.6) для чисел Бернулли B2k, приведенные нами в конце § 1. Для n=2&—1 (£=1, 2, ...) при помощи аналогичных вычислений найдем Bzk-i (х) = (—l)fe(2^—1)! 22k-2ft2k-i sin 2лтх § 4. ПРЕДСТАВЛЕНИЕ ПРОИЗВОЛЬНОЙ ФУНКЦИИ ПРИ ПОМОЩИ МНОГОЧЛЕНОВ БЕРНУЛЛИ Теорема 1. Если функция f (х) имеет на [0, 1] непрерывную производ- ную порядка v (v^ 1), тогда при О^х^ 1 верно равенство V—1 f (х) = J f (Z) dt+ 2 (1) (°) ] - л i KI 1 - ЛJ f(v)(Z) [£v*(x-Z) —Bv (x) }dt. v!o (11.19)
§ 4/ ПРЕДСТАВЛЕНИЕ ПРОИЗВОЛЬНОЙ ФУНКЦИИ ПРИ ПОМОЩИ МНОГОЧЛЕНОВ 563 Доказательство. Преобразуем интеграл 1 pv(x)=pv= -М Bv* (x-t)fM(t)dt. (11.20) v!o Пусть v>l. Выполним интегрирование по частям: 1 * 1 . pv= gv(vx,~° ^в;(X-f)dt. Так как d By (x— 1) = BV*(x) =BV (x) и — By (x—/) =— /), TO Pv= (0)] + , V! и после (v—1) -кратного применения этого соотношения получим v Pv= £ [Р-1) (1) (0) ] +Р1. k=2 Напомним, что В1 (х) имеет разрывы со скачком —1 в целых точках и всюду между этими точками производная от Bi (х) равна 1. Предположим, что 0<х<1. Тогда Р1(х) = {['(/) Bt* (х-/)^+ (Z)Bi* (x-/)d/=Bi* (+0)f (x)- 0 x X 1 -Bj (x)f(O)+ jf(Z)^+Bi* (x-l)r(l)-Bi*(-0)f(x) + $f(f)dt= 0 x 1 = [Bi* (+0)+B1* (-0) ] f (x) +B1 (x) [f (1) -f (0) ] + Jf (/) dt. о Ho вГ(+0)=~4> £(-0) = V’ и, стало быть,
564 ДОБАВЛЕНИЕ П. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ 1 P1=-fW+Bi(x) [/(1)-f (0)] + Jf(t)dt. » о Для pv (v= 1, 2,...) получится представление, лишь формой записи отличающееся от (11.19): 1 v о v 1 +2 (1) (°) j+J w)dt- Kt I fe=l 0 Равенство (11.19) доказано нами в предположении, что х лежит внутри [0, 1], но оно верно и для замкнутого отрезка O^x^l, так как все величины, в него входящие, являются непрерывными функциями х. Когда функция f (х) задана на произвольном конечном отрезке [а, 6] и имеет там непрерывную производную порядка v, ее разложение по мно- гочленам Бернулли получится из (11.19) с помощью линейного преобра- зования аргумента. Введем новую переменную, положив x=a-{-h% (h = b—a, O^g^zl). К функции q?(g) =f|) применим равенство (11.19): 1 V—1 Ф (В) = J Ф W + J? • [ф(Л-1) (1) — (0) ] — 0 fe=l 1 - (g-T)-Bv* (g)]dT V' 0 и вернемся к первоначальным аргументу х и функции f, приняв во вни- мание соотношения <р(т) =f(а+тй), t=a-\-xh, dt=hdx, dk dk == =hk ^f(a+h& . Получим b v—1 1 Г VHF / x—a \ nt)dt+ 2-wBk\-h~) [/<*-*)(*) a k=l b -&(^)]dt, h = b-a. (11.21)
ДОБАВЛЕНИЕ III АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ Рассмотрим множество Нп алгебраических многочленов, степень ко- торых не больше п: Рп(х) =СоХп+С1Хп-1+. • .4-fn. Коэффициенты Со, cif ... , сп есть любые действительные числа. В част- ности, cQ может равняться нулю и степень многочлена Р тогда будет меньше п. Очевидно, . Пусть на конечном отрезке [а, £] дана непрерывная функция f. Возь- мем многочлен Рп с определенными коэффициентами. Отклонение Рп от f на отрезке [а, 6] характеризуется величиной Д(Рп)= max |f(x)— Рп(х) |, она зависит от выбора многочлена Рп и является функцией его коэффи- циентов Со, сц ... , сп- Величина Д(РП) —.неотрицательная и имеет не- отрицательную точную нижнюю границу, когда Рп пробегает все мно- жество Нп: Еп= inf Д(Р„). (III.1) Рп^Нп Но можно показать, что Еп достигается и является минимальным значением Д(РП), так как существует такой многочлен Рп, для которого д(Рп)=£,п. Мы не будем приводить арифметического доказательства существования Рп и ограничимся тем, что выясним наглядную сторону вопроса. Величину Еп называют наименьшим отклонением многочленов из Нп от f или наилучшим приближением f многочленами степени п. Рп(х) на- зывается многочленом наилучшего приближения из Нп. Единственность такого многочлена будет установлена позже.
566 ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ Отклонение Д(РП) есть, очевидно, непрерывная функция коэффици- ентов Введем (n-j-1)-мерное числовое пространство Rn+i и совокуп- ность значений коэффициентов сь (А = 0, 1, ..., п) будем рассматривать как точку /?п+1. Так как Ck могут иметь произвольные значения, то об- ластью определения Д(РП) будет все бесконечное пространство Rn+t- В этом состоит трудность задачи, так как нужно доказать существование минимума функции ДР, непрерывной и заданной всюду в En+i. Но можно легко убедиться в том, что для нахождения минимума Д(РП) достаточно рассмотреть только ограниченную часть /?п+ь При м=0, когда строится наилучшее приближение f постоянной вели- чиной, задача решается просто. Если m = minf и 7H = maxf, то наимень- [а, Ь] [а, Ь] г г.* М4-т . А М—т шее отклонение от f имеет постоянная Pq =—~—. Здесь Д(Е0) =—-— Геометрически это вполне очевидно, так как если прямую у= сдвинуть вверх или вниз, то ее наибольшее отклонение от линии y=f(x) увеличится. Множество многочленов Нп с увеличением п расширяется, поэтому при росте и точная нижняя граница отклонении не может увеличиваться, в частности, ЕП^ЕО при п>0. График многочлена наилучшего приближения PnU) =с1хп + с{хп~^-\-, . .4-Сп, если он существует, принадлежит замкнутой полосе между линиями y=f(x)-\-En, y=f(x)—En и прямыми х=а, х=Ь. Взяв произвольное а>0 и приняв во внимание неравенства (х) —-— мы можем сказать, что значения Р*п(х), так же как и значения много- членов Рп(х), близких к нему, т. е. имеющих коэффициенты сь, доста- точно близкие к Ck, лежат в границах (М—т)— a^Pn(x)^Af+-i- (М—т)+а. (III.2) Поэтому при изучении вопроса о существовании Рп(х) мы можем не брать все многочлены, входящие в 7/п, а ограничиться только теми, для которых выполняются неравенства (Ш.2). Нам осталось еще показать,
ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ 567 что коэффициентам Ck (6=0, 1, ... , п) таких многочленов отвечает ограниченное множество точек в Rn+i- Возьмем на [а, &] п+1 попарно разных узлов Хо,Xi, ... , хп и закрепим их. Интерполируем Рп(х) по значениям во взятых узлах. Так как Рп имеет степень не выше п, интер- полирование будет точным и Рп (х) = 1г (х) Рп (Xi) ) li (X) = -у- А ’ i=0 (X—Xi) CD [Xi) 0) (x) = (x—Xo) (x—Xi) ... (x—xn). Если разложить многочлены влияния узлов /г(х) по степеням х: («я) == dit n—jX\ j=0 для коэффициентов Ck мы получим следующие выражения их через зна- чения Рп(хь)- Ck=z dikPn(Xi)) г=0 где dik зависят лишь от фиксированных узлов Хо, Xi’... , хп и не зависят от значений Рп(Хг). Теперь ясно, что если все значения многочлена Рп (х) ограничены, то будут ограничены и все коэффициенты с&. При решении вопроса о достижимости inf (ДРП)==ЕП мы можем считать, чтоЛРп, как функция коэффициентов cQi cif ... , сп, задается в ограниченной замкну- той области Rn+t- Тогда ясно, что, ввиду непрерывной зависимости ДРП от Ck (6 = 0, 1, ... , п), точная нижняя.граница достигается и многочлен наилучшего приближения Рп(х) существует. Обратимся к теореме Чебышева о точках наибольшего отклонения Рп от f. Для сокращения обозначений условимся многочлен наилучшего приближения обозначать одной буквой Р, отбрасывая знаки пи*. Для него шах | Р (х) —f (х) | =Еп X х и существует хотя бы одна точка Хо, в которой \Р(х0) — f(xo) | =Еп. Такую точку называют точкой наибольшего отклонения или, кратко, (е)-точкой. График многочлена Р(х) лежит между линиями t/=f(x)+E*n и у— =f[x)—En. В точке Хо он касается либо верхней линии, либо нижней.
568 ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ Всякую точку Хо, в которой он касается верхней линии, называют (+)-точкой наибольшего отклонения или сокращенно (4-)-точкой, и аналогично всякую точку, где график многочлена касается нижней огра- ничивающей линии, называют (—)-точкой. Очевидно, должны существовать как (+)-точки, так и (—)-точки, так как если бы график многочлена Р не касался, например, нижней линии y=f(x)—En, то мы могли бы сдвинуть график незначительно вниз, добавляя к многочлену Р(х) малую отрицательную постоянную, и полу- чить многочлен, график которого лежит в более узкой полосе около линии y=f(x)> что противоречит тому, что Р(х) есть многочлен наи- меньшего отклонения от f. Как оказывается, точек наибольшего отклонения на [а, 6] больше, чем две. Теорема 1. На отрезке [а, 6] существует последовательность n-j-2 (е) -точек Л1<Х2<. • .<Хп+2, которые попеременно есть (+) -точки и (—}-точки. Доказательство. Такую последовательность (е)-точек часто называют чебышевским альтернансом. Доказательство теоремы основано на простой мысли: если чебышев- ский альтернанс из «4-2 точек отсутствует и можно построить альтернанс самое большее из пг точек при «г <«4-2, то отклонение Р от f можно уменьшить, вычитая из Р многочлен р, имеющий степень не выше п и над- лежащим образом подобранный. Для этого нужно, чтобы многочлен р имел во всех (е)-точках тот же знак, что и разность P—f. Если эта раз- ность меняет знак меньше чем n-j-l раз, то многочленом степени п такому требованию можно удовлетворить. При этом, если р умножить на доста- точно малый положительный множитель X, новый многочлен Р(х)-—Хр(х) во всех других точках будет отклоняться от f меньше, чем на Еп. Это показало бы, что при отсутствии («4-2) -членного альтернанса многочлен Р не может иметь наименьшего отклонения от f. Для построения р недостаточно указанных наглядных соображений, и оно потребует некоторых численных расчетов. Отрезок [а, &] разделим точками a=Uo<«i<.. .<Zus=b на столь малые части, чтобы в каждой из них изменение функции *) Р—f было меньше — Еп. Каждую часть uk^x^Uk+i, содержащую хоть одну (е)-точку, будем называть (е)-сегментом. На каждом таком сегменте *) Под изменением функции ф(х) на отрезке [с, d\ понимают sup |ф(х) — ф(х') |.
ДОБАВЛЕНИЕ HI. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШрГО ПРИБЛИЖЕНИЯ 569 разность P—f не обращается в нуль и сохраняет знак. Поэтому на (е)- сегменте могут лежать либо только (+)-точки, тогда мы будем его на- зывать (+)-сегментом, либо только (—)-точки — и мы будем называть его (—)-сегментом. Заметим, что на каждом (+) -сегменте разность Р—f положительна и на каждом (—)-сегменте она отрицательна. Разделим теперь (е)-сегменты на группы, позволяющие подсчитать наименьшее возможное число перемен знаков у разности P—f. Перенумеруем (е)-сегменты слева направо: dzi ... , dx. Разобьем их на группы по приведенной ниже схеме. Для определенности записи схемы мы считаем, что di есть (+) -сегмент. db d2.....dht [(+)-сегменты], dht+i, dki+2, dki [(—)-сегменты], (1П.З) dt 1+i,.... dft [(—^-‘-сегменты]. ” A lib ' В схеме показаны tn групп. Каждая из них содержит по меньшей мере один (е)-сегмент. Для доказательства теоремы достаточно установить неравенство /п^п-|-2. Допустим противоположное: пг<п+2 и убедимся, что такое допу- щение приводит к противоречию с тем, что Р есть многочлен наимень- шего отклонения от f. На сегментах d^t и (i=l, 2, ... , т— 1) раз- ность P—f имеет противоположные знаки, такие сегменты не могут иметь общие концы и должны быть разделены между собой не-(е)-сегментами. Можно выбрать точку Zi (Z=I, ... , тп—1), лежащую справа от dkt и слева от Построим многочлен р(х) = (zi—х) (z2—х).. х). Он имеет степень tn— l^n. На сегментах первой группы (Ш.З) р поло- жителен, как и разность P—f, на сегментах второй группы р имеет отри- цательные значения, подобно P—f и т. д. На всех (е)-сегментах р и P—f имеют одинаковые знаки. На всех не-(е)-сегментах величина |Р—f| имеет значение, строго меньшее Еп. Пусть там выполняется неравенство |Р—f\^zE'<zEn> Обозначим max|p(x) | =R и выберем положительное число X настоль- ко Ь] ко малым, чтобы было hR<En—E' и (Ш.4)
570 ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ Наконец, рассмотрим многочлен Q(x)=P(x) —Хр(х), имеющий степень не больше п, и покажем, что он отклоняется от f мень- ше, чем на Еп. В самом деле, на всяком не-(е)-сегменте I Q~f I \P~f I+М РI ^Е'+Ж<Е'+ (Еп—Е') =Еп. Если же точка х лежит на (е)-сегменте, то, ввиду того что там Р—f и р имеют одинаковые знаки и |Р—| А,р | и» кроме того, р(х)=#0, будет: IQ fl — IР fl — IР f| Mpl^n Х|р|<Еп и Р, следовательно, не является многочленом наилучшего приближения. Докажем теперь единственность многочлена наилучшего прибли- жения. Теорема 2. Среди многочленов степени не выше п существует един- ственный, имеющий наименьшее отклонение от f. Доказательство. Предположим, что существуют в Нп два многочлена Р и Q, которые имеют наименьшее отклонение от f. Для них выполняются неравенства Если сложить их почленно и результат разделить на 2, получится новое неравенство говорящее, что /?= — (Р-j-Q) также есть многочлен наилучшего при- ближения. По теореме 1 для R должны существовать п-}-2 точки, где наибольшее отклонение достигается. Пусть это будут точки Xit х2, ... , Если Xk есть одна из'(+) -точек, то
ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИЖЕНИЯ 571 Ho Q(Xfe)— f (хь) ^Еп и, следовательно, 2 Значит, Р(а)~ f(Xk)^En. Но здесь возможен только знак равенства: Аналогично и, стало быть, Р(ха)—f(xft)=En. Q(xk)—f(Xk)=En Q (x^ = P (xft). Сходным путем доказывается, что Р и Q имеют одинаковые значения и в (—)-точках. Таким образом, два многочлена степени не выше п ока- зались совпадающими в п+2 точках. Последнее же может быть только в случае их тождественного равенства.
Добавление IV НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗНОСТЯХ § 1. УРАВНЕНИЯ В КОНЕЧНЫХ РАЗНОСТЯХ ПРОИЗВОЛЬНОГО ВИДА Пусть функция у(х) задана в некоторой Ъбласти. Для определенно- сти предположим, что область ее задания есть полуось 0^х<оо. Возь- мем сетку равноотстоящих точек x-\-kh с шагом /i>0 и рассмотрим ко- нечные разности функции у(х): by W = У (x+h) —У(*)> • * • » ЬрУ (х) = №~*У (*+л) (*). Уравнение вида Ф(х, у(х), Ду(х);...» ДРу(х))=0 (IV.1) называется уравнением в конечных разностях порядка р. Под у(х) здесь понимается функция, подлежащая нахождению. Ф(х, t/0, Уи • • • , Ур) есть заданная функция, определенная в некоторой области изменения своих аргументов (х, #0, Уь - - •, Ур) . При помощи известных выражений конечных разностей через зна- чения функции by(x)=y(x+h')—y(x), &y(x)=y(x+2h')—2y(x+h)+y(x), ... дру (х) = у (х+рй) — — у (х+ (р—1)h) +...+ (— 1) Ру (х) уравнению (IV. 1) можно придать форму ^(х, р(х), р(х+й), , р(х4-рЛ))=0. (IV.2) Если же воспользоваться соотношениями у(х+й)=1/(х)+Д«/(х), y(x4-2/i)=t/(x)+2At/(x)+A2y(xj,..., y(x+p/i)=i/(x)+ -у Ду(х)+. : .+Дрр(х), уравнение (IV.2) можно легко привести к виду (IV. 1).
§ 2. ЛИНЕЙНЫЕ УРАВНЕНИЯ 673 Ниже мы будем рассматривать уравнение в конечных разностях в форме (IV.2). В нем независимая переменная х может иметь, вообще говоря, любые неотрицательные значения. Для нас же достаточно считать, что х при- нимает значения вида x=nh (n=0, 1, 2, ...). Обозначая y(kh)=y^ мы будем записывать разностное уравнение в виде F(n, уп, уп+и ...» Уп+р} =0 (n=0, 1, ...) . (IV.3) Условимся говорить, что уравнение имеет нормальную форму, если оно решено относительно значения ус наибольшим индексом: Уп+р — /(Я, Уп, У п+1, • * • , Уп+р—1}. (IV.4) Его можно рассматривать как рекурсионное соотношение весьма частного вида, дающего явное выражение значения уп+р функции у через пир предшествующих значений yn+p_i,..., уп. Если считать у», yi, ... , yP-t известными, то, полагая п=0, при по- мощи (IV .4) мы вычислим yP—f(O, Уо, Уъ ... , yP-i). Полагая п=1, найдем yp+i=f (1, yit уг, ... , уР) и т. д. Вычисления можно продолжать либо неограниченно далеко, либо до тех пор, когда точка (п, уп, Уп+i,..., yn+p_i) выйдет из области определения функции f. Что же касается начальных значений у<>, уи ..., Ур-i, то они остаются произвольными и им можно придавать любые значения также из области определения f. § 2. ЛИНЕЙНЫЕ УРАВНЕНИЯ После кратких пояснений предыдущего параграфа остановимся более подробно на линейных разностных уравнениях. Это уравнения, линейные относительно значений неизвестной функции уп: ^(f/n)=ao(n)yn+p+ai(n)f/n+P-i+- • .+^р(^)!/п=/(п). (IV.5) 'Коэффициенты а*(п) и свободный член f(n) могут быть произволь- ными функциями целочисленного аргумента п. Мы будем для простоты считать, что они определены для всех неотрицательных значений п. Если ао(п)^=О для некоторого значения п, то из уравнения (IV.5) можно найти уп+р в форме линейной функции от значения f (п) свободного члена и р предшествующих значений функции у: уп+р^ъ ... , уп. Поэтому, если ао(я) не обращается в нуль ни при каких значениях п (или на не- котором отрезке при помощи уравнения мы можем, решая его последовательно относительно уР, ур+ъ ..., найти значение уп любого номера п (п^р) в виде линейной функции начальных значений уо, Уъ •••» Ур-i и значений f(0), f(1), ..., f(n—р) свободного члена:
574 ДОБАВЛЕНИЕ IV. НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗНОСТЯХ р—1 . п—р Уп= ^Vnlli+ S Gnf(j) (п = р, р+\, . . г=0 j=0 (IV.6) К рассмотрению такого представления решения вернемся несколь- кими страницами позже. Сейчас же нам необходимо отметить, что если ^о(^)¥=О, то при всяких уо, У1, , Ур-i уравнение имеет решение с та- кими начальными значениями и это решение единственное. Уравнение (IV.5) называется однородным, если его свободный член f (и) тождественно равен нулю. Такое уравнение имеет вид L(zn') =ao(n)zn+p+ai(n)zn+p_i+.. ,4-ap(n)zn=0. (IV.7) Для его решений верно, очевидно, следующее утверждение. (D (2) (*) /ТЛГ'ТЧ Если zn , zn , ... , zn есть решения однородного уравнения (IV.7), то их линейная комбинация с произвольными постоянными коэффициен- тами Cj (J== (k) п есть также решение однородного уравнения (IV.7). Покажем сейчас, что для построения всякого решения однородного уравнения (IV.7) достаточно знать р его частных решений, обладающих свойством, о котором мы будем говорить. Рассмотрим р решений однородного уравнения z^ (i— 1, 2, ... , р). Говорят, что эти решения образуют фундаментальную систему, если определитель, составленный из их начальных значений, отличен от нуля: (IV.8) Такое название связано с тем обстоятельством, что всякое решение однородного уравнения есть линейная комбинация решений, образующих фундаментальную систему. Действительно, каждое решение определяет- ся начальными значениями. Обозначим их а0, 01, ... , ap-i. Образуем линейную комбинацию (IV.9) При произвольных Ch она является решением однородного уравнения.
§ 2. ЛИНЕЙНЫЕ УРАВНЕНИЯ 576 А Нам осталось установить, что Ck можно избрать так, чтобы решение гп имело заданные заранее начальные значения. Полагая гг=О, 1, ... , р—1 и приравнивая соответствующие им значения заданным числам получим для Ch линейную систему: Определитель ее совпадает с Wp и, так как Wp=^0, из системы всегда могут быть найдены и при этом единственным образом коэффициенты Ci, ...» Ср. Линейную комбинацию (IV.9) часто называют общим решением одно- родного разностного уравнения (IV.7). Понятие фундаментальной системы тесно связано с понятием линей- ной независимости решений однородного уравнения. Будем вновь счй- тать, что нам известно k решении zn . Эти решения называются линейно зависимыми, если существуют такие постоянные величины Ci, ... , Ck, не все равные нулю, что при всяких п выполняется равенство +сг2™ +:: :+с^ =о. Если же такое равенство при всех* п может выполняться только в том случае, когда все Ci (f=l, ...,£) равны нулю, решения называются линейно независимыми. Можно просто проверить, что среди решений однородного уравнения (IV.5) существует не более чем р линейно независимых.. В самом деле, пусть zn , ... , zn , zn есть произвольные р+1 таких решении, обра- зуем из них линейную комбинацию с постоянными коэффициентами При любых Ci это есть решение однородного уравнения. Покажем, что Ci можно выбрать так, чтобы это решение имело нулевые начальные зна- чения, при этом не все Ci будут равны нулю. Для этого нужно выполнить систему р уравнений +.. .^-Cpzn -j-Cp+izn =0 (п—0, 1, ... , р—1).
576 ДОБАВЛЕНИЕ IV. НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗНОСТЯХ Это есть однородная система р уравнений с р+1 неизвестными Ck (k=l, ... , р+1). Такая система всегда имеет ненулевое решение. Возьмем любое из таких решений. Соответствующая ему линейная комбинация zn', как решение уравнения (IV.7) с начальными значения- ми, равными нулю, будет равна нулю при всяких п, а отсюда следует, (1) ' (?+1) что решения zn , ..., являются линейно зависимыми. (1) (р) Возьмем теперь р решений zn , ..., zn уравнения (IV.7) и покажем, что для линейной зависимости их необходимо и достаточно, чтобы опре- делитель Wp (IV.6), составленный из их начальных значений, был равен нулю. Образуем из них линейную комбинацию Если решения линейно зависимы, существуют Ck (Л=1, ...» р), не все равные нулю и такие, что zn = 0. В частности, zn = 0 при n=0, 1, , р— 1. Это даст для Ck однородную систему (1) (р) CiZn +.. .+CpZn =0 (n=0, 1, ... , р— 1) с определителем Wp. Так как системе удовлетворяют Ch, среди-которых есть не равные нулю, определитель системы должен равняться нулю: Wp=Q., Наоборот, если Ц7р = 0, то последняя однородная система имеет не- нулевое решение. Соответствующая ему комбинация zn будет иметь нулевые начальные значения и будет, следовательно, равна нулю при всех п, что говорит о линейной зависимости взятых решений. Последние рассуждения показывают, что следующие утверждения являются равносильными: (1) ’ (р) 1) решения zn , ... , zn уравнения (IV.7) образуют фундаменталь- ную систему и 2) эти решения линейно независимы. Возвратимся к произвольному линейному уравнению (IV.5). Легко проверяется, что разность между двумя решениями уп и у№ неоднород- ного уравнения (IV.5) есть решение однородного уравнения (IV.7): L(Уп-У^) = L(уп)—L (у®> )=f(n)—f (п) = 0. Если эту разность обозначить zn, то Уп=У^-\-2п. Верно также утверж- дение: если есть решение неоднородного уравнения (IV.5) и zn есть
§ 2. ЛИНЕЙНЫЕ УРАВНЕНИЯ 577 решение однородного уравнения (IV.7), то уп=У^ -j-Zn есть решение неоднородного уравнения (IV.5). В самом деле, L(уп) =L(y®>) +L(zn) =f (n) +0=f (n). I <* Иными словами говоря, всякое решение уп неоднородного уравнения (IV.5) представимо в виде Уп=У(1 +*п=уу +с^ +.. .+CPZ(P), (IV. 10) где y^ есть некоторое решение неоднородного уравнения и zn — решение однородного уравнения. Верно также, что если у^ есть некоторое реше- ние (IV.5) и z— любое решение (IV.7), то (IV. 10) есть решение неодно- родного уравнения (IV.5). (IV. 10) называют, ввиду изложенного, общим решением неоднород- ного уравнения. Выше было указано выражение (IV.6) для произвольного решения уп уравнения (IV.5) через начальные значения £/о, Уи • • • , Ур-i и значения свободного члена f(n). Это также есть одно из представлений общего решения, записанное лишь в иной форме, чем (IV.10), со специальным выбором фундаментальной системы (1) ^0 (2) 1 (Р) р-1 Zn —Гп, %п —Гп, . . . , Zn -Гп и частного решения неоднородного уравнения (0) п~р 3 yn=2Gnf(j). 3=0 г з О Выясним наглядный смысл коэффициентов Гп и Gn. Начнем с Гп. Во-первых, f(n)=O и будем, следовательно, уравнение считать одно- родным. В правой части (IV.6) при этом исчезнет втораЬ сумма. Во-вторых, начальные значения выберем следующими: Уо=1, У1 = -. .=f/p-i=O. Тогда мы получим уп — Гп- Это позволяет сказать, что Г° есть решение однородного уравнения (IV.7), удовлетворяющее начальным условиям Го° = 1, Г? =0, ...» Гр~1=0. Такое решение учитывает влияние, которое оказывает на уп начальное значение у0. Аналогично Гп будет решением однородного уравнения с начальными значениями.
578 ДОБАВЛЕНИЕ IV. НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗНОСТЯХ Го1 =0, г,1 = 1, г! : .=Гр_!=о. Оно будет учитывать влияние на уп начального значения- г/2- Сходный смысл имеют прочие Гп. Рассмотренные коэффициенты Гп называют функциями Грина или функциями влияния начальных значений. Перейдем теперь к выяснению роли G3n- С этой целью положим на- чальные значения уг равными нулю. При этом исчезнет первая сумма справа в (1V.6). Затем фиксируем какое-либо значение индекса n=i и положим f(n)=O при и /(£) = !. Если воспользоваться символом Кронекера, такой выбор f(n) можно записать в виде f(n)=6n. Считая n^p+i, мы получим для уп равенство yn = Gn, что дает воз- можность сказать, что Gn есть решение неоднородного уравнения L(Gn) =бп (п=р, р+1, ...) (IV.H) с единственным; отличным от нуля значением свободного члена f(Q = = б/ = 1. Начальные значения этого решения все равны нулю: Gn=0 (п=0, Коэффициент Gn называется функцией влияния или гриновой функцией значения f (/) свободного члена. § 3. ЛИНЕЙНЫЕ УРАВНЕНИЯ С ПОСТОЯННЫМИ КОЭФФИЦИЕНТАМИ Рассмотрим теперь линейные однородные уравнения, коэффициенты которых не зависят от и и являются постоянными: L(zn)=a0Zn+p+aiZn+i>-i+.. .+anzn=0 (n=0, 1, ...). (IV.12) Как мы покажем сейчас, построение общего решения здесь приво- дится к нахождению корней алгебраического уравнения степени р и к определению их кратностей. Сделаем замену функции в уравнении, положив zn=№unt где X есть некоторая постоянная величина, выбор которой будет сделан ниже. Воспользовавшись выражением значений функции через конечные разности, получим
§ 3. ЛИНЕЙНЫЕ УРАВНЕНИЯ С ПОСТОЯННЫМИ КОЭФФИЦИЕНТАМИ Б79 — Xnun, ^n+i=:Xn+1un-f-i=Xn“*”1 (wn—|-Дип), Zn+2=Xn+2un+2=Xn+2 (иn -J- 2 A un+A2wn), Zn+p = ^+PUn+p = k”+P ( Un+ -Jj- AUn+ P^P A2Un+.. -+AP«n ) . Подстановка в (IV. 12) даст: L (Xnun) =Х«+Ра0 [ «n+ yy A«n+ ^2| д2“п+' • • ] + [P------- 1 1 , 4 Un“|----. J . .-]-Kn(lpUn ==:Xn<p (X) WnH- +v+W) +^+V(x) +.. .+x"+p<p(p)(x) =o. 1 . . fJ. Здесь ф(Х) = cli№~^-(-ОгХ^”2“F« • Предположим теперь, что X есть корень уравнения ф(Х) =0 и крат- ность его равна k. В этом случае ф(Х) =ф'(Х) =...=ф(ь-1)(Х) =0 и L(X"un) =X”+Vft)W ~А ь!" ' +• • .Ч-^+РфСРЧХ) №“п~. К\ Если, кроме того, ип есть многочлен от и, степень которого не больше k— 1, то будет Д^ип = 0, ...» Д?цп = 0 и L(Xnun) =0. Все это дает возможность высказать приводимое ниже заключение. Пусть уравнение ф(А<) = 4“ • .+аР = 0 (IV.13) имеет т различных корней М, Л2? ... , кратности которых равны со- ответственно klt &2, ... , km. Этим корням отвечают следующие частные решения уравнения: корню М: к? , пк\ , и2Х1П, ... , , корню Хг: кг , п%2 , я2ХгП, ... , t (IV.14) КОрНЮ Хщ* tikjnf • • • , tZ^,m ^Хпг»
580 ДОБАВЛЕНИЕ IV. НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗНОСТЯХ Так как ^1+^2+-- .+&т=р, приведенных решений будет ровно р. • Почти очевидной является их линейная независимость. Чтобы про- верить ее, достаточно составить из их начальных значений при п = = 0, 1, ... , р—1 определитель Wp и проверить неравенство его нулю. Связанные с этим вычисления не имеют принципиальных трудностей, но громоздки по выполнению. Поэтому мы не будем останавливаться на доказательстве того, что Wp^0, и ограничимся только тем, что отметим некоторые частные случаи. 1. Если все корни уравнения ф(Х)=0 являются однократными (ki=k2=.. .= 1), решениями однородного уравнения будут п А п 1 , (IV.15) Определитель Wp для них есть Он является определителем Вандермонда и отличен от нуля. Поэтому решения (IV. 14) линейно независимы и образуют фундаментальную систему. 2. Рассмотрим уравнение второго порядка L(zn) =аогп+2+а12п+1+а2гп = О. Алгебраическое уравнение (IV. 13) здесь будет квадратным: ф(Х) = 0. Пусть корни его есть М и Х2. Если Xi=#X2, то решениями будут X? и Х2 . Если же М=Х2, то решения есть X? и nhi . Они, очевидно, линейно не- зависимы. 3. Возвратимся к общему случаю (IV. 14). Когда модули корней раз- личны между собой (| Хг | =И= | Xj |, решения также будут очевидным образом независимы, так как они все будут иметь различные порядки роста при п-^оо.
СОДЕРЖАНИЕ 581 Предисловие ГЛАВА 1. РЕШЕНИЕ ЧИСЛЕННЫХ УРАВНЕНИИ 7 §1.1. О содержании задачи решения уравнений — § 1.2. Метод итерации. Случай одного численного уравнения 10 §1.3. О задаче улучшения метода итерации. Некоторые видоизменения итераци- онного процесса 18 § 1.4. Улучшение итерационного процесса при помощи преобразования заданного уравненйя 28 § 1.5. Понятие об общей теории метода итерации. Теорема о сжатых отображе- ниях 34 § 1.6. Метод итерации для систем уравнений 37 § 1.7. Метод Ньютона. Случай одного численного уравнения 44 § 1.8. Об уточнениях и изменениях метода Ньютона 56 § 1.9. Операторные уравнения и метод Ньютона 73 § 1.10. Метод Ньютона для систем уравнений 79 § 1.11. Метод решения, основанный на возведении корней в степень 88 § 1.12. Нахождение корней многочленов при помощи выделения множителей 96 Литература 102 ГЛАВА 2. РЕШЕНИЕ СИСТЕМ ЛИНЕЙНЫХ АЛГЕБРАИЧЕСКИХ УРАВНЕНИЙ ЮЗ §2.1. Некоторые сведения из линейной алгебры 104 2.1.1. Сходимость последовательностей векторов и матриц — 2.1.2. Нормы векторов и матриц — 2.1.3. Сходимость матричной геометрической прогрессии 115 § 2.2. Итерационные методы 119 2.2.1. Основные разновидности итерационных процессов 120 2.2.2. Метод простой итерации 122 2.2.3. Метод Ричардсона w 132 2.2.4. Метод Зейделя и метод релаксации * 136 § 2.3. Методы исключения 150 2.3.1. Метод Гаусса 151 2.3.2. Метод оптимального исключения 155 2.3.3. Метод окаймления .158 2.3.4. Вычисление определителей 162 2.3.5. Обращение матриц 164 § 2.4. Методы, основанные на разложениях матрицы 173 2.4.1. Метод квадратного корня 174 2.4.2. Метод отражений 181 2.4.3. Вычисление определителей 186 2.4.4. Обращение матриц 188 § 2.5. Методы, основанные на построении вспомогательной системы векторов, ортогональных в некоторой метрике 189 2.5.1. Метод ортогонализации — 2.5.2. Алгоритм Уилкинсона 197 2.5.3. Метод сопряженных градиентов 199 2.5.4. Вариант метода сопряженных градиентов 205 2.5.5. Метод скорейшего спуска 208 § 2.6. Способы оценки погрешности приближенного решения системы 213 2.6.1. Обусловленность систем уравнений и матриц 214 2.6.2. Оценка погрешности s Литература 215 218
582 СОДЕРЖАНИЕ ГЛАВА 3. ВЫЧИСЛЕНИЕ СОБСТВЕННЫХ ЗНАЧЕНИЙ И СОБСТВЕННЫХ ВЕКТОРОВ МАТРИЦ 219 §3.1. О содержании задачи — § 3.2. Метод А. Н. Крылова 224 3.2.1. Некоторые сведения из алгебры 225 3.2.2. Нахождение собственных значений матрицы 227 3.2.3. Вычисление собственных векторов матрицы 230 § 3.3. Метод А. М. Данилевского 233 3.3.1. Построение собственного многочлена матрицы 234 3.3.2. Вычисление собственных векторов матрицы 239 § 3.4. Другие методы получения собственного многочлена матрицы 241 3.4.1. Интерполяционный метод 3.4.2. Метод Леверье 243 3.4.3. Метод Д. К. Фаддеева 244 3.4.4. Метод окаймления 246 3.4.5. Эскалаторный метод 248 3.4.6. Метод ортогонализации 250 3.4.7. Метод Хессенберга 260 3.4.8. Метод Самуэльсона 265 § 3.5. Итерационные методы нахождения собственных значений и собственных векторов матрицы 267 3.5.1. Степенной метод для вычисления наибольшего по модулю собственного значе- ния матрицы и соответствующего собственного вектора 263 3.5.2. Вычисление всех собственных значений положительно определенной симметри- ческой матрицы 279 3.5.3. Видоизменения степенного метода 282 3.5.4. Метод Х-разности 287 § 3.6. Метод вращений 289 3.6.1. Случай вещественных симметрических матриц 292 3.6.2. Сходимость метода вращений 295 3.6.3. Случай эрмитовых матриц 301 § 3.7. Уточнение собственных значений и принадлежащих им собственных векто- ров матриц и ускорение сходимости метода итерации при решении систем линейных алгебраических уравнений 304 3.7.1. Уточнение полной проблемы собственных значений . — 3.7.2. Уточнение отдельного собственного значения и принадлежащего ему собствен- ного вектора 309 3.7.3. б2-Процесс Эйткена 314 3.7.4. Метод М. К. Гавурина 317 3.7.5. Метод Л. А. Люстерника 320 Литература 324 ГЛАВА 4. ИНТЕРПОЛИРОВАНИЕ 325 § 4.1. О содержании задачи интерполирования — 4.1.1. Об интерполяционных приближениях — 4.1.2. Остаток интерполирования 332 § 4.2. Конечные разности и разностные отношения 336 4.2.1. Конечные разности — 4.2.2. Разностные отношения, их свойства и связь с конечными разностями 338, § 4.3. Алгебраическое интерполирование по значениям функции. Погрешность интерполирования 344 4.3.1. Введение — 4.3.2. Интерполяционные формулы Лагранжа и Ньютона 347 4.3.3. Остаток интерполирования и его представления для некоторых классов функций 349
СОДЕРЖАНИЕ Баэ § 4.4. Некоторые правила интерполирования при равноотстоящих значениях аргумента 36В 4.4.1. Правила для интерполирования в начале и конце „таблицы •- 4 4.2. Правила интерполирования внутри таблицы 360 § 4.5. Приложение интерполирования к численному нахождению производны^ 364 4.5.1. Об интерполяционном правиле вычисления производной от функции, заданной таблично • ' — 4.5.2. Некоторые частные правила вычисления производных 369 § 4.6. Интерполяционные методы решения численных уравнений 372 4.6.1. Введение. Связь с задачей обратного интерполирования — 4.6.2. Метод приближений, основанный на интерполировании обратной функции 374 46.3. Замена точного уравнения /(х)=0 приближенным, полученным интерполирова- нием f 376 § 4.7. Интерполирование с кратными узлами 377 4.7.1. Существование и единственность интерполирующего многочлена. Остаток — 4.7.2. Представление R(x) в случае аналитической функции /. Формула Эрмита для многочлена Р(х) 380 § 4.8. Сходимость интерполяционных процессов 383 4.8.1. О предельной функции распределения узлов 384 4.8.2. Сходимость интерполирования аналитических функций 385 4.8.3. Некоторые вспомогательные теоремы 394 4.8.4. Сходимость интерполирования на множествах непрерывных и непрерывно диф- ференцируемых функций 399 Литература 413 ГЛАВА 5. ЧИСЛЕННОЕ ИНТЕГРИРОВАНИЕ 414 §5.1. Квадратурная сумма и условия ее построения. Остаток квадратуры — 5.1.1. О квадратурной сумме — 5.1.2. Остаток приближенной квадратуры 419 § 5.2. Интерполяционные квадратурные правила и их погрешности 420 § 5.3. Правила Ньютона — Котеса 424 § 5.4. Некоторые простейшие правила Ньютона — Котеса 432 5.4.1. Правило трапеций — 5.4.2. Правило парабол (формула Симпсона) 434 5.4.3. Правило «трех восьмых» 436 § 5.5. Квадратурные правила наивысшей алгебраической степени точности 437 5.5.1. Построение правила и его единственность — 5.5.2. Два замечания о квадратурных коэффициентах 441 5.5.3. Остаток квадратурного правила 443 5.5.4. Сходимость квадратурного процесса наивысшей степени точности 444 5.5.5. Замечание об интегрировании периодических функций 446 § 5.6. Некоторые частные случаи квадратурных правил наивысшей алгебраиче- ской степени точности 447 5.6.1. Постоянная весовая функция — Ъ „ й 5.6.2. Интегралы вида (Ь—х) а(х—d) р f(x)dx 450 а со 5.6.3. Интегралы вида J* xae~xf(x)dx 455 0 °о _ 2 5.6.4. Интегралы вида f е x2f(x}dx 45Z —оо
584 СОДЕРЖАНИЕ § 5.7. Квадратурные правила наивысшей степени точности, имеющие фиксирован- ные заранее узлы 458 5.7.1. Некоторые общие теоремы — 5.7.2. Некоторые частные квадратурные правила 461 § 5.8. Квадратурные правила с равными коэффициентами 463 5.8.1. Построение формул Чебышева. Существование и единственность — 5.8.2. Случай постоянного веса р(х) = 1 466 § 5.9. Увеличение точности квадратурных правил. Формулы эйлерова вида 474 5.9.1. Введение — 5.9.2. Правила эйлерова вида 476 5.9.3. Формула Эйлера — Маклорена 480 5.9.4. Разностные видоизменения формулы Эйлера — Маклорена 485 § 5.10. Увеличение точности квадратурных правил. Ослабление особенностей инте- грируемой функции 487 § 5.11. Сходимость квадратурного процесса 491 5.11.1. Условия сходимости общего квадратурного процесса — 5.11.2. Сходимость интерполяционных квадратурных процессов 498 § 5.12. Вычисление неопределенного интеграла 500 5.12.1. Введение — 5.12.2. Погрешность вычислений и сходимость 504 § 5.13. Понятие о некоторых частных методах вычисления неопределенного ин- теграла 514 5.13.1. Интегрирование функции, заданной таблицей значений — 5.13.2. Вычисление при помощи периодически расположенных узлов 517 5.13.3. 0 правилах, использующих в вычислениях несколько предшествующих зна- чений интеграла 521 Литература 531 ДОБАВЛЕНИЕ I. НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ ФУНКЦИОНАЛЬНОГО АНАЛИЗА ' 532 § 1. Метрические пространства. Сходимость и полнота — § 2. Линейные нормированные пространства. Линейные операторы 535 § 3. Дифференцирование Нелинейных операторов и некоторые теоремы, с этим связанные 546 ДОБАВЛЕНИЕ II. ЧИСЛА И МНОГОЧЛЕНЫ БЕРНУЛЛИ 554 § 1. Числа Бернулли — § 2. Многочлены Бернулли и их свойства 556 § 3. Периодические функции, связанные с многочленами Бернулли 560 § 4. Представление произвольной функции при помощи многочленов Бернулли 562 ДОБАВЛЕНИЕ III. АЛГЕБРАИЧЕСКИЕ МНОГОЧЛЕНЫ НАИЛУЧШЕГО ПРИБЛИ- ЖЕНИЯ 565 ДОБАВЛЕНИЕ IV. НЕКОТОРЫЕ СВЕДЕНИЯ ОБ УРАВНЕНИЯХ В КОНЕЧНЫХ РАЗ- НОСТЯХ 572 § 1. Уравнения в конечных разностях произвольного вида — х§ 2. Линейные уравнения 573 § 3. Линейные уравнения с постоянными коэффициентами 578