Текст
                    УДК 512.83
ББК 517.1
Г 19
Гантмахер Ф. Р. Теория матриц. — 5-е изд., — М.: ФИЗМАТЛИТ, 2010. — 560 с. —
ISBN 978-5-9221-0524-8.
Книга посвящена матричному исчислению. В ней наряду с собственно теорией матриц
содержится изложение ряда математических проблем, решение которых достигается
применением развитой матричной техники. Большое внимание уделяется вопросам интегрирования и
проблеме устойчивости систем дифференциальных уравнений.
Четвертое издание — 1988 г.
Для студентов старших курсов и аспирантов (математиков, механиков, физиков и др.),
а также для математиков, программистов, механиков, физиков и инженеров, использующих
матричный математический аппарат.
Ответственный редактор: В. Б. Лидский
Ил. 11. Библиогр.302 назв.
ISBN 978-5-9221-0524-8
© ФИЗМАТЛИТ, 2004, 2010
© Ф.Р. Гантмахер, 2004, 2010


ОГЛАВЛЕНИЕ Предисловие автора к первому изданию 7 Предисловие редактора ко второму изданию 10 ЧАСТЬ ПЕРВАЯ ОСНОВЫ ТЕОРИИ ГЛАВА I. МАТРИЦЫ И ДЕЙСТВИЯ НАД НИМИ § 1. Матрицы. Основные обозначения 11 § 2. Сложение и умножение прямоугольных матриц 13 § 3. Квадратные матрицы 22 § 4. Ассоциированные матрицы. Миноры обратной матрицы 27 § 5. Обращение прямоугольных матриц. Псевдообратная матрица 30 ГЛАВА П. АЛГОРИТМ ГАУССА И НЕКОТОРЫЕ ЕГО ПРИМЕНЕНИЯ § 1. Метод исключения Гаусса 39 § 2. Механическая интерпретация алгоритма Гаусса 43 § 3. Детерминантное тождество Сильвестра 45 § 4. Разложение квадратной матрицы на треугольные множители 47 § 5. Разбиение матрицы на блоки. Техника оперирования с блочными матрицами. Обобщенный алгоритм Гаусса 53 ГЛАВА III. ЛИНЕЙНЫЕ ОПЕРАТОРЫ В n-МЕРНОМ ВЕКТОРНОМ ПРОСТРАНСТВЕ § 1. Векторное пространство 63 § 2. Линейный оператор, отображающий n-мерное пространство в т-мерное ... 67 § 3. Сложение и умножение линейных операторов 69 § 4. Преобразование координат 71 § 5. Эквивалентные матрицы. Ранг оператора. Неравенства Сильвестра 72 § 6. Линейные операторы, отображающие n-мерное пространство само в себя ... 76 § 7. Характеристические числа и собственные векторы линейного оператора ... 79 § 8. Линейные операторы простой структуры 81 ГЛАВА IV. ХАРАКТЕРИСТИЧЕСКИЙ И МИНИМАЛЬНЫЙ МНОГОЧЛЕНЫ МАТРИЦЫ § 1. Сложение и умножение матричных многочленов 84 § 2. Правое и левое деления матричных многочленов. Обобщенная теорема Безу . 86 § 3. Характеристический многочлен матрицы. Присоединенная матрица 89 § 4. Метод Д.К. Фаддеева одновременного вычисления коэффициентов характеристического многочлена и присоединенной матрицы 93 § 5. Минимальный многочлен матрицы 95 ГЛАВА V. ФУНКЦИИ МАТРИЦЫ § 1. Определение функции матрицы 99 § 2. Интерполяционный многочлен Лагранжа-Сильвестра 103 § 3. Другие формы определения /(А). Компоненты матрицы А 106 §4. Представление функций матриц рядами 111 § 5. Некоторые свойства функций от матриц 114
4 Оглавление § 6. Применение функций от матрицы к интегрированию системы линейных дифференциальных уравнений с постоянными коэффициентами 119 § 7. Устойчивость движения в случае линейной системы 125 ГЛАВА VI. ЭКВИВАЛЕНТНЫЕ ПРЕОБРАЗОВАНИЯ МНОГОЧЛЕННЫХ МАТРИЦ. АНАЛИТИЧЕСКАЯ ТЕОРИЯ ЭЛЕМЕНТАРНЫХ ДЕЛИТЕЛЕЙ § 1. Элементарные преобразования многочленной матрицы 130 § 2. Канонический вид А-матрицы 133 § 3. Инвариантные многочлены и элементарные делители многочленной матрицы 137 § 4. Эквивалентность линейных двучленов 142 § 5. Критерий подобия матриц 144 § 6. Нормальные формы матрицы 145 § 7. Элементарные делители матрицы f(A) 149 § 8. Общий метод построения преобразующей матрицы 152 § 9. Второй метод построения преобразующей матрицы 156 ГЛАВА VII. СТРУКТУРА ЛИНЕЙНОГО ОПЕРАТОРА В га-МЕРНОМ ПРОСТРАНСТВЕ (ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ЭЛЕМЕНТАРНЫХ ДЕЛИТЕЛЕЙ) § 1. Минимальный многочлен вектора, пространства (относительно заданного линейного оператора) 165 § 2. Расщепление на инвариантные подпространства с взаимно простыми минимальными многочленами 167 § 3. Сравнения. Надпространство 169 § 4. Расщепление пространства на циклические инвариантные подпространства . 171 § 5. Нормальная форма матрицы 175 § 6. Инвариантные многочлены. Элементарные делители 178 § 7. Нормальная жорданова форма матрицы 181 § 8. Метод А.Н. Крылова преобразования векового уравнения 183 ГЛАВА VIII. МАТРИЧНЫЕ УРАВНЕНИЯ § 1. Уравнение АХ = ХВ 193 § 2. Частный случай: А = В. Перестановочные матрицы 197 § 3. Уравнение АХ - ХВ = С 200 § 4. Скалярное уравнение f(X) = 0 201 § 5. Матричное многочленное уравнение 202 § 6. Извлечение корня га-й степени из невырожденной матрицы 205 § 7. Извлечение корня га-й степени из вырожденной матрицы 208 § 8. Логарифм матрицы 212 ГЛАВА IX. ЛИНЕЙНЫЕ ОПЕРАТОРЫ В УНИТАРНОМ ПРОСТРАНСТВЕ § 1. Общие соображения 215 § 2. Метризация пространства 215 § 3. Критерий Грама линейной зависимости векторов 218 § 4. Ортогональное проектирование 220 § 5. Геометрический смысл определителя Грама и некоторые неравенства 222 § 6. Ортогонализация ряда векторов 225 § 7. Ортонормированный базис 230 § 8. Сопряженный оператор 232 § 9. Нормальные операторы в унитарном пространстве 235 § 10. Спектр нормальных, эрмитовых, унитарных операторов 237 §11. Неотрицательные и положительно определенные эрмитовы операторы 240 § 12. Полярное разложение линейного оператора в унитарном пространстве. Формулы Кэли 242 § 13. Линейные операторы в евклидовом пространстве 246 § 14. Полярное разложение оператора и формулы Кэли в евклидовом пространстве 252
Оглавление 5 § 15. Коммутирующие нормальные операторы 255 § 16. Псевдообратный оператор 257 ГЛАВА X. КВАДРАТИЧНЫЕ И ЭРМИТОВЫ ФОРМЫ § 1. Преобразование переменных в квадратичной форме 259 § 2. Приведение квадратичной формы к сумме квадратов. Закон инерции 261 § 3. Метод Лагранжа приведения квадратичной формы к сумме квадратов. Формула Якоби 263 § 4. Положительные квадратичные формы 268 § 5. Приведение квадратичной формы к главным осям 271 § 6. Пучок квадратичных форм 272 § 7. Экстремальные свойства характеристических чисел регулярного пучка форм 277 § 8. Малые колебания системы с п степенями свободы 284 § 9. Эрмитовы формы 288 § 10. Ганкелевы формы 293 ЧАСТЬ ВТОРАЯ СПЕЦИАЛЬНЫЕ ВОПРОСЫ И ПРИЛОЖЕНИЯ ГЛАВА XI. КОМПЛЕКСНЫЕ СИММЕТРИЧЕСКИЕ, КОСОСИММЕТРИЧЕСКИЕ И ОРТОГОНАЛЬНЫЕ МАТРИЦЫ § 1. Некоторые формулы для комплексных ортогональных и унитарных матриц . 301 § 2. Полярное разложение комплексной матрицы 305 § 3. Нормальная форма комплексной симметрической матрицы 307 § 4. Нормальная форма комплексной кососимметрической матрицы 309 § 5. Нормальная форма комплексной ортогональной матрицы 314 ГЛАВА XII. СИНГУЛЯРНЫЕ ПУЧКИ МАТРИЦ § 1. Введение 318 § 2. Регулярный пучок матриц 319 § 3. Сингулярные пучки. Теорема о приведении 321 § 4. Каноническая форма сингулярного пучка матриц 326 § 5. Минимальные индексы пучка. Критерий строгой эквивалентности пучков . . 328 § 6. Сингулярные пучки квадратичных форм 330 § 7. Приложения к дифференциальным уравнениям 334 ГЛАВА XIII. МАТРИЦЫ С НЕОТРИЦАТЕЛЬНЫМИ ЭЛЕМЕНТАМИ § 1. Общие свойства 337 § 2. Спектральные свойства неразложимых неотрицательных матриц 339 § 3. Разложимые матрицы 349 § 4. Нормальная форма разложимой матрицы 356 § 5. Примитивные и импримитивные матрицы 360 § 6. Стохастические матрицы 364 § 7. Предельные вероятности для однородной цепи Маркова с конечным числом состояний 368 § 8. Вполне неотрицательные матрицы 376 § 9. Осцилляционные матрицы 380 ГЛАВА XIV. РАЗЛИЧНЫЕ КРИТЕРИИ РЕГУЛЯРНОСТИ И ЛОКАЛИЗАЦИЯ СОБСТВЕННЫХ ЗНАЧЕНИЙ § 1. Критерий регулярности Адамара и его обобщения 387 § 2. Норма матрицы 390 § 3. Распространение критерия Адамара на блочные матрицы 392 § 4. Критерий регулярности Фидлера 394 § 5. Круги Гершгорина и другие области локализации 395
6 Оглавление ГЛАВА XV. ПРИЛОЖЕНИЯ ТЕОРИИ МАТРИЦ К ИССЛЕДОВАНИЮ СИСТЕМ ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ § 1. Системы линейных дифференциальных уравнений с переменными коэффициентами. Общие понятия 399 § 2. Преобразование Ляпунова 402 § 3. Приводимые системы 403 § 4. Каноническая форма приводимой системы. Теорема Еругина 405 § 5. Матрицант 408 § 6. Мультипликативный интеграл. Инфинитезимальное исчисление Вольтерра . . 412 § 7. Дифференциальные системы в комплексной области. Общие свойства 416 § 8. Мультипликативный интеграл в комплексной области 418 § 9. Изолированная особая точка 422 § 10. Регулярная особая точка 427 § 11. Приводимые аналитические системы 439 § 12. Аналитические функции многих матриц и их применение к исследованию дифференциальных систем. Работы И. А. Лаппо-Данилевского 442 ГЛАВА XVI. ПРОБЛЕМА РАУСА-ГУРВИЦА И СМЕЖНЫЕ ВОПРОСЫ § 1. Введение 445 § 2. Индексы Коши 446 § 3. Алгоритм Рауса 449 § 4. Особые случаи. Примеры 452 § 5. Теорема Ляпунова 455 § 6. Теорема Рауса-Гурвица 459 § 7. Формула Орландо 464 § 8. Особые случаи в теореме Рауса-Гурвица 466 § 9. Метод квадратичных форм. Определение числа различных вещественных корней многочлена 469 § 10. Бесконечные ганкелевы матрицы конечного ранга 471 § 11. Определение индекса произвольной рациональной дроби через коэффициенты числители и знаменателя 473 § 12. Второе доказательство теоремы Рауса-Гурвица 480 § 13. Некоторые дополнения к теореме Рауса-Гурвица. Критерий устойчивости Лье- нара и Шипара 483 § 14. Некоторые свойства многочлена Гурвица. Теорема Стилтьеса. Представление многочленов Гурвица при помощи непрерывных дробей 487 § 15. Область устойчивости. Параметры Маркова 493 § 16. Связь с проблемой моментов 496 § 17. Связь между определителями Гурвица и определителями Маркова 499 § 18. Теоремы Маркова и Чебышева 501 § 19. Обобщенная задача Рауса-Гурвица 507 ДОБАВЛЕНИЕ. НЕРАВЕНСТВА ДЛЯ СОБСТВЕННЫХ И СИНГУЛЯРНЫХ ЧИСЕЛ (Я. Б. Лидский) § 1. Мажорирующие последовательности 509 § 2. Неравенства Неймана-Хорна 512 § 3. Неравенства Вейля 516 § 4. Максимально-минимальные свойства сумм и произведений собственных чисел эрмитовых операторов 518 § 5. Неравенства для собственных и сингулярных чисел сумм и произведений операторов 524 § 6. Другая постановка задачи о спектре суммы и произведения эрмитовых операторов 527 Примечания 533 Список литературы 539 Предметный указатель 555
ПРЕДИСЛОВИЕ АВТОРА К ПЕРВОМУ ИЗДАНИЮ В настоящее время матричное исчисление широко применяется в различных областях математики, механики, теоретической физики, теоретической электротехники и т. д. В то же время ни в советской, ни в иностранной литературе нет книги, которая достаточно полно освещала бы как вопросы теории матриц, так и разнообразные ее приложения. Данная книга представляет собой попытку восполнить этот пробел в математической литературе. В основе книги лежат курсы лекций по теории матриц и ее приложениям, читанные автором в разное время на протяжении последних 17 лет в Московском Государственном университете им. М. В. Ломоносова, в Тбилисском Государственном университете и в Московском физико-техническом институте. Книга рассчитана не только на математиков (студентов, аспирантов, научных работников), но и на специалистов в смежных областях (физиков, инженеров- исследователей), интересующихся математикой и ее приложениями. Поэтому автор стремился сделать изложение материала возможно более доступным, предполагая у читателя только знакомство с теорией определителей и курсом высшей математики в объеме программы втуза. Лишь отдельные параграфы в последних главах книги требуют дополнительных математических знаний у читателя. Кроме того, автор старался сделать изложение отдельных глав возможно более независимым друг от друга. Так, например, глава V "Функции от матрицы" не опирается на материал, помещенный в главах II и III. В тех же местах главы V, где впервые используются основные понятия, введенные в главе IV, имеются соответствующие ссылки. Таким образом, читатель, уже знакомый с элементами теории матриц, имеет возможность непосредственно приступить к чтению интересующих его глав книги. Книга состоит из двух частей, содержащих 16 глав. В главах I и III приводятся первоначальные сведения о матрицах и линейных операторах и устанавливается связь между операторами и матрицами. В главе II излагаются теоретические основы метода исключения Гаусса и связанных с ним эффективных методов решения системы п линейных уравнений при большом п. В этой же главе читатель знакомится с техникой оперирования с матрицами, разбитыми на прямоугольные "клетки" или "блоки". В главе VI вводятся имеющие фундаментальное значение "характеристический" и "минимальный" многочлены квадратной матрицы, "присоединенная" и "приведенная присоединенная" матрицы. В главе V, посвященной функциям от матрицы, даются самое общее определение и конкретные способы вычисления /(^4), где /(А) — функция скалярного аргумента А, а А — квадратная матрица. Понятие функции от матрицы используется в § 5 и § б этой главы для нахождения и полного исследования решения системы линейных дифференциальных уравнений первого порядка с постоянными коэффициентами. Как понятие о функции от матрицы, так и связанное с ним исследование системы линейных дифференциальных уравнений с постоянными коэффициентами первого порядка опираются только на понятие о минимальном многочлене матрицы и не используют (в отличие от обычного изложения) так называемой "теории элементарных делителей", которая излагается в последующих
8 Предисловие автора к первому изданию главах VI и VII. Первые пять глав охватывают некоторый цикл сведений о матрицах и их применениях. Более глубокие вопросы теории матриц связаны с приведением матрицы к нормальной форме. Это приведение проводится на основе теории элементарных делителей Вейерштрасса. Ввиду важности этой теории в книге даны два ее изложения: аналитическое — в главе VI и геометрическое — в главе VII. Обращаем внимание читателя на § 7 и § 8 главы VI, в которых рассматриваются эффективные методы нахождения матрицы, преобразующей данную матрицу к нормальной форме. В § 8 главы VII подробно исследуется метод акад. А. Н. Крылова для практического вычисления коэффициентов характеристического многочлена. В главе VIII решаются матричные уравнения некоторых типов. Здесь же рассматривается задача об определении всех матриц, перестановочных с данной, и детально изучаются многозначные функции от матрицы Гу/А, In A Главы IX и X посвящены теории линейных операторов в унитарном пространстве и теории квадратичных и эрмитовых форм. Эти главы не опираются на теорию элементарных делителей Вейерштрасса и используют из предыдущего материала лишь основные сведения о матрицах и линейных операторах, изложенные в первых трех главах книги. В § 9 главы X дается приложение теории форм к исследованию главных колебаний системы с п степенями свободы. В § 10 этой же главы приведены тонкие исследования Фробениуса по теории ганкелевых форм. Эти исследования применяются в дальнейшем в главе XV при рассмотрении особых случаев в проблеме Рауса-Гурвица. Последние пять глав составляют вторую часть книги. В главе XI определяются нормальные формы для комплексных симметрических, кососимметрических и ортогональных матриц и устанавливаются интересные связи этих матриц с вещественными матрицами тех же классов и с унитарными матрицами. В главе XII излагается общая теория пучков матриц вида А + \В, где А и В — произвольные прямоугольные матрицы одних и тех же размеров. Подобно тому как исследование регулярных пучков матриц А + ХВ проводится на основе теории элементарных делителей Вейерштрасса, изучение сингулярных пучков опирается на теорию минимальных индексов Кронекера, которая является как бы дальнейшим развитием теории элементарных делителей Вейерштрасса. С помощью теории Кронекера (автору кажется, что ему удалось упростить изложение этой теории) в главе XII устанавливается каноническая форма пучка матриц А + ХВ в самом общем случае. Полученные результаты применяются к исследованию системы линейных дифференциальных уравнений с постоянными коэффициентами. В главе XIII излагаются замечательные спектральные свойства матриц с неотрицательными элементами и рассматриваются две важные области применений матриц этого класса: 1) однородные цепи Маркова в теории вероятностей и 2) осцилляционные свойства упругих колебаний в механике. Матричный метод исследования однородных цепей Маркова получил свое развитие в работах В. И. Романовского [29] и опирается на тот факт, что матрица переходных вероятностей в однородной цепи Маркова с конечным числом состояний является матрицей с неотрицательными элементами специального типа ("стохастическая матрица"). Осцилляционные свойства упругих колебаний связаны с другим важным классом неотрицательных матриц — с "осцилляционными матрицами". Эти матрицы и их приложения были исследованы М. Г. Крейном совместно с автором насто-
Предисловие автора к первому изданию 9 ящей книги. В главе XIII изложены только некоторые основные результаты из этой области. Подробное же изложение всего этого материала читатель найдет в монографии [7]. В главе XV собраны приложения теории матриц к системам дифференциальных уравнений с переменными коэффициентами. В этой главе центральное место (§ 5-9) занимают теория мультипликативного интеграла и связанное с ним ин- финитезимальное исчисление Вольтерра. Эти вопросы почти совсем не освещены в советской математической литературе. В первых параграфах и в § 11 изучаются приводимые (по Ляпунову) системы в связи с задачей об устойчивости движения и приводятся некоторые результаты Н. П. Еругина. §§ 9-11 относятся к аналитической теории систем дифференциальных уравнений. Здесь выясняется ошибочность основной теоремы Биркгоффа, которую обычно используют для исследования решения системы дифференциальных уравнений в окрестности особой точки, и устанавливается канонический вид решения в случае регулярной особой точки. В § 12 главы XV в обзорном порядке излагаются некоторые результаты фундаментальных исследований И. А. Лаппо-Данилевского по аналитическим функциям от многих матриц и их применениям к дифференциальным системам. Последняя глава (XVI) посвящена применениям теории квадратичных форм (и, в частности, ганкелевых форм) к проблеме Рауса-Гурвица об определении числа корней многочлена, лежащих в правой полуплоскости (Ste > 0). В первых параграфах этой главы приводится классическая трактовка вопроса. В § 5 дана теорема А. М. Ляпунова, в которой устанавливается критерий устойчивости, эквивалентный критерию Рауса-Гурвица. Наряду с критерием устойчивости Рауса-Гурвица в § 11 этой главы выводится сравнительно мало известный критерий Льенара и Шипара, в котором число детерминантных неравенств примерно вдвое меньше, нежели в критерии Рауса-Гурвица. В конце главы XVI показана тесная связь с задачами устойчивости двух замечательных теорем А. А. Маркова и П. Л. Чебышева, которые были получены знаменитыми авторами на основе теории разложения в ряд по убывающим степеням аргумента некоторых непрерывных дробей специального типа. Здесь же дается матричное доказательство этих теорем. Таков краткий перечень содержания настоящей книги. В заключение автор приносит свою искреннюю благодарность Д. К. Фаддееву, В. П. Потапову и Д. М. Котелянскому, прочитавшим рукопись книги и сделавшим много существенных замечаний, которые были учтены автором при подготовке книги к печати. Автор выражает также свою благодарность М. Г. Крейну и А. И. Узкову за ценные советы, использованные автором при написании книги.
ПРЕДИСЛОВИЕ РЕДАКТОРА КО ВТОРОМУ ИЗДАНИЮ Среди существующей литературы по теории матриц монография Ф. Р. Гант- махера занимает общепризнанно одно из лучших мест. Это объясняется систематичностью, широтой рассмотренных вопросов и четкостью изложения. Первое издание этой книги, вышедшее в 1953-1954 гг., было затем переведено на немецкий и английский языки. В последние годы своей жизни Ф. Р. Гантмахер очень много времени уделил пересмотру и расширению этой книги. Изменения, сделанные им, частично касаются стиля (приведение некоторых терминов в соответствие с новыми традициями, улучшение отдельных доказательств и т. д.). Однако помимо этого было добавлено много нового материала, главным образом во второй, специальной, части книги. Отдельная новая глава XIV ("Различные критерии регулярности и локализация собственных значений") посвящена различным методам приближенного отыскания собственных значений. Добавлены также § 5 гл. V ("Некоторые свойства функций от матриц"), § 17 гл. XVI ("Связь между определителями Гурвица и определителями Маркова") и два параграфа (§ 5 гл. I, § 16 гл. IX) о псевдообратных операторах и матрицах. Известно, что автор был намерен включить в свою книгу ряд недавно разработанных вопросов, связанных с комбинаторикой собственных значений в алгебре матриц. К этим вопросам относится, в частности, задача о распределении собственных значений суммы и произведения двух матриц, а также известные неравенства Вейля и их обобщения. В настоящем издании соответствующее добавление было написано В. Б. Лидским, которому принадлежит одна из первых работ в этом направлении. В. Б. Лидский также принимал участие в подготовке и редактировании второго издания этой книги. Можно надеяться, что некоторое увеличение объема книги не затруднит ее чтения, но, напротив, доставит читателям много интересной и ценной информации. Д. П. Желобенко ПРЕДИСЛОВИЕ РЕДАКТОРА К ЧЕТВЕРТОМУ ИЗДАНИЮ Настоящее четвертое издание монографии Ф. Р. Гантмахера "Теория матриц" полностью совпадает со вторым изданием (1966 г.). Несмотря на интенсивное развитие теории матриц и появление в последние десятилетия новых замечательных книг по ее основам и специальным направлениям, монография Ф. Р. Гантмахера и поныне не утратила своего выдающегося значения. Причина этого не только в богатстве идей, но и в плодотворном использовании матричных методов в задачах механики, при интегрировании сингулярных дифференциальных уравнений, в проблеме устойчивости и других важных разделах математики. Главным образом для пополнения списка литературы в конце книги сделан обзор новых достижений по отдельным вопросам. В. Б. Лидский
ЧАСТЬ ПЕРВАЯ ОСНОВЫ ТЕОРИИ ГЛАВА I МАТРИЦЫ И ДЕЙСТВИЯ НАД НИМИ § 1. Матрицы. Основные обозначения 1. Пусть дано некоторое числовое поле К1). Определение 1. Прямоугольную таблицу чисел из поля К an «21 «12 «22 «In «2n (i) «ml «ra2 • • • «ran будем называть матрицей. Если т = п, то матрица называется квадратной, а число га, равное п, — ее порядком. В общем же случае матрица называется прямоугольной (размера га х п) или га х n-матрицей. Числа, составляющие матрицу, называются ее элементами. Обозначение. При двухиндексном обозначении элементов первый индекс всегда указывает номер строки, а второй индекс — номер столбца, на пересечении которых стоит данный элемент. Наряду с обозначениями матрицы (1) будем употреблять и сокращенное обозначение ||а;*|| (г = l,2,...,m; к = 1,2,...,п). Часто матрицу (1) будем обозначать также одной буквой, например, матрица А. Если А — квадратная матрица порядка п, то будем писать А— Ца^Ц". Определитель квадратной матрицы А = Ца^Ц^ будем обозначать |а^|п или \А\. Введем сокращенные обозначения для определителей, составленных из элементов данной матрицы: «ii&i «ii&2 • • • «iifcp «г2&1 «г2&2 • • • ««2&р (h г2 ... ip \ _ \ki к2 ... kpJ «ipfci «грА?2 (2) Определитель (2) называется минором р-ro порядка матрицы А, если 1 ^ %i < < %2 < ... < ip ^ га и 1 ^ ki < к2 < ••• < кр ^ п. т х n-матрица А = Ца^Ц имеет Cl^C? миноров р-ro порядка А\ 12 к2 (20 (1 ^ %i < %2 < ... <ip ^ га, 1 ^ ki < к2 < .. МИНОРЫ (2'), У КОТОРЫХ %i = &1, 22 = &2, ••♦, < кр ^п р ^ m,n). = А?р, называются главными. 1) Под числовым полем понимают любую совокупность чисел, в пределах которой всегда выполнимы и однозначны четыре операции: сложение, вычитание, умножение и деление на число, отличное от нуля. Примерами числовых полей могут служить совокупность всех рациональных чисел, совокупность всех действительных чисел или совокупность всех комплексных чисел. Предполагается, что все встречающиеся в дальнейшем числа принадлежат данному исходному числовому полю.
12 Гл. I. Матрицы и действия над ними В обозначениях (2) определитель квадратной матрицы А = Ца^Ц^ запишется так: Наибольший из порядков отличных от нуля миноров, порождаемых матрицей, называется рангом матрицы. Если г — ранг прямоугольной матрицы А размера т х п, то, очевидно, г ^ га, п. Прямоугольную матрицу, состоящую из одного столбца II Xl II II *^п || мы будем называть столбцевой и обозначать так: (а?1,Ж2,—,#п)« Прямоугольную матрицу, состоящую из одной строки ||*1 Z2 ... Zn\l мы будем называть строчной и обозначать так: \z\,zz, —,zn]. Квадратную матрицу, у которой все элементы, расположенные вне главной диагонали, равны нулю, II di 0 ... О || О d2 ... О II 0 0 ... dn I мы будем называть диагональной и обозначать так: 11^^*11? 2) или {б?1,б?2,...,б?п}. Введем еще специальные обозначения для строк и столбцов га х п-матри- цы А = \\ciik\\. Будем обозначать г-ю строку матрицы А через а^., а j-й столбец — через а. у. (г = l,...,m; j = l,...,n). Пусть га величин 2/1,2/2, ...,2/m выражаются линейно и однородно через п других величин a?i,a?2,...,a?n: 2/i = on^i + ai2^2 + ... 4- ainxni 2/2 = 021^1 + а22^2 + • •. + a2nXn, /,ч 2/га — Q>ml%l Н" ^га2#2 Н" • • • Н~ 0>тп%П') или, в сокращенной записи, п Уг = ^сцкХк (г = 1,2,...,т). (4') fc=i Преобразование величин #i,#25 ...,#п в величины 2/ь 2/2, ...,2/т при помощи формул (4) называется линейным преобразованием. Коэффициенты этого преобразования образуют га х п-матрицу (1). Задание линейного преобразования (4) однозначно определяет матрицу (1) и наоборот. В следующем параграфе, исходя из свойств линейных преобразований (4), мы определим основные операции над прямоугольными матрицами. 2) Здесь 5гк — символ Кронекера: 6%к = fi (< = *>,
§2. Сложение и умножение прямоугольных матриц 13 § 2. Сложение и умножение прямоугольных матриц Определим основные операции над матрицами: сложение матриц, умножение матрицы на число и умножение матриц. 1. Пусть величины 2/1,2/2, •••,2/m выражаются через величины #i, #2, ...,жп ПРИ помощи линейного преобразования Уг = ^2 aikXk (* = 1? 2' -' Ш)' (5) к=1 а величины z\,zi,...,zm — через те же величины х\,хъ,...,хп при помощи преобразования Zi = ^bikxk (г = l,2,...,m). Тогда к=1 Vi + Zi = ^2(aik + bik)xk (i = 1,2,..., га). (6) (7) Л=1 В соответствии с этим мы устанавливаем Определение 2. Суммой двух прямоугольных матриц А = \\a,ik\\ и В = \\bik\\ одинаковых размеров га х п называется матрица С = \\с{к\\ того же размера, элементы которой равны суммам соответствующих элементов данной матрицы: С = Л + Б, Cik =aik +bik (i = 1,2,..., га; к = l,2,...,n). Операция нахождения суммы данных матриц называется сложением матриц. Пример. «1 а2 а3 Ь\ &2 &3 с\ с2 с3 d\ d,2 ds CL\ + C\ U2 + C2 аз + Сз 6i -h d\ 62 4- б?2 &з + ^3 Согласно определению 2, складывать можно только прямоугольные матрицы одинаковых размеров. В силу этого же определения матрица коэффициентов в преобразовании (7) есть сумма матриц коэффициентов в преобразованиях (5) и (6). Из определения сложения матриц непосредственно следует, что эта операция обладает переместительным и сочетательным свойствами: 1°) А + В = В + А] 2°) (Л + Б) + С = А+(Б + С). Здесь А, В, С — произвольные прямоугольные матрицы одинаковых размеров. Операция сложения матриц естественным образом распространяется на случай любого числа слагаемых. 2. Умножим в преобразовании (5) величины У1,У2,~чУт на некоторое число а из К. Тогда п ayi = ^2(aaik)xk (i = 1,2,..., га). к=1 В соответствии с этим имеет место
14 Гл. I. Матрицы и действия над ними Определение 3. Произведением матрицы А = \\aik\\ (i = 1,2, ...,тта; к = = 1,2,...,п) на число а из К называется матрица С = ||с^|| (г = 1,2,..., га; к = 1,2,..., га), элементы которой получаются из соответствующих элементов матрицы А умножением на число а: С = аА, если cik = aaik (г = 1,2, ...,т; к = 1,2, ...,п). Операция нахождения произведения матрицы на число называется умножением матрицы на число. Пример. «1 «2 «3 Ь\ &2 Ьг аа\ аа2 сха% ab\ a&2 otbs Легко видеть, что: 1°) а(А + В) = аА + <хВ; 2°) (а + (3)А = аА + рА; 3°) (ар)А = а(рА). Здесь А, В — прямоугольные матрицы одинаковых размеров, а, /3 — числа из поля К. Разность А — В двух прямоугольных матриц одинаковых размеров определяется равенством А-В = А + (-1)В. Если А — квадратная матрица порядка га, a a — число из К, то3) \аА\=ап\А\. 3. Пусть величины z\,zi,-..,zm выражаются через величины j/i, ?/2,---,2/п ПРИ помощи преобразования п zi = ^2aikVk (г = 1,2,..., га), (8) к=1 а величины yi,y2,...,yn выражаются через величины xi,X2,.-.,xq при помощи формул Vk = ^2hjXj (к = 1,2,..., га). (9) Тогда, подставляя эти выражения для ук (к = 1,2,...,га) в формулы (8), мы выразим 2i,22) —,zm через ^1,^2, ...,#д при помощи "составного" преобразования: я я Zi = ^2aik^2bkjxj = ^2 \52aikhj)Xj (i = l,2,...,m). k=i j=i j=i k=\ В соответствии с этим имеет место Определение 4. Произведением двух прямоугольных матриц А = (10) 1 «и «21 1 «ml «12 «22 «га2 • .. а\п • • «2п «ran г в = \ 1 fell &21 1 &nl &12 • &22 • &п2 • . . biq •• &2</ Unq 3) Здесь символы |А| и \аА\ обозначают определители матриц А и аА (см. с. 11).
§2. Сложение и умножение прямоугольных матриц 15 называется матрица С = си С21 С12 С22 Clq C2q Ст\ Ст2 ^mq Cl с2 сз * ^2 * ei /i е2 /2 ез /з у которой элемент с^-, стоящий на пересечении г-й строки и j-ro столбца, равен "произведению" г-й строки первой матрицы А на j-й столбец второй матрицы Б4): Cti = 5^flt*^ (г = 1,2,..., га; j = 1,2, ...,?)• (11) Операция нахождения произведения данных матриц называется умножением матриц. Пример. а\ а2 аз &1 &2 &3 aiCi 4- а2С2+ a\d\ 4- а2б?2+ ftiei 4- а2в2+ ai/i -h 02/2+ +«зсз +^3^3 +^3^3 +«з/з &iCi 4- &2C2+ b\d\ 4- 62^2+ &iei 4- &2в2+ &i/i 4- ^2/2+ +&3C3 +&з^з +63^3 +&3/3 По определению 4 матрица коэффициентов в преобразовании (10) равна произведению матрицы коэффициентов в (8) на матрицу коэффициентов в (9). Заметим, что операция умножения двух прямоугольных матриц выполнима лишь в том случае, когда число столбцов в первом сомножителе равно числу строк во втором. В частности, умножение всегда выполнимо, если оба сомножителя — квадратные матрицы одного и того же порядка. Обратим внимание читателя и на то, что даже в этом частном случае умножение матриц не обладает переместительным свойством. Так, например, 1 2 3 4 2 0 3 -1 8 -2 18 -4 2 0 3 -1 1 2 3 4 2 4 0 2 Если АВ = ВА, то матрицы А и В называются перестановочными или коммутирующими между собой. Пример. Матрицы А = 1 2 -2 0 В = -3 -2 перестановочны между собой, так как -7 -6 АВ = 6 -4 ВА = 2 -4 -7 -б б -4 Легко проверяется сочетательное свойство умножения матриц, а также распределительное свойство умножения относительно сложения: 4) Под произведением двух рядов чисел ai, a2,..., ап и 6i, 62,..., &п мы понимаем сумму п произведений соответствующих чисел этих рядов: ^ ajbj.
16 Гл. I. Матрицы и действия над ними 1°) (АВ)С = А(ВС); 2°) (А + В)С = АС + ВС; (12) 3°) А{В + С) = АВ + АС. Операция умножения матриц естественным образом распространяется на случай нескольких сомножителей. 4. Если воспользоваться произведением прямоугольных матриц, то линейное преобразование УХ = «иЖ1 + «12#2 +... + «1п#п, 2/2 = «21#1 + «22#2 + • • • + «2п#п, (13) Ут — «ral^l ~г «га2#2 Н" • • • Н~ 0,тпХп, можно записать одним матричным равенством 2/1 2/2 Ут = «И «21 1 «ml «12 «22 «га2 • • • «In • • «2п «ran I Xi Х2 \ %п или в сокращенной записи: у = Ах. (13') Здесь х = (жьЖ2,...,яп), У = (2/ъ2/2, — ,2/п) — столбцевые матрицы, Л = = 11«гА;|| — прямоугольная матрица размера т х п. Равенства (13) выражают собой тот факт, что столбец у является линейной комбинацией столбцов матрицы А с коэффициентами xi,X2,...,xn: У ■ Х\а,\ + #2«.2 + ••• + хпО>.п = / ,ХкО>.к' (13") fe=l Вернемся теперь к равенствам (11), которые эквивалентны одному матричному равенству С = АВ. (14) Эти равенства могут быть записаны в виде c.j = ^2hja.k (j = 1,2,..., q) или в виде к=1 с*. = ^а>гкЪк. (г = 1,2,..., га). (140 (14-) k=i Таким образом, любой j-й столбец матрицы-произведения С = АВ является линейной комбинацией столбцов первого сомножителя, т. е. матрицы А, причем коэффициенты этой линейной зависимости образуют j-ft столбец во втором сомножителе В. Аналогично, любая г-я строка в матрице С является линейной комбинацией строк матрицы В, а коэффициентами этой линейной зависимости являются элементы г-й строки матрицы А5). 5) Следовательно, матричные уравнения АХ = С, где А и С — заданные соответственно т х n-матрица и т х g-матрица, а X — искомая п х g-матрица, имеет решение в том и только том случае, когда столбцы матрицы С являются линейными комбинациями столбцов матрицы А. Для уравнения ХВ = С необходимое и достаточное условие существования решения X состоит в том, что строки матрицы С должны быть линейными комбинациями строк матрицы В.
§2. Сложение и умножение прямоугольных матриц 17 Остановимся еще на том частном случае, когда в произведении С = АВ второй сомножитель является квадратной и притом диагональной матрицей В = = {di,d2,...,dn}. Тогда из формул (11) следует Cij = aijdj (i = l,2,...,m; j = l,2,...,n), т. e. an a12 «21 «22 «ml «m2 Аналогично di 0 .. 0 d2 .. 0 0.. «2n di 0 0 d2 0 0 an ai2 «21 «22 0 0 dn audi «12^2 ... a>indn a2\d\ a22d2 ... a2ndn am\d\ am2d2 Q>mnQ"n «In a2n «ml «m2 «\«n diai2 d2«2i d2a22 &mOjml «m«m2 diain d2a2n mr Таким образом, при умножении прямоугольной матрицы А справа (слева) на диагональную матрицу {di,d2,...} все столбцы (соответственно строки) матрицы А умножаются на числа di,d2l... 5. Пусть квадратная матрица С = ||c^||w является произведением двух прямоугольных матриц А — ||од|| и В — \\bkj\\ соответственно размеров тх п и п х т: &п ... blr] (15) Ст\ С\г «11 «12 «ml «m2 «In &21 ь2т с^ = 22aiabaj (i J = l,2,...,m). (150 Установим важную формулу Бине-Коши, выражающую определитель |С| через миноры матриц А и В: Сц ... С\т Суп\ • • • Cjjifji = = Z 1^к1<к2<...<кТп^П «lfci | «mfci или в специальных обозначениях (см. с. ( 1 2 ... т Ь\1 2 ... т )■ • ' ' «l*m II «mfcm || || &*ii || bkin 11): 2-^ I kx k2 ... km ) I 1 2 &fcmm (16) Km m )• (160
18 Гл. I. Матрицы и действия над ними Согласно этой формуле определитель матрицы С равен сумме произведений всевозможных миноров максимального (т-го) порядка6) матрицы А на соответствующие миноры того же порядка матрицы В. Вывод формулы Бине-Коши. На основании формулы (15') определитель матрицы С можно представить в виде сц ... с\т Cmi . . . С<тт &1а\Ьос\1 ••• alam^amm = Е А(1а1 12 '.'.'. ™m)baiiba22.:bamm. (16") o;i,...,Q;m = l Ч 7 Если т > п, то среди чисел ai,a2,...,am всегда найдутся равные между собой числа и, следовательно, каждое слагаемое в правой части равенства (16") будет равно нулю. Значит, в этом случае \С\ = 0. Пусть теперь га ^ п. Тогда в сумме, стоящей в правой части равенства (16"), будут равны нулю те слагаемые, у которых хотя бы два из индексов а1? «2,..., ат равны между собой. Все же остальные слагаемые этой суммы можно разбить на группы по га! слагаемых в каждой, объединяя в одну группу те слагаемые, которые отличаются друг от друга только порядком индексов ai,a2, •••?«m (индексы ai,«2,---,«771 в пределах каждой группы слагаемых имеют одну и ту же совокупность значений). Тогда в пределах одной такой группы сумма соответствующих слагаемых будет равна 7) 5^e(ai,a2,...,am)A f k k "' k J baiiba22 — bamm = ~ \ h k2 • Поэтому из (16") получаем (16'). Пример 1. II а\С\ + a2C2 + ... a\d\ + a2d2 + ... ... ~г OifiCfi ... -г UjiUifi Ь\С\ + 62C2 + ... b\d\ + 62^2 + ••• || ... т OfiCfi ... -г OfiQ/fi 6) Если га > n, то матрицы А и В не имеют миноров га-го порядка. В этом случае правые части формул (16) и (16') следует заменить нулями. 7) Здесь к\ < ко < ... < кт — нормальное расположение индексов ai,a2,...,am, а e(o!i,Q!2, ...,с*т) = (—1)^, где N — число транспозиций индексов, необходимых для преобразования перестановки ai,a2, ...,am к нормальному расположению к\ < &2 < ... < кт. ai=l am=l n n / ^ ^mai^ail ••• / v 0"татО<Хгг = E ai,...,am=l •5 ^raj 0а110а22 ... ОагпГП — га k2 2 га ai a2 .. 6i 62 •• Cd d2 dn
§2. Сложение и умножение прямоугольных матриц 19 Поэтому формула (16) дает так называемое тождество Коши а\С\ + а2С2 + ... d\d\ + a2d2 + ... ... Н- (Хпсп ... -г dnun Ь\С\ + Ь2С2 + ... b\d\ + b2d2 + ... ... + опсп +bnd П = Е 1^г<А;<п &i dk bi Ьк Ci Cli Ck dk Полагая в этом тождестве а* = a, bi = di (i = 1,2, ...,п), получим a\ + a\ +... + а^ ai&i + a2&2 + ... + anbn aih + a2b2 + ... + anbn b\ + 6| + ... + 6^ = E Cii CLk bi bk В случае, когда a^ и bi (i = 1,2, ...,n) — вещественные числа, отсюда следует известное неравенство (ai&i + a2b2 + ... + anbn)2 < (a? + a^ + ... + a*)(6? + b\ +... + b£). При этом знак равенства имеет место тогда и только тогда, когда все числа а; пропорциональны соответствующим числам bi {г = 1,2, ...,п). Пример 2. ai fei aiCi+bidi ... aicn + b\dn a>nCi + &тА • • • ancn + bndn Поэтому8) при п > 2 &n ^n aiCi + 6i6?i ... a\cn + 61 dn anCl + &п^1 • • • UnCn + &п^п = 0. dn Рассмотрим частный случай, когда А и В — квадратные матрицы одного и того же порядка п, и положим в (16') т = п. Тогда приходим к известной теореме об умножении определителей или, в других обозначениях, \С\ = \АВ\ = |Л| • |В|. (17) Таким образом, определитель произведения двух квадратных матриц равен произведению определителей перемножаемых матриц. 6. Формула Бине-Коши дает возможность в самом общем случае выразить миноры произведения двух прямоугольных матриц через миноры сомножителей. Пусть A=\\aik\l B = \\bkj\l C = |M (i = l,2,...,m; k = l,2,...,n; j = 1,2, ...,gr) и C = AB. ) См. сноску на с. 18.
20 Гл. I. Матрицы и действия над ними Рассмотрим произвольный минор матрицы С: q ( Ч %2 ... Ц V h h • • • Ji (1 ^ ii < i2 < ... < ip ^ ra, 1 ^ л < j2 < .- <jP^q; P^ m, q). Матрица, составленная из элементов этого минора, представляет собой произведение двух прямоугольных матриц b2ji «ill «ii2 CLi &ir>\ «гр2 bljp hjp "nji vnjp Поэтому, применяя формулу Бине-Коши, получаем9) q ( Ч г2 ... ip \ _ V h h • • • JP J \ fa k2 ... kp J \ h k2 h h p (18) = E l^k1<k2<...<kp^n При p = 1 формула (18) переходит в формулу (11). При р > 1 формула (18) является естественным обобщением формулы (11). Отметим еще одно следствие из формулы (18). Ранг произведения двух прямоугольных матриц не превосходит ранга любого из сомножителей. Если С = АВ и га, гв, гс — ранги матриц А, В, С, то гс ^ га,гв. 7. Если X — решение матричного уравнения АХ = С (размеры матриц А, X и С соответственно т х п, п х q и т х q), то rx ^ гс- Покажем, что среди решений матричного уравнения АХ = С существует решение Xq минимального ранга, для которого гх0 = Тс- Действительно, пусть г = гс- Тогда среди столбцов матрицы С имеется г линейно независимых10). Пусть для конкретности первые г столбцов С.i,...,C.r линейно независимы, а остальные столбцы C.r+i,...,C.g являются линейными комбинациями первых г: C.j = ^2ajkC.k (j =r + l,...,g). (19) k=\ Пусть X — произвольное решение уравнения АХ = С. Тогда (см. с. 16) AXji=C.k (fc = l,...,r). (20) Определим столбцы X,r+i,...,X q равенствами X.j = ^2ajkX,k (j = r + l,...,g). k=l 9) Из той же формулы Бине-Коши следует, что миноры р-ro порядка матрицы С при р > п (если миноры таких порядков имеются) все равны нулю. В этом случае правую часть формулы (18) следует заменить нулем. См. сноску на с. 18. 10) Мы ссылаемся на хорошо известное положение: ранг матрицы равен числу линейно независимых столбцов (строк) матрицы. Доказательство этого положения приведено в гл. III, с. 66.
§3. Квадратные матрицы 21 Умножая эти равенства слева почленно на А, в силу равенств (19) и (20) находим АХ.1 = С.з (j=r + l,...,</). (20') Система из q равенств (20) и (20') эквивалентна одному матричному равенству АХ0 = С, где Хо = (Ii,...,x.nIr+i,...,Ig) — матрица ранга г11). Решение Xq минимального ранга гс матричного уравнения АХ = С всегда представимо в виде Х0 = VC, где V — некоторая п х т-матрица. Действительно, из равенства AXq = С следует, что строки матрицы С являются линейными комбинациями строк матрицы Хо. Поскольку как среди строк матрицы С, так и среди строк матрицы Хо имеется одно и то же число гс линейно независимых12), то и, обратно, строки матрицы Xq являются линейными комбинациями строк матрицы С, а отсюда уже следует равенство Хо = VC. Докажем теперь следующее предложение13). Матричное уравнение АХВ = С, (21) где А, В — заданные матрицы, а X — искомая прямоугольная матрица14), имеет решение в том и только том случае, когда одновременно имеют решения матричные уравнения AY = C, ZB = С, (22) т. е. когда столбцы матрицы С являются линейными комбинациями столбцов матрицы А, а строки матрицы С являются линейными комбинациями строк матрицы В. В самом деле, если матрица X — решение уравнения (21), то матрицы Y = ХВ и Z = АХ являются решениями уравнений (22). Обратно, пусть существуют решения Y, Z уравнений (22). Тогда первое из этих уравнений имеет решение Уо минимального ранга гс, которое по доказанному представимо в виде Уо = УС. Поэтому С = AY0 = AVC = AVZB. Тогда матрица X = VZ будет решением уравнения (21). 11) В матрице Хо последние п — г столбцов являются линейными комбинациями первых г столбцов; первые же г столбцов X. i,..., X. г линейно независимы, так как линейная зависимость между этими столбцами в силу равенств (20) повлекла бы линейную зависимость между столбцами С. i,..., С. г. 12) См. сноску на с. 16. 13) См. [231, 199]. 14) Предполагается, что размеры матриц А, X, В, С таковы, что произведение АХВ имеет смысл и имеет размер матрицы С.
22 Гл. I. Матрицы и действия над ними § 3. Квадратные матрицы 1. Квадратную матрицу га-го порядка, у которой на главной диагонали стоят единицы, а все остальные элементы равны нулю, будем называть единичной матрицей и обозначать через Е^ или просто Е. Название "единичная матрица" связано со следующим свойством матрицы Е: для любой прямоугольной матрицы А = \\aik\\ (i = l,2,...,m; к = 1,2,..., га) имеют место равенства E(rn)A = AE(n) = A Очевидно, s(n) = |1<Ы1Г Пусть А = \\aikWi — квадратная матрица. Тогда степень матрицы определяется обычным образом: А" = АА^ (р=1,2,...), А° = Е. р раз Из сочетательного свойства умножения матриц следует ApAq = Ap+q. Здесь р, q — произвольные целые неотрицательные числа. Рассмотрим многочлен (целую рациональную функцию) с коэффициентами из поля К f(t) = a0tm + a1tm-1 + ... + am. Тогда под f(A) будем понимать матрицу f(A) = аАт + ахАт~х + ... + атЕ. Так определяется многочлен от матрицы. Пусть многочлен f{t) равен произведению многочленов h(t) и g(t): f(t) = h(t)g(t). Многочлен f(t) получается из h(t) и g(t) путем почленного перемножения и приведения подобных членов. При этом используется правило перемножения степеней: tptq = tp+q. Так как все эти действия правомерны и при замене скалярной величины t на матрицу А, то f(A) = h(A)g(A). Отсюда, в частности 15), ЦА)д(А) = д(АЩА), т. е. два многочлена от одной и той же матрицы всегда перестановочны между собой. Примеры. Условимся р-й наддиагональю (поддиагональю) в прямоугольной матрице А = ||а^|| называть ряд элементов а^, у которых к — г = р (соответственно г — к = р). Обозначим через Н квадратную матрицу га-го порядка, у кото- 15) Так как каждое из этих произведений равно одному и тому же /(А), поскольку и g(t)h(t) = f(t). Следует отметить, что подстановка матриц в алгебраическое тождество снесколькими переменными неправомерна. Впрочем, перестановочные между собой матрицы можно подставлять и в этом случае.
§3. Квадратные матрицы 23 рой элементы первой наддиагонали равны единице, а все остальные элементы равны нулю. Тогда Н = В силу этих равенств, если 0 1 0 0 0 1 0 0 0. 0 '• 1 .. 0 * н2=\ 1 0 0 1 0 0 Нр = 0 (р^п). 1 /(*) = а0 + ait + a2t2 + ... + an-i*n_1 + многочлен относительно t, то /(Я) = а0Е + ахН + а2Я2 + ... = Аналогично, если F — квадратная матрица n-го порядка, у которой все элементы первой поддиагонали равны единице, а все остальные элементы равны нулю, то а0 0 ао о,\ а2 .. 0 ao ai 0 0 0 . ап_ • а2 . Oi ао /(F) = а0Е + aiF + a2F2 + ... fti «о «n-l ai 0 1 0 ^o 1 Предлагаем читателю проверить следующие свойства матриц Н и F. 1°. Б результате умножения произвольной т х п-матрицы А слева на матрицу Я (матрицу F) т-го порядка все строки матрицы А поднимаются (опускаются) на одно место вверх (вниз), первая (последняя) строка матрицы А исчезает, а последняя (первая) строка произведения заполняется нулями. Так, например, 0 0 0 0 1 0 1 0 0 0 0 1 0 II 1 1 о II о mi 0 0 а\ a2 аз а4 Ь\ 62 &з &4 С\ Сз Сз С4 а\ а2 аз а4 Ь\ 62 &з Ь\ С\ С2 Сз С4 Ь\ 62 6з &4 Ci С2 С3 С4 0 0 0 0 0 0 0 0 ai a2 аз а4 6i 62 &з &4 2°. Б результате умножения произвольной т х п-матрицы А справа на матрицу H(F) п-го порядка все столбцы матрицы А сдвигаются вправо (влево) на одно место, при этом последний (первый) столбец матрицы А исчезает, а первый (последний) столбец произведения заполняется нулями. Так, например, а\ а2 аз а4 Ь\ 62 &з &4 С\ С2 Сз С4 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 1 о 0 а\ а2 аз 0 Ь\ 62 &з 0 ci c2 сз
24 Гл. I. Матрицы и действия над ними ах Cl «2 ь2 С2 «3 сг а± с4 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 «2 ь2 С2 аз h сг U4 ь4 с4 и 0 0 2. Квадратную матрицу будем называть вырожденной, если \А\ = 0. В противном случае квадратная матрица А называется невырожденной. Пусть А = \\aik\\i — невырожденная матрица (\А\ ф 0). Рассмотрим линейное преобразование с матрицей коэффициентов А п yi = ^2a,ikXk (г = 1,2,...,га). (23) к=1 Рассматривая равенства (23) как уравнения относительно х±, х2,...,хп и замечая, что определитель системы уравнений (23) по условию отличен от нуля, мы можем однозначно по известным формулам выразить xi,x2,...,xn через Х{ 1 \А\ an «21 Q>\,i «2,г 2/1 2/2 «1,г+1 «2,г+1 0>1п 0>2п ani Q"n,i—1 Уп &п,г+1 Y,aik Ук (* = 1,2,...,п). fc=l (24) Мы получили "обратное" преобразование для (23). Матрицу коэффициентов этого преобразования А-* = i-x)i мы назовем обратной матрицей для матрицы А. Из (24) легко усмотреть, что -,п), (25) „<-i) = :£m (<>ifc = lj2,. где Лк — алгебраическое дополнение элемента аы в определителе |Л| (i,k = = 1,2,...,п). Так, например, если 4 = 01 &i Cl о2 Ь2 С2 Оз Ьз сз И|#о, "И1 &2С3 — b%c2 azC2 — а2сз a2bs — а$Ь2 foci — hcz aiCs — azci ash — aibs bic2 — b2ci a2ci — aic2 aib2 — a2bi Образуя составное преобразование из данного преобразования (23) и обратного (24) в одном и в другом порядке, мы в обоих случаях получаем тождественное преобразование (с единичной матрицей коэффициентов); поэтому АА-1 = А-1 А = Е. (26) В справедливости равенств (26) можно убедиться и непосредственным перемножением матриц А и А-1. Действительно, в силу (25)16) \АА Ъ = I>*ai/} = шХ>*А к=1 \А\ Зк Sij (ij = 1,2,..., га). к=1 16) Здесь мы используем известное свойство определителя, согласно которому сумма произведений элементов какого-либо столбца на их алгебраические дополнения равна величине определителя, а сумма произведений элементов столбца на алгебраические дополнения соответствующих элементов другого столбца равна нулю.
§3. Квадратные матрицы 25 Аналогично п п к=1 ' ' к=1 Нетрудно видеть, что матричные уравнения АХ = Е, ХА = Е (\А\ ф 0) (27) никаких других решений, кроме решения X = Л-1, не имеют. Действительно, умножая обе части первого уравнения слева, а второго справа на А-1 и используя сочетательное свойство произведения матриц, а также равенства (26), мы в обоих случаях получим17) Х = А~\ Этим же способом доказывается, что каждое из матричных уравнений АХ = Б, ХА = В (\А\ ф 0), (28) где X и В — прямоугольные матрицы равных размеров, А — квадратная матрица соответствующего размера, имеет одно и только одно решение: Х = А~1В и соответственно X = ВА~Х. (29) Матрицы (29) являются как бы "левым" и "правым" частными от "деления" матрицы В на матрицу А. Из (28) и (29) следует соответственно (см. с. 21) гв ^ ^гх игх ^ г в, т. е. гх = г в- Сопоставляя с (28), имеем: при умножении прямоугольной матрицы слева или справа на невырожденную матрицу ранг исходной матрицы не изменяется. Заметим еще, что из (26) вытекает |Л||Л_1| = 1, т. е. Для произведения двух неособенных матриц имеем (АВ)-1 =В~1А~1. (30) 3. Все матрицы n-го порядка образуют кольцо18) с единичным элементом Е. Поскольку в этом кольце определена операция умножения на число из поля К и существует базис из п2 линейно независимых матриц, через которые линейно выражаются все матрицы n-го порядка19), то кольцо матриц n-го порядка является алгеброй20). 17) Если А — вырожденная матрица, то уравнения (27) не имеют решений. Действительно, если бы какое-либо из этих уравнений имело решение X = \\xik\\i, то тогда было бы в силу теоремы об умножении определителей [см. формулу (17)] Й||Х| = |.Е| = 1, что невозможно при \А\ = 0. 18) Кольцом называется совокупность элементов, в которой определены и всегда однозначно выполнимы две операции: "сложение" двух элементов (с переместительным и сочетательным свойствами) и "умножение" двух элементов (с сочетательным и распределительным относительно сложения свойствами), причем сложение обратимо. См., например, [20, с. 270, 271] или [39, с. 333]. 19) Действительно, произвольная матрица А = Ца^ЦГ с элементами из К представима п в виде А = 2_\ oiikEik, где Eik — матрица n-го порядка, у которой на пересечении г-й t,fc=i строки и к-ro столбца стоит 1, а все остальные элементы равны 0. 20) См., например, [20, с. 101].
26 Гл. I. Матрицы и действия над ними Все квадратные матрицы n-го порядка образуют коммутативную группу относительно операции сложения21). Все невырожденные матрицы n-го порядка образуют (некоммутативную) группу относительно операции умножения. Квадратная матрица А = Ца^ИГ' называется верхней треугольной (нижней треугольной), если равны нулю все элементы матрицы, расположенные под главной диагональю (над главной диагональю): А = an a12 О а22 «In «2п О О А = an О ^21 «22 (1) (2) Диагональная матрица является частным случаем как верхней, так и нижней треугольной матрицы. Так как определитель треугольной матрицы равен произведению ее диагональных элементов, то треугольная (и, в частности, диагональная) матрица является невырожденной только тогда, когда все ее диагональные элементы отличны от нуля. Легко проверить, что сумма и произведение двух диагональных (верхних треугольных, нижних треугольных) матриц есть диагональная (соответственно верхняя треугольная, нижняя треугольная) матрица и что обратная матрица для невырожденной диагональной (верхней треугольной, нижней треугольной) матрицы является матрицей того же типа. Поэтому: 1°) все диагональные, все верхние треугольные, все нижние треугольные матрицы n-го порядка образуют три коммутативные группы относительно операции сложения; 2°) все невырожденные диагональные матрицы образуют коммутативную группу относительно умножения; 3°) все невырожденные верхние (нижние) треугольные матрицы составляют группу (некоммутативную) относительно умножения. 4. В заключение этого параграфа укажем на две важные операции над матрицами — транспонирование матрицы и переход к сопряженной матрице. Если А = \\aikW (г = 1,2,..., га; к = 1,2,...,п), то транспонированная матрица А' определяется равенством А' = \\a'ik\\, где а'ы = Щк (г = 1,2,...,га; к = = 1,2,...,п). Сопряженная же матрица А* = \\а*к\\, гдеа^ = a'ki =aik (г = 1,2, ...,га; к = 1,2,..., п)22). Если матрица А имеет размер га х п, то матрицы А' и А* имеют размер п х га. Легко проверяются следующие свойства23): 21) Группой называется всякая совокупность объектов, в которой установлена операция, относящая любым двум элементам а и Ь совокупности определенный третий элемент а * Ь той же совокупности, если: 1) операция обладает сочетательным свойством [(a*b)*c = a* (6* с)]; 2) существует в совокупности единичный элемент е (а * е = е * а = а); 3) для любого элемента а совокупности существует обратный элемент а-1 (а * а-1 = а-1 * а = е). Группа называется коммутативной или абелевой, если групповая операция обладает переместительным свойством. Относительно понятия группы см., например, [20, с. 392-398]. 22) Чертой обозначается переход к комплексно сопряженной величине. 23) В формулах 1°), 2°), 3°) и 5°) на с. 27 А, В — произвольные прямоугольные матрицы, для которых соответствующие операции выполнимы, а a — произвольное комплексное число. В формуле 4°) А — произвольная квадратная невырожденная матрица.
§4- Ассоциированные матрицы. Миноры обратной матрицы 27 1°) (А + В)' = А' + Я', (А + ВУ = А* + Я*; 2°) (аА)' = аА', (аЛ)*=аЛ*; 3°) (АВУ = В'А', (АВУ = В*А*; 4°) (А-1)'= (А')~\ (А-1)* = (А*)"1; 5°) (А')' = А, (А*)* = А. Если квадратная матрица 5 = Н^Н? совпадает со своей транспонированной (5' = 5), то такая матрица называется симметрической. Если же квадратная матрица Н = \\hik\\ совпадает со своей сопряженной (Я* = Я), то она называется эрмитовой. В симметрической матрице элементы, симметрично расположенные относительно главной диагонали, равны, а в эрмитовой они комплексно сопряжены между собой. Диагональные элементы эрмитовой матрицы всегда вещественны. Заметим, что произведение двух симметрических (эрмитовых) матриц, вообще говоря, не является симметрической (эрмитовой) матрицей. В силу 3°) это имеет место только в том случае, когда данные две симметрические или эрмитовы матрицы перестановочны между собой. Если А — вещественная матрица, т. е. матрица с вещественными элементами, то А* = А!. Эрмитова вещественная матрица всегда является симметрической. С каждой прямоугольной матрицей А = ||од|| размера т х п связаны две эрмитовы матрицы, АА* и А*А, размеров т х т и п х п. Любое из равенств АА* = 0 или А*А = О влечет за собой24) равенство А = 0. Если квадратная матрица К = \\kij\\i отличается множителем —1 от своей транспонированной (К' = —К), то такая матрица называется кососимметричес- кой. В кососимметрической матрице любые два элемента, расположенные симметрично относительно главной диагонали, отличаются друг от друга множителем — 1, а диагональные элементы равны нулю. Из 3°) следует, что произведение двух перестановочных между собой кососимметрических матриц является симметрической матрицей25). § 4. Ассоциированные матрицы. Миноры обратной матрицы Пусть дана матрица А = ||ai*||?- Рассмотрим всевозможные миноры р-го (1 ^ ^ Р ^ п) порядка матрицы А: А(%\ г2 ... ip \ \кг к2 ... кр ) (31) (1 ^ %i < г2 < ... < ip ^ п, 1 ^ &1 < к2 < ... < кр ^ п). Число этих миноров равно iV2, где N = С% — число сочетаний из п по р. Для того чтобы расположить миноры (31) в квадратную таблицу, занумеруем в определенном (например, лексикографическом) порядке все сочетания по р из п индексов 1,2, ...,п. Если сочетания индексов i\ < г2 < ... < гр и к\ <к2 < ... <кр при этой нумера- 24) Это следует из того, что сумма диагональных элементов в каждой из матриц АА* т п и А*А равна \J \J \a>ik\2• г=1 к=1 25) Относительно представления квадратной матрицы А в виде произведения двух симметрических (А = S1S2) либо двух кососимметрических матриц (А = К\К2) см. [246].
28 Гл. I. Матрицы и действия над ними ции будут иметь номера а и /3, то минор (31) будем обозначать и так: Ъа(3 12 к2 Кп Давая а и (5 независимо друг от друга все значения от 1 до N, мы охватим все миноры р-го порядка матрицы А = Ца^Щ1. Квадратная матрица iV-ro порядка % = llcwllf называется р-й ассоциированной матрицей для матрицы А = Ца^Ц^; р может принимать значения 1,2, ...,п. При этом 2ti = Л, а матрица 21п состоит из одного элемента, равного \А\. Замечание. Порядок нумерации сочетаний индексов фиксируется раз навсегда и не связан с выбором матрицы А. Пример. Пусть an ai2 «21 «22 «31 «32 «41 «42 Перенумеруем все сочетания из четырех индексов 1,2,3,4 по два, расположив их в следующем порядке: (1 2) (1 3) (1 4) (2 3) (2 4) (3 4). Тогда А = «13 «23 «33 «43 «14 «24 «34 «44 212 = Mi Mi Mi Mi Mi Mi -(I *(! *(! 4?;mj;m?im; imj smj IMS m?;m;jm> m;jm;im» txi XI XI XI 1)41 ixt tx3 XI XI XI XI 2 4 3 4 4 4 3 \xi *Xl 2 4 2 4 3 4 4 4 i) i) i) Отметим некоторые свойства ассоциированных матриц. 1°. Из С = АВ следует <£р = %*ВР (р = 1,2, ...,п). Действительно, выражая минорыр-го порядка (1 ^р ^ п) матрицы-произведения С через миноры того же порядка матриц-сомножителей по формуле (18), будем иметь / Ч %2 . . . гр \ _ у^ ^ / %х %2 ... гр \ ( h /2 ... 1Р \ \ki к2 ... кр ) Z^ \1112...1р)\к1к2...кр) С\ (32) .<1Р^п (1 ^ i\ < г2 < ... < %р ^ п, 1 ^ A?i < fe < ... < А:р ^ п). Очевидно, в обозначениях этого параграфа равенство (32) может быть запи сано так: N Са(3 = ^2daXbX(3 («,/3 = 1,2,..., iV) Л=1
§4- Ассоциированные матрицы. Миноры обратной матрицы 29 (здесь а,/?, А — номера сочетаний индексов %\ < %2 < ... < гр, к\ < к^ < ... < кр, h <h < ••• < lp)- Отсюда £р = %*Вр (р=1,2,...,га). 2°. Из В = А'1 следует Ър = 21"1 (р = 1,2,...,п). Это предложение непосредственно вытекает из предыдущего, если там положить С = Е и обратить внимание на то, что <£р — единичная матрица порядка N = СР. Из предложения 2° вытекает важная формула, выражающая миноры обратной матрицы через миноры данной матрицы: если В = А-1, то при любых 1 ^ %\ < %2 < ... < гр ^ п, 1 ^ к\ < к^ < ... < кр ^ п Н г2 ... ip \ _ к\ Л2 ... кр J К\ &2 • • • кп—р \ i[ г'2 ... i'n-p J 1 2 ... п 1 2 ... п (33) где %\ < %2 < ... < ip вместе с i[ < г2 < ... < г'п_р^ а к\ < /^ < ... < кр вместе с к[ < к'2 < ... < к'п_р составляют полную систему индексов 1,2, ...,п. Действительно, из АВ = Е следует &р&р — ^~р-> или, в более подробной записи, N а=1 U (34) Равенства (34) могут быть записаны еще так: l^ii<i2<.--<iP^n A{JU2 ... Jp \в И 12 ... Ip %i %2 • - • ip J \k\ k2 ... kp 1, если ^2(jv - kv)2 = 0, v 0, если J^O'i/ - M2 > 0 (34;) (1 ^ ji < j2 < ... < jp ^ n, 1 ^ &i < fc2 < ... < kp ^ n). С другой стороны, применяя к определителю \А\ известные разложения Лапласа, получаем V а(>}*- i*) • (-i)E^ «.+ЕГ.Х *м ( *i *? • • • *«-*>) = l^ii<i2<' ..<iP^n = < |;4|, если J2(ju-ku)2=0, u=l p (35) 0, если J2(ju - К)2 >0, v=l
30 Гл. I. Матрицы и действия над ними где i[ < г'2 < ... < г'п_р вместе с %\ < г2 < ... < гр, а к[ < к'2 < ... < к'п_р вместе с к\ < к2 < ... < кр образуют полную систему индексов 1,2,..., п. Сопоставление (35) с (34') и (34) показывает, что равенства (34) удовлетворятся, если i\ %2 ... г вместо Ьа(з взять не В к\ к2 (-ljEILi^+ELi*", к' г' ("п—р ::::) Так как из системы (34) элементы Ьар обратной матрицы для 21р определяются однозначно, то имеет место равенство (33). § 5. Обращение прямоугольных матриц. Псевдообратная матрица Если А — квадратная и невырожденная матрица, то для нее существует обратная матрица А-1. Если же А — не квадратная, а прямоугольная т х п-матрица (га ф п) или квадратная, но вырожденная, то матрица А не имеет обратной и символ А-1 не имеет смысла. Однако, как будет показано далее, для произвольной прямоугольной матрицы А существует "псевдообратная" матрица Л+, которая обладает некоторыми свойствами обратной матрицы и имеет важные применения при решении системы линейных уравнений. В случае, когда А — квадратная неенная матрица, псевдообратная матрица А+ совпадает с обратной А-1 26). 1. Скелетное разложение матрицы. В дальнейшем мы будем пользоваться представлением произвольной прямоугольной т х n-матрицы А = ||а^|| ранга г в виде произведения двух матриц В и С, имеющих соответственно размеры т х г и г х п: А = ВС = hi &21 . . . bir ... ь2г bml • • • Ь„ Си Ci2 ... Cln Cj*\ Cf*2 • • • Cm (r = rA). (36) Здесь ранги сомножителей В и С обязательно равны рангу произведения А: гв = гс = г. Действительно (см. с. 21), г ^ гв,гс- Но ранги г в и гс не могут превосходить г, так как г — один из размеров матриц В и С. Поэтому гв=гс = г. Для того чтобы получить разложение (36), достаточно в качестве столбцов матрицы В взять любые г линейно независимых столбцов матрицы А либо любые г линейно независимых столбцов, через которые линейно выражаются столбцы матрицы А27). Тогда произвольный j-й столбец матрицы А будет линейной комбинацией столбцов матрицы В с коэффициентами cij,C2j,...,Crj; эти коэффи- 26) Приведенное далее в этом параграфе определение псевдообратной матрицы было дано в 1920 г. Муром [214], указавшим на важные применения этого понятия. Позже независимо от Мура в несколько иной форме псевдообратная матрица определялась и исследовалась в работах Бьерхаммара [159], Пенроуза [226,а] и других авторов. 27) Мы исходим из известного положения: в матрице А ранга г имеется г линейно независимых столбцов, через которые линейно (т. е. в виде линейных комбинаций с числовыми коэффициентами из данного поля) выражаются все остальные столбцы. Аналогичное утверждение имеет место и для строк. Подробнее об этом см. гл. III, § 1.
§5. Обращение прямоугольных матриц. Псевдообратная матрица 31 циенты и образуют j-й столбец матрицы С (j = l,...,n, см. с. 16)28). Поскольку матрицы В и С имеют максимально возможный ранг г, то квадратные матрицы В*В и С С* являются невырожденными: |Б*£|/0, |СС*|/0. (37) Действительно, пусть столбец х — произвольное решение уравнения В*Вх = 0. (38) Умножим это уравнение слева на строку ж*. Тогда х*В*Вх = (Вх)*Вх = 0. Отсюда29) следует Вх = 0 и (поскольку Вх — линейная комбинация линейно независимых столбцов матрицы В; ср. с формулой (13")) х = 0. Из того, что уравнение (38) имеет только нулевое решение х = 0, вытекает, что \В*В\ ф 0. Аналогично устанавливается второе неравенство (37)30). Разложение (36) будем называть скелетным разложением матрицы А. 2. Существование и единственность псевдообратной матри- ц ы. Рассмотрим матричное уравнение АХ А = А. (39) Если А — квадратная невырожденная матрица, то это уравнение имеет единственное решение X = А-1. Если же А — произвольная прямоугольная т х п- матрица, то искомое решение X имеет размеры п х га, но не определяется однозначно. В общем случае уравнение (39) имеет бесчисленное множество решений. Ниже будет показано, что среди этих решений имеется только одно, обладающее тем свойством, что его строки и столбцы являются линейными комбинациями соответственно строк и столбцов сопряженной матрицы А*. Именно это решение мы будем называть псевдообратной матрицей для А и обозначать через А+. Определение 5. Матрица А+ размера пхга называется псевдообратной для га х n-матрицы А, если выполняются равенства31) АА+А = А, (40) А+ = U А* = A*V, (41) где U и V — некоторые матрицы. Докажем сначала, что для данной матрицы А не может существовать двух различных псевдообратных матриц А+ и А^. Действительно, из равенств АА+А = AAtA = А, Л+ = UxA* = A*VU A+ = U2A* = A*V2l полагая D = A% - Af, U = U2 - C/"i, V = V2 -Vi, найдем ADA = 0, D = U A* = A*V. 28) Совершенно так же строками матрицы С могут быть любые г строк, через которые выражаются в виде линейных комбинаций все строки матрицы А. Тогда коэффициенты этих линейных комбинаций образуют строки матрицы В. 29) См. конец § 3. 30) Неравенства (37) также непосредственно следуют из формулы Бине-Коши. Согласно этой формуле определитель \В*В\ (|СС*|) равен сумме квадратов модулей всех миноров r-го порядка матрицы В (соответственно С). 31) Условия (41) означают, что строки (столбцы) матрицы А+ являются линейными комбинациями строк (столбцов) матрицы А* (см. сноску на с. 16). Условия (41) могут быть заменены одним условием А+ = A*WA*, где W — некоторая матрица (см. конец § 2).
32 Гл. I. Матрицы и действия над ними Отсюда (DA)*DA = A*D*DA = A*V*ADA = О и, следовательно (см. конец § 3), DA = 0. Но тогда DD* = DAU* = О, т. е. D = At - At = 0. Для того чтобы установить существование матрицы А+, мы воспользуемся скелетным разложением (36) и будем искать сначала псевдообратные матрицы В+ и С+ 32). Так как по определению должны иметь место равенства ВВ+В = В, B+ = UB\ (42) где U — некоторая матрица, то BUB*B = B. Умножая слева на В* и замечая, что В*В — невырожденная квадратная матрица, найдем и = (в*ву1. Но тогда второе из равенств (42) дает искомое выражение для В+: В+ = (В*В)~1В*. (43) Совершенно аналогично найдем С+ = С*(СС*)-г. (44) Покажем теперь, что матрица А+ = С+£+ = С*(СС*)-Х(В*В)-1В* (45) удовлетворяет условиям (40), (41) и, следовательно, является псевдообратной матрицей для А. В самом деле, АА+А = ВСС* (СС*)-1 (В* В)-1 В* ВС = ВС = А. С другой стороны, из равенств (43)-(45) с учетом равенства А* = С*В*, полагая К = {СС*)-1{В*В)~1, находим А+ = С* KB* = С* К (С С*)'1 С С* В* = UC*B* = U А*, А+ = С* KB* = С* В* В (В* В)-1 К В* = C*B*V = A*V, где U = С*К(СС*)-гС, V = B{B*V)~lKB*. Таким образом, доказано, что для произвольной прямоугольной матрицы А существует одна и только одна псевдообратная матрица Л+, которая определяется формулой (45), где В и С — сомножители в скелетном разложении А = ВС матрицы А33). Из самого определения псевдообратной матрицы непосредственно следует, что в случае квадратной невырожденной матрицы А псевдообратная матрица А+ совпадает с обратной А-1. 32) Из определения 5 сразу следует, что если А = 0, то и А+ = 0. Поэтому в дальнейшем предполагается, что А ф 0, и потому г = га > 0. 33) Разложение (36) не определяет однозначно сомножителей ВС. Однако поскольку, как было доказано, существует только одна псевдообратная матрица А+, формула (45) при всех скелетных разложениях матрицы А дает одно и то же значение для А+. В гл. II, § 5 будет изложен другой метод вычисления псевдообратной матрицы, использующий разбиение исходной матрицы на блоки (см. формулу (101) на с. 62).
§ 5. Обращение прямоугольных матриц. Псевдообратная матрица 33 Пример. Пусть А = 1 -1 2 -1 2 -3 О 1 -1 Здесь г = 2. Примем в качестве столбцов матрицы В первые два столбца матрицы А. Тогда 1 -1 А = ВС = || -1 2 О 1 1 0 1 О 1 -1 В*В СС* = 2 -3 О 3 -3 б (В* В)-1 = (СС*)"1 = Х/3 2 1 О 1/3 1 2/3 = Н- Поэтому согласно формуле (45) А+ 1 3 1 1 0 1 1 1 0 II 1 -1 1 II || 2 1 || | 1 Х 2/3 II 1 1 -1 -1 2 1/3 1/9 2/9 4/9 О 1/3 1/9 2/9 -1/9 1/9 1/9 5/9 3. Свойства псевдообратной матрицы. Отметим следующие свойства псевдообратной матрицы: 1°)(Л*)+ = (Л+)*; 2°) (А+)+ = А; 3°) (АА+У = АА+, (АА+)2 = ЛА+; 4°) (А+Л)* = А+А, (А+А)2 = А+А. Первое свойство означает, что операции перехода к сопряженной и к псевдообратной матрице перестановочны между собой. Равенство 2°) выражает собой взаимность понятия псевдообратной матрицы, так как, согласно 2°), псевдообратной матрицей для А+ является исходная матрица А. Согласно равенствам 3°) и 4°) матрицы АА+ и А+А являются эрмитовыми и инволютивными (квадрат каждой из этих матриц равен самой матрице). Для вывода равенства 1°) воспользуемся скелетным разложением (36): А = = ВС. Тогда равенство А* = С*В* дает скелетное разложение матрицы А*. Поэтому, заменяя в формуле (45) матрицу В на С*, а матрицу С на Б*, получим (А*)+ = В(В*В)-1(СС*)-1С = [C^CC*)-1^*^)-1^*]* = (А+)*. Равенства А+ = С+Б+, Б+ = {В* В)-1 В*, С+ = С*(СС*)-г являются скелетными разложениями. Следовательно, (А+)+ = (Б+)+(С+)+ = (В*)+В*ВСС*(С*)+. Используя свойство 1°), а также выражения для Б+ и С+, найдем (А+)+ = В(В*В)-ХВ*ВСС*(СС*)~1С = ВС = А. Справедливость равенств 3°) и 4°) проверяется непосредственно путем подстановки в эти равенства вместо А+ соответствующего выражения из формулы (45). 2 Ф.Р. Гантмахер
34 Гл. I. Матрицы и действия над ними Заметим, что в общем случае, когда разложение А = ВС не является скелетным, не всегда имеет место равенство А+ = С+В+. Так, например, Здесь = ВС. А+ =А~1 = ||1 С+ = Л = ||1|| = ||0 1 в+ = ||0 1||+ = (||1|Н|0 1||)+ = ||1||) Ч111Н121П11 1|| = 111/2 1/2|| • Ш1 = Поэтому С+В+= \\1/2 1/2Ц = ||1/2||^Л+. 4. Наилучшее приближенное решение (по методу наименьших квадратов). Рассмотрим произвольную систему линейных уравнений anxi + CI12X2 +... + ainxn = уи CL2\Xi + CL22X2 +...+«2n^n =2/2, Q"m\%\ "г ^тп2^2 "г • • • ~г Q"mn%n = Утт или, в матричной записи, (46) Ах = у. (46') Здесь 2/1,2/2, ••-,2/т — заданные числа, а xi,X2,...,xn — искомые. В общем случае система (46) может быть и несовместной. Столбец *0 = (*1,*°,».,*°) (47) называется наилучшим приближенным решением системы (46), если при значениях Х\ — Ж?, Х2 = X®, ..., Хп = х^ "квадратичное отклонение" \у - Ах\2 =^2\Уг-^2 aikXk (48) г=1 к=1 достигает своего наименьшего значения и среди всех столбцов ж, для которых это отклонение имеет минимальное значение, столбец х° имеет наименьшую "длину" , т. е. для этого столбца величина = Х*Х = ^2\Xi\ (49) i=\ имеет наименьшее значение. Покажем, что система (46) всегда имеет одно и только одно наилучшее приближенное решение и это приближенное решение определяется по формуле х° = А+у, где А+ — псевдообратная матрица для матрицы А. Для этого рассмотрим произвольный столбец х и положим (50) у — Ах = и + v,
§ 5. Обращение прямоугольных матриц. Псевдообратная матрица 35 где и = у - Ах° = у - АА+у, v = А(х° - х). (51) Тогда \у - Ах\2 = (у - Ах)* (у - Ах) = (и + v)*(u + v) = и* и + v*u + u*v + v*v. (52) Но v*u = (x° - x)*A*(y - AA+y) = (x° - x)*(A* - A*AA+)y. (53) Исходя из разложения (36) и формулы (45) найдем А*АА+ = С* В* ВСС* (СС*)-1 (В* В)-1 В* = С*В* = А*. Поэтому из равенства (53) следует v*u = 0, (54) но тогда и u*v = (v*u)* = 0. (54') Поэтому из равенства (52) находим \у - Ах\2 = \и\2 + И2 = \у- Ах°\2 + \А(х° - х)\2, (55) и, следовательно, для любого столбца х \у-Ах\^\у-Ах°\. (56) Пусть теперь \у-Ах\ = \у-Ах°\; тогда, согласно равенству (55), Az = 0, (57) где z = х — х°. С другой стороны, |ж|2 = (х° + z)*(x° +z) = \x°\2 + \z\2 + (x°)*z + z*x°. (58) Вспоминая, что А+ = A*V (см. определение 5), получим в силу (57) (x°)*z = {A+y)*z = (A*Vy)*z = y*V*Az = 0. (59) Но тогда и z*x° = ((x°)*z)* = 0. Поэтому из равенства (58) находим и, следовательно, \х\2 > \х°\\ причем знак = имеет место только при z = 0, т. е. при х = х°, где х° = А+у. Пример. Найти наилучшее приближенное решение (по методу наименьших квадратов) системы линейных уравнений: х\ — Х2 + 2#з = 3, —Х\ + 2X2 — 3#з + х4 = б, %2 — #3 + #4 = 0- 2*
36 Гл. I. Матрицы и действия над ними Здесь А = Но тогда (см. пример на с. 33) и потому .0 _ \4 %2 хз 1 Ж4 | = 1-1 2 0 -1 2-3 1 0 1-11 1/3 0 1/3 1/9 1/9 2/9 2/9 -1/9 1/9 4/9 1/9 5/9 1/3 0 1/3 1/9 1/9 2/9 2/9 -1/9 1/9 4/9 1/9 5/9 Следовательно, .о _ Х-^ — 1} Х<2 — J-} Хо — U) Х^ — Л. Определим норму ||Л|| т х n-матрицы А = \\ацс\\ как неотрицательное число, задаваемое формулой РН2 = £ы2- (6i) i,k При этом очевидно, что = £и.*12 = £и*.|2. к=1 Рассмотрим матричное уравнение АХ = У, (61') (62) где А и У — заданные т х п- и т х р-матрицы, а X — искомая п х р-матрица. Определим наилучшее приближенное решение Х° уравнения (62) из условия причем в случае, когда требуется, чтобы Из соотношений ||У-АХ°|| = тт||У-АХ||, \\Y-AX\\ = \\Y-AX% ll*°ll < 11*11- ||У-ЛХ||2 = £|У*-ЛХ*|2, к=1 iixii2 = £ix.*i2 к=1 (63) (64) следует, что к-й столбец искомой матрицы Х°к должен быть наилучшим приближенным решением системы линейных уравнений AX.k = Yk.
§ 5. Обращение прямоугольных матриц. Псевдообратная матрица 37 Поэтому X\=A+Yk. Поскольку это равенство справедливо при любом к = 1, ...,р, то Х° = A+Y. (65) Таким образом, уравнение (62) всегда имеет одно и только одно наилучшее приближенное решение, определяемое формулой (65). В частном случае, когда Y = Е — единичная матрица га-го порядка, имеем Х° = А+. Следовательно, псевдообратная матрица А+ является наилучшим приближенным решением {по методу наименьших квадратов) матричного уравнения АХ = Е. Это свойство псевдообратной матрицы А+ может быть принято в качестве ее определения. 5. Метод Гревилля последовательного нахождения псевдообратной матрицы состоит в следующем. Пусть a& — fc-й столбец в га х n-матрице А, А^ = (ai,..., a^) — матрица, образованная первыми к столбцами матрицы А, Ьк — последняя строка в матрице А~£ (к = 1, ...,n, A\ = ai, An = А). Тогда34) А+=а+ = а\а\ и для к > 1 имеют место рекуррентные формулы A" = (h)' B* = 4f-i-d*b*. При этом, если си = аи — Ak-idk Ф 0, то если же си = О, т. е. а& = Ak-idk, то »* = (1+ад-1<гЛ-1- Предлагаем читателю проверить, что матрица dk = A^ak. + . №) (66) (67) (68) (69) является псевдообратной для матрицы AjJ", если матрица Bk и строка bk определяются формулами (61)-(64). Этот метод не требует вычисления детерминантов и может быть использован для вычисления обратной матрицы. Пример. Пусть 1 -1 О -12 1 2 -3 -1 О 1 1 Заметим, что для каждой вещественной матрицы М мы можем писать М' вместо М*. Тогда л+ _ /л/ АЛ-^А* — I л' — III I - nil 4) Если Ai=ai = О, то и Af = 0.
38 Гл. I. Матрицы и действия над ними d2 = А\а2 = --, с2-а2- Axd2 = Таким образом, Далее, Поэтому 1/2 1/2 О 1 1 1 Ь2=4 = (с2с2) , с2 = - с2 = || - - 0 - В2 = At - d2b2 = II i i l||. At = 2/3 1/3 1/3 1 1/3 1/3 0 2/3 d3 = А\аъ = ьз = (1+ад-ч^ = ||! ^\\Ai = , c3 = a3 - A2d3 = 0. 112 151 13 9 9 91 И II Bz = A^ - dsbz = 2/3 1/3 1/3 1 1/3 1/3 0 2/3 A+ = A+ = 1/3 2/9 1/9 5/9 1/3 2/3 1/9 5/9 1/3 1/9 2/9 4/9 0 1/9 -1/9 1/9 1/3 2/9 1/9 5/9 1/3 1/9 2/9 4/9 0 1/9 -1/9 1/9
ГЛАВА II АЛГОРИТМ ГАУССА И НЕКОТОРЫЕ ЕГО ПРИМЕНЕНИЯ § 1. Метод исключения Гаусса 1. Пусть дана система п линейных уравнений с п неизвестными xi,x2,...,x,l и правыми частями 2/i,2/2, -••?2/п: ацхх + а12х2 + ... + а1пхп = у\, а2\Х\ + CL22X2 + • • • + d2nXn = 2/2, /-, anixi + ап2Х2 + ... + аппхп = уп. В матричной форме эта система может быть записана так: Ах = у. (1') Здесь х = (Ж1,а?2,...,жп), У = (УиУ2,-,Уп) — столбцы и А = \\aik\\n — квадратная матрица коэффициентов. Если А — невырожденная матрица, то можно записать х = А~1у (2) или, в развернутом виде, ^ = Е<4_1)г/* (* = 1>2> •••>*)• (2') к=\ Таким образом, задача вычисления элементов обратной матрицы А~1 = — \\aik \\i эквивалентна задаче решения системы уравнений (1) при любых правых частях у\,у2, --^Уп- Элементы обратной матрицы определяются формулами (25) гл. I. Однако фактическое вычисление элементов матрицы А-1 по этим формулам при большом п весьма затруднительно. Поэтому большое практическое значение имеют эффективные методы вычисления элементов обратной матрицы и, следовательно, решения системы линейных уравнений1). В настоящей главе мы изложим теоретические основы некоторых из этих методов, представляющих собой разновидности метода исключения Гаусса, знакомство с которым у читателя началось еще в курсе алгебры средней школы. 2. Пусть в системе уравнений (1) ац Ф 0. Мы исключим х\ из всех уравнений, начиная со второго, для чего ко второму уравнению почленно прибавим первое, умноженное на —а^/ац, к третьему почленно прибавим первое, умноженное на — азг/ац, и т. д. После этого система уравнений (1) заменится эквивалентной системой ацх\ + а12х2 + • • • 4- (iinxn = у\, (1) (1) _ (1) a22 #2 "Г ••• т- а2п хп — У2 1 /о\ (1) (1) _ (1) ^п2 *^2 "г • • • "г &пп%п — Уп ' 1) Для подробного ознакомления с этими методами мы рекомендуем обратиться к книге Фаддеевых [33], а также к циклу статей, напечатанных в "Успехах математических наук" (1950 г., т. 5, вып. 3).
40 Гл. II. Алгоритм Гаусса и некоторые его применения Коэффициенты при неизвестных и свободные члены в последних п — 1 уравнениях определяются формулами (1) 0>И (1) 0>г\ аи J an аИ'=ач-^:ач> Vi-Vi-^yi (iJ = 2,...,n). (3') Пусть a22 ф 0. Тогда таким же образом мы исключим Х2 из последних п — 2 уравнений системы (3) и получим систему уравнений а\\Х\ + 0,12X2 + «13^3 + • • • + о\пхп = J/1, (1) . (!) i i (!) (!) а$х3 + ... + а$Хп = у¥\ (4) (2) (2) _ (2) ^пЗ *^3 ~г • • • ~г 0>Пп%п — Уп • При этом новые коэффициенты и правые части связаны с предыдущими формулами eg)=ag)-^«g), via)=V,(1,-=$i41) (M- = 3,..,«). (5) а22 а22 Продолжая этот алгоритм далее, мы на (п — 1)-м этапе приведем исходную систему (1) к треугольной рекуррентной системе а\\Х\ + «12^2 +«i3^3 +... + ain#n = 2/ь (i) . (i) i i (i) (i) ayx2 + а23^з + ... + a\^xn = y2\ a$x3 + • • • + 4n жп = 2/з2)» (6) (n-l) _ (n-1) Ann #n — Уп Это приведение выполнимо в том и только том случае, когда в процессе приведения все числа an,a22\ аъ\\ ...,4i^i!n-i оказываются отличными от нуля. Изложенный нами алгоритм Гаусса состоит из однотипных операций, которые легко выполняются на современных счетных машинах. 3. Выразим коэффициенты и правые части приведенной системы через коэффициенты и правые части исходной системы (1). При этом мы не будем пред- (1) (п-2) полагать, что в процессе приведения все числа ап,а22 , ...,а\_1 п_1 оказываются отличными от нуля, а рассмотрим общий случай, когда первые р из этих чисел отличны от нуля: ац#0, 4^0, ..., а%~^ф0 (р < п -1), (7) что дает возможность (на р-ы этапе приведения) привести исходную систему уравнений к виду a\\Xi + а12х2 + + а1пхп = уи (8) «22^2 + ар+1,р+1ЖР+1 + ' anl+lXP+l + ' , (1) (1) ' * ~l~ a2n Xn ~ У2 1 . . ~г CLpn Xn — Ур . Лр) т - Лр) , (р) (р) . . -+- CLnnXn — уп .
§1. Метод исключения Гаусса 41 Матрицу коэффициентов этой системы уравнений обозначим через Gp: Gp — «n 0 0 0 0 «12 • аЫ «22 0 0 0 • • «lp пЫ " а2р • • Мрр .. 0 .. 0 «1,р+1 пМ «2,р+1 ар,Р+1 а{р) ап,р+1 . . «in г,™ •• а2п п{р- Upn о(р) •• °р+1 а(р) 1) ,п (9) Переход от матрицы А к матрице Gp совершался следующим образом: к каждой строке матрицы А, начиная со второй и кончая n-й, последовательно прибавлялись какие-то предыдущие строки (из числа первых р), умноженные на некоторые коэффициенты. Поэтому у матриц А и Gp одинаковы все миноры р-го порядка, содержащиеся в первых р строках, а также все миноры (р + 1)-го порядка, содержащиеся в строках с номерами 1,2, ...,р, i (г > р): А { кг к2 '.'.[ кр ) ~ °р \кг (1 < кг < к2 < ... < кр < п), 2 к2 'р J 1 2 кг к2 .. р г . . Kip /Ср_|_1 H(L 2 к2 р г к, р+1 ) (10) (1 ^ к\ < к2 < ... < кр+г ^ п). Из этих формул, учитывая структуру (9) матрицы Gp, найдем (1) Гю-1) ацау ...аррр >, (I 2 ...р 1^1 2 ... р к (1 ?:::;) М =ац42)».а^"1)а^) (г,& = р+1,...,га). (П) (12) Деля почленно второе из этих равенств на первое, получим основные формулы2) » 1 2 ... р г \ 1 2 ... р &у 1 2 ... р 1 2 ... р (i,fc=p+l,...,n). (13) Если условия (7) выполнены для данного значения р, то такие же условия выполнены для любого меньшего значения р. Поэтому формулы (13) имеют место не только для данного значения р, но и для всех меньших значений р. То же можно сказать и о формуле (11). Поэтому вместо этой формулы можно записать равенства ^ л f1 2\ (1) л (1 2 3>\ (1) (2) ,ЛЛ\ = «и, А[ 1 0 ) =ац«22% Л( 1 9 ^ ] =аца22у«у, ... (14) 1 2 1 2 3 Таким образом, условия (7), т. е. необходимые и достаточные условия выполнимости первых р этапов алгоритма Гаусса, могут быть записаны в виде сле- 2) См. [88, с. 169].
42 Гл. II. Алгоритм Гаусса и некоторые его применения дующих неравенств: а(})#о, Тогда из (14) находим an = 1 2 1 2 /О, (15:::;) #о. (15) ,(?) - ^зз = А (1111 -00 Ч_Ч1!) 40' &22 ~~ >"1) - 1 2 1 2 0 1 2 1 2 Р-1 р-1 (16) Для того чтобы в алгоритме исключения Гаусса можно было последовательно исключить Ж1,Ж2, ...,жр, нужно, чтобы все величины (16) были отличны от нуля, т. е. чтобы выполнялись неравенства (15). В то же время формулы для а^/ имеют смысл, если выполняется только последнее из условий (15). 4. Пусть матрица коэффициентов в системе уравнений (1) имеет ранг г. Тогда надлежащей перестановкой уравнений и изменением нумерации неизвестных можно добиться выполнения неравенств 0 /О 0' = 1,2,..., г). (17) Это позволяет последовательно исключить xi,X2,..-,xr и получить систему уравнений anxi + ai2#2 + + a,inxn = у\, Оу2х2 + +ей?*. =*?\ (г-1) , (г-1) _ (г-1) Q>rr &Г ~г ~г 0>гп %п — Уг •> ar+l,r+lXr+l "Г ... "I" и>г+1пЛп — </г+1, (18) (г) ап,г+1хг+1 I I (Г) _ (Г) -+- . . . -+- &пп%п — Уп ♦ Здесь коэффициенты определяются по формулам (13). Из этих формул, поскольку ранг матрицы А = Ца^Ц" равен г, следует, что °чк = ° (i,k = r + l,...,n), и матрица G>, получающаяся из матрицы А = Ца^Ц^ после применения г-этапного алгоритма исключения Гаусса, имеет вид G> — an О ^12 • „W «22 .. air пЫ .. a2r «l,r+l ^ a2,r+l «in (1) 2n a. 0 0 ... a ... 0 ... 0 (r_i) (r_i) arr+1 (r-l) arn ... 0 (19)
§2. Механическая интерпретация алгоритма Гаусса 43 Последние п — г уравнений (18) сводятся к условиям совместности Уг (г) О (г = г + 1,...,п). (20) Заметим, что столбец свободных членов при алгоритме исключения подвергается таким же преобразованиям, как и любой столбец коэффициентов. Поэтому, дополняя матрицу А = ||a^||f (n + 1)-м столбцом из свободных членов, мы получим 1 ...pi (р) У\ = 1 ... р 71+ 1 1 ... р (г = 1,2,...,п; р = 1,2,...,г). (21) (22) 1 ... р/ В частности, условия совместности (20) сводятся к известным условиям А{1:.:ггп++{)=0 o-=i,2,..,n-r). Если г = п, т. е. матрица А = Ца^Ц? невырожденная, и Л({ 2 '.'.'. jj)*° (i = l,2,...,n), то при помощи алгоритма Гаусса можно последовательно исключить а?1,Ж2,-- ...,жп_1 и привести систему уравнений к виду (б). § 2. Механическая интерпретация алгоритма Гаусса Рассмотрим произвольную упругую статическую систему 5, закрепленную на краях (например, струну, стержень, многопролетный стержень, мембрану, пластину или дискретную систему), и возьмем на ней п точек (1), (2),..., (п). Мы будем рассматривать перемещения (прогибы) yi,y2,...,yn точек (1), (2),... ..., (п) системы S под действием сил Fi, F2,..., Fn, приложенных в этих же точках. Мы будем предполагать, что силы и перемещения параллельны одному и тому Рис.1 Рис.2 же направлению и потому определяются своими алгебраическими величинами (рис. 1). Кроме того, мы примем, что имеет место принцип линейного наложения сил: 1°) при суммарном наложении двух систем сил соответствующие прогибы складываются; 2°) при умножении величин всех сил на одно и то же вещественное число все прогибы умножаются на это число. Обозначим через ац* коэффициент влияния точки (к) на точку (г), т. е. прогиб в точке (г) под действием единичной силы, приложенной в точке (к)
44 Гл. II. Алгоритм Гаусса и некоторые его применения (г,& = 1,2,...,п) (рис. 2). Тогда при совместном действии сил Fi,i<2, ...,Fn прогибы 2/1,2/2, —,Уп определятся по формулам ^aikFk =уг (г = 1,2,...,п). (23) к=1 Сопоставляя (23) с исходной системой (1), мы можем интерпретировать задачу отыскания решения системы уравнений (1) так. Даны прогибы yi,y2,—<>yn- Ищутся соответствующие силы Fi,i<2, ...,Fn. Обозначим через Sp статическую систему, получающуюся из S введением р неподвижных шарнирных опор в точках (1), (2),..., (р) (р ^ п). Коэффициенты влияния для оставшихся подвижных точек (р + 1),..., (п) системы Sp обозначим через агк ( 1 Fk=l » Рис.3 *%к (г,*=Р+1,...,п) (рис. 3 для р = 1). Коэффициент ау^ можно рассматривать как прогиб в точке (г) системы S при действии единичной силы в точке (А:) и сил реакций i?i,i?2, .,-Rp в закрепленных точках (1),(2),..., (р). Поэтому а$ = Rian + ... 4- Rpaip + aik. (24) С другой стороны, при этих же силах прогибы системы S в точках (1), (2),..., (р) равны нулю: -Rl^ll + • • • + RpCLip + CL\k = О, (25) R\CLpi + ... + Rpdpp + apk — 0. Если 1 2 ... p\ 1 2 ... p) Ф0, то мы можем из (25) определить Ri,R2,...,Rp и полученные выражения подставить в (24). Это исключение -Ri, -R2, ...,-Rp можно сделать и так. К системе равенств (25) прибавим равенство (24), записанное в виде Riail + ... + Rpdip + aik - a\l] = 0. (24') Рассматривая (25) и (24') как систему р + 1 однородных уравнений, имеющую ненулевое решение Ri, i22,.., RP, RP+i = 1, получаем, что определитель этой системы равен нулю: «и а\р ар\ an d\k CLpp &рк _ (р) ®ip &ik &ik = 0. Отсюда Лр) - xik — 1 2 1 2 V i \ V к ) 1 2 1 2 (i,fc=p+l,...,n). (26) По этим формулам коэффициенты влияния "опорной" системы Sp выражаются через коэффициенты влияния исходной системы S.
§3. Детерминантное тождество Сильвестра 45 Но формулы (26) совпадают с формулами (13) предыдущего параграфа. Поэтому для любого р (^ п — 1) коэффициенты apik (i,k = р + 1, ...,п) в алгоритме Гаусса являются коэффициентами влияния опорной системы Sp. В справедливости этого основного положения можно убедиться из чисто механических соображений, не опираясь на алгебраический вывод формул (13). Для этого рассмотрим сначала частный случай одной опоры: р = 1 (см. рис. 3). В этом случае коэффициенты влияния системы 5i определятся по формулам [полагаем р = 1 в (26)] tb,fc — an (l) \ l K J ац /• 7 i о \ "v } ~ -aik alk (г,& = l,2,...,n). О Эти формулы совпадают с формулами (3'). Таким образом, если коэффициенты сци (г, к = 1,2, ...,гг) в системе уравнений (1) являются коэффициентами влияния статической системы S, то коэффициенты а $ (h к = 2,..., п) в алгоритме Гаусса являются коэффициентами влияния системы §±. Применяя эти же соображения к системе S± и вводя в ней вторую опору в точке (2), получим, что коэффициенты а\к' (г, к = 3,..., п) в системе уравнений (4) являются коэффициентами влияния опорной системы S2, и вообще для любого р (^ п — 1) коэффициенты а\к (г, к = р + 1, ...,п) в алгоритме Гаусса являются коэффициентами влияния опорной системы Sp. Из механических соображений очевидно, что последовательное введение р опор равносильно одновременному введению этих опор. Замечание. Обращаем внимание на то, что при механической интерпретации алгоритма исключения не было необходимости предполагать, что точки, в которых рассматриваются прогибы, совпадают с точками приложения сил FbF2,...,Fn. Можно считать, что у1,у2,...,уп — прогибы точек (1), (2),..., (п), а силы Fi,i<2, ...,Fn приложены в точках (1'), (2'),..., (п'). Тогда а^ — коэффициент влияния точки (к') на точку (г). В этом случае вместо опоры в точке (j) следует рассматривать обобщенную опору в точках (j), (j'), при которой прогиб в точке (j) поддерживается все время равным нулю за счет надлежащим образом выбранной вспомогательной силы Щ в точке (j'). Условие возможности введения р обобщенных опор в точках (1), (1'); (2), (2');...; (р), (р'), т. е. возможность удовлетворить условиям у\ = О, У2 = 0, ..., ур = 0 при любых Fp+i,...,Fn за счет надлежащих R\ = F±, ..., Rp = Fp, выражается неравенством О?:::!) ф0. § 3. Детерминантное тождество Сильвестра В § 1 путем сопоставления матриц А и Gp мы пришли к равенствам (10) и (11). Эти равенства позволяют сразу получить важное детерминантное тождество Сильвестра. Действительно, из (10) и (11) находим \А\ -Ч!5::::)-"(":::;) а{р) а{р) Лр) Лр) 1п,.п4-\ • • • апп (27)
46 Гл. II. Алгоритм Гаусса и некоторые его применения Введем в рассмотрение окаймляющие минор А I 1 ~ I определители Матрицу, составленную из этих определителей, обозначим через Тогда, согласно формулам (13), а, (р) 'р+1,р+1 а (р) Р+1,п Лр) 1п,р+1 Unn Ьп,р+1 bp+i,n Опп \в\ Поэтому равенство (27) может быть записано так: -| п—р—1 \в\ 1 2 ... р\1 1 2 ... р)\ записано т 1 2 ... р\] 1 2 ...pJJ "| п—Р 1 2 ... р\] 1 2 ... P>IJ "| п—Р \А\. (28) Это и есть детерминантное тождество Сильвестра. Оно выражает определитель \В\, составленный из окаймляющих определителей, через исходный определитель и окаймляемый минор. Равенство (28) было нами установлено для матриц А = \\aik\\i, элементы которых удовлетворяют неравенствам А(\ 2 '.'.'. j)^° 0" = l,2,...,p). (29) Однако из "соображений непрерывности" следует, что эти ограничения можно отбросить и что тождество Сильвестра справедливо для любой матрицы А = = \\cLik\\i. В самом деле, пусть неравенства (29) не выполняются. Введем матрицу А£ = А + еЕ. Очевидно, lira A£ = А. С другой стороны, миноры 0S:::0- е>4... (i = l,2,..,p) представляют собой р не равных тождественно нулю многочленов относительно е. Поэтому можно выбрать такую последовательность ет —> О, что 1 2 ... j 1 2 ... j /О 0 = 1,2,...,р; ш = 1,2,...). Для матрицы А£гп мы можем записать тождество (28). Переходя в обеих частях этого тождества к пределу при т —»• оо, мы получим тождество Сильвестра для предельной матрицы А = lira A£m 3). ) Под пределом (при р —> оо) последовательности матриц Вр = \\Ь?к\\ понимают матрицу В = \\bik\\i, где bik = lim b%] (г, к = 1, 2,..., п). р—юо
§4- Разложение квадратной матрицы на треугольные множители 47 Если мы тождество (28) применим к определителю 1 2 ... р i\ г2 л | j. ~ . . . у *! vZ . . . vq yl 2 ... р ki fc2 • • • kq (р < %\ < %2 < ••• <iq ^П, р < k\ < &2 < ... < kq ^ n), то получим удобный для применений вид тождества Сильвестра о (ч «2 ... г9 \ _ Г. /1 2 ... р\19" . /1 2 ... р ii г2 ... ig \ ^^fci fe ... kg>/ ~ [Л^1 2 ... pJJ Л^1 2 ... р кг к2 ... kq) (30) § 4. Разложение квадратной матрицы на треугольные множители 1. Пусть дана матрица А = Ца^Ц^ ранга г. Введем следующие обозначения для последовательных главных миноров этой матрицы: Dk=A(\l '.'.'. к) (* = 1.2,...,п). Допустим, что имеют место условия выполнимости алгоритма Гаусса Dk?0 (fc = l,2,...,r). Обозначим через G матрицу коэффициентов системы уравнений (18), к которой приводится система уравнений ^dikXk =Уг (г = 1,2,...,п) к=1 методом исключения Гаусса. Матрица G имеет верхнюю треугольную форму, причем элементы ее первых г строк определяются формулами (13), а элементы последних п — г строк все равны нулю4): G = Переход от матрицы А к матрице G совершался при помощи некоторого числа N операций следующего типа: к г-й строке матрицы прибавлялась j-я (j < г) строка, предварительно умноженная на некоторое число а. Такая операция равносильна умножению преобразуемой матрицы слева на матрицу an ai2 0 a^ 0 0 0 0 0 0 air «i,r+i a(1) a(1) a2r a2,r+i (r-1) (r-1) CLrr Ur r_|_i 0 0 ' 0 0 a(1) • a2n Urn . 0 . 0 4) Матрица G совпадает с матрицей Gr (с. 42).
48 Гл. II. Алгоритм Гаусса и некоторые его применения 0) о (О о (31) О ... О ... О . . 1 В этой матрице на главной диагонали стоят единицы, а все остальные элементы, за исключением элемента а, равны нулю. Таким образом, G = WN...W2W1A, где каждая из матриц Wi,W2,..., Wn имеет вид (31) и, следовательно, является нижней треугольной матрицей с диагональными элементами, равными 1. Пусть W = WN...W2W1. (32) Тогда G = WA. (33) Матрицу W будем называть преобразующей матрицей для матрицы А в методе исключения Гаусса. Матрицы G и W однозначно определяются заданием матрицы А. Из (32) следует, что W — нижняя треугольная матрица с диагональными элементами, равными 1 (см. с. 26). Поскольку W — невырожденная матрица, то из (33) находим А = W~lG. (33') Мы представили матрицу А в виде произведения нижней треугольной матрицы W~l на верхнюю треугольную матрицу G. Вопрос о разложении матрицы А на множители такого типа полностью выясняется следующей теоремой. Теорема 1. Всякую матрицу А = Ца^Ц" ранга г, у которой первые г последовательных главных миноров отличны от нуля, Dk=A(l2'.'.'.k)*0 (* = 1>2,...,г), (34) можно представить в виде произведения нижней треугольной матрицы В на верхнюю треугольную матрицу С: При этом = вс = \ ЬцСц - 1 bii &21 Ьп\ = DU 0 &22 • •• ЬП2 ••• &22С22 z 0 II 0 Опп II D2 || Си Ci2 0 С22 II о о • •* Uf*f*(^f*f* — ... с1п •.. с2п Спп Dr Dr-i' (35) (36)
§4- Разложение квадратной матрицы на треугольные множители 49 _ . 2 ... k-1 g bgk = bkk т -^ , Ckg = Ckk T~T~c Г\ (^7) 1 2 ... к Первым г диагональным элементам матриц В и С можно дать произвольные значения, удовлетворяющие условиям (36). Задание первых г диагональных элементов матриц В и С определяет однозначно элементы первых г столбцов матрицы В и первых г строк матрицы С. Для этих элементов имеют место формулы А(\ 2 ... к-1 g\ А(\2 ... к-1 *Г Л^1 2 ... к-1 к) ^ _^ A\l (\ 2 ... к\ 1 2 ... к) ^\1 2 ... к) (д = к,к + 1,...,п; к = 1,2,..., г). В случае г < п (\А\ = 0) в последних п — г столбцах матрицы В можно все элементы положить равными нулю, а в последних п — г строках матрицы С всем элементам дать произвольные значения либо, наоборот, последние п — г строк матрицы С заполнить нулями, а последние п — г столбцов матрицы В взять произвольными. Доказательство. Возможность представления матрицы, удовлетворяющей условию (34), в виде произведения (35) была доказана выше [см. (33')]. Пусть теперь В и С — произвольные нижняя и верхняя треугольные матрицы, произведение которых равно А. Пользуясь формулой для миноров произведения двух матриц, найдем О 2 ... jfc-1 g 2 ... к-1 к Т в(1 2 -*-i* W? ^ \«1 «2 ••• Ctk-1 OLk J VI 01 ?:::?) (38) ai<0!2<-"<a!fc (g = к,к + 1,...,п; k = 1,2,..., г). Поскольку С — верхняя треугольная матрица, то первые к столбцов матрицы С содержат только один отличный от нуля минор к-ro порядка С I 1 9 и ) • Поэтому равенство (38) может быть записано так: (I2...k-lg\_(l2...k-lg\(l2...k\_ Л\1 2 ... к-1 к) VI 2 ... к-1 к)и\1 2 ... к ) ~ = bi2b22 ••• bk-i,k-ibgkCiic22 ••• скк (39) (g = k,k + l,...,n; k= 1,2,...,r). Положим сначала здесь g = к. Тогда получим ЬцЬ22 -ЬккСцС22 -Скк = Dk (k = 1,2,...,г), (40) откуда уже вытекают соотношения (36). Не нарушая равенства (35), мы можем в нем умножить матрицу В справа на произвольную невырожденную диагональную матрицу М = \\iiiuik\\ii одновременно умножая матрицу С слева на М-1 = Ц/а^1^!!?• Это равносильно умножению столбцов матрицы В соответственно на /ii,/Z2,...,/in и строк матрицы С на /х^1,//^"1, ...,/х"1. Поэтому диагональным элементам Ь\\, ...,ЬГГ,С\\, ...,сгг можно придать любые значения, удовлетворяющие условиям (36).
50 Гл. II. Алгоритм Гаусса и некоторые его применения Далее, из (39) и (40) находим 1 2 ... к -1 к J А U 2 ... к - - .. . , Ьдк = Ькк—^-т ч-^- (д = к,к + 1,...,щ к = 1,2,...,г), ' 1 2 ... к 1 2 ... к т. е. первые формулы (37). Совершенно аналогично устанавливаются вторые формулы (37) для элементов матрицы С. Обратим внимание на то, что при перемножении матриц В и С элементы Ькд последних п — г столбцов матрицы В и элементы cgk последних п — г строк матрицы С перемножаются только между собой. Мы видели, что все элементы последних п — r строк матрицы С можно выбрать равными нулю5). Тогда элементы последних п — r столбцов матрицы В можно выбрать произвольными. Ясно, что произведение матриц В и С не изменится, если мы последние п — г столбцов матрицы В возьмем нулевыми, а элементы последних п — г строк матрицы С произвольными. Теорема доказана. Из доказанной теоремы вытекает ряд интересных следствий. Следствие 1. Элементы первых столбцов матрицы В и первых г строк матрицы С связаны с элементами матрицы А рекуррентными соотношениями k-i aik ~ 2-^i °ijcjk bik = (г ^ к; г = 1,2,...,п; к = 1,2, ...,г), Скк (41) Сгк = 7Г («О; * = 1,2,...,г; к = 1,2,...,п). Соотношения (41) непосредственно следуют из матричного равенства (35); ими удобно пользоваться для фактического вычисления элементов матриц В и С. Следствие 2. Если А = ||а^||у — невырожденная матрица (г = п), удовлетворяющая условию (34), то в представлении (35) матрицы В и С определяются однозначно, как только диагональные элементы этих матриц выбраны в соответствии с условиями (36). Следствие 3. Если S = \\sik\\i — симметрическая матрица ранга г и Д*=5( J 2 '.'.'. к )*° (* = 1>2,...,г), то S = ВВ', где В = \\bik\\i — нижняя треугольная матрица, в которой 1 ,/12... А;-: Ь9к = \ л/^^-i 1 2 ... к-1 9к) (9 = к,к + 1,...,щ к = 1,2, ...,г), (д = к, к + 1, ...,п; к = г + 1, ...,п). (42) 5) Это следует из представления (33'). При этом диагональным элементам 6ц, ...,brr,cu, ...,сГг, как было уже показано, можно придать любые значения, удовлетворяющие условиям (36), выбрав надлежащим образом множители /xi,/i2, ...,/Хг-
§4- Разложение квадратной матрицы на треугольные множители 51 2. Пусть в представлении (35) у матрицы В элементы последних п — г столбцов равны нулю. Тогда можно положить О О О B = F-\\ rr n , С =\\ rr n • L, си О О О (43) где F — нижняя, a L — верхняя треугольная матрица; при этом первые г диагональных элементов у матриц F и L равны 1, а элементы последних п — г столбцов матрицы F и последних п — г строк матрицы L выбраны совершенно произвольно. Подставляя в (35) выражения (43) для В и С и используя равенства (36), придем к следующей теореме Теорема 2. Всякая матрица А — Ца^Ц? ранга г, у которой Dk=A(ll'.'.'.k)*° (* = 1>2,...,г), представила в виде произведения нижней треугольной матрицы F, диагональной D и верхней треугольной L: Ei А = FDL = 1 /21 «7ni ji п2 Dr- /12 1 hn О О где fgk = 1 2 1 2 k- k- 1 k ) 1 2 1 2 :::0 kg = k- k- 1 k\ 1 W 4i (44) (45) (p = fc + l,...,n; fc = l,2,...,r), a fgk, hg произвольны при g = к + 1, ...,n; к = г + 1, ...,n. 3. Метод исключения Гаусса, будучи применен к матрице Л = Ца^Ц^ ранга г, для которой Dk Ф О (А: = 1,2, ...,г), дает нам две матрицы: нижнюю треугольную матрицу W с диагональными элементами 1 и верхнюю треугольную матрицу G, у которой первые г диагональных элементов равны D±, —-,..., ——> а последние
52 Гл. II. Алгоритм Гаусса и некоторые его применения п — г строк заполнены нулями; G — гауссова форма матрицы A, W — преобразующая матрица. Для конкретного вычисления элементов матрицы W можно рекомендовать следующий прием. Мы получим матрицу W, если к единичной матрице Е применим все те преобразования (задаваемые матрицами Wi,..., Wn), которые мы в алгоритме Гаусса делали над матрицей А (в этом случае вместо произведения WA, равного G, мы будем иметь произведение WE, равное W). Поэтому к матрице А приписываем справа единичную матрицу Е: an • • • Q>in I • • • О ttni ••• ann 0 ... 1 (46) Применяя к этой прямоугольной матрице все преобразования алгоритма Гаусса, получим прямоугольную матрицу, состоящую из двух квадратных матриц, GuW: \\G W\\. Таким образом, применение алгоритма Гаусса к матрице (46) дает одновременно и матрицу G, и матрицу W. Если А — невырожденная матрица, т. е. \А\ ф О, то и \G\ Ф 0. В этом случае из (33) следует А~х = G_1W. Поскольку матрицы G и W определены при помощи алгоритма Гаусса, то нахождение обратной матрицы А-1 сводится к определению G-1 и умножению G-1 на W. Хотя нахождение обратной матрицы G-1 после того как определена матрица G не представляет затруднений, поскольку G — треугольная матрица, тем не менее можно избежать этой операции. Для этого наряду с матрицами G и W введем аналогичные матрицы Gi и W± для транспонированной матрицы А'. Тог- тА' = W^GUT.e. A = G[W{~\ (47) Сопоставим между собой равенства (33;) и (44): А = W~lG, A = FDL. Эти равенства можно рассматривать как два различных разложения вида (35); при этом мы произведение DL рассматриваем как второй множитель С. Поскольку первые г диагональных элементов у первых множителей одинаковы (они равны 1), то первые г столбцов у них совпадают. Тогда, поскольку последние п — г столбцов матрицы F могут быть выбраны произвольными, выберем их так, чтобы F = W~\ (48) С другой стороны, сопоставление равенств (47) и (44) A = G[W{~\ A = FDL показывает, что можно так подобрать произвольные элементы в L, чтобы L = W{~\ (49) Подставляя в (44) вместо F и L их выражения из (48) и (49), получим A = W~1DWl~1. (50)
§ 5. Блочные матрицы. Обобщенный алгоритм Гаусса 53 Сопоставляя это равенство с равенствами (33') и (47), мы найдем G = DW[~\ G,1=W~1D. (51) Введем в рассмотрение диагональную матрицу Тогда, поскольку D = DDD, из (50) и (51) следует A = G[DG. (53) Формула (53) показывает, что разложение матрицы А на треугольные множители может быть получено применением алгоритма Гаусса к матрицам А и А'. Пусть теперь А — невырожденная матрица (г = п). Тогда \D\ ф 0, D = D~x. Поэтому из (50) следует: А-1 = W[DW. (54) Эта формула дает возможность эффективного вычисления обратной матрицы А~1 путем применения алгоритма Гаусса к прямоугольным матрицам (А,Е), (А',Е). В частном случае, когда вместо матрицы А возьмем симметрическую матрицу 5, матрица G\ совпадает с G, а матрица W± — с матрицей VF, и потому формулы (53) и (54) принимают вид S = G'DG, (55) S-1 = W'DW. (56) § 5. Разбиение матрицы на блоки. Техника оперирования с блочными матрицами. Обобщенный алгоритм Гаусса Часто приходится пользоваться матрицами, разбитыми на прямоугольные части — "клетки" или "блоки". Рассмотрению таких "блочных" матриц мы посвящаем настоящий параграф. 1. Пусть дана прямоугольная матрица A=||o<ft|| (i = l,2,...,m; * = 1,2,...,п). (57) При помощи горизонтальных и вертикальных линий рассечем матрицу А на прямоугольные блоки: П\ 712 • • • Щ ( Ап А12 ... Аи \ } mi А21 А22 • • • A<it }m2 • (58) \ Asl As2 ... Agt / }ms Про матрицу (58) будем говорить, что она разбита на st блоков Аар размера та х п/з (а = 1,2,..., 5; /3 = 1,2, ...,£) или что она представлена в виде блочной матрицы. Вместо (58) будем сокращенно писать А = (АаР) (а = 1,2,..., в; /3 = 1,2,...,*). (59)
54 Гл. II. Алгоритм Гаусса и некоторые его применения В случае s = t будем пользоваться и такой записью: А = {Аа0)[. (60) Действия над блочными матрицами производятся по тем же формальным правилам, что и в случае, когда вместо блоков имеем числовые элементы. Пусть, например, даны две прямоугольные матрицы одинаковых размеров и с одинаковым разбиением на блоки: А = (Аа0), В = (Ва(3) (а = 1,2,..., в; /9=1,2,...,*). Легко усмотреть, что А + В = (АаР + ВаР) (а = 1,2,...,s; /9 = 1,2,...,*). (61) (62) Подробнее остановимся на умножении блочных матриц. Известно (см. гл. I, с. 15), что при умножении двух прямоугольных матриц А и В длина строк в первом сомножителе А должна совпадать с высотой столбцов во втором сомножителе В. Для возможности "блочного" умножения этих матриц мы дополнительно потребуем, чтобы при разбиении на блоки все горизонтальные размеры в первом сомножителе совпадали с соответствующими вертикальными размерами во втором: Щ 712 Р\ А = An А12 A<z\ A22 ••• Ли \ }mi Аы I }^2 В = ( Вп В 21 As\ AS2 ... Ast ) }ms Тогда легко проверить, что В12 В22 \ Bti Д tl Ри Bin \ }m В2и I }п2 Пи I } nt (63) (64) ав = с = (ад, где Са(з = ^Аа(3В5(3, (a = l,2,...,s, /9 = 1,2, ...,u). (5=1 Отдельно отметим тот частный случай, когда одним из сомножителей является квазидиагональная матрица. Пусть А — квазидиагональная матрица, т. е. s = t и Аар = 0 при а ф /9. В этом случае формула (64) дает Сар = АааВар (а = 1,2, ...,s; /9 = 1,2, ...,u). (65) При умножении блочной матрицы слева на квазидиагональную матрицу строки блочной матрицы умножаются слева на соответствующие диагональные клетки квазидиагональной матрицы. Пусть теперь В — квазидиагональная матрица, т. е. t = и и Вар = 0 при схф /3. Тогда из (64) получаем Сар = АарВ(зр (а = 1,2,..., s; /9 = 1,2,..., и). (66) При умножении блочной матрицы справа на квазидиагональную все столбцы блочной матрицы умножаются справа на соответствующие диагональные клетки квазидиагональной матрицы. Заметим, что умножение квадратных блочных матриц одного и того же порядка всегда выполнимо, когда сомножители разбиты на одинаковые квадратные схемы блоков и в каждом из сомножителей на диагональных местах стоят квадратные матрицы.
§ 5. Блочные матрицы. Обобщенный алгоритм Гаусса 55 Блочная матрица (58) называется верхней (нижней) квазитреугольной, если s = t и все Аар = О при а > /3 (соответственно все Аар = О при а < (3). Частным случаем квазитреугольной матрицы является квазидиагональная матрица. Из формулы (64) легко усмотреть, что: произведение двух верхних (нижних) квазитреугольных матриц является снова верхней (нижней) квазитреугольной матрицей^)-, при этом диагональные блоки произведения получаются путем перемножения соответствующих диагональных блоков сомножителей. Действительно, полагая в (64) s = t и Аар = 0, Вар = 0 при а < /3, найдем Са(3 = 0 при а<0, Саа = АааВаа (а,0 = 1,2, ...,«). Аналогично разбирается случай нижних квазитреугольных матриц. Отметим правило вычисления определителя квазитреугольной матрицы. Это правило можно получить исходя из разложения Лапласа. Если А — квазитреугольная (в частности, квазидиагональная) матрица с квадратными диагональными блоками, то определитель этой матрицы равен произведению определителей диагональных блоков: \A\ = \An\\A22\...\Ass\. (67) 2. Пусть дана блочная матрица Til П2 nt ( Ахх A2i А12 А22 Alt \ A2t }mi }m2 (68) \ Asi А$2 . . . Ast / }ms Прибавим к а-й блочной строке /3-ю строку, предварительно умноженную слева на прямоугольную матрицу X размера та х тр. Получим блочную матрицу / An ... Au \ В Аа1 + ХА/31 А(3! Aat + XApt Apt \ (69) / Aei ... An Введем вспомогательную квадратную матрицу V, представленную в виде следующей квадратной схемы блоков: mi . /я . 0 . 0 . V о . . . та • • • .. 0 .. .. Е .. .. 0 .. .. 0 .. X Е 0 . . ms .. 0 .. 0 .. Е ) (70) }mi у _ I U ... Я ... А ... U I }та }тр }ms В диагональных клетках матрицы V стоят единичные матрицы, порядки которых равны соответственно m\,m2,...,ms', все недиагональные блоки матрицы V ) При этом предполагается, что блочное умножение выполнимо.
56 Гл. II. Алгоритм Гаусса и некоторые его применения Следовательно, равны нулю, за исключением блока X, стоящего на пересечении а-й блочной строки с (3-м блочным столбцом. Нетрудно видеть, что УУ ' VA = B. (71) Отсюда, поскольку V — невырожденная матрица, для рангов матриц А и В ИМееМ?) - - С70\ гА=гв. (72) В частном случае, когда А — квадратная матрица, из (71) имеем \V\\A\ = \B\. (73) Но определитель квазитреугольной матрицы V равен 1: \V\ = 1. (74) \А\ = \В\. (75) К таким же выводам можно прийти, если к какому-либо столбцу матрицы (67) прибавлять другой столбец, предварительно умноженный справа на прямоугольную матрицу X надлежащих размеров. Полученные результаты могут быть сформулированы в виде следующей теоремы. Теорема 3. Если в блочной матрице А ка-й блочной строке (столбцу) прибавить (5-ю блочную строку (столбец), предварительно умноженную слева (справа) на прямоугольную матрицу X соответствующих размеров, то при этом преобразовании не изменятся ранг матрицы А, а также в случае, когда А — квадратная матрица, и определитель матрицы А. 3. Рассмотрим теперь тот частный случай, когда в матрице А диагональный блок Ац — квадратная и притом невырожденная матрица (\Ац\ /0). К а-й строке матрицы А прибавим первую строку, умноженную слева на —AaiA^i (a = 2,...,s). Тогда получим матрицу Вл ( Ац 0 ^22 Ац \ Л2* V о i(1) 1<1) где л(1) _ Ла0 — Аа1А^А10 + Аа0 (a = 2,...,s; /3 = 2,...,*). (76) (77) Если Л22 — квадратная невырожденная матрица, то этот процесс можно продолжить. Мы приходим, таким образом, к обобщенному алгоритму Гаусса. Пусть А — квадратная матрица. Тогда \A\ = \Bi\ = \Au\ 4(1) *22 4(1) 1s2 4(1) *2t 4(1) (78) Формула (78) сводит вычисление определителя \А\, состоящего из st блоков, к вычислению определителя меньшего порядка, состоящего из (s — l)(t — 1) блоков8). 7) См. с. 21. 8) Если А$ квадратная матрица и \A!^\ Ф 0, то к полученному определителю из (s — l)(t — 1) блоков мы можем снова применить такое же преобразование и т. д.
§ 5. Блочные матрицы. Обобщенный алгоритм Гаусса 57 Рассмотрим определитель А, разбитый на четыре блока: Д = А С В D (79) где А и D — квадратные матрицы. Пусть \А\ ф 0. Тогда вычтем из второй строки первую, предварительно умноженную слева на — С А-1. Получим Д = А 0 В D - СА~гВ = \A\\D-CA~1B\. (I) Точно так же, если \D\ ф 0, то мы вычтем в А из первой строки вторую, предварительно умноженную слева на —BD~l. Получим А = A-BD~XC С 0 D = \A-BD~1C\\D\. (П) В частном случае, когда все четыре матрицы Л, В, С, D квадратные (одного и того же порядка п), из (I) и (II) следуют формулы Шура, сводящие вычисление определителя 2п-го порядка к вычислению определителя n-го порядка: A = \AD- АСА~ХВ\ (\А\ ф 0), (1а) А = \AD - BD-XCD\ (\D\ ф 0). (Па) Если матрицы А и С перестановочны между собой, то из (1а) следует А = \AD - СВ\ (при условии АС = С А). (16) Точно так же, если С и D перестановочны между собой, то А = \AD - BC\ (при условии CD = DC). (Пб) Формула (16) была получена в предположении \А\ ф 0, а формула (Пб) при условии \D\ ф 0. Однако, исходя из соображений непрерывности, эти ограничения можно отбросить. Из формулы (1)-(Пб) можно получить еще шесть формул, поменяв местами в правых частях А и D и одновременно В и С. Пример. 1 0 Cl сз 0 1 с2 с4 h h d! ds b2 h d2 сЦ По формуле (16) Д = Д = d\ — с\Ь\ — c2bs d2 — c\b2 — c2b4 dz — C3&1 — C463 б?4 — С3&2 — C464 4. Установим формулу Фробениуса9) для обращения блочной матрицы. Пусть невырожденная квадратная матрица М (\М\ /0) разбита на блоки М: А С Q В }п D h (80) 9) См., например, [44].
58 Гл. II. Алгоритм Гаусса и некоторые его применения и пусть А — также невырожденная квадратная матрица {\А\ ф 0). Требуется определить М-1. Применим к матрице М обобщенный алгоритм Гаусса. Из второй блочной строки вычтем первую, предварительно умноженную слева на — С А-1. Эта опе- / Е 0 \ рация равносильна умножению матрицы М слева на матрицу10) I у ^ 1, где Х = -СА~\ Поэтому ^ ' -СА-- е)М={ 0 D-CA-ib)' <81> Введем обозначение Н = D- CA~lB и заметим, что из равенства (81) следует № = \А\\Н\. (82) Поэтому, поскольку \М\ ф 0, то и \Н\ ф О11). Переходя к обратным матрицам в равенстве (81), получим «-'(-/л-.1)"' = (оя)Л (83) Обратную матрицу для матрицы I „ „ I будем искать в виде I „ „_г I . (А В\( A-1 U \ _( Е 0 \ \0 Н )\ 0 Н-1 )~\0 Е ) находим, что U = —А~1ВН~1. Таким образом, (A By1 _ [А'1 -А^ВН-1} \0 Н) ~\ 0 Я"1 )■ Но тогда из равенства (83) находим M.1_fAB\-1( Е 0\_(А-1-А-1ВН-1\{ Е М ~ { 0 Я ) { -СА'1 В ) ~ { 0 Я-1 ){ -СА'1 , Выполняя умножение блочных матриц в правой части равенства (85), приходим к формуле Фробениуса где Н = D-CA~1B. (87) Формула Фробениуса (86) сводит обращение матрицы порядка п + q к обращению двух матриц порядков п и q и к операциям сложения и умножения матриц с размерами п х n, q x q, n x q и q x п. Тогда из равенства (84) (85) ) В первой блочной строке буква Е обозначает единичную матрицу n-го порядка, а во второй — единичную матрицу д-порядка. 11) Нам нет необходимости заранее устанавливать невырожденность матрицы М, так как это свойство матрицы М следует из того, что |А| ф 0 и \Н\ ф 0. Если бы оказалось, что |Я| = 0, то тогда и \М\ = 0, и в этом случае не существует обратной матрицы М-1.
§ 5. Блочные матрицы. Обобщенный алгоритм Гаусса 59 Если предположить, что \D\ ф 0 (вместо \А\ / 0) и поменять ролями матрицы А и D, можно получить другой вид формулы Фробениуса -1 (-) ■( К-1 -K-xBD~l -D^CK-1 D-i+D-iCK-iBD- где K = A-BD~1C. Пример. Требуется найти элементы обратной матрицы для матрицы (88) (89) М = 1 1 0 2 -1 2 2 0 0 -1 0 1 Полагаем А = 1 -1 -1 2 В = Находим последовательно H = D- CA~XB = = D- СА-1 = 0 1 -1 0 С = D = Н~1 = 2 -1 3 -2 -1 2 -1 1 А~ХВ = А-1ВН~Х = А^ВН^СА'1 = А-1 +А-1ВН~1СА-1 = Н^СА'1 = 1 2 0 -1 -2 -2 2 4 -1 -1 4 -3 1 -1 2 -1 3 -2 2 4 -3 -1 2 2 -2 -1 -4 -2 2 -1 3 -2 3 1 0 -2 Поэтому по формуле (86) находим М -1 _ -2 -1 0 2 3 1 -2 -2 -4 -1 2 3 -1 -2 # = (90) 5. Из теоремы 3 вытекает также Теорема 4. Если прямоугольная матрица R представлена в блочном виде А С где А — квадратная невырожденная матрица порядка п (\А\ ф 0), то ранг матрицы R равен п в том и только том случае, когда D = С А'1 В. (91) 5)
60 Гл. II. Алгоритм Гаусса и некоторые его применения Доказательство. Вычтем из второй блочной строки матрицы R первую, предварительно умноженную слева на С А-1. Тогда получим матрицу t=(Aod-ca-ib)- ^ Матрицы йиГ, согласно теореме 3, имеют один и тот же ранг. Ранг же матрицы Т совпадает с рангом матрицы А (т. е. с п) тогда и только тогда, когда D — —СА-1 В = 0, т. е. когда имеет место (91). Теорема доказана. Из теоремы 4 вытекает алгоритм построения обратной матрицы А-1 и вообще произведения С А-1 В, где В, С — прямоугольные матрицы размеров п х р, q х п12). Приведем при помощи алгоритма Гаусса13) матрицу _СВ0) (И1#0) (93) к виду аЛ\- <*> Докажем, что X = С А-1 В. (95) В самом деле, то же преобразование, которое было применено к матрице (93), приведет матрицу к виду о х-с\~1в)' (97) Согласно теореме 4, матрица (96) имеет ранг п (п — порядок матрицы А). Но тогда и матрица (97) должна иметь ранг п. Отсюда X — С А-1 В = 0, т. е. имеет место (95). В частности, если В = у, где у — столбцевая матрица, и С = Е, то X = А-'у. Следовательно, применяя алгоритм Гаусса к матрице Us) мы получаем решение системы уравнений Ах = у. 12) См. [88]. 13) Здесь мы применяем к матрице (93) не весь алгоритм Гаусса, а только его первые п этапов, где п — порядок матрицы А. Это можно сделать, если выполняются условия (15) при р = п. Если же эти условия не выполнены, то, поскольку \А\ ф 0, мы можем так перенумеровать первые п строк (или первые п столбцов) матрицы (93), чтобы п этапов алгоритма Гаусса оказались выполнимыми. Такой видоизмененный алгоритм Гаусса иногда применяют и при выполнении условий (15) для р = п.
§ 5. Блочные матрицы. Обобщенный алгоритм Гаусса 61 Далее, если в (93) положить В = С = Е, то после применения алгоритма Гаусса к матрице получим где (G W\ V° Х)' 2 1 3 1 0 1 1 1 2 2 Х = А~г. Проиллюстрируем этот способ нахождения А-1 на следующем примере. Пример. Пусть А = Требуется вычислить А-1. Применяем несколько видоизмененный метод исключения14) к матрице 2 1 110 0 2 0 10 2 0 0 1 0 0 0 0 0 0 0 0 -10 0 0 Ко всем строкам прибавляем вторую строку с некоторым множителем и добиваемся того, чтобы все элементы первого столбца, кроме второго элемента, равнялись нулю. После этого ко всем строкам, кроме второй, прибавляем третью строку с некоторым множителем и достигаем того, чтобы во втором столбце все элементы, кроме второго и третьего, были равны нулю. После этого к последним трем строкам прибавляем первую строку с некоторым множителем и получаем матрицу вида 1 3 1 0 0 0 1 0 -1 0 * * * * * * Поэтому 0 0 0-2-1 2 0 0 0 4 1-3 0 0 0 1 1-1 А~1 = -2 4 1 -1 1 1 2 -3 -1 6. Разбиение матрицы на блоки может быть использовано также для нахождения псевдообратной матрицы (см. гл. I, § 5). Пусть снова прямоугольная матрица R представлена в виде R=(cd\ (98) 14) См. сноску 13) на с. 60.
62 Гл. II. Алгоритм Гаусса и некоторые его применения где А — невырожденная квадратная матрица (\А\ Ф 0) и г а = vr. Тогда, согласно теореме 4, справедливо равенство D = СА_1В, и потому R = )- (АВ). (99) Так как эта формула является результатом двух последовательных скелетных разложений (см. гл. I, § 5) R = (£} (ЕА-гВ), (ЕА-гВ) = А~\АВ), то R+ = (AB)+(A-i)+(£y = (АВ)+А^у. Применяя формулы (43) и (44) на с. 32, окончательно найдем R+ = М* \ {АА* + ВВ*)~1А(А*А + С*С)'1 (А*С). Формула (101) дает явное выражение для псевдообратной матрицы R+ через блоки А, В, С. (100) (101) Пример. R = 1 -1 0 -1 2 1 2 -3 -1 0 1 1 -(**)• Здесь tr = 2 и А = 1 -1 В = 2 0 -3 1 С = (АА* + ВВ* (А*А + С*С)-г •)--(»|л|)"'- Л = 11-111 5 3 3 2 2 -3 -3 б (АА* + ВВ*)~1А(А*А + С*С)~1 = ± у Тогда по формуле (101) ^-\ 1 -1 -1 2 2 -3 0 1 15 8 9 5 1 -1 0 -12 1 б 3 3 2 15 8 9 5 1/3 0 1/3 1/9 1/9 2/9 2/9 -1/9 1/9 4/9 1/9 5/9
ГЛАВА III ЛИНЕЙНЫЕ ОПЕРАТОРЫ В п-МЕРНОМ ВЕКТОРНОМ ПРОСТРАНСТВЕ Матрицы составляют основной аналитический аппарат для изучения линейных операций в n-мерном пространстве. В свою очередь изучение этих операций дает возможность разбить все матрицы на классы и выявить важные свойства, присущие всем матрицам одного и того же класса. В настоящей главе излагаются наиболее простые свойства линейных операторов в n-мерном пространстве. Дальнейшее исследование линейных операторов в n-мерном пространстве будет продолжено в гл. VII и гл. IX. § 1. Векторное пространство 1. Пусть дана некоторая совокупность R произвольных элементов x,y,z,..., в которой определены две операции: операция "сложения" и операция "умножения на число из поля К"1). Допустим, что эти операции всегда выполнимы и однозначны в R и для любых элементов х, у, z из R и чисел а, /3 из К: 1°) х + у = у + х; 2°) (x + y) + z = x + (y + z); 3°) существует такой элемент 0 в R, что произведение числа 0 на любой элемент х из R равно элементу 0: 0 • х = 0; 4°) 1 • х = х; 5°) а(/?х) = (а/?)х; 6°) (а + /?)х = ах + /?х; 7°) а(х + у) = ах + ау. Определение 1. Совокупность элементов R, в которой всегда выполнимы и однозначны две операции: "сложение" элементов и "умножение элемента из R на число из К*\ причем эти операторы удовлетворяют постулатам 1°)-7°), мы будем называть векторным пространством (над полем К), а сами элементы — векторами2). Определение 2. Векторы х,у, ...,и из R называются линейно зависимыми, если существуют такие числа а/3,...,6 из К, не равные одновременно нулю, что ах + ^у + ...+ Ди = 0. (1) В случае, если не существует подобной линейной зависимости, векторы х, у, ...,и называются линейно независимыми. Если векторы х,у, ...,и линейно зависимы, то один из векторов может быть представлен в виде линейной комбинации остальных с коэффициентами 1) Эти операции будем отмечать обычными знаками + и • , причем последний знак иногда не ставится, а только подразумевается. 2) Нетрудно видеть, что из свойств 1°)-7°) следуют все обычные свойства операций сложения и умножения на число. Так, например, при любом х из R имеем х + О = = 1-х + 0-х=(1 + 0)х = 1 • х = х, х + (—х) = 0, где —х = (—1) • х и т. п.
64 Гл. III. Линейные операторы в n-мерном векторном пространстве из поля К. Так, например, если в (1) а ф 0, то Определение 3. Пространство R называется конечномерным, а число п — числом измерений этого пространства, если в R существует п линейно независимых векторов, в то время как любые п + 1 векторов из R линейно зависимы. Если же в пространстве можно найти линейно независимую систему из любого числа векторов, то пространство называется бесконечномерным. В настоящей книге в основном изучаются конечномерные пространства. Определение 4. Система из п линейно независимых заданных в определенном порядке векторов ei,e2,...,en в n-мерном пространстве называется базисом этого пространства. 2. Пример 1. Совокупность обычных векторов (направленных геометрических отрезков) является трехмерным векторным пространством. Часть этого пространства, состоящая из векторов, параллельных некоторой плоскости, является двумерным пространством, а все векторы, параллельные некоторой прямой, образуют одномерное векторное пространство. Пример 2. Столбец из п чисел поля К х = (#i,#2, •••,#п) назовем вектором (п — фиксированное число). Основные операции определим как операции над столбцевыми матрицами: (хих2,...,хп) + (2/1,2/2,-..,2/п) = (#1 +2/ь #2+2/2, ..., #п + 2/п), a(a?i,a?2,...,a?n) = (axi,ax2,...,axn). Элементом нуль будет столбец (0,0, ...,0). Легко проверить, что все постулаты 1°)-7°) выполняются. Эти векторы образуют n-мерное пространство. В качестве базиса этого пространства можно, например, взять столбцы единичной матрицы n-го порядка (1,0,...,0), (0,1,...,0), ..., (0,0,...,1). Пространство, рассмотренное в этом примере, часто называют численным п-мерным пространством. Пример 3. Совокупность бесконечных последовательностей (жьЖг,... ...,жп,...), в которой операции определены естественным образом, т. е. (Ж1,а?2,...,а?п,...) + (2/ь 2/2, -,2/п, •••) = (#1 + 2/ь #2+2/2, -, #п + 2/п, •••), а(а?1,Ж2,...,а?п,...) = {axi,ax2, ...,ажп,...), представляет собой бесконечномерное пространство. Пример 4. Совокупность многочленов а$ + a\t + ... + an_i£n_1 степени < п с коэффициентами из К представляет собой n-мерное векторное пространство3). Базисом такого пространства является, например, система степеней £°,£, t\...,tn-\ Все такие многочлены (без ограничения степени) образуют бесконечномерное пространство. Пример 5. Все функции, определенные в замкнутом интервале [а,6], образуют бесконечномерное пространство. 3. Пусть векторы ei,e2,...,en образуют базис n-мерного векторного пространства R, а х — произвольный вектор этого пространства. Тогда векто- 3) В качестве основных операций берутся обычное сложение многочленов и умножение многочлена на число.
§1. Векторное пространство 65 ры х,ei,e2, ...,еп линейно зависимы (ибо число их равно п + 1): а0х + а\е\ + а2е2 + ... + апеп = О, где по крайней мере одно из чисел ао, ai,..., ап отлично от нуля. Однако в данном случае ао ф 0, так как векторы ei,e2, ...,еп не могут быть связаны линейной зависимостью. Поэтому х = a?iei + х2е2 + ... + хпеп, (2) где Xi = -ai/ao (г = 1,2,..., п). Заметим, что числа xi,x2, ...,жп однозначно определяются заданием вектора х и базиса ei,e2, ...,еп. В самом деле, если наряду с (2) имеется другое разложение для вектора х: х = х[ех + х'2е2 + ... + х'пеп, (2') то, вычитая почленно (2) из (2'), получим (х[ - xi)ex + (х2 - х2)е2 + ... + (х'п - хп)еп = О, откуда в силу линейной независимости векторов базиса следует Х-^ Х\ — #2 *^2 — ••• — *^ ть *^ть — ^э т. е. Числа а?1,Ж2, ...,жп называются координатами вектора х в базисе ei,e2, ...,еп. Если п п i=l i=l ТО n n x + у = ^(ж* + yi)ei, ax = ^2 axieh г=1 г=1 т. е. координаты суммы векторов получаются почленным сложением соответствующих координат слагаемых векторов и при умножении вектора на число а все координаты вектора умножаются на это число. 4. Пусть векторы п *k=^2 Xikei (k = lj 2' -'m) г=1 линейно зависимы, т. е. т ^с*х*=0, (4) k=i где по крайней мере одно из чисел ci,c2, ...,cm не равно нулю. Если вектор равен нулю, то все его координаты равны нулю. Поэтому векторное равенство (4) эквивалентно следующей системе скалярных равенств: cixn + с2хг2 + ... + стх1т = О, сгх21 + с2х22 + ... + стх2т = О, ( ,, cixni + с2хп2 + ... + стхпт = 0. Эта система однородных линейных уравнений относительно ci,c2, ...,cm, как известно, имеет ненулевое решение тогда и только тогда, когда ранг матрицы коэффициентов меньше числа неизвестных, т. е. меньше га. Поэтому равенство 3 Ф.Р. Гантмахер
66 Гл. III. Линейные операторы в n-мерном векторном пространстве этого ранга числу т является необходимым и достаточным условием для линейной независимости векторов xi,x2, ...,xm. Таким образом, имеет место следующая Теорема 1. Для того чтобы векторы xi,X2,...,xm были линейно независимы, необходимо и достаточно, чтобы ранг г матрицы, составленной из координат этих векторов в произвольном базисе, %2т %пт II был равен т, т. е. числу векторов. Замечание. Линейная независимость векторов xi,X2,...,xm означает линейную независимость столбцов матрицы X, поскольку в k-м столбце стоят координаты вектора x& (к = 1,2, ...,га). Поэтому, согласно теореме, если в прямоугольной матрице столбцы линейно независимы, то ранг матрицы равен числу столбцов. Отсюда следует, что в произвольной прямоугольной матрице максимальное число линейно независимых столбцов равно рангу матрицы. Кроме того, если мы транспонируем матрицу, т. е. строки делаем столбцами (и наоборот), то ранг матрицы при этом, очевидно, не меняется. Поэтому в прямоугольной матрице всегда число линейно независимых столбцов равно числу линейно независимых строк и равно рангу матрицы. 5. Если в n-мерном пространстве выбран базис ei,e2, ...,еп, то каждому вектору х однозначно отвечает столбец х = {х\, Х2,..., хп), где х\, #2, ••-, хп — координаты вектора х в данном базисе. Таким образом, задание базиса устанавливает взаимно однозначное соответствие между векторами произвольного п-мерного векторного пространства R и векторами n-мерного численного пространства R/, рассмотренного в примере 2. При этом сумме векторов из R отвечает сумма соответствующих векторов из R/. Аналогичное имеет место и для произведения вектора на число а из К. Другими словами, произвольное n-мерное векторное пространство изоморфно численному n-мерному пространству, и, следовательно, все векторные пространства одного и того же числа измерений п над одним и тем же числовым полем К изоморфны между собой. Это означает, что с точностью до изоморфизма существует только одно n-мерное векторное пространство при заданном числовом поле. Может возникнуть вопрос: зачем мы ввели "абстрактное" n-мерное пространство, если с точностью до изоморфизма оно совпадает с n-мерным численным пространством? Действительно, можно было бы определить вектор как систему п чисел, заданных в определенном порядке, и установить операцию над этими векторами, как это было сделано в примере 2. Но при этом смешались бы воедино свойства вектора, не зависящие от выбора базиса, со свойствами специального базиса. Например, равенство нулю всех координат вектора есть свойство самого вектора; оно не зависит от выбора базиса. Равенство между собой всех координат вектора не есть свойство самого вектора, ибо при изменении базиса оно исчезает. Аксиоматическое определение векторного пространства непосредственно выделяет свойства векторов, не зависящие от выбора базиса. 6. Если некоторая совокупность векторов R/, составляющая часть R, обладает тем свойством, что сумма любых двух векторов из R' и произведение любого вектора из R' на число a Е К всегда принадлежат R', то такое многообразие R' само является векторным пространством, подпространством в R. Если даны два подпространства R' и R" в R и известно, что: Хц Х\2 Х2\ Ж22
§2. Линейный оператор из n-мерного векторного пространства в т-мерное 67 1°) R/ и R" не имеют общих векторов, кроме нуля; 2°) любой вектор х из R представляется в виде суммы х = х' + х" (х' е R', х" е R"), (5) то мы будем говорить, что пространство R расщепляется на два подпространства R' и R", и писать R = R' + R". (6) Заметим, что условие 1°) означает единственность представления (5). В самом деле, если бы для некоторого вектора х мы имели два разных представления в виде суммы слагаемых из R' и R", представление (5) и представление х = х' + х" (x'GR', x"GR"), (7) то, вычитая почленно (7) из (5), мы получили бы х'-х'=х"-х", т. е. равенство между отличными от нуля векторами x'-x'gR'h х" — х" Е R", что невозможно в силу 1°). Таким образом, условие 1°) можно заменить требованием единственности представления (5). В таком виде определение расщепления непосредственно распространяется на любое число слагаемых подпространств. Пусть R = R -Ь R , а e'x, е2,..., е^, и е", е2',..., е^„ — базисы соответственно в R' и R". Тогда читатель без труда докажет, что все эти п' + п" векторов линейно независимы и образуют базис в R, т. е. что из базисов слагаемых подпространств составляется базис всего пространства. В частности, отсюда будет следовать, что п = п' + п". Пример 1. Пусть в пространстве трех измерений даны три непараллельных одной и той же плоскости направления. Так как любой вектор в пространстве можно разложить на составляющие по этим трем направлениям и притом единственным образом, то R = R ' + R" + R'', где R — совокупность всех векторов нашего пространства, R' — совокупность всех векторов, параллельных первому направлению, R" — второму, R"' — третьему. В данном случае п = 3, п' = п" = п'" = 1. Пример 2. Пусть в пространстве трех измерений даны плоскость и пересекающая ее прямая. Тогда R = R ~Ь R , где R — совокупность всех векторов нашего пространства, R' — совокупность всех векторов, параллельных заданной плоскости, и R" — совокупность всех векторов, параллельных заданной прямой. В этом примере п = 3, п' = 2, п" = 1. Задание базиса ei, ег,..., еп в пространстве R по существу означает некоторое расщепление всего пространства R на п одномерных подпространств. § 2. Линейный оператор, отображающий n-мерное пространство в т-мерное 1. Рассмотрим линейное преобразование 2/i = ацХ1 + а12х2 + • •. + а1пхп, У2 = a2lXi + а22#2 + • • • + а>2пХп, /оч Ут = Q"ml%l ~г 0"гп2%2 ~г • • • ~г Q"mn%ni
68 Гл. III. Линейные операторы в n-мерном векторном пространстве коэффициенты которого принадлежат числовому полю К, и два векторных пространства над этим полем: n-мерное R и га-мерное S. Выберем в R некоторый базис ei,e2,...,en и в S некоторый базис gi,g2,...?gm- Тогда преобразование (8) п т относит каждому вектору х = 2_,xiei из R некоторый вектор у = У^УкЗк из ^' г=1 к=1 т. е. преобразование (8) определяет некоторый оператор А, относящий вектору х вектор у: у = Ах. Нетрудно видеть, что этот оператор А обладает свойством линейности, которое мы сформулируем следующим образом. Определение 5. Оператор А, отображающий R в S, т. е. относящий каждому вектору х из R некоторый вектор у = Ах из S, называется линейным, если для любых х, xi из R и а из К А(х+ xi) = Ax +Axi, A (ax) = аАх. (9) Таким образом, преобразование (8) при заданных базисах в R и S определяет некоторый линейный оператор, отображающий R в S. Покажем теперь обратное, т. е. что для произвольного линейного оператора А, отображающего R в S, и произвольных базисов ei,e2,...,en в R и gi,g2,---,gm в S существует такая прямоугольная матрица с элементами из поля К ац a>\2 • • • а>\п «21 «22 • • • «2я «ml «га2 • • • «га (10) что составленное при помощи этой матрицы линейное преобразование (8) выражает координаты преобразованного вектора у = Ах через координаты исходного вектора х. Действительно, применим оператор А к базисному вектору ек и координаты полученного вектора Аек в базисе gi,g2,--->gm обозначим через aib«2b--^«mA: (fc = l,2,...,n): га Aek = ^2aikgi (k = l,2,...,n). (11) г=1 Умножая обе части равенства (11) на хк и суммируя в пределах от 1 до п, получим п га п ^ХкАек = ^ [^2aikXkJgu к=1 г=\ к=1 откуда где п п т = Ах = А[^2хкек) = ^хкАек = ^j/tg*, к=\ к=1 У% = ^2aikxk (г = 1,2,..., га), к=1 что и требовалось установить. Таким образом, при заданных базисах в R и S каждому линейному оператору А, отображающему R в S, отвечает некоторая прямоугольная матрица (10) с размерами т х п и, наоборот, каждой такой матрице отвечает некоторый линейный оператор, отображающий R в S.
§ 3. Сложение и умножение линейных операторов 69 При этом в матрице Л, отвечающей оператору А, к-й столбец состоит из последовательных координат вектора Аек (к = 1,2, ...,п). Обозначим через х = (xi,X2,-—>xn) и у = (2/1,2/2,—?2/m) столбцы координат векторов х и у. Тогда векторному равенству У = Ах соответствует матричное равенство У = Ах, которое является матричной записью преобразования (8). Пример. Рассмотрим совокупность всех многочленов от t степени ^ п — 1 с коэффициентами из числового поля К. Эта совокупность представляет собой некоторое n-мерное векторное пространство Rn (см. пример 4 на с. 64). Точно так же многочлены от t степени ^ п — 2 с коэффициентами из К образуют пространство Rn-i- Оператор дифференцирования — относит каждому много- dt члену из Rn некоторый многочлен из Rn-i- Таким образом, этот оператор отображает Rn в Rn-i- Оператор дифференцирования является линейным оператором, так как В пространствах Rn и Rn_i выберем базисы из степеней t: Пользуясь формулой (11), построим прямоугольную матрицу размера (п — 1) х п, соответствующую оператору дифференцирования — в этих базисах: О 1 0 ... О О 0 2 ... О О 0 0 ... п-1 § 3. Сложение и умножение линейных операторов 1. Пусть даны два линейных оператора А и В, отображающие R в S, и соответствующие им матрицы А = \\(цк\1 В = \\bik\\ (г = 1,2,...,ш; к = 1,2,...,п). Определение 6. Суммой операторов А и В называется оператор С, определяемый равенством4) Сх = Ах + Вх (xeR). (12) На основе этого определения легко проверяется, что сумма С = А + В линейных операторов А и В есть также линейный оператор. Далее, Сек = Аек + Be* = ^(а^ + bik)ek. к=1 4) х G R означает, что элемент х принадлежит совокупности R. Предполагается, что равенство (12) имеет место при любом х из R.
70 Гл. III. Линейные операторы в n-мерном векторном пространстве Отсюда следует, что оператору С отвечает матрица С = ||с^||, где с^ = ац* + Ь^ (г = 1,2, ...,m; k = 1,2,...,п), т. е. оператору С отвечает матрица С = А + В. (13) К этому же выводу можно прийти из рассмотрения матричного равенства Сх = Ах + Вх (14) (х — столбец координат вектора х), соответствующего векторному равенству (12). Поскольку х — произвольный столбец, то из (14) следует (13). 2. Пусть даны три векторных пространства R, S и Т соответственно q, n и т измерений и два линейных оператора А и В, из которых В отображает R в S, а А отображает S в Т; в символической записи: t£s£r. Определение 7. Произведением операторов А и В называется оператор С, для которого при любом х из R Сх = А(Вх) (х € R). (15) Оператор С отображает R в Т: TC=^BR. Из линейности операторов А и В вытекает линейность оператора С. Выберем в пространствах R, S, Т произвольные базисы и обозначим через А, В, С матрицы, соответствующие операторам А, В, С при этом выборе базисов. Тогда векторным равенствам z = Ау, у = Вх, z = Сх (16) будут соответствовать матричные равенства z = Ау, у = Вх, z = Сх, где х, у, z — столбцы координат векторов x,y,z. Отсюда находим Сх = А(Вх) = (АВ)х, и в силу произвольности столбца х С = АВ. (17) Таким образом, произведению С = АВ операторов А и В отвечает матрица С = \\cij\\ (г = l,2,...,m; j = l,2,...,g), равная произведению матриц А и В. Предоставляем читателю самому доказать, что оператору5) С = аА (аеК) отвечает матрица С = аА. Таким образом, мы видим, что в гл. I действия над матрицами были определены так, что сумме линейных операторов А + В, произведениям АВ и а А отвечают соответственно матрицы А + В, АВ и аА, где А и В — матрицы, соответствующие операторам А и В, а а — число из К. 5) То есть оператору, для которого Сх = а Ах (х Е R).
§4- Преобразование координат 71 § 4. Преобразование координат Рассмотрим в n-мерном векторном пространстве два базиса: ei, в2,..., еп ("старый" базис) и ei,e2,...,en ("новый" базис). Взаимное расположение векторов базиса определится, если задать координаты векторов одного базиса относительно другого. Положим _ ei = tuei + t2ie2 + ... + tnieni ^2 = h2ei + t22e2 + ... + tn2en, , . en = t±nGi ~r ^2n^2 ~r • • • "г ЪппеП) или, в сокращенной записи, ek = J2tikei (fc = l,2,...,n). (18') i=l Установим связь между координатами одного и того же вектора в различных базисах. Пусть xi,x2,...,xn и xi,x2,...,xn — координаты вектора х соответственно в "старом" и "новом" базисах: х = ^^е* = ^ж*еЛ. (19) Подставим в (19) вместо векторов е& их выражения из (18). Получим п п п п А;=1 г=1 г=1 fc=l Сопоставляя это равенство с (19) и учитывая, что координаты вектора однозначно определяются заданием вектора и базиса, находим Y^UhZk (г = 1,2,...,п), (20) или, в подробной записи, Х{ — k=l Х\ = t\\X\ + t\2X2 + • • • + hnXn, X2 = t2\X\ + t22X2 + • • • + t2nXn, , . %n = *nl<£\ ~r tn2X2 т • • • т tnnXn, Формулы (21) определяют преобразование координат вектора при переходе от одного базиса к другому. Они выражают "старые" координаты через "новые". Матрица Т=|« (22) называется матрицей преобразования координат или преобразующей матрицей. В ней к-й столбец состоит из "старых" координат к-го "нового" базисного вектора. В этом можно убедиться из формулы (18) или непосредственно из формул (21), положив в последних хк = 1, щ = 0 при г ф к. Заметим, что матрица Г невырожденная, т. е. |Г| ф 0. (23) Действительно, положив в (21) х\ — х2 = ... = хп = 0, получим систему п линейных однородных уравнений с п неизвестными х\,х2,...,хп и с определите-
72 Гл. III. Линейные операторы в n-мерном векторном пространстве лем |Г|. Эта система может иметь только нулевое решение х\ = 0,#2 = 0,... ...,хп = 0, так как в противном случае из (19) следовала бы линейная зависимость между векторами ei,e2, ...,еп. Поэтому |Г| #06). Введем в рассмотрение столбцовые матрицы х = (#i,#2, ---^n) их — (х\,Х2, ••• ...,хп). Тогда формулы преобразования координат (21) могут быть записаны в виде следующего матричного равенства: х = Тх. (24) Умножая снова обе части этого равенства на Г-1, найдем выражение для обратного преобразования х = Т~1х. (25) § 5. Эквивалентные матрицы. Ранг оператора. Неравенства Сильвестра 1. Пусть даны два векторных пространства R и S соответственно пит измерений над числовым полем К и линейный оператор А, отображающий R в S. В настоящем параграфе мы выясним, как меняется матрица А, соответствующая данному линейному оператору А, при изменении базисов в R и S. Выберем в R и S произвольные базисы ei,e2, ...,еп и gi,g2,--,gm- В этих базисах оператору А будет соответствовать матрица А = \\aik\\ (i = 1,2,...,га; к = 1,2,...,п). Векторному равенству У = Ах (26) соответствует матричное равенство У = Ах, (27) где х и у — координатные столбцы для векторов х и у в базисах ei,e2,...,en И gl,g2,-.-,gm- Выберем теперь в R и S другие базисы ei,e2,...,en и gi,g2)--»gm- В новых базисах вместо х,у,А будем иметь х, у, А. При этом у = Ах. (28) Обозначим через Q и N невырожденные квадратные матрицы соответственно порядков пит, осуществляющие преобразование координат в пространствах R и S при переходе от старых базисов к новым (см. § 4): х = Qx, y = Ny. (29) Тогда из (27) и (29) получаем у = N-Xy = N~xAx = N^AQx. (30) Полагая Р = iV_1, мы из (28) и (30) находим А = PAQ. (31) Определение 8. Две прямоугольные матрицы А и В одинаковых размеров называются эквивалентными, если существуют две невырожденные квадратные матрицы Р и Q такие7), что В = PAQ. (32) 6) Неравенство (23) вытекает и из теоремы 1 (с. 66), поскольку элементами матрицы Г являются "старые" координаты линейно независимых векторов ei,e2, ...,en. 7) Если матрицы А и В имеют размер т х п, то в (32) квадратная матрица Р имеет порядок га, а квадратная матрица Q — порядок п. Если элементы эквивалентных матриц А и В принадлежат некоторому числовому полю, то матрицы Р и Q могут быть выбраны так, чтобы их элементы принадлежали тому же числовому полю.
§ 5. Эквивалентные матрицы. Ранг оператора 73 Из (31) следует, что две матрицы, соответствующие одному и тому же линейному оператору А при различном выборе базисов в R и S, всегда эквивалентны между собой. Нетрудно видеть, что и, обратно, если матрица А отвечает оператору А при некоторых базисах в R и S, а матрица В эквивалентна матрице А, то она отвечает тому же линейному оператору при некоторых других базисах bRhS. Таким образом, каждому линейному оператору, отображающему R в S, соответствует класс эквивалентных между собой матриц с элементами из поля К. 2. Следующая теорема устанавливает критерий эквивалентности двух матриц. Теорема 2. Для того чтобы две прямоугольные матрицы одинаковых размеров были эквивалентны, необходимо и достаточно, чтобы эти матрицы имели один и тот же ранг. Доказательство. Необходимость. При умножении прямоугольной матрицы на какую-либо невырожденную квадратную матрицу (слева или справа) ранг исходной прямоугольной матрицы не может измениться (см. гл. I, с. 25). Поэтому из (32) следует га = гв- Достаточность. Пусть А — прямоугольная матрица размера т х п. Она определяет линейный оператор А, отображающий пространство R с базисом ei, ег, ...,еп в пространство S с базисом gi,g2, —,gm- Обозначим через г число линейно независимых векторов среди векторов Aeb Ae2,..., Аеп. Не нарушая общности, можем считать, что линейно независимыми являются векторы Aei,Ae2,... ...,Аег8), а остальные Aer+i,..., Аеп выражаются линейно через них: Ае* = ^2 скз Аез (& = г + 1,..., га). i=i Определим новый базис в R следующим образом: ч (г = 1,2,..., г), г ■i -^2<Hj^j (г = г + 1,...,га). е; = < (33) (34) Аек = 0 (к = г + 1,...,га). (35) Тогда в силу (33) Далее положим Ае,-=§,- У = 1,2,..., г). (36) Векторы gi,g2)--»gr линейно независимы. Дополним их некоторыми векторами gr+1, ...,gw добазиса gi,g2, ...,gm в S. Тогда матрица, отвечающая тому же оператору А в новых базисах ei,...,en; gb---?gm> согласно (35) и (36), будет иметь вид 1г = 1 0 ... О 0 ... О О 1 ... О 0 ... О О 0 ... 1 0 ... О о о ... о о ... о о о ... о о ... о (37) ) Этого можно достигнуть надлежащей нумерацией базисных векторов ei, ег,..., еп.
74 Гл. III. Линейные операторы в n-мерном векторном пространстве В матрице 1Г вдоль главной диагонали сверху вниз идут г единиц; все остальные элементы матрицы 1Г равны нулю. Так как матрицы А и 1г соответствуют одному и тому же оператору А, то они эквивалентны между собой. По доказанному эквивалентные матрицы имеют один и тот же ранг. Поэтому ранг исходной матрицы А равен г. Мы показали, что произвольная прямоугольная матрица ранга г эквивалентна "канонической" матрице 1Г. Но матрица 1Г полностью определяется заданием размера т х п и числа г. Поэтому все прямоугольные матрицы данного размера т х п и данного ранга г эквивалентны одной и той же матрице 1Г и, следовательно, эквивалентны между собой. Теорема доказана. 3. Пусть дан линейный оператор А, отображающий n-мерное пространство R в га-мерное S. Совокупность векторов вида Ах, где х Е R, образует векторное пространство9). Это пространство мы будем обозначать через AR; оно составляет часть пространства S, или, как говорят, является подпространством в пространстве S. Наряду с подпространством AR в S рассмотрим совокупность всех векторов х G R, удовлетворяющих уравнению Ах = 0. (38) Эти векторы также образуют подпространство в R; это подпространство мы обозначим через Na- Определение 9. Если линейный оператор А отображает R в S, то число измерений г пространства AR называется рангом оператора А10), а число измерений d пространства Na, состоящего из всех векторов х Е R, удовлетворяющих условию (38), — дефектом оператора А. Среди всех эквивалентных прямоугольных матриц, задающих данный оператор А в различных базисах, имеется каноническая матрица 1Г [см. (37)]. Обозначим через ei,e2,...,en и gi,g2,---,gm соответствующие ей базисы в R и S. Тогда Aei = gi, ..., Aer = gr, Aer+i = ... = Aen = 0. Из определения AR и Na следует, что векторы gi,...,gr образуют базис в AR, а векторы er+i,...,en составляют базис в Na- Отсюда вытекает, что г — ранг оператора А и d = n-r. (39) Если А — произвольная матрица, соответствующая оператору А, то она эквивалентна 1Г и, следовательно, имеет тот же ранг г. Таким образом, ранг оператора А совпадает с рангом прямоугольной матрицы II ац а\2 ... а\п II а _ &21 ^22 • • • Cl2n II &т1 0/т2 ' • ' &тп II 9) Совокупность векторов вида Ах (х G R) удовлетворяет постулатам 1°)-7°) § 1, поскольку сумма двух векторов вида Ах (х G R) и произведение такого вектора на число снова дают вектор такого вида. 10) Число измерений пространства AR всегда меньше или равно числу измере- п ний пространства R, т. е. г ^ п. Это следует из того, что равенство х = у \xjGj Ег=1 XiAei. г=1
§ 5. Эквивалентные матрицы. Ранг оператора 75 определяющей оператор А в некоторых базисах ei,e2, ...,en Е R и gi,g2,-- ...,gm G S. В столбцах матрицы А стоят координаты векторов Aei, Ав2,..., Аеп. Так как п п из х = 2_\xiei следует Ах = У^з^Ае^, то ранг оператора А, т. е. число изме- г=1 г=1 рений RA, равняется максимальному числу линейно независимых векторов среди Aei, Ав2,..., Аеп. Таким образом, ранг матрицы совпадает с числом линейно независимых столбцов матрицы. Поскольку при транспонировании строки матрицы делаются столбцами, а ранг не меняется, то число линейно независимых строк матрицы также равно рангу матрицы11). 4. Пусть даны два линейных оператора А, В и их произведение С = АВ. Пусть оператор В отображает R в S, а оператор А отображает S в Т. Тогда оператор С отображает R в Т: tAs£r, t£r. Введем матрицы А, В, С, соответствующие операторам А, В, С при некотором выборе базисов в R, S и Т. Тогда операторному равенству С = АВ будет соответствовать матричное равенство С = АВ. Обозначим через гл,Гв,гс ранги операторов А, В, С, или, что то же, ранги матриц А, В, С. Эти числа определяют число измерений подпространств AS, BR, A(BR). Поскольку BR С S, то A(BR) С AS12). Кроме того, число измерений A(BR) не может превосходить числа измерений BR13). Поэтому гс ^ га, гс ^ гв. Эти неравенства были нами получены в гл. I, § 2 из формулы для миноров произведения двух матриц. Рассмотрим оператор А как оператор, отображающий BR в Т. Тогда ранг этого оператора будет равен числу измерений пространства A(BR), т. е. гс- Поэтому, применяя формулу (39), получим rc=rB-du (40) где d\ — максимальное число линейно независимых векторов из BR, удовлетворяющих уравнению Ах = 0. (41) Но все решения этого уравнения, принадлежащие S, образуют подпространство d измерений, где d = n-rA (42) — дефект оператора А, отображающего S в Т. Поскольку BR С S, то dx < d. (43) Из (40), (42) и (43) находим га +гв -п ^ гс- Таким образом, мы получили следующие неравенства Сильвестра для ранга произведения двух прямоугольных матриц А и В размера тх п и п х q: га+гв - п < гАв < га, гв- (44) 11) К этим же выводам мы пришли в § 1 из других соображений (см. с. 66). 12) R С S означает, что совокупность R составляет часть совокупности S. 13) См. сноску 10) на с. 74.
76 Гл. III. Линейные операторы в n-мерном векторном пространстве Если матричное уравнение АХВ = С, где размеры прямоугольных матриц А, X, В суть соответственно т х га, га х р,р х q, имеет решение X (см. с. 21), то из неравенств Сильвестра легко следует тс ^гх ^гс + п+р-ГА-гв. Можно доказать, что если уравнение АХВ = С имеет какое-либо решение, то оно имеет решение любого ранга г, заключенного между числами гс и гс +п+р-ГА-гв. § 6. Линейные операторы, отображающие n-мерное пространство в себя 1. Линейный оператор, отображающий n-мерное векторное пространство R само в себя (в данном случае R = S, п = ш), мы будем просто называть линейным оператором в R. Сумма двух линейных операторов в R, а также произведение такого оператора на число — снова линейные операторы в R. Умножение двух таких линейных операторов всегда выполнимо, и произведение их есть снова линейный оператор в R. Таким образом, линейные операторы в R образуют кольцо14). В этом кольце имеется единичный оператор, т. е. оператор Е, для которого Ех = х (х € R). При этом для произвольного оператора А в R ЕА = АЕ = А. Если А — линейный оператор в R, то имеет смысл А2 = АА, А3 = AAA,... и вообще Ат = АА...А. Кроме того, полагаем А0 = Е. Тогда, как легко видеть, т раз при любых целых неотрицательных р и q ApAq =Ap+q. Пусть f(t) = aotm + ait™-1 + ... + am-it + am — многочлен относительно скалярного аргумента t с коэффициентами из поля К. Тогда полагаем /(А) = а0Ат + ai А771"1 + ... + aTO_i A + awE. При этом /(А)р(А) = </(А)/(А) для любых двух многочленов f(t) и g(t). Пусть у = Ах (x,y€R). (45) Обозначим через #i,#2,...,#n координаты вектора х в произвольном базисе ei,e2, ...,еп, а через 2/1,2/2?--»2/п — координаты вектора у в том же базисе. Тогда Уг = ^2агкХк (г = 1,2,..., га). (46) k=i В базисе ebe2, ...,en линейному оператору А отвечает квадратная матрица А = \\dikWi 15)- Напомним читателю (см. с. 69), что в к-м столбце этой матрицы 14) Это кольцо является алгеброй. Ср. гл. I, с. 25. 15) См. с. 68-69. В данном случае пространства R и S совпадают; точно так же отождествлены базисы ei,e2,...,en и gi,g2,.,gm в этих пространствах.
§ 6. Линейные операторы, отображающие n-мерное пространство в себя 77 стоят координаты вектора Ае& (к = 1,2, ...,п), т. е. п Aek = ^2aikei (к = 1, ...,п). (47) г=1 Вводя координатные столбцы х = (а?1,Ж2,...,#п) И У = (2/ъ2/2, —,2/п)> мы можем записать преобразование (46) в матричной форме у = Ах. (48) Сумме и произведению двух операторов А и В отвечают сумма и произведение соответствующих квадратных матриц А = \\aik\\i и В = \\bik\\i- Произведению аА соответствует матрица аА. Единичному оператору Е отвечает квадратная единичная матрица Е = || (5**1 If. Таким образом, выбор базиса устанавливает изоморфное соответствие между кольцом линейных операторов в R и кольцом квадратных матриц п-го порядка с элементами из К. При этом соответствии многочлену /(А) соответствует матрица f(A). 2. Рассмотрим наряду с базисом ei,e2,...,en другой базис ei,e2,...,en в R. Тогда аналогично (48) _ у = Ах, (49) где ж, у — столбцовые матрицы, составленные из координат векторов х, у в базисе ei,e2,...,en, a A= Ца^Ц" — квадратная матрица, соответствующая оператору А в этом базисе. Запишем в матричной форме формулы преобразования координат х = Тх, у = Ту. (50) Тогда из (48) и (50) находим у = Т~гАТх, что в сопоставлении с (49) дает А = Т~1АТ. (51) Формула (51) представляет собой специальный частный случай формулы (31) на с. 72 (в данном случае Р = Г-1, Q = Г). Определение 10. Две матрицы А и В, связанные соотношением В = Т~1АТ, (5Г) где Т — некоторая невырожденная матрица, называются подобными16). Таким образом, мы показали, что две матрицы, соответствующие одному и тому же линейному оператору в R при различных базисах, подобны между собой, причем матрица Т, связывающая эти матрицы, совпадает с матрицей преобразования координат при переходе от первого базиса ко второму (см. (50)). Другими словами, линейному оператору в R отвечает целый класс подобных между собой матриц: эти матрицы представляют данный оператор в различных базисах. Изучая свойства линейного оператора в R, мы тем самым изучаем свойства матриц, присущие одновременно всему классу подобных матриц, т. е. изучаем 16) Матрицу Г всегда можно выбрать так, чтобы ее элементы принадлежали основному числовому полю К, которому принадлежат элементы матриц А и В. Легко проверяются три свойства подобия матриц: рефлексивность (матрица А всегда подобна самой себе), симметричность (если А подобна В, то и В подобна А) и транзитивность (если А подобна В, В подобна С, то А подобна С).
78 Гл. III. Линейные операторы в n-мерном векторном пространстве свойства матриц, остающиеся неизменными (инвариантными) при переходе от данной матрицы к матрице, ей подобной. Заметим еще, что две подобные матрицы имеют всегда равные определители. Действительно, из (51') следует, что \В\ = \T\~i\A\\T\ = \А\. (52) Равенство \В\ = \А\ является необходимым, но не достаточным условием для подобия матриц А и В. В гл. VI будет установлен критерий подобия двух матриц, т. е. будут даны необходимые и достаточные условия для того, чтобы две квадратные матрицы n-го порядка были подобны между собой. Согласно равенству (52) мы можем под определителем |А| линейного оператора А в R понимать определитель любой матрицы, соответствующей данному оператору. Если |А| =0 (/0), то оператор А называется вырожденным (соответственно невырожденным). Согласно этому определению в любом базисе вырожденному (невырожденному) оператору отвечает вырожденная (соответственно невырожденная) матрица. Для вырожденного оператора: 1) всегда существует вектор х ф О такой, что Ах = 0; 2) AR составляет правильную часть R. Для невырожденного оператора: 1) из Ах = 0 следует х = 0; 2) AR = R, т. е. векторы вида Ах (х G R) заполняют все пространство R. Другими словами, линейный оператор в R является вырожденным или невырожденным в зависимости от того, больше или равен нулю его дефект. 3. Если А — невырожденный оператор, то в равенстве у = Ах задание вектора у G R однозначно определяет вектор х G R. Действительно, существование вектора х следует из того, что векторы вида Ах (х G R) заполняют все пространство R. С другой стороны, из равенств у = Ах' и у = Ах" (х',х" G R) следует А(х' — х") = Ах' — Ах" = 0 и отсюда х' — х" = 0, т. е. х' = х". Поэтому, исходя из равенства у = Ах, можно определить обратный оператор А-1 равенством х = А_1у. Легко видеть, что обратный оператор А-1 для линейного оператора А в R также является линейным оператором в R; при этом АА"1 = A_1A = Е, где Е — единичный оператор. Если в некотором базисе невырожденному оператору А отвечает невырожденная матрица А, то в этом базисе обратному оператору А-1 соответствует матрица А-1. Рассмотрим некоторые частные типы линейных операторов в R. 1°. Оператор J в R называется инволютивным, если J2 = Е. Инволютивный оператор невырожденный и для него J-1 = J. Инволютивному оператору в любом базисе соответствует инволютивная матрица J, т. е. матрица J, для которой J2 = Е. 2°. Оператор Р в R называется проекционным, если Р2 = Р. Пусть дано произвольное расщепление пространства R на два подпространства ShT: R = S + Т. Тогда для любого вектора х G R имеет место разложение х = хд + хт, где xg G S, хх G Т. Вектор хд называется проекцией вектора х на подпространство S параллельно подпространству Т17). Рассмотрим оператор Р, осуществляющий про- 1Т) Аналогично, вектор хт — проекция вектора х на подпространство Т параллельно подпространству S.
§ 7. Характеристические числа и собственные векторы линейного оператора 79 ектирование пространства R на подпространство S параллельно подпространству Т, т. е. оператор в R, определяемый равенством Рх = хд для любого вектора х Е R. Очевидно, этот оператор является линейным, но он является и проективным, так как Рх = х§, Р2х = Pxg, и, следовательно, (Р2 — Р)х = х§ — х§ = О, т. е. Р2 = Р. Легко проверяется и обратное утверждение. Произвольный проекционный оператор Р в R осуществляет проектирование всего пространства R на подпространство S = PR параллельно подпространству Т = (Е — P)R. Любая натуральная степень проекционного оператора является проекционным оператором. Если Р — проекционный оператор, то и Е — Р — проекционный оператор, так как (Е - Р)2 = Е - 2Р + Р2 = Е - Р. Квадратная матрица р называется проекционной, если Р2 = Р. Очевидно, в произвольном базисе проекционному оператору соответствует проекционная матрица. § 7. Характеристические числа и собственные векторы линейного оператора При исследовании структуры линейного оператора А в R большую роль играют векторы х, для которых Ах = Ах (A € К, х ф 0). (53) Такие векторы называются собственными векторами, а соответствующие им числа А — характеристическими или собственными числами оператора А (матрицы А). Для нахождения характеристических чисел и собственных векторов операто- п ра А выберем произвольно базис ei,e2, ...,еп в R. Пусть х = ^^хгег и А = = Наг*Н? — матрица, отвечающая оператору А в базисе ei,e2,...,en. Тогда, приравнивая между собой соответственные координаты векторов, стоящих в левой и правой частях равенства (53), получим систему скалярных уравнений а\\Х\ + ai2#2 + ... + ainxn = Xxi, а>2\Я\ + ^22#2 + • • • + ^2n^n = A#2, (54) (55) а>п\Х\ + аП2#2 + • • • + а>ппХп = \хп, которую можно записать и так: (an — \)х\ + ai2#2 + ... + а\пхп = О, U21#l + (^22 — А)#2 + • • • + а>2пХп = О, a>niXi + аП2#2 + ... + (апп — \)хп = 0. Так как искомый вектор не должен быть равен нулю, то среди его координат #i,#2, ...,#п по крайней мере одна координата должна быть отлична от нуля. Для того чтобы система линейных однородных уравнений (55) имела ненулевое решение, необходимо и достаточно, чтобы определитель этой системы был равен нулю: an — A ai2 ... ain ^21 ^22 — А . . . a2n Q>nl ап2 ' ' ' Q>nn ~ A = 0. (56)
80 Гл. III. Линейные операторы в n-мерном векторном пространстве Уравнение (56) представляет собой алгебраическое уравнение n-й степени относительно Л. Коэффициенты этого уравнения принадлежат тому же числовому полю, что и элементы матрицы А = Ца^Ц", т. е. полю К. Уравнение (56) часто встречается в различных проблемах геометрии, механики, астрономии, физики и носит название характеристического уравнения или векового18) уравнения матрицы А = ||а^||у (левую часть этого уравнения называют характеристическим многочленом). Таким образом, каждое характеристическое число Л линейного оператора А является корнем характеристического уравнения (56). И наоборот, если некоторое число Л является корнем уравнения (56), то при этом значении Л система (55) и, следовательно, (54) имеет ненулевое решение #i,#2, ...,#п> т- е- этому числу Л отвечает собственный вектор х = У^ а^е* оператора А. Из сказанного следует, что любой линейный оператор А в R имеет не более чем п различных характеристических чисел. Если К есть поле всех комплексных чисел, то любой линейный оператор в R всегда имеет по крайней мере один собственный вектор в R и соответствующее этому собственному вектору характеристическое число Л19). Это следует из основной теоремы алгебры, согласно которой алгебраическое уравнение (56) в поле комплексных чисел всегда имеет по крайней мере один корень. Запишем уравнение (56) в развернутом виде: \А - ХЕ\ = (-Л)п + Si (-А)""1 + 52(-Л)п"2 + ... + Sn_i(-A) + Sn = 0; (57) здесь, как нетрудно видеть, Si = X>, 52= y, А(\к)> ••• (58) и вообще Sp равно сумме главных миноров р-ro порядка матрицы А = ||а^||? (р = 1,2,...,п)20). В частности, Sn = \A\. 18) Такое название связано с тем, что это уравнение встречается при исследовании вековых возмущений планет. 19) Это положение справедливо и в более общем случае, когда К — произвольное алгебраически замкнутое поле, т. е. такое поле, которому принадлежат корни всех алгебраических уравнений с коэффициентами из данного поля. 20) Степень (—Х)п~р имеется только в тех членах характеристического определителя (56), которые содержат какие-либо п — р диагональных элементов ajiji ~ Ху aj2J2 ~ Ху ..., a>jn_pjn_p — А. Произведение этих диагональных элементов входит в состав определителя (56) со множителем, равным главному минору Mi ii .. iP \ Д %\ %i ... ip J ' где индексы ii,i2, ...,гр вместе с индексами ji,J2, ---,jn-p образуют полную систему индексов 1,2, ...,п: \А - \Е\ = (ahjl - \)(aj2j2 - \)...(ajn_pjn_p - \)А (j| j ;;; jj + (*). / 11 ?0 1 \ Здесь (—A)n_p умножается на A I . ." ''' P I. Перебирая всевозможные сочетания ji,J2,—,jn-p по пр из индексов 1,2, ...,п, мы получим в качестве коэффициента Sp при (—А)п-Р сумму всех главных миноров р-го порядка матрицы А.
§8. Линейные операторы простой структуры 81 Обозначим через А матрицу, соответствующую тому же оператору А в другом базисе. Матрица А подобна матрице А: А = Т~1АТ. Отсюда _ А-\Е = Т~1(А-\Е)Т и, следовательно, \А-Щ = \А-\Е\. (59) Таким образом, подобные матрицы А и А имеют один и тот же характеристический многочлен. Этот многочлен иногда называют характеристическим многочленом оператора А и обозначают через |А — ЛЕ|. Если x,y,z,... — собственные векторы оператора А, соответствующие одному и тому же характеристическому числу А , а а,/3,у,... — произвольные числа из К, то вектор ах + /Зу + jz + ... либо равен нулю, либо также является собственным вектором оператора А при том же числе А. Действительно, из Ах = Лх, Ay = Ay, Az = Az, следует А(ах + /Зу + 7Z 4-...) = А(ах + /Зу + jz +...). Поэтому линейно независимые собственные векторы, отвечающие одному и тому же характеристическому числу Л, образуют базис некоторого "собственного" подпространства, каждый вектор которого есть собственный вектор при том же Л. В частности, каждый собственный вектор порождает одномерное собственное подпространство, "собственное направление". Однако если собственные векторы оператора А соответствуют различным характеристическим числам, то линейная комбинация этих собственных векторов, вообще говоря, не будет собственным вектором оператора А. Значение собственных векторов и характеристических чисел при исследовании линейных операторов будет проиллюстрировано в следующем параграфе на примере операторов простой структуры. § 8. Линейные операторы простой структуры Начнем со следующей леммы. Лемма. Собственные векторы, соответствующие попарно различным характеристическим числам, всегда линейно независимы. Доказательство. Пусть Ах; = XiXi (xi^O; КфХк при г ф к; i,k = 1,2, ...,m), (60) и пусть J m J2ci*i = 0. (61) i=l Применяя к обеим частям этого равенства оператор А, получим т Y^CiXiXi = 0. (62) i=l
82 Гл. III. Линейные операторы в n-мерном векторном пространстве Умножим обе части равенства (61) на Ai и вычтем почленно (61) из (62). Тогда получим jrci(Ai-Ai)xi=0. (63) г=2 Можно сказать, что равенство (63) было получено из (61) путем почленного применения оператора А — AiE. Применяя к (63) почленно операторы А — —А2Е, ..., А — Am_iE, мы придем к следующему равенству: ст(А — Am_i)(Am — лт-2)... (Ат — Ai)xm = О, откуда ст = 0. Так как в (61) любое слагаемое может быть поставлено на последнее место, то в (61) с\ = с2 = ... = ст = 0, т. е. между векторами xi,X2,...,xm нет линейной зависимости. Лемма доказана. Если характеристическое уравнение оператора имеет п различных корней и эти корни принадлежат полю К, то на основании леммы собственные векторы, соответствующие этим корням, линейно независимы. Определение 11. Линейный оператор А в R называется оператором простой структуры, если А имеет в R п линейно независимых собственных векторов, где п — число измерений. Таким образом, линейный оператор в R имеет простую структуру, если все корни характеристического уравнения различны между собой и принадлежат полю К. Однако это условие не является необходимым. Существуют линейные операторы простой структуры, у которых характеристический многочлен имеет кратные корни. Рассмотрим произвольный линейный оператор А простой структуры. Обозначим через gi,g2, ...,gn базис в R, состоящий из собственных векторов оператора, т. е. Ag* = \kgk (k = l,2,...,n). п п п Если x = ^#fcgfc, то Ax = ^2xkAgk = ^2\kxkgk- k=i k=i k=i Другими словами, воздействие оператора А простой структуры на вектор п х = У^ xkgk может быть описано следующим образом. k=i В n-мерном пространстве R существует п линейно независимых "направлений" , вдоль которых оператор простой структуры А осуществляет "растяжение" с коэффициентами Ai, A2,..., Ап. Произвольный вектор х может быть разложен на компоненты, идущие вдоль этих собственных направлений. Эти компоненты подвергаются соответствующим "растяжениям", после чего они в сумме дают вектор Ах. Нетрудно видеть, что оператору А в "собственном" базисе gi,g2, .,gn соответствует диагональная матрица _ А=||АЛ*||?. Если мы через А обозначим матрицу, отвечающую оператору А в произвольном базисе ei,e2, ...,еп, то A = T\\\i5ik\ftT-\ (64) Матрицу, подобную диагональной, будем называть матрицей простой структуры. Таким образом, оператору простой структуры в любом базисе отвечает матрица простой структуры и наоборот.
§8. Линейные операторы простой структуры 83 Матрица Т в равенстве (64) осуществляет переход от базиса ei,e2, ...,еп к базису gi,g2,---,gn- В k-ы столбце матрицы Г стоят координаты (в базисе еь в2,...,еп) собственного вектора g^, соответствующего характеристическому числу Xk матрицы А (к = 1,2, ...,п). Матрица Т называется фундаментальной матрицей для матрицы А. Равенство (64) перепишем так: A = TLT~1 (L = {Ai,A2,...,An}). (64') Переходя к р-м ассоциированным матрицам (1 ^ р ^ п), получим (см. гл. I, § 4) ар = Тр£рТ-1; (65) £р — диагональная матрица iV-ro порядка (N = С£), у которой на главной диагонали стоят всевозможные произведения по р из Ai, Аг,..., Ап. Из сопоставления (65) с (64') получается Теорема 3. Если матрица А = Ца^Ц^ имеет простую структуру, то при любом р ^ п ассоциированная матрица %1Р также имеет простую структуру; при этом характеристическими числами матрицы %1Р являются всевозможные произведения, А^А^ ... А^р (1 ^ %\ < г^ < ... < гр ^ п) из характеристических чисел Ai, А2,..., Ап матрицы А, а фундаментальной матрицей матрицы %1Р является ассоциированная Тр для фундаментальной матрицы Т матрицы А. Следствие. Если характеристическому числу Xk матрицы простой структуры А = \\aikWi отвечает собственной вектор с координатами tik,t2k,---->tnk (к = 1,2, ...,п) и Т = \\tik\\i, mo характеристическому числу X^Xk2 ...А^р (1 ^ ^ к\ < къ < ... < кр ^ п) матрицы %р отвечает собственный вектор с координатами Т(И:::%) а <и <*»<•••<*< »>• m Произвольную матрицу А = ||а^||у можно представить в виде предела последовательности матриц Ат (га -»• оо), каждая из которых не имеет кратных характеристических чисел и потому имеет простую структуру. Характеристические числа Ai ,Аз , ...,Ап матрицы Ат в пределе при га -»• оо переходят в характеристические числа Ai, A2,..., Ап матрицы А, т. е. lim AJ;m)=A* (fc = l,2,...,n). m—>-oo Отсюда Ш^Х^Х^... Ajj0 = AfclAfe... Xkp (Ю1 < fo < ... < kp ^ n). Так как, кроме того, lim $l(m)v = 2L, то из теоремы 3 вытекает m->-oo v ,И Теорема 4 (Кронекера). Если Ai, A2,..., Ап — полная система характеристических чисел произвольной матрицы А, то полная система характеристических чисел ассоциированной матрицы %1Р состоит из всевозможных произведений по р из чисел Ai, A2,..., An (p = 1,2, ...,п). В этом параграфе мы исследовали операторы и матрицы простой структуры. Изучение структуры операторов и матриц общего типа будет проведено в гл. VI и гл. VII.
ГЛАВА IV ХАРАКТЕРИСТИЧЕСКИЙ И МИНИМАЛЬНЫЙ МНОГОЧЛЕНЫ МАТРИЦЫ С каждой квадратной матрицей связаны два многочлена: характеристический и минимальный. Эти многочлены играют большую роль в различных вопросах теории матриц. Так, например, понятие о функции матрицы, которое мы введем в следующей главе, будет целиком основываться на понятии о минимальном многочлене матрицы. В этой главе рассматриваются свойства характеристического и минимального многочлена. Этому исследованию предпосылаются основные сведения о многочленах с матричными коэффициентами и о действиях над ними. § 1. Сложение и умножение матричных многочленов Рассмотрим квадратную многочленную матрицу А(Х), т. е. квадратную матрицу, элементами которой являются многочлены относительно Л (с коэффициентами из данного числового поля К): А(\) = ||а*(А)||? = \\a%hm+a$\m-1+... + a%)\\?. (1) Матрицу А(Х) можно представить в виде многочлена с матричными коэффициентами, расположенного по степеням Л: А(Х) = А0Хт + АхХт~1 + ... + Ат, (2) где ^ = 1^11? (j = 0,l,...,m). (3) Число т называется степенью многочлена, если А$ ф 0. Число п называется порядком многочлена. Многочлен (1) будем называть регулярным, если \Ао\ ф 0. Многочлен с матричными коэффициентами мы будем иногда называть матричным многочленом. В отличие от матричного многочлена обычный многочлен со скалярными коэффициентами будем называть скалярным многочленом. Рассмотрим основные действия над матричными многочленами. Пусть даны два матричных многочлена одного и того же порядка А(Х) и В(Х). Обозначим через т наибольшую из степеней этих многочленов. Эти многочлены можно записать в виде А(А) = А0Хт + АгХ171-1 + ... + Ат, В(Х) = В0Хт + Б1Лт"1 + ... + Вт. Тогда А(Х) ± В(Х) = (А0 ± В0)Хт + (Ах ± Вх)Хт~х + ... + Ат ± Вт, т. е. сумма (разность) двух матричных многочленов одного и того же порядка может быть представлена в виде многочлена, степень которого не превосходит наибольшей из степеней данных многочленов.
§1. Сложение и умножение матричных многочленов 85 Пусть даны два матричных многочлена ^4(А) и В{Х) степеней тир одного и того же порядка п: А(\) = А0\т + А1\т-1 + ... + Агп (4>#0), В(\)=В0\р + В1\*-1 + ... + Вр (В0фО). Тогда А(\)В(Х) = А0В0Хт+р + (АоВг + АхВ0)Хт+р~1 + ... + АтВр. (4) Если бы мы перемножили В(Х) на А(\) (т. е. изменили бы порядок сомножителей), то мы получили бы, вообще говоря, другой многочлен. Умножение матричных многочленов обладает еще одним специфическим свойством. В отличие от произведения скалярных многочленов произведение матричных многочленов (4) может иметь степень, меньшую га+р, т. е. меньшую суммы степеней сомножителей. Действительно, в (4) произведение матриц AqBq может равняться нулю при Aq ф 0 и Во ф 0. Однако если хотя бы одна из матриц Ао и Во невырожденная, то из Aq ф 0 и Во ф 0 следует AqBq ф 0. Таким образом, произведение двух матричных многочленов равно многочлену, степень которого меньше или равна сумме степеней сомножителей. Если хотя бы один из двух сомножителей — регулярный многочлен, то в этом случае степень произведения всегда равна сумме степеней сомножителей. Матричный многочлен n-го порядка А{\) можно записать двояко: А(Х) = А0Хт + ЛхА™"1 + ... + Ат (5) А(Х) = ХтА0 + Хт~1А1 + ... + Ат. (5') Обе записи при скалярном А дают один и тот же результат. Однако если мы пожелаем вместо скалярного аргумента А подставить квадратную матрицу п-го порядка Л, то результаты подстановок в (5) и (5') будут, вообще говоря, различны, так как степени матрицы Л могут не быть перестановочными с матричными коэффициентами Ao,Ai,...,Am. Положим А(А) = А0Ат + Ах Л™"1 + ... + Ат (6) А(А) = АтА0 + Л™-1^ + ... + Ат (&) и будем называть А(А) правым, а А(А) левым значением матричного многочлена А(\) при подстановке матрицы Л вместо А1). Рассмотрим снова два матричных многочлена га V А(Х) = £ Am-iX, В{\) = J2 BP-k\k г=0 k=0 и их произведения га р р(Л) = ЕЕл™-*Л^р-*Л* ^т—г^ 1Jp—k/ г=0 к=0 т-\-р = Y,J2Am-iBi>-kXi+k = Y, ( Е Am-iBp-u))? (Г) i=0 k=0 j=0 i+k=j 1) В "правом" значении А(Х) степени матрицы Л стоят справа от коэффициентов, а в "левом" — слева.
86 Гл. IV. Характеристический и минимальный многочлены матрицы т р т р т-\-р Р(А) = Е £ XAm-i\kBp-k = Y, £ \i+kAm-iBp_k = £ A' E Am-iBP-k- i=0 k=0 i=0 k=0 j=0 i+k=j (7") Преобразования в тождестве (7') сохраняют свою силу при замене Л матрицей п-го порядка Л, если только матрица Л перестановочна со всеми матричными коэффициентами Вр-ь2). Аналогично в тождестве (7") можно заменить скаляр Л матрицей Л, если матрица Л перестановочна со всеми коэффициентами Am-i. В первом случае Р(Л) = А(А)В(А), (8') во втором л л л Р(А)=А(А)В(А). (8") Таким образом, правое (левое) значение произведения двух матричных многочленов равно произведению правых (левых) значений сомножителей, если матрица-аргумент А перестановочна со всеми коэффициентами правого (левого) сомножителя. Если 5(A) — сумма двух матричных многочленов п-го порядка ^4(А) и В(Х), то при замене скаляра Л любой матрицей п-го порядка Л всегда справедливы тождества 5(A) = А(А) + Б(Л), 5(A) = А(А) + В (А). (9) § 2. Правое и левое деления матричных многочленов. Обобщенная теорема Безу Пусть даны два матричных многочлена А(Х) и В(Х) одного и того же порядка п, причем В(Х) — регулярный многочлен: А(Х) = А0Хт + А1Хт-х + ... + Ат (Ло#0), В(Х) = В0Хр + В1Хр-1 + ... + Вр (|Д>|#0). Мы будем говорить, что матричные многочлены Q(X) и R(X) являются соответственно правым частным и правым остатком при делении А(Х) на В(Х), если А(А) = Q(X)B(X) + Д(А) (10) и степень R(X) меньше степени В(Х). Совершенно аналогично будем называть многочлены Q(X) и R(X) соответственно левым частным и левым остатком при делении А(Х) на В (А), если А(Х) = B(X)Q(X) + Д(А) (11) и степень R(X) меньше степени В(Х). Обратим внимание читателя на то, что при "правом" делении (т. е. при нахождении правого частного и правого остатка) в (5) на "делитель" В(Х) частное Q(X) умножается с п р а в а, а при "лево м" делении в (6) на делитель В(Х) частное Q(X) умножается слева. В общем случае многочлены Q(X) и R(X) не совпадают с Q(X) и R(X). 2) В этом случае и любая степень матрицы Л перестановочна со всеми коэффициентами Bp-k.
§ 2. Правое и левое деления матричных многочленов 87 Покажем, что как правое, так и левое деление матричных многочленов одного и того же порядка всегда выполнимо и однозначно, если делитель — регулярный многочлен. Рассмотрим правое деление А(Х) на В(Х). Если га <р, можно положить 0(A) = = О, R(X) = А(Х). В случае га ^ р для нахождения частного О(А) и остатка R(X) применим обычную схему деления многочлена на многочлен. "Разделим" старший член делимого АоХт на старший член делителя В0ХР. Получим старший член искомого частного AqBq1 Хт~р. Умножим этот член справа на делитель В(Х) и полученное произведение вычтем из А(Х). Найдем "первый остаток" А^(Х): А(Х) = А0В^Хт-рВ{Х) + А^\Х). (12) Степень т^ многочлена А^(Х) меньше га: аЫ(\) = 41}Ат(1) +... (4Х) ф °> т(1) < т)- (13) Если га^1) ^ р, то, повторяя этот процесс, получаем: AW(X) = A^B^X^-vBiX) + Л(2)(Л), Л(2)(А) = 42)А™(2)+... (га(2)<га(1)) и т. д. Так как степени многочленов А(Х),А^(Х),А^(Х),... убывают, то на некотором этапе мы придем к остатку R(X), степень которого меньше р. Тогда из (12)—(14) будет следовать A(\) = Q(\)B(\)+R(\), ГД6 0(A) = АъВ^Х™-* + 41)^1Ат(1)"р + ... Докажем теперь однозначность правого деления. Пусть одновременно А(А) = 0(А)В(А) + Д(А), (15) Л(А)=0*(А)Б(А)+Я*(А), (15') где степени многочленов R(X) и R*(X) меньше степени В (А), т. е. меньше р. Вычитая почленно (15') из (15), получим [0(A) - Q*(A)]B(A) = Л*(А) - Л(А). (16) Если бы (5(A) — О*(А) ф 0, то, поскольку \В§\ ф О, степень левой части равенства (16) равнялась бы сумме степеней В(Х) и 0(A) — Q*(X) и потому была бы ^ р. Это невозможно, так как степень многочлена, стоящего в правой части равенства (16), меньше р. Таким образом, 0(A) — О* (А) =0, а тогда из (16) R*(X — R(X) = Q(X)=Q*(X), Д(А)=Д*(А). Совершенно аналогично устанавливаются существование и единственность левого частного и левого остатка3). 3) Заметим, что возможность и однозначность левого деления А(Х) на В(Х) следует из возможности и однозначности правого деления транспонированных матриц А'(Х) и В' (А). (Из регулярности В (А) вытекает регулярность В' (Л).) Действительно, из A'(A) = Qi(A)B'(A) + ft(A) следует (см. гл. I, с. 26) A(\) = B(\)Q[(\)+R!1(\). (11') В силу этих же соображений левое деление А(Х) на В(Х) однозначно, так как из неоднозначности левого деления А(Х) на В(Х) следовала бы неоднозначность правого деления А'(А) на В'(Х). Сопоставление (11) и (11') дает 0(A) = 01(A), R(X) = R[(X).
88 Гл. IV. Характеристический и минимальный многочлены матрицы А{\) = Пример. А3 + А 2Л3 + Л2 А3 - 2А2 + 1 ЗА3 + А 1 2 На -1 3 Л 3 + 1 ° II "2 1 II 0 || А2 + II г ° II ° Х А + II 0 0 1 || 1 0 | Во -Л* В(Х) = 2А2 + 3 -А2 + 1 -А2 - 1 А2 + 2 \В0\ = 1, Bq = j А0В^В(Х) = Л<!)(А) = 1 А3 + А 2А3+А2 1 | -А3-2А2 + 1 ЗА3 + А | II 2 _1 II ~ _1 X А2 + 2 » ^о^о" — А2+4 2А2 + 13 -А2 + 1 ЗА2+ 12 3 1 || -1 2 || 3 5 || 2 5 || J 5 ' II А3+4А 2А3 + 13А || -А3 + А ЗА3 + 12А Л(1)(А) = 1 ° х 11а2н -2 0 Л Н ло по — \ А^В^В(Х) = Я(А) = 4(1 >(А)-, 1 1 2 \ -2 -2 4(!)R- ^( 0 1 II -2 0 || II II 2^2 ' -А2 А) = II _3 ~13 1 II _1 ~П 1 || 1 1 ' || 1 2 | = + 3 -А2 + 1 - 1 А2 + 2 = -ЗА А2 - 13А | -2А2-А + 1 -ПА | А + II ° ° II Х ° 1 2 || -2 -2 ||' = J 1 А2 + 5 || -2А2 - 4 -б ||' -ЗА А2 - 13А -2А2-А + 1 -ПА -2А2 - 4 А2+ 5 Q(\) = A0Bo1\ + 4>Bo1 = 3 5 2 5 А + 1 -2 = 2 || "2 = ЗА-1 -13А-5 | -А+ 5 -ПА+ 6 | ЗА + 1 5А + 2 || 2А-2 5А-2 Г Предлагаем читателю в качестве упражнения непосредственно проверить, что А(\) = Q(\)B(X) + R(X). Рассмотрим произвольный матричный многочлен п-го порядка F(X)=F0\m + F1Xm-1+... + Fm (Fo#0). (17) Разделим его на бином ХЕ — А справа и слева: F(A) = Q(X)(ХЕ -A) + R, F(X) = (ХЕ - A)Q(X) + R. (18)
§3. Характеристический многочлен матрицы. Присоединенная матрица 89 В данном случае правый остаток R и левый остаток R не будут зависеть от Л. Для определения правого значения F(A) и левого F(A) можно соответственно в тождествах (18) заменить скаляр Л на матрицу А, поскольку матрица А перестановочна с матричными коэффициентами бинома ХЕ — А (см. § 1): F(A) = Q(A)(A -A) + R = R, F(A) = (A- A)Q(A) + R = R. (19) Нами доказана Теорема 1 (обобщенная теорема Везу). При правом (левом) делении матричного многочлена F(X) на бином ХЕ — А остаток от деления равен F(A) (соответственно F(A)). Из доказанной теоремы следует, что многочлен F(X) делится без остатка справа (слева) на бином ХЕ — А тогда и только тогда, когда F(A) = 0 (соответственно F(A) = 0). Пример. Пусть А = ||а^||у и /(А) — многочлен относительно Л. Тогда F(X) = f(\)E - f(A) делится (слева и справа) без остатка на ХЕ — А. Это следует непосредственно из обобщенной теоремы Везу, поскольку в данном случае F(A) = F(A) = 0. § 3. Характеристический многочлен матрицы. Присоединенная матрица 1. Рассмотрим матрицу А = ||a^||f. Характеристической матрицей для матрицы А называется матрица Ai£ — А. Определитель характеристической матрицы A(\) = \\E-A\ = \\6ik-aik\\? представляет собой скалярный многочлен относительно Л и называется характеристическим многочленом матрицы А (см. гл. III, § 7)4). Матрицу В(Х) = \\bik(X)\\i, где 6^(Л) — алгебраическое дополнение элемента XSki — а>ы в определителе А (Л), мы будем называть присоединенной матрицей для матрицы А. Так, например, для матрицы А = Gil «12 «13 «21 «22 «23 «31 «32 «33 будем иметь ХЕ-А = X - an -a12 -«13 — (221 Л — U22 — «23 —аз1 —«32 X — азз А(Л) = \ХЕ - А\ = Л3 - (an + «22 + «зз)А2 + ..., А2 — («22 + «33)А + «22«33 — «23«32 * * В(Х) = || «2iA + a23«3i — «21«зз * * «3lA-h«21«32 — «22«31 * * 4) Этот многочлен отличается множителем (—1)п от многочлена Д(А), введенного в гл. III, § 7.
90 Гл. IV. Характеристический и минимальный многочлены матрицы Из приведенных определений следуют тождества относительно Л (ХЕ - А)В(Х) = Д(А)Я, (20) В(Х)(ХЕ-А) = А(Х)Е. (20') Правые части этих равенств мы можем рассматривать как многочлены с матричными коэффициентами (каждый из этих коэффициентов равен произведению скаляра на единичную матрицу Е). Многочленную матрицу В{Х) можно также представить в виде многочлена, расположенного по степеням Л. Равенства (20) и (20') показывают, что А(Х)Е делится слева и справа на ХЕ — А без остатка. Согласно обобщенной теореме Безу, это возможно лишь тогда, когда остаток А(А)Е = А(А) равен нулю. Нами доказана Теорема 2 (Гамильтона-Кэли). Всякая квадратная матрица А удовлетворяет своему характеристическому уравнению, т. е. А(А) = 0. (21) Пример. А = 2 1 -1 3 А(А) = А2 - ЪА + 7Е = Д(А) = 3 5 -5 8 А-2 1 -1 А-3 = А2 - 5А + 7, 2 1 -1 3 + 7 1 0 0 1 о о о о = 0. 2. Обозначим через Ai, A2,..., Ап все характеристические числа матрицы А, т. е. все корни характеристического многочлена Д(А) (каждое из чисел А; повторяется в этом ряду столько раз, какова его кратность как корня многочлена Д(А)). Тогда Д(А) = \ХЕ -А\ = (Х- Ai)(A - А2)...(А - Ап). (22) Пусть дан произвольный скалярный многочлен #(//). Найдем характеристические числа матрицы д(А). Для этого разложим д(/л) на линейные множители: #(/i) = а0(/х - /ii)(/x - /i2) - (м - /i/). Подставим в обе части этого тождества вместо ц матрицу А: д(А) = а0(А - /цЕ)(А - ц2Е)... (А - щЕ). (23) (24) Переходя к определителям в обеих частях равенства (24) и используя равенства (22) и (23), получим \д(А)\ = <%\А - нЕ\\А - fi2E\... \А - щЕ\ = (-1)"<<ДЫДЫ ... Д(№) = = (-1)"Ч П П^ - Л*) = ЖА1ЖА2) -Р(Ап). г=\ k=l Заменив в равенстве \д(А)\=д(\1)д(\2)...д(\п) (25) многочлен д(ц) на А — </(//), где А — некоторый параметр, найдем \ХЕ - д(А)\ = [X - р(Ах)][А - д(\2)]... [А - д(Хп)}. (26)
§3. Характеристический многочлен матрицы. Присоединенная матрица 91 Из этого равенства вытекает следующая Теорема 3. Если Ai,A2, ...,ЛП — все характеристические числа (с учетом кратностей) матрицы Л, a g(/j,) — некоторый скалярный многочлен, то g(Ai), #(А2), ...,#(АП) — все характеристические числа матрицы д(А). В частности, если матрица А имеет характеристические числа Ai, А2,..., Ап, то матрица Ак имеет характеристические числа А*, А*,..., А* (к = 0,1,2,3,...). 3. Укажем эффективную формулу, выражающую присоединенную матрицу В(Х) через характеристический многочлен А (А). Пусть Д(Л) = Л" - рхЛ"-1 - Р2А"-2 - ... - Рп. (27) Разность А(А) — А(/х) делится без остатка на А — /л. Поэтому S(\, р) = А(Л] ~ ДЫ = Л"-1 + 0* - Pl)\n~2 + (м2 - Plfi - Р2)Л"-3 + ... (28) л — /л есть многочлен относительно Аид. Тождество A(A)-A(/x) = J(A,/x)(A-/i) (29) не нарушится, если в него вместо А и \х подставить перестановочные между собой матрицы ХЕ и А. Тогда, поскольку согласно теореме Гамильтона-Кэ- ли А(А) = 0, А(Х)Е = 6(\Е, А)(ХЕ - А). (30) Сопоставляя между собой равенства (20') и (30), из однозначности частного получаем искомую формулу В(\)=6(\Е,А). (31) Отсюда в силу (28) В(\) = Xй-1 + £iAn"2 + B2Xn-s + ... + Вп-и (32) где В1=А-р1Е, В2=А2-р1А-р2Е, ... и вообще Вк=Ак-р1Ак-1-Р2Ак-2-...-ркЕ (*=1,2,...,п-1). (33) Матрицы i?i,i?2, ...,i?n-i можно вычислять последовательно, исходя из рекуррентных соотношений Вк=АВк.1-ркЕ (fc = l,2,...,n-l); В0 = Е. (34) При этом5) АВп-1-рпЕ = 0. (35) Соотношения (34) и (35) непосредственно получаются из тождества (20), если в обеих частях этого тождества приравнять между собой коэффициенты при одинаковых степенях А. Если А — невырожденная матрица, то рп = (-1)»-1И#о, и из (35) следует А-1 = —Вп-1. (36) Рп 5) Из (34) следуют равенства (33). Если в (35) подставить выражение для Вп-\ из (33), то получим А (А) = 0. Этот вывод теоремы Гамильтона-Кэли не опирается явным образом на обобщенную теорему Безу, но неявно содержит в себе эту теорему.
92 Гл. IV. Характеристический и минимальный многочлены матрицы или Пусть Ло — характеристическое число матрицы А, т. е. А(Ло) = 0. Подставив в (20) вместо Л значение Ло, найдем (ХоЕ-А)В(Хо) = 0. (37) Допустим, что матрица В(Хо) Ф 0, и обозначим через Ь любой ненулевой столбец этой матрицы. Тогда из (37) получаем (Х0Е - А)Ь = 0, А Ь = Х0Ь. (38) Следовательно, любой ненулевой столбец матрицы В(Хо) определяет собственный вектор, соответствующий характеристическому числу Ло6). Таким образом, если коэффициенты характеристического многочлена известны, то присоединенная матрица может быть найдена по формуле (31). Если данная матрица А невырожденная, то по формуле (36) находится обратная матрица А-1. Если Ло — характеристическое число матрицы А, то ненулевые столбцы матрицы В(Хо) являются собственными векторами матрицы А для X = Ло- Пример. 2-11 А =|| 0 11 -1 1 1 Д(Л) = \ХЕ -А\ = Л-2 1 -1 0 Л-1 -1 1 -1 Л-1 = Л3 - 4Л2 + 5Л - 2, Д(А,М) = А{Х1 ~ АЫ = Л2 + Л(/х - 4) + /i2 - 4/х + 5, Л — fJL В(Х) = ё(ХЕ, А) = Х2Е + Х(А - 4Е) + А2 - 4А + 5Е. В\ В2 Но В1=А-4Е = В(Х) = \А\ = 2, -2 -1 1 0 -3 1 -1 1 -3 Л2 - 2Л -1 -А + 1 i-i - В2 = АВХ + ЪЕ = -Л+ 2 Л-2 Л2 - ЗЛ + 3 Л - 2 Л-1 Л2 - ЗЛ + 2 0 1 -1 В2 = || -1/2 3/2 -1 1/2 -1/2 1 0 -1 1 2 3 -1 -2 -2 2 Далее, Д(А) = (А-1)2(А-2). Первый столбец матрицы В(+1) дает собственный вектор (1,1,0), соответствующий характеристическому числу Л = 1. Первый столбец матрицы В(+2) дает собственный вектор (0,1,1), соответствующий характеристическому числу Л = 2. 6) См. гл. III, § 7. Если характеристическому числу Ло соответствует do линейно независимых собственных векторов (п — do — ранг матрицы ХоЕ — А), то ранг матрицы .В(Ло) не превосходит do. В частности, если числу Ло соответствует только одно собственное направление, то в матрице В(Хо) элементы любых двух столбцов пропорциональны.
§4- Метод Д.К. Фаддеева 93 § 4. Метод Д.К. Фаддеева одновременного вычисления коэффициентов характеристического многочлена и присоединенной матрицы Д.К. Фаддеев7) предложил метод одновременного определения скалярных коэффициентов РьРг, ...,рп характеристического многочлена Д(Л) = Л" - ЛА""1 - Р2\"-2 - ... - Рп (39) матричных коэффициентов Bi,B2, ...,-Bn-i присоединенной матрицы В{\). Для изложения метода Д.К. Фаддеева8) введем понятие о следе матрицы. Под следом матрицы А = Ца^Ц" (обозначение SpA) понимают сумму диагональных элементов этой матрицы SpA = £a«. (40) г=1 Нетрудно видеть, что п SpA = pi = £>, (41) г=1 если Ai,A2,...,An — характеристические числа матрицы А, т. е. Д(А) = (А - Ai)(A - А2)... (А - An). (42) Так как, согласно теореме 3, степень матрицы Ак имеет своими характеристическими числами степени А*, А*,..., Ап (к = 0,1,2,...), то п SpAk=sk=J2Xi (* = 0,1,2,...). (43) 1=1 Суммы Sk (к = 1,2,...,п) степеней корней многочлена (39) связаны с коэффициентами этого уравнения формулами Ньютона9) крк = sk -piSk-i ~ ... -Pk-isi (к = l,2,...,n). (44) Если вычислить следы si,S2? —,Sn матриц А,Л2,...,ЛП, то затем можно из уравнений (44) последовательно определить коэффициенты pi,P2i—,Pn- В этом состоит метод Леверрье определения коэффициентов характеристического многочлена по следам степеней матрицы. Д.К. Фаддеев предложил вместо следов степеней А,А2,...,Ап вычислить последовательно следы некоторых других матриц Ai, А2, ...,Дг, и с их помощью определить pi,P2,...,pn и Bi,B2,...,Bn следующими формулами: АХ=А, Pi=SpAu В1=А1-р1Е, А2 = АВи р2 = g Sp A2, В2=А2-р2Е, An-i = ABn-2l Pn-i = т^рДг-ъ Bn-i = An-i —pn-iE, 71—1 Ап = ABn-i, рп = - Sp An, Вп = Ап- рпЕ = 0. (45) 7) См. [32, с. 160]. 8) С другим эффективным методом вычисления коэффициентов характеристического многочлена, с методом А. Н. Крылова, мы познакомим читателя в гл. VII, § 8. 9) См., например, [20, с. 224].
94 Гл. IV. Характеристический и минимальный многочлены матрицы Последнее равенство Вп = Ап — рпЕ = О может быть использовано для контроля вычислений. Для того чтобы убедиться, что числа pi,p2, ••♦,Pn и матрицы Bi,B2,...,Bn-i, последовательно определяемые по формулам (45), являются коэффициентами А(Л) и В(Х), заметим, что из (45) вытекают следующие формулы для Ak иВк (* = 1,2,...,п): Ак Pi A к-1 Pk-iA, Вк =Ак-Р1А к-1 Pk-iA-pkE. (46) Приравняем между собой следы левой и правой частей первой из этих формул; получим крк = Sk -piSk-i - ... -Pk-iSi- Но эти формулы совпадают с формулами Ньютона (44), по которым последовательно определяются коэффициенты характеристического многочлена А (Л). Следовательно, числа pi,p2, ~'<>Pn, определяемые по формулам (45), и являются коэффициентами А (Л). Но тогда вторые формулы (46) совпадают с формулами (33), по которым определяются матричные коэффициенты Bi,B2, ...,-Bn-i присоединенной матрицы В(Х). Следовательно, формулы (45) определяют и коэффициенты i?i,i?2,...,#n-i матричного многочлена В(Х). Пример10). А = 2-112 О -1 1 2 1 1 1 2 А2 = АВХ = 1 1 1 4 -з -1 2 Pl = Sp А = 4, Вх = А - АЕ = -2 -1 0 1 1 -3 1 1 1 -3 1 0 1 -4 4 0-3 -2 -2 1 0 -2 -5 -3 -3 -1 3 -5 -1 -5 -4 р2 = -SpA2 = -2, В2 = А2 + 2Е = А3 = АВ2 = -5 1 -1 0 -5 2 0 -7 4 -1 0 -2 -3 -2 -7 -2 -4 4 -7 -9 -1 -1 2 -3 -3 о -2 0 -1 -3 1 -5 5 Рг ^SpA3 -5, Аа = АВ* = -2 0 0 0 0 -2 0 0 0 0 -2 0 0 0 0 -2 0 1 1 0 2 5 -7 4 0 -2 2 -2 -2 4 4 -2 Вг = Аг + ЪЕ = р4 = -2, А(Л) = Л4 - 4Л3 + 2Л2 + 5Л + 2, 10) Для контроля за вычислениями мы под каждой из матриц Ах, А?., Аз подписываем ее суммарную строку. Произведения суммарной строки первого сомножителя на столбцы второго должны дать элементы суммарной строки произведения.
§ 5. Минимальный многочлен матрицы 95 Ра 0-101 -1/2 -5/2 1 -2 1/2 7/2 -1 -2 0-211 Замечание. Если мы хотим определить РъР2,Рз,Р4 и только первые столбцы в i?i,i?2,i?3, то достаточно вычислить в А2 элементы первого столбца и только диагональные элементы остальных столбцов, в Аз — только элементы первого столбца, в А± — только два первых элемента первого столбца. § 5. Минимальный многочлен матрицы Определение 1. Скалярный многочлен /(А) называется аннулирующим многочленом квадратной матрицы А, если № = 0- Аннулирующий многочлен ф(Х) наименьшей степени со старшим коэффициентом, равным единице, называется минимальным многочленом матрицы А. Согласно теореме Гамильтона-Кэли, характеристический многочлен Д(А) матрицы А является аннулирующим для этой матрицы. Однако, как будет показано ниже, в общем случае он не является минимальным. Разделим произвольный аннулирующий многочлен /(А) на минимальный: /(A)=tf(A)«(A)+r(A), где степень г(А) меньше степени ф(Х). Отсюда имеем f(A)=rl>(A)q(A)+r(A). Поскольку /(^4) = 0 и ф(А) = 0, то, значит, и г{А) = 0. Но степень г(А) меньше степени минимального многочлена ф(\). Поэтому г(А) = О11). Таким образом, произвольный аннулирующий многочлен матрицы всегда делится без остатка на ее минимальный многочлен. Пусть два многочлена ^(А) и ф1(Х) являются минимальными для одной и той же матрицы. Тогда каждый из них делится на другой многочлен без остатка, т. е. эти многочлены отличаются постоянным множителем. Этот постоянный множитель равен единице, поскольку равны единице старшие коэффициенты в ф(Х) и /ф1(Х). Мы доказали единственность минимального многочлена для данной матрицы А. Выведем формулу, связывающую минимальный многочлен с характеристическим. Обозначим через Dn-i(X) наибольший общий делитель всех миноров (п — 1)- го порядка характеристической матрицы ХЕ — Л, т. е. наибольший общий делитель всех элементов присоединенной матрицы В(Х) = \\bik(X)\\i (см. предыдущий параграф); при этом старший коэффициент в Dn-i(X) берем равным единице. Тогда В(А) =£>„_! (А)С(А), (47) где С(А) — некоторая многочленная матрица, "приведенная" присоединенная матрица для ХЕ — А. Из (20) и (47) находим А(Х)Е = (ХЕ - A)C(X)Dn.1(X). (48) 11) В противном случае существовал бы аннулирующий многочлен, степень которого была бы меньше степени минимального многочлена.
96 Гл. IV. Характеристический и минимальный многочлены матрицы Отсюда следует, что А(Л) делится без остатка на Dn-i(X)12): т£%=*т- (49) где ф(Х) — некоторый многочлен. Обе части тождества (48) можно сократить наЯп_1(А)13): ф(Х)Е = (ХЕ-А)С(Х). (50) Поскольку ф{Х)Е делится без остатка слева на ХЕ — А, то в силу обобщенной теоремы Безу ф(А) = 0. Таким образом, многочлен ф(Х), определенный формулой (49), является аннулирующим многочленом для матрицы А. Докажем, что он является минимальным многочленом. Обозначим минимальный многочлен через ф*(Х). Тогда ^(А) делится без остатка на ф*(Х): ф(Х)=ф*(Х)Х(Х). (51) Поскольку ф*(А) = 0, то в силу обобщенной теоремы Безу матричный многочлен ф*(Х)Е делится слева без остатка на ХЕ — А: ф*(Х)Е = (ХЕ-А)С*(Х). (52) Из (51) и (52) следует ф(Х)Е = (\Е-А)С*(\)х(\). (53) Тождества (50) и (53) показывают, что как С(А), так и С*(А)х(А) являются левыми частными при делении ф{Х)Е на ХЕ — А. В силу однозначности деления С(А) = С*(А)Х(А). Отсюда следует, что х(А) является общим делителем всех элементов многочленной матрицы С{Х). Но, с другой стороны, наибольший общий делитель всех элементов приведенной присоединенной матрицы С(Х) равен единице, поскольку эта матрица была получена из В(Х) путем деления на Dn-i(X). Поэтому х(А) = const. Так как старшие коэффициенты в ф(Х) и ф*(Х) равны единице, то в (51) х(А) = 1, т. е. ф(Х) = ф*(Х), что и требовалось доказать. Мы установили следующую формулу для минимального многочлена: ^Л) = ОТ (54) Для приведенной присоединенной матрицы (7(A) имеем формулу, аналогичную формуле (31) (на с. 91): С(Х) =Щ\Е,А), (55) где многочлен Ф(А,//) определяется равенством14) Ф(А,М) = Щ^Ш. (56) Л — \х 12) В этом можно и непосредственно убедиться, разлагая характеристический определитель А (А) по элементам какой-либо строки. 13) В данном случае наряду с (50) имеет место и тождество [см. 20')] ф(Х)Е = С(Х)(ХЕ-А), т. е. С(Х) является одновременно и левым, и правым частным от деления ф(Х)Е на ХЕ - А. 14) Формула (55) выводится совершенно так же, как и формула (31). В обе части тождества ф(Х) — ф(/л) = (А — //)Ф(А, /л) вместо А и /л подставляются матрицы ХЕ и А и полученное матричное равенство сопоставляется с (50).
§ 5. Минимальный многочлен матрицы 97 Кроме того, (ХЕ - А)С(Х) = ф(\)Е. (57) Переходя к определителям в обеих частях равенства (57), получаем Д(А)|С(А)|=№(А)]". (58) Таким образом, А(Л) делится без остатка на ф(Х), а некоторая степень ф(Х) делится без остатка на А (Л), т. е. совокупность всех различных между собой корней у многочлена А(Л) и ф(Х) одна и та же. Другими словами, корнями ф(Х) служат все различные между собой характеристические числа матрицы А. Если А(Л) = (А - Ax)ni(A - А2)П2... (А - А5)П2 (59) (Xi^Xj при г фу Пг>0, i,j = l,2...,«), то ф(Х) = (А - Ах)-1 (А - А2)™2... (А - Х$)т% (60) где 0<mk^nk (A; = 1,2,..., 5). (61) Отметим еще одно свойство матрицы С(Х). Пусть Ао — какое-либо характеристическое число матрицы А = ||а^||у. Тогда ф(Хо) = 0, и потому, согласно (57), (Х0Е - А)С(Хо) = 0. Заметим, что всегда С(Ао) Ф 0. Действительно, в противном случае все элементы приведенной присоединенной матрицы С(Х) делились бы без остатка на А — Ао, что невозможно. Обозначим через с любой ненулевой столбец матрицы С(Ао). Тогда из (62) (Х0Е - А)с = 0, Ас = А0с. (63) Другими словами, любой ненулевой столбец матрицы С(Ао) (а такой столбец всегда имеется) определяет собственный вектор для А = Ао- Пример. 3 -3 2 А= || -1 5-2 -13 0 т. е. А(А) А-3 1 1 3 -2 А-5 2 -3 А А3 - 8А2 + 20А - 16 = (А - 2)2(А - 4), д(А, fj) = A(^~f(A) = tf + MA - 8) + A2 - 8A + 20, ji — Л S(A) = A2 + (A + 8)A + (A2 - 8A + 20)E = 10 -18 12 -6 22 -12 || +(A-8) -6 18 -i 3 -1 -1 -3 5 3 2 1 -2 0 +(A2-8A + 20) 1 0 0 0 1 0 1 0 1 A2 - 5A + 6 -A+ 2 -A+ 2 -ЗА+ 6 A2 - ЗА + 2 2A-4 -2A + 4 ЗА - б А2 - 8A + 12 4 Ф.Р. Гантмахер
98 Гл. IV. Характеристический и минимальный многочлены матрицы Все элементы матрицы В{Х) делятся на ^(А) = А — 2. Сокращая этот множитель, получим С(Х) А-3 -3 2 -1 А-1 -2 -1 3 А-б Ф(Х) = $Щ = (Х-2)(Х-4). А-2 Подставим в С(Х) вместо А значение Ао = 2: С(2) = -1 -1 -1 3 2 1 -2 3 -4 Первый столбец дает нам собственный вектор (1,1,1) для Ао = 2. Второй столбец дает нам собственный вектор (—3,1,3) для того же характеристического числа Ао = 2. Третий столбец есть линейная комбинация первых двух. Точно так же, полагая А = 4, из первого столбца матрицы (7(4) найдем собственный вектор (1,-1,-1), отвечающий характеристическому числу Ао = 4. Обратим внимание читателя на то, что ф(Х) и С(Х) можно было бы определить иначе. Находим сначала ^(А); ^(А) может иметь своими корнями только числа 2 I 1 А — 5 I и 4. При А = 4 в А(А) минор второго порядка - = —А 4- 2 не обращается в нуль. Поэтому Г>2(4) / 0. При А = 2 столбцы матрицы А становятся пропорциональными. Поэтому все миноры второго порядка в А (А) при А = 2 равны нулю: Г>2(2) = 0. Так как вычисленный минор имеет первую степень, то ^(А) не может делиться на (А — 2)2. Следовательно, Отсюда 1>2(А) = А-2. ^(A) = f^ = (A-2)(A-4) = A2-6A + 8, ^(Л,м) = ^-уЛ)^м + А-6, jJL — Л С(Х) = ф{ХЕ, А)=А + (Х-6)Е = А-3 -1 -1 -3 2 А-1 -2 3 А-б
ГЛАВА V ФУНКЦИИ МАТРИЦЫ § 1. Определение функции матрицы Пусть даны квадратная матрица A— ||a^||f и функция /(А) скалярного аргумента А. Требуется определить, что следует понимать под /(^4), т. е. требуется распространить функцию /(А) и на матричные значения аргумента. Решение этой задачи нам известно для простейшего случая, когда /(А) = = 7oA*+7i^-1 + -- + 7J — многочлен относительно А. В этом случае f(A) = = jqA1 +7i^4/-1 + ••• + jiE. Исходя из этого частного случая постараемся определить f(A) в общем случае. Обозначим через ф(Х) = (А - Ах)™1 (А - Х2)т>... (А - А.)"»' (1) минимальный многочлен матрицы А1) (здесь Ai,A2,...,As — все различные ха- s рактеристические числа матрицы А). Степень этого многочлена т = У^ш^. к=\ Пусть два многочлена д{\) и h{\) таковы, что 9(A) = ЦА). (2) Тогда разность d(X) = д(Х) — /i(A), будучи аннулирующим многочленом матрицы А, делится на ^(А) без остатка, что запишем так: 0(A) = ft(A) (mod V(A)). (3) Отсюда в силу (1) d(A*)=0, d'(\k)=0, ..., rf(™fe-1)(A,)=0 (k = l,2,...,e), т. е. 9(\k) = h(Xk), g'(Xk) = h\Xk), .... 9imk-1\Xk) = h^-1H\k) (* = l,2,...,e). (4) Следующие т чисел, /(A*), /'(A*), »•, /(те*_1)(А*) (* = 1,2,...,«), (5) будем условно называть значениями функции /(А) на спектре матрицы А и совокупность этих значений символически будем обозначать через /(Л^). Если для функции /(А) существуют (т. е. имеют смысл) значения (5), то мы будем говорить, что функция /(А) определена на спектре матрицы А. Равенства (4) показывают, что многочлены д(Х) и h(X) имеют одни и те же значения на спектре матрицы А. В символической записи д(АА) = Л(АЛ). Рассуждения наши обратимы: из (4) вытекают (3) и, следовательно, (2). х) См. гл. IV, § 5.
100 Гл. V. Функции матрицы Таким образом, если задана матрица А, то значения многочлена д(Х) на спектре матрицы А вполне определяют матрицу д(А), т. е. все многочлены </(А), принимающие одни и те же значения на спектре матрицы А, имеют одно и то же матричное значение д(А). Мы потребуем, чтобы определение /(^4) в общем случае подчинялось такому же принципу: значения функции /(А) на спектре матрицы А должны полностью определять f(A), т. е. все функции /(Л), имеющие одни и те же значения на спектре матрицы А, должны иметь одно и то же матричное значение f(A)2). Но тогда, очевидно, для определения f(A) в общем случае достаточно подыскать такой многочлен </(А), который принимал бы те же значения на спектре матрицы А, что и /(Л)3), и положить f(A)=g(A). Таким образом, приходим к следующему определению. Определение 1. Если функция /(A) определена на спектре матрицы А, то №=д(А), где (/(А) — любой многочлен, принимающий на спектре матрицы А те же значения, что и /(А): /(АЛ) = д(Ал). Среди всех многочленов с комплексными коэффициентами, принимающих те же значения на спектре, что и /(А), имеется один и только один многочлен г (А) степени < га4). Этот многочлен г (А) однозначно определяется интерполяционными условиями r(A*) = /(A*), r'(Xk) = /'(А*), ..., г(",»-1)(А») = /(га*-1)(А*) (* = 1,2,...,*). (6) Многочлен г (А) называют интерполяционным многочленом Лагранжа-Силъ- вестра для функции /(А) на спектре матрицы А. Определение 1 можно еще сформулировать так. Определение 1'. Пусть /(А) — функция, определенная на спектре матрицы А, а г(А) — соответствующий интерполяционный многочлен Лагранжа- Сильвестра. Тогда f(A)=r(A). Замечание. Если минимальный многочлен ^(А) матрицы А не имеет кратных корней5) [в равенстве (1) пц = rri2 = ... = ms = 1; s = га], то для того, чтобы f(A) имело смысл, достаточно, чтобы функция /(А) была определена в характеристических точках Ai, A2,..., Am. Если же ф(Х) имеет кратные корни, то в некоторых характеристических точках должны быть определены и производные от /(А) до известного порядка [см. (6)]. 2) Кроме того, предполагается, что общее определение для f(A) в частном случае, когда /(А) — многочлен, должно давать тот же результат, что и непосредственная подстановка в многочлен вместо А матрицы А. 3) В § 2 будет показано, что такой интерполяционный многочлен всегда существует, и будет дан алгоритм для вычисления коэффициентов интерполяционного многочлена наименьшей степени. 4) Этот многочлен получается из любого другого многочлена, имеющего те же спектральные значения, что и остаток от деления на ф(Х). 5) В гл. VI будет выяснено, что в этом и только этом случае матрица А является матрицей простой структуры (см. гл. III, § 8).
§1. Определение функции матрицы 101 Пример 1. Рассмотрим матрицу6) 0 0 0 0 1 0 0 0 0 . 1 . 0 . 0 . . 0 .. 0 . 1 . 0 н = Для нее минимальным многочленом будет Лп. Поэтому значениями /(А) на спектре Н будут числа /(0), /'(0),..., /^п-1)(0), и многочлен г(Л) будет иметь вид (п-1)! Таким образом, /(Я) = f(0)E + Ш Я + ... + ^^ Я""1 = Пример 2. Рассмотрим матрицу /(0) /'(0) 1! 0 /(0) f(n-i) (0) (п-1)! /'(0) 1! /(0) Ао 0 0 0 1 Ао 0 0 0 . 1 0 . 0 . . 0 . 0 . 1 . Ао J = Заметим, что J = XqE + Н и, следовательно, J — XqE = Н. Минимальным многочленом для J, очевидно, будет (Л — Ао)п. Интерполяционный многочлен г (А) для функции /(Л) определится равенством г(А) = /(Ао) + 1-Ы (А - Ао) + ... + ^""ЛУ (А - Ло) Поэтому /(J) = r(J) = f(Xo)E + ^М я + ... + ^У Я»"1 = \п—1 1 /(Ао) 0 1 ° /'(Ао) 1! /(Ао) " 0 /"""(Ао) ' (п-1)! /'(Ао) • /(Ао) ) Свойства матрицы Н разобраны в примере на с. 22-24.
102 Гл. V. Функции матрицы Отметим три свойства функции матрицы. 1°. Если Ai,A2, ...,ЛП — характеристические числа матрицы п-го порядка А, то /(Ai),/(A2), ...,/(Ап) — полная система характеристических чисел матрицы f(A). В частном случае, когда /(А) — многочлен, это предложение было доказано на с. 91. Доказательство для общего случая сводится к этому частному случаю, поскольку (в силу определения 1') f(A) = г (А) и /(А;) = г(А^) (г = 1,...,п), где г(А) — интерполяционный многочлен Лагранжа-Сильвестра для функции /(А). 2°. Если две матрицы А и В подобны и матрица Т преобразует А в В: В = Т~ХАТ, то матрицы f{A) и f(B) подобны и та же матрица Т преобразует f(A) в f(B): f(B) = Т~^(А)Т. Действительно, две подобные матрицы имеют одинаковые минимальные многочлены7) и, следовательно, функция /(А) принимает одни и те же значения как на спектре матрицы А, так и на спектре матрицы В. Поэтому существует интерполяционный многочлен г(А) такой, что /(^4) = г (A), f(B) = г (В). Но тогда из равенства г (В) = Т~1г(А)Т (см. сноску) следует f(B) = T-rf(A)T. 3°. Если А — квазидиагональная матрица: А = {АиА2,...,Аи], то f(A) = {f(A1),f(A2),...,f(Au)}. Обозначим через г(А) интерполяционный многочлен Лагранжа-Сильвестра для функции /(А) на спектре матрицы А. Тогда, как легко видеть, f(A) = r(A) ={г(А1),г(Л2),...,г(Л,)}. (7) С другой стороны, минимальный многочлен ф(Х) для А является аннулирующим многочленом для каждой из матриц Ai,A2,...,Au. Поэтому из равенства /(ЛЛ) = г(АА) следует f(AAl) = r(AAl), ..., /(ЛА„)=г(ЛА„). Поэтому f(A1)=r(A1), ..., f(Au)=r(Au), и равенство (7) можно записать так: f(A) = {f(A1),f(A2),...,f(Au)}. (8) Пример 1. Если матрица простой структуры Л = Г{АьА2,...,Ап}Г-1, то /(A) = T{/(Ai),/(A2),...,/(An)}T-1; f(A) имеет смысл, если функция /(А) определена в точках Ai, A2,..., Ап. 7) Из В = Т~1АТ следует Вк = Т~1АкТ (к = 0,1, 2,...). Отсюда для любого многочлена д(\) имеем д(В) = Т~1д(А)Т. Поэтому из д(А) = 0 вытекает д(В) = 0 и наоборот.
§2. Интерполяционный многочлен Лагранжа-Силъвестра 103 Пример 2. Матрица J имеет следующий квазидиагональный вид: J = Ai 0 0 0 1 Ai 0 0 0 . 1 . 0 . 0 . . 0 . 0 . 1 . Ax Ли 0 0 0 1 Ли 0 0 0 .. 1 .. 0 .. 0 .. . 0 . 0 Ли . 0 0 0 1 Ли В недиагональных блоках все элементы равны нулю. Согласно формуле (8) (см. также пример на с. 101), № = /(Ai) /'(Ai f("l-l) "(Ai) 1! (yi-l)l о /(АО ••- ; : •. /'(AQ 1! 0 0 ... /(Ax) f(K) ^ ■ 0 /(Au) • 0 0 . ' К - 1)! /'(A,) 1 | • /(A„) Здесь, как и в матрице J, все элементы в недиагональных блоках равны нулю8). § 2. Интерполяционный многочлен Лагранжа-Сильвестра 1. Рассмотрим сначала тот случай, когда характеристическое уравнение \ХЕ — —А\ = 0 не имеет кратных корней. Корни этого уравнения — характеристические числа матрицы А — обозначим через Ai, A2,..., Ап. Тогда ф(Х) = \ХЕ - А\ = (А - Ai)(A - А2)... (А - А„), и условия (6) записываются так: r(A*)=/(Aft) (fc = l,2,...,n). 8) В дальнейшем (гл. VI, § 6 или гл. VII, § 7) будет установлено, что произвольная матрица А = Ца^ЦГ всегда подобна некоторой матрице вида J: A = TJT~l. Поэтому (см. 2° на с. 102) всегда f{A) = Tf(J)T~l.
104 Гл. V. Функции матрицы В этом случае г(Л) является обычным интерполяционным многочленом Лагранжа для функции /(A) в точках Ai,A2, ...,An: (\\ _ V^ (А - AQ ... (А - Afe_!)(A - \k+1) ... (А - An) ,,. ч t{ (Л* " Л0 - (л* " A*-i)(A* " Afc+1) ... (А, - An) /И*;" Согласно определению 1', */ A\--/A\-Sr(A- **Е) ••• (А ~ xk-iE){A - Xk+lE) ... (А - ХпЕ) ПА) - г{А) - ^ (Л,-Л1)...(А,-А,_1)(А,-А,+1)...(А,-Ап) /(А*^ 2. Допустим теперь, что характеристический многочлен имеет кратные корни, но минимальный многочлен, являющийся делителем характеристического, имеет только простые корни9): ^(A) = (A-Ai)(A-A2)... (A-Am). В этом случае (как и в предыдущем) все показатели тк в (1) равны единице, и равенства (6) принимают вид r(A*) = /(Aft) (* = l,2,...,m); г(А) снова является обычным интерполяционным многочленом Лагранжа и у> (А - Х,Е) ... (А - Хк_,Е)(А - Хк+1Е) ... (А - ХтЕ) fl (A*-Ai)...(Afc-Afc_1)(Afc-Afc+1)...(Aft-Am) П к)' к=\ 3. Рассмотрим общий случай ф(Х) = (А - Ai)Wl (А - A2)W2 ... (А - Х$)т° (mi + m2 + ... + ms = т). Представим функцию г(А)/^(А), являющуюся правильной дробью, в виде суммы простых дробей: **(А) V^ Г CXkl , <*Jb2 , , ак,тк 1 /Q4 V(A) Z-L(A-A,)-fc +(А-А*)^-1+- + А-А*]' W где akj (j = 1,2, ...,тк; к = 1,2, ...,s) — некоторые числа. Для определения числителей простых дробей ащ умножим обе части этого равенства на (А — A^)Wfc и обозначим через фк(Х) многочлен ф(Х)/(Х — Хк)тк. Получим ^ = ак1 + аи(А - А») + ... + акт„(Х - А*)"1*-1 + + (A-A*)mV(A) (* = 1,2, ••.,«), (10) где р(А) — рациональная функция, регулярная при А = А&10). Отсюда Г Г(А) 1 Г Г(А) Г 9) См. сноску на с. 100. 10) То есть не обращающаяся в оо при А = А&.
§2. Интерполяционный многочлен Лагранжа-Силъвестра 105 Формулы (11) показывают, что числители akj в правой части равенства (9) выражаются через значения многочлена г(Л) на спектре матрицы А, а эти значения нам известны: они равны соответствующим значениям функции /(А) и ее производных. Поэтому Формулы (12) можно еще сокращенно записать так: ^ = й^у.[ш\(12 <У = 1,2,..,т« * = 1,W). (13) После того как все ащ найдены, мы определяем г(Л) из следующей формулы, которая получается умножением обеих частей равенства (9) на ф(Х): S г(Л) = Y, [<*ki + «*2(А - Л,) + ... + актк (А - А*)т*_1№*(А). (14) k=i В этой формуле выражение в квадратных скобках, стоящее в качестве множителя перед фк(Х), в силу (13) равно сумме первых rrik членов разложения Тейлора по степеням (Л — А&) для функции /(Х)/фк(Х). Пример. ^(A) = (A-Ax)2(A-A2)3 (m = 5). Тогда г(Х) _ а р у 6 е ф(Х) (А - Ai)2 Л - Ai (А - А2)3 (А - А2)2 А - А2' Отсюда г(А) = [а + /?(А - Ai)](A - А2)3 + [7 + *(А - А2) + е(Х - А2)2](А - Ai)2 и, следовательно, г(А) = = [аЕ + 0(А - XiE)](A - Х2Е)3 + [7Е + 6(А - \2Е) + е(А - Х2Е)2](А - ХгЕ)2. Найдем а, /3, у, 6, е из следующих формул: (Ai - Л2) • ^=-(л^^)+(лГ^№)' *=<а7%' s = -(x7h^^+(x7hj^ £ = (A2-Al)4 ^ ~ (A2-Al)3 /,(Л2) + ^(Х2-ХгГ-Г{Х2)- Примечание 1. Интерполяционный многочлен Лагранжа-Сильвестра может быть получен предельным переходом из интерполяционного многочлена Лагранжа. Пусть $ ф(\) = (А - Ах)-1 (А - А2)™2 ... (А - Ae)TO- (m = £mfc). k=i
106 Гл. V. Функции матрицы Обозначим через L(X) интерполяционный многочлен Лагранжа, построенный для т точек х(1) Л2) Л™1)- \М № \(Ш2)- • \(!) \(2) *("»•) Тогда нетрудно показать, что искомый многочлен Лагранжа-Сильвестра определяется формулой г (А) = lim L(A). Ai1>,...fAiwl)-^A1 Л(1),...,Л(^)^Лз Примечание 2. Пусть А = \\ацс\\ — вещественная матрица, т. е. матрица с вещественными элементами. Тогда минимальный многочлен ф(Х) имеет вещественные коэффициенты11), и его корни, т. е. характеристические числа Л^, либо вещественны, либо попарно комплексно сопряжены, причем если Хд = А^, то соответствующие кратности равны: тд = ть- Условимся говорить, что функция /(А) вещественна на спектре матрицы А, если для вещественного А^ все ее значения на спектре /(Ai),/'(A;),... вещественны, а для двух комплексно сопряженных характеристических чисел А^ и А^ = А^ соответствующие значения на спектре комплексно сопряжены: f(Xg) = /(A^), f'(Xg) = /'(А/0,...12). В этом случае /(^4) — вещественная матрица. Действительно, в данном случае, согласно формулам (12), an,ai2,... — вещественные числа и a9l = ahi,a92 = а/^,...; при этом для вещественного Xi многочлен фг(Х) = ф(Х)/(Х — Xi)mi имеет вещественные коэффициенты, а коэффициенты многочленов iph(X) и ф9(Х) (при \д = \h) комплексно сопряжены. Поэтому в силу формулы (14) интерполяционный многочлен г (А) имеет вещественные коэффициенты. Но тогда г (А), а значит, и f(A) = r(A), — вещественная матрица. §3. Другие формы определения f(A). Компоненты матрицы А Вернемся к формуле (14) для г(А). Подставляя в нее выражения (12) для коэффициентов а и объединяя члены, содержащие одно и то же значение функции /(А) или какой-либо ее производной, мы представим г(А) в виде s г(Х) = £ [/(A*)¥>*i(A) + /'(Aa)ww(A) + ... + /^"^(A/O^WA)]. (15) k=\ Здесь (fkj(X) (j = 1,2, ...,m^; k = l,2,...,s) — легко вычисляемые многочлены от А степени < га. Эти многочлены вполне определяются заданием ф(Х) и не зависят от выбора функции /(А). Число этих многочленов равно числу значений функции /(А) на спектре матрицы А, т. е. равно га [га — степень минимального многочлена ф(Х)]. Функция (fkj(X) представляет собой интерполяционный многочлен Лагранжа-Сильвестра для функции, у которой все значения на спектре матрицы А равны нулю, за исключением одного /^'"^(Ад.), равного 1. Из формулы (15) следует основная формула для /(^4): s f(A) = Y, [/(Aft)^fti + f'(Xk)Zk2 + ... + /^"^(A^bnJ, (16) k=i 11) Это следует непосредственно из определения минимального многочлена либо из формулы (54) на с. 96. 12) Функция, представляемая суммой степенного ряда с вещественными коэффициентами, вещественна на спектре любой матрицы, характеристические числа которой находятся внутри круга сходимости данного ряда.
§3. Другие формы определения f(A). Компоненты матрицы А 107 где Zkj=<pkj(A) (j = l,2,...,m*; к = 1,2, ...,*). (17) Матрицы Z^j вполне определяются заданием матрицы А и не зависят от выбора функции /(Л). В правой части формулы (16) функция /(А) представлена только своими значениями на спектре матрицы А. Матрицы Zkj- (j = l,2,...,m^; к = 1,2, ...,s) будем называть составляющими матрицами или компонентами данной матрицы А. Компоненты матрицы А всегда линейно независимы. Действительно, пусть S ГПк S ГПк Y, £ CkjZhj = Y, £ Ckj<Pkj (Л) = 0. (18) k=l j=l k=l j=l Определим интерполяционный многочлен г(Л) из т условий r{j-l)(\k)=ckj (j = l,2,...,m*; к = 1,2, ...,*). (19) Тогда, согласно формуле (15), s mfc г(Л) = ЕЕс*^(Л)- (2°) к=\ j=l Из сопоставления формул (18) и (19) находим г(А) = 0. (21) Но степень интерполяционного многочлена г (Л), задаваемого формулой (20), меньше га, т. е. меньше степени минимального многочлена ф(Х). Поэтому из равенства (21) следует тождество г(Л) = 0. Но тогда, согласно (19), ckj =0 (j = 1,2,...,77**; к = 1,2,...,s), что и требовалось доказать13). Из линейной независимости составляющих матриц Zkj следует, между прочим, что ни одна из этих матриц не равна нулю. Заметим еще, что любые две из компонент Zkj перестановочны между собой и с матрицей А, поскольку все они суть скалярные многочлены от А. Формулой (16) для f(A) вырожденно удобно пользоваться тогда, когда приходится иметь дело с несколькими функциями от одной и той же матрицы А либо когда функция /(А) зависит не только от Л, но и от некоторого параметра t. В последнем случае в правой части формулы (16) компоненты Zkj не зависят от t и параметр t входит только в скалярные коэффициенты при этих матрицах. В примере на с. 105, где ф(Х) = (Л — Ai)2(A — А2)3, мы можем г(А) представить в виде г(А) = /(Ai)^u(A) + /'(A1WA) + /(A2)^2i(A) + /'(А2 WA) + /"(А2 WA), где 13) Из доказанной линейной независимости матриц Zkj = <fkj(A) следует также линейная независимость многочленов «^(А), (j = 1, 2, ...,771^; к = 1,2, ...,s).
108 Гл. V. Функции матрицы Поэтому где f(A) = /(Ai)Zu + /'(Ai)Zi2 + /(A2)Z21 + /'(A2)Z22 + /" (A)Z23, Zn = ^(A) = ^^(A - X2Ef [E - ^А_(Л - XlE)], Z12 - yi2(A) = _* Л9)3 (А - Ai Д)(А - A2fl)3, ... Если дана матрица А, то для конкретного нахождения компонент этой матрицы можно в основной формуле (16) положить /(//) = 1/(А — /i), где А — некоторый параметр. Тогда получим {ХЕ~А) -Ж)-^[л^аГ+(А^А^ + '--+ (A-A4)">* J' <22> k=i где C(X) — приведенная присоединенная матрица для ХЕ — А (гл. IV, § б)14). Матрицы (j — l)\Zkj являются числителями простейших дробей в разложении (22), и потому по аналогии с разложением (9) эти числители могут быть выражены через значения (7(A) на спектре матрицы А по формулам, подобным (11): (т* -1)! z^ = Шг {тк ~2)! z*—1 = $w]'w Отсюда Zw - 1 гс(А)](■"*-» (._12 *к> - 0-1)! (тк-з)\ L^*(A)Ja=a* U " ''-' тк; к = 1,2,...,в). (23) Подставляя в (16) вместо составляющих матриц их выражения (22), мы можем основную формулу (16) представить в виде (24) Пример I15). А = \ 2 0 -1 № = V- 1 Г С(\) - ^(тк-1уЛфк(х) l(mfc-l) ■'WU • -1 1 1 1 1 1 1 2 \ 2 , ХЕ - А = 1 1 Л — 2 1 -1 1 0 А-1 -1 1 -1 А-1 В данном случае А(А) = \ХЕ — А\ = (А — 1)2(А — 2). Поскольку минор элемента [1,2] в ХЕ — А равен 1, то .D2(A) = 1, и потому ф(Х) = А(А) = (А - 1)2(А - 2) = А3 - 4А2 + 5А - 2 Ф(А,/х) = ^Ы-^(А)=/х2 + (Л_4)/х + л2_4Л + 5 /л — X 14) При /(/л) = 1/(А - /л) имеем f(A) = (ХЕ - А)'1. Действительно, f(A) = г (А), где /(/л) — интерполяционный многочлен Лагранжа-Сильвестра. Из того, что /(/л) и г(/л) совпадают на спектре матрицы А, следует, что на этом спектре совпадают (А — /л)г(/л) и (А - а*)/М = 1. Отсюда (ХЕ - А)г(А) = (ХЕ - A)f(A) = Е. 15) Курсивом набраны элементы контрольного суммарного столбца. Умножая строки матрицы А на суммарный столбец матрицы В, получаем элементы суммарного столбца произведения АВ.
§3. Другие формы определения f(A). Компоненты матрицы А 109 С(Х) = Ф(А£, А) = А2 + (Л - А)А + (Л2 - 4А + Ъ)Е = 3 -1 -3 -2 2 2 2 3 1 5 +(А-4) 1 2 0 -1 + (Л2 - 4А + 5) 1 0 0 0 1 0 0 0 1 (25) Основная формула в данном случае имеет вид f(A) = f(l)Z1+f'(l)Z2 + f(2)Z3. Полагая здесь f(/j) = 1/(Л — fj,), находим лр ,n-i _ &W — z" I zv>- i z^- (АЬ_Л) - ^(Aj - Л^Т + (A^IF A^2' откуда Zx = -C(l) - C'(l), Z2 = -C(l), ZS = C(2). Пользуясь приведенным выше выражением для С(Л), вычисляем Zb Z2, Z3 и подставляем полученные результаты в (25): № = /(1) о о о о -1 1 + /Ч1) 1 1 0 -1 1 -1 1 0 0 + /(2) о о -1 1 -1 1 /(1) + /'(1)-/(2) /(1)-/(2) -/'(1) /'(1) -/'(1) + /(2) /'(1) -/(1) + /(2) /(1) Пример 2. Покажем, как можно определить f(A), исходя только из основной формулы. Пусть снова 2 -1 1 <МА) = (А-1)2(А-2). Тогда f(A) = f{\)Z, + f'(l)Z2 + /(2)Z3. (25') Подставим в формулу (25') вместо /(А) последовательно 1, А — 1, (А — I)2: Zi + Z3 — .£7 — Z2 + Z3 = А - Е = 1 0 0 1 0 0 Z3 = (A- E) 2 _ 1 -1 о о -1 1 0 0 ( -1 1 ( -1 1 ( Вычитая из первых двух равенств почленно третье, определим все Z&. Подставляя в (25'), получим выражение для f(A). Разобранные примеры иллюстрировали три способа практического нахождения f(A). В первом способе мы находили интерполяционный многочлен г (А) и
по Гл. V. Функции матрицы полагали /(^4) = г(А). Во втором способе мы, пользуясь разложением (22), выражали компоненты Zkj в формуле (16) через значения приведенной присоединенной матрицы С(Х) на спектре матрицы А. В третьем способе мы исходили из основной формулы (16) и подставляли в нее вместо /(А) последовательно некоторые простейшие многочлены; из полученных линейных уравнений определяли составляющие матрицы Zkj. Третий способ является, пожалуй, практически наиболее удобным16). В общем виде его можно сформулировать так. В формулу (16) вместо /(А) подставляем последовательно некоторые многочлены pi (Л), рг (А), ...,0т(А): s 9i(A) = Y}9i^k)Zki+9'i(\k)Zk2 + ... +0imfc-1)(A,)^,mJ (г = 1,2,...,га). Из га уравнений (26) определяем га матриц Zkj и подставляем полученные выражения в (16). Результат исключения Zkj из (га + 1)-го равенства (26) и (16) может быть записан в виде /(А) /(Ах) ... /(^i-D(Ai) ... /(А.) ... /«"--«(А,) 0i(A) 0!(Ai) ... 0iWl-1}(Ai) ... 0!(As) ... 0^"1}(AS) 0m(A) 0m(Ai) ... 0mni_1)(Ai) ... 0m(As) ... 0^*_1)'(A*) = 0. Разлагая этот определитель по элементам первого столбца, мы получим искомое выражение для /(А). Полагая Л = А, находим f{A). При f(A) в качестве множителя будет стоять определитель А = \д\3 (А*)| (в г-й строке определителя А стоят значения многочлена 0г(А) на спектре матрицы А; г = 1,2,...,га). Для того чтобы можно было определить f(A), нужно, чтобы А / 0. Это будет иметь место, если никакая линейная комбинация17) многочленов 0i(A),02(A), ...,0m(A) не обращается сплошь в нуль на спектре матрицы А, т. е. не делится на ip(\). Условие А ф 0 всегда выполнено, если степени многочленов 0i(A),02(A),... • ••> 0m(A) соответственно равны 0,1,2,..., га — 118). В заключение отметим, что большие степени матрицы Ап удобно вычислять по основной формуле (16), заменяя в ней /(А) на Лп 19). 5 -4 4 -3 Пример. Дана матрица А = пени А100. Минимальный многочлен ф(Х) = (А — I)2. Основная формула f(A) = f(l)Z1 + f'(l)Z2 Заменяя здесь /(Л) на 1, а затем на Л — 1, получим Zx = Е, Z2=A-E. . Требуется вычислить элементы сте- 16) Напомним также способ, указанный в сноске на с. 103. 1Т) С не равными одновременно нулю коэффициентами. 18) В последнем примере т = 3, #i(A) = 1, 02(A) = А — 1, 0з(А) = (А — I)2. 19) Формулу (16) можно использовать и для вычисления обратной матрицы А-1, лагая /(А) = 1/А или, что то же, полагая А = 0 в формуле (22).
§4- Представление функций матриц рядами 111 Поэтому f(A) = f(l)E + f'(l)(A-E). Полагая /(А) = Л100, найдем А100 = Е + Ж(А -Е) = 1 1 0 1 | 0 1 + 100 1 4 1 4 -4 1 -4 — 401 -400 400 -399 § 4. Представление функций матриц рядами Пусть дана матрица А = Ца^Цу с минимальным многочленом ^(Л) = (Л — s -Ai)mi(A - Л2)Ш2 ... (Л - \s)m* (т = ^тЛ. Пусть, далее, функция /(А) и по- k=i следовательность функций /i(A),/2(A), ...,/р(А),... определены на спектре матрицы А. Мы будем говорить, что последовательность функций /Р(А) при р —> оо стремится к некоторому пределу на спектре матрицы А, если существуют пределы lim/„(A*), Um/;(A*), -, Mm /^"«(A*) (* = 1,2,..., в). Мы будем говорить, что последовательность функций /Р(А) при р —> оо стремится к функции /(А) на спектре матрицы А, и будем писать если lim fp(AA) = /(Ал), р—юо lim /p(Afc) = /(Afc), lim /;(Afc) = /'(Afc), lim/(",»-1)(Afc) = /(ra*-1)(A*) Основная формула (* = 1,2,...,«). /(A) = Y, [f(*k)Zkl + /'(Aft)Zfc2 + .- + f^k-l\\k)Zkmk] k=i выражает f{A) через значения /(А) на спектре матрицы А. Если рассматривать матрицу как вектор в пространстве п2 измерений Rn2, то из основной формулы в силу линейной независимости матриц Zkj следует, что все f(A) (при заданном А) образуют га-мерное подпространство в Rn2 с базисом Zkj 0 = 1,2,..., га&; к = l,2,...,s). В этом базисе "вектор" f(A) имеет своими координатами га значений функции /(А) на спектре матрицы А. Эти соображения делают совершенно прозрачной следующую теорему. Теорема 1. Для того чтобы последовательность матриц fp(A) при р —>• оо стремилась к некоторому пределу, необходимо и достаточно, чтобы последовательность /р(А) при р -^ оо на спектре матрицы А стремилась к пределу, т. е. пределы lim fp(A), lim fp(AA) p—>oo p—too всегда существуют одновременно. При этом равенство влечет за собой равенство и наоборот. lim /Р(АЛ) = /(Лл) р—юо lim f„(A) = ДА) р—>оо (27) (28)
112 Гл. V. Функции матрицы Доказательство. 1. Если значения fp (А) на спектре матрицы А при р —> оо стремятся к предельным значениям, то из формулы s /р(А) = £ [fP(h)Zkl + f'p(\k)Zk2 + ... + f^-'HX^Z^} (29) k=l следует существование предела lira fp(A). На основании этой же формулы и фор- р—юо мулы (16) из (27) вытекает (28). 2. Обратно, пусть существует lira fp(A). Так как т составляющих матриц Z р—»-оо линейно независимы, то мы можем из (29) выразить (в виде линейных форм) т значений /Р(А) на спектре матрицы А через т элементов матрицы fp(A). Отсюда следует существование предела lira /^(Лл), и равенство (27) имеет место при р—юо наличии равенства (28). Согласно установленной теореме, если последовательность многочленов др(Х) (р = 1,2,...) стремится к функции /(Л) на спектре матрицы А, то lim gp(A) = ДА). р—±оо Эта формула подчеркивает естественность и общность данного нами определения f{A). Функция f(A) всегда получается предельным переходом из др(А) при р —> оо, если только последовательность многочленов др(Х) сходится к /(Л) на спектре матрицы А. Последнее условие является необходимым для существования предела lim др(А) при р —>• оо. р—юо оо Условимся говорить, что ряд yjup(A) сходится на спектре матрицы А к функции /(A), и будем писать р=о оо ДЛЛ) = 5>р(Лл), (30) р=0 если все фигурирующие здесь функции определены на спектре матрицы А и имеют место равенства оо оо оо ДА*) = £>p(Afc), №) = £<(A*), .... /(га»-1)(А*) = Е4т*"1)(А*) р=0 р=0 р=0 (к = 1,2,...,*), причем в правых частях этих равенств стоят сходящиеся ряды. Другими словами, если положить р «p(A) = 5^ug(A) (р = 0,1,2,...), q=0 то равенство (30) равносильно равенству /(АЛ) = lim sp(AA)- (31) р—юо Очевидно, что доказанной теореме можно дать следующую эквивалентную формулировку. оо Теорема 1'. Для того чтобы ряд 2_.ир(А) сходился к некоторой матрице, р=0
§4- Представление функций матриц рядами 113 необходимо и достаточно, чтобы на спектре матрицы А сходился ряд S^up(X). При этом из равенства р=0 оо р=о следует равенство оо f(A) = Y,MA) и наоборот. Пусть дан степенной ряд с кругом сходимости |Л — Ло| < R и суммой /(Л): оо /(А) = £ар(А-Ао)р (|А-А0|<Д). (32) р=0 Так как степенной ряд можно почленно дифференцировать любое число раз внутри круга сходимости, то ряд (32) сходится на спектре любой матрицы, характеристические числа которой попадают внутрь круга сходимости. Таким образом, имеет место Теорема 2. Если функция /(А) разлагается в круге \Х — Ло| < г в степенной ряд оо /(А) = 2>„(А-Ао)р, (33) р=0 то это разложение сохраняет силу, если скалярный аргумент X заменить любой матрицей А, характеристические числа которой лежат внутри круга сходимости. Примечание. В этой теореме можно допустить, чтобы характеристическое число Xk матрицы А попало на периферию круга сходимости, но при этом нужно дополнительно потребовать, чтобы ш^ — 1 раз почленно продифференцированный ряд (33) в точке А = Xk сходился. Отсюда, как известно, уже следует сходимость j раз продифференцированного ряда (33) в точке Xk к f^(Xk) для j = 0,1,2,...,т*-1. Из доказанной теоремы вытекают, например, следующие разложения20): еЛ f^(2p)!' ^(2р+1)!' оо (Е-АГ^^А" (|Afc| < 1; * = 1,2,...,«), 1пА = £ЬУ_(А-Я)* (|А*-1|<1; * = 1,2,...,*) p=i P (здесь под In Л мы понимаем так называемое главное значение многозначной функции LnA, т. е. ветвь, для которой Lnl = 0). °) Разложения в первых двух строках имеют место при произвольной матрице А.
114 Гл. V. Функции матрицы Формула (22) на с. 108 позволяет легко распространить интегральную формулу Коши для аналитических функций на функции от матриц. Рассмотрим в плоскости комплексного переменного Л правильную область, ограниченную замкнутым контуром Г и содержащую внутри себя характеристические числа Ai,..., Ап матрицы А. Возьмем произвольную аналитическую функцию /(А), регулярную в этой области (включая границу Г). Тогда по известным формулам Коши21) получаем г /<"-"<« = ^/<А^«* г (A-Afc)-»» (*=!,...,«). Умножая обе части матричного равенства (22) на /(А)/(27гг) и интегрируя вдоль Г22), получим s ± J(XE - А)-Х/(А) d\ = £ [f(\k)Zkl + f'(Xk)Zk2 + ... + /^-^(Аа)^], Г k=l что, согласно основной формуле (16), и дает f(A) = ^-if№-A)-1f(\)d\. (34) Г Эти же рассуждения показывают, что интеграл, стоящий в правой части равенства (34), равен нулю (при f(A) ф 0), если все характеристические числа матрицы А расположены вне контура Г, и равен £ [ДЛ*)^1 + f\Xk)Zk2 + ... + f{mk-l\\k)Zkmk] (q < «), k=i если характеристические числа Ai,...,Ag расположены внутри, a Ag+i,...,An — вне Г. Формулу (34) можно принять за определение аналитической функции от матрицы. § 5. Некоторые свойства функций от матриц В этом параграфе мы докажем несколько предложений, позволяющих распространить тождества, справедливые для функций скалярной переменной на матричные значения аргумента. 21) См., например: Привалов И.И. — Введение в теорию функций комплексного переменного. — М.: Наука, 1984. — С. 166. 22) Интеграл от матрицы определяем как результат "поэлементного" интегрирования. Поэтому J(XE - A)-V(A) d\ = \\J(XE - A)rfc7(A) с/аЦ^, г г где (ХЕ — А)~ь = bik/A(X) (i,k = l,...,n) — элементы матрицы (ХЕ — А)-1 (см. гл. IV, § 3).
§ 5. Некоторые свойства функций от матриц 115 1°. Пусть G(ui,U2,...,ui) — многочлен относительно t/i,it2,...,ttj; /i(A), /2(A), ...,//(А) — функции от А, определенные на спектре матрицы А, и g(X)=G[MX),MX),...,MX)}. (35) Тогда из р(Ал) = О следует G[/i(A),/2(A),...,/,(A)]=0. Действительно, обозначим через ri(A),r2(A), ...,77(А) интерполяционные многочлены Лагранжа-Сильвестра для Д (А), /2(А),...,//(А) и положим ft(A) = G[ri(A),r2(A),...,r,(A)]. Тогда из (35) вытекает КАА) = 0. Отсюда следует, что G\fi(A),f2(A),...,fi(A)] = G[ri(A),r2(A),.:,n(A)} = h(A) = 0, что и требовалось доказать. Согласно предложению 1° из тождества cos2 A + sin2 A = 1 следует для любой матрицы А cos2 A + sin2 А = Е (в данном случае G(ui,U2) = и\ + и\ — 1, /i(A) = cos A, /2(A) = sin A). Точно так же для любой матрицы А еАе~А = Е, т. е. е-А = (еА)-1. Далее, для любой матрицы А егА = cos A + г sin A. Пусть дана невырожденная матрица А (\А\ ф 0). Обозначим через л/Х однозначную ветвь многозначной функции \/А, определенную в области, не содержащей нуля и содержащей все характеристические числа матрицы А. Тогда имеет смысл \J~A. При этом из (л/А)2 — А = 0 будет следовать23) (л/1)2 = А. Пусть /(А) = 1/А и А = \\a>ik\\i — невырожденная матрица. Тогда функция /(А) определена на спектре матрицы А, и потому в равенстве АДА) = 1 можно заменить А на А: A-f(A) = E, 23) В гл. VIII, § б и § 7 будет дано более общее определение у/А как произвольного решения матричного уравнения X2 = А.
116 Гл. V. Функции матрицы f(A) = A~1M). Обозначая через г(Л) интерполяционный многочлен для функции 1/Л, мы сможем обратную матрицу А-1 представить в виде многочлена от данной: А-1 = г(А). Рассмотрим рациональную функцию р(Х) = g(X)/h(X), где д(Х) и h(X) — взаимно простые многочлены относительно Л. Эта функция определена на спектре матрицы А в том и только том случае, если характеристические числа матрицы А не являются корнями многочлена А(А), т. е.25) когда \h(A)\ ф 0. При выполнении этого условия мы можем в тождестве р(ХЩХ) = д(Х) заменить Л на А: р(АЩА) = д(А). Отсюда р(А) = g(A)[h(A)}-1 = [h(A)]-1g(A). 2°. Если составная функция д(Х) = h[f(X)] определена на спектре матрицы А, то g(A) = g[f(A)], т. е. g(A) = h(B), где В = f(A). При доказательстве этого предложения, как и ранее, будем предполагать, что ф(Х) - (Л - ХгГ^Х - Х2)т\.. (А - А.)"»' — минимальный многочлен матрицы А. Тогда значения функции д(Х) на спектре матрицы А определяются по формулам26) Р(А*) = ЛЫ, </(А*) = А'Ы/'(А*), - ..., </mfc-1}(A*) = h^-VfaM'iXk)]^-1) + ... + А'Ы/^-1^*), (36) где fik = f(Xk) (к = 1, ...,s). Многочлен хЫ = (м - Mi)mi (м - М2)Ш2...(м - »s)ms будет аннулирующим многочленом для матрицы В. Действительно, каждое число Xk является корнем по крайней мере кратности га*, функции д(А) = х[/(А)] = П[/(А)-/(А*)Г*. к=1 Поэтому д(АЛ) = 0 24) Этим положением мы уже пользовались на с. 108. См. сноску на с. 108. 25) См. (25) на с. 91. 26) Предполагается, что имеют смысл все входящие в эти формулы величины /(Л,), ..., /•"'""(АО, h(pk), •». Л(та*_1)0**) (* = !,...,*)•
§5. Некоторые свойства функций от матриц 117 и, согласно 1°, q(A)=X[f(A)] = x{B)=0. Поэтому среди значений ft(Mi), A'(/ii), •«, Л*™*-1^*) (* = 1,...,в) (37) содержатся все значения функции Ъ,(ц) на спектре матрицы В. Исходя из значений (37), построим интерполяционный многочлен г (Л) для функции h(X). Тогда, с одной стороны, h{B) = r(B). С другой стороны, как показывают формулы (36), функции д(Х) и #i(A) = г [/(А)] будут равны на спектре матрицы А. Поэтому, применяя к разности д(Х) — г [/(А)] предложение 1°, получим g(A)-r[f(A)]=0, но тогда д(А) = r[f(A)] = r(B) = h(B) = h[f(A)}, что и требовалось доказать. Комбинируя предложения 1° и 2°, приходим к следующему обобщению предложения 1°. 3°. Пусть p(A)=G[/i(A),/2(A),...,/,(A)], где функции Д (А), /2(А),...,//(А) определены на спектре матрицы А, а функция G(ui,v,2,...,ui) есть результат последовательного применения к величинам щ, и2,...,щ операций сложения, умножения, умножения на число и замены величины произвольной функцией от нее. Тогда из р(Ал) = О следует G[/i(A),/2(A),...,/,(A)]=0. Так, например, пусть А — невырожденная матрица (\А\ фО). Обозначим через In А однозначную ветвь многозначной функции Ln А, определенную в некоторой области, не содержащей числа 0 и содержащей все характеристические числа матрицы А. Тогда в скалярном тождестве е1пЛ-А = 0 можно заменить скалярный аргумент А на матрицу А: т. е. е1пА = А. Другими словами, матрица X = ЫА удовлетворяет матричному уравнению ех = А, т. е. является "натуральным логарифмом" матрицы А. Беря в качестве In А другие однозначные ветви многозначной функции Ln A, мы получим другие логарифмы матрицы А27). Пусть А = \\aik\\i — вещественная невырожденная матрица. В гл. VIII, § 8 будут установлены необходимые и достаточные условия для того, чтобы вещественная матрица имела вещественный натуральный логарифм. Здесь же мы рассмотрим два частных случая. 1) Матрица А не имеет вещественных отрицательных характеристических чисел. Обозначим через 1п0 А однозначную ветвь функции In А в комплексной 27) Однако на этом пути мы не получим все логарифмы матрицы А. Общая формула, охватывающая все логарифмы матрицы А, будет дана в гл. VIII, § 8.
118 Гл. V. Функции матрицы Л-плоскости с разрезом вдоль отрицательной действительной оси, определяемую равенством lno A = In г + i<p, —7г<(р<7г (А = гег<р). Функция lno А принимает вещественные значения при положительных вещественных А и комплексно сопряженные значения при комплексно сопряженных значениях А. Поэтому функция lno А вещественна на спектре матрицы А (см. с. 106) и lno A — вещественная матрица. 2) А = В2, где В — вещественная матрица 28). Наряду с функцией lno А введем в рассмотрение две однозначные ветви функции In А в комплексной А-плоскости с разрезом вдоль положительной действительной оси: lniA = lnr + iy>, (К<£><2тг (X = rei(p), 1п2А = 1пг + г<р, -2тг<(р^0 (X = rei(p). Пусть матрица В имеет различные характеристические числа А& (k = l,...,s). Выберем круговые окрестности Gk точек А& (к = 1, ...,s) так, чтобы они не пересекались и не содержали начало А = 0. В области, составленной из этих окрестностей, определим функцию /(А) равенством: /(А) = 1п0 А2, если Хе Gk и Re А^ / 0; /(A) = lniA2, если XeGk и ReA* = 0, 1тА*>0; /(А) = 1п2 А2, если XeGk и Re Хк = 0, 1т Хк < 0. Тогда функция /(А) представляет собой однозначную ветвь функции In А2, определенную и вещественную на спектре матрицы В. Поэтому f(B) — вещественная матрица и е'<*) = В2 = А, т. е. матрица f(B) является вещественным натуральным логарифмом матрицы А. Примечание 1. Если А — линейный оператор в n-мерном пространстве R, то /(А) определяется совершенно так же, как и /(^4): /(А)=г(А), где г (А) — интерполяционный многочлен Лагранжа-Сильвестра для /(А) на спектре оператора А (спектр оператора А определяется минимальным аннулирующим многочленом ip(X) оператора А). Согласно этому определению, если оператору А отвечает матрица А = Цо^Цу в некотором базисе пространства, то оператору /(А) в том же базисе отвечает матрица f(A). Все утверждения и формулировки этой главы, в которых фигурирует матрица А, остаются в силе и после замены матрицы А оператором А. Примечание 2. Можно определить29) функцию от матрицы f(A), исходя из характеристического многочлена Д(А) = П(А-А*)П*, к=1 28) В этом случае матрица А имеет отрицательные характеристические числа, если матрица В имеет чисто мнимые характеристические числа. 29) См., например: Мак-Миллан В.Д. Динамика твердого тела. — М.: ИЛ, 1951. — С. 403. и далее.
§6. Системы линейных уравнений с постоянными коэффициентами 119 заменяя им минимальный многочлен ф(Х) = П (Л — A^)mfc. При этом полагают k=i f(A) = д(А), где д(Х) — интерполяционный многочлен степени < п по mod А(Л) для функции /(Л)30). Формулы (16), (22) и (24) заменяются формулами s М) = £[/(Afc)2*i + f'(Xk)Zk2 + ... + /^-^(A^bJ, (16') /t=i (\w л\-1 _ Д(Л) _ У^ Г Zki , 1!^Ь , , (щ - l)\Zknk 1 (Л£-Л) - Д(Л) -1j[a3a^+(aTa^ + -+ (A-Afc)«*-iJ' (22) k=i где Д^=(А#А^Г (* = 1.2,...>в). Однако в формуле (16') значения /(тд,)(Л*)>/(т*+1)(^*)»->/(п*_1)(Л*) входят лишь фиктивно, поскольку из сопоставления (22) с (22') следует Zkl — Zkl, •••> Zkmk — Zkruki Zk,mk+1 = ••• = ^knk = 0- § 6. Применение функций от матрицы к интегрированию системы линейных дифференциальных уравнений с постоянными коэффициентами 1. Рассмотрим сначала систему однородных линейных дифференциальных уравнений с постоянными коэффициентами первого порядка: dx\ — = auxi + ai2x2 + ... + a>inxn, dX2 — = CL21X1 + a22#2 + • • • + a2n#n, (38) dxn -^- = anixi + an2X2 + ... + annxn; здесь t — независимая переменная, xi,x2, .-.,xn — неизвестные функции переменной £, dik (г, к = 1,2,..., п) — комплексные числа. Введем в рассмотрение квадратную матрицу А = Цо^Цу, составленную из коэффициентов, и столбцевую матрицу х = (xi,x2, —,xn). Тогда система уравнений (38) может быть записана в виде одного матричного дифференциального уравнения §=А*. (39) Здесь и в дальнейшем под производной матрицы мы понимаем матрицу, получающуюся из данной путем замены всех элементов их производными. По- dx ^ dx\ dx2 dxn этому — столбцевая матрица с элементами ——, ——,..., ——. at at at at 30) Многочлен g(X) не определяется однозначно равенством /(А) = д(А) и условием "степень < п". 31) Частный случай формулы (24'), когда /(А) = А'1, иногда называют формулой Перрона; см. [29, с. 25-27].
120 Гл. V. Функции матрицы Будем искать решение системы дифференциальных уравнений, удовлетворяющее заданным начальным условиям: xl\t=0 = ХЮ, x2\t=0 = Ж20' •-' Xn\t=0 = Хп0' или, в сокращенной записи, x\t=o=x0. (40) Разложим искомый столбец х в ряд Маклорена по степеням t: ...... t2 , /. dx\ .. d2x I \ t A Л x X = Xo+Xot + X0- + ... [Xo = —\ , X0 = -7^\ , ...). (41) 2! \ at \t=o dtz \t=o / Но из (39) почленным дифференцированием находим d2x Л dx Ao dzx л d2x .3 / лп\ 1¥ = А^ = Ах> 1¥ = А!ё = Ах> - (42) Подставляя в (39) и (42) значение t = 0, получим хо = Ахо, хо = А2хо, Теперь ряд (41) запишется так: х = хо + tAx0 + —у А2х0 + ... = емх0. (43) Непосредственной подстановкой в (39) убеждаемся32) в том, что (43) есть решение дифференциального уравнения (39). Полагая в (43) t = 0, найдем x\t=o =х0. Таким образом, формула (43) дает нам решение данной системы дифференциальных уравнений, удовлетворяющее начальным условиям (40). Положим в (16) /(A) = ext. Тогда еМ = ШШг = E(^i + Zk2t + ... + Z*mfcf^-Vfet. (44) k=i Теперь решение (43) может быть записано в следующей форме: xi = qn(t)xio + qi2(t)x2o + ... + qm(t)xn0, Х2 = q2i(t)xi0 + q22(t)x2o + ... + q2n(t)xnQ, ^ xn = qni(t)xw + qn2(t)x2o + • • • + qnn(t)xn0; здесь #ю, #20, ••->xn0 — произвольные постоянные, равные начальным значениям неизвестных функций х±,Х2, ...,#п- Таким образом, интегрирование данной системы дифференциальных уравнений сведено к вычислению элементов матрицы ем. Если в качестве начального значения аргумента взять значение t = to, то формула (43) заменится формулой х = еА^-^х0. (46) Пример. dxi 0 — =3#i -х2 + #з, dxi 0 dxz . г» — =Х1-х2 + 2#3. 2)i^=UE+At+if+--)=A+AH+if+---=AeA
§ 6. Системы линейных уравнений с постоянными коэффициентами 121 Матрица коэффициентов: II 3 -1 1 А=\\ 2 0 1 || 1 -1 2 Составим характеристический определитель: 3-Л -1 1 А(Л) = - ' -Л 1 -1 2-Л = (Л-1)(Л-2)2 Наибольший общий делитель миноров второго порядка этого определителя D2(X): = 1. Поэтому V(A) = A(A) = (A-l)(A-2)2. Основная формула: f(A)=f(l)Z1+f(2)z2 + f'(2)Za. Возьмем вместо /(А) последовательно 1, Л — 2, (Л — 2)2. Получим 10 0 Z\ + Z2 = Е = -Zx + Z3=A-2E = 1-11 2-2 1 1 -1 0 0 1 0 0 0 1 гг = (А- 2Е)2 = 0 -1 -1 0 0 1 1 0 1 0 | Определенные отсюда Z\, Z2 и Z3 подставляем в основную формулу: 0 0 0 f(A) = f(l)\\ -1 1 0 +/(2) || -1 1 0 || Заменяя здесь /(А) на еЛ*, будем иметь 1 0 0 1 0 0 1-11 0 0 0 0 -1 1 + /'(2) 1 -1 1 1-11 0 0 0 ем = е< 0 -1 -1 0 1 1 0 0 0 ГЧ + te 2t 1 1 0 -1 1 1 -1 1 0 0 Таким образом, -te 2t (l + i)e2t -el + (1 + t)e2t el - te —e* + e2t e* - ё 2t te2t te2t <>2t где Xl = Ci(l + t)e2t - C2te2t + C3te2t, X2 = Сг[-е* + (1 + t)e2t] + C2(e* - te2t) + C3te2\ X3 = C^-e1 + e2t) + C2(e* - e2t) + Съе2\ d = а?ю, C2 = x20, Cz = #зо. 2. Рассмотрим теперь систему неоднородных линейных дифференциальных уравнений с постоянными коэффициентами -J^ = ацхг + а12х2 + ... + а1пхп + /i(*), -Jjt = a>2\Xi + а22х2 + ... + а2пхп + /2(*), —£ = anixi + ап2х2 + ... + аппхп + fn(t), (47)
122 Гл. V. Функции матрицы где fi(t) (г = 1,2,..., п) — непрерывные функции в интервале to^t^ti. Обозначая через f(t) столбцевую матрицу с элементами fi(t),f2(t),...,fn(t) и снова полагая А = ||aifc||]N систему (47) запишем так: § = Аг+ /(*). (48) Введем вместо х новый столбец неизвестных функций z, связанный с х соотношением х = eAtz. (49) Дифференцируя почленно (49) и подставляя полученное выражение для dx/dt в (48), найдем33) ем § = /(«)• (50) Отсюда34) t z(t)=c + Je-ATf(r)dr, (51) *о и потому, согласно (49), t t х = eAt [с + fe-Arf(r) dr] = eAtc + /еЛ<'-г>/(т) dr; (52) здесь с — столбец с произвольными постоянными элементами. Давая в (52) аргументу t значение to, найдем c = e-Atox0, и, следовательно, решение (52) может быть записано так: t х = еА<*-'°Ч + feA{t-T)f(r) dr. (53) *о Полагая eAt = \\qij(t)\\i, мы решение (53) можем записать в развернутом виде так: xi = qn(t - t0)xio + ... + qin(t - t0)xn0 + t +/feii(* - r)/i(r) + ... + qln(t - r)fn(r)] dr, * (54) Xn = qni(t - t0)x10 + ... + qnn(t - t0)xn0 + +f[Qm(t - r)/i(r) + ... + qnn(t - r)fn(r)] dr. 33) См. сноску на с. 120. 34) Как уже указывалось для частного случая (см. сноску с. 114), если дана матричная функция В(т) = \\Ьце(т)\\ (* = I? 2,..., m; k = 1, 2,..., щ 11 ^ т ^ t2) скалярного аргумента, *2 то интеграл B(r)dr определяется естественным образом: Ч t2 t2 fB(r)dr= \\fbik(T)drVi (i = l,2,...,m; k = l,2,...,n).
§ 6. Системы линейных уравнений с постоянными коэффициентами 123 3. Рассмотрим в качестве примера движение весомой материальной точки в пустоте вблизи поверхности Земли с учетом движения Земли. В этом случае, как известно35), ускорение точки относительно Земли определяется постоянной силой веса rag и инерционной кориолисовой силой — 2ти> xv(v — скорость точки относительно Земли, о? — постоянная угловая скорость Земли)36). Поэтому дифференциальное уравнение движения точки имеет вид -^ = g - 2а; х v. (55) Определим линейный оператор А в трехмерном евклидовом пространстве равенством Ах = -2а; х х (56) и вместо (55) запишем J=Av + g. (57) Сопоставляя (57) с (48), по формуле (53) легко найдем t v = eAtv0 + feAtdt x g (v0 = v|t=0). о Интегрируя почленно, определим радиус-вектор движущейся точки: t t t г = r0 + feAt dt v0 + fdtfeAtdt g, (58) 0 0 0 где r0 = r\t=o и v0 = v|t=0. Подставляя вместо eAt сумму ряда E + Ai+A'g-K.. и заменяя оператор А его выражением из (56), будем иметь r = ro + v0*+ig*2-a;x (v0t2 + | g*3) + a; x [a; x (| v0t3 + | g*4)] + ... Считая угловую скорость ш малой величиной (для Земли ш « 7,3 • Ю-5 рад/с) и отбрасывая члены, содержащие вторую и высшие степени о;, мы для дополнительного отклонения точки, вызванного вращением Земли, получим приближенную формулу d«-a;x (Vo*2 + ig*3). Возвращаясь к точному решению (58), вычислим eAt. Предварительно установим, что минимальный многочлен оператора А имеет вид </>(A) = A(A2+4a;2). 35) См., например: Суслов Г.К. Теоретическая механика. — М.: Гостехиздат, 1944. — С. 141. 36) Здесь полужирные буквы означают векторы, а символ х означает векторное умножение.
124 Гл. V. Функции матрицы Действительно, из (56) находим А2х = 4а; х (а? х х) = 4(u?x)u> - 4а>2х, А3х = —2а; х А2х = 8а?2(а; х х). Отсюда и из (56) следует, что операторы Е, А, А2 линейно независимы, а А3 + 4о>2А = 0. Минимальный многочлен ф(\) имеет простые корни 0, 2о;г, — 2о>г. Интерполяционный многочлен Лагранжа для еА* имеет вид Тогда 1 sin2otf \ , 1 — cos2o>£ л2 1 Н А Н —- А . 2о> 4о>2 eAt = E+ sin 2ujt A + l ~ C°S 2uJt A2 2a; 4a;2 Подставляя это выражение для eAt в (58) и заменяя оператор А его выражением из (56), найдем t2 (1 — cos 2u)t , 2ujt — sin 2u;t \ , r = ro + v0t + g--u;x( 2ш2 v0 + —z gj + + a> x [a, x (*" -£** vq + -1 + *"%,+ cos2^ g)]. (59) Рассмотрим частный случай vo = 0. Тогда, раскрывая тройное векторное произведение37), получим t2 , 2ut — sin 2a>£ , ч cos 2ut — 1 + 2a>2£2 , ч r = r0 + g - + —z (gx«) —z (psin^a; + a>g), где <p — географическая широта в данном месте Земли. Член 2wt — sin 2ujt / v —&—(gxa,) представляет собой отклонение, направленное перпендикулярно к плоскости меридиана на восток, а последнее слагаемое в правой части последней формулы дает отклонение, лежащее в плоскости меридиана и направленное от земной оси (перпендикулярно к ней). 4. Пусть теперь дана следующая система линейных дифференциальных уравнений второго порядка: —y + anxi + а\2х2 + ... + ainxn = О, —^ + d2ixi + а22х2 + ... + a2nxn = 0, (60) »2 -^ + ani^i + an2x2 + ... + annxn = 0, где dik (i,k = l,2,...,n) — постоянные коэффициенты. Вводя снова столбец х = = (xi,x2,...,xn) и квадратную матрицу А = Ца^Ц?? перепишем систему (60) в матричном виде — + Ах - 0 37) По формуле а х (Ь х с) = Ь(ас) — с(аЬ); при этом следует учесть, что вектор g направлен к центру Земли, откуда a;g = — иод sin (р. — Примеч. ред.
§ 7. Устойчивость движения в случае линейной системы 125 Рассмотрим сначала случай, когда \А\ ф 0. Если п = 1, т. е. х и А — скаляры и^/О, общее решение уравнения (60) может быть записано в виде х = cos (у/А t)x0 + (у/А)'1 sin (y/At)x0, (61) где хо = x\t=o и хо = -£\ dt \t=o Непосредственной проверкой убеждаемся, что (61) представляет собой решение уравнения (60) при любом п, когда х — столбец, а А — невырожденная квадратная матрица38). При этом мы опираемся на формулы cos (y/At) = E-±-At2 + ± АН4 - ..., 2 4 (62) (л/1)"1 sin (y/At) = Et-±At3 + i: АН5 - ... 3! 5! Формула (61) охватывает все решения системы (60) или (60'), поскольку начальные значения хо и хо могут быть выбраны произвольно. В формулах (62) правые части имеют смысл и при \А\ = 0. Поэтому (61) представляет собой общее решение данной системы дифференциальных уравнений и в случае, когда \А\ = 0, если только под функциями cos(y/At) и (у/А)-1 sin(y/At), входящими в состав этого выражения, понимать правые части формул (62). Предоставляем читателю проверить, что общее решение неоднородной системы g+Ас = /(«), (63) удовлетворяющее начальным условиям xL=o = хо и — = хо, может быть at \t=o записано в виде t х = cos (y/At)xo + (л/1)"1 sin (y/At)io + (v^)"1 /sin [y/l(t - r)]f(r) dr. (64) о Если в качестве начального момента времени берется t = to, то в формулах (61) и (64) следует заменить cos (y/At) и sin (y/At) на cos у/А (t —to) t t и siny/A(t — to), a / на /. о t0 § 7. Устойчивость движения в случае линейной системы Пусть #i,#2, -~,Хп — параметры, характеризующие отклонение "возмущенного" движения данной механической системы от исследуемого движения39), и пусть эти параметры удовлетворяют системе дифференциальных уравнений первого порядка: -^ =/<(a?i,rc2,...,a?n,t) (i = l,2,...,n); (65) 38) Под у/А мы здесь понимаем произвольную матрицу, квадрат которой равен А] у/А заведомо существует при |А| ф 0 (см. с. 115). 39) В этих параметрах исследуемое движение характеризуется постоянными нулевыми значениями х\ = 0, Х2 = 0, ..., хп = 0. Поэтому при математической трактовке вопроса говорят об устойчивости нулевого решения системы дифференциальных уравнений (65).
126 Гл. V. Функции матрицы здесь независимая переменная t — время, правые части /i(#i,#2, —)Xn,t) — непрерывные функции в некоторой области значений #i,#2, ...,#п (содержащей точку х\ = 0,#2 = 0, ...,#п = 0) при всех t > to (to — начальный момент времени). Введем определение устойчивости движения по Ляпунову40). Исследуемое движение называется устойчивым, если для любого числа е > 0 можно указать число S > 0 такое, что при любых начальных (при t = to) значениях параметров а?ю, #20> •••>#n(b меньших по модулю числа S, параметры #i,#2,...,#n во все время движения (t^ to) по модулю меньше е, т. е. для любого е > 0 можно указать такое S > 0, что из |ж<о|<<* (г = 1,2,...,п) (66) следует \xi(t)\<e (t^to). (67) Если при этом дополнительно при некотором So > 0 всегда lim xAt) = 0 (г = £—>-+оо = 1,2, ...,п), коль скоро \xio\ < So (г = 1,2, ...,п), то исследуемое движение называется асимптотически устойчивым. Рассмотрим теперь линейную систему, т. е. тот частный случай, когда система (65) является системой линейных однородных дифференциальных уравнений k=i где pik(t) — непрерывные функции при t ^ to (i,k = 1,2, ...,n). В матричной записи система (68) запишется так: % = P(t)x; (68') здесь х — столбцевая матрица с элементами xi,X2,—,xn, a P(t) = \\Pik(t)\\i — матрица коэффициентов. Обозначим через Qij(t)> Q2j(t), ..., qnj(t) (j = l,2,...,n) (69) п линейно независимых решений системы (68)41). Матрицу Q(t) = \\qij\\i, столбцами которой являются эти решения, называют интегральной матрицей системы (68). Произвольное решение системы линейных однородных дифференциальных уравнений получается как линейная комбинация с постоянными коэффициентами из п линейно независимых решений: п х* = ^2cj^ij(t) (t = l,2,...,n), или, в матричной записи, ^ х = Q(t)c, (70) где с — столбцевая матрица, элементами которой являются произвольные постоянные Ci,C2, ...,СП. Выберем теперь специальную интегральную матрицу, для которой Q(to) = Е; (71) 40) См. [22, с. 13; 38, с. 10,11; 23, с. 11,12]. 41) Здесь второй индекс j обозначает номер решения.
§ 7. Устойчивость движения в случае линейной системы 127 другими словами, при выборе п линейно независимых решений (69) будем исходить из следующих специальных начальных условий42): 9«(*0) =*« = {? fitft (i,j = 1,2,...,п). Тогда, полагая в формуле (70) t = to, из (71) найдем х0 = с, и потому формула (70) примет вид х = Q(t)x0, (72) или, в развернутом виде, п xi = ^2Qij(t)xj0 (i = 1,2,...,n). (72') i=i Рассмотрим три случая. 1. Q(t) — ограниченная матрица в интервале (to, +oo), т. е. существует такое число М, что \qij(t)\ ^M (t^t0; i,j = l,2,..,n). В этом случае из (72') следует \xi(t)\ ^ nM max |#jo|- Условие устойчивости выполняется. (Достаточно в (66), (67) взять S < < е/(пМ).) Движение, характеризуемое нулевым решением х\ =0, x<z =0, ... ..., хп = 0, устойчиво. 2. lim Q(t) = 0. В этом случае матрица Q(t) ограничена в интервале (to, +оо), £—>-+оо и потому, как уже было выяснено, движение устойчиво. Кроме того, из (72) следует, что lim x(t) = 0 *-Ц-оо при любом хо. Движение асимптотически устойчиво. 3. Q(t) — неограниченная матрица в интервале (to, +оо). Это означает, что по крайней мере одна из функций q%j(t), например, qhk(t), не ограничена в интервале (£0,+оо). Возьмем начальные условия хю = 0, ..., хио ф 0, ..., хпо = 0. Тогда Xh(t) = qhk(t)xko> Каким бы малым по модулю ни было а^о, функция xu(t) будет не ограничена. Условие (67) не будет выполняться ни при одном S. Движение неустойчиво. Рассмотрим теперь частный случай, когда коэффициенты в системе (68) — постоянные числа: P(t) = P = const. (73) В этом случае (см. § 5) х = ep('-'°W (74) Сопоставляя (74) с (72), находим, что в данном случае Q(*) = ep<*-4 (75) 42) Любые начальные условия определяют, и притом однозначно, некоторое решение данной системы.
128 Гл. V. Функции матрицы Обозначим через ф(\) = (Л - Ах)™1 (Л - А2)™2... (Л - Ae)m- минимальный многочлен матрицы коэффициентов Р. Для исследования интегральной матрицы (75) воспользуемся формулой (16) на с. 106. В данном случае /(A) = ex^~to^ (t рассматривается как параметр), /k')(A*) = (* - £0y'eAfc(('~'o). Формула (16) дает S eP(t-t0) = £ [Zkl + Zk2(t - to) + ... + Zkmk(t - tor*-1^-^. (76) k=i Рассмотрим три случая. 1. КеХк ^ 0 (к = 1,2, ...,s), причем для тех А^, для которых ReA^ = 0, соответствующее ти = 1 (т. е. чисто мнимые характеристические числа являются простыми корнями минимального многочлена). 2. Re А* <0 (к = 1,2,..., s). 3. При некотором к имеем ReA& > 0 либо ReA& = 0, но rrik > 1. Из формулы (76) следует, что в случае 1 матрица Q(t) = ep^~to^ ограничена в интервале (£о,+оо), в случае 2 ep^~to^ —> 0 при t —У +оо и в случае 3 матрица ер(*_*°) не ограничена в интервале (£о,+оо). Здесь особого рассмотрения требует лишь тот случай, когда в выражении (76) для ер(*~*°) имеется несколько слагаемых максимального роста (при t —У +оо), т. е. с максимальным Re A& = ао ^ 0 и (при данном Re А^ = а?о) с максимальным значением rrik = то- Тогда выражение (76) можно представить в виде г eP(t-t0) = e«o(t-t0)(t _ to)mo-i [^ ZftiTOoe^^«-«°) + (*)], (77) i=i где /Siifoi—iPr — различные вещественные числа, а (*) обозначает матрицу, стремящуюся к нулю при t —У со. Из этого представления вытекает, что матрица ер(ь~ь°^ не ограничена при ао + то — 1 > О43), поскольку матрица не может стремиться к нулю при t —У +оо. В последнем мы убедимся, если докажем, что функция где Cj — комплексные числа, a /3j — вещественные и различные между собой числа, может стремиться к нулю при t —У +оо только в случае f(t) = 0. Но, действительно, Перемножая почленно равенства (78) и (78') и интегрируя по t в пределах от 0 до Т, получим о j=i 43 ) Иначе говоря, при ао > 0 либо при ао = 0, но то > 1. — Примеч. ред.
§ 7. Устойчивость движения в случае линейной системы 129 Но из lim f(t) = 0 вытекает, что и t—> + 00 гр lim ±;[\f(t)\2dt = 0. О Поэтому из равенства (79) находим, что с\ = С2 = ... = сг = О, т. е. f(t) = 0. Поэтому в случае 1 движение (х± = 0,#2 = 0, ...,хп = 0) устойчиво, в случае 2 асимптотически устойчиво и в случае 3 неустойчиво. Результаты исследования могут быть сформулированы в виде следующей теоремы44). Теорема 3. Нулевое решение линейной системы (68) при Р = const является устойчивым по Ляпунову, если: 1) все характеристические числа матрицы Р имеют отрицательные или нулевые вещественные части, 2) все характеристические числа с нулевыми вещественными частями, т. е. чисто мнимые характеристические числа (если таковые имеются), являются простыми корнями минимального многочлена матрицы Р; и неустойчивым, если хотя бы одно из условий 1), 2) не выполняется. Нулевое решение линейной системы (68) является асимптотически устойчивым в том и только том случае, когда все характеристические числа матрицы Р имеют отрицательные вещественные части. Приведенные выше соображения позволяют высказать суждение о характере интегральной матрицы ep^~to^ в общем случае при произвольных характеристических числах постоянной матрицы Р. Теорема 4. Интегральная матрица ер(*~*°) линейной системы (58) при Р = = const всегда представима в виде eP(t-t0) = Z_{t) + Z(){t) + z+(t)> (80) где: 1) lim Z-(t) = 0; 2) либо Zo(t) = const, либо Zo(t) является ограниченной t—юо матрицей в интервале (to, +оо), не имеющей предела при t —> +оо; 3) либо Z+(t) = = 0, либо Z+(t) является неограниченной матрицей в интервале (£о,+оо). Доказательство. Разобьем в правой части равенства (76) все т слагаемых на три группы. Обозначим через Z-(t) сумму всех слагаемых, содержащих множитель eAfc(t_tfe) с ReA^ < 0. Через Z+(t) обозначим сумму слагаемых, у которых либо ReAfc > 0, либо ReA^ =0 при наличии множителя (t — to)u при v > 0. Через Zo(t) обозначим сумму всех остальных слагаемых. Приведенные ранее соображения показывают, что lim Z-(t) = 0, а функция Z+(t)) не огра- t—>-+оо ничена, если только она не равна тождественно нулю. Функция же Zo(t) ограничена. Покажем, что из существования предела lim Z0(t) = В следует, что £—>-+оо Zo(t) = const. Действительно, разность Zo(t) — В может быть представлена в ви- г де суммы У^^то6*^'^"*0^ из равенства (77). Относительно же суммы такого 3=1 вида выше было показано, что она может иметь предел 0 при t —> +оо лишь тогда, когда она тождественно равна нулю. Теорема 4 доказана. 44) О том, как уточняются критерии устойчивости и неустойчивости для линеаризованных систем (т. е. нелинейных систем, становящихся линейными после пренебрежения нелинейными членами), см. далее в гл. XIV, § 3. 5 Ф.Р. Гантмахер
ГЛАВА VI ЭКВИВАЛЕНТНЫЕ ПРЕОБРАЗОВАНИЯ МНОГОЧЛЕННЫХ МАТРИЦ. АНАЛИТИЧЕСКАЯ ТЕОРИЯ ЭЛЕМЕНТАРНЫХ ДЕЛИТЕЛЕЙ Первые три параграфа настоящей главы посвящены учению об эквивалентности многочленных матриц. На основе этого в последующих трех параграфах строится аналитическая теория элементарных делителей, т. е. теория приведения постоянной (немногочленной) квадратной матрицы А к нормальной форме А (А = ТАТ~Х). В последних двух параграфах главы даны два метода построения преобразующей матрицы Т. § 1. Элементарные преобразования многочленной матрицы Определение 1. Многочленной матрицей или Х-матрицей называется прямоугольная матрица А(А), элементы которой суть многочлены от А: -"^ А(Х) = \\aik(X)\\ = |k7A< + aii'A'-* + ... + а лгк (г = 1,2,...,га; к = 1,2,...,п); здесь I — наибольшая из степеней многочленов а^(А). Полагая ( Л 4> = 1И*Н (t = l,2,...,m; * = l,2,...,n; j = 0,1,...,/), мы можем представить многочленную матрицу А(Х) в виде матричного многочлена относительно А, т. е. в виде многочлена с матричными коэффициентами: А(Х) = А0Х1 + Аг X1-1 + ... + А^Х + Аг. Введем в рассмотрение следующие элементарные операции над многочленной матрицей А(Х). 1°. Умножение какой-либо (например, г-й) строки на число с ф 0. 2°. Прибавление к какой-либо (например, г-й) строке другой (например, j-ft) строки, предварительно умноженной на произвольный многочлен 6(A). 3°. Перестановка местами любых двух строк (например, г-й и j-й строк). Предлагаем читателю проверить, что операции 1°, 2°, 3° равносильны умножению многочленной матрицы А(Х) слева соответственно на следующие квадратные матрицы порядка га1): (0 S'=\ х) В матрицах (1) все неотмеченные элементы на главной диагонали равны единице, а в остальных местах — нулю.
§1. Элементарные преобразования многочленной матрицы 131 U) S"=\ 6(A) ...(О, (О О) (1) S"" = 0 .. 1 .. О т. е. в результате применения операций 1°, 2°, 3° матрица А(Х) преобразуется соответственно в матрицы 6" • А(Х), S" • А(Х), S'" • А(Х). Поэтому операции типа 1°, 2°, 3° называются левыми элементарными операциями. Совершенно аналогично определяются правые элементарные операции над многочленной матрицей (эти операции производятся не над строками, а над столбцами многочленной матрицы) и соответствующие им матрицы (порядка п): О Г = с ... ...(О, rpll _ 6(A) ... (О • ••0) грШ О ... (г) • • • U) В результате применения правой элементарной операции матрица А(Х) умножается справа на соответствующую матрицу Т. Матрицы типа 5;, S", S'" (или, что то же, типа Т7, Т", Т'") мы будем называть элементарными матрицами. 5*
132 Гл. VI. Эквивалентные преобразования многочленных матриц Определитель любой элементарной матрицы не зависит от Л и отличен от нуля. Поэтому для каждой левой (правой) элементарной операции существует обратная операция, которая также является левой (соответственно правой) элементарной операцией2). Определение 2. Две многочленные матрицы А(Х) и В(Х) называются: 1) левоэквивалентнымщ 2) правоэквивалентнымщ 3) эквивалентными, если одна из них получается из другой путем применения соответственно: 1) левых элементарных операций, 2) правых элементарных операций, 3) левых и правых элементарных операций3). Пусть матрица В(Х) получается из ^4(А) при помощи левых элементарных операций, соответствующих матрицам S±,S2, ...,5Р. Тогда В(Х) = SPSP-! ... 5iA(A). (2) Обозначая через Р(А) произведение SpSp-i ... S±, запишем равенство (2) в виде В(Х) = Р(Х)А(Х), (3) где Р(А), как и каждая из матриц Si,S2,—,Sp, имеет отличный от нуля постоянный4) определитель. В следующем параграфе будет доказано, что каждая квадратная Л-матри- ца Р(А) с постоянным отличным от нуля определителем может быть представлена в виде произведения элементарных матриц. Поэтому равенство (3) эквивалентно равенству (2) и потому означает левую эквивалентность матриц А(Х) и В(Х). В случае правой эквивалентности многочленных матриц А(Х) и В (А) вместо равенства (3) будем иметь равенство В(Х) = A(X)Q(X), (3') а в случае (двусторонней) эквивалентности — равенство В(Х) = P(\)A(X)Q(\); (3") здесь опять Р(А) и Q(X) — матрицы с отличными от нуля и не зависящими от Л определителями. Таким образом, определение 2 можно заменить равносильным определением. Определение 2'. Две прямоугольные Л-матрицы А(Х) и В(Х) называются: 1) левоэквивалентнымщ 2) правоэквивалентнымщ 3) эквивалентными, если соответственно: 1) В(Х) = Р(А)А(А), 2) В(Х) = A(X)Q(X), 3) В(Х) = P(X)A(X)Q(X), где Р(А) и <2(А) — многочленные квадратные матрицы с постоянными и отличными от нуля определителями. Все введенные выше понятия проиллюстрируем на следующем важном примере. 2) Отсюда следует, что если матрица В (А) получается из А(Х) путем применения левых (правых; левых и правых) элементарных операций, то и, обратно, матрица А(Х) может быть получена из В(Х) путем применения элементарных операций такого же типа. Как левые, так и правые элементарные операции образуют группу. 3) Из определения следует, что левоэквивалентными, правоэквивалентными или просто эквивалентными могут быть только прямоугольные матрицы одинаковых размеров. 4) То есть не зависящий от А.
§2. Канонический вид А-матрицы 133 Рассмотрим систему т линейных однородных дифференциальных уравнений 1-го порядка с п неизвестными функциями xi,x2,...,xn аргумента t с постоянными коэффициентами an(D)xi + a12(D)x2 +...+ aln(D)xn = О, a2i(D)x1 + a22(D)x2 + ... + a2n(D)xn = 0, ^ aml(D)x1 + am2(D)x2 + ... + amn(D)xn = 0; здесь aik(D) = a$Dl + c$Dl~x + ... + a® (i = 1,2,..., m; fc = 1,2,.., n) — многочлен относительно D с постоянными коэффициентами, D = d/dt — оператор дифференцирования. Матрица операторных коэффициентов A(D) = \\aik(D)\\ (г = 1,2,..,ш; fc = l,2,...,n) является многочленной матрицей или .D-матрицей. Очевидно, что левая элементарная операция 1° над матрицей A(D) означает почленное умножение г-го дифференциального уравнения системы на число с ф 0. Левая элементарная операция 2° означает почленное прибавление к г-му уравнению j-ro уравнения, предварительно подвергнутого дифференциальной операции b(D). Левая элементарная операция 3° означает перестановку местами г-го и j-ro уравнений. Таким образом, если в системе уравнений (4) матрицу операторных коэффициентов A(D) заменить левоэквивалентной ей матрицей B(D), то мы получим новую систему уравнений. Поскольку, обратно, исходная система может быть получена из этой системы при помощи аналогичных операций, то обе системы уравнений равносильные 5). Нетрудно интерпретировать на данном примере и правые элементарные операции. Первая из этих операций означает введение вместо одной из неизвестных функций Xi новой неизвестной функции х\ = (1/с) Х{\ вторая элементарная операция означает введение новой неизвестной функции xfj = Xj — b(D)xi (вместо Xj); третья операция означает перемену местами в уравнениях членов, содержащих Х{ и Xj (т. е. Xi = x'j, Xj = х[). § 2. Канонический вид А-матрицы 1. Выясним сначала, к какому сравнительно простому виду можно привести прямоугольную многочленную матрицу А(Х) путем применения одних только левых элементарных операций. Допустим, что в первом столбце матрицы А(Х) имеются элементы, не равные тождественно нулю. Возьмем среди них многочлен наименьшей степени и путем перестановки строк сделаем его элементом ац(А). После этого разделим многочлен а^1 (А) на ац(А); частное и остаток обозначим через qn(\) и гц(Х): aa (A) =an(A)aa(A) + r»i(A) (г = 2,...,m). 5) При этом принимается, что искомые функции xi,X2,...,xn таковы, что производные от этих функций всех порядков, которые встречаются при преобразованиях, существуют. Тогда две системы уравнений с левоэквивалентными матрицами A(D) и B(D) имеют одни и те же решения.
134 Гл. VI. Эквивалентные преобразования многочленных матриц Вычтем теперь из г-й строки первую строку, предварительно умноженную на qn(X) (г = 2,..., га). Если при этом не все остатки гц(Х) равны тождественно нулю, то тот из них, который не равен нулю и имеет наименьшую степень, может быть перестановкой строк поставлен на место ац(А). В результате всех этих операций степень многочлена ац(А) понизится. Теперь мы снова повторим этот процесс и т. д. Так как степень многочлена an (А) конечна, то на некотором этапе этот процесс уже нельзя будет продолжить, т. е. на этом этапе все элементы 021 (A), 031(A), ...,ami(A) окажутся равными тождественно нулю. После этого возьмем элемент 022(A) и применим ту же процедуру к строкам с номерами 2,3, ...,га. Тогда добьемся того, что и 032(A) = ... = от2(А) = 0. Продолжая так далее, мы в конце концов приведем матрицу ^4(А) к следующему виду: 6ц (А) 0 0 bi2(A) ЫА) 0 ... Ь1т(Х) . ... 62ш(А) . Ьтт\Х) (га ^ п) ■ ■ MA) I • • ЫА) 6тп(Л) | 1 bii(A) 0 0 0 0 612(A) ... 622(A) ... 0 0 0 (га ^ п) ЫА) 62п(А) 6пп(А) 0 0 (5) Если многочлен 622(A) не равен тождественно нулю, то, применяя левую элементарную операцию второго типа, мы сделаем степень элемента 612(A) меньшей, нежели степень 622(A) (если 622(A) имеет нулевую степень, то 612(A) станет тождественно равен нулю). Точно так же, если 633(A) ф 0, то при помощи левых элементарных операций второго типа мы сделаем степени элементов 613(A), 623(A) меньшими, нежели степень 633(A), не изменив при этом элемента 612(A), и т. д. Мы установили следующую теорему. Теорема 1. Произвольная прямоугольная многочленная матрица с размерами га х п при помощи левых элементарных операций всегда может быть приведена к виду (5), где многочлены &i*.(A),&2fc(A), ...,bk-i,k(X) имеют меньшую степень, нежели 6^(А), если только 6^(А) ф 0, и все равны тождественно нулю, если bkk(X) = const Ф 0 (к = 2,3, ...,min(m, n)). Совершенно аналогично доказывается Теорема 2. Произвольная прямоугольная многочленная матрица с размерами га х п при помощи правых элементарных операций всегда может быть приведена к виду си (А) P2l(A) 0 С22(А) Cml(A) Cm2(A) • • • ^ттп (га ^ п) (А) 0 си (А) c2i(A) 0 С22(А) Cni(A) cn2(A) ... спп(А) Cwi(A) cm2(A) ... cmn(A) (га ^ п) (б) где многочлены c*;i(A),ca;2(A), ..., Ck^-i(X) имеют меньшую степень, нежели сд.д.(А), если только с^(А) ф 0, и все равны тождественно нулю, если с^(А) = = const фО (к = 2,3,..., min (га, п)).
§2. Канонический вид А-матрицы 135 2. Из теорем 1 и 2 вытекает следующее Следствие. Если определитель квадратной многочленной матрицы Р(Х) не зависит от X и отличен от нуля, то эту матрицу можно представить в виде произведения конечного числа элементарных матриц. Действительно, согласно теореме 1 матрицу Р(Х) при помощи левых элементарных операций можно привести к виду II Ьц(Л) 6i2(A) ... MA) II О 622(A) ... &2п(А) /7ч I 0 0 ... МА) | где п — порядок матрицы Р(Х). Так как при применении элементарных операций к квадратной многочленной матрице определитель этой матрицы умножается лишь на постоянный отличный от нуля множитель, то определитель матрицы (7), как и определитель Р(А), не зависит от А и отличен от нуля, т. е. Ьц(Х)Ь22(Х)... bnn(X) = const ф 0. Отсюда bkkW = const / 0 (к = 1,2,...,п). Но тогда в силу той же теоремы 1 матрица (7) имеет диагональный вид Цбд-л^Ц]1 и потому может быть приведена при помощи левых элементарных операций типа 1° к единичной матрице Е. Тогда и, обратно, единичную матрицу Е можно привести к Р(Х) при помощи левых элементарных операций с матрицами Si,S2, ...,5Р. Следовательно, Р(Х) = SpSp-i...S\E = SpSp—i ...Si. Из доказанного следствия получаем (см. с. 132) равносильность двух определений 2и2' эквивалентности многочленных матриц. 3. Вернемся к нашему примеру системы дифференциальных уравнений (4). Применим теорему 1 к матрице операторных коэффициентов ||а^(2Э)||. Тогда, как было указано на с. 132, система (4) заменится равносильной системой b11(D)x1+b12(D)x2 +... + bls(D)xs = -bi,8+i(D)x8+i-...-bin(D)xn, b22{D)x2 + ... + b2s{D)xs = -b2,s+i(D)xs+i ~ ». - b2n(D)xn, ^ bss(D)xs = -b8t8+i(D)x8+i - ... - b8n(D)xn, где s = min (m, n). В этой системе мы можем выбрать функции rre+i,..., хп произвольно, после чего последовательно определятся функции х8,х8-1,...,х±, причем на каждом этапе этого определения приходится интегрировать одно дифференциальное уравнение с одной неизвестной функцией. 4. Перейдем теперь к установлению "канонического" вида, к которому можно привести прямоугольную многочленную матрицу А(Х), применяя к ней как левые, так и правые элементарные операции. Среди всех не равных тождественно нулю элементов a;fc(A) матрицы А(Х) возьмем тот элемент, который имеет наименьшую степень относительно А, и путем соответствующей перестановки строк и столбцов сделаем его элементом ац(А). После этого найдем частные и остатки от деления многочленов ал (А) и aik(X) на ац(А): о<1 (A) =aii(A)gii(A)+ra(A), а1к(Х) = an(X)qlk(X) + г1к(Х) (г = 2,3,...,ш; к = 2,3, ...,п).
136 Гл. VI. Эквивалентные преобразования многочленных матриц Если хотя бы один из остатков гц(Х), rik(X) (г = 2, ...,т; к = 2,...,п), например, riA;(A), не равен тождественно нулю, то, вычитая из к-ro столбца первый столбец, предварительно умноженный на ди(А), мы заменим элемент aik(X) остатком rifc(A), который имеет меньшую степень, нежели ац(Л). Тогда мы имеем возможность снова уменьшить степень элемента, стоящего в левом верхнем углу матрицы, поместив на это место элемент с наименьшей степенью относительно Л. Если же все остатки r2i(A), ..., rmi(A); ri2(A), ..., rin(A) равны тождественно нулю, то, вычитая из г-й строки первую, умноженную предварительно на qn(X) (г = 2, ...,т), а из к-го столбца — первый, предварительно умноженный на qik(X) (к = 2, ...,п), мы приведем нашу многочленную матрицу к виду an (А) О О «22(A) О «2п(А) О aw2(A) г(А) Если при этом хотя бы один из элементов а^(А) (г = 2, ...,т; к = 2, ...,п) не делится без остатка на an (А), то, прибавляя к первому столбцу тот столбец, который содержит этот элемент, мы придем к предыдущему случаю и, следовательно, снова сможем заменить элемент ац(А) многочленом меньшей степени. Поскольку первоначальный элемент an (А) имел определенную степень и процесс уменьшения этой степени не может неограниченно продолжаться, то после конечного числа элементарных операций мы должны получить матрицу вида ai(A) О О ЫА) О ЫА) (8) О Ьт2(Х) ... Ьтп(Х) в которой все элементы bik(X) делятся без остатка на ai(A). Если среди этих элементов 6^ (А) имеются не равные тождественно нулю, то, продолжая тот же процесс приведения для строк с номерами 2, ...,т и столбцов с номерами 2, ...,п, мы приведем матрицу (8) к виду ai(A) О О О а2(А) О О О сзз(А) О О Стз(Х) О О сзп(А) г(А) где а2(А) делится без остатка на ai(A), а все многочлены с^(А) делятся без остатка на 02(A). Продолжая этот процесс далее, мы в конце концов придем к матрице вида ai(A) 0 ... О 0 ... О О а2(А) ... О 0 ... О (9) где многочлены ai(A),a2(A), ...,as(A) (s ^ га, п) не равны тождественно нулю и каждый из них делится без остатка на предыдущий.
§3. Инвариантные многочлены и элементарные делители 137 Умножая первые s строк на соответствующие отличные от нуля числовые множители, мы сможем добиться того, чтобы старшие коэффициенты многочленов ai(A),02(A),...,oe(A) были равны единице. Определение 3. Многочленная прямоугольная матрица называется канонической диагональной, если она имеет вид (9), где: 1) многочлены ai(A),a2(A),... ...,as(A) не равны тождественно нулю; 2) каждый из многочленов 02(A), ...,as(A) делится без остатка на предыдущий. При этом предполагается, что старшие коэффициенты всех многочленов ai(A), 02(A), ...,as(A) равны единице. Таким образом, мы доказали, что произвольная прямоугольная многочленная матрица А(Х) эквивалентна некоторой канонической диагональной. В следующем параграфе мы покажем, что многочлены ai(A), 02(A), ...,as(A) однозначно определяются заданием матрицы А(Х), и установим формулы, связывающие эти многочлены с элементами матрицы А(Х). § 3. Инвариантные многочлены и элементарные делители многочленной матрицы 1. Введем понятие инвариантных многочленов А-матрицы А(Х). Пусть многочленная матрица А(Х) имеет ранг г, т. е. в этой матрице имеются не равные тождественно нулю миноры r-го порядка, в то время как все миноры порядка > г тождественно относительно А равны нулю. Обозначим через Dj(X) наибольший общий делитель всех миноров j-ro порядка матрицы А(Х) (j = 1,2, ...,г) 6). Тогда, как нетрудно видеть, в ряду ад), A-i(A), »., I>i(A), А>(А) = 1 каждый многочлен делится без остатка на последующий7). Соответствующие частные обозначим через ii(A), 22(A),..., гг(Л): ^ = £$k- «A> = §S$ «ч-£$-ад>. a») Определение 4. Многочлены г*1(А),г*2(А), ...,гг(А), определяемые формулами (10), называются инвариантными многочленами прямоугольной матрицы ^4(А). Термин "инвариантные многочлены" связан со следующими соображениями. Пусть А(Х) и В(Х) — две эквивалентные многочленные матрицы. Тогда они получаются друг из друга при помощи элементарных операций. Но нетрудно непосредственно проверить, что элементарные операции не изменяют ни ранга г матрицы А(Х), ни самих многочленов Di(X),D2(X),...,Dr(X). Действительно, применяя к тождеству (3") формулу, выражающую минор произведения матриц через миноры сомножителей (см. с. 21), мы для произвольного минора матрицы В(Х) получим выражение В ( h h • • • Jp . Л _ \ki к2 ... кр ' J 6) В каждом Dj(X) берем старший коэффициент равным единице. 7) Если к какому-нибудь минору j-ro порядка применить разложение Безу по элементам какой-либо строки, то каждое слагаемое в этом разложении будет делиться на Dj-i(X); следовательно, любой минор j-ro порядка, а значит, и Dj(X), делится на £>,•_!(А) 0* = 2,3,..., г).
138 Гл. VI. Эквивалентные преобразования многочленных матриц £ К/?1</?2<...</?р^П ( h h • • • jp \ \Q!l Oi2 ... OCp J Oil 0L2 Pi 02 °fcAQlfil 02 ■■■pp fa k2 (p = 1,2,..., min (m, n)). Отсюда следует, что все миноры порядка ^ г матрицы В(Х) равны нулю и, следовательно, для ранга г* матрицы В(Х) имеем г ^ г. Кроме того, из этой же формулы вытекает, что D*(X) — наибольший общий делитель всех миноров р-го порядка матрицы В(Х) — делится на DP(X) нацело (р = 1,2,..., min (га, п)). Но матрицы А(Х) и В(Х) можно поменять ролями. Поэтому г ^ г*, и DP(X) делится без остатка на D*(X) (p= 1,2, ...,min(ra, п)). Отсюда8) г = г D*1(X)=D1(X), DS(\)=D2(\), D;(\)=Dr(\). Поскольку элементарные операции не меняют многочленов D\ (А), D2 (А),..., Dr(X), то они не изменяют и многочленов i\(X),i2(X), ...,гг(А), определяемых формулами (10). Таким образом, многочлены ii(A), 22(A), ...,гг(А) остаются неизменными, инвариантными при переходе от одной матрицы к другой, ей эквивалентной. Если многочленная матрица имеет канонический диагональный вид (9), то, как нетрудно видеть, для этой матрицы £>i(A)=ai(A), 02(A) =ai(A)a2(A), Д.(А) = ai(A)a2(A) ...ar(A). Но тогда в силу соотношений (10) диагональные многочлены а\(Х),а2(Х), ...,ar(A) в (9) совпадают с инвариантными многочленами ii(A) = or (А), г2(А) = ar_i(A), ..., гг(А) = oi(A). (11) Здесь гх(А),г2(А), ...,гг(А) являются одновременно и инвариантными многочленами исходной матрицы А(Х), поскольку эта матрица эквивалентна матрице (9). Полученные результаты мы можем сформулировать в виде следующей теоремы. Теорема 3. Многочленная прямоугольная матрица А(Х) всегда эквивалентна канонической диагональной матрице (12) гг(А) 0 0 0 0 ir-i(X) . 0 0 ..00. ..00. .. ti(A) 0 . ..00. . 0 .. 0 .. 0 .. 0 о о о о о При этом здесь обязательно г — ранг, a ii(X),i2(X), ...,ir(X) — инвариантные многочлены матрицы А(Х), определяемые формулами (10). Следствие 1. Для того чтобы две прямоугольные матрицы одинаковых размеров А(Х) и В(Х) были эквивалентны, необходимо и достаточно, чтобы они имели одни и те же инвариантные многочлены. ) Старшие коэффициенты у -Dp(А) и -Dp(А) (р = 1, 2,..., г) равны единице.
§3. Инвариантные многочлены и элементарные делители 139 Действительно, необходимость этого условия была выяснена выше. Достаточность следует из того, что две многочленные матрицы, имеющие одни и те же инвариантные многочлены, эквивалентны одной и той же канонической диагональной матрице и, следовательно, эквивалентны между собой. Таким образом, инвариантные многочлены образуют полную систему инвариантов Х-матрицы. Следствие 2. В ряду инвариантных многочленов ^ = £3гу ^> = eS§f •••• ^ = Ш) (Д>(Л) = 1) (13) каждый многочлен, начиная со второго, является делителем предыдущего. Это утверждение не вытекает непосредственно из формул (13). Оно следует из того, что многочлены ii(Л), 22(A), ...,гг(Л) совпадают с многочленами аг(Л), ar_i(A),...,ai(A) канонической диагональной матрицы (9). 2. Укажем методы вычисления инвариантных многочленов для квазидиагональных А-матриц, если известны инвариантные многочлены матриц, стоящих в диагональных клетках. Теорема 4. Если в квазидиагональной прямоугольной матрице ™-(Т *?А,) любой инвариантный многочлен матрицы А(Х) является делителем любого инвариантного многочлена матрицы В(Х), то совокупность инвариантных многочленов матрицы С(Х) получается объединением инвариантных многочленов матриц А(Х) и В(Х). Доказательство. Обозначим через г,1(А),г2(А), ...,iJ,(A) и г,/(А),г2,(А),... ...,г^(А) соответственно инвариантные многочлены А-матриц А(Х) и В(Х). Тог- да9) А(Х) ~ К(Л), ..., ti(A), 0, ..., 0}, В(Х) ~ {ДО, ..., г'/(Л), 0, ..., 0} и, следовательно, С(Л) ~ {i'r(X), ..., г'х(А), ДО, ..., ДО, 0, ..., 0}. (14) А-матрица, стоящая в правой части этого соотношения, имеет каноническую диагональную форму. Тогда, согласно теореме 3, не равные тождественно нулю диагональные элементы этой матрицы образуют полную систему инвариантных многочленов матрицы С(А). Теорема доказана. Для того чтобы в общем случае при произвольных инвариантных многочленах матриц А(Х) и В(Х) определить инвариантные многочлены С(А), мы воспользуемся важным понятием об элементарных делителях. Разложим инвариантные многочлены ii(A),^2(A), ...,гг(А) на неприводимые в данном числовом поле К множители: *i(A) = [V»i(A)]c4^(A)]Ca...b.(A)]c-, ЫА) = МА)]*ЫА)]*...ЫА)]'-, (15) гг(А) = ЫА)]<Ч*>2(А)]Ь...ЫА)]<« (ck> dk> ... > lk > 0; fc = l,2,...,s)10). 9) Знаком ~ мы здесь обозначаем эквивалентность матриц, а фигурными скобками {} — диагональную прямоугольную матрицу вида (12). 10) Некоторые из показателей Ck,dk,---,lk (k = 1,2, ...,s) могут равняться нулю.
140 Гл. VI. Эквивалентные преобразования многочленных матриц Здесь <£>i(A),<£>2(A), ...,<£« (А) — все различные неприводимые в поле К многочлены (со старшими коэффициентами, равными единице), входящие в состав ii(A),22(A),...,ir(A). Определение 5. Все отличные от единицы степени среди [<£i(A)]Cl,... ...,[(ps(\)]ls в разложении (15) называются элементарными делителями матрицы А(Х) в поле К11). Теорема 5. Совокупность элементарных делителей прямоугольной квазидиагональной матрицы С(А) = всегда получается объединением элементарных делителей матрицы А(Х) с элементарными делителями матрицы В(Х). Доказательство. Разложим инвариантные многочлены матриц А(Х) и В(Х) на неприводимые в поле К множители12): ti(A) = MA)]^2(A)]CL. MA)]'-, »i'(A) = ЫА)И'ЫА)]С* - MA)]'.', ^(A) = MA)]d'*MA)]dL. Ы\)}<, i'i{\) = МА)]<ЫА)]«* ••• Vps{\)]d", i'r(X) = MA)f iMA)]"2... [v>.(A)]*i, tJ(A) = MA)FMA)F- b.(A)]»". Обозначим через ci ^ di ^ ... ^ /i > 0 (16) все отличные от нуля числа среди с\, d[,..., /i7l5 с7/, d", ...,#". Тогда матрица (7(A) эквивалентна матрице (14), а последняя перестановкой строк и столбцов может быть приведена к "диагональному" виду {МА)Р • (*), MA)]dl • (*), ..., MA)]'1 • (*), (**), .... (**)}, (17) где через (*) мы обозначили многочлены, взаимно простые с <£>i(A), а через (**) — многочлены, взаимно простые с <pi(X) либо тождественно равные нулю. Из вида матрицы (17) непосредственно вытекают следующие разложения многочленов Dr(A), Dr-i(A),... и ii(A),*2(A),... для матрицы С(Х): ВД) = MA)P+dl+"+h • (*), A--i(A) = MA)]dl+-+h ■ (*), ... »i(A) = [Vl(A)r-(*), t2(A) = [¥»1(A)]*.(*), ... Отсюда следует, что [y>i(A)]Cl, [<£>i(A)]dl,..., [y?i(A)]/l, т. е. все не равные единице из степеней MA)]ci, -.., bi(A)]*i, [^(Л)]с", ..., [^(А)]»", являются элементарными делителями матрицы С(А). Аналогично определяются элементарные делители матрицы С(А), являющиеся степенями ^(А) и т. д. Теорема доказана. Примечание. Совершенно аналогично предыдущему можно построить теорию эквивалентности для целочисленных матриц (т. е. матриц, у которых 11) Формулы (15) дают возможность не только по инвариантным многочленам определить элементарные делители А(Х) в поле К, но и, наоборот, по элементарным делителям определить инвариантные многочлены. 12) Если какой-либо неприводимый многочлен (fk(X) входит множителем в одни инвариантные многочлены и не входит в другие, то в эти последние многочлены мы вписываем (fk(X) с нулевым показателем. А(Х) 0 \ I 0 В(Х)
§3. Инвариантные многочлены и элементарные делители 141 элементы — целые числа). При этом в 1°, 2° (см. с. 130) с = ±1, Ь(Х) заменяется целым числом, а в формулах (3), (3'), (3") вместо Р(Х) и Q(X) стоят целочисленные матрицы с определителями, равными ±1. 3. Пусть дана теперь матрица А = Ца^Ц? с элементами из поля К. Составим для нее характеристическую матрицу Л — оц — ai2 ... —din —0,21 А — CZ22 • • • — «2п ХЕ-А = (18) —ani ~ап2 • • • А — апп Характеристическая матрица является Л-матрицей ранга п. Ее инвариантные многочлены <i(A) = Аг(А) г2(А) = Ai-i(A) «п(А) = А (Л) (Д>(А) = 1) (19) £>n_i(A)' "v'v Аг-2(А)' -' 'wv'v Д>(А) называются инвариантными многочленами матрицы А, а соответствующие элементарные делители в поле К — элементарными делителями в поле К матрицы А. Первый инвариантный многочлен ii(A) совпадает с минимальным многочленом ^(А) матрицы А13). Знание инвариантных многочленов (а следовательно, и элементарных делителей) матрицы А позволяет исследовать ее структуру. Поэтому представляют интерес практические способы вычисления инвариантных многочленов матрицы. Сами формулы (19) дают алгоритм для вычисления этих многочленов, но этот алгоритм при больших п очень громоздок. Теорема 3 дает другой способ вычисления инвариантных многочленов, основанный на приведении характеристической матрицы (18) при помощи элементарных операций к каноническому диагональному виду. Пример. А = 3 -4 б -14 1 -1 1 -5 0 0 2 -1 ХЕ-А = А-3 4 -б 14 -1 А + 1 -1 5 0 0 А-2 1 В характеристической матрице ХЕ — А прибавим к четвертой строке третью, предварительно умноженную на А: А-3 -1 0 0 4 А+1 0 0 -б -1 А-2 -1 14-6А 5-А А2-2А + 1 0 Теперь, прибавляя к первым трем столбцам четвертый, предварительно умноженный соответственно на А- 4 0 14-6А -1,А- -1 А + 1 0 5-А 2, получим 0 0 0 А2 - 2А + 1 0 0 -1 0 К первому столбцу прибавляем второй, умноженный на А — 3: 0-100 А2-2А + 1 А + 1 0 0 0 0 0-1 -А2 + 2А-1 5-А А2-2А + 1 0 13) См. формулу (49) на с. 96; там А(А) = Dn(X).
142 Гл. VI. Эквивалентные преобразования многочленных матриц Прибавим ко второй и четвертой строкам первую, умноженную соответственно на Л + 1 и 5 — Л; найдем II 0 -10 0 II А2 - 2А + 1 0 0 0 0 0 0 -1 Г || -А2 + 2А-1 0 А2-2А + 1 0 || Прибавим к четвертой строке вторую, затем умножим первую и третью строки на —1. После перестановки строк и столбцов получим || 1 0 0 0 || 0 1 0 0 0 0 (А - I)2 0 || 0 0 0 (А-1)2 || Матрица А имеет два элементарных делителя: (А — I)2 и (А — I)2. § 4. Эквивалентность линейных двучленов В предыдущих параграфах мы рассматривали прямоугольные А-матрицы. В этом же параграфе мы рассмотрим две квадратные А-матрицы А(Х) и В(Х) n-го порядка, у которых все элементы имеют степень не выше единицы относительно А. Эти многочленные матрицы могут быть представлены в виде матричных двучленов: А(Х) = А0Х + Аь В(Х) = В0Х + Вг. Мы будем предполагать, что эти двучлены имеют первую степень и регулярны, т. е. что \А0\ ф 0, |Д)| ф 0 (см. с. 84). Следующая теорема устанавливает критерий эквивалентности таких двучленов. Теорема 6. Если два регулярных двучлена первой степени А§Х + А\ и В§Х + + В\ эквивалентны, то эти двучлены строго эквивалентны, т. е. в тождестве В0Х + Вг= Р(Х)(А0Х + Ai)Q(A) (20) можно .Р(А) и Q(X) — матрицы с постоянными и отличными от нуля определителями — заменить постоянными невырожденными матрицами Р и Q14): В0Х + Вг= Р(А0Х + AX)Q. (21) Доказательство. Так как определитель матрицы Р(А) не зависит от А и отличен от нуля15), то обратная матрица М(Х) = Р_1(А) также будет многочленной. Пользуясь этой матрицей, мы тождество (20) перепишем в виде М(А)(Б0А + Вг) = (А)А + Ai)Q(A). (22) 14) Тождество (21) равносильно двум матричным равенствам: Во = PAoQ и В\ = = PAiQ. 15) Эквивалентность двучленов АоА + А\ и ВцХ + В\ означает наличие тождества (20), в котором |Р(А)| = const ф 0 и |Q(A)| = const ф 0. Однако последние соотношения в данном случае вытекают из самого тождества (20). Действительно, определители регулярных двучленов первой степени имеют степень п: |A)A + Ai| = |A0|An + ..., |£oA + £i| = |£o|An + ...; \А0\ ф 0, |Д>| ф 0. Поэтому из \BoX-\-Bi\ = |Р(А)||А0А +Ai||Q(A)| следует |Р(А)| = const ф 0, |Q(A)| = const ф 0.
§ 5. Критерий подобия матриц 143 Рассматривая М(Л) и Q(X) как матричные многочлены, разделим М(Л) слева на А0Х + Ai, a Q(X) — справа на В0Х + В\: М(Л) = (А0Х + Ai)5(A) + М, (23) Q(X)=T(X)(B0X + B1) + Q; (24) здесь М и Q — постоянные (не зависящие от Л) квадратные матрицы п-го порядка. Полученные выражения для М(Л) и Q(X) поставим в (22). После небольших преобразований получим (А0Х + Ai)[T(A) - S(X)](B0X + Вг) = М(В0Х + Вх) - (А0Х + AX)Q. (25) Разность, стоящая в квадратных скобках, должна тождественно равняться нулю, так как в противном случае произведение, стоящее в левой части равенства (25), имело бы степень ^ 2, в то время как в правой части этого же равенства стоит многочлен не выше первой степени. Поэтому 5(A) =Г(А); (26) но тогда из (25) получим М(В0Х + Вг) = (А0Х + Ax)Q. (27) Покажем теперь, что М — невырожденная матрица. Для этого разделим Р(Х) слева на BqX + В\: Р(Х) = (В0Х + ВгЩХ) + Р. (28) Из (22), (23) и (28) следует Е = М (А)Р(А) = М(А)(Б0А + Вг)ЩХ) + М(Х)Р = = (А0Х + AX)Q(X)U(X) + (АоХ + A1)S(X)P + MP = = (А0Х + Ai)[Q(A)£7(A) + S(X)P] + MP. (29) Так как последняя часть этой цепочки равенств должна иметь нулевую степень относительно А (поскольку она равна Е), то выражение в квадратных скобках должно тождественно равняться нулю. Но тогда из (29) MP = Е. (30) Отсюда следует \М\ /0 и М-1 = Р. Умножая обе части равенства (27) слева на Р, получим БоА + Pi =P(A)A + Pi)Q. Невырожденность матрицы Р следует из (30). Но невырожденность матриц Р и <2, следует и из самого тождества (21), так как из этого тождества вытекает равенство В0 = PA0Q, ИП0Т0МУ |Р||Ло|Ю| = |Д>|#0. Теорема доказана. Примечание. Из доказательства следует [см. (24) и (28)], что в качестве постоянных матриц Р и Q, которыми мы заменяем А-матрицы Р(А) и Q(X) в тождестве (20), можно взять соответственно левый и правый остатки от деления Р(А) и Q(X) на Р0А + Вг.
144 Гл. VI. Эквивалентные преобразования многочленных матриц § 5. Критерий подобия матриц Пусть дана матрица А = \\a,ik\\i с числовыми элементами из поля К. Ее характеристическая матрица ХЕ — А является Л-матрицей ранга п и потому имеет п инвариантных многочленов (см. § 3) н(Х), г2(А), ..., гп(А). Следующая теорема показывает, что эти инвариантные многочлены определяют исходную матрицу А с точностью до преобразования подобия. Теорема 7. Для того чтобы две матрицы А = Ца^Ц? и В = \\bik\\i были подобны (В = Г-1 AT), необходимо и достаточно, чтобы они имели одни и те же инвариантные многочлены, или, что то же, одни и те же элементарные делители в поле К. Доказательство. Необходимость. Действительно, если матрицы А и В подобны, то существует такая невырожденная матрица Т, что В = Т~1АТ. Отсюда ХЕ-В = Т~1(ХЕ-А)Т. Это равенство показывает, что характеристические матрицы ХЕ — А и ХЕ — В эквивалентны и потому имеют одни и те же инвариантные многочлены. Достаточность. Пусть характеристические матрицы ХЕ — А и ХЕ — В имеют одни и те же инвариантные многочлены. Тогда эти Л-матрицы эквивалентны (см. следствие 1 из теоремы 3), и, следовательно, существуют две многочленные матрицы -Р(А) и Q(X) такие, что ХЕ-В = Р(Х)(ХЕ - A)Q(X). (31) Применяя к матричным двучленам ХЕ — А и ХЕ — В теорему 6, мы можем в тождестве (31) заменить Л-матрицы Р(Х) и Q(X) постоянными матрицами Р и£: ХЕ-В = Р(ХЕ - A)Q, (32) причем в качестве Р и Q можно взять (см. примечание на с. 143) соответственно левый и правый остатки от деления Р(Х) и Q(X) на ХЕ — В, т. е. на основании обобщенной теоремы Безу можно положить16) Р = Р(В), Q = Q{B). (33) Приравнивая в обеих частях равенства (32) коэффициенты при нулевой и при первой степенях Л, получим В = PAQ, Е = PQ, т. е. В = Т~ХАТ, где T = Q = P~1. Теорема доказана. Замечание. Попутно нами установлено следующее предложение, которое мы сформулируем как 16) Напоминаем, что Р(В) — левое значение многочлена Р(Л), a Q(B) — правое значение многочлена Q(X) после замены Л на В (см. с. 86-89).
§ 6. Нормальные формы матрицы 145 Добавление к теореме 7. Если А = Ца^Ц? и В = \\bik\\i — две подобные матрицы В = Т~ХАТ, (34) то в качестве преобразующей матрицы Т можно взять матрицу T = Q(B) = [P(B)]~\ где Р(Х) и Q{\) — многочленные матрицы в тождестве ХЕ-В = Р(Х)(ХЕ - A)Q(X), (35) связывающем эквивалентные характеристические матрицы ХЕ — А и ХЕ — В; в формуле (35) Q(B) обозначает правое значение матричного многочлена Q(A), а Р(В) — левое значение матричного многочлена Р(Х) при замене аргумента X матрицей В. § 6. Нормальные формы матрицы 1. Пусть дан некоторый многочлен с коэффициентами из поля К g(\) = Xm + aiAm_1 + ... + aw_iA + am. Рассмотрим квадратную матрицу ш-го порядка L = 0 1 0 0 . 0 . 1 . .. 0 .. 0 .. 0 -<*т -ttffl-1 -Oim-2 О О -ах (36) Нетрудно проверить, что многочлен д(Х) является характеристическим многочленом матрицы L: \ХЕ -Ц = X -1 0 0 0 А -1 0 0 . 0 . А . 0 . 0 0 0 . -1 OLm Oim-1 OLm-2 ol\ + A = ff(A). С другой стороны, минор элемента ат в характеристическом определителе равен ±1. Поэтому Dm-i(X) = 1 и ii(A) = Dm(X)/Dm-i(X) = Dm(X) = р(А), t2(A) = ... = t„(A) = l. Таким образом, матрица L имеет единственный отличный от единицы инвариантный многочлен, равный д(Х). Матрицу L мы будем называть сопровождающей матрицей для многочлена д(Х). Пусть дана матрица А = \\aik\\i с инвариантными многочленами п(А), г2(А), ..., г*(A), it+i(A) = 1, ..., гп(А) = 1. (37) Здесь все многочлены ii(A),«2(A), ...,г^(А) имеют степень выше нулевой, причем каждый из этих многочленов, начиная со второго, является делителем предыдущего. Сопровождающие матрицы для этих многочленов обозначим через Li,L2,...,£*.
146 Гл. VI. Эквивалентные преобразования многочленных матриц Тогда квазидиагональная матрица n-го порядка L/ = {Li,L2,...,Lt} (38) имеет своими инвариантными многочленами многочлены (37) (см. теорему 4 на с. 139). Поскольку матрицы А и L/ имеют одни и те же инвариантные многочлены, они подобны, т. е. всегда существует такая невырожденная матрица U (1^1/0), что А = ULi\J-x. (I) Матрица L/ называется первой естественной нормальной формой для матрицы А. Эта нормальная форма характеризуется: 1) квазидиагональным видом (38); 2) специальной структурой диагональных клеток (36); 3) дополнительным условием: в ряду характеристических многочленов диагональных клеток каждый многочлен, начиная со второго, является делителем предыдущего17). 2. Обозначим теперь через Xi(A), X2(A), ..., Х«(А) (39) элементарные делители матрицы А = Ца^Ц^ в числовом поле К. Соответствующие сопровождающие матрицы обозначим через Поскольку Xj(A) — единственный элементарный делитель матрицы L^ (j = = 1,2, ...,и)18), то, согласно теореме 5, квазидиагональная матрица Ln = {№,№,...,№} (40) имеет своими элементарными делителями многочлены (39). Матрицы А и Ьц имеют одни и те же элементарные делители в поле К. Поэтому эти матрицы подобны, т. е. существует всегда такая невырожденная матрица V (\V\ ф 0), что A = VLIIV~1. (II) Матрица Ьц называется второй естественной нормальной формой для матрицы А. Эта нормальная форма характеризуется: 1) квазидиагональным видом (40); 2) специальной структурой диагональных клеток (36); 3) дополнительным условием: характеристический многочлен каждой диагональной клетки представляет собой степень неприводимого в поле К многочлена. Замечание. Элементарные делители матрицы А, в отличие от инвариантных многочленов, существенно связаны с данным числовым полем К. Если мы вместо исходного числового поля К возьмем другое числовое поле (которому также принадлежат элементы данной матрицы А), то элементарные делители могут измениться. Вместе с элементарными делителями изменится и вторая естественная нормальная форма матрицы. Так, например, пусть дана матрица А = Ца^Цу с вещественными элементами. Характеристический многочлен этой матрицы будет иметь вещественные коэффициенты. В то же время этот многочлен может иметь комплексные корни. Если X — поле вещественных чисел, то среди элементарных делителей могут 17) Из условий 1)-3) автоматически следует, что характеристические многочлены диагональных клеток в L/ являются инвариантными многочленами матрицы L/ и, следовательно, матрицы А. 18) Xj(A) — единственный инвариантный многочлен матрицы L(j) и в то же время Xj(A) есть степень неприводимого в поле К многочлена.
§ 6. Нормальные формы матрицы 147 быть и степени неприводимых квадратных трехчленов с вещественными коэффициентами. Если К — поле комплексных чисел, то каждый элементарный делитель имеет вид (Л — Ао)р. 3. Допустим теперь, что числовое поле К содержит не только элементы матрицы А, но и все характеристические числа этой матрицы19). Тогда элементарные делители матрицы А имеют вид20) (Л - ЛхГ, (Л - А2Г, ..., (Л - ХиГ" (рх +р2 + ... +р„ = п). (41) Рассмотрим один из таких элементарных делителей (А-АоГ и поставим ему в соответствие следующую матрицу порядка р: II Л0 1 0 ... О О Ао 1 ... О О 0 0 ... 1 II 0 0 0 ... Ао Нетрудно проверить, что эта матрица имеет только один элементарный делитель (А — Ао)р. Матрицу (42) мы будем называть жордановой клеткой, соответствующей элементарному делителю (А — Ао)р. Жордановы клетки, соответствующие элементарным делителям (41), обозначим через Ji, J2, ..., Ju. Тогда квазидиагональная матрица J = {Ji, J2,..., Ju] имеет своими элементарными делителями степени (41). Матрицу J можно еще записать так: J = {А1.Е1 + Hi, Х2Е2 + Н2, ..., \UEU + HU}, где Ek = E^\ Hk = Н<*ь) (k = 1,2, ...,ti). Поскольку матрицы А и J имеют одни и те же элементарные делители, они подобны между собой, т. е. существует такая невырожденная матрица Т (\Т\ ф 0), что А = TJT-1 = Т{Х1Е1 + Ни Х2Е2 + Я2, ..., \иЕи + tf^jT"1. (Ill) Матрица J называется жордановой нормальной формой или просто жордановой формой матрицы А. Жорданова форма характеризуется квазидиагональным видом и специальной структурой (42) диагональных клеток. ') Это всегда имеет место для любой матрицы А, если К — поле комплексных чисел. ') Среди чисел Ai, A2,..., \и могут быть и равные между собой. = А0£(р)+#^. (42)
148 Гл. VI. Эквивалентные преобразования многочленных матриц На нижеследующей схеме выписана жорданова матрица J при элементарных делителях (Л - Ai)2, (Л - Л2)3, Л - Л3, (Л - А4)2: J = Ai 0 0 0 0 0 0 0 1 Ai 0 0 0 0 0 0 0 0 А2 0 0 0 0 0 0 0 1 А2 0 0 0 0 0 0 0 1 А2 0 0 0 0 0 0 0 0 Аз 0 0 0 0 0 0 0 0 А4 0 0 0 0 0 0 0 1 А4 (43) Если все элементарные делители матрицы А первой степени (и только в этом случае), то жорданова форма является диагональной матрицей, и в этом случае мы имеем А = Г{А1,А2,...,АП}Т-1. (44) Таким образом, матрица А имеет простую структуру (см. гл. III, § 8) в том и только том случае, когда все ее элементарные делители имеют первую степень21). Иногда вместо жордановой клетки (42) рассматривают "нижнюю" жорданову клетку р-ro порядка Ао 1 О Ао 0 0 Ао 1 0 0 0 Ао = A0£(p)+F^. Эта матрица также имеет только один элементарный делитель (А — Ао)р. Элементарным делителям (41) соответствует "нижняя" жорданова матрица22) J(i) = {Ai-Ea + -Fi, A2i£2 + F2, ..., \UEU + Fu} (Ek = E^\ Fk = F<**>; k = 1,2, ...,ti). Произвольная матрица А, имеющая элементарные делители (41), всегда подобна матрице J(X), т. е. существует такая невырожденная матрица Т\ (|Ti| /0), что А = ?i J^Tf1 = Т1{Х1Е1 + Fi, А2Я2 + F2, ..., ХпЕп + Fn}T^\ (IV) Заметим еще, что если Ао / 0, то каждая из матриц А0 (Я(р) + #(р)), А0 (£(р) + F<*)) имеет только один элементарный делитель: (А — Ао)р. Поэтому для невырожденной матрицы А, имеющей элементарные делители (41), наряду с (III) и (IV) имеют место представления A = T2{\i(E1+H1), А2(Я2+#2), ..., \и(Еи + Ни)}Тъ\ (V) A = TZ{\1(E1+F1), A2(£2+F2), ...,XU(EU + FU)}T^\ (VI) 21) Часто вместо "элементарные делители первой степени" говорят "линейные элементарные делители" или "простые элементарные делители". 22) В отличие от нижней жордановой матрицы J^ матрицу J иногда называют верхней жордановой матрицей.
§ 7. Элементарные делители матрицы f(A) 149 § 7. Элементарные делители матрицы f(A) 1. В настоящем параграфе рассмотрим следующую задачу. Даны элементарные делители (в поле комплексных чисел) матрицы А = Ца^Цу и дана функция /(Л), определенная на спектре матрицы А. Требуется определить элементарные делители (в поле комплексных чисел) матрицы f(A). Обозначим через (Л-ЛхГ, (Л-Л2Г, ..., (А-А*)*- элементарные делители матрицы А23). Тогда матрица А подобна жордановой матрице J A = TJT~\ и, следовательно (см. 2° на с. 102), f(A)=Tf(J)T~1. При этом J = {Ji,J2,...,Ju}, Ji = XiE^+H^ (» = 1,2,...,«), hj где (см. пример 2 на с. 103) /ш = 1 /(Ai) 0 1 ° ) = {/(Л),/№),.-,/(Л)}, /'(Ai) 1! /(Ai) - 0 f(pi-l)M 1 ' (Pi ~ 1)! /'(Ai) 1' • /(Ai) (* = 1,- .,«). (45) (46) Поскольку подобные матрицы /(А) и /(J) имеют одни и те же элементарные делители, то в дальнейшем вместо матрицы f(A) мы будем рассматривать матрицу /(J). 2. Определим сначала дефект d матрицы f(A), или, что то же, матрицы /(J)24). Дефект квазидиагональной матрицы равен сумме дефектов отдельных диагональных клеток, а дефект матрицы f(Ji) [см. (46)] равен наименьшему из чисел к{ и pi, где ki — кратность Aj как корня /(А) 25), поскольку /(Ai)=/'(Ai) = ... = /*-1»(Ai) = 0, /<*'>(А«)#0 (i = l, 2,...,«). (46') Нами получена Теорема 8. Дефект матрицы f(A), где матрица А имеет элементарные делители (Л - Air, (А - А2Г, ..., (Л - Л„)"«, (47) определяется формулой и d= ^min (h,pi); (48) г=1 23) Среди чисел Ai, A2,..., \и могут быть и равные между собой. 24) d = п — г, где г — ранг матрицы /(А). 25) В общем случае, когда /(А) не многочлен, под кратностью корня Аг функции /(А) понимают целое число ki, определяемое из условий (46;); ki может и равняться нулю; в этом случае /(Аг) Ф 0.
150 Гл. VI. Эквивалентные преобразования многочленных матриц здесь ki — кратность Xi как корня /(А) (г = 1,2, ...,и). В качестве приложения доказанной теоремы определим все элементарные делители произвольной матрицы А = \\aik\\i, соответствующие характеристическому числу Ло: (А-Ао)2,...,(А-А0)2; ...; (А - А„Г,.... (А - А0)™ . А — An,..., А — An; 91 92 9т где gi ^ 0 (г = 1,2, ...,га — 1), дт > 0, в случае, когда даны дефекты d±, cfe, —•> dm матриц А-\0Е, (А-\0Е)2, ..., (А-\0Е)т. Для этого заметим, что (А — An-E)-7 = fj(A), где fj(X) = (А — An)-7 (j = 1,2,..., га). Поэтому для определения дефекта матрицы (А — An-Е)-7 следует в формуле (48) положить ki = j для элементарных делителей, соответствующих характеристическому числу An, и ki = 0 во всех других слагаемых (j = 1,2, ...,m). Таким образом, получим формулы 9i + 92 + 9з + •. • + 9т= di, 9i + 2#2 + 2#3 + •. • + 2#m = d2, Pi + 2#2 + Зрз + • • • + 3#т = d3, 9i + 2#2 + Зр3 + •.. + rngm = dm. Отсюда26) 9j = %dj - dj-i - dj+i (j = l,2,...,m; d0 = 0, dm+1 = dm). (49) (50) 3. Вернемся к основному вопросу об определении элементарных делителей матрицы f(A). Как уже отмечалось выше, элементарные делители f(A) совпадают с элементарными делителями /(«/), а элементарные делители квазидиагональной матрицы составляются из элементарных делителей диагональных клеток (см. теорему 5). Поэтому вопрос сводится к разысканию элементарных делителей матрицы С, имеющей правильную треугольную форму: «о 0 0 ах . «о 0 . . арах а0 р-1 k=0 Рассмотрим отдельно два случая. 1°. а\ ф 0. Характеристический многочлен матрицы С, очевидно, равен Dp(\) = (\-a0)p. Тогда, поскольку DP(X) делится на Dp-i(X) без остатка, Dp.1(X) = (X-ao)9 (g^p). (51) 26) Если задан ряд чисел б?1,с?2,с?з,..., где dj — дефект степени (А — ХоЕУ (j = 1,2,3, то число т — наибольший из показателей степеней элементарных делителей вида (А — Xo)v — определяется как индекс, при котором dm-i < dm = dm+i.
§ 7. Элементарные делители матрицы f(A) 151 Здесь через Dp-i(X) мы обозначили наибольший общий делитель миноров (р — — 1)-го порядка характеристической матрицы Л — ао —а± ХЕ-С = О Л-а0 — CLp-l -Oi А -а0 О О Легко видеть, что минор нулевого элемента, отмеченного значком +, после деления на А — ао дает в остатке член (—ai)p_1, который в нашем случае отличен от нуля. Поэтому здесь g = 0. Но тогда из Dp(\) = (\-a0)p, Dp_i(A) = l следует, что матрица С имеет только один элементарный делитель (А — ао)р. 2°. а\ = ... = au-i = 0, аи ф 0. В этом случае С = а0Е + акНк + ... + Ор-гН*-1 (Я = Я**)). Поэтому при любом целом положительном j дефект матрицы (С - а0ЕУ = а{Нк* + ... определится равенством Положим Тогда27) -{? при kj < р, при kj > р. p = qk + h (0^h<k). d\ = к, d<z = 2fc, qk, dq+i = p. Поэтому, согласно формулам (50), имеем 9\ = ••• = 9q-\ =0, gq = k-h, gq+1 = h. Таким образом, матрица С имеет элементарные делители (А - ao)*+1,..., (А - ao)*+1, (А - а0)\ ..., (А - а0)я . (52) (53) (54) h к — h где целые числа q > 0 и /i ^ 0 определяются из (52). 4. Теперь мы уже имеем возможность выяснить, какие элементарные делители имеет матрица /(«/) [см. формулы (45) и (46)]. Каждому элементарному делителю матрицы А (А - Хо)р отвечает в матрице /(J) диагональная клетка /'(Ао) /^(Ао) p-i /(АоЯ + #) = $3^!1(Мт- г=0 г! ^Яг /(Ао) 0 1! /(Ао) '• • (р-1)! /'(Ао) 1! /(Ао) (55) 0 0 27) В данном случае число q + 1 играет роль числа ш в формулах (49) и (50) (см. сноску на с. 150).
152 Гл. VI. Эквивалентные преобразования многочленных матриц Очевидно, вопрос сводится к нахождению элементарных делителей клеток вида (55). Но матрица (55) имеет правильную треугольную форму (51), причем здесь /; «о = /(Ло), аг = /'(ло), а2 = з! , - Таким образом, нами получена Теорема 9. Элементарные делители матрицы f(A) получаются из элементарных делителей матрицы А следующим образом: элементарному делителю (А - Хо)р (56) матрицы А при р = 1 или при р > 1 и /'(Ао) Ф 0 отвечает один элементарный делитель (А-/(Ло))р (57) матрицы f(A); при р > 1, /'(Ао) = ... = /^_1ЧАо)> /^(Ао) Ф 0 (к < р) элементарному делителю (56) матрицы А соответствуют следующие элементарные делители матрицы f(A): (A-/(Ao))'+1,...,(A-/(Ao))'+1, (A-/(Ao))V..,(A-/(A0))«, (58) h к — h где p = qk + h, 0 ^ q, 0 ^ h < &; наконец, при р > 1, f'(Xo) = /"(Ao) = ••• = /^-1ЧАо) = О элементарному делителю (56) соответствуют р элементарных делителей первой степени матри- ЦЫ/(А)28): А-/(Ао), ..., А-/(Ас). (59) Отметим следующие частные положения, содержащиеся в этой теореме. 1. Если Ai, А2,..., Ап — характеристические числа матрицы А, то /(Ai), /(А2),..., /(Ап) суть характеристические числа матрицы f(A) (как в первом, так и во втором рядах чисел каждое характеристическое число повторяется столько раз, какова его кратность как корня характеристического уравнения29). 2. Если производная /'(А) не равна нулю на спектре матрицы А30), то при переходе от матрицы А к матрице f(A) элементарные делители не "расщепляются" , т. е. если матрица А имеет элементарные делители (А-АхГ, (А-А2)Р2, ..., (A-An)*», то матрица f(A) имеет элементарные делители (А-/(АХ)Г, (А-/(А2)Г, ..., (А-ДАп))"". § 8. Общий метод построения преобразующей матрицы Во многих вопросах теории матриц и их приложений достаточно знать только нормальную форму, к которой приводится данная матрица А = Цо^Цу преобразованием подобия. Нормальная форма вполне определяется инвариантными 28) (57) получается из (58), если положить к = 1; (59) получается из (58), если положить к = р либо к > р. 29) Предложение 1 было нами отдельно установлено в гл. V, с. 102. 30) То есть /'(Аг) Ф 0 для тех Аг, которые являются кратными корнями минимального многочлена.
§ 8. Общий метод построения преобразующей матрицы 153 многочленами характеристической матрицы ХЕ — А. Для нахождения последних можно воспользоваться определяющими формулами [см. (10) на с. 137] или приведением характеристической матрицы ХЕ — А при помощи элементарных преобразований к канонической диагональной форме. В некоторых же вопросах необходимо знать не только нормальную форму А данной матрицы А, но и преобразующую невырожденную матрицу Т. Непосредственный способ определения матрицы Т состоит в следующем. Равенство _ А = ТАТ'1 переписывается так: _ AT - ТА = 0. Это матричное уравнение относительно Г равносильно системе п2 линейных однородных уравнений относительно п2 неизвестных коэффициентов матрицы Т. Определение преобразующей матрицы сводится к решению этой системы из п2 уравнений. При этом из множества решений необходимо выбрать такое решение, для которого \Т\ ф 0. Существование такого решения обеспечено тем, что матрицы А и А имеют одни и те же инвариантные многочлены31). Заметим, что в то время как нормальная форма определяется однозначно заданием данной матрицы А32), для преобразующей матрицы Г мы всегда имеем бесчисленное множество значений, охватываемых формулой T = UTU (60) где Ti — одна из преобразующих матриц, a U — произвольная матрица, перестановочная с А33). Предложенный выше способ определения преобразующей матрицы Т очень прост по своей идее, но практически мало пригоден, так как связан с очень большими вычислениями (так, уже при п = 4 он требует решения системы из 16 линейных уравнений). Переходим к изложению более эффективного метода построения преобразующей матрицы Т. Этот метод опирается на добавление к теореме 7 (с. 145). Согласно этому добавлению в качестве преобразующей матрицы можно взять матрицу Т = Q(A), (61) коль скоро ХЕ - А = Р(Х)(ХЕ - A)Q(X). Последнее равенство выражает собой эквивалентность характеристических матриц ХЕ — А и ХЕ — А. Здесь Р(Х) и Q(X) — многочленные матрицы с постоянными отличными от нуля определителями. 31) Из этого факта следует подобие матриц А и А. 32) Это утверждение безоговорочно справедливо в отношении первой естественной нормальной формы. Что же касается второй нормальной формы или жордановой нормальной формы, то они определяются однозначно с точностью до порядка диагональных клеток. 33) Формулу (60) можно заменить формулой Т = Ti V, где V — произвольная матрица, перестановочная с А.
154 Гл. VI. Эквивалентные преобразования многочленных матриц Для конкретного нахождения матрицы Q(X) мы приводим к канонической диагональной форме каждую из Л-матриц \Е — А и ХЕ — А при помощи соответствующих элементарных преобразований34): где {i„(A),t„_i(A), ... ,ti(A)} = Pi(A)(AS - A)Q1(X), {i„(X),i„-i(X), ...,»i(A)} = P2(X)(XE- A)Q2(X), Qi(A) = ТхГ2 ...TP1, g2(A) = T?T2* ...Г* (62) (63) (64) Vi элементарные матрицы, соответствующие элементар- а Ti, ...,TPl,T1 ным операциям над столбцами Л-матриц ХЕ — А и ХЕ — А. Из (62)-(64) следует ХЕ-А = Р(Х)(ХЕ - A)Q(X), где 0(A) = Qi(X)Q^(X) = Т,Т2 ...ТР1Т^Т^\ ...Т*- (65) Матрицу Q(X) вычисляем, применив последовательно к столбцам единичной матрицы Е элементарные операции с матрицами Ti,...,TPl,Tp2"1,...,T1*_1. После этого [согласно формуле (61)] заменяем в Q(X) аргумент Л матрицей А. Пример. "10 1 О 1 -1 -1 -1 1 Введем символические обозначения для левых и правых элементарных операций и соответствующих матриц (см. с. 131, 132): S' = {(c)i}, S" = {i + (b(X))j}, S'" = {ij}, T'=[(c)i], T"=[i + (b(X))j], T'" = [ij]. Читатель легко проверит, что характеристическая матрица ХЕ-А = Л-1 0 1 0 -1 Л-1 1 1 Л-1 приводится к каноническому диагональному виду 1 О О О 1 О О О (Л-1)3 с помощью следующих последовательно выполненных элементарных операций: [1 + (А -1)3], {2 + 1}, {3+(А-1)1}, {(-1)1}, [1-2], [1-(А2-2А + 1)2], {2-(А-1)1}, {(-1)2}, [13], {23}. (*) 34) Здесь существенно лишь то, что обе Л-матрицы ХЕ — А и ХЕ — А приводятся к одному и тому же виду. Мы избрали канонический диагональный вид, поскольку существует алгоритм, обеспечивающий приведение к такому виду.
§ 9. Второй метод построения преобразующей матрицы 155 Из канонического диагонального вида матрицы ХЕ — А усматриваем, что матрица А имеет только один элементарный делитель (Л — I)3. Поэтому соответствующей жордановой формой будет матрица II 1 1 О J = 0 1 1 || 0 0 1 Нетрудно видеть, что характеристическая матрица ХЕ — J приводится к тому же каноническому диагональному виду с помощью элементарных операций {3 + (А-1)2}, {3+(Л2-2А + 1)31}, [2 +(Л-1)3], [1 + (Л - 1)2], {(-1)1}, {(-1)2}, [13], {12}. (**) Выбрасывая из (*) и (**) левые элементарные операции, обозначенные символом {...}, мы в соответствии с формулами (64), (65) получим Q(A) = Q1(A)g2"1(A) = = [1 + (А - 1)3] [1 - 2] [1 - (А2 - 2А + 1)2] [13] [13] [1 - (А - 1)2] [2 - (А - 1)3] = = [1 + (А - 1)3] [1 - (А2 - А + 1)2] [2 - (А - 1)3]. Применим к единичной матрице последовательно эти правые элементарные операции: Е = 1 О О 1 О О -)• 1 О А-1 ->• -А2 + А - 1 А-1 -> Таким образом, О(А) = Замечая, что 1 -А2 + А - 1 А-1 0 0 1 - ->• 0 1 А + 1 0 0 1 = 0(A). 0 0 0 -10 0 0 0 0 А2 J2 = о 1 1 1 2 0 1 0 0 0 0 0 0 -1 0 1 2 1 А + 1 -1 -1 0 0 находим Т = Q(J) = 0 -1 о о о о 0 0 0 1 2 0 1 0 0 о о о о 1 -1 0 о о Проверка. АТ = 1 1 О -1 -1 -1 О 1 1 TJ = \т\ = 1 О О -1 0 -1 О 1 О 1 О О -1 1 О 111 1 1 О -1 -1 -1 О 1 1 1 О -1 О О 1 = 1. Следовательно, AT = TJ (\Т\ ф 0), т.е. A = TJT~X.
156 Гл. VI. Эквивалентные преобразования многочленных матриц § 9. Второй метод построения преобразующей матрицы 1. Мы изложим еще один метод построения преобразующей матрицы, который часто приводит к меньшим вычислениям, нежели метод предыдущего параграфа. Однако этот второй метод применим лишь тогда, когда нормальная форма жорданова и известны элементарные делители (А-АО*, (А-АаГ, - (66) данной матрицы А. Пусть A = TJT~l, где J = {\ХЕ^ + Я<Р1\ А2Я(ра) + Я(Р2\ ...} = II Pl II > Л * Ai 1 ... О : '•. 1 О Ai = ' * Л2 1 ... О : *•. 1 О А2 Тогда, обозначая k-й столбец матрицы Т через tk (к = 1,2, ...,п), мы заменим матричное равенство AT = TJ эквивалентной системой равенств Ati = Ai^i, At2 = Ai#2 + ^ъ •••? AtPl = X\tPl +tPl-i, (67) AtPl+i = A2£Pl+i, AtPl+2 = А2£Р1_|_2 H~ ^pi+i9 •••> AtPl+P2 = A2£Pl_|_P2 + ^p1_|_p2_i, (68) которую перепишем еще так: (А - Ai#)*i =0, (А - Ai#)*2 = *ь .-, (4 - XiE)tPl = tPl-U (67') (A — A2-E)£Pl+i =0, (A — A2.E)£Pl+2 = £Pl+i, ..., (A — A2.E)£Pl+P2 = £Pl+P2_i, (68') Таким образом, все столбцы матрицы Т разбиваются на "жордановы цепочки" столбцов: [£i,£2,...,£Pl], [£Pl+i,£Pl+2, ...,£Pl+P2], ... Каждой жордановой клетке в J [или, что то же, каждому элементарному делителю (66)] соответствует своя жорданова цепочка столбцов. Каждая жорданова цепочка столбцов характеризуется системой уравнений типа (67), (68) и т. п.
§ 9. Второй метод построения преобразующей матрицы 157 Нахождение преобразующей матрицы Т сводится к разысканию жордановых цепочек, которые в совокупности давали бы п линейно независимых столбцов. Мы покажем, что эти жордановы цепочки столбцов можно определить при помощи приведенной матрицы С(Х) (см. гл. IV, § 5). Для матрицы С(Х) имеем тождество (ХЕ - А)С(Х) = ф(Х)Е, (69) где ф(Х) — минимальный многочлен матрицы А. Пусть V(A) = (А - АоГх(А) (х(Ао)^О). Продифференцируем почленно последовательно m — 1 раз тождество (69): (ХЕ - А)С'(Х) + С(Х) = гр'(Х)Е, (ХЕ - А)С"(Х) + 2С'(А) = ф"(Х)Е, {Щ (ХЕ - AJC^-^CA) + (m - l)C(m-2>(A) = ^т~1)(Х)Е. Подставляя Ло вместо Л в (69), (70) и замечая, что правые части при этом обращаются в нуль, получим (А-ХоЕ)С = 0, (A-X0E)D = C, (A-X0E)F = D, ..., (A-XQE)K = G, (71) где С = С(Х0), Я = 1с"(Ао), F=ic"(A0), .... ^ = ^)! ^m-2>(A0), K=r-i-C<™-1>(Ao). (72) (m — 1)! Заменим в равенствах (71) матрицы (72) их к-ми столбцами (к = 1,2,...,п). Получим (А-ХоЕ)Ск=0, (A-X0E)Dk = Ck, ..., (A-X0E)Kk = Gk (73) (fc = l,2,...,n). Поскольку С = С(Ло) /О35), можно выбрать такое к (^ п), что Ск ф 0. (74) Тогда т столбцов Ск, Dk, Fk, ..., Gk, Kk (75) линейно независимы. В самом деле, пусть 7С* + SDk + ... + хКк = 0. (76) Умножая обе части (76) последовательно на А — ХоЕ, ..., (А — Ao-E)m_1, получим 6Ck + ... + xGk=Q, ..., >сСк=0. (77) Из (76) и (77) в силу (74) находим 7 = S = ... = к = 0. 35) Из С(Ао) = 0 следовало бы, что все элементы С(Х) имеют общий делитель степени выше нулевой, что противоречит определению С(Л).
158 Гл. VI. Эквивалентные преобразования многочленных матриц Поскольку линейно независимые столбцы (75) удовлетворяют системе уравнений (73), они образуют жорданову цепочку векторов, отвечающую элементарному делителю (Л - A0)w [ср. (73) с (67')]. Если при некотором к Ск = 0, но D^ ф 0, то столбцы D^, ...,Gfc,iffc образуют жорданову цепочку изт-1 векторов и т. д. 2. Покажем сначала, как построить преобразующую матрицу Т в том случае, когда матрица А имеет попарно взаимно простые элементарные делители: (Л-ЛхГ1, (Л-Л2Г2, ..., (А-А.Г* (\ijt\j при {фу, i,j = l,2,...,s). Элементарному делителю (Л — Xj)mj ставим в соответствие жорданову цепочку столбцов CU\dU\...,GW,KU\ построенную по указанному выше способу. Тогда (А - XjE)C{j) = О, (А - XjE)D^ = C{j\ ..., (А - XjE)K^ = Gu\ (78) Давая j значения 1,2,..., 5, получим s жордановых цепочек, содержащих в совокупности п столбцов. Эти столбцы линейно независимы. Действительно, пусть (79) (80) ^2 Ъс{Л + sjdU) + - + *зКЩ = 0. Умножим обе части равенства (79) слева на произведение (А - Ai£)mi... (А - Xj-iE^-'iA - XjE)^1 (A - Ai+i#)m'+1... (A - XSE)1 Получим х,- = 0. Заменяя в (80) rrij — 1 последовательно на rrij — 2, rrij — 3, ..., найдем Ъ = Sj = ... = J€j = 0 (j = 1,2,..., s), что и требовалось доказать. Матрицу Т определим формулой Т = (С(1),Я(1),-,*(1); CW,DV\...,KW; С<'\Я<*>, ...,*<*>). (81) Пример. А = 8 3 2 2 1 3 1 3 -1 3 -1 2 2 4 -10 -4 -2 -3 -1 2 0 -3 2 -4 2 -3 1 2 ф{Х) = Д(А) = (А - 1)2(А + I)2 = А4 - 2А2 + 1, элементарные делители: (А — I)2, (А + I)2, /л — Л = /х3 + Л/х2 + (Л2 - 2)/х + А3 - 2Л, С(Л) = Ф(А£, А) = А3 + АА2 + (Л2 - 2) А + (Л3 - 2Х)Е. Составим первый столбец Ci(A): Ci(A) = [A3]x + Х[А\ + (А2 - 2)Ах + (А3 - 2ХЩ.
§ 9. Второй метод построения преобразующей матрицы 159 Для вычисления первого столбца матрицы А2 умножим все строки матрицы А на первый столбец матрицы А. Получим36) [А2]\ = (1,4,0,2). Умножая на этот столбец все строки матрицы А, найдем [A3]i = (3,6,2,3). Поэтому I Л3 + ЗА2 Cl(A): 1 3 1 6 2 1 з + А 1 * 1 4 0 2 1 + (А2 - 2) + (А3 - 2А) А-3 2А2 + 4А + 2 2А2-2 А2 + 2А + 1 Отсюда Ci(l) = (0,8,0,4) и С{(1) = (8,8,4,4). Поскольку d(-l) = (0,0,0,0), переходим ко вторым столбцам и, действуя аналогично предыдущему, находим С2(-1) = (-4,0,-4,0) и С'2(-1) = (4, -4,4, -4). Составляем матрицу: (Ci(l), C{(1), С2(-1), С2(-1)) = 0 8-4 4 8 8 0-4 0 4-4 4 4 4 0-4 Сокращаем 37) первые два столбца на 4 и вторые два столбца на —4: Т = -1 1 -1 1 Предлагаем читателю проверить, что АТ = Т- 0 0 0 1 0 0 о о -1 о о о 1 -1 3. Переходя к общему случаю, будем разыскивать жордановы цепочки векторов, отвечающие характеристическому числу Ао, которому соответствуют р элементарных делителей (А — Ao)m, q элементарных делителей (A —Ao)m_1, r элементарных делителей (А — Ао)т и т. д. Установим предварительно некоторые свойства матриц С = С(Ао), D = С'(Ао), F = i C"(X0), ..., К = ■С(т-1)(А0). (82) где 2! ч "" "•' (ш-1)! 1°. Матрицы (82) могут быть представлены в виде многочленов от А: C = h1(A), D = h2(A), ..., K = hm(A), hi{\) (i = l,2,...,m). В самом деле, где (Л - Ло) С(Х) = 9(ХЕ,А), Ф(1*) ~ ^(Л) (83) (84) Ф(А,м) = /л — А 36) Столбец, на который умножаем строки, мы подписываем под строками матрицы А. Курсивом набраны элементы контрольной суммарной строки. 37) При умножении всех столбцов жордановой цепочки на число с Ф 0 цепочка остается жордановой.
160 Гл. VI. Эквивалентные преобразования многочленных матриц Поэтому Л л 1с«(А0) = 1ф«(АоЯ,А), (85) где h*{k)^ = h[&*^L \=\о Из (82), (85) и (86) следует (83). 2°. Матрицы (82) имеют соответственно ранги р, 2p + q, 3p + 2g + r, ... Это свойство матриц (82) непосредственно получается из 1° и теоремы 8 гл. VI, если положить ранг равным п — d и воспользоваться формулой (48) для дефекта функции от А (с. 150). 3°. В ряду матриц (82) столбец каждой матрицы является линейной комбинацией столбцов любой последующей матрицы. Возьмем две матрицы hi(A) и hk(A) в ряду (82) (см. 1°). Пусть г < к. Тогда из (84) следует Ы(А) = Нк(А)(А-Х0Е)к-\ Отсюда j-Pi столбец yj (j = l,2,...,n) матрицы Ы(А) линейно выражается через столбцы zi,Z2,.-.,zn матрицы hk(A): Уз =^2a9z9^ 9=1 где ai,a2, ---,осп — элементы j-то столбца матрицы (А — ХоЕ)к~г. 4°. Не меняя основных формул (71), можно в матрице С любой столбец заменить произвольной линейной комбинацией всех столбцов, сделав соответствующую замену в D,..., К. Теперь перейдем к построению жордановых цепочек столбцов для элементарных делителей (А-Ао)то,...,(А-Ао)т; (Л - АоГ"1,..., (Л - АоГ"1; ... N v ' * v ' Р Q Пользуясь свойствами 2° и 4°, мы матрицу С преобразуем к виду C = (Ci,C2,...,C7p;0,0,...,0), (87) где столбцы Ci,C2, ...,CP линейно независимы между собой. При этом D = (D1,D2,...,Dp;Dp+1,...,Dn). Согласно 3° для любого i (1 ^ г ^ р) столбец С% есть линейная комбинация столбцов Di,D2,...,Dn: Ci = axDx + ... + apDp + ap+1Dp+1 + ... + anDn. (88) Умножим обе части этого равенства на А — \$Е. Тогда, замечая, что [см. (73)] (A-XoE)Ci=0 (t = l,2,...,p), (A-X0E)Dj = Cj (j = 1,2, ...,n), получим в силу (87) 0 = а.\С\ + а2С2 + ... + арСр,
§ 9. Второй метод построения преобразующей матрицы 161 откуда в (88) а\ = ... = ар = 0. Поэтому столбцы Ci,C2, ...,CP представляют собой линейно независимые комбинации столбцов Dp+i, ...,Dn, и потому, согласно 4° и 2°, не меняя матрицы С, можно вместо L>p+i, ...,£>2р взять столбцы Ci,...,Cp, а вместо 2}2р+д+ь —> А* — нули. Тогда матрица D примет вид D = (D1,...,Dp] СиС2,...,Ср; D2p+u...,D2p+q; 0,0,...,0). (89) Таким же образом, сохраняя вид (87) и (89) для матриц С и D, представим следующую матрицу F в виде F = (Fi, ...,FP; Di,...,Dp; i*2P+i, ...,F2P+g; Ci,...,Cp; Агр+Ь—> A2p+g5 ^Зр+2д+1,---,^Зр+2д+г; О, ...,0) (90) И Т. Д. Формулы (73) дадут нам жордановы цепочки т т (Ci,Di,...,Ki),...,(Cp,Dp,...,Kp); v v ' m-1 m-1 (91) / A ч / ч (Д2р+1, i^p+b —> i^p+l), —j (-E*2p+g> -^bp+g» —j ^2p+g); ••• N v ' Эти жордановы цепочки независимы между собой. Действительно, все столбцы Ci в цепочках (91) независимы, так как они образуют р независимых столбцов матрицы С. Все столбцы Ci,Dj в (91) независимы, так как они образуют 2p + q независимых столбцов в матрице D и т. д.; наконец, все столбцы в (91) независимы, так как они образуют щ = тр + (га — l)q + ... независимых столбцов в матрице К. Число столбцов в (91) равно сумме степеней элементарных делителей, соответствующих данному характеристическому числу Ао- Пусть матрица А = Ца^Ц? имеет s различных характеристических чи- c^Ai[; = l,2,...,e;A(A) = (A-Ai)n4A-A2)na...(A-Ae)n»;^(A) = (A-Ai)m4A- —A2)m2...(A — Ae)m*]. Для каждого характеристического числа Xj составим свою систему независимых жордановых цепочек (91); число столбцов в этой системе будет равно rij (j = 1,2, ...,5). Все полученные таким образом цепочки содержат п = п\ + П2 + ... + ns столбцов. Эти п столбцов линейно независимы и составляют одну из искомых преобразующих матриц Т. Доказательство линейной независимости полученных п столбцов проводится следующим образом. Любая линейная комбинация этих п столбцов может быть представлена в виде s i=i где Hj — линейная комбинация столбцов в жордановых цепочках (91), соответствующих характеристическому числу Xj (j = 1,2,...,s). Но любой столбец в жордановой цепочке, соответствующей характеристическому числу Aj, удовлетворяет уравнению (A-\jE)mtx = 0. 6 Ф.Р. Гантмахер
162 Гл. VI. Эквивалентные преобразования многочленных матриц Поэтому (A-XjE)m^Hj = 0. (93) Возьмем фиксированное число j (1 ^ j ^ s) и построим интерполяционный многочлен Лагранжа-Сильвестра г(А) (см. гл. V, § 1,2) по следующим значениям на спектре матрицы: r(Ai)=r,(Ai) = ... = r^"1)(Ai) = 0 при гфз r(\j) = iy(\j) = ... = r^-1\\j) = 0. Тогда при любом г ф j г(Х) делится на (А — Xi)mi без остатка; поэтому в силу (93) г(А)Щ = 0 (гфэ). (94) Точно так же разность г (А) — 1 делится на (А — Xj)mj без остатка; поэтому r(A)Hj = Hj. (95) Умножая обе части (92) на г(А), мы, согласно (94) и (95), получим Щ = о. Это справедливо для любого j = 1,2,..., s. Но Hj есть линейная комбинация независимых столбцов, отвечающих одному и тому же характеристическому числу Xj (j = 1,2, ...,s). Поэтому равны нулю все коэффициенты в линейной комбинации Hj (j = 1,2, ...,5) и, следовательно, все коэффициенты в (92). Замечание. Укажем на некоторые преобразования над столбцами матрицы Т, при которых она остается преобразующейся к той же жордановой форме (при том же расположении жордановых диагональных клеток). I. Умножение всех столбцов какой-либо жордановой цепочки на произвольное число, отличное от нуля. П. Прибавление к каждому (начиная со второго) столбцу жордановой цепочки предыдущего столбца той же цепочкщ предварительно умноженного на одно и то же произвольное число. III. Прибавление ко всем столбцам жордановой цепочки соответствующих столбцов другой цепочкщ содержащей такое же или большее число столбцов и отвечающей тому же характеристическому числу. Пример 1. А = 1 0 0 1 1 0 1 0 -1 -1 0 -2 -1 1 1 1 3 2 0 -1 -1 -3 -2 1 2 J = Д(А) = (А-1)4(А + 1), ф(\) = (А - 1)2(А + 1) = А3 - А2 - А + 1; элементарные делители матрицы А: (А-1)2, (А-1)2, А + 1; 110 0 0 0 10 0 0 0 0 11 0 0 0 0 1 0 0 0 0 0-1 Ф(А,/х) = ^)-уЛ)^/х2 + (А-1)М + А2-А-1, /Jl — Л С(А) = Ф(АЯ, А) = А2 + (А - \)А + (А2 - А - 1)Е.
§ 9. Второй метод построения преобразующей матрицы 163 Вычисляем последовательно столбцы матрицы А? и соответствующие столбцы матриц С(А),С(1),С"(А),С"(1),С(—1). Нам нужно получить два линейно независимых столбца матрицы С(1) и один отличный от нуля столбец матрицы С{—1): С(Л) 1 0 0 2 2 0 1 0 -2 -2 0 0 1 2 2 2 2 0 -1 -2 * * * * * + (А-1) 1 0 0 1 1 0 0 1 -2 0 -1 -1 1 -1 1 + (А2- 1 * 3 * 2 * 0 * -1 * А-1) + 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 С'(\) = С'(+1) = Поэтому38) С(+1) = to to о о о 10 0 1* 0 1-2 3 * 0 0-1 2 * 1-1 1 0 * 1-1 1 -1 * 2 * * 1 * II 0 * * 3 * 0 * * 2 * 1 * * 1 * 1 * * —1 * || (+1), С4(+1), С 1(+ 0 0 2 0 0 2 0 0 0 -2 2 -2 -2 2 -2 + (2А - 1) , С(-1) = 1), С3(-1)) -- * * * 1 1 0 0 0 1 о о о о о о 1 С С с 2 2 5 0 0 0 0 10 0 0 0 10 0 0 0 10 0 0 0 1 0 0** 0 4** 0 4** 0 0** 0 0** 1 2 2 1 0 2 ) 0 0 ! 1 -2 ! 1 -2 - Матрицу Т можно несколько упростить. Последовательно: 1) разделим пятый столбец на 4; 2) к третьему столбцу прибавим первый, к четвертому — второй; 3) из четвертого столбца вычтем третий; 4) вычтем из второго столбца первый, предварительно помноженный на 1/2; 5) разделим первый и второй столбцы на 2. Получим матрицу Ti = 1 ° 0 0 1 1 1 1 0 0 0 0 2 2 0 0 0 1 1 2 2 0 0 1 1 0 0 38) Здесь нижний индекс означает номер столбца; например, С[{+1) обозначает четвертый столбец матрицы С'(-Ы). 6*
164 Гл. VI. Эквивалентные преобразования многочленных матриц Предлагаем читателю проверить, что АТ\ = T\J и |Ti| ф 0. ример 2. — 1 Х _1 -3 3 8 -4 15 -10 1 -5 3 11 -1 1 4 -4 -11 1 Д(А) = (А + 1)4, ; ^(Л) = (Л + 1)3, элементарные делители: (Л + I)3 А + 1; J ■ Составляем многочлены: -110 0 0-110 0 0-10 0 0 0-1 и матрицы39) С = Гы(А) = (А + Е)2, D = h2(A) = A + E,F = E: 0 2 0 2 0 -1 0 1 0 1 0 -1 0 1 -1 0 1 г D = \ 1 2 -3 8 15 -1 4 -4 -10 1 -5 4 11 -1 1 4 -4 -10 ' F=\ 110 0 0 0 10 0 0 0 10 0 0 0 1 с = В качестве первых трех столбцов матрицы Т возьмем третьи столбцы этих матриц: Т = (Сз,£>з>^з> *)• В матрицах С, D, F из первого столбца вычтем удвоенный третий, а ко второму и четвертому столбцам прибавим третий. Получим С = 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 -1 0 L D = \ 0 0 10 7 -1 -5 -1 0 0 4 0 -7 1 11 1 F = 10 0 0 0 10 0 -2111 0 0 0 1 В матрицах D, F к первому столбцу прибавим четвертый столбец, умноженный на 7, а из второго столбца вычтем четвертый. Получим С = 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 -1 0 ' D = \ 0 0 10 0 0-5-1 0 0 4 0 0 0 11 1 F = 1 0 5 7 0 1 0 -1 0 0 1 0 0 1 1 0 1 1 В качестве последнего столбца в Т берем первый столбец в F. Имеем 0 10 1 Т = (Сз,1>з,*з,Л) Для контроля можно проверить, что AT = TJ и |Г| ф 0. 1 0 1 -5 0 0 4 1 5 11 0 7 39) Так как имеется только один элементарный делитель наивысшей степени, то ранг матрицы С должен быть равен единице. Поэтому достаточно, например, вычислить семь элементов, стоящих в первом столбце и во второй строке матрицы С. Тогда сразу определятся остальные элементы матрицы С.
ГЛАВА VII СТРУКТУРА ЛИНЕЙНОГО ОПЕРАТОРА В П-МЕРНОМ ПРОСТРАНСТВЕ (ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ЭЛЕМЕНТАРНЫХ ДЕЛИТЕЛЕЙ) Изложенная в предыдущей главе аналитическая теория элементарных делителей дала нам возможность для любой квадратной матрицы определить подобную ей матрицу, имеющую "нормальную" или "каноническую" форму. С другой стороны, в гл. III мы видели, что поведение линейного оператора в п-мерном пространстве в различных базисах задается при помощи класса подобных матриц. Наличие в этом классе матрицы, имеющей нормальную форму, тесно связано с важными и глубокими свойствами линейного оператора в n-мерном пространстве. Изучению этих свойств посвящена настоящая глава. Исследование структуры линейного оператора приводит нас независимо от содержания предыдущей главы к теории преобразования матрицы к нормальной форме. Поэтому содержание настоящей главы может быть названо геометрической теорией элементарных делителей1). § 1. Минимальный многочлен вектора, пространства (относительно заданного линейного оператора) Рассмотрим n-мерное векторное пространство R над полем К и линейный оператор А в этом пространстве. Пусть х — произвольный вектор из R. Составим ряд векторов х, Ах, А2х, ... (1) В силу конечномерности пространства найдется такое целое число р (О ^ р ^ ^ п), что векторы х, Ах,..., Ар_1х линейно независимы, а Арх есть линейная комбинация этих векторов с коэффициентами из поля К: Арк = -7iАр_1х - 72Ар_2х - ... - 7Рх. (2) Составим многочлен (р(Х) = Хр + 7i^p_1 + ... + 7p-i^ + lv Тогда равенство (2) запишется так: <р(А)х = 0. (3) Всякий многочлен <р(\), для которого имеет место равенство (3), мы будем называть аннулирующим многочленом для вектора х2). Но нетрудно видеть, что из всех аннулирующих многочленов для вектора х построенный нами многочлен 1) В основу излагаемой здесь геометрической теории элементарных делителей положена статья автора [81,а]. Другие геометрические построения теории элементарных делителей см. в [14, § 96—99], а также [24] и [42,6]. 2) Конечно, подразумевается: относительно данного оператора А. Это обстоятельство мы для краткости в определении не оговариваем, поскольку на протяжении всей этой главы мы будем иметь дело с одним оператором А.
166 Гл. VII. Структура линейного оператора в n-мерном пространстве является аннулирующим многочленом наименьшей степени со старшим коэффициентом 1. Такой многочлен мы будем называть минимальным аннулирующим многочленом вектора х или просто минимальным многочленом вектора х. Заметим, что произвольный аннулирующий многочлен £>(А) вектора х делится нацело на минимальный многочлен (р(\). В самом деле, пусть 0(А)=р(А)х(А)+р(А), (4) где >г(А), р(Х) — частное и остаток от деления (р(Х) на <р(\). Тогда £(А)х = х(А)<^(А)х + р(А)х = р(А)х (5) и, следовательно, р(А)х = 0. (6) Но степень остатка р(Х) должна быть меньше степени минимального многочлена (р(\). Значит, р(Л) = 0. Из доказанного предложения следует, в частности, что каждому вектору х отвечает только один минимальный многочлен. Выберем в пространстве R некоторый базис ei,e2, ...,еп. Обозначим через <£i(A),<£>2(A),...,<£n(A) минимальные многочлены базисных векторов ei,e2, ...,еп, а через ф(Х) — наименьшее общее кратное этих многочленов (ф(Х) берем со старшим коэффициентом 1). Тогда ф(Х) будет аннулирующим многочленом для всех базисных векторов ei, в2,..., еп. Так как произвольный вектор х Е R представляется в виде х = х\е\ + #2в2 + ... + хпеп, то ф(А)х = xitl>(A)ei + х2ф(А)е2 + ... + хпф(А)еп = 0, ф(А) = 0. (7) Многочлен ф(Х) является аннулирующим многочленом для всего пространства R. Пусть ф(Х) — произвольный аннулирующий многочлен всего пространства R. Тогда ф(Х) будет аннулирующим многочленом для базисных векторов ei,e2, ...,еп. Следовательно, ф(Х) должен быть общим кратным минимальных многочленов <^i(A),<^2(A), ...,<рп(А) этих векторов, и потому многочлен ф(Х) должен делиться на наименьшее общее кратное ф(Х) без остатка. Отсюда следует, что из всех аннулирующих многочленов всего пространства R построенный нами многочлен ^(Л) имеет наименьшую степень и старший коэффициент 1. Такой многочлен однозначно определяется заданием пространства R и оператора А и называется минимальным многочленом пространства R3). Единственность минимального многочлена пространства R следует из установленного выше утверждения: произвольный аннулирующий многочлен ф(Х) пространства R делится нацело на минимальный многочлен ф(Х). Хотя само построение минимального многочлена ф(Х) было связано с определенным базисом ei,e2, ...,еп, многочлен ф(Х) не зависит от выбора этого базиса (это вытекает из единственности минимального многочлена для пространства R). Наконец, отметим еще, что минимальный многочлен пространства R является аннулирующим любого вектора х из R, и потому минимальный многочлен пространства делится без остатка на минимальный многочлен любого вектора из этого пространства. 3) Если оператору А в некотором базисе ei,e2,...,en соответствует матрица А = = ||aifc||i\ то аннулирующий или минимальный многочлен пространства R (относительно А) будет аннулирующим или соответственно минимальным многочленом матрицы А и наоборот. Ср. с гл. IV, § 5.
§ 2. Первая теорема о расщеплении 167 § 2. Расщепление на инвариантные подпространства с взаимно простыми минимальными многочленами Подпространство R/ С R называется инвариантным относительно данного оператора А, если AR/ С R/, т. е. из х G R/ следует Ах G R/. Другими словами, оператор А переводит векторы инвариантного подпространства снова в векторы этого же подпространства. В дальнейшем мы будем производить расщепление всего пространства (см. гл. III, § 1) на инвариантные относительно А подпространства. Такое расщепление сводит изучение поведения оператора во всем пространстве к изучению его поведения в отдельных составляющих подпространствах. Докажем теперь следующую теорему: Теорема 1 (первая теорема о расщеплении пространства на инвариантные подпространства). Если для данного линейного оператора А минимальный многочлен пространства ф(Х) представляется в поле К в виде произведения двух взаимно простых многочленов ipi(\) и ?/>2(А) (со старшими коэффициентами, равными единице), V(A)=^(A)</>2(A), (8) то все пространство R расщепляется на два инвариантных подпространства Ii R = Ii+I2, (9) минимальными многочленами которых служат соответственно множители ipi(\) и ip2(А). Доказательство. Обозначим через Ii совокупность всех векторов х, удовлетворяющих уравнению ^i(A)x = 0. Аналогично определим 12 с помощью уравнения ?/>2(А)х = 0. Определенные таким образом Ii и 12 суть подпространства в R. Из взаимной простоты ^i(A) и ?/>2(А) вытекает4) существование таких многочленов Xi(^) и Хг(А) (с коэффициентами из К), что имеет место тождество l=lMA)xi(A)+ife(A)x2(A). (Ю) Пусть теперь х — произвольный вектор из R. Заменим в (10) А на А и применим обе части полученного операторного равенства к вектору х: х = Vi (A)xi (A)x + V>2 (А)Х2 (А)х, (11) х = х' + х", (12) где х' = ф2 (А)Х2 (А)х, х" = Vi (A)xi (A)x. (13) <МА)х' = <КА)Х2(А)х = О, <ЫА)х" = ^(A)Xi(A)x = 0, т. е. х7 G h и х" G 12. Ii и 12 не имеют общих векторов, отличных от нуля. Действительно, если хо G Ii и хо G 12, т.е. t/>i(A)xo = 0 и ^2(А)хо = 0, то в силу (11) х0 = Xi(A)t/>i(A)x0 +Х2(А)</>2(А)х0 = 0. Таким образом, доказано, что R = Ii +12. Пусть, далее, х G Ii. Тогда ^i(A)x = 0. Умножая обе части этого равенства слева на А и переставляя местами А и t^i(A), получим ^i(A)Ax = 0, т. е. Ах G Ii. 4) См., например, [20, с. 177].
168 Гл. VII. Структура линейного оператора в n-мерном пространстве Этим доказано, что подпространство Ii инвариантно относительно А. Аналогично доказывается инвариантность подпространства 12. Докажем теперь, что ф\(А) есть минимальный многочлен для Ii. Пусть ^i(A) — произвольный аннулирующий многочлен Ii, a x — произвольный вектор из R. Используя уже установленное разложение (12), запишем &(А)^(А)х = </>2(А)<МА)х' + &(А)^(А)х" = 0. Поскольку х — произвольный вектор из R, отсюда вытекает, что произведение ^i(A)^2(A) есть аннулирующий многочлен пространства R и потому делится без остатка на ф(Х) = -0i(A)^2(A); другими словами, ^i(A) делится на ^i(A). Но ^i(A) — произвольный аннулирующий многочлен пространства Ii, a фг(Х) — один из аннулирующих многочленов (в силу определения Ii). Значит, ^i(A) есть минимальный многочлен для Ii. Совершенно аналогично доказывается, что ^2(А) есть минимальный многочлен для инвариантного подпространства 12. Теорема доказана полностью. Разложим многочлен ф(Х) на неприводимые в поле К множители: ф(Х) = ЫАГ ЫАГ... ЫАГ (14) (здесь ipi(\), <^2(А),..., (ps(X) — различные неприводимые в К многочлены со старшими коэффициентами 1). Тогда на основании доказанной теоремы R = Ii+I2 + ... + Ie, (15) где Ik — инвариантное подпространство с минимальным многочленом [<fk(X)]Ck (* = 1,2,...,«). Таким образом, доказанная теорема сводит изучение поведения линейного оператора в произвольном пространстве к изучению поведения этого оператора в пространстве, где минимальный многочлен есть степень неприводимого в К многочлена. Это обстоятельство будет нами использовано для доказательства следующего важного для нас предложения. Теорема 2. В пространстве всегда существует вектор, минимальный многочлен которого совпадает с минимальным многочленом всего пространства. Доказательство. Рассмотрим сначала тот частный случай, когда минимальный многочлен пространства R есть степень неприводимого в К многочлена ip(X): ф(Х) = [<р(\)}1. Выберем в R базис ei, е2,..., еп. Минимальный многочлен вектора е^ является делителем многочлена ф(Х) и поэтому представляется в виде [<£>(А)]^, где li ^ I (г = 1,2,...,п). Но минимальный многочлен пространства есть наименьшее общее кратное минимальных многочленов базисных векторов, т. е. ф(Х) совпадает с наибольшей из степеней [<р(А)]^ (г = 1,2, ...,п). Другими словами, ф{Х) совпадает с минимальным многочленом одного из базисных векторов ei,e2, ...,еп. Переходя к общему случаю, докажем предварительно следующую лемму. Лемма. Если минимальные многочлены векторов е' и е" взаимно просты, то минимальный многочлен суммы векторов е' + е" равен произведению минимальных многочленов слагаемых векторов. Доказательство. В самом деле, пусть xi(А) и %2(А) — минимальные многочлены векторов е' и е". По условию Xi(A) и Х2(А) взаимно просты. Пусть х(А) — произвольный аннулирующий многочлен вектора е = е' + е". Тогда Х2(А)Х(А)е' = Х2(А)х(А)е - Х(А)Х2(А)е" = 0,
§3. Сравнения. Надпространство 169 т. е. Х2(А)х(А) есть аннулирующий многочлен вектора е'. Следовательно, Хг(А) х хх(А) делится без остатка на Xi(A), и так как Xi(A) и Хг(А) взаимно просты, то х(А) делится на Xi(A)- Аналогично доказывается, что х(А) делится на Х2(А). Но Xi(A) и Хг(А) взаимно просты. Следовательно, х(А) делится на произведение Xi(A)X2(A). Итак, произвольный аннулирующий многочлен вектора е делится на аннулирующий многочлен Xi(A)X2(A). Поэтому Xi(A)X2(A) и будет минимальным многочленом вектора е = е' + е". Вернемся к теореме 2. Для доказательства в общем случае используем расщепление (15). Так как минимальные многочлены подпространств Ii,l2,...,Is суть степени неприводимого многочлена, то для этих подпространств наше предложение уже доказано. Поэтому существуют такие векторы е' G Ii,e" G l2,...,e(s) G G Is, минимальными многочленами которых будут соответственно [<£i(A)]Cl, [^2(А)]С2,..., [<£>s(A)]Cs. В силу леммы минимальный многочлен вектора е = е' + + е" + ... + e(s) равен произведению [<£i(A)]Cl[<^2(A)]C2 ... [<^s(A)]Cs, т. е. равен минимальному многочлену пространства R. § 3. Сравнения. Надпространство Пусть дано некоторое подпространство I С R. Мы будем говорить, что два вектора х, у из R сравнимы по mod I, и будем писать х = у (mod I) в том и только том случае, если у — х G I. Легко проверяется, что введенное таким образом понятие сравнения обладает следующими свойствами. Для любых x,y,z С R: 1). х = х (modi) (рефлективность сравнения); 2). из х = у (modi) следует у = х (modi) (обратимость или симметричность сравнения); 3). из х = у, у = z (modi) следует х = z (modi) (транзитивность сравнения). Наличие этих трех свойств сравнения дает нам возможность распределить все векторы пространства на классы, относя в каждый класс векторы, попарно сравнимые между собой по mod I (векторы из разных классов уже будут несравнимы по modi). Класс, содержащий вектор х, будем обозначать через х5). Само подпространство I будет одним из этих классов, а именно классом 0. Обратим внимание на то, что каждому сравнению х = у (modi) отвечает равенство6) соответствующих классов: х = у. Элементарно доказывается, что сравнения можно почленно складывать и почленно умножать на число из К: 1) из х = х7, у = у' (mod I) следует х + у = х' + у' (mod I); 2) из х = х7 (modi) следует ах = ах' (modi) (a G К). Эти свойства сравнения показывают, что операции сложения и умножения на число из К не "ломают" классов. Если возьмем два класса хиуи будем складывать элементы х,х',.-- первого класса с любыми элементами у,у',... второго класса, то все полученные таким образом суммы будут принадлежать одному и тому же классу, который мы назовем суммой классов хиуи обозначим через х + у. Аналогично, если все векторы х,х;,... класса х умножим на число a G G К, то полученные произведения будут принадлежать одному классу, который обозначим через ах. 5) Так как каждый класс содержит бесчисленное множество векторов, то в силу этого условия он имеет и бесчисленное множество обозначений. 6) То есть совпадение.
170 Гл. VII. Структура линейного оператора в n-мерном пространстве Таким образом, в многообразии R всех классов х,у,... введены две операции: "сложение" и "умножение" на число из К. Эти операции, как легко проверить, обладают свойствами, сформулированными в определении векторного пространства (гл. III, § 1). Поэтому R, как и R, есть векторное пространство над полем К. Мы будем называть R надпространством по отношению к R. Если п, га, п — числа измерений соответственно пространств R, I, R, то п = п — га. Все введенные в этом параграфе понятия можно очень хорошо проиллюстрировать на следующем примере. Пример. Пусть R — совокупность всех векторов в трехмерном пространстве, К — поле вещественных чисел. Для большей наглядности будем векторы изображать в виде направлен- I x у х+у ных отрезков с началом в точке О. Пусть I — некоторая прямая, проходящая через О (точнее, совокупность векторов, идущих вдоль некоторой прямой, проходящей через О; рис. 4). Сравнение х = х7 (modi) означает, что векторы х и х7 отличаются на вектор из I, т. е. отрезок, соединяющий концы хих', параллелен прямой I. Поэтому класс О х изобразится прямой, проходящей через конец вектора х и параллельной I, точнее, "щеткой" векторов, исходящих из О, концы которых лежат на этой прямой. "Щетки" можно складывать и умножать на вещественное число (складывая и умножая векторы, входящие в эти щетки). Эти "щетки" и являются элементами над- пространства R. В данном примере п = 3, га = 1, п = 2. Другой пример получим, если в качестве I возьмем плоскость, проходящую через точку О. В этом примере п = 3, га = 2, n = 1. Пусть теперь в R задан линейный оператор А. Предположим, что I есть инвариантное подпространство относительно А. Читатель легко докажет, что из х = х7 (modi) следует Ах = Ах' (modi), т. е. что к обеим частям сравнения можно применять оператор А. Другими словами, если ко всем векторам х, х7,... некоторого класса х применить оператор А, то полученные векторы Ах, Ах7,... также принадлежат к одному классу, который мы обозначим через Ах. Линейный оператор А переводит класс в класс и, таким образом, является линейным оператором в R. Мы будем говорить, что векторы xi,X2, ...,хр линейно зависимы по modi, если существуют такие числа ai,a2, ...,ap в К, не равные одновременно нулю, что aixi + СИ2Х2 + ••• + аР*Р = ° (modi). (16) Заметим, что не только понятие о линейной зависимости векторов, но все понятия, все предложения и рассуждения, приведенные в предыдущих параграфах этой главы, могут быть слово в слово повторены с одной лишь заменой всюду знака = знаком = (modi), где I — некоторое фиксированное подпространство, инвариантное относительно А. Таким образом, вводятся понятия аннулирующего минимального многочлена (вектора, пространства) по modi. Все эти понятия мы будем называть "относительными" в отличие от введенных ранее "абсолютных" понятий (имеющих место при знаке =). Обратим внимание читателя на то, что относительный минимальный многочлен (вектора, пространства) есть делитель абсолютного. Пусть, напри- / Ус К \\ х+у >* -^ъ У
§4- Расщепление пространства на циклические инвариантные подпространства 171 мер, cri(A) есть относительный минимальный многочлен вектора х, а сг(Л) — соответствующий абсолютный минимальный многочлен. Тогда сг(А)х = О, но отсюда следует, что и <т(А)х = 0 (modi). Поэтому сг(Л) является относительным аннулирующим многочленом для вектора х и как таковой делится без остатка на относительный минимальный многочлен cri(A). Наряду с "абсолютными" предложениями предыдущих параграфов мы имеем и "относительные" предложения. Так, например, имеем предложение: "в любом пространстве всегда существует вектор, относительный минимальный многочлен которого совпадает с относительным минимальным многочленом всего пространства" . Справедливость всех "относительных" предложений обусловлена тем, что, оперируя со сравнениями по modi, мы по существу имеем дело с равенствами, только не в пространстве R, а в надпространстве R. § 4. Расщепление пространства на циклические инвариантные подпространства Пусть сг(Л) = Хр + aiAp_1 + ... + ар-\\ + ар — минимальный многочлен вектора е. Тогда векторы е, Ае, ..., Ар~ге (17) линейно независимы, а Аре = — аре — ар-\ Ае — ... — aiAp_1e. (18) Векторы (17) образуют базис некоторого р-мерного подпространства I. Это подпространство мы будем называть циклическим, имея в виду специальный характер базиса (17) и равенство (18) 7). Оператор А переводит первый из векторов (17) во второй, второй в третий и т. д. Последний же базисный вектор переводится оператором А в линейную комбинацию базисных векторов согласно равенству (18). Таким образом, оператор А переводит любой базисный вектор в вектор из I; значит, он и произвольный вектор из I переводит в вектор из I. Другими словами, циклическое подпространство всегда инвариантно относительно А. Произвольный вектор х Е I представляется в виде линейной комбинации базисных векторов (17), т. е. в виде х = Х(А)е, (19) где х(Л) — многочлен от Л с коэффициентами из К степени ^ р — 1. Перебирая всевозможные многочлены х(А) степени ^ р — 1 с коэффициентами из К, мы получим все векторы из I, и при этом каждый вектор х Е I только один раз, т. е. только при одном многочлене хМ- Имея в виду базис (17) либо формулу (19), мы будем говорить, что вектор е порождает подпространство I. 7) Правильнее было бы называть это подпространство циклическим относительно линейного оператора А. Но поскольку вся теория строится для одного оператора А, мы для сокращения опускаем слова "относительно линейного оператора А" (см. аналогичное замечание в сноске 2) на с. 165).
172 Гл. VII. Структура линейного оператора в n-мерном пространстве Заметим еще, что минимальный многочлен порождающего вектора е будет одновременно и минимальным многочленом всего подпространства I. Сейчас нам предстоит установить основное предложение всей этой теории, согласно которому пространство R расщепляется на циклические подпространства. Пусть ф\{\) = ф{\) = Хт + aiAm_1 + ... + ат — есть минимальный многочлен пространства R. Тогда в пространстве существует вектор е, для которого этот многочлен является минимальным (теорема 2, с. 168). Пусть Ii обозначает циклическое подпространство с базисом е, Ае, ..., Am_1e. (20) Если п = ш, то R = Ii. Пусть п > га, и пусть многочлен ф2(\) = \р + /31\р-1 + ... + [Зр будет минимальным многочленом R по mod Ii. Согласно замечанию, сделанному в конце § 3, ф2 (А) будет делителем ^i(A), т. е. существует такой многочлен х(А), что <ЫА)=<ЫА)х(А). (21) Далее, в R существует вектор g*, относительный минимальный многочлен которого есть фч(А). Тогда ^2(A)g*=0(modI1), (22) т. е. существует многочлен х(А) степени ^ т — 1 такой, что V>2(A)g*=X(A)e. (23) Применим к обеим частям этого равенства оператор х(А). Тогда слева в силу (21) получим t/>i(A)g*, т. е. нуль, поскольку ф\{\) есть абсолютный минимальный многочлен пространства; следовательно, х(А)х(А)е = 0. (24) Это равенство показывает, что произведение х(А)х(А) является аннулирующим многочленом для вектора е и потому делится без остатка на минимальный многочлен ф\{\) = х(А)^(А), т. е. %(А) делится на фч(А): x(A)=xi(A)^(A), (25) где >fi(A) — некоторый многочлен. Используя это разложение многочлена х(А), сможем записать равенство (23) так: V>2(A)g = 0, (26) где вектор g определяется равенством g = g*-xi(A)e. (27) Последнее равенство показывает, что g = g* (modli). (28) Поэтому ^2(А), будучи относительным минимальным многочленом вектора g*, будет таковым и для вектора g. Но тогда из равенства (26) следует, что ^(А) является одновременно и абсолютным минимальным многочленом для вектора g.
§4- Расщепление пространства на циклические инвариантные подпространства 173 Из того, что ^2 (А) есть абсолютный минимальный многочлен вектора g, следует, что подпространство 12 с базисом g, Ag, ..., A^g (29) будет циклическим. Из того, что ^2 (А) есть относительный минимальный многочлен для g по modli, вытекает, что векторы (29) линейно независимы по modi, т. е. никакая линейная комбинация векторов (29) с не равными одновременно нулю коэффициентами не может равняться линейной комбинации векторов (20). Так как эти последние сами линейно независимы, то последнее наше утверждение означает линейную независимость т + р векторов е, Ае, ..., А^е; g, Ag, ..., A^g. (30) Векторы (30) образуют базис инвариантного подпространства Ii + I2 с числом измерений т+р. Если п = т + р, то R = Ii + I2. Если же п > т + р, то мы рассмотрим R по mod (Ii + I2) и продолжим далее наш процесс выделения циклических инвариантных подпространств. Так как все пространство R конечномерно, имеет п измерений, то этот процесс должен приостановиться на некотором подпространстве It, где t ^ п. Мы приходим к следующей теореме. Теорема 3 (вторая теорема о расщеплении пространства на инвариантные подпространства). Пространство всегда можно расщепить на циклические относительно данного линейного оператора А подпространства Ii, I2,..., I* с минимальными многочленами ^i(A),^2(A), ...,^(А), R^i+12 + ... + It, (31) так, чтобы ^i(A) совпадал с минимальным многочленом ф(Х) всего пространства и каждый фг(\) был делителем ^-i(A) (г = 2,3, ...,£). Отметим теперь некоторые свойства циклических пространств. Пусть R — циклическое n-мерное пространство, ф(Х) = Хт + ... — минимальный многочлен этого пространства. Тогда из определения циклического пространства следует, что т = п. Обратно, пусть нам дано произвольное пространство R и известно, что т = п. Применяя доказанную теорему о расщеплении, мы представим R в виде (31). Но число измерений циклического подпространства Ii равно га, так как его минимальный многочлен совпадает с минимальным многочленом всего пространства. Так как по условию га = п, то R = Ii, т. е. R есть циклическое пространство. Таким образом, установлен следующий критерий цикличности пространства: Теорема 4. Пространство циклично тогда и только тогда, когда его число измерений совпадает со степенью его минимального многочлена. Пусть теперь мы имеем расщепление циклического пространства R на два инвариантных подпространства Ii и I2: R = Ii+I2. (32) Обозначим числа измерений пространств R, Ii и I2 соответственно через п, щ и П2, минимальные многочлены этих пространств — через ф(Х), ipi(X) и гр2(А), степени этих минимальных многочленов — через га, rai и Ш2- Тогда mi ^ пь га2 ^ п2. (33)
174 Гл. VII. Структура линейного оператора в n-мерном пространстве Сложим почленно эти неравенства: mi + га2 ^ п\ + п2. (34) Так как ^(Л) есть наименьшее общее кратное многочленов ^i(A) и ^(Л), то т ^ mi +Ш2. (35) Кроме того, из (32) следует п = п\ + П2- (36) Формулы (34)-(3б) дают нам цепочку соотношений т ^ mi + Ш2 ^ ni + П2 = п. (37) Но в силу цикличности пространства R крайние числа в этой цепочке, числа т и п, равны между собой. Следовательно, имеет место равенство и в промежуточных звеньях этой цепочки, т. е. т = mi + Ш2 = п\ + П2- Из того, что т = mi +ГП2, заключаем, что ^i(A) и ф2(А) взаимно просты. Из mi + Ш2 = ni + П2, принимая во внимание (33), находим mi = rii, ТП2 = ri2. (38) Эти же равенства означают цикличность подпространств Ii и 12. Таким образом, мы приходим к следующему предложению. Теорема 5. Циклическое пространство расщепляется только на такие инвариантные подпространства, которые: 1°) сами являются циклическими и 2°) имеют взаимно простые минимальные многочлены. Те же рассуждения (проведенные в обратном порядке) показывают, что теорема 5 допускает обращение. Теорема б. Если пространство расщепляется на инвариантные подпространства, которые: 1°) являются циклическими и 2°) имеют взаимно простые минимальные многочлены, то само пространство является циклическим. Пусть теперь R — циклическое пространство, и минимальный многочлен его есть степень неприводимого в поле К многочлена: ф(Х) = [<£>(А)]С. В этом случае минимальный многочлен любого инвариантного подпространства в R тоже будет степенью этого неприводимого многочлена <р(\). Следовательно, минимальные многочлены любых двух инвариантных подпространств не могут быть взаимно простыми. Но тогда в силу доказанного предложения R не расщепляется на инвариантные подпространства. Пусть, обратно, известно, что некоторое пространство R не расщепляется на инвариантные подпространства. Тогда R — циклическое пространство, иначе в силу второй теоремы о расщеплении его можно было бы расщепить на циклические подпространства; кроме того, минимальный многочлен R должен быть степенью неприводимого многочлена, так как в противном случае R можно было бы расщепить на инвариантные подпространства в силу первой теоремы о расщеплении. Таким образом, приходим к следующему выводу. Теорема 7. Пространство не расщепляется на инвариантные подпространства тогда и только тогда, когда: 1°) оно циклическое и 2°) минимальный многочлен его есть степень неприводимого в поле К многочлена.
§5. Нормальная форма матрицы 175 Вернемся теперь к расщеплению (31) и разложим минимальные многочлены ^i(A),^2(A), ...,?/>* (А) циклических подпространств Ii,I2, ...,I* на неприводимые в поле К множители: Ф2(\) = ЫАГ'ЫА)]*... [у..(А)]"-, (39) ^(А) = bi(AJH^(A)J4..b.(A)j'- (ckZdkZ- Zk^O; * = 1,2,...,«)8). Применим к Ii первую теорему о расщеплении. Тогда получим i1 = ii + ii' + ... + i£'), где Ij_, I2,..., Ii — циклические подпространства с минимальными многочленами [y>i(A)]Cl, [<^2(А)]С2,..., [<£s(A)]Cs. Аналогично расщепим подпространства 1г,... ..., I*. Тем самым мы получим расщепление всего пространства R на циклические подпространства с минимальными многочленами [ул(А)]с*, [^(A)]dfc,...,[^(A)]ifc (к = 1,2,..., в) (при этом выбрасываются те степени, у которых показатели равны нулю). Из теоремы 7 следует, что эти циклические подпространства уже далее нерасщепимы (на инвариантные подпространства). Приходим к следующей теореме: Теорема 8 (третья теорема о расщеплении пространства на инвариантные подпространства). Пространство всегда можно расщепить на циклические инвариантные подпространства, R = I' + I" + ... + I^, (40) так, чтобы минимальный многочлен каждого из этих циклических подпространств был степенью неприводимого многочлена. Эта теорема дает расщепление пространства на нерасщепимые далее инвариантные подпространства. Замечание. Теорему 8 (третью теорему о расщеплении) мы получили, применяя первые две теоремы о расщеплении. Однако третью теорему о расщеплении можно получить другим путем, а именно как непосредственное (почти тривиальное) следствие из теоремы 7. Действительно, пространство R, если оно вообще расщепляется, всегда можно расщепить на нерасщепимые далее инвариантные подпространства: R = I' + I" + ... + I<tt>. Согласно теореме 7 каждое из слагаемых подпространств является циклическим и имеет в качестве своего минимального многочлена степень неприводимого в К многочлена. § 5. Нормальная форма матрицы Пусть Ii — m-мерное инвариантное подпространство в R. Выберем в Ii произвольно базис ei,e2, ...,em и дополним его до базиса в R: Посмотрим, как будет выглядеть матрица А оператора А в этом базисе. Напомним читателю, что k-й столбец матрицы А заполняется координатами векто- 8) Некоторые из показателей dk, ...,/& при к > 1 могут равняться нулю.
176 Гл. VII. Структура линейного оператора в n-мерном пространстве ра Ае& (к = 1,2, ...,п). При к ^ т вектор Ae& £ Ii (в силу инвариантности Ii) и, следовательно, последние п — т координат вектора Ае& равны нулю. Поэтому матрица А имеет такую форму: т п — т А, А3 \ } О А2 J }п-т ' (41) где А\ и А% — квадратные матрицы порядков т и п — га, а А% — прямоугольная матрица. Равенство нулю четвертого "блока" и выражает инвариантность подпространства Ii. Матрица А\ задает оператор А в Ii (при базисе ei,e2, ...,em). Допустим теперь, что em+i, ...,еп тоже есть базис некоторого инвариантного подпространства I2, т. е. R = Ii + I2 и базис всего пространства составлен из двух частей, которые служат базисами в инвариантных подпространствах Ii и I2. Тогда, очевидно, в (41) блок As будет равен нулю и матрица А будет иметь квазидиагональный вид: А-(Ло i)=Mb^b <42) где А\ и A<z — квадратные матрицы порядков га и п — га, задающие оператор в подпространствах Ii и I2 ( соответственно в базисах ei,e2,...,em и em+i, ...,еп). Нетрудно видеть, что и, обратно, квазидиагональному виду матрицы всегда соответствует расщепление пространства на инвариантные подпространства (при этом базис всего пространства составлен из базисов этих подпространств). В силу второй теоремы о расщеплении мы можем расщепить все пространство R на циклические подпространства Ii,l2, •••,!*• R = Ii+I2 + ... + It. (43) В ряду минимальных многочленов этих подпространств ^i(A),^(A), ...,^(Л) каждый многочлен есть делитель предыдущего (отсюда уже автоматически следует, что первый многочлен есть минимальный многочлен всего пространства). Пусть фг(\) = Aw + cxiA™"1 + ... + am, фг(\) = Av + si A*"1 + ...+ ev Обозначим через е,g, ...,1 порождающие векторы в подпространствах Ii,l2,... ...,Ij и составим базис всего пространства R из следующих базисов циклических подпространств: е, Ае, .., А^е; g, Ag, .., A^g; ...; 1, А1, .., A^l. (45) Посмотрим, какова будет матрица Li, отвечающая оператору А в этом базисе. Как было выяснено в начале этого параграфа, матрица L\ должна иметь квазидиагональную форму, fU 0 ... 0\ О L2 ... О Li = О 0 ... Lt) (46) Матрица L\ отвечает оператору А в Ii в базисе ei = е, в2 = Ае, ...,ет = Ат 1е. Припоминая правило составления матрицы по заданному оператору и заданному
§ 5. Нормальная форма матрицы 111 базису (гл. III, с. 69), найдем Li Аналогично, L2 = 0 О 1 О О 1 О О 0 О 1 О О 1 О О О -ат О -am-i 0 -а2 1 — а\ (47) -Рр -Рр-1 0 -А 1 -А (48) и т. д. Вычислив характеристические многочлены матриц Li,L2,...,Lt» получим \ХЕ - Li| = ^i(A), \ХЕ - L2\ = fo(\), ..., \ХЕ - Lt\ = фг(Х) (для циклических подпространств характеристический многочлен оператора А совпадает с минимальным многочленом подпространства относительно этого оператора). Матрица L\ отвечает оператору А в "каноническом" базисе (45). Если А — матрица, отвечающая оператору А в произвольном базисе, то матрица А подобна матрице L\, т. е. существует такая невырожденная матрица Т, что A = TLiT-\ (49) Про матрицу L\ мы будем говорить, что она имеет первую естественную нормальную форму. Первая естественная нормальная форма характеризуется: 1) квазидиагональным видом (46); 2) специальной структурой диагональных клеток (47), (48) и т. п.; 3) дополнительным условием: характеристический многочлен каждой диагональной клетки делится нацело на характеристический многочлен следующей клетки. Точно так же, если бы мы исходили не из второй, а из третьей теоремы о расщеплении, то в соответствующем базисе оператору А отвечала бы матрица Ln, имеющая вторую естественную нормальную форму, характеризуемую: 1) квазидиагональным видом L\\ = {I/i, 1/2,. ♦.,£«}; 2) специальной структурой диагональных клеток (47), (48) и т. п.; 3) дополнительным условием: характеристический многочлен каждой клетки является степенью неприводимого в поле К многочлена. В следующем параграфе мы покажем, что в классе подобных матриц, отвечающих одному и тому же оператору, существует только одна матрица, имеющая первую нормальную форму9), и только одна10), имеющая вторую 9) Это не означает, что существует только один канонический базис вида (45). Канонических базисов может быть много, но всем им отвечает одна и та же матрица L\. 10) С точностью до порядка диагональных клеток.
178 Гл. VII. Структура линейного оператора в n-мерном пространстве нормальную форму. Более того, мы дадим алгоритм для нахождения многочленов ^i(A),^2(A),...,^t(A) элементам матрицы А. Знание этих многочленов даст нам возможность выписать все элементы матриц L\ и Ln, подобных матрице А и имеющих соответственно первую и вторую нормальную форму. § 6. Инвариантные многочлены. Элементарные делители 1 п). Обозначим через DP(X) наибольший общий делитель всех миноров р-го порядка характеристической матрицы Ах = ХЕ — А (р = 1,2, ...,п)12). Так как в ряду Аг(А), £>„-i(A), »., А (А) каждый многочлен делится на последующий без остатка, то формулы ^ = 1%ЖУ '2(A) = fei> "•' *"<Л> = §Ш (A,(A)S1) (50) определяют п многочленов, произведение которых равно характеристическому многочлену А(А) = \ХЕ -А\= Dn(X) = ti(A)i2(A)... i„(A). (51) Многочлены гр(А) (р = 1,2, ...,п) разложим на неприводимые в поле К множители: гр(А) = ЫА)Г»ЫА)]*»... (р=1,2,...,п), (52) где y>i(A),y?2(A),... — различные неприводимые в поле К многочлены. Многочлены ii(A), 22(A), ...,гп(А) называются инвариантными многочленами, а все отличные от постоянной степени среди [<£>i(A)]7p, [<P2(X)]Sp,... называются элементарными делителями характеристической матрицы Ах = ХЕ — А или просто матрицы А. Произведение всех элементарных делителей, как и произведение всех инвариантных многочленов, равно характеристическому многочлену А(А) = \ХЕ — А\. Название "инвариантные многочлены" оправдано тем, что две подобные матрицы А и А, _ А = Т~1АТ, (53) всегда имеют одни и те же инвариантные многочлены ip(X)=lp(X) (p=l,2,...,n). (54) Действительно, из (53) следует Ах = LE - А = Г"1 (ХЕ - А)Т = Т"1 АХТ. (55) Отсюда (см. гл. I, § 2) получаем соотношение между минорами подобных матриц Ах и Ах 2 fix г2 ... гр\ _ ^ T_i (%i г2 ... ъ\ Л (а± а2 ... olp\ т f(3i (32 ... РР\ Лх [кг к2 ... кр) ~ 2.. 1 \аг а2 ... ар) Лх Ц /32 ... /Зр) 1 [кг к2 ... кр) 01<02<...<0Р (56) (р = 1,2,..,п). 11) В п. 1 настоящего параграфа повторяются для характеристической матрицы основные понятия гл. VI, § 3, установленные там для произвольной многочленной матрицы. 12) В наибольшем общем делителе всегда выбираем старший коэффициент равным единице.
§ 6. Инвариантные многочлены. Элементарные делители 179 Это равенство показывает, что каждый общий делитель всех миноров р-ro порядка матрицы Ах является общим делителем всех миноров р-го порядка матрицы Ах и наоборот (поскольку матрицы А и А можно поменять местами). Отсюда вытекает DP(X) = DP(X) (р = 1,2, ...,п) и, следовательно, имеет место (54). Поскольку все матрицы, представляющие данный оператор А в различных базисах, подобны между собой и потому имеют одни и те же инвариантные многочлены и, следовательно, одни и те же элементарные делители, то можно говорить об инвариантных многочленах и элементарных делителях оператора А. 2. Возьмем теперь в качестве А матрицу Li, имеющую первую естественную нормальную форму, и вычислим инвариантные многочлены матрицы А, исходя из вида матрицы Ах = ХЕ — А (на схеме (57) эта матрица выписана для случая т = 5, р = 4, q = 4, г = 3): Л 0 0 0 -1 Л 0 0 0-1 Л 0 0 0-1 Л 0 0 0-1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 «5 СИ4 а3 Oil OL\ + А ~~0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Л 0 0 -1 Л 0 0-1 Л 0 0-1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 А А 02 А+А 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ~г -1 0- 0 0 0 0 0 0 0 0 0 0 0 0 0 "о" А -1 0- ~о~ 0 0 0 0 0 0 0 0 0 0 0 Т~ 0 А -1 "о" 0 0 0 0 0 0 0 0 0 0 0 74 7з 72 7i +A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 А 0 -1 А 0-1 0 0 0 0 0 0 0 0 0 0 0 0 0 £з £2 £l+A Пользуясь теоремой Лапласа, найдем Дг(А) = \ХЕ -А\ = \ХЕ - Ьг\\\Е - L2\... \ХЕ - Lt\ = ^i(A)^(A) ...^A). (58) Перейдем к отысканию Dn-i(X). Обратим внимание на минор элемента ат. Этот минор с точностью до множителя ±1 равен \ХЕ - L2\... \ХЕ - Lt\ = fhW - <МА). (59) Мы докажем, что этот минор (п — 1)-го порядка будет делителем всех прочих миноров (п — 1)-го порядка и что, следовательно, Аг-1(А)=<ЫА)...<МА). (60) Для этого возьмем сначала минор элемента, находящегося вне диагональных клеток, и покажем, что такой минор равен нулю. Для получения этого минора нам придется из матрицы (57) вычеркнуть одну строку и один столбец. Вычеркнутые линии в рассматриваемом случае пересекут две разные диагональные клетки и, следовательно, у каждой из этих двух клеток будет вычеркнуто по одной линии.
180 Гл. VII. Структура линейного оператора в n-мерном пространстве Пусть, например, у j-Pi диагональной клетки будет вычеркнута одна из строк. Возьмем в миноре ту вертикальную полосу, в которой содержится эта диагональная клетка. В этой полосе, имеющей s столбцов, все строки, за исключением s — 1 строк, будут состоять сплошь из нулей (здесь через s мы обозначили порядок матрицы Aj). Разлагая рассматриваемый определитель (п — 1)-го порядка на основании теоремы Лапласа по минорам 5-го порядка, содержащимся в указанной полосе, мы и убедимся в том, что он равен нулю. Возьмем теперь минор элемента, находящегося внутри одной из диагональных клеток. В этом случае вычеркиваемые линии "искалечат" только одну из диагональных клеток, например, j-ю, и матрица минора снова будет квазидиагональной. Поэтому такой минор будет равен ^i(A)...^._i(A)^+i(A)...^(A)x(A), (61) где х(А) — определитель "искалеченной" j-й диагональной клетки. В силу того, что фг(\) делится нацело на ^+i(A) (г = 1,2, ...,£— 1), произведение (61) разделится без остатка на произведение (59). Таким образом, равенство (60) можно считать доказанным. Аналогичными рассуждениями получим Д,_2(А) =V*(A)...&(A), ic;+i(Aj'=vi(A)', (62) Dn-t(\) =... = !>! (А) = 1. Из (58), (60) и (62) находим -' ^W = DdZ+i\x) =it{X)> *«+i(A) = ...=t„(A) = l. (63) Формулы (63) показывают, что многочлены ^i(A),^(A), ...,^(A) совпадают с отличными от единицы инвариантными многочленами оператора А (либо соответствующей матрицы А). Но тогда отличные от единицы [^(A)]Cfc, [^(A)]dfc,... (k = 1,2,...) в разложении (39) совпадают с элементарными делителями оператора А (либо соответствующей матрицы А). Поэтому задание инвариантных многочленов, или, что то же, задание элементарных делителей в поле К, однозначно определяет элементы нормальных форм L\ и Ьц. На с. 178 было установлено, что две подобные матрицы имеют одни и те же инвариантные многочлены. Пусть теперь, обратно, известно, что две матрицы А и В с элементами из К имеют одни и те же инвариантные многочлены. Так как матрица L\ однозначно определяется заданием этих многочленов, то обе матрицы А и В подобны одной и той же матрице L\ и, следовательно, подобны между собой. Таким образом, приходим к следующему предложению. Теорема 9. Для того чтобы две матрицы с элементами из К были подобны, необходимо и достаточно, чтобы у этих матриц были одни и те же инвариантные многочлены1^). Характеристический многочлен А (А) оператора А совпадает с Dn(X) и потому равен произведению всех инвариантных многочленов: А(\)=ф1(\)ф2(\)...фг(\). (64) 13) Или одинаковые элементарные делители в поле К.
§ 7. Нормальная жорданова форма матрицы 181 Но ^i(A) есть минимальный многочлен всего пространства относительно А; значит, ф\ (А) = 0 и в силу (64) А(А) = 0. (65) Таким образом, мы попутно получили теорему Гамильтона-Кэли (см. гл. IV, § 3). § 7. Нормальная жорданова форма матрицы Пусть все корни характеристического многочлена А (А) оператора А принадлежат полю К. Это, в частности, всегда будет иметь место, если К — поле всех комплексных чисел. В рассматриваемом случае разложение инвариантных многочленов на элементарные делители в поле К будет выглядеть так: ti(A) = (А - Ах)С1(А - А2)С2... (А - \s)c% г2(А) = (А - Ai)*(A - А2)* ... (А - Ae)d-, (66) tt(A) = (A-Ai)/4A-A2)l»...(A-Ae)1- (ск ^ dk ^ ... ^ h ^ 0, ск > 0; к = 1,2,..., s). Так как произведение всех инвариантных многочленов равно характеристическому многочлену А(А), то Ai,A2,...,As в (66) суть все различные между собой корни характеристического многочлена А (А). Возьмем какой-либо элементарный делитель (А - А0)р; (67) здесь Ао — одно из чисел Ai, А2,..., As, ар — один из (отличных от нуля) показателей с*, dk,..., h (к = 1,2,..., s). Этому элементарному делителю в расщеплении (40) отвечает определенное циклическое подпространство I, порождающий вектор которого обозначим буквой е. Для этого вектора (А — Ао)р будет минимальным многочленом. Рассмотрим векторы ei = (А - A0Ef "Ч е2 = (А - A0E)^"2e, (68) Векторы ei, е2,..., ер линейно независимы, так как в противном случае существовал бы аннулирующий многочлен для вектора е степени < р, что невозможно. Теперь заметим, что (А - Х0Е)е1 = О, (А - А0Е)е2 = еь (А - А0Е)ер = ep_i (69) или Aei = А0еь Ае2 = А0е2 + еь ..., Аер = А0ер + ep_i. (70) Имея равенства (70), нетрудно выписать матрицу, отвечающую оператору А в I при базисе (68). Эта матрица будет выглядеть так: Ао 0 0 1 Ао 0 0 . 1 . 0 . . 0 . 0 • 1 . Ао = А0Я(Р) + #(р), (71)
182 Гл. VII. Структура линейного оператора в n-мерном пространстве где Е^ — единичная матрица порядка р, а Н^ — матрица порядка р, у которой элементы первой "наддиагонали" равны единице, а все остальные элементы равны нулю. Линейно независимые векторы ei,e2, ...,ер, для которых имеют место равенства (70), образуют так называемую жорданову цепочку векторов в I. Из жордановых цепочек, взятых в каждом из подпространств V,I",...,l(u\ составляется жорданов базис в R. Если минимальные многочлены этих подпространств, т. е. элементарные делители оператора А, обозначим теперь через (A-Ai)*1, (A-A2)* (А - \и)р» (72) (среди чисел Ai,A2,...,A„ могут быть и равные), то матрица J, отвечающая оператору А в жордановом базисе, будет иметь следующий квазидиагональный вид: J={X1E^+H^1\ \2Е^+Н^\ ..., \иЕ^+Н^}. (73) Про матрицу J говорят, что она имеет нормальную жорданову форму или просто жорданову форму. Матрица J сразу выписывается, если известны элементарные делители оператора А в поле К, содержащем все корни характеристического уравнения А(А) = 0. Произвольная матрица А всегда подобна матрице J, имеющей нормальную жорданову форму, т. е. для произвольной матрицы А всегда существует такая невырожденная матрица Г (|Г| /0), что А = TJT~ (74) Если все элементарные делители оператора А первой степени (и только в этом случае), жорданова форма является диагональной матрицей; в этом случае A = T{Ai,A2,...JAn}r- (75) Таким образом, линейный оператор А имеет простую структуру (см. гл. III, § 8) в том и только том случае, когда все элементарные делители оператора А линейны. Векторы ei, в2,..., ер, определяемые равенствами (70), занумеруем в обратном порядке: gi = ер = е Тогда (А - A0E)gl откуда g2 = ep_i = (А - А0Е)е, g„ = ei = (А - \оЕ)*-ге. (76) g2, (A-A0E)g2 = g3, (А - A0E)gp = 0, (77) Agi = A0gi + g2, Ag2 = A0g2 + g3, Agp = A0gp. (78) Векторы (76) образуют базис в циклическом инвариантном подпространстве I, соответствующем в расщеплении (40) элементарному делителю (А — Ао)р. В этом базисе, как легко видеть, оператору А будет отвечать матрица Ао 1 0 0 Ао 1 0 0 Ао о о = AoS(p)+F<p>. (79)
§8. Метод А.Н. Крылова преобразования векового уравнения 183 Про векторы (76) говорят, что они образуют нижнюю жорданову цепочку векторов. Если мы в каждом из подпространств I',I",.--5I^ в расщеплении (40) возьмем нижнюю жорданову цепочку векторов, то из этих цепочек составится нижний жорданов базис, в котором оператору А отвечает квазидиагональная матрица Ji = {Ai£(pi) + F^\ А2£(Р2) + F^\ ..., XUE^^ + F<p«>}. (80) Про матрицу J\ говорят, что она имеет нижнюю жорданову форму. В отличие от матрицы (80) матрицу (73) мы иногда будем называть верхней жордановой матрицей. Таким образом, произвольная матрица А всегда подобна как некоторой верхней, так и некоторой нижней жордановой матрице. § 8. Метод А.Н. Крылова преобразования векового уравнения 1. Если дана матрица А = Ца^Цу, то ее характеристическое (вековое) уравнение записывается в виде ац — Л ai2 ... о\п 0>21 0*22 — А ... а2п Д(А) = (-1)" 0. (81) ап1 ап2 • - • Q>nn ~ A В левой части этого уравнения стоит характеристический многочлен п-й степени А (А). Для непосредственного вычисления коэффициентов этого многочлена нужно раскрыть характеристический определитель \А — \Е\, а это связано при больших п с большим объемом вычислительной работы, поскольку А входит в диагональные элементы определителя14). Академик А.Н. Крылов в 1937 г. [103] предложил преобразование характеристического определителя, в результате которого А входит только в элементы одного столбца (или строки). Преобразование Крылова существенно упрощает вычисление коэффициентов характеристического уравнения15). В этом параграфе мы дадим алгебраический вывод преобразованного характеристического уравнения, несколько отличающийся от вывода самого Крылова16). Введем в рассмотрение n-мерное векторное пространство R с базисом ei, в2, ...,еп и линейный оператор А в R, определяемый данной матрицей А — Ца^Ц^ в этом базисе. Выберем в R произвольный вектор х/Ои составим ряд векторов х, Ах, А2х, ... (82) Пусть первые р векторов этого ряда х, Ах,..., Ар_1х линейно независимы, а (р + 1)-й вектор Арх есть линейная комбинация этих р векторов: Арх = — арх — ap-i Ах — ... — aiAp_1x, (83) 14) Напоминаем, что коэффициент при Afe в А(А) равен (с точностью до знака) сумме всех главных миноров порядка п — к матрицы А (к = 1,2,..., п). Таким образом, уже при п = 6 для непосредственного определения коэффициента при А в А (А) нужно вычислить шесть определителей пятого порядка, а для коэффициента при А2 нужно вычислить 15 определителей четвертого порядка и т. п. 15) Алгебраическому анализу метода А. Н. Крылова преобразования векового уравнения посвящен ряд исследований [109,а, б; 133, 81,6, 132]. 16) А. Н. Крылов пришел к своему преобразованному уравнению, исходя из рассмотрения системы п линейных дифференциальных уравнений с постоянными коэффициентами. Вывод Крылова в алгебраизированной форме можно найти, например, в [109,а; 81,6], а также в книге [33, § 21].
184 Гл. VII. Структура линейного оператора в n-мерном пространстве или <^(А)х = 0, (84) где <р(А) = Хр + а^-1 + ... + ар. (85) Все дальнейшие векторы ряда (82) также линейно выражаются через первые р векторов этого ряда17). Таким образом, в ряду (82) имеется р линейно независимых векторов, и это максимальное число линейно независимых векторов ряда (82) может быть всегда реализовано на первых р векторах ряда. Многочлен (р(Х) является минимальным (аннулирующим) многочленом вектора х относительно оператора А (см. § 1). Метод А.Н. Крылова есть метод эффективного определения минимального многочлена ср(Х) вектора х. Мы рассмотрим раздельно два случая: регулярный случай, когда р = п, и особый случай, когда р < п. Многочлен (р(Х) является делителем минимального многочлена ф(Х) всего пространства R18), а ф(Х) в свою очередь является делителем характеристического многочлена А (Л). Поэтому <р(А) всегда является делителем А (Л). В регулярном случае (р(Х) и А (Л) имеют одну и ту же степень п, и поскольку старшие коэффициенты у них равны, эти многочлены совпадают. Таким образом, в регулярном случае Д(Л) = V(A) = <?(А), и потому метод Крылова в регулярном случае есть метод вычисления коэффициентов характеристического многочлена А (Л). В особом случае, как мы увидим ниже, метод Крылова не дает возможности определить А (Л), и в этом случае он определяет только многочлен <р(А), являющийся делителем А (Л). При изложении преобразования Крылова мы будем обозначать координаты вектора х в заданном базисе ei,e2,...,en через а,6,...,/ а координаты вектора А*х через ak,bk,...,h (k = 1,2,...,п). 2. Регулярный случай: р = п. В этом случае векторы х, Ах, ...,Ап_1х линейно независимы, и равенства (83)-(85) принимают вид Апх = -апх - an-i Ах - ... - а± Ап_1х, (86) или А(А)х = 0, (87) где Д(Л) = Лп + aiA71"1 + ... + an_iA + an. (88) Условие линейной независимости векторов х, Ах,..., An_1 может быть аналитически записано так (см. гл. III, § 1): а Ь ... I а\ Ь\ ... \\ М = ф 0. (89) a>n-i bn-i ... /n_i 17) Применяя к обеим частям равенства (83) оператор А, мы выражаем линейно Ар+1х через векторы Ах,..., Ар_1х, Арх. Но Арх в силу (83) линейно выражается через векторы х, Ах,..., Ар_1х. Поэтому мы получаем аналогичное выражение для Ар+1х. Применяя к этому выражению вектора Ар+1х оператор А, мы выразим Ар+2х через х, Ах,..., Ар_1х и т. д. 18) ф(Х) — минимальный многочлен матрицы А.
§8. Метод А.Н. Крылова преобразования векового уравнения 185 Рассмотрим матрицу, составленную из координат векторов х, Ах,..., Апх: а Ь ... / (90) 0"п-1 Ьп-1 . . . /n_i 0"п ип ... 1п В регулярном случае ранг этой матрицы равен п. Первые п строк этой матрицы линейно независимы, а последняя (п + 1)-я строка есть линейная комбинация предыдущих п. Зависимость между строками матрицы (90) получим, заменяя векторное равенство (86) эквивалентной системой п скалярных равенств —апа — ап-\а\ — ... — a\an-i = ап, -апЪ - an_i&i - ... - aibn-x = 6П, -ап1 - an-ih - ... - ai/n-i = ln- (91) Из этой системы п линейных уравнений мы можем однозначно определить искомые коэффициенты 0:1,0:2, ••♦,ап 19) и подставить полученные значения в (88). Это исключение 01,02, ...,on из (88) и (91) можно провести в симметричной форме. Для этого перепишем (88) и (91) так: аап + a\an-i + ... + an_iOi + апао = 0, Ьап + b\an-i + ... + bn-iai + bnao = 0, lan + han-i + ... + Zn-io:i + 1п&о = 0, la„ + Aan_i + ... + X71'1^ + [An - A(A)]o0 = 0 К = i). Поскольку эта система из п + 1 уравнений с п + 1 неизвестными 00,01, ...,on имеет ненулевое решение (оо = 1), то определитель этой системы должен равняться нулю: a a\ ... an-i Q>n Ь bi ... bn-i bn I h 1 A ln-1 ДП-1 = 0. (92) An - A(A) Отсюда мы определяем А (А), предварительно транспонируя определитель (92) относительно главной диагонали: МА(А) = а сц a>n-i 0>п b . bi . Ьп-1 > Ьп 1 .. h - • ln-1 ln 1 А дп-1 An (93) где постоянный множитель М определяется формулой (89) и отличен от нуля. Тождество (93) и представляет собой преобразование Крылова. В определителе Крылова, стоящем в правой части этого тождества, А входит только в элементы последнего столбца; остальные же элементы этого определителя от А не зависят. ) Определитель этой системы в силу (89) отличен от нуля.
186 Гл. VII. Структура линейного оператора в n-мерном пространстве Замечание. В регулярном случае все пространство R является циклическим (относительно оператора А). Если в качестве базиса выбрать векторы х, Ах,..., Ап_1х, то в этом базисе оператору А соответствует матрица А, имеющая естественную нормальную форму: 0 0 ... О -ап 1 0 ... О -an_i А = О 0 -а2 1 — а\ (94) Переход от основного базиса ei,e2, ...,еп к базису х, Ах,..., Ап 1х осуществляется при помощи невырожденной преобразующей матрицы Т = а а,\ Ъ h 0"п-1 Ьп-1 При этом I /l ... ln-l А = ТАТ~\ (95) (96) 3. Особый случай: р < п. В этом случае векторы х, Ах, ...,Ап_1х линейно зависимы, и потому М = а Ь I h = 0. 0>n-l bn-i . . . /n_i Равенство (93) было выведено при условии М ф 0. Но обе части этого равенства представляют собой целые рациональные функции Л и параметров а, 6, ...,/20). Поэтому "из соображений непрерывности" следует, что равенство (93) имеет место и при М = 0. Но тогда в определителе Крылова (93) после его раскрытия все коэффициенты окажутся равными нулю. Таким образом, в особом случае (р < п) формула (93) переходит в тривиальное тождество 0 = 0. Рассмотрим матрицу, составленную из координат векторов х, Ах,..., Арх, (97) Эта матрица имеет ранг р, и первые р строк в ней линейно независимы, последняя же (р + 1)-я строка есть линейная комбинация первых р строк с коэффициентами —ар, — ap-i,..., — а\ [см. (83)]. Из п координат а, 6,...,/ мы сможем выбрать такие р координат с, /,..., h, чтобы определитель, составленный из этих координат векторов х, Ах,..., Ар_1х, был отличен от нуля: с f ... h а Oi ap-i dp b h bp-i . bp . l\ . lp-l . Ip M* Cp-1 /i p-i hi h p—1 #0. (98) 20\ (i) , (i)v . u) ai = a\{a + a^b + . .(*)/ bl = а{Ца + а{£ь+. + o}£l и т. д. (г = l,2,...,n), где а{ I (j, k = 1,2,..., n) — элементы матрицы Аг (г = 1, 2,..., п).
§8. Метод А.Н. Крылова преобразования векового уравнения 187 Далее, из (83) вытекает —арс — av-\C\ — ... — aiCp-i = ср, -apf - ap-ifi - ... - «l/p-l = /p, (gg) -OLph — ap—\h\ — ... — OL\hp—\ = h< p. Из этой системы уравнений однозначно определяются коэффициенты ац, «2,..., olp многочлена (р(Х) (минимального многочлена вектора х). Совершенно аналогично регулярному случаю (лишь с заменой п на р и букв а, 6,...,/ буквами с, /,..., h) мы сможем исключить ai,a2,...,ap из (85) и (99) и получить следующую формулу для (р(Х): с f ... h l ci /i ... /ii Л M>(A) = cp-i fp-i ... hp-i Xp Cp Jp • • • Up Л (100) 4. Остановимся на выяснении вопроса, для каких матриц А = Ца^Ц? и при каком выборе исходного вектора х, или, что то же, при каком выборе исходных параметров а, 6,...,/ имеет место регулярный случай. Мы уже видели, что в регулярном случае Д(А) = V(A) = ¥>(A). Совпадение характеристического многочлена А (Л) с минимальным многочленом ф(\) означает, что у матрицы А = ||агл||? нет ДВУХ элементарных делителей с одним и тем же характеристическим числом, т. е. все элементарные делители попарно взаимно просты. В случае, когда А — матрица простой структуры, это требование равносильно условию, что характеристическое уравнение матрицы А не имеет кратных корней. Совпадение многочлена ^(Л) с (р(Х) означает, что в качестве вектора х выбран вектор, порождающий (при помощи оператора А) все пространство R. Такой вектор, согласно теореме 2 § 2, всегда существует. Если же условие А(Л) = ^(Л) не выполняется, то, как бы ни выбрать вектор х ф 0, мы не получим многочлена А (Л), так как полученный по методу Крылова многочлен (р(Х) является делителем ^(Л), который в рассматриваемом случае не совпадает с многочленом А(Л), а является лишь его делителем. Варьируя вектор х, мы можем в качестве (р(Х) получить любой делитель ^(Л)21). Полученные выводы мы можем сформулировать в виде следующей теоремы. Теорема 14. Преобразование Крылова дает выражение для характеристического многочлена А(Л) матрицы А = На^Н? в виде определителя (93) в том и только том случае, когда выполняются два условия: 1°) элементарные делители матрицы А попарно взаимно просты; 2°) исходные параметры а, 6,...,/ являются координатами вектора х, порождающего (при помощи оператора А, соответствующего матрице А) все п-мерное пространство 22). В общем же случае преобразование Крылова приводит к некоторому делителю (р(Х) характеристического многочлена А(Л). Этот делитель (р(Х) является 21) См., например, [81,6, с. 48]. 22) В аналитическом виде это условие означает, что столбцы х, Ах,..., Ап_1х, где х = (а, 6,...,/), линейно независимы.
188 Гл. VII. Структура линейного оператора в n-мерном пространстве минимальным многочленом для вектора х с координатами а, 6,...,/ (а, 6,...,/ — исходные параметры в преобразовании Крылова). 5. Покажем, как найти координаты собственного вектора у для любого характеристического числа Ло, которое является корнем многочлена <р(А), получающегося по методу Крылова23). Вектор у ф О будем искать в виде у = &х + & Ах + ... + £рАр-гх. (101) Подставляя это выражение для у в векторное равенство Ау = Лоу и используя (101), мы получим $1 Ах + £2А2х + ... + £p-iАр_1х + £р(-арх - ар-ХАх - ... - aiAp_1x) = = Ao(£ix + & Ах + ... + ZpAP-1*). (102) Отсюда, между прочим, следует, что £р ф 0, так как равенство £р = 0 в силу (102) давало бы линейную зависимость между векторами х, Ах,..., Ар_1х. В дальнейшем мы полагаем £р = 1. Тогда из (102) получаем £р = 1» £р-1 = ^о£р + «1? £р-2 = Ао£р-1 + «2, ..., £l = Ло^2 + <2р-1, (103) 0 = A0£i + ар. Первые р из этих равенств определяют последовательно величины £p,£p-i,...,£i (координаты вектора х в "новом" базисе х, Ах,..., Ар_1х); последнее же равенство является следствием из предыдущих и из соотношения А£ + ckiAq-1 + ... ... + ар = 0. Координаты а',Ь',...,1' вектора у в исходном базисе могут быть найдены по следующим формулам, которые вытекают из (101): а' = £ха + $2«i + ••• + fpOp-i, У = £i& + 6&i + ».+ £рЬр_ь (Ю4) /' = Ы + Ы1 + ... + £p/p-i. Пример 1. Рекомендуем читателю следующую схему вычислений. Под данной матрицей А выписываем строку из координат а, 6,...,/ вектора х. Этими числами задаемся произвольно (при одном лишь ограничении: по крайней мере одно из этих чисел отлично от нуля). Под строкой а, 6,...,/ пишем строку «i,6i,...,/i, т. е. координаты вектора Ах. Числа ai,6i,...,/i получаются путем последовательного умножения строки а, 6,...,/ на строки данной матрицы А. Так, например, а\ = аца + ai26 + ... + ain/, Ь\ = а2\а + а22Ь + ... + а2п1 и т. д. Под строкой ai,6i,...,/i пишем строку a2,b2,...,l2 и т. д. Каждая из приписываемых строк, начиная со второй, определяется путем последовательного умножения предыдущей строки на строки данной матрицы. 23) Последующие рассуждения имеют место как для регулярного случая р = п, так и для особого случая р < п.
§8. Метод А.Н. Крылова преобразования векового уравнения 189 Над строками данной матрицы выписываем контрольную суммарную строку А = х = ex + е2 Ах А2х А3х А4х '{ ■{ 8 1 3 2 2 1 1 2 3 0 5 0 0 -4 1 3 -1 3 -1 2 1 5 5 9 9 8 2 0 0 -10 -4 -2 -3 -1 0 1 2 -1 4 0 0 -4 1 -3 2 1 -4 2 -3 0 3 2 5 4 4 1 0 0 У -1 -1 1 1 z 1 -1 -1 1 В данном случае мы имеем регулярный случай, поскольку М = 1 1 2 5 3 5 О 9 0 О 1 3 2 2 -1 5 = -16. Определитель Крылова имеет вид -1бА(Л) = О 1 2 -1 4 1 Л Л2 Л3 Л4 Раскрывая этот определитель и сокращая на —16, найдем А(Л) = Л4 - 2Л2 + 1 = (Л - 1)2(Л + I)2. Обозначим через у = £ix + &Ах + £зА2х + ^А3х собственный вектор матрицы А, соответствующий характеристическому числу Ло = 1. Числа £ь£2>£з?£4 найдем по формулам (103): $4 = 1, 6 = 1-Ао + 0 = 1, 6 = ЬАо-2 = -1, & = -1.Ао+0 = -1. Контрольное равенство — 1 • Ло + 1 = 0, конечно, удовлетворяется. Полученные числа £ь£2,£з, $4 располагаем в вертикальном столбце параллельно столбцу векторов х, Ах, А2х, А3х. Умножая столбец £ъ£2,£з,£4 на столбец ai,d2,a3,a4, мы получим первую координату а' вектора у в исходном базисе е1,е2,ез,в4; аналогично получаем b',c',df. Находим координаты (после сокращения на 4) вектора у: 0,2,0,1. Аналогично определяем координаты 1,0,1,0 собственного вектора z для характеристического числа Ло = — 1. Далее, согласно (94) и (95), А = ТАТ~\ где А = 0 0 0 1 0 0 0 1 0 0 0 1 -1 1 0 2 о L г= 112 3 15 5 0 12 0 3 2 0 9 -1 5
190 Гл. VII. Структура линейного оператора в n-мерном пространстве Пример 2. Рассмотрим ту же матрицу А, но в качестве исходных параметров возьмем числа а = 1, Ь = 0, с = 0, d = 0; 8 3 -10 -3 А = х = ei I Ах А2х А3х М = 3 2 2 1 1 3 1 3 1 1 3 1 з -1 3 -1 2 0 2 4 6 0 2 4 6 -4 -2 -3 -1 0 0 2 1 0 2 2 3 0 0 2 1 0 2 2 3 2 -4 2 -3 = Но в данном случае и р = 3. Мы имеем дело с особым случаем. Беря первые три координаты векторов х, Ах, А2х, А3х, записываем определитель Крылова в виде 1 0 3 2 1 4 3 6 0 2 0 2 1 Л Л2 Л3 Раскрывая этот определитель и сокращая на —8, получим <р(\) = Л3 - Л2 - Л + 1 = (Л - 1)2(Л + 1). Отсюда находим три характеристических числа: Ai = 1, Л2 = 1, A3 = — 1. Четвертое характеристическое число получим из условия, что сумма всех характеристических чисел равна следу матрицы. Но SpA = 0. Поэтому А4 = — 1. Приведенные примеры показывают, что при применении метода Крылова, выписывая последовательно строки матрицы а Ь ... I «2 Ь2 h h (105) нужно следить за рангом получаемой матрицы с тем, чтобы остановиться на первой [(р + 1)-й сверху] строке, которая является линейной комбинацией предыдущих. Определение ранга связано с вычислением известных определителей. Кроме того, получив определитель Крылова в виде (93) или (100), для раскрытия его по элементам последнего столбца следует вычислить известное число определителей (р — 1)-го порядка [в регулярном случае (п — 1)-го порядка]. Вместо раскрытия определителя Крылова можно определить коэффициенты ai,a!2, ••• непосредственно из системы уравнений (91) [или (99)], применяя к этой системе какой-либо эффективный метод решения, например метод исключения. Этот метод можно применить непосредственно к матрице i Ь ... / 1 «1 «2 ь2 h А А2 (106)
§8. Метод А.Н. Крылова преобразования векового уравнения 191 пользуясь им параллельно с получением соответствующих строк по методу Крылова. Тогда мы своевременно обнаружим зависимую от предыдущих строку матрицы (105) без вычисления каких-либо определителей. Поясним это подробнее. В первой строке матрицы (106) выбираем какой-либо элемент с/Оис его помощью обращаем в нуль стоящий под ним элемент с±, вычитая из второй строки первую, умноженную на С1/С2. Затем во второй строке выбираем какой-либо элемент /* / 0 и с помощью элементов с и /j* обращаем в нуль элементы С2 и /2 и т. д.24). В результате такого преобразования в последнем столбце матрицы (106) степени А* заменятся многочленами k-Pi степени gk(X) = = А* + ... (А? = 0,1,2,...). Так как при нашем преобразовании при любом к ранг матрицы, образованной первыми к строками и первыми п столбцами матрицы (106), не меняется, то (р + 1)-я строка этой матрицы после преобразования будет иметь вид 0, 0, ..., 0, 9р(\). Проведенное нами преобразование не изменяет величины определителя Крылова с / ... А 1 с\ Л ...hi A Cp-i fp-i - • • hp-i Хр~ Ср Jp • • • ГЬр Л. = М>(А). Поэтому М>(А) = с/* ... 9р(Х), (107) т. е.25) др(Х) и будет искомым многочленом <р(А), др(Х) = <р(Х). Рекомендуем следующее упрощение. Получив к-ю преобразованную строку в матрице (106) aj_!, &£_!, ..., 11_г, Pfc-i(A), (108) следующую (к + 1)-ю строку следует получать, умножая ряд сь1_1,Ь1_1,..., 1%_± (а не первоначальный ряд a,k-i,bk-i,...,lk-i) на строки данной матрицы26). Тогда мы найдем (к + 1)-ю строку в виде а£, &£, ..., Ik, Xgk-i(X) и после вычитания предыдущих строк получим ah bh •••> lh 9к(Х). Рекомендуемое нами небольшое видоизменение метода Крылова (соединение его с методом исключения) позволяет сразу получить интересующий нас многочлен (р(Х) [в регулярном случае А (А)] без вычисления каких-либо определителей и решения вспомогательной системы уравнений27). 24) Элементы ci,/x*,... не должны принадлежать последнему столбцу, содержащему степени А. 25) Напоминаем, что старшие коэффициенты многочленов ^>(А) и дР(Х) равны единице. 26) Упрощение заключается в том, что в преобразованной строке (108) к — 1 элементов равны нулю. Поэтому такую строку проще умножать на строки матрицы А. 27) Наряду с методом А.П. Крылова мы познакомили читателя в гл. IV с методом Д.К. Фаддеева вычисления коэффициентов характеристического многочлена. Метод Д. К. Фаддеева связан с большими вычислениями, нежели метод Крылова, но метод Фаддеева является более общим, в нем нет особых случаев. Обращаем внимание читателя еще на весьма эффективный метод А. М. Данилевского [88]; см. также [8,а, с. 235-239], обзорную статью [79] и книгу [33, § 24].
192 Гл. VII. Структура линейного оператора в n-мерном пространстве Пример. 1 1 -1 1 2 0 0 0 0 -5 -5 -10 0 5 0 1 2 2 -2 1 0 1 2 -2 -7 0 -10 0 5 0 -1 -1 3 1 -1 0 0 3 3 5 5 20 -5 -15 0 1 0 -1 2 3 0 -1 -4 0 7 0 0 0 -5 0 01 1 0 -1 0 1 0 -2 0 -5 0 -15 0 0 0 1 л Л2 - 4Л + 2 А3 - 4А2 + 2 А3 - 4Л2 + 2А [5 + 7Л] Л3 - 4А2 + 9А + 5 Л4 - 4Л3 + 9Л2 + 5Л [15 - 5(Л2 - 4А + 2)- -2(Л3 - 4Л2 + 9А + 5)] Л4 - 6Л3 + 12Л2 + 7А - 5 Л5 - 6Л4 + 12Л3 + 7Л2 - 5Л [-5 - 5А + (Л3 - -4А2 + 9А + 5) - 2(Л4 - 6Л3 + 12Л2 + 7А - 5)] Л5 - 8Л4 + 25Л3 - 21Л2 - 15Л + 10 А(Л)
ГЛАВА VIII МАТРИЧНЫЕ УРАВНЕНИЯ В этой главе мы рассмотрим некоторые типы матричных уравнений, встречающиеся в разнообразных вопросах теории матриц и ее приложений. § 1. Уравнение АХ = ХВ Пусть дано уравнение АХ = ХВ, (1) где А и В — две заданные квадратные матрицы (вообще говоря, разных порядков) A=\\aij\\T, В=||Ь„||?, а X — искомая прямоугольная матрица размера т х п: x = \\xjk\\ (j = l,2,...,m; fc = l,2,...,n). Выпишем элементарные делители матриц А и В (в поле комплексных чисел): (А): (А-АхГ, (A-A2f2, ..., (А - A*)'- (pi + р2 + ... + Ри = ш), (В): (\-fii)q\ (А-/х2)«2, ..., (А - ^)*> (<?i + q2 + ... + qv = п). В соответствии с этими элементарными делителями приведем матрицы А и В к нормальной жордановой форме: А = UAU-1, В = VBV~\ (2) где U и V — квадратные невырожденные матрицы соответственно порядков т и п, а А и В — жордановы матрицы: I={Ai£<Pl>+#<Pl), \2Е^+Н^\ ..., А„Я<Р«>+#<*»>}, (3) Подставляя в уравнение (1) вместо А и В их выражения (2), получим UAU-1X = XVBV~l. Умножим обе части этого равенства слева на U~x, а справа — на V: AU~XXV = U~XXVB. (4) Вводя вместо искомой матрицы X новую искомую матрицу X (того же размера т х п), X = U'1 XV, (5) запишем уравнение (4) так: АХ = ХВ. (6) Мы заменили матричное уравнение (1) уравнением (6) того же вида, но в котором заданные матрицы имеют нормальную жорданову форму.
194 Гл. VIII. Матричные уравнения В соответствии с квазидиагональным видом матриц А и В разобьем матрицу X на блоки: _ Х = (Хар) (a = l,2,...,ti; /3 = 1,2,...,*;) (здесь Хар — прямоугольная матрица размера ра х qp; а = 1,2, ...,г*; /3 = = 1,2,...,»). Используя правило умножения блочной матрицы на квазидиагональную (см. с. 54), произведем умножение матриц в левой и правой частях уравнения (6). Тогда что уравнение распадается на uv матричных уравнений [АвЯ<*-> + Hto«)]Xa0 = Xa(3[fjipE^ + НМ] (a = l,2,...,ti; /3 = 1,2,..,*;), которые перепишем еще так: (Р0 - \a)Xai3 = НаХар - XapGp (a = 1,2,..., и; /3 = 1,2,.., v); (7) при этом мы ввели сокращенные обозначения На=Н^\ GP=H^ (a = l,2,...,ti; >9 = l,2,...,v); (8) Возьмем какое-нибудь из уравнений (7). Могут представиться два случая. 1. \а ф цр. Итерируем г — 1 раз равенство (7)1): (Ц0-\а)ГХа0= Y, (-l)T#a*a/^. (9) а+т=г Заметим, что в силу (8) Н*~ = Gqg = 0. (10) Если в (9) взять г ^ ра + q@ — 1, то в каждом члене суммы, стоящей в правой части равенства (9), выполняется по крайней мере одно из соотношений о- ^Ра, г ^ q$, и потому в силу (10) либо Н° = 0, либо Ср = 0. Так как, кроме того, в рассматриваемом случае Ха ф /лр, то из (9) находим Хар = 0. (11) 2. \а = пр. В этом случае уравнение (7) принимает вид НаХар = XapGp. (12) В матрицах На и Gp элементы первой наддиагонали равны единице, а все остальные элементы равны нулю. Учитывая эту специфичную структуру матриц На и Gp и полагая *а/? = ||&*|| (г = 1,2,...,ра; к = 1,2,...,^), мы заменим матричное уравнение (12) следующей эквивалентной ему системой скалярных соотношений2): &+М = &,k-i (&o = fp«,*=0; г = l,2,...,pa; к = 1,2,..,^). (13) *) Обе части равенства (7) умножаем на /ip — \а ив каждом члене правой части заменяем (/лр — Аа)Ха/з на НаХар — XapGp. Этот процесс повторяем г — 1 раз. 2) Из структуры матриц На и Gp следует, что произведение НаХар получается из Xaf3 сдвигом всех строк на одно место вверх и заполнением последней строки нулями; аналогично, X^pGp получается из Хар сдвигом всех столбцов на одно место вправо и заполнением первого столбца нулями (см. гл. I, с. 23). Для сокращения обозначений мы не пишем при &*. дополнительных индексов а, /3.
§1. Уравнение АХ = ХВ 195 Равенства (13) означают: 1) в матрице Ха(з на каждой линии, параллельной главной диагонали, стоят разные между собой элементы; 2) Ы = Ы = ••• = €ра1 = £>Рос2 = ••• = fР« ,9/3-1 = 0. Пусть ра = qp. В этом случае Хар — квадратная матрица. Из 1), 2) следует, что в матрице Ха/з все элементы, расположенные под главной диагональю, равны нулю, все элементы главной диагонали равны некоторому числу са/з, все элементы первой наддиагонали равны некоторому числу с'а/3 и т. д., т. е. Ха/з — Са(3 о о са(3 Са(3 Са(3 .. о (Ра = Яр) са(3 Са(3 = TVi (14) ,(p«-i) здесь сар, с'а/3, &£Z ' — произвольные параметры (уравнения (12) не накладывают никаких ограничений на значения этих параметров). Легко видеть, что при ра < qp Q/З^Ра Ха0 = ( 0 тРв), (15) **=( I") (16) а при ра > qp Тар 0 / }Ра- q/3 Про матрицы (14)—(16) мы будем говорить, что они имеют правильную верхнюю треугольную форму. Число произвольных параметров в Хар равно наименьшему из чисел ра и qp. Приведенная ниже схема показывает структуру матрицы Ха/з при Ха = Р/з (произвольные параметры здесь обозначены через а, 6, с, d): а 0 0 а Ь с " 0 0 0 a b 0 0 0 0а (Pa =3,qp= 5) Ха/з — а 0 0 0 (Ра b с a b 0 а 0 0 = q/з = d с b а 4) Ха(3 — Ха(з — b а 0 0 0 с 1 b а 0 0 1 (Ра = 5, qp = 3) Для того чтобы при подсчете произвольных параметров в матрице X охватить и случай 1), обозначим через da/j(A) наибольший общий делитель элементарных делителей (А — Аа)Ра и (А — ///?)д/3, а через Sap — степень многочлена da/?(A) (a = = 1,2,..., щ /3 = 1,2,..., г;). В случае 1) 8а(з = 0; в случае 2) 8а(з = min (Ра,Я/з)- Таким образом, в обоих случаях число произвольных параметров в Ха/з равно 8а(3- Число произвольных параметров в X определяется формулой и v * = ££*<*• а=1/?=1 В дальнейшем нам удобно будет общее решение уравнения (б) обозначить через -X"™ (Д° сих П0Р мы это решение обозначали буквой X). Полученные в этом параграфе результаты можно сформулировать в виде следующей теоремы. 7*
196 Гл. VIII. Матричные уравнения Теорема 1. Общее решение матричного уравнения АХ = ХВ, где _ А = \\aikW? = UAU-1 = U{XXE^ + H^\ ..., ХиЕ^ + #<*«>}С/"1, в = \\bik\\? = vbv-1 = viinE^+Hfa), ..., ibE^+H^yv-1, задается формулой X = UXXSV~1. (17) Здесь Xj~ — общее решение уравнения АХ = ХВ — имеет следующую структуру: Х~~ разбивается на блоки Xxs = (Xa(3)}Pa (а = 1,2,..,*/; /3 = 1,2,..,*;); если Ха ф /х/з, то на месте Хар стоит нулевая матрица, если же Ха = /Х/з, то на месте Хар стоит произвольная правильная верхняя треугольная матрица. Х~~, а следовательно, и X зависят линейно от N произвольных параметров С1,с2,...,слг: N X = J2cjXj, (18) где N определяется формулой a=l /3=1 [здесь Sap обозначает степень наибольшего общего делителя (А — Ха)Ра и (А-ЫП Заметим, что матрицы Xi,X2,...,-Xw, фигурирующие в формуле (18), суть решения исходного уравнения (1) (матрица Xj получается из X, если параметру Cj дать значение единица, а остальным параметрам — нулевые значения; j = 1,2, ...,iV). Эти решения линейно независимы, так как в противном случае при некоторых значениях параметров ci,C2, ..,слг, не равных одновременно нулю, матрица X, а следовательно, и Х~~ равнялись бы нулю, что невозможно. Таким образом, равенство (19) показывает, что любое решение исходного уравнения представляет собой линейную комбинацию N линейно независимых решений. Если матрицы А и В не имеют общих характеристических чисел (характеристические многочлены \ХЕ — А\ и \ХЕ — В\ взаимно просты), то N = и v = 2^. У^ <W = О Щ следовательно, X = О, т. е. в этом случае уравнение (1) а=1 /3=1 имеет только тривиальное нулевое решение X = 0. Замечание. Пусть элементы матриц А и В принадлежат некоторому числовому полю К. Тогда нельзя утверждать, что элементы матриц U, V, Х~~, фигурирующих в формуле (17), также принадлежат полю К. Элементы этих матриц можно выбрать в расширенном поле Ki, которое получается из поля К путем приобщения к последнему корней характеристических уравнений \ХЕ — А\ = 0 и \ХЕ — В\ = 0. С такого рода расширением основного поля всегда приходится иметь дело, когда пользуются приведением заданных матриц к нормальной жор- дановой форме.
§2. Частный случай: А = В. Перестановочные матрицы 197 Однако матричное уравнение (1) эквивалентно системе ran линейных однородных уравнений, где неизвестными служат элементы Xjk (j = 1,2, ...,m; к = = 1,2, ...,п) искомой матрицы X: т п ^2 aijxJk = ^2 Xihbhk (* = *>2' -' т5 к = 1,2,..., п). (20) j=i /1=1 Нами доказано, что эта система имеет N линейно независимых решений, где N определяется формулой (19). Но известно, что базисные линейно независимые решения можно выбрать в основном поле К, которому принадлежат коэффициенты уравнений (20). Таким образом, в формуле (18) матрицы ХЬХ2, ...,Xjv можно выбрать так, чтобы их элементы принадлежали полю К. Тогда, придавая в формуле (18) произвольным параметрам всевозможные значения из поля if, мы получим все матрицы X с элементами из К, удовлетворяющие уравнению (1) 3). § 2. Частный случай: А=В. Перестановочные матрицы Рассмотрим частный случай уравнения (1) — уравнение АХ = ХА, (21) где А = \\aik\\i — заданная, а X = ||жг*||? — искомая матрица. Мы пришли к задаче Фробениуса: определить все матрицы X, перестановочные с данной матрицей А. Приведем матрицу А к нормальной жордановой форме: А = UAU-1 = и{ХгЕ^^ + #(Р1\ ..., А„Я<Ри) + #<*«>} U'1. (22) Тогда, полагая в формуле (17) V = U, В = А и обозначая Xj~ сокращенно через Хг, получим все решения уравнения (21), т. е. все матрицы, перестановочные с А, в следующем виде: X = UX~U~\ (23) где Х~ обозначает произвольную матрицу, перестановочную с А. Как было выяснено в предыдущем параграфе, Х-r разбивается на и2 блоков: в соответствии с разбиением жордановой матрицы А на блоки; Хар — нулевая матрица либо произвольная правильная верхняя треугольная матрица в зависимости от того, будет Ха ф \р или Ха = \р. Для примера выпишем элементы матрицы Х~ для случая, когда матрица А имеет следующие элементарные делители: (Л - Ai)4, (Л - Ах)3, (А - А2)2, А - А2 (Ах ф А2). 3) Матрицы А = \\a,ij\\™ и В = ЦЬыНГ определяют линейный оператор F(X) = АХ — —ХВ в пространстве прямоугольных матриц X с размерами га х п. Исследование операторов такого типа проведено в работах [85,а, б].
198 Гл. VIII. Матричные уравнения В этом случае Xj имеет такой вид: abed 0 a b с 0 0 a b 0 0 0а 0 h к 1 0 0 h к OOO/i 0 0 0 0 0 0 0 0 0 0 0 0 е / 9 0 е / 0 0 е 0 0 0 т р q 0 т р 0 0 га 0 0 0 0 0 0 0 0 0 о о о о о о о о 0 0 0 0 0 0 Г S 0 г 0 w о о о о 0 0 0 t 0 Z (а, 6,..., z — произвольные параметры). и Число параметров в Х~ равно iV, где N = \J ёа/з; здесь ёа/з обозначает а,(3=1 степень наибольшего общего делителя многочленов (Л — Ха)Ра и (Л — Х(з)Р(3. Введем в рассмотрение инвариантные многочлены матрицы A: г1(А),г2(А),... ...,г*(А); it+i(A) = ... = гп(А) = 1. Степени этих многочленов обозначим через Щ ^ п2 ^ ... ^ щ > щ+1 = ... = 0. Так как каждый инвариантный многочлен является произведением нескольких попарно взаимно простых элементарных делителей, то формулу для N можно записать и так: t N=Y1 H9h (24) где Xgj — степень наибольшего общего делителя многочленов г^(А) и г^-(А) (#, j = = 1,2, ...,£). Но наибольшим общим делителем многочленов г^(А) и г^(А) является один из этих же многочленов, и потому xgj = mm(ng,rij). Отсюда получаем N = щ + Зп2 +... + (2* - i)nt. Число N является числом линейно независимых матриц, перестановочных с матрицей А (можно считать, что элементы этих матриц принадлежат основному полю К, содержащему элементы матрицы А; см. замечание в конце предыдущего параграфа). Итак, получена Теорема 2. Число линейно независимых матриц, перестановочных с матрицей А = На^НУ, определяется формулой N = m+Sn2 + ... + (2* - l)nt, (25) где п\,П2,...,щ — степени непостоянных инвариантных многочленов ii(A), г2(А),..., гДА) матрицы А. Заметим, что п = т + п2 + ... + щ. (26) Из (25) и (26) вытекает N > п, (27) причем знак = имеет место в том и только том случае, когда t = 1, т. е. когда все элементарные делители матрицы А попарно взаимно просты.
§2. Частный случай: А = В. Перестановочные матрицы 199 Пусть д(Х) — некоторый многочлен от Л. Тогда матрица д(А) перестановочна с А. Возникает обратный вопрос: в каком случае любая матрица, перестановочная с А, может быть представлена как многочлен от А? В этом случае любая матрица, перестановочная с А, была бы линейной комбинацией линейно независимых матриц Е, А, А2, ..., Ani~\ В рассматриваемом случае N = rt\ ^ п; сопоставляя с (27), получаем N = = Ш = п. Таким образом, имеет место Следствие 1 теоремы 2. Все матрицы, перестановочные с А, представляются как многочлены от А в том и только том случае, когда п\ = п, т. е. когда все элементарные делители матрицы А попарно взаимно просты. Многочлены от матрицы, перестановочной с А, также перестановочны с А. Поставим вопрос: в каком случае все матрицы, перестановочные с А, представляются в виде многочленов от некоторой (одной и той же) матрицы С? Допустим, что такой случай имеет место. Тогда, так как в силу теоремы Гамильтона-Кэли матрица С удовлетворяет своему характеристическому уравнению, то любая матрица, перестановочная с С, выразится линейно через матрицы Е, С, С2, ..., Сп~х. Поэтому в рассматриваемом случае N ^ п. Сопоставляя с (27), находим N = п. Но тогда из (25) и (26) и rt\ = п. Следствие 2 теоремы 2. Все матрицы, перестановочные с А, представляются в виде многочленов от одной и той же матрицы С в том и только том случае, когда п\ = п, т. е. когда все элементарные делители матрицы ХЕ — А взаимно просты. В этом случае все матрицы, перестановочные с А, представляются и в виде многочленов от А. Отметим еще одно очень важное свойство перестановочных матриц. Теорема 3. Если две матрицы А = \\a,ik\\i, В = \\bik\\i перестановочны и одна из них, например, А, имеет квазидиагональный вид: A={Z 72} (28) где матрицы А\ и A<i не имеют общих характеристических чисел, то и другая матрица имеет такой же квазидиагональный вид: S\ S2 В={ВХ В2) (29) Доказательство. Разобьем матрицу В на блоки в соответствии с квазидиагональным видом (28): В = «1 S2 Вг X Y В2 Записывая, что АВ = В А, получим четыре матричных равенства: 1). А1В1=В1А1; 2). AiX = XA2; 3). A2Y = YA1; 4). А2В2 = В2А2. (30) Второе и третье из уравнений (30), как было выяснено в § 1 (с. 196), имеют только нулевые решения X = 0, Y = 0, поскольку матрицы А\ и А2 не имеют общих характеристических чисел. Таким образом, наше предложение доказано.
200 Гл. VIII. Матричные уравнения Первое и четвертое из равенств (30) выражают перестановочность матриц А± и Ви А2 и В2. Доказанное предложение в геометрической формулировке выглядит так. Теорема 3'. Если R = Ii + h — расщепление всего пространства R на инвариантные относительно оператора А подпространства Ii и 12 и минимальные многочлены этих подпространств (относительно А) взаимно просты, то эти подпространства Ii и 12 инвариантны относительно любого линейного оператора В, перестановочного с А. Из доказанной теоремы вытекает4) Следствие 1. Если линейные операторы А, В,..., L попарно перестановочны, то можно расщепить все пространство R на инвариантные относительно всех операторов А, В,..., L подпространства, R = Il+I2 + ...+Iti;, так, чтобы минимальный многочлен любого из этих подпространств относительно любого из операторов А, В,..., L был степенью неприводимого многочлена. Как частный случай отсюда получим Следствие 2. Если линейные операторы А,В,...,L попарно перестановочны и все характеристические числа этих операторов принадлежат основному полю К, то можно расщепить все пространство R на инвариантные относительно всех операторов А, В,..., L подпространства Ii, I2,..., Iw, в каждом из которых любой из операторов A, B,...,L имеет равные характеристические числа. И, наконец, отметим уже частный случай этого предложения: Следствие 3. Если операторы простой структуры A,B,...,L (см. гл. III, § 8) попарно перестановочны, то можно составить базис пространства из общих собственных векторов этих операторов. Дадим еще матричную формулировку последнего предложения: перестановочные матрицы простой структуры можно одновременно, т. е. одним и тем же преобразованием подобия, привести к диагональному виду. § 3. Уравнение АХ - ХВ = С Пусть дано матричное уравнение АХ - ХВ = С, (31) где А = \\aij\\™, В = \\bki\\i — заданные квадратные матрицы порядков тип, С = \\cjk\\ — заданная, а X = \\xjk\\ — искомая прямоугольные матрицы размера т х п. Уравнение (31) эквивалентно системе тп скалярных уравнений относительно элементов матрицы X: т п 2_saiJxJk -22%ubik = Cik (i = l,2,...,m; к = 1,2, ...,n). 3=1 1=1 Соответствующая однородная система уравнений т п ^2aijXjk-^2xiibik = 0 (г = l,2,...,m; к = 1,2, ...,п). j=± i=i 4) См. также теорему 1 гл. VII (с. 167).
§4- Скалярное уравнение f(X) = 0 201 в матричном виде записывается так: АХ - ХВ = 0. (32) Таким образом, если уравнение (32) имеет только нулевое решение, то уравнение (31) имеет одно и только одно решение. Но в § 1 было установлено, что уравнение (32) имеет только нулевое решение тогда и только тогда, когда матрицы А и В не имеют общих характеристических чисел. Следовательно, если матрицы А и В не имеют общих характеристических чисел, то уравнение (31) имеет одно и только одно решение; если же матрицы А и В имеют общие характеристические числа, то в зависимости от "свободного члена" С могут представиться два случая: либо уравнение (31) противоречиво, либо оно имеет бесчисленное множество решений, задаваемых формулой X = Xq + X\, где Х0 — фиксированное частное решение уравнения (31), Х\ — общее решение однородного уравнения (32) (структура Х\ была выяснена в § 1). § 4. Скалярное уравнение /(-X") = О Рассмотрим сначала уравнение 9(Х) = 0, (33) где 9(Х) = (Л - АхГ(Л - А2Г2... (Л - Xh)ah — заданный многочлен переменной Л, а X — искомая квадратная матрица порядка п. Так как минимальный многочлен матрицы X, т. е. первый инвариантный многочлен п(Л), должен быть делителем многочлена д(Х), то элементарные делители матрицы X должны иметь следующий вид: (A-AiJ*!, (A-Afc)**, ..., (А-А*,)*" ($i, 12-, •••?i>v — 1,2i,..., h\ pix ^ a,ix, Pi2 ^ a,i2, ..., Pih ^ (ijh; Ph +Pi2 + •••+£*„ =n) (среди индексов ii, гг, ...,V могут быть и равные, п — заданный порядок искомой матрицы X). Искомая матрица X представится в виде X = T{\hE^ + #<*!>, ..., \ivE{piv) + Ж^Г"1, (34) где Т — произвольная невырожденная матрица порядка п. Множество решений уравнения (33) с заданным порядком искомой матрицы распадается, согласно формуле (34), на конечное число классов подобных между собой матриц. Пример 1. Дано уравнение Хт = 0. (35) Если некоторая степень матрицы равна нулю, то матрица называется ниль- потентной. Наименьший из показателей, при которых степень матрицы равна нулю, называется индексом нильпотентности данной матрицы. Очевидно, решениями уравнения (35) являются все нильпотентные матрицы с индексом нильпотентности /л ^.т. Формула, охватывающая все решения данного порядка п, выглядит так: Х = Т{Я^1),Я^2),...,Я^)}Г"1 / ^ \ (36) ( Pl,P2,...,Pi/ ^ ГП\ Р! +Р2 + '~+Ри =П )
202 Гл. VIII. Матричные уравнения (Т — произвольная невырожденная матрица). Пример 2. Дано уравнение X2 = X. (37) Матрица, удовлетворяющая этому уравнению, называется идемпотентной. Элементарными делителями идемпотентной матрицы могут быть только Л либо Л — 1. Поэтому идемпотентную матрицу можно определить как матрицу простой структуры (т. е. приводящуюся к диагональной форме) с характеристическими числами, равными нулю или единице. Формула, охватывающая все идем- потентные матрицы данного порядка, имеет вид Х = Г{1,1,..,1,0,...,0}Т-\ (38) 4 v ' П где Т — произвольная невырожденная матрица порядка п. Рассмотрим теперь более общее уравнение f(X) = 0, (39) где /(А) — регулярная функция в некоторой области G плоскости комплексного аргумента Л. От искомого решения X = \\xik\\i будем требовать, чтобы характеристические числа его принадлежали области G. Выпишем все нули функции /(Л), лежащие в области G, и их кратности: Ai, A2, ..., 01, а2, ... Как и в предыдущем случае, каждый элементарный делитель матрицы X должен иметь вид (X-Xi)Pi (Pi^ai), и потому / ч / ч / ч / ч X = r{Ail£7^i) +#<*i\ ..., А<„Я<Р'"> +Я<*">}Г-1 (40) (ii,i2,...,i„ = 1,2,...; pix ^ aix, pi2 ^ а*2, ..., piu ^ aiv\ pix + pi2 + ... +piv = n) (T — произвольная невырожденная матрица). § 5. Матричное многочленное уравнение Рассмотрим уравнения А0Хт + АХХШ~Х + ... + Ат = 0, (41) YmA0 + Ym~l Аг + ... + Ат = 0, (42) где Ao,Ai, ...,Ат — заданные, а X и Y — искомые квадратные матрицы порядка п. Уравнение (33), рассмотренное в предыдущем параграфе, представляет собой весьма частный (можно сказать, тривиальный) случай уравнений (41), (42) и получается из последних, если положить Ai = щЕ, где а* — число и г = 1,2,..., га. Следующая теорема устанавливает связь между уравнениями (41), (42) и (33). Теорема 4. Каждое решение матричного уравнения А0Хт + АгХ™-1 + ... + Ат = 0 удовлетворяет скалярному уравнению д(Х) = 0, (43)
§ 5. Матричное многочленное уравнение 203 где д(Х) = \А0Хт + Аг\т-г + ... + Ат\. (44) Этому же скалярному уравнению удовлетворяет и любое решение Y матричного уравнения Y™A0 + Ym-1A1 + ... + Am = 0. Доказательство. Обозначим через F(X) матричный многочлен F(A) = А0Хт + АхХт-1 + ... + Ат. Тогда уравнения (41) и (42) запишутся так (см. с. 85): F(X) = 0, F(Y) = 0. Согласно обобщенной теореме Безу (гл. IV, § 2), если X и Y — решения этих уравнений, то матричный многочлен F(X) делится справа на ХЕ — X и слева на ХЕ - Y: F(X) = Q(X)(XE -Х) = (ХЕ - y)Qi(A). Отсюда g(\) = |F(A)| = |0(А)|Д(А) = |Q1(A)|A1(A), (45) где А(Л) = \ХЕ — Х\ и Ai(A) = \ХЕ — Y\ — характеристические многочлены матриц X и Y. По теореме Гамильтона-Кэли (гл. IV, § 3) А(Х) = 0, Ai(F)=0. Поэтому из (45) вытекает g(X) = g(Y) = 0. Теорема доказана. Мы доказали, что каждое решение уравнения (41) удовлетворяет скалярному уравнению (степени ^ тп) д(\) = 0. Но множество матричных решений этого уравнения с заданным порядком п распадается на конечное число классов подобных между собой матриц (см. § 4). Поэтому все решения уравнения (41) приходится искать среди матриц вида TiDiT-1 (46) (здесь Di — известные матрицы; при желании можно считать, что Di имеют нормальную жорданову форму; Ti — произвольные невырожденные матрицы n-го порядка; г = 1,2, ...,/i). Подставим в (41) вместо X матрицу (46) и подберем Ti так, чтобы удовлетворялось уравнение (41). Для каждого Ti получим свое линейное уравнение АоТ0? + A&D?-1 + ... + AmTi = 0 (г = 1,2,..., А). (47) Единственный способ, который мы можем предложить для нахождения решения Ti уравнения (47), заключается в замене матричного уравнения системой линейных однородных скалярных уравнений относительно элементов искомой матрицы Ti. Каждое невырожденное решение Ti уравнения (47), будучи подставлено в (46), дает решение данного уравнения (41). Аналогичные рассуждения могут быть проведены для уравнения (42). В следующих двух параграфах мы рассмотрим частные случаи уравнения (41), связанные с извлечением корня m-й степени из матрицы. Заметим, что теорема Гамильтона-Кэли является частным случаем теоремы 4. В самом деле, любая квадратная матрица А, будучи подставлена вместо А,
204 Гл. VIII. Матричные уравнения удовлетворяет уравнению ХЕ - А = 0. Поэтому в силу доказанной теоремы А(А) = 0, где А(\) = \\Е-А\. Теорема 4 может быть обобщена следующим образом. Теорема 5 (Филлипса)5). Если попарно перестановочные квадратные матрицы п-го порядка Xq,Xi, ...,Xm удовлетворяют матричному уравнению А0Х0 + АгХг + ... + АтХт = 0 (48) (Aq,Ai, ...,Ат — заданные квадратные матрицы п-го порядка), то эти же матрицы Xo,Xi,...,Xm удовлетворяют скалярному уравнению д(Хо,Х1,...,Хт)=0, (49) где |. (50) Доказательство. Положим6) F(io,iu ».,fm) = ||/«*(6>,£i, ...,fm)||i = 4>6> + Mi + ». + 4U; fo>£i> ...5?m — скалярные переменные. Обозначим через Fj(f0>fi ,.»,£») = ||Л*(£о,£ь ->fm)||? присоединенную матрицу для матрицы F [/^ — алгебраическое дополнение элемента fki в определителе |F(£o,£i,...,£m)| =^|/<*|? (*,& = 1,2,...,п)]. Тогда каждый элемент fik (i,k = = 1,2, ...,п) матрицы F есть однородный многочлен относительно £о5£ъ -..^m-i степени m — 1, и потому матрицу F можно представить в виде J0+jl + ---+jrn=n-l где Fj0jx,„jm — некоторые постоянные матрицы порядка п. Из определения матрицы F следует тождество FF = 0($>,&,...,£m)£. Запишем это тождество следующим образом: £ fmi...u (Аоь+а& +...+A^mKfci1 - е = = 9(£о,€и-,€т)Е. (51) Переход от левой части к правой части в тождестве (51) осуществляется путем раскрытия скобок и приведения подобных членов. При этом приходится переставлять местами переменные £о>£ъ •••э&п между собой и не приходится переставлять местами переменные £(ь£ъ--->£т c матричными коэффициентами Ai и Fj0j1.„jm. Поэтому равенство (51) не нарушится, если мы вместо переменных £сь£ъ...5£т подставим попарно перестановочные между собой матрицы Xo,Xi, ...,Xm: Е Fioh...Jm (^oXo + АгХг + ... + АтХт)Х30°Х(1... Xfr = J0+jl + — +jm=n—l = g(Xo,Xly...,Xm). (52) 5) См. [23]. 6) /*fe(£o,£i,...,fm) — линейные формы от £o,£i,.-.,£m (г,А; = 1,2,...,гг).
§ 6. Извлечение корня т-й степени из невырожденной матрицы 205 Но по условию АоХо + AiXi + ... + АтХт = 0. Тогда из (52) находим д(Хо, Х±,... ...,Хт) = 0, что и требовалось доказать. Замечание 1. Теорема 5 сохраняет свою силу, если уравнение (48) заменить уравнением Х0А0 + ХгАг + ... + ХтАт = 0. (53) Действительно, теорему 5 можно применить к уравнению А^Хо + А!1Х1 + ... + А!тХт=0 и затем перейти в этом уравнении почленно к транспонированным матрицам. Замечание 2. Теорема 4 получится как частный случай теоремы 5, если в качестве Xo,Xi,...,Xm взять Хт, Хт~\ ..., X, Е. § 6. Извлечение корня га-й степени из невырожденной матрицы Этот и следующий параграфы мы посвятим уравнению Хт = А, (54) где А — заданная, а X — искомая матрицы (обе порядка n), m — данное целое положительное число. В данном параграфе мы рассмотрим случай, когда \А\ ф 0 (А — невырожденная матрица). В этом случае все характеристические числа матрицы А отличны от нуля (ибо \А\ равен произведению этих характеристических чисел). Обозначим через (Л-ЛхГ, (Л-Л2Г, ..., (А-А»)*" (55) элементарные делители матрицы А и приведем матрицу А к жордановой форме7): А = UAU-1 = !7{Ai£i + Яь ..., \иЕи + Ни} U~\ (56) Так как характеристические числа искомой матрицы X при возведении в ш-ю степень дают характеристические числа матрицы А, то и у матрицы X все характеристические числа отличны от нуля. Поэтому на этих характеристических числах производная функции /(А) = А™ не обращается в нуль. Но в таком случае (см. гл. VI, с. 152) элементарные делители матрицы X не "расщепляются" при возведении матрицы X в ш-ю степень. Из сказанного следует, что элементарными делителями матрицы X будут (А-6Г, (А-6Г, ..., (А-£»)"", (57) где ff2 = Xj, т. е. ^ является одним из корней m-й степени из Л^ (^ = 7^/Aj; i = l,2,...,ti). Определим теперь ^XjEj + Hj следующим образом. Возьмем в Л-плоскости круг с центром в точке А^-, не захватывающий нуля. В этом круге мы имеем т раздельных ветвей функции гу/\. Эти ветви можно отличать одну от другой по значениям, которые они принимают в центре круга, в точке А^. Обозначим 7) Здесь Ej = E{pi\Hj = tf^ (j = 1,2,..., t*).
206 Гл. VIII. Матричные уравнения через Г\/~Х ту ветвь, значение которой в точке Xj совпадает с характеристическим числом £j искомой матрицы X, и, исходя из этой ветви, определим функцию от матрицы ^XjEj + Hj с помощью обрывающегося ряда VV^THj = \)**Е, + Itf'^H, + 11 (1 - l)^">-аЯ? + ... (58) Так как производная от рассматриваемой функции Гу/Х в точке Xj не равна нулю, то матрица (58) имеет только один элементарный делитель (Л — £j)Pi, где £j = Гу/Х] (здесь j = 1,2, ...,и). Отсюда следует, что квазидиагональная матрица {'yXiEi + Hi, rr\JX2E2 + Н2, ..., уХиЕи-\- Ни} имеет элементарные делители (57), т. е. те же элементарные делители, что и искомая матрица X. Поэтому существует такая невырожденная матрица Т (\Т\ ф Ф 0), что X = Т^ХгЕг+Нг, ГУХ2Е2+Н2, ..., УХиЕи + Ни }Т~К (59) Для определения матрицы Т заметим, что, подставляя в обе части тождества (ГУХ)™ = X вместо Л матрицу XjEj + Hj (j = 1,2, ...,w), получим (^XJEj + Hi)m = XjEj + Hj 0" = 1,2,..,«). Теперь из (54) и (59) следует А = Т{\1Е1+Н1, Х2Е2 + Н2, ..., ХиЕи + Ни}Т-\ (60) Сопоставляя (56) и (60), найдем Т = UX-, (61) где Х~ — произвольная невырожденная матрица, перестановочная с А (структура матрицы Х~ детально описана в § 2). Подставляя в (59) вместо Т выражение UX~, получаем формулу, охватывающую все решения уравнения (54): X = *7X~{VAi£i+#i, rVX2E2 + H2, ..., гУХиЕи + Ни}Х~1и-\ (62) Многозначность правой части этой формулы имеет как дискретный, так и континуальный характер: дискретный (в данном случае и конечный) характер этой многозначности получается за счет выбора различных ветвей функции гу/\ в различных клетках квазидиагональной матрицы (при этом даже при Xj = Xk ветви г\/\ Bj-Й и в к-й диагональных клетках могут быть различными); континуальный характер многозначности получается ввиду произвольности параметров, содержащихся в матрице Х~. Все решения уравнения (54) мы будем называть корнями тп-й степени из матрицы А и обозначать многозначным символом Гу/~А. Обратим внимание на то, что Гу/А в общем случае не является функцией матрицы А (т. е. не представляется в виде многочлена от А).
§ 6. Извлечение корня т-й степени из невырожденной матрицы 207 Замечание. Если все элементарные делители матрицы А попарно взаимно просты, т. е. числа Ai, A2,..., Хи все различны, то матрица Х~ имеет квазидиагональный вид Хд = {Xi,X2,...,Xw}, где матрица Xj перестановочна с XjEj + Hj и, следовательно, перестановочна с любой функцией матрицы XjEj + Hj, в частности с ^XjEj + Hj (j = 1,2, ...,гг). Поэтому в рассматриваемом случае формула (62) принимает вид х = и{гух1Е1 + н1, Va2£2 + #2, ..., УхиЕи + ни}и-К Таким образом, если элементарные делители матрицы А попарно взаимно просты, то в формуле для X = Гу/А имеется только дискретная многозначность. В этом случае любое значение Гу/А можно представить как многочлен от А. Пример. Пусть требуется найти все квадратные корни из матрицы А = 1 0 0 1 0 1 1 0 0 1 т. е. все решения уравнения Х2 = А. В данном случае матрица А уже имеет нормальную жорданову форму. Поэтому в формуле (62) можно положить А = A, U = Е. Матрица Х~ в данном случае выглядит так (см. с. 198): ХЛ = a b с 0 а 0 Ode где а, 6, с, d, e — произвольные параметры. Формула (62), дающая все искомые решения X, в данном случае принимает следующий вид: -1 Х = a b с 0 а 0 Ode е е/2 0 0 е 0 0 0 г] а 0 0 b а d с 0 е (e2 = V2 = l). (63) Не изменяя X, мы можем в формуле (62) умножить Х-r на такой скаляр, чтобы |Х~| = 1. В данном случае это приведет к равенству а2е = 1, откуда е = а-2. Вычислим элементы матрицы XZ1. Для этого выпишем линейное преобразование с матрицей коэффициентов Х~: Ух = ах\ + Ьх2 + схз, 2/2 = ах2, 2/з = dx2 +а"2ж3. Разрешим эту систему уравнений относительно #i,#2,#3. Тогда получим преобразование с обратной матрицей XZ1 xi = a-xyi - (а~2Ь - cd)y2 - асу3, х2 =а~ху2, хъ = -ady2 + а22/з-
208 Гл. VIII. Матричные уравнения Отсюда находим А Формула (63) дает X = а Ь с 0 а 0 О d а"2 a l cd — а 2Ъ —ас —ad е (е — 7])acd + е/2 а2с(г] — е) О € О О (е — rj)da~l 77 е (е — rj)vw + г/2 (г/ — s)v О е О О (е — rj)w rj О (v = a2c; w = a~ld). (64) Решение X зависит от двух произвольных параметров v и w и от двух произвольных знаков е и г]. § 7. Извлечение корня га-й степени из вырожденной матрицы Переходим к разбору случая, когда \А\ = 0 (А — вырожденная матрица). Как и в первом случае, приведем матрицу А к нормальной жордановой форме: A = U{\1E^ + #<*>, ..., АиЯ^+#<*•>; H^'\H^\ ..., Н^уТГ1; (65) здесь мы через (Л — Ai)Pl,..., (Л — Хи)Ри обозначили элементарные делители матрицы А, отвечающие ненулевым характеристическим числам, а через Agi,A92,... ...,Agt — элементарные делители с нулевыми характеристическими числами. Тогда A = U{AUA2}U~\ (66) где Аг = {Ai£<Pl> +#<Р1\ ..., \иЕ^ + #<*»>}, А2 = {#<*>, #(*2\ ..., Я<*)}. (67) Заметим, что Ai — невырожденная матрица (|Ai / 0), а А2 — нильпотентная матрица с индексом нильпотентности /х = max(gi,g2, -—,Qt) (^2 — 0). Из исходного уравнения (54) следует перестановочность матрицы А с искомой матрицей X, а следовательно, и перестановочность подобных им матриц U-1 AU = {AUA2}, U~lXU. (68) Как было доказано в § 2 (теорема 3), из перестановочности матриц (68) и из того, что матрицы А\ и А2 не имеют общих характеристических чисел, вытекает, что и вторая из матриц (68) имеет соответственную квазидиагональную форму: U~1XU = {XUX2}. Заменяя в уравнении (54) матрицы А и X подобными им матрицами {А1,А2}, {ХЪХ2}, мы заменим уравнение (54) двумя уравнениями Х? = Аи (70)
§ 7. Извлечение корня т-й степени из вырожденной матрицы 209 Х? = А2. (71) Так как \Ai\ Ф 0, то к уравнению (70) применимы результаты предыдущего параграфа. Поэтому Х\ находим по формуле (62): Хг = XAl{VAi^^1) + Ж*), ..., гу/\иЕ^)+Н^)}Х^\. (72) Таким образом, остается рассмотреть уравнение (71), т. е. заняться нахождением всех корней ш-й степени из нильпотентной матрицы А2, уже имеющей нормальную жорданову форму: А2 = {#(Ч#Ы,...,#Ы}; (73) II = max (#1,#2,-••,</*) — индекс нильпотентности матрицы А2. Из А% = 0 и из (71) находим X™» = 0. Последнее равенство показывает, что искомая матрица Х2 также является нильпотентной с индексом нильпотентности и, где га(д — 1) < v ^ гад. Приведем матрицу Х2 к жордановой форме: Х2=Т{Я<ЧЯ(Ч-,Я(,")}Т-1 («i,«2,...,t;.^i/). (74) Возведем теперь обе части последнего равенства в га-ю степень. Получим А2 = X™ = Т{[Н^]т, [Н^]т, ..., [Я^]™}^1. (75) Выясним теперь, какие элементарные делители имеет матрица [Н^]т8). Обозначим через Н линейный оператор, задаваемый матрицей Н^ в г>-мерном векторном пространстве с базисом ei,e2, ...,ev. Тогда из вида матрицы Н^ (в матрице Н^ все элементы первой наддиагонали равны единице и все остальные элементы равны нулю) следует, что Hei = 0, Не2 = еь ..., Hev = ev_i. (76) Эти равенства показывают, что для оператора Н векторы ei,e2,...,ev образуют жорданову цепочку векторов, соответствующую элементарному делителю Xv. Равенства (76) запишем так: Не,-=е,-_1 (j = l,2,...,v; e0 = 0). Очевидно, что Нте,-=е,-_т (j = 1,2, ...,и; е0 = e_i = ... = e_m+i = 0). (77) Представим число v в виде v = km + г (г < га), где &,г — целые неотрицательные числа. Расположим базисные векторы ei,e2,... ...,ev следующим образом: ei е2 ... ег ... ет ега+1 ега+2 • • • ега+г • • • е2тп (78) e(fc-l)m+l e(fc-l)m+2 • • • ^(к-1)т+г • • • ект efcra+l efcra+2 • • • efcra+r 8) Ответ на этот вопрос дает теорема 9 гл. VI (с. 152). Здесь мы вынуждены другим методом исследовать этот вопрос, так как нам нужно отыскать не только элементарные делители матрицы [#(v)]m, но и матрицу Pv,m, преобразующую [Н^]т к жордановой форме.
210 Гл. VIII. Матричные уравнения В этой таблице мы имеем т столбцов: первые г содержат по к + 1 векторов в каждом, остальные — по к векторов. Равенство (77) показывает, что векторы каждого столбца образуют жорданову цепочку векторов относительно оператора Нт. Если вместо последовательной нумерации векторов (78) по строкам занумеровать их по столбцам, то в полученном таким образом новом базисе матрица оператора Hw будет иметь следующую нормальную жорданову форму: {#<*+1>,...,Я<*+1>, {#<*>,...,#<*> 9), и, следовательно, (79) 1 0 . 0 0 . 0 0 . 0 1 . ..0 0 ... .. 0 1 ... .. 0 .. 0 где матрица Pv,m (матрица перехода от одного базиса к другому) имеет вид (см. гл. III, § 4)' т (80) Матрица Н^ имеет один элементарный делитель Xй. При возведении матрицы Н^ в га-ю степень этот элементарный делитель "расщепляется". Как показывает формула (79), матрица [Н^]т имеет элементарные делители: \k-\-l \k-\-l \к \к А ?'"?А i A, ..-vA . г т — г Возвращаясь теперь к равенству (75), положим Vi = kim + ri (0 ^ Т{ < гп; &; ^ 0; г = 1,2, ...,s). (81) Тогда в силу (79) равенство (75) перепишется так: А2=Х2т = ГР{#(*1+1\..,#(*1+1\ H(hl\...,H(hl\ s v ' N v ' n m — r\ Н^+1\...,Н^+1\ Я<*2\ ...}Р~1Т-\ (82) Где г — \iv\,mt гУ21)ГП, ..., *vs,mj• Сопоставляя (82) с (73), видим, что клетки #(*1+1\ ..., #(*1+1), #(*0, ..., #<Ч #<*»+1>, ..., Я<*»+1>, ... (83) 9) В случае к = 0 клетки £Г ,...,£Г ' отсутствуют, и эта матрица имеет вид я(1\...,я(1).
§7. Извлечение корня т-й степени из вырожденной матрицы 211 с точностью до порядка должны совпасть с клетками Я(91), #(»), ..., #(«*). (84) Условимся систему элементарных делителей AVl,AV2,...,XVs называть возможной для Х2, если после возведения матрицы в га-ю степень эти элементарные делители, расщепляясь, порождают заданную систему Xqi,Xq2,...,Xqt элементарных делителей матрицы А2. Число возможных систем элементарных делителей всегда конечно, поскольку max(vi,v2,...,ve) ^ ra/z, vi + v2 + ... + vs = п2 (85) (n2 — порядок матрицы Л.2. В каждом конкретном случае возможные системы элементарных делителей для Х2 могут быть легко определены путем конечного числа испытаний. Покажем, что для каждой возможной системы элементарных делителей AVl, AV2,..., XVs существуют соответствующие решения уравнения (71), и определим все эти решения. В этом случае существует преобразующая матрица Q такая, что {#<*1+1>, ..., #<*1+1\ #<*>, ..., #(fel), #<*2+1>, ...} = Q~lA2Q. (86) Матрица Q осуществляет перестановку клеток в квазидиагональной матрице, что достигается надлежащей перенумерацией базисных векторов. Поэтому матрицу Q можно считать известной. Используя (86), мы из (82) получим A2=TPQ-1A2QP-1T-\ Отсюда TPQ~1=XA„ или T = XA2QP-\ (87) где Ха2 — произвольная матрица, перестановочная с А2. Подставляя выражение (87) для Т в (74), будем иметь Х2 = ХА^р-г{Н^\ #(Ч ..., #<*•>} PQ~lX^\ (88) Из (69), (72) и (88) получим общую формулу, охватывающую все искомые решения: X = U{XAl, ХА^р-г}{VXiEM +#(**), ..., УХнЕ^+ШР"), #<Ч ..., H^HXl^PQ^Xl^U-1. (89) Обратим внимание читателя на то, что корень m-й степени из вырожденной матрицы существует не всегда. Его существование связано с существованием системы возможных элементарных делителей для матрицы Х2. Легко видеть, например, что уравнение не имеет решений при т > 1, р > 1. Пример. Требуется извлечь корень квадратный из матрицы 1 ° 0 0 1 0 0 0 1 0 0
212 Гл. VIII. Матричные уравнения т. е. найти все решения уравнения ^2 _ А. В данном случае А = А2, X = Х2, т = 2, t = 2, qi = 2, q2 = 1. Матрица X может иметь только один элементарный делитель Л3. Поэтому s = 1, v\ = 3, к\ = 1, г\ = 1 и [см. (80)1 11 1 0 0 0 0 1 0 1 0 Р = Рз,2 = = Р~\ Q = E. Кроме того, как и в примере на с. 207, в формуле (88) можно положить Ха2 = а Ъ с 0 а 0 0 d а~2 ^ = 1 cd — а 2Ь —ас 1 0 а —ad Из этой формулы получим Х = Х2=ХАзР~1Н^РХ^-. где а = са~х — a2d и /3 = а3 — произвольные параметры. а 0 а 0 0 0 /Г1 Р 0 0 § 8. Логарифм матрицы 1. Рассмотрим матричное уравнение ех=А. (90) Все решения этого уравнения будем называть логарифмами (натуральными) матрицы А и обозначать через In A. Характеристические числа Xj матрицы А связаны с характеристическими числами £j матрицы X формулой А^ = е&; поэтому, если уравнение (90) имеет решение, то все характеристические числа матрицы А отличны от нуля и матрица А является невырожденной (\А\ /0). Таким образом, условие \А\ ф 0 является необходимым для существования решения уравнения (90). Ниже мы увидим, что это условие является и достаточным. Итак, пусть \А\ ф 0. Выпишем элементарные делители матрицы А: (Л-Л!Г, (А-А2)Р2, ..., (А-А„)*>» (AiA2...A„ ф 0, pi +P2 + ...+ри = п). (91) В соответствии с этими элементарными делителями приведем матрицу А к нормальной жордановой форме: А = UAU'1 = = и{ХгЕ^ + Я(Р1), Х2Е^ + Я(Р2), ..., ХиЕ^ + #<*«>} U'1. (92) Так как производная от функции е^ отлична от нуля при всех значениях £, то (см. гл. VI, с. 152) при переходе от матрицы X к матрице А = ех элементарные делители не расщепляются, т. е. матрица X имеет элементарные делители (А-6Г, (А-6Г, ..., (А-&)*-, (93) где е& = Xj (j = 1,2, ...,ii), т. е. £j есть одно из значений InAj (j = 1,2, ...,ii).
§8. Логарифм матрицы 213 Возьмем в плоскости комплексного переменного Л круг с центром в точке Xj радиуса < |Л^| и обозначим через /?(А) = In А ту из ветвей функции In A в рассматриваемом круге, которая в точке Xj принимает значение, равное характеристическому числу £j матрицы X (j = 1,2, ...,и). После этого полагаем In (XjE^ + tf <w>) = fj(\jE^ + tf (p''>) = In XjXjE^ + ХггН^ + ... (94) Так как производная In А нигде не обращается в нуль (в конечной части плоскости А), то матрица (94) имеет только один элементарный делитель (А — —£j)Pj. В силу этого квазидиагональная матрица {In (Ai£<Pl> + Я(pi)), In (A2£(P2) + Я(Р2)), ..., In (ХиЕ^ + #<*«>)} (95) имеет те же элементарные делители, что и искомая матрица X. Поэтому существует такая матрица Т (\Т\ / 0), что X = r{ln(Ai£<pl> +#<Р1>), ..., ln(Aw£^ +#<*•>)}Г"1. (96) Для определения матрицы Т заметим, что А = ех =Т{Х1Е^ +Я<Р1\ ..., ХиЕ^+Н^ут-1. (97) Сопоставляя (97) с (92), находим Т = UXX, (98) где Xj — произвольная матрица, перестановочная с матрицей А. Подставляя выражение для Г из (98) в (96), получим общую формулу, охватывающую все логарифмы матрицы: X = UXx{\n (Ai#<Pl> + #<Р1>), 1п(А2£(р2) +#<*»>), ..., \п(ХиЕ^ + H^}XZ1U~1. (99) Замечание. Если все элементарные делители матрицы А взаимно просты, то в правой части формулы (99) можно выбросить множители Хг и XZ1 (см. аналогичное замечание на с. 207). 2. Выясним, когда вещественная невырожденная матрица А имеет вещественный логарифм X. Пусть искомая матрица имеет несколько элементарных делителей, отвечающих характеристическому числу вида p + in: (А — р — m)qi,..., (А — — р — i7r)qt. Поскольку матрица X вещественна, то она имеет и сопряженные элементарные делители: (А — р + in)qi,..., (А — р + i7r)Qt. При переходе от матрицы X к матрице А элементарные делители не расщепляются, но характеристические числа р + г7г, р — m заменяются в них числами ер+г7Г = —р, ер~гп = — р, где р = ер > 0. Поэтому в системе элементарных делителей матрицы А каждый элементарный делитель, соответствующий отрицательному характеристическому числу (если таковые существуют), повторяется четное число раз. Докажем теперь, что это необходимое условие является и достаточным, т. е. что вещественная невырожденная матрица А имеет вещественный логарифм X тогда и только тогда, когда у матрицы А либо совсем нет элементарных делителей, соответствующих отрицательным характеристическим числам10), либо каждый такой элементарный делитель повторяется четное число раз11). 10) В этом случае существует вещественный In А = г(А), где г(Х) — надлежащий интерполяционный многочлен для 1по А (см. с. 100). 11) Это условие, в частности, выполняется, когда А = В2, где В — вещественная матрица.
214 Гл. VIII. Матричные уравнения Действительно, пусть это условие выполнено. Тогда в квазидиагональной матрице (95) в соответствии с формулой (94) в тех клетках, где А; вещественно и положительно, возьмем для 1пЛ« вещественное значение; если же в какой-либо клетке _имеется комплексное Лп, то найдется другая клетка такого же размера с \д = Лп. В этих клетках возьмем комплексно сопряженные значения для 1пЛп и In A3. Каждая же клетка по условию повторяется в (98) четное число раз с сохранением размера клетки. Тогда в половине этих клеток положим In А& = In | А& | + г7г, а в другой половине возьмем In А^ = In |A*;| — in. Тогда в квазидиагональной матрице (98) диагональные клетки либо будут вещественными, либо будут попарно комплексно сопряженными. Но такая квазидиагональная матрица всегда подобна вещественной матрице12). Поэтому существует такая невырожденная матрица Т\ (|Ti| ф 0), что матрица Хх =ri{ln(Ai£(pi) + tf(pi)), ..., 1п(АпЯ(Рп) + #<*»>)} Tf1 вещественна. Но тогда будет вещественной и матрица Аг =eXl =Ti{Ai£^+#(pi), ..., \пЕ^ + #<*»>} Г"1. (100) Сопоставляя формулу (100) с формулой (92), заключаем, что матрицы А и А\ подобны между собой (поскольку они подобны одной и той же жордановой матрице). Но две подобные вещественные матрицы могут быть преобразованы друг в друга с помощью некоторой невырожденной вещественной матрицы W (\W\ Ф 0): А = WAiW'1 = WeXlW-x = eWXlW~\ Тогда матрица X = WX{W~X и будет искомым вещественным логарифмом матрицы А. 12) Для того чтобы убедиться в этом, достаточно показать, что квазидиагональная матрица / n n D= B - \ 0 В всегда подобна некоторой вещественной матрице. Здесь В = U + гУ, В = U — iV, где U и V — вещественные матрицы. Обозначая через Е единичную матрицу тех же размеров, что и Б, и полагая Т = легко проверим, что Т-1 = k* 5* ¥ -5* %Е\ -%Е ) ' и -\ V
ГЛАВА IX ЛИНЕЙНЫЕ ОПЕРАТОРЫ В УНИТАРНОМ ПРОСТРАНСТВЕ § 1. Общие соображения В гл. III и гл. VII мы изучали линейные операторы в произвольном п-мерном векторном пространстве. Все базисы такого пространства равноправны между собой. Данному линейному оператору в каждом базисе отвечает некоторая матрица. Матрицы, отвечающие одному и тому же оператору в различных базисах, подобны. Таким образом, изучение линейных операторов в n-мерном векторном пространстве давало возможность выявить свойства матрицы, присущие одновременно всему классу подобных между собой матриц. В начале этой главы мы введем метрику в n-мерное векторное пространство, относя специальным образом каждым двум векторам некоторое число — их "скалярное произведение". С помощью скалярного произведения определяется "длина" вектора и "косинус угла" между двумя векторами. Такая метризация приводит нас к унитарному пространству, если основное поле К — поле всех комплексных чисел, и к евклидову пространству, если К — поле всех вещественных чисел. В настоящей главе мы будем изучать свойства линейных операторов, связанные с метрикой пространства. По отношению к метрике пространства уже не все базисы равноправны. Однако равноправными являются все ортонормиро- ванные базисы. Переход от одного ортонормированного базиса к другому осуществляется в унитарном (соответственно евклидовом) пространстве при помощи специального — унитарного (соответственно ортогонального) — преобразования. Поэтому две матрицы, отвечающие одному и тому же линейному оператору в двух различных базисах унитарного (евклидова) пространства, унитарно подобны (ортогонально подобны). Таким образом, изучая линейные операторы в n-мерном метризованном пространстве, мы изучаем те свойства матрицы, которые остаются инвариантными при переходе от данной матрицы к матрице унитарно или ортогонально подобной. Это приводит нас естественным образом к исследованию свойств специальных классов матриц (нормальных, эрмитовых, унитарных, симметрических, кососимметрических, ортогональных). § 2. Метризация пространства Рассмотрим векторное пространство R над полем комплексных чисел. Пусть каждым двум векторам х и у из R, заданным в определенном порядке, отнесено некоторое комплексное число, называемое скалярным произведением этих векторов и обозначаемое через (ху) или (х, у). Пусть при этом имеют место следующие свойства "скалярного умножения". Для любых векторов х, у, z из R и любого комплексного числа а: 1)(ху) = (ух)1); 2)(ах,у)=а(ху); (1) 1) Черта над числом означает переход к комплексно сопряженному числу.
216 Гл. IX. Линейные операторы в унитарном пространстве 3) (x + y,z) = (xz) + (yz). В этом случае говорят, что в пространство R внесена эрмитова метрика. Заметим еще, что из 1)-3) следует для любых х, у, z из R: 2') (х,ау) = а(ху); 3') (x,y + z) = (xy) + (xz). Из 1) заключаем, что для любого вектора х скалярное произведение (хх) является вещественным числом. Если для любого вектора х из R: 4) (хх) > 0, (2) то эрмитова метрика называется неотрицательной. Если же при этом 5) (хх) > 0 при х ф 0, (3) то эрмитова метрика называется положительно определенной. Определение 1. Векторное пространство R с положительно определенной эрмитовой метрикой мы будем называть унитарным2). В настоящей главе мы будем рассматривать конечные унитарные пространства3). Под длиной вектора х понимают4) |х| = <у/(х,х). Из 2) и 5) следует, что каждый вектор, отличный от нуля, имеет положительную длину и лишь вектор-нуль имеет длину, равную нулю. Вектор х называется нормированным (также единичным вектором или ортом), если |х| = 1. Для "нормировки" произвольного вектора х ф О достаточно умножить этот вектор на любое комплексное число Л, у которого |Л| = 1/|х|. По аналогии с обычным трехмерным векторным пространством два вектора х и у называются ортогональными (обозначение xly), если (ху) = 0. В этом случае из 1), 3), 3') следует (х + у, х + у) = (хх) + (уу), т. е. (теорема Пифагора) |х + у|2 = |х|2 + |у|2 (х±у). Пусть унитарное пространство R имеет конечное число измерений п. Рассмотрим в R произвольный базис ei,e2, ...,еп. Обозначим через ж* и yi (г = = 1,2, ...,п) соответственно координаты векторов х и у в этом базисе: Тогда в силу 2), 3), 2') и 3') где В частности, 2^е i=i (хУ) = (е*ек) (хх) = Ч, У ■ п i,k=l {г, к-- п = ЪУ г=1 ik^iVk") = 1,2,. ik%i%k* (4) .,n). (5) (6) i,k=l 2) Исследование n-мерных векторных пространств с произвольной (не положительно определенной) метрикой проведено в статье [117], а также в книге [24, гл. IX, X]. 3) В § 2-7 этой главы во всех случаях, когда конечномерность пространства не будет особо оговорена, все рассуждения сохраняют свою силу и для бесконечномерных пространств. 4) Здесь знаком ^ обозначаем неотрицательное (арифметическое) значение корня.
§2. Метризация пространства 217 Из 1) и (5) следует hki = hik (г,& = 1,2,...,п). (7) n Форма 22 hik%i%~k, где hki = Ыи (г,к = 1,2,...,п), называется эрмитовой5). i,k=l Таким образом, квадрат длины вектора представляется в виде эрмитовой формы его координат. Отсюда и название "эрмитова метрика". Форма, стоящая в правой части равенства (6), в силу 4) является неотрицательной: п ^2 ЫкХ1Хк ^ 0 (8) при всех значениях переменных xi,X2,—,xn. В силу же дополнительного условия 5) эта форма будет положительно определенной, т. е. знак = в (8) будет иметь место только при равенстве нулю всех Х{ (г = 1,2, ...,п). Определение 2. Систему векторов ei,e2,...,en будем называть ортонорми- рованной, если (е«е*) =*« = {} ^ J J *' (», * = 1,2,..., т). (9) При т = п, где п — число измерений пространства, получаем ортонормиро- ванный базис пространства. В § 7 будет доказано, что в каждом п-мерном унитарном пространстве существует ортонормированный базис. Пусть Х{ и yi (г = 1,2,...,п) — соответственно координаты векторов х и у в ортонормированном базисе. Тогда в силу (4), (5) и (9) п (ху) = ^хгу{, ^ (Ю) (хх)=^>,|2. г=1 Фиксируем произвольно некоторый базис в n-мерном пространстве R. При этом базисе каждая метризация пространства связана с некоторой положительно п определенной эрмитовой формой ^ Ыих&и, и наоборот, согласно (4) каждая i,k=l такая форма определяет некоторую положительно определенную эрмитову метрику в R. Однако все эти метрики не дают существенно различных унитарных n-мерных пространств. Действительно, возьмем две такие метрики со скалярным произведением соответственно (ху) и (ху)'. По отношению к этим метрикам определим ортонормированные базисы е^ и е^ (г = 1,2, ...,п) в R. Отнесем друг другу векторы х и х' из R, имеющие в этих базисах одинаковые координаты (обозначим это х -> х'). Это соответствие является аффинным6). Кроме того, в силу (10) (ху) = (х'у')'- 5) В соответствии с этим выражение, стоящее в правой части равенства (4), называется билинейной эрмитовой формой (относительно величин #i,#2, ..-,хп и t/i,t/2, ...,j/n). 6) То есть оператор А, относящий вектору х из R вектор х' из R, является линейным и невырожденным.
218 Гл. IX. Линейные операторы в унитарном пространстве Таким образом, с точностью до аффинного преобразования пространства все положительно определенные эрмитовы метризации n-мерного векторного пространства совпадают друг с другом. Если основным числовым полем К является поле вещественных чисел, то метрика, удовлетворяющая постулатам 1)-5), называется евклидовой. Определение 3. Векторное пространство R над полем вещественных чисел с положительно евклидовой метрикой называется евклидовым пространством. Если Xi и yi (г = 1,2, ...,п) — координаты векторов х и у в некотором базисе ei, е2,..., еп n-мерного евклидова пространства, то п п (ху) = ^ SikXiVk, |x|2 = ^ SikXiXk. i,k=l i,k=l n Здесь Xik = Ski (h к = 1,2,..., n) — вещественные числа 7). Выражение ^Z sikXiXk i,k=l называется квадратичной формой относительно #i,#2, ...,жп. Из положительной п определенности метрики вытекает, что квадратичная форма Y^ SikXiXk, задаю- i,k=l щая аналитически эту метрику, является положительно определенной, т. е. п п У^ SikXiXk > 0, если У^ х\ > 0. i,k=l г=1 В ортонормированием базисе (ху) = Х>г/ь |х|2 = Х>?. (п) г=1 г=1 При п = 3 получаем известные формулы для скалярного произведения двух векторов и для квадрата длины вектора в трехмерном евклидовом пространстве. § 3. Критерий Грама линейной зависимости векторов Пусть векторы xi,x2,...,xm унитарного или евклидова пространства R линейно зависимы, т. е. существуют такие не равные одновременно нулю числа сьс2,...,ст8), что CiXi + с2х2 + ... + стхт = 0. (12) Умножив последовательно обе части этого равенства слева скалярно на xi,X2,... ...,xm, получим (XiXi)Ci + (XiX2)c2 + ... + (XiXm)Cm = О, (x2xi)ci + (x2x2)c2 + ... + (x2xm)cm = 0, /щ (xwxi)ci + (xwx2)c2 + ... + (x Рассматривая ci,c2, ...,cm как ненулевое решение системы линейных однородных уравнений (13) с определителем r(xi,xb...,xw) (Х1Х1) (XiX2) ... (xiXm) (x2xi) (x2x2) ... (x2xm) (xmxi) (xmx2) ... (x (14) 7) Sik = (е»ед.) (г, k = 1, 2,..., n). 8) В случае евклидова пространства ci,C2, ...,cm — вещественные числа.
§4- Ортогональное проектирование 219 заключаем, что этот определитель равен нулю: r(xi,x2,...,xm) =0. Определитель Г(хх,Х2, ...,хт) называется определителем Грама, составленным для векторов xi,X2, ...,xm. Пусть, обратно, определитель Грама (14) равен нулю. Тогда система уравнений (13) имеет ненулевое решение ci,C2, ...,cm. Равенства (13) можно записать так: (xbcixi + с2х2 + ... + cmxm) =0, (Х2, С1Х1 + С2Х2 + ... + СтХт) = 0, /13/) (xw, CiXi + С2Х2 + ... + CWXW) = 0. Умножая почленно эти равенства соответственно на ci,C2,...,cm и складывая, получим |(cixi + с2х2 + ... + cmxw)|2 = 0; отсюда в силу положительной определенности метрики CiXi + С2Х2 + ... + СтХт = О, т. е. векторы xi,X2,...,xm линейно зависимы. Нами доказана Теорема 1. Для того чтобы векторы xi,x2,...,xm были линейно независимы, необходимо и достаточно, чтобы определитель Грама, составленный из этих векторов, не был равен нулю. Отметим следующее свойство определителя Грама. Если какой-либо главный минор определителя Грама равен нулю, то равен нулю и сам определитель Грама. Действительно, главный минор является определителем Грама для части векторов. Из равенства нулю этого главного минора следует линейная зависимость между этими векторами, а значит, и между векторами полной системы. Пример. Даны п комплексных функций fi{t),f2(t),...,fn(t) вещественного аргумента t, кусочно непрерывных в замкнутом интервале [а,(3]. Требуется определить, при каком условии они будут линейно зависимы. Для этого мы в пространстве кусочно непрерывных в [а, /3] функций введем положительно определенную метрику, полагая 13 (f,g) = f№g(t)dt. а Тогда критерий Грама (теорема 1) в применении к данным функциям даст искомое условие & 0 ffl(t)fl(t)dt ... fh(t)fn(t)dt ' =0. ffn(t)h(t)dt ... }шш dt
220 Гл. IX. Линейные операторы в унитарном пространстве § 4. Ортогональное проектирование Пусть в унитарном или в евклидовом пространстве R даны произвольный вектор х и некоторое га-мерное подпространство S с базисом xi,X2, ...,xm. Мы покажем, что вектор х можно (и притом единственным способом) представить в виде суммы х = xs + xN, xs € S, xN _L S (15) (знаком _L мы обозначаем ортогональность векторов; под ортогональностью к подпространству понимаем ортогональность ко всем векторам из этого подпространства); xg — ортогональная проекция вектора х на подпространство S, XN — проектирующий вектор9). Пример. R — трехмерное евклидово векторное пространство, а га = 2. Все векторы будем строить из фиксированной точки О. Тогда S — плоскость, проходящая через О; xs — ортогональная проекция вектора х на плоскость S; xn — перпендикуляр, опущенный из конца вектора х на плоскость S (рис. 5); h = |xn| — расстояние конца векто- Рис.5 ра х от плоскости S. Для установления разложения (15) искомое xg представим в виде XS = CiXi + С2Х2 + ... + CwXm, (16) где ci,C2, ...,cm — некоторые комплексные числа10). Для определения этих чисел будем исходить из соотношений (x-xs,x*) = 0 (fc = l,2,...,m). (17) Подставляя в (17) вместо xg его выражение из (16), получим (xixi)ci + ... + (xwxi)cm + (xxi) • (-1) = 0, (xixw)ci + ... + (xmxm)cm + (xxw) • (-1) = 0, (18) XlCi + + XmCm + XS • (-1) = 0. Рассматривая эту систему равенств как систему линейных однородных уравнений, имеющую ненулевое решение с\, С2,..., ст, —1, приравниваем определитель этой системы нулю (предварительно транспонировав его относительно главной диагонали) п): (xixi) ... (xixm) xi (XmXi) ... (XmXmJ Xm (xxi) ... (xxm) xs = 0. (19) ) В данном случае xg — проекция вектора х на подпространство S параллельно подпространству Т, состоящему из всех векторов из R, ортогональных к S (см. с. 67). 10) В случае евклидова пространства ci,C2, ...,cm — вещественные числа. 11) Определитель, стоящий в левой части равенства (19), представляет собой вектор, г-я координата которого получается, если в последнем столбце все векторы xi,...,xm, xg заменить их г-ми координатами (г = 1,2, ...,п); координаты берутся в некотором произвольном базисе. Для оправдания перехода от (18) к (19) достаточно в последнем равенстве (18) и в последнем столбце в (19) заменить векторы xi,...,xm, xg их г-ми координатами.
§4- Ортогональное проектирование 221 Выделяя из этого определителя член, содержащий xg, получим (в легко понятных условных обозначениях) XI (xxi) ... (ххт) О xS = -- где Г = r(xi,X2, ...,хт) — определитель Грама для векторов xi,X2, ...,x„ линейной независимости этих векторов Г / 0). Из (15) и (20) находим (20) (в силу XN ■xs (xxi) (xxm) Xi Xm X (21) Формулы (20) и (21) выражают проекции xg вектора х на подпространство S и проектирующий вектор х^ через данный вектор х и базис подпространства S. Обратим внимание еще на одну важную формулу. Обозначим через h длину вектора х^. Тогда в силу (15) и (21) (xix) h2 = (xNxN) = (xNx) = (xxi) (xxm) (xmx) (XX) 2 _ r(xi,x2,...,xm,x) hz = (22) r(xi,x2,...,xm) Величину h можно еще интерпретировать следующим образом. Построим векторы xi, Х2,..., xm, x из одной точки и построим на этих векторах как на ребрах (га + 1)-мерный параллелепипед, h будет высотой этого параллелепипеда, опущенной из конца ребра х на основание S, проходящее через ребра Xl, Х2, ..., Хт. Пусть у — произвольный вектор в S, а х — произвольный вектор в R. Если все векторы построить из начала координат n-мерного точечного пространства, то |х — у| и |х — xg| будут соответственно равны величинам наклонной и высоты, проведенным из конца вектора х к гиперплоскости S12). Поэтому, записывая, что высота короче наклонной, будем иметь13) h= |x-xs| ^ |х-у| (знак равенства лишь при у = xg). Таким образом, среди всех векторов у £ Е S вектор xg наименее уклоняется от заданного вектора х Е R. Величина/г = л/(х — xg,x — xg) является квадратичной погрешностью при приближе- НИИ х : "). 12 ) Ср. с примером на с. 220. 13) |х - у|2 = |xN + xs - у|2 = |xN|2 + |xs - у|2 ^ |xN|2 = h\ 14) Относительно использования метризованных функциональных пространств в задачах аппроксимации функций см. [2].
222 Гл. IX. Линейные операторы в унитарном пространстве § 5. Геометрический смысл определителя Грама и некоторые неравенства 1. Рассмотрим произвольные векторы хьх2, ...,хт. Допустим сначала, что эти векторы линейно независимы. В этом случае определитель Грама, составленный для любых из этих векторов, будет отличен от нуля. Тогда, полагая согласно (22) ?хХх'",Хх)-^>0 (P = l,2,...,m-1), (23) и перемножая почленно эти неравенства и неравенство Г(хх) = (xixi) >0, (24) получим Г(хьх2,...,хт) > 0. Таким образом, определитель Грама для линейно независимых векторов положителен, для линейно зависимых равен нулю. Отрицательным определитель Грама никогда не бывает. Обозначим для сокращения Тр = Г (хьх2, ...,хр) (р = 1,2, ...,т). Тогда из (23) и (24) получаем x/f~l = \x1\=Vu Vb=V1h1=V2, где V2 — площадь параллелограмма, построенного на xi и х2. Далее, ^/f3~ = V2h2 = V3, где Vs — объем параллелепипеда, построенного на векторах Х1,х2,хз. Продолжая далее, найдем y/T~4 = Vsh3 = V^ и, наконец, л/Ггп = Vm-ihm-i = Vm, (25) Естественно назвать Vm объемом m-мерного параллелепипеда, построенного на векторах хьх2, ...,хт, как на ребрах15). Обозначим через x\k,x2k, ---,Xnk координаты вектора х& (к = 1,2, ...,т) в некотором ортонормированием базисе в R, и пусть Х = \\xik\\ (i = 1,2,...,п; к = 1,2,...,га). Тогда на основании (14) Гш = |Х'Х|, и потому [см. формулу (25)] ,2 vl = тт = J2 mod l^n<i2<..<im^n ^г<2.\ ^г<2.2 • • • ^i^t *^iml ^im2 • • • *^im (26) Это равенство имеет следующий геометрический смысл. Квадрат объема параллелепипеда равен сумме квадратов объемов его проекций на все координатные т-мерные подпространства. В частности, при т = п из (26) 15) Формула (25) дает индуктивное определение объема m-мерного параллелепипеда.
§5. Геометрический смысл определителя Грама и некоторые неравенства 223 следует Vn = mod #11 #21 #12 #22 Х\п Х2п (26') #nl #п2 • • • %пп При помощи формул (20), (21), (22), (26), (26') решается ряд основных метрических задач n-мерной унитарной и евклидовой аналитической геометрии. 2. Вернемся к разложению (15). Из него непосредственно следует (хх) = (xs +xN,xs +xN) = (xs,xs) + (xN,xN) ^ (xNxN) = Д2, что в сочетании с (22) дает неравенство (для произвольных векторов xi,X2,... г,х) Г(Х1 , Х2, ..., Хт, х) ^ Г(Х1 , Х2, ..., Хт )Г(х); (27) при этом знак равенства имеет место тогда и только тогда, когда вектор х ортогонален к векторам xi,X2, ...,хп. Отсюда нетрудно получить так называемое неравенство Адамара Г(х1,х2,...,хт)^Г(х1)Г(х2)...Г(хт), (28) где знак равенства имеет место тогда и только тогда, когда векторы хь Х2,..., хт попарно ортогональны. Неравенство (28) выражает собой следующий геометрически очевидный факт. Объем параллелепипеда не превосходит произведения длин его ребер и равен этому произведению лишь тогда, когда параллелепипед прямоугольный. Неравенству Адамара можно придать его обычный вид, полагая в (28) т = пи вводя в рассмотрение определитель А, составленный из координат #i£, #2Ь •••? #nfc векторов Xfc (k = 1,2, ...,п) в некотором ортонормированном базисе: Д = #и #1п #nl Тогда из (26') и (28) следует |Д|2<^>а|2^2|2...Х>, (28') г=1 г=1 3. Установим теперь обобщенное неравенство Адамара, охватывающее как неравенство (27), так и неравенство (28): Г(Х1 , Х2, ..., Хт ) ^Г(х1,...,хр)Г(хр+1,...,хт), (29) причем знак равенства имеет место тогда и только тогда, когда каждый из векторов xi,X2,...,xp ортогонален к любому из векторов xp+i, ...,xm либо один из определителей Г(хх, ...,хр), Г(хр+1, ...,хт) равен нулю. Неравенство (28') имеет следующий геометрический смысл. Объем параллелепипеда не превосходит произведения объемов двух дополнительных граней и равен этому произведению в том и только том случае, когда эти грани взаимно ортогональны либо хотя бы одна из них имеет нулевой объем. Справедливость неравенства (29) установим индуктивно относительно числа векторов хр_|_1, ...,хт. Неравенство справедливо, когда это число равно 1 [см. формулу (27)].
224 Гл. IX. Линейные операторы в унитарном пространстве Введем в рассмотрение два подпространства S и Si соответственно с базисами xi,...,xm_i и xp+i,...,xm_i. Очевидно, Si С S. Рассмотрим ортогональные разложения Xm=xSl+xNl (xSieSb xNl_LSi), xNx = xg + xN (x's € S, xN _L S). Отсюда xw = xs + xN (xs = xSl + x's, xN _L S). Заменяя квадрат объема параллелепипеда произведением квадрата объема основания на квадрат высоты [см. формулу (22)], найдем Г(хь...,хт_1,хт) = r(xb...,xm_i)r(xN), (30) 1 (,Xp_|_i, ..., Xm_i, XmJ = 1 ^Xp_|_i, ..., Xm—i )r(xNl). (300 При этом из разложения вектора х^ следует r(xN)<r(xNl), (31) причем здесь знак = имеет место лишь тогда, когда х^х = х^. Используя теперь соотношения (30), (30'), (31) и предположение индукции, получим Г(хь...,хт) = r(xb...,xm_i)r(xN) ^ <r(xi...,xm_i)r(xNl)<r(xb...,xp)r(x )r(xNl) = = Г(х1,...,хр)Г(хр+1,...,хт). (32) Мы получили неравенство (29). Переходя к выяснению, когда в этом неравенстве имеет место знак =, примем, что r(xi,...,xp) /Ои Г(хр+1, ...,хт) ф 0. Тогда, согласно (30'), также Г(хр+1, ...,xm_i) /0 и Г(х^1) / 0. Коль скоро в соотношениях (32) всюду имеет место знак равенства, то xj^ = x^ и, кроме того, по предположению индукции, каждый из векторов xp+i, ...,xm_i ортогонален к каждому из векторов xi,...,xp. Этим свойством обладает, очевидно, и вектор *т = XSl + XNl = XSl + XN. Таким образом, обобщенное неравенство Адамара установлено полностью. 4. Обобщенному неравенству Адамара (29) можно придать и аналитическую форму. п Пусть 2_\ hikXiXk — произвольная положительно определенная эрмитова фор- i,k=l ма. Рассматривая #i,#2,...,#n как координаты вектора х в n-мерном прост- п ранстве R при базисе ei,e2, ...,еп, примем форму Y^ hikxixu за основную мет- рическую форму в R (см. с. 217). Тогда R станет унитарным пространством. Применим обобщенное неравенство Адамара к базисным векторам ei,e2, ...,en: Г(еь е2,..., en) ^ Г(еь ..., ер)Г(ер+1,..., еп). Полагая Н = \\hik\\i и замечая, что (е^е^) = hik (i,k = 1,2, ...,п), мы последнее неравенство сможем записать так: -(! I :::;)<'(! 2 ::.l)»(lX\ ::: ") <»<•* (33)
§ 6. Ортогонализация ряда векторов 225 при этом знак равенства имеет место в том и только том случае, когда hik = = Ны = О (г = 1,2,...,р; к = р + 1,...,п). Неравенство (33) имеет место для матрицы коэффициентов Н = \\hik\\i произвольной положительно определенной эрмитовой формы. В частности, неравенство (33) имеет место, если Н — вещественная матрица коэффициентов ПОЛОЖИТЬ тельно определенной квадратичной формы \J hikXiXk 16). 5. Обратим внимание читателя на неравенство Буняковского. Для произвольных векторов х, у Е R |(ху)|2 ^ (хх)(уу), (34) причем знак равенства имеет место лишь тогда, когда векторы х и у отличаются скалярным множителем. Справедливость неравенства Буняковского сразу вытекает из установленного уже неравенства Г(х,у) = >0. (хх) (ху) (ух) (уу) По аналогии со скалярным произведением векторов в трехмерном евклидовом пространстве в n-мерном унитарном пространстве можно ввести "угол" в между векторами х и у, определив его из соотношения17) COs20=-M-. (хх)(уу) Из неравенства Буняковского следует, что в имеет вещественное значение. § 6. Ортогонализация ряда векторов 1. Наименьшее подпространство, содержащее векторы xi,Х2,...,хр, будем обозначать через [xi,X2,...,xp]. Это подпространство состоит из всевозможных линейных комбинаций ciXi + C2X2 + ... + срхр векторов xi,X2, ...,xp (ci,C2, ...,ср — комплексные числа)18). Если векторы xi,X2,...,xp линейно независимы, то они образуют базис подпространства [xi,x2, ...,хр]. В этом случае это подпространство имеет р измерений. Два ряда векторов19) X: хьх2,..., Y: yi,y2,..., содержащих одинаковое конечное или (оба) бесконечное число векторов, назовем эквивалентными, если для всех возможных р [xi,x2,...,Xp] = [уьу2,...,ур] (р= 1,2,...). Ряд векторов X: хьх2,... 16) Аналитический вывод обобщенного неравенства Адамара приведен в книге [7, § 8]. 17) В случае евклидова пространства угол 0 между векторами х и у определяется из формулы (ху) COS0 = |х||уГ 18) В случае евклидова пространства эти числа вещественны. 19) Чаще пишут "две системы векторов". — Примеч. ред. 8 Ф.Р. Гантмахер
226 Гл. IX. Линейные операторы в унитарном пространстве назовем невырожденным, если при любом возможном р векторы xi,X2,...,xp линейно независимы. Ряд векторов называется ортогональным, если любые два вектора этого ряда взаимно ортогональны. Под ортогонализацией ряда векторов будем понимать замену этого ряда эквивалентным ортогональным рядом. Теорема 2. Всякий невырожденный ряд векторов можно ортогонализиро- ватъ. Процесс ортогонализации приводит к векторам, определенным однозначно с точностью до скалярных множителей. Доказательство. 1. Докажем сначала вторую часть этой теоремы. Пусть два ортогональных ряда Y: j/i, j/2, ••• и Z: zi,z2,... эквивалентны одному и тому же невырожденному ряду X: xi,X2,... Тогда ряды Y и Z эквивалентны между собой. Поэтому при любом р существуют числа Cpi,cP2, ...,cpp такие, что Zp = Cpiyi + Ср2У2 + ••• + Ср,р_1Ур_1 + Сррур (р = 1, 2, ...). Умножая последовательно обе части этого равенства скалярно на yi, у2,..., yp-i и учитывая ортогональность ряда Y и соотношения Zp _L [zbZ2,...,Zp_i] = [у1,У2,...,Ур-1], получим Cpi = Ср2 = ... = Cp?p_i = 0 и, следовательно, Zp = СррУр (р = 1, 2,...). 2. Конкретное осуществление процесса ортогонализации произвольного невырожденного ряда векторов X: xi,x2,... дается следующим построением. Пусть Sp = [хьх2,...,Хр], Гр = Г(хьх2,...,Хр) (р = 1,2,...). Спроектируем ортогонально вектор Хр на подпространство Sp_i (p = 1,2, ...)20): хр = XpSp_1 +XpN, Хр8р-1 е Sp_bXpN _L Sp_i (p=l,2,...). Положим yp = ApXpN (p=l,2,...; xlN=xi), где Ар (р = 1,2,...) — произвольные отличные от нуля числа. Тогда (как легко видеть) Y: У1,У2,». — ортогональный ряд, эквивалентный ряду X. Теорема 2 доказана. Согласно (21) XI XpN = (XpXi) (XpXp_i) Xp-l Хр Гр-i (р=1,2,...; Г0 = 1). Полагая Ар = Гр_х (р = 1,2,...; Го = 1), получим для векторов ортогонали- зированного ряда следующие формулы: (xixi) У1=хь у2 = (XiXi) Xi (x2xi) x2 Ур = (xiXp_i) Xi (Xp_iXi) (XpXi) (Xp_iXp_i) yXpXp—i) Kp-1 (35) ) При p = 1 мы полагаем xxg = 0, x^ = xi.
§ 6. Ортогонализация ряда векторов 227 В силу (22) (ypyp)=lt-ilxpNl = ^-i-F:E- = rp-irp (Р=1>2>-5 го = 1)- (36) *- р—1 Поэтому, полагая *р= /' (Р=1,2,...), (37) получим ортонормированный ряд Z, эквивалентный данному ряду X. Пример. Определим скалярное произведение в пространстве кусочно непрерывных в интервале [—1,+1] вещественных функций равенством +1 (/,#) = ff(x)g(x)dx. -1 Рассмотрим невырожденный ряд "векторов" Проортогонализируем его по формулам (35): 2/1 0 2/3 0 2/5 0. 0 2/3 0 2/5 0 2/7 . 2/3 0 2/5 0 2/7 0. J/0 = 1, J/m = 2 (ш = 1,2,...). Эти ортогональные между собой многочлены с точностью до постоянных множителей совпадают с известными многочленами Лежандра21): Р0(Х) = 1, Рт(х) dm(x2 - \у 2тт\ dxn (m = l,2,...). Тот же ряд степеней 1,ж,ж2,... при другой метрике ь (/,#) = ff(x)g(x)r(x) dx [r(x) ^ 0 при а^х ^Ь] а даст другой ряд ортогональных многочленов. Так, например, при а = — 1, 6 = 1 и т(х) = 1/л/1 — х2 получаются многочлены Чебышева: Тп{х) = ——j- cos (n arccos x). При а = —оо, Ъ = +оо и т(х) = е~х получаются многочлены Чебышева-Эрми- та и т. д.22). 2. Отметим еще так называемое неравенство Бесселя для ортонормированного ряда векторов Z: zi,z2,... Пусть дан произвольный вектор х. Обозначим через £р проекцию этого вектора на орт zp: £р = (xzp) (p= 1,2,...). Тогда проекция вектора х на подпространство Sp = [zi,Z2, ...,zp] представится в виде [см. (20)] *SP = £izi + &z2 + - + iv4 (P = 1,2> •••)• 21) Cm. [19, с 77 и далее]. 22) Более подробно об этом см. [19, гл. II, § 9], а также [9].
228 Гл. IX. Линейные операторы в унитарном пространстве Но |xg |2 = |£i|2 + |&|2 + • •• + \€р\2 ^ |х|2. Поэтому для произвольного р 16|2 + |6|2 + - + |?Р|2^|х|2. (38) Это— неравенство Бесселя. В случае конечномерного пространства п измерений это неравенство имеет совершенно очевидный геометрический смысл. При р — п оно переходит в равенство Пифагора |6|2 + |6|2 + - + Ы2 = |х|2. В случае бесконечномерного пространства и бесконечного ряда Z из (38) сле- оо дуют сходимость ряда У2 |£&|2 и неравенство к=1 °° Составим ряд р-й отрезок этого ряда (при любом р) flZi + £2Z2 + ... + ^pZp равен проекции х§ вектора х на подпространство Sp = [zi,z2, ...,zp] и потому является наилучшим приближением для вектора х в этом подпространстве: v v | (х - ^2 &Zfc) | ^ | (х - ^2 с^к) |, к=1 k=l где ci,C2, ...,cp — произвольные комплексные числа. Вычислим соответствующее квадратичное отклонение Sp: ^ = |(х-£&а*)|2=(х-£&Ик>х-£&а*) = |х|2-£|&|2. k=l k=l k=l k=l Отсюда Ит^ = |х|2-£|Ы2- Если ю—>-оо jfe=l lim Sp = О, р—>-оо то говорят, что ряд 2_\^кЪк сх°дится в среднем (сходится по норме) к вектору х. к=\ В этом случае для вектора х из R имеет место равенство (теорема Пифагора в бесконечномерном пространстве) оо (xx) = |x|2 = £|&|2. (39) к=1 Р Если для любого вектора х из R ряд S^ £fczfc в среднем сходится к вектору х, к=1 то ортонормированный ряд векторов zi,z2,... называется полным. В этом случае,
§ 6. Ортогонализация ряда векторов 229 заменяя в (39) х на х + у и используя равенство (39) трижды, для векторов х + у, х и у мы легко получим оо (ху) = Y, Шн К* = (xz*)> m = (yz*); k = 1,2,...]. (40) k=i Пример. Рассмотрим пространство всех комплексных функций f(t) (t — вещественный аргумент), кусочно непрерывных в замкнутом интервале [0,27г]. Скалярное произведение двух функций f(t) и g(t) определим формулой 2тг U,9) = jf(t)W)dt. о В частности, 2тг (/,/) =/1/(012 А- О Возьмем бесконечную последовательность функций -±=еш (* = 0,±1,±2,...). У/27Г Эти функции образуют ортонормированный ряд, так как 27Г 27Г О О Ряд 0 при цфу, 2п при ц = v. JeWe-ivt dt = Jei(v-u)t dt = J 0 0 ^ ОО / 27Г \ J2 /*еш l/* = ^//(*)e-rttA; * = 0,±1>±2,...) =-oo V 0 / fc=—oo сходится в среднем к функции /(£) в интервале [0,27г]. Этот ряд называется рядом Фурье для функции /(£), а коэффициенты Д (к = 0, ±1, ±2,...) — коэффициентами Фурье для f(t). В теории рядов Фурье доказывается, что система функций егЫ (к = 0, ±1, ±2,...) является полной23). Условие полноты дает равенство Парсеваля [см. равенство (40)] 27Г +00 27Г 27Г ff(t)W)dt= £ ±ff(t)e-iktdtfW)eiktdt. О fc=—оо О О Если /(£) — вещественная функция, то /о вещественно, а Д и /_& — комплексно сопряженные числа (к = 1,2,...). Полагая 2тг О где 27Г 27Г а* = - ff(t)cosktdt, bk = - ff(t)sinktdt (k = 0,1,2,...), 7Г У 7Г,/ 23) См., например, [19, гл. II].
230 Гл. IX. Линейные операторы в унитарном пространстве будем иметь fkeikt + f-ke~ikt = ak cos И + Ьк sin И (к = 1,2,...). Поэтому для вещественной функции f(t) ряд Фурье принимает вид ^ + У^(а& cos kt + bk sin kt) k=l 27Г 27Г \ ak = - f(t) cos ktdt, bk = - f(t) sin ktdt, к = 0,1,2,... J. oo / § 7. Ортонормированный базис Базис любого конечномерного подпространства S в унитарном или евклидовом пространстве R является невырожденным рядом векторов и потому согласно теореме 2 предыдущего параграфа может быть ортогонализирован и нормирован. Таким образом, в любом конечномерном подпространстве S (и, в частности, во всем пространстве R, если оно конечномерно) существует ортонормированный базис. Пусть ei,e2,...,en — ортонормированный базис пространства R. Обозначим через #i,#2, —,хп координаты произвольного вектора х в этом базисе: п х = ^хкек. k=i Умножая обе части этого равенства справа на ек и учитывая ортонормиро- ванность базиса, легко найдем хк = (хе*) (к = 1,2,...,п), т. е. в ортонормированном базисе координата вектора равна скалярному произведению его на соответствующий базисный орт: п х = ^2(хек)ек. (41) к=1 Пусть #i,#2,...,#n и х'1,х'2,...,х,п — соответственно координаты одного и того же вектора х в двух различных ортонормированных базисах ei,e2,...,en и е^, е2,..., е^ унитарного пространства R. Формулы преобразования координат имеют вид п Хг = ^2щкх'к (г = 1,2,...,п). (42) к=1 При этом коэффициенты щк,и2к,...,ипк, образующие к-й столбец матрицы U = \\щк\\Т, являются, как нетрудно видеть, координатами вектора е'к в базисе ei,e2, ...,еп. Поэтому, записывая в координатах [см. (10)] условия орто- нормированности базиса e'l5e2, ...,е^, получим соотношения Е_ s Г 1, к = /, _ ЩкЩ1 = 6ы = { 0, кф\. (43) Преобразование (42), у которого коэффициенты удовлетворяют условию (43), называется унитарным, а соответствующая матрица U — унитарной матрицей.
§7. Ортонормированный базис 231 Таким образом, в п-мерном унитарном пространстве переход от одного ортонор- мированного базиса к другому осуществляется при помощи унитарного преобразования координат. Пусть дано n-мерное евклидово пространство R. Переход от одного ортонор- мированного базиса в R к другому осуществляется при помощи преобразования координат п Xi = Щ VikX'k (* = *> 2' -' П)' (44) к=1 коэффициенты которого связаны между собой соотношениями п ^2vikvu=Ski (k,l = 1,2,...,п). (45) г=1 Такое преобразование координат называется ортогональным, а соответствующая матрица V — ортогональной матрицей. Отметим интересную матричную запись процесса ортогонализации. Пусть А = \\aik\\i — произвольная невырожденная матрица (\А\ ф 0) с комплексными элементами. Рассмотрим унитарное пространство R с оргонормированным базисом ei,e2, ...,еп и определим линейно независимые векторы ai,a2, ...,ап равенством п ак = 22aikei (к = 1,2, ...,п). г=1 Подвергнем векторы ai,a2, ...,an процессу ортогонализации. Полученный ортонормированный базис в R обозначим через ui,u2, ...,un. Пусть при этом п u* = ^2uikei (к = 1,2, ...,п). г=1 Тогда [aia2...ap] = [uiu2...up] (p = 1,2,...,п), т. е. ai = cnui, а2 = ci2ui + c22u2, an = cinui + c2nu2 + ... + cnnun, где Cik (i,k = 1,2, ...,n; г ^ к) — некоторые комплексные числа. Полагая С{к = 0 при г > к (i,k = 1,2, ...,п), будем иметь п а* = ^2сркЩ (к = 1,2, ...,п). p=i Переходя здесь к координатам и вводя верхнюю треугольную матрицу С = = \\cik\\i и унитарную матрицу U = ||w**||i, получим п Q>ik — / j ЩрСрк {.^i К = 1> А •••> ^7> Р=1 ИЛИ А = UC. (*)
232 Гл. IX. Линейные операторы в унитарном пространстве Согласно этой формуле произвольная невырожденная матрица А = ||а^||у представила в виде произведения унитарной матрицы U на верхнюю треугольную С. Так как процесс ортогонализации однозначно определяет векторы ui, 112,..., un с точностью до скалярных множителей ei,£2,—sn (\si\ = 1;г = 1,2, ...,п), то в формуле (*) множители U и С определяются однозначно с точностью до диагонального множителя М = {ei,62,—,sn}: и = и1м, с = м~1с1. В этом можно убедиться и непосредственно. Замечание 1. Если А — вещественная матрица, то в формуле (*) множители U и С можно выбрать вещественными. В этом случае U — ортогональная матрица. Замечание 2. Формула (*) сохраняет свою силу и для вырожденной матрицы А (\А\ =0). В этом можно убедиться, полагая А = lim Amy где \Ат\ ф 0 га—>-оо (771 = 1,2,...). Тогда Ат = UmCm (га = 1,2,...). Выделяя из последовательности Um сходящуюся подпоследовательность E/m (lim U™ = U) и переходя к пределу, из ра- р р—*оо р венства Ат = UmpCmp при р —>• со получим искомое разложение А = UC. Однако в случае \А\= 0 множители U и С уже не определяются однозначно с точностью до диагонального множителя М. Замечание 3. Вместо (*) можно получить формулу А = DW, (**) где D — нижняя треугольная, a W — унитарная матрица. Действительно, применяя установленную ранее формулу (*) к транспонированной матрице А': А' = UC, и полагая W = С/', D = С, получим (**)24). § 8. Сопряженный оператор Пусть в n-мерном унитарном пространстве R задан произвольный линейный оператор. Определение 4. Линейный оператор А* называется сопряженным по отношению к оператору А, если для любых двух векторов х, у из R выполняется равенство (Ах,у) = (х,А*у). (46) Мы докажем, что для каждого линейного оператора А существует сопряженный оператор А* и притом только один. Для доказательства выберем в R некоторый ортонормированный базис ei,e2, ...,еп. Тогда [см. (41)] для искомого оператора А* и произвольного вектора у из R должно выполняться равенство п к=1 В силу (46) это равенство может быть переписано так: п А*у = "£(уЛек)ек. (47) k=i 24) Из унитарности матрицы U следует унитарность и матрицы U', так как условия унитарности (43), записанные в матричном виде: U'U = Е, влекут UU = Е.
§8. Сопряженный оператор 233 Легко проверить, что определенный таким образом оператор А* является линейным и удовлетворяет равенству (46) при произвольных векторах х и у из R. Кроме того, равенство (47) однозначно определяет оператор А* по заданному оператору А. Таким образом, устанавливаются существование и единственность сопряженного оператора А*. Пусть А — линейный оператор в унитарном пространстве, а А = Ца^Ц" — матрица, отвечающая этому оператору в ортонормированием базисе ei,e2, ...,еп. п Тогда, применяя формулу (41) к вектору Ае& = У^а^е;, получим г=1 aik = (Ае*,е<) (г, к = 1,2, ...,п). (48) Пусть теперь сопряженному оператору А* в этом же базисе отвечает матрица А* = HaJJ?. ТогДа по Формуле (48) <4 = (А*е*,е*) (t,fc = l,2,...,n). (49) Из (48) и (49) в силу (46) следует а*к =йы (г, к = 1,2,...,п), т. е. _ А*=А'. Матрица А* является транспонированной и комплексно сопряженной для А. Такую матрицу принято называть (см. гл. I) сопряженной по отношению к А. Таким образом, в ортонормированном базисе сопряженным операторам отвечают сопряженные матрицы. Из определения сопряженного оператора вытекают следующие его свойства: 1°) (А*)* = А; 2°) (А + В)* = А*+В*; 3°) (аА)* = а А* (а — скаляр); 4°) (АВ)* =В*А*. Введем теперь одно важное понятие. Пусть S — произвольное подпространство в R. Обозначим через Т совокупность всех векторов у из R, ортогональных к S. Легко видеть, что Т есть тоже подпространство в R и что каждый вектор х из R однозначно представляется в виде суммы х = х$ + хт, где х$ € S, хх € Т, т. е. имеет место расщепление R=S + T, S_LT. Это расщепление получаем, применяя к произвольному вектору х из R разложение (15) из § 4. Т называется ортогональным дополнением к S. Очевидно, S будет ортогональным дополнением к Т. Мы пишем S _L T, понимая под этим то, что любой вектор из S ортогонален любому вектору из Т. Теперь мы сможем сформулировать фундаментальное свойство сопряженного оператора: 5°) если некоторое подпространство S инвариантно относительно А, то ортогональное дополнение Т этого подпространства будет инвариантно относительно А*. Действительно, пусть х Е S, у Е Т. Тогда из Ах Е S следует (Ах, у) = О и отсюда в силу (46) (х, А*у) = 0. Так как х — произвольный вектор из S, то А*у € Т, что и требовалось доказать.
234 Гл. IX. Линейные операторы в унитарном пространстве Введем следующее определение. Определение 5. Две системы векторов xi,x2,...,xm и УъУ2,---,Ут назовем биортонормированными, если (х<у*)=й* (г,к=1,2,...,т), (50) где Sik — символ Кронекера. Теперь докажем следующее предложение: 6°) если А — линейный оператор простой структуры, то сопряженный оператор А* также имеет простую структуру, причем можно так выбрать полные системы собственных векторов xi,X2, ...,хп и уъУ2,---,Уп операторов А и А*, чтобы они были биортонормированы: Ах* = Л<Х4, А*Уг = МгУг, (ЪУк) = $ik (h * = 1, 2, ..., Tl). Действительно, пусть xi,x2, ...,хп — полная система собственных векторов оператора А. Введем обозначение S* = [xi,...,Xfc_i,Xfc+i,...,xn] (к = 1,2,...,п). Рассмотрим одномерное ортогональное дополнение Т& = [ук] к (п — 1)-мерному подпространству S& (к = 1,2, ...,п). Тогда Т& инвариантно относительно А*: А*у*=М*У*> УкфО (к = 1,2,...,п). Из Sk -L у к следует (х^у^) ф 0, так как в противном случае вектор у к должен был бы равняться нулю. Умножая Хк,Ук (к = 1,2, ...,п) на надлежащие числовые множители, получим (хгУ&) = Sik (г, & = 1,2,..., п). Из биортонормированности систем векторов xi,X2,...,xn и уьУ2,...,Уп следует, что векторы каждой из этих систем линейно независимы. Отметим еще такое предложение: 7°) если операторы А и А* имеют общий собственный вектор, то характеристические числа этих операторов, отвечающие общему собственному вектору, комплексно сопряжены. В самом деле, пусть Ах = Лх, А*х = дх (х ф 0). Тогда, полагая в (46) у = х, будем иметь Л(х,х) = /Z(x,x), откуда \ = ~р. 8°) Пусть у — собственный вектор оператора А*, и пусть S(n_1) — ортогональное дополнение к одномерному подпространству Т = [у]. Поскольку А = (А*)*, то, согласно утверждению 5°), подпространство S(n_1) инвариантно относительно оператора А. Таким образом, у всякого линейного оператора в n-мерном унитарном пространстве существует (п — 1)-мерное инвариантное подпространство. Рассматривая далее оператор А в подпространстве S(n_1), мы сможем указать на основании установленного предложения (п — 2)-мерное инвариантное подпространство S(n-2) оператора А, принадлежащее S(n_1). Повторяя рассуждение, мы построим цепочку из п последовательно вложенных инвариантных подпространств оператора А (индекс наверху указывает размерность): S(i) с S<2> С ... С S^"1) С S<n> = R. Пусть теперь ei — нормированный вектор, принадлежащий S^. Выберем в S(2) нормированный вектор е2 такой, что (ei,e2) = 0. В S^3^ найдем нормированный
§ 9. Нормальные операторы в унитарном пространстве 235 вектор ез такой, что (в1,ез) =0и (в2,ез) = 0. Продолжая этот процесс, мы построим ортонормированный базис векторов ®1> &2-> •••) вп, обладающий тем свойством, что каждое подпространство, натянутое на первые к базисных векторов, S<*> = [ei,e2,...,eft] (fc = 1,2, ...,n), инвариантно относительно оператора А. Пусть теперь Ца^Ц? — матрица оператора А в построенном базисе. Мы име- п ем Aej = y2aijeii гДе aij = (Ае^,е*). Поскольку Ае^ принадлежит S^, то г=1 при i > j a^ = (Aej,ei) = 0 и, следовательно, матрица оператора является верхней треугольной. Мы пришли к следующей теореме. Для любого линейного оператора А в n-мерном унитарном пространстве можно построить ортонормированный базис, в котором матрица этого оператора является треугольной. Это предложение принято называть теоремой Шура. Разумеется, привлекая общую теорему о приведении матрицы оператора к жордановой форме, легко доказать теорему Шура последовательной ортогонализацией жорданова базиса. Приведенное доказательство по существу использует лишь существование у линейного оператора, действующего в n-мерном унитарном пространстве, собственного вектора. § 9. Нормальные операторы в унитарном пространстве Определение 6. Линейный оператор А называется нормальным, если он перестановочен со своим сопряженным: АА* = А* А. (51) Определение 7. Линейный оператор Н называется эрмитовым, если он равен своему сопряженному: Н* = Н. (52) Определение 8. Линейный оператор U называется унитарным, если он об- ратен своему сопряженному: UU* = Е. (53) Заметим, что унитарный оператор можно определить как изометричный оператор в эрмитовом пространстве, т. е. как оператор, сохраняющий метрику. Действительно, пусть при произвольных векторах х и у из R (Ux,Uy) = (x,y). (54) Тогда, согласно (46), (U*Ux,y) = (x,y), и, следовательно, в силу произвольности вектора у U*Ux = х, т. е. U*U = Е или U* = U-1. Обратно, из (53) следует (54). Из (53) или (54) вытекает, что: 1°) произведение двух унитарных операторов есть снова унитарный оператор, 2°) единичный оператор Е является унитарным
236 Гл. IX. Линейные операторы в унитарном пространстве и 3°) обратный оператор для унитарного есть также унитарный оператор. Поэтому совокупность всех унитарных операторов является группой25). Эту группу называют унитарной группой. Эрмитов оператор и унитарный оператор являются частными видами нормального оператора. Теорема 3. Произвольный линейный оператор А всегда можно представить в виде A = Hi-HH2, (55) где Hi г/ Н2 — эрмитовы операторы ("эрмитовы компоненты" оператора А). Эрмитовы компоненты однозначно определяются заданием оператора А. Оператор А нормален тогда и только тогда, когда его эрмитовы компоненты Hi и Н2 перестановочны между собой. Доказательство. Пусть имеет место (55). Тогда A*=Hi-iH2. (56) Из (55) и (56) находим Н1 = 1(А + А*), Н2 = 1(А-А*). (57) Обратно, формулы (57) определяют эрмитовы операторы Hi и Н2, связанные с А равенством (55). Пусть теперь А — нормальный оператор: АА* = А*А. Тогда из (57) следует HiH2 = H2Hi. Обратно, из HiH2 = H2Hi в силу (55) и (56) следует АА* = А* А. Теорема доказана. Представление произвольного линейного оператора А в виде (55) является аналогом представления произвольного комплексного числа z в виде х\ + г#2, где х\ и Х2 — вещественные числа. Пусть в некотором ортонормированием базисе операторам А, Н и U отвечают соответственно матрицы А, Я, U. Тогда операторным равенствам АА* = А*А, Н* = Н, UU* = Е (58) будут соответствовать матричные равенства АА* = А* А, Я* = Я, UU* = Е. (59) Поэтому мы и определяем нормальную матрицу как матрицу, перестановочную со своей сопряженной, эрмитову как равную своей сопряженной и, наконец, унитарную как обратную своей сопряженной. Тогда в ортонормированном базисе нормальному (эрмитову, унитарному) оператору отвечает соответственно нормальная (эрмитова, унитарная) матрица. Эрмитова матрица Я = ||/^fc||? в силу (59) характеризуется следующими соотношениями между элементами: hki = hik (i,k = l,2,...,n), т. е. эрмитова матрица всегда является матрицей коэффициентов некоторой эрмитовой формы (см. § 1). Унитарная матрица U = \\щк\\х в силу (59) характеризуется следующими соотношениями между элементами: п ^2uijukj=Sik (i,fc=l,2,...,n). (60) 25) См. сноску на с. 26.
§10. Спектр нормальных, эрмитовых, унитарных операторов 237 Так как из UU* = Е следует U*U = Е, то из (60) следуют эквивалентные соотношения п ^Ujiujk = Sik (i,k= 1,2, ...,n). (61) i=i Равенства (60) выражают собой "ортонормированность" строк, а равенства (61) — ортонормированность столбцов в матрице U = \\uik\\i26)- Унитарная матрица является матрицей коэффициентов некоторого унитарного преобразования (см. § 7). Оператор Р, осуществляющий ортогональное проектирование векторов унитарного пространства R на заданное подпространство S, является эрмитовым проекционным оператором. Действительно, этот оператор является проекционным, т. е. Р2 = Р (см. гл. III, § 6). Далее, из ортогональности векторов х§ = Рх и у — yg = (Е — Р)у (х, у Е R) следует 0 = (Рх, (Е - Р)у) = ((Е - Р*)Рх,у). Отсюда в силу произвольности векторов х, у получаем (Е-Р*)Р = 0, т. е. Р = Р*Р. Из этого равенства следует, что Р — эрмитов оператор, так как (Р*Р)* = Р*Р. § 10. Спектр нормальных, эрмитовых, унитарных операторов Установим предварительно одно свойство перестановочных операторов, сформулировав его в виде леммы. Лемма 1. Перестановочные операторы А и В (АВ = В А) всегда имеют общий собственный вектор. Доказательство. Пусть х — собственный вектор оператора А: Ах = = Ах, х ф 0. Тогда в силу перестановочности операторов А и В АВ*х = АВ*х (к = 0,1,2,...). (62) Пусть в системе векторов х, Вх, В2х, ... первые р векторов линейно независимы, в то время как (р + 1)-й вектор Врх является уже линейной комбинацией предыдущих. Тогда подпространство S = = [х, Вх, ...,Вр_1х] будет инвариантно относительно В, и потому в этом подпространстве S будет существовать собственный вектор у оператора В: By = /ху, у ф 0. С другой стороны, равенства (62) показывают, что векторы х, Вх,..., Вр_1х являются собственными векторами оператора А, отвечающими одному и тому же характеристическому числу А. Поэтому и любая линейная комбинация этих векторов, в частности, вектор у, будет собственным вектором оператора А, отвечающим характеристическому числу А. Таким образом, доказано существование общего собственного вектора операторов А и В. 26) Таким образом, ортонормированность столбцов в матрице U является следствием ортонормированности строк и наоборот.
238 Гл. IX. Линейные операторы в унитарном пространстве Пусть А — произвольный нормальный оператор в n-мерном эрмитовом пространстве R. В этом случае операторы А и А* перестановочны между собой и потому имеют общий собственный вектор xi. Тогда (см. § 8, 7°)) Axi = AiXi, A*xi = AiXi (xi ф 0). Обозначим через Si одномерное подпространство, содержащее вектор xi (Si = = [xi]), а через Ti — ортогональное дополнение для Si в R: R = Si+Tb Si-LTi. Так как Si инвариантно относительно А и А*, то (см. § 8, 5°)) Ti также инвариантно относительно этих операторов. Поэтому согласно лемме 1 перестановочные операторы А и А* имеют общий собственный вектор Х2 в Ti: Ах2 = А2х2, А*х2 = А2х2 (х2 ф 0). Очевидно, xi _L x2. Полагая S2 = [xi,x2] и R = S2 + Т2, S2 _L T2, мы аналогичными соображениями установим существование в Т2 общего собственного вектора хз операторов А и А*. Очевидно, xi _L хз и х2 _L хз. Продолжая этот процесс далее, мы получим п попарно ортогональных общих собственных векторов xi,x2, ...,хп операторов А и А*: Ах* = AfcXfc, А*х* = Айх* (x* ф 0), (x;Xfc) = 0 при г ф к (i,k = 1,2, ...,п). Векторы xi,x2,...,xn можно пронормировать. При этом равенства (63) сохранятся. Таким образом, мы доказали, что нормальный оператор всегда имеет полную ортонормированную27) систему собственных векторов. Так как из А^ = А/ всегда следует А& = А/, то из равенств (63) вытекает следующее. 1°. Если оператор А нормален, то каждый собственный вектор оператора А является собственным вектором сопряженного оператора А*, т. е. если оператор А нормален, то операторы А и А* имеют одни и те же собственные векторы. Пусть теперь, обратно, дано, что линейный оператор А имеет полную ортонормированную систему собственных векторов: Ах* = AfcXfc, (х^х/ь) = 6ik (i,k = 1,2, ...,n). Докажем, что в этом случае А является нормальным оператором. Действительно, положим _ у/ = А*х* -Xixi. Тогда (х*у/) = (х*, А*х/) - Xi(xkxi) = (Axfc,x*) - Xi(xkxi) = = (Aft-A,)&,=0 (k,J = l,2,...,n). Отсюда следует _ у/ = А*х/ - Xtxi = 0 (/ = l,2,...,n), 2Т) Под полной ортонормированной системой векторов мы здесь и в дальнейшем понимаем ортонормированную систему из п векторов, где п — число измерений пространства.
§10. Спектр нормальных, эрмитовых, унитарных операторов 239 т. е. имеют место все равенства (63). Но тогда АА*х* = A*Afcxfc, А* Ах* = AfcAfcx* (k = l,2,...,n), откуда AA* = A*A. Таким образом, мы получили следующую "внутреннюю" (спектральную) характеристику нормального оператора А (наряду с "внешней": А А* = А* А). Теорема 4. Линейный оператор тогда и только тогда является нормальным, когда этот оператор имеет полную ортонормированную систему собственных векторов. В частности, нами доказано, что нормальный оператор всегда является оператором простой структуры. Пусть А — нормальный оператор с характеристическими числами Ai,A2,... ...,АП. По интерполяционной формуле Лагранжа определим два многочлена р(Х) и q(X) из условий p(Afc) = Afc, q(Xk) = \k (fc = l,2,...,n). Тогда в силу (63) А*=р(А), А = я(А*), (64) т. е. 2°. Для нормального оператора А каждый из операторов А и А* представим в виде многочлена от другого из операторов; при этом эти два многочлена определяются заданием характеристических чисел оператора А. Пусть S — инвариантное подпространство в R для нормального оператора А и R = S + Т, S _L Т. Тогда согласно § 8, 5°) (с. 233) подпространство Т инвариантно относительно А*. Но А = д(А*), где q(X) — многочлен. Поэтому Т инвариантно и относительно данного оператора А. Таким образом, 3°. Если S — инвариантное подпространство относительно нормального оператора Т, а Т — ортогональное дополнение к S, то и Т является инвариантным подпространством для А. Остановимся теперь на спектре эрмитова оператора. Так как эрмитов оператор Н является частным видом нормального оператора, то по доказанному он имеет полную ортонормированную систему собственных векторов: Hxfc=AfcXfc, (xkxt)=Ski (М = 1,2, ...,n). (65) Из Н* = Н следует _ А*=А* (fc = l,2,...,n), (66) т. е. все характеристические числа эрмитова оператора Н вещественны. Нетрудно видеть, что и, обратно, нормальный оператор с вещественными характеристическими числами всегда эрмитов. В самом деле, из (65), (66) и H*Xfc = АйХ* (к = 1,2,..., п) следует H*Xfc=Hxfe (fc = l,2,...,n), т. е. Н* =Н. Таким образом, мы получили следующую "внутреннюю" характеристику эрмитова оператора (наряду с "внешней": Н* = Н).
240 Гл. IX. Линейные операторы в унитарном пространстве Теорема 5. Линейный оператор Н является эрмитовым тогда и только тогда, когда он имеет полную ортонормированную систему собственных векторов с вещественными характеристическими числами. Остановимся теперь на спектре унитарного оператора. Поскольку унитарный оператор U является нормальным, то он имеет полную ортонормированную систему собственных векторов: Uxk = Xkxk, (x*xj) = *w (k,l = l,2,...,n). (67) При этом _ 1ГхЛ=АЛх* (fc = l,2,...,n). (68) Из UU* = Е находим _ АЛА* = 1. (69) Обратно, из (67), (68), (69) следует UU* = Е. Таким образом, среди нормальных операторов унитарный оператор выделяется тем, что у него все характеристические числа по модулю равны единице. Мы получили следующую "внутреннюю" характеристику унитарного оператора (наряду с "внешней": UU* = Е). Теорема 6. Линейный оператор тогда и только тогда является унитарным, когда он имеет полную ортонормированную систему собственных векторов с характеристическими числами, по модулю равными единице. Так как в ортонормированном базисе нормальная (эрмитова, унитарная) матрица соответственно определяет нормальный (эрмитов, унитарный) оператор, то получаем следующие предложения. Теорема 4'. Матрица А является нормальной тогда и только тогда, когда она унитарно подобна диагональной матрице: A = U\\\i5ik\\?U-1 (U*=U-1). (70) Теорема 5'. Матрица Н является эрмитовой тогда и только тогда, когда она унитарно подобна диагональной матрице с вещественными числами на диагонали: _ Н = и\\\&к\\?1Г1 (U* = U~1; \i=\i; г = 1,2, ...,n). (71) Теорема 6'. Матрица U является унитарной тогда и только тогда, когда она унитарно подобна диагональной матрице с диагональными элементами, по модулю равными единице: U = U1\\\i6ik\\?Ur1 (Щ = игг; |А<| = 1; г = 1,2,...,п). (72) § 11. Неотрицательные и положительно определенные эрмитовы операторы Введем следующее Определение 9. Эрмитов оператор Н называется неотрицательным, если для любого вектора х из R (Нх,х)^0, и положительно определенным, если для любого вектора х ф О из R (Нх,х) >0. Если задать вектор х его координатами х\,хч,...,хп в произвольном ортонормированном базисе, то (Нх,х), как легко видеть, представится в виде эрмитовой
§11. Неотрицательные и положительно определенные эрмитовы операторы 241 формы от переменных а?1,а?2,...,#п, причем неотрицательному (соответственно положительно определенному) оператору будет отвечать неотрицательная (соответственно положительно определенная) эрмитова форма (см. § 1). Выберем ортонормированный базис xi, x2,..., хп из собственных векторов оператора Н: Нхк = Хкхк, (xkxi)=Ski (M = l,2,...,n). (73) п Тогда, полагая х = V^^x*, будем иметь к=1 п (Нх,х) = £АЛ|&|2 (* = 1,2,..,п). к=1 Отсюда сразу следует "внутренняя" характеристика неотрицательного и положительно определенного оператора. Теорема 7. Эрмитов оператор тогда и только тогда является неотрицательным (соответственно положительно определенным), если все его характеристические числа неотрицательны (соответственно положительны). Из сказанного вытекает, что положительно определенный эрмитов оператор есть невырожденный неотрицательный эрмитов оператор. Пусть Н — неотрицательный эрмитов оператор. Для него имеют место равенства (73) с Хк ^ О (А; = 1,2,...,п). Положим рк = \fXk~ ^ 0 (к = 1,2,...,п) и определим линейный оператор F равенствами ¥хк=ркхк (fc = l,2,...,n). (74) Тогда F будет также неотрицательным оператором, причем F2 = Н. (75) Неотрицательный эрмитов оператор F, связанный с Н равенством (75), будем называть арифметическим корнем квадратным из оператора Н и будем обозначать так: f = Vh. Если Н — положительно определенный оператор, то и F будет положительно определенным. Определим интерполяционный многочлен Лагранжа д(Х) равенствами 9(Xk) = Pk(= уД~к) (* = l,2,...,n). (76) Тогда из (73), (74) и (76) следует F = g(H). (77) Последнее равенство показывает, что л/Н является многочленом от Н и однозначно определяется заданием неотрицательного эрмитова оператора Н (коэффициенты многочлена д(Х) зависят от характеристических чисел оператора Н). Примерами неотрицательных эрмитовых операторов являются операторы А А* и А* А, где А — произвольный линейный оператор в данном пространстве. Действительно, при произвольном векторе х (АА*х, х) = (А*х, А*х) ^ О, (А*Ах, х) = (Ах, Ах) ^ 0. Если оператор А невырожденный, то А А* и А* А — положительно определенные эрмитовы операторы.
242 Гл. IX. Линейные операторы в унитарном пространстве Операторы л/А А* и л/А* А мы будем называть левым и правым модулями оператора А. У нормального оператора левый и правый модули равны между собой28). § 12. Полярное разложение линейного оператора в унитарном пространстве. Формулы Кэли Докажем следующую теорему29). Теорема 8. Произвольный линейный оператор А в унитарном пространстве всегда представим в виде А = HU, (78) A = U!Hb (79) где Н, Hi — неотрицательные эрмитовы, a U, Ui — унитарные операторы. Оператор А нормален тогда и только тогда, когда в разложении (78) [или в (79)] множители Н и V {соответственно Hi и Ui) перестановочны. Доказательство. Из разложений (78) и (79) следует, что Н и Hi являются соответственно левым и правым модулями оператора А. Действительно, АА* = HUU*H = Н2, А*А = HU*UiHi = Н2. Заметим, что достаточно установить разложение (78), так как, применяя это разложение к оператору А*, получим А* = HU и, следовательно, A = U1H, т. е. разложение (79) для оператора А. Установим сначала разложение (78) для частного случая, когда А — невырожденный оператор (|А| /0). Полагаем Н = л/АА* (при этом |Н|2 = |А|2 /0), U = Н_1А и проверяем унитарность оператора U: UU* = Н"1 АА*Н-1 = Н_1Н2Н = Е. Заметим, что в рассматриваемом случае в разложении (78) не только первый множитель Н, но и второй U однозначно определяются заданием невырожденного оператора А. Рассмотрим теперь общий случай, когда А может быть и вырожденным оператором. Заметим прежде всего, что полная ортонормированная система собственных векторов оператора А*А всегда преобразуется оператором А снова в ортогональную же систему векторов. Действительно, пусть A*Axk=p2kxk [(xkxi)=Ski, pk^O; k,l = 1,2, ...,n]. Тогда (Ах/ь, Axz) = (A*Ax*,x/) = pi • (xfcX/) = 0 (k ф I). 28) Относительно подробного исследования нормальных операторов см. [82,6]. В этой работе устанавливается необходимое и достаточное условие для того, чтобы произведение двух нормальных операторов было также нормальным оператором. 29) См. [82,6 с. 77.]
§ 12. Полярное разложение. Формулы Кэли 243 При этом |Ах*|2 = (Ах*, Ах*) = pi (k = 1,2, ...,n). Поэтому существует такая ортонормированная система векторов zi,z2, ...,zn, что Axk=pkzk [(zkzi) = SM; *,i = l,2,...,n]. (80) Определим линейные операторы Н и U равенствами Их* = zfc, Hz* = ^г^. (81) Из (80) и (81) находим A = HU. При этом в силу (81) Н — неотрицательный эрмитов оператор, поскольку он имеет полную ортонормированную систему собственных векторов zi,Z2, ...,zn и неотрицательные характеристические числа pi,p2, •••)Pn) a U — унитарный оператор, ибо он переводит ортонормированную систему векторов xi,x2,...,xn снова в ортонормированную zi,Z2, ...,zn. Таким образом, можно считать доказанным, что для произвольного линейного оператора А имеют место разложения (78) и (79), причем эрмитовы множители Н и Hi всегда однозначно определяются заданием оператора А (они суть соответственно левый и правый модули оператора А), а унитарные множители U и Ui определяются однозначно лишь в случае невырожденного А. Из (78) легко находим АА* = Н2, А* А = U_1H2U. (82) Если А — нормальный оператор (АА* = А*А), то из (82) вытекает H2U = UH2. (83) Поскольку Н = л/Н2 = <?(Н2) (см. § 11), то из (83) следует перестановочность U с Н. Обратно, если Н и U перестановочны, то из (82) вытекает, что А — нормальный оператор. Теорема доказана. Вряд ли необходимо особо отмечать то, что наряду с операторными равенствами (78) и (79) имеют место соответствующие матричные равенства. Характеристические числа оператора Н = л/АА* (которые в силу (82) являются также характеристическими числами оператора Hi = л/А*А), называют иногда сингулярными числами оператора А30). Разложения (78) и (79) являются аналогом представления комплексного числа z в виде z = ги, где г = \z\, a |it| = 1. Пусть теперь xi,X2, ...,хп — полная ортонормированная система собственных векторов произвольного унитарного оператора U. Тогда Uxft=e^Xfc, (xkxl) = 6kl (k,J = l,2,...,n), (84) где fk (k = 1,2, ...,n) — вещественные числа. Определим эрмитов оператор F равенствами Fxk = fkxk (* = l,2,...,n). (85) 30) Если характеристические числа Ai,A2,..., Лп и сингулярные числа р\,р2,...,рп линейного оператора А занумеровать так, чтобы |Ai| ^ |Лг| ^ ... ^ |АП|, р,^р2>... >Рп, то имеют место неравенства Вейля |Ai| <pi, |Ai| + |A2| O1+P2, ■••> |Ai| + ... + |An| ^pi + ...+pn. Более подробно об этом см. в добавлении на с. 516. — Примеч. ред.
244 Гл. IX. Линейные операторы в унитарном пространстве Тогда31) eiFx* = eifkxk (& = l,2,..,n). (85') Из (84) и (85') следует U = eiF. (86) Таким образом, унитарный оператор U всегда представим в виде (86), где F — эрмитов оператор. Обратно, если F — эрмитов оператор, то U = егР — унитарный оператор. Разложения (78) и (79) вместе с (86) дают следующие равенства: А = HeiF, (87) A = eiFlHb (88) где Н, F, Hi, Fi — эрмитовы операторы и притом Н и Hi неотрицательны. Разложения (87) и (88) являются аналогом представления комплексного числа z в виде z = гег(р, где г ^ 0 и (р — вещественные числа. Замечание. В равенстве (86) оператор F не определяется однозначно заданием оператора U. Действительно, оператор F определяется при помощи чисел Д (к = 1,2, ...,п), а к каждому из этих чисел можно прибавить произвольную кратность 27Г, не изменяя исходных равенств (84). Выбирая надлежащим образом эти слагаемые, кратные 27Г, мы можем достичь того, чтобы из ег*к = ег?1 всегда следовало fk = fi (I ^ k,l ^ п). Тогда можно определить интерполяционный многочлен д(Х) равенствами 9{eih) = fk (k = l,2,...,n). (89) Из (84), (85) и (89) будет следовать F = д(Ъ) = д(е*). (90) Совершенно аналогично можно нормировать выбор Fi так, чтобы Fi=ft(Ui) = ft(e*Pl), (91) где h(X) — некоторый многочлен. В силу (90) и (91) перестановочность Н и U (Hi и Ui) влечет перестановочность Н и F (соответственно Hi и Fi) и наоборот. Поэтому, согласно теореме 8, оператор А будет нормальным тогда и только тогда, когда в формуле (87) Н и F (или в формуле (88) Hi и Fi) перестановочны, если только характеристические числа оператора F (соответственно Fi) надлежащим образом нормированы. В основе формулы (86) лежит тот факт, что функциональная зависимость /х = eif (92) переводит п произвольных чисел на вещественной оси /i,/2,...,/n B некоторые числа Mi,/i2,...,Mn, лежащие на окружности |д| = 1, и наоборот. Трансцендентную зависимость (92) можно заменить рациональной зависимостью t^ = TzTr №) которая переводит вещественную ось / = / в окружность \/л\ = 1; при этом бесконечно удаленная точка на вещественной оси переходит в точку д = —1. Из (93) находим > = «тт?- (94) 31) е = r(F), где г (Л) — интерполяционный многочлен Лагранжа для функции е в точках /i,/2,...,/n-
§ 12. Полярное разложение. Формулы Кэли 245 Повторяя рассуждения, которые привели нас к формуле (86), мы из (93) и (94) получим две взаимно обратные формулы: U = (Е + iF)(E - iF)~\ F = г(Е - U)(E + U)"1. (95) Мы получили формулы Кэли. Эти формулы устанавливают взаимно однозначное соответствие между произвольными эрмитовыми операторами F и теми унитарными операторами U, у которых среди характеристических чисел нет —I32). Формулы (86)-(88) и (95), конечно, будут верны и тогда, когда мы в них все операторы заменим соответствующими матрицами. Пользуясь полярным разложением матрицы А ранга г A = U1H1 (Нг = \/ЖА, UfUx = Е) (96) и формулой (71) H^V-^iSiuW^V (V*V = E, т>0, ..., цг>0, Цг+1 = ... = Цп = 0), (97) можно представить произвольную квадратную матрицу А ранга г в виде произведения А = UMV, (98) где U = UiV-1 uV — унитарные матрицы (U*U = V*V = Е), а М — диагональная матрица М = {//!,..,/хг, 0, ..,0} (/ii>0, .., дг>0), (98х) в которой диагональные элементы являются характеристическими числами правого модуля Hi = у/А*А (а следовательно, и левого модуля Н = \/АА*) матрицы А. Формулу (98) можно записать в виде A = XAY*, (99) где X и Y — п х r-матрицы, образованные первыми г столбцами унитарных матриц U и У*, а А — диагональная матрица r-го порядка A = {jii,...,/ir} (mi >0, ..., fir>0). (100) Пусть теперь А — произвольная прямоугольная т х n-матрица ранга г. Примем сначала, что га ^ п. Дополним матрицу А нулевыми строками до квадратной матрицы Ai, после чего применим формулу Аг= (£} = X1AY*. (101) Представим n x r-матрицу Х\ в виде г X J }n-m Тогда из равенства (101) найдем А = XAY* (102) 32) Особую точку —1 можно заменить любым числом цо (\/ло\ = 1|). Для этого вместо (93) надо взять дробно-линейную функцию, отображающую вещественную ось / = / на окружность |/х| = 1 и переводящую точку / = оо в точку /х = //о- При этом соответствующим образом видоизменятся формулы (94) и (95).
246 Гл. IX. Линейные операторы в унитарном пространстве ХАУ* = 0. (103) Умножим обе части этого равенства справа на Y. Тогда, поскольку Y*Y = Е, получим ХА = 0, т. е. X = 0. Но тогда столбцы матрицы X, как и столбцы матрицы У, унитарно ортогональны между собой и нормированы. Случай т ^ п сводится к случаю т ^ п, если применить сначала формулу к матрице А*, а затем из полученного равенства определить матрицу А. Мы установили следующую теорему33). Теорема 9. Произвольная прямоугольная т х п-матрица ранга г всегда представила в виде произведения A = XAY*, (104) где X uY — унитарные по отношению к столбцам прямоугольные матрицы соответственно размеров т х г ип х г, а А — диагональная матрица r-го порядка с положительными диагональными элементами \i\, ...,/xr 34). Полагая В = X, С = АУ, мы приходим к установленному в гл. I (с. 30) разложению А = ВС, (105) где матрицы В и С имеют соответствующие размеры тх г и г х п. Однако доказанная теорема дает уточнение этого разложения. Она утверждает, что множители В и С могут быть выбраны так, чтобы в матрице В все столбцы, а в матрице С все строки были унитарно ортогональны. § 13. Линейные операторы в евклидовом пространстве Рассмотрим n-мерное евклидово пространство R. Пусть дан произвольный линейный оператор А в R. Определение 10. Линейный оператор А' называется транспонированным оператором для оператора А, если для любых векторов х и у из R (Ах,у) = (х,А,у). (106) Существование и единственность транспонированного оператора устанавливаются совершенно аналогично тому, как это делалось в § 8 для сопряженного оператора в унитарном пространстве. Транспонированный оператор обладает следующими свойствами: 1°) (А'У = А; 2°) (А + В)' = А' + В'; 3°) (аА); = <хА/ (а — вещественное число); 4°) (АВ); = В'А'. Введем ряд определений. Определение 11. Линейный оператор А называется нормальным, если АА; = А;А. Определение 12. Линейный оператор S называется симметрическим, если S; = S. 33) См.: Lanzos С. Linear systems in selfadjoint form// Amer. Math. Monthly. — 1958. — V. 65. — P. 665-779; Schwerdtfeger H. Direct proof of Lanzos's decomposition theorem// Ibid. — 1960. — V. 67. — P. 855-860. 34) pi,...,iir — отличные от нуля характеристические числа матрицы у/АА* (или
§13. Линейные операторы в евклидовом пространстве 247 Определение 13. Симметрический оператор S называется неотрицательным, если для любого вектора х из R (Sx,x) ^0. Определение 14. Симметрический оператор S называется положительно определенным, если для любого вектора х ф О из R (Sx,x) >0. Определение 15. Линейный оператор К называется кососимметрическим, если К' = -К. Произвольный линейный оператор А всегда представим и притом однозначно в виде А = S + К, (107) где S — симметрический, а К — кососимметрический оператор. Действительно, из (107) следует А' = S - К. (108) Из (107) и (108) вытекает S = ±(A + A'), K=i(A-A'). (109) Обратно, формулы (109) всегда определяют симметрический оператор S и кососимметрический К, для которых имеет место равенство (107). Операторы S и К носят название симметрической и кососимметрической компонент оператора А. Определение 16. Оператор О называется ортогональным, если он сохраняет метрику пространства, т. е. если для любых векторов х, у из R (Ох,Оу) = (х,у). (ПО) Равенство (ПО) в силу (106) можно переписать так: (х, О'Оу) = (х, у). Отсюда следует (УО = Е. (111) Обратно, из (111) вытекает (ПО) (при произвольных векторах х,у)35). Из (111) следует |0|2 = 1, т. е. |0| = ±1. Мы будем ортогональный оператор О называть оператором первого рода, если |0| = 1, и второго рода, если |0| = —1. Симметрический, кососимметрический, ортогональный операторы суть частные виды нормального оператора. Рассмотрим произвольный ортонормированный базис в данном евклидовом пространстве. Пусть линейному оператору А в этом базисе соответствует матрица А = \\aik\\i (здесь все а^ — вещественные числа). Читатель без труда покажет, что транспонированному оператору А' отвечает в этом же базисе транспонированная матрица А' = \\a'ik\|f, где a'ik=a,ki (г, & = 1,2,..., п). Отсюда вытекает, что в ортонормированием базисе нормальному оператору А отвечает нормальная матрица А (АА' = А'А), симметрическому оператору S отвечает симметрическая 35) Ортогональные операторы в евклидовом пространстве образуют группу (эту группу называют ортогональной).
248 Гл. IX. Линейные операторы в унитарном пространстве матрица S = \\sik\\i (5' = 5), кососимметрическому оператору К — кососиммет- рическая матрица К = ||%||У (К' = —К) и, наконец, ортогональному оператору О — ортогональная матрица О (00' = Е)36). Аналогично тому, как это делалось в § 8 для сопряженного оператора, здесь устанавливается следующее предложение Если некоторое подпространство S в R инвариантно относительно линейного оператора А, то ортогональное дополнение Т к S в R инвариантно относительно оператора А'. Для исследования линейных операторов в евклидовом пространстве R расширим евклидово пространство R до некоторого унитарного пространства R. Это расширение проведем следующим образом. 1. Векторы из R будем называть "вещественными" векторами. 2. Введем в рассмотрение "комплексные" векторы z = х + гу, где х и у — вещественные векторы, т. е. х Е R, у Е R. 3. Естественным образом определяются операции сложения комплексных векторов и умножения на комплексное число. Тогда совокупность всех комплексных векторов образует n-мерное векторное пространство R над полем комплексных чисел, содержащее в себе R как часть. 4. В R вводится эрмитова метрика так, чтобы в R она совпадала с имеющейся там евклидовой метрикой. Читатель легко проверит, что искомая эрмитова метрика задается следующим образом. Если z = х + гу, w = u + iv (x,y,u, v € R), то (zw) = (xu) + (yv) + г[(уи) - (xv)]. Полагая при этом z = x — г'у и w = u — iv, будем иметь (z w) = (zw). Если выбрать вещественный базис, т. е. базис в R, то R будет представлять собой совокупность всех векторов с комплексными, a R — с вещественными координатами в этом базисе. Всякий линейный оператор А в R однозначно расширяется до линейного оператора в R: А(х + гу) = Ах + г'Ау. Среди всех линейных операторов в R операторы, получившиеся в результате такого расширения из операторов в R, характеризуются тем, что переводят R в R (AR С R). Такие операторы будем называть вещественными. В вещественном базисе вещественные операторы определяются вещественными матрицами, т. е. матрицами с вещественными элементами. Вещественный оператор А переводит комплексно сопряженные векторы z = = х + гу и z = х — гу (х, у G R) снова в комплексно сопряженные: Az = Ах + г'Ау, Az = Ах. — г'Ау (Ах, Ay € R). У вещественного оператора вековое уравнение имеет вещественные коэффициенты, поэтому вместе с корнем Л кратности р оно имеет и корень Л кратнос- 36) Исследованию структуры ортогональных матриц посвящены работы [91,6, 108,а, 82,а]. Ортогональную матрицу, как и ортогональный оператор, мы будем называть матрицей первого или второго рода в зависимости от того, будет \0\ = +1 или \0\ = — 1.
§13. Линейные операторы в евклидовом пространстве 249 ти р. Из Az = Az следует Az = Az, т. е. сопряженным характеристическим числам соответствуют сопряженные собственные векторы37). Двумерное подпространство [z,z] имеет вещественный базис 2(z + z)> У: ^(z-z). 2гк J Плоскость в R с этим базисом будем называть инвариантной плоскостью оператора А, отвечающей паре характеристических чисел А, А. Пусть \ = ц + iv. Тогда, как легко видеть, Ах = /лх - г/у, Ay = i/x + /ху. Рассмотрим вещественный оператор А простой структуры с характеристическими числами А2*-1 = Vk +ivk, A2fc = Цк -гщ, h=M (k = 1,2, ...,gr; I = 2q + 1, ...,n), где ^/fe,i/fc,/xi — вещественные числа, причем щ ф 0 (к = 1,2,...,(/). Тогда соответствующие этим характеристическим числам собственные векторы zi,Z2,...,zn можно выбирать так, чтобы 22к=Хк-гУк, z/=xz (fc = l,2,...,g; z2fc-i =xfe + гу*, Векторы Xl, У1, X2, У2, -., Xg, yg, X2g+l, ..., Xn образуют базис в евклидовом пространстве R. При этом Ах* = цкхк - z/fcyfe, Ayfc = икхк + /zfcyfc, Ax/ = щхь (k = l,2,...,q; / = 2tf + l,...,n). / = 2g + l,...,n). (112) (113) (114) В базисе (113) оператору А соответствует вещественная квазидиагональная матрица ГЦ mi III -ч ^1 Ml м<7 М</ М2<г+1 5 •••> Мп Г • (115) Таким образом, для каждого оператора А простой структуры в евклидовом пространстве существует такой базис, в котором оператору А соответствует матрица вида (115). Отсюда следует, что всякая вещественная матрица структуры вещественно подобна канонической матрице вида (115): ■ = Г{| - Mi v\ м<7 м<7 М2<г+1 , ..., мЛт"1 (T = T). (116) Транспонированный оператор А' для А в R после расширения становится сопряженным оператором А* для А в R. Следовательно, нормальный, симметрический, кососимметрический, ортогональный операторы в R после расширения становятся соответственно нормальным, эрмитовым, умноженным на г эрмитовым, унитарным вещественным операторами в R. Нетрудно показать, что для нормального оператора А в евклидовом пространстве можно выбрать канонический базис — ортонормированный базис (113), 37) Если характеристическому числу Л вещественного оператора А отвечают линейно независимые собственные векторы zi,Z2, ...,zp, то характеристическому числу Л отвечают линейно независимые собственные векторы z"i,Z2,...,zp.
250 Гл. IX. Линейные операторы в унитарном пространстве для которого имеют место равенства (114)38). Поэтому вещественная нормальная матрица всегда вещественно и ортогонально подобна матрице вида (115): -А\ -■ Ml Mi M<7 -У а Vq №q+l •) •••5 Mn Г o- (117) (0 = 0'-1=0). У симметрического оператора S в евклидовом пространстве все характеристические числа вещественны, так как после расширения этот оператор становится эрмитовым. Для симметрического оператора S в формулах (114) следует положить q = 0. Тогда получим Sx/=^x/ [fox/) = £w; M = 1,2, ...,n]. (118) Симметрический оператор S в евклидовом пространстве всегда имеет орто- нормированную систему собственных векторов с вещественными характеристическими числами39). Поэтому вещественная симметрическая матрица всегда вещественно и ортогонально подобна диагональной матрице: S = 0{fi1,fi2,...,pin}0-1 (0 = 0'-1=0). (119) У кососимметрического оператора К в евклидовом пространстве все характеристические числа чисто мнимы (после расширения этот оператор равен произведению г на эрмитов оператор). Для кососимметрического оператора в формулах (114) следует положить fJ-l = № = ••• = fJ-q = M2g+1 = ••• = Mn = 0, после чего эти формулы принимают вид Кх* = -щук, Ку* = z/fcXfc, Кх/ = 0 (к = 1,2,...,я; / = 2tf + l,...,n). (120) Поскольку К является нормальным оператором, базис (113) можно считать ортонормированным. Таким образом, всякая вещественная кососимметрическая матрица вещественно и ортогонально подобна канонической кососимметричес- кой матрице: К = 0< 0 -1/1 0 0 0 о, Olcr1 (0 = 0'-1 = 0). (121) У ортогонального оператора О в евклидовом пространстве все характеристические числа по модулю равны единице (после расширения такой оператор становится унитарным). Поэтому в случае ортогонального оператора в формулах (114) следует положить Ail+1/2 = 1, # = ±1 (к = 1,2,...,я; / = 2tf + l,...,n). При этом базис (113) можно считать ортонормированным. Формулы (114) можно представить в виде Oxk = cos <рк хк - sin ipк ук, Оук = sin срк хк + cos <рк ук, Ох* = ±xt (к = 1,2,...,<?; / = 2<z + l,..,n). (122) 38) Из ортонормированности базиса (112) в эрмитовой метрике следует ортонормиро- ванность базиса (113) в соответствующей евклидовой метрике. 39) Симметрический оператор S является неотрицательным, если в (118) все pi ^ 0, и положительно определенным, если в (118) все pi > 0.
§13. Линейные операторы в евклидовом пространстве 251 Из сказанного следует, что всякая вещественная ортогональная матрица вещественно и ортогонально подобна канонической ортогональной матрице: О -*{ COS ip\ Sin (fi — sin <pi cos (fi COS (fq Sill (fq - Sin (fq COS (fq (Oi=Oi_1 = Oi). , ±1, ..., iUOf1 (123) Пример. Рассмотрим произвольное конечное вращение вокруг точки О в трехмерном евклидовом пространстве. Оно переводит направленный отрезок О А в направленный отрезок ОБ и потому может рассматриваться как оператор О в трехмерном векторном пространстве (образованном всевозможными отрезками О А). Этот оператор линейный и притом ортогональный. Определитель этого оператора равен единице, так как оператор О не изменяет ориентации в пространстве. Итак, О — ортогональный оператор первого рода. Для него формулы (122) будут выглядеть так: Oxi = xi cos tp — yi sin (p, Oyi = xi sin (p + yi cos (p, Ox2 = ±X2 Из равенства |0| = 1 следует, что Ох2 = х2. Это означает, что все точки прямой, проходящей через точку О в направлении вектора х2, неподвижны. Таким образом, мы видим, что имеет место утверждение: произвольное конечное вращение твердого тела вокруг неподвижной точки может быть осуществлено конечным поворотом на угол (р вокруг некоторой неподвижной оси, проходящей через эту точку. Рассмотрим теперь произвольное конечное движение в трехмерном евклидовом пространстве, переводящее точку х в точку х' = с + Ох. (*) Движение складывается из поворота О вокруг некоторой оси, проходящей через начало координат, и параллельного сдвига на вектор с. Обозначим через u,zi,z2 собственные векторы_0, соответствующие характеристическим числам Л = 1, Ai, А2 (при этом А2 = Ai, z2 = z"i): Ou = u, Ozi=AiZi, Oz2 = A2z2. Докажем существование такой точки х0, перемещение которой х0 — x0 параллельно вектору и (т. е. параллельно оси конечного поворота О). Для этого положим с = 7U + 7izi + 72Z2, х0 = £u + ftzi + £2z2 (ъ = 7i> & = ?i) и найдем, что х0 - х0 = с + (О - Е)х0 = 7U + [7i + (Ai - l)&]zi + [72 + (А2 - l)6]z2. Поэтому, определив координаты £i и £2 искомой точки хо из равенств получим для перемещения точки xq требуемую формулу Xq - х0 = 7U. Складывая почленно это равенство с вытекающим из (*) равенством х'-х0 = 0(х-хо),
252 Гл. IX. Линейные операторы в унитарном пространстве получим х' - х0 = 0(х - х0) + 7й- (**) Эта формула показывает, что при рассматриваемом конечном движении радиус-вектор точки, проведенный из хо, поворачивается вокруг некоторой оси на фиксированный угол; затем к нему прибавляется параллельный оси вектор 7й- Другими словами, движение представляет собой винтовой сдвиг вокруг оси, проходящей через точку хо параллельно вектору и. Нами доказана Теорема Эйлера-Даламбера. Произвольное конечное движение в трехмерном евклидовом пространстве представляет собой винтовое перемещение вокруг некоторой неподвижной оси. § 14. Полярное разложение оператора и формулы Кэли в евклидовом пространстве 1. В § 12 было установлено полярное разложение линейного оператора в унитарном пространстве. Совершенно аналогично получается полярное разложение линейного оператора в евклидовом пространстве. Теорема 9. Линейный оператор А всегда представим в виде произведений А = SO, (124) A = OiSb (125) где S и Si — неотрицательные симметрические, а О и 0\ — ортогональные операторы] при этом S = л/АА/ = g(AA'), Si = УаТА = h(A'A), где g(X), h(\) — вещественные многочлены. В том и только том случае, когда А — нормальный оператор, множители S и О (множители Si и Oi) перестановочны между собой40). Аналогичное предложение имеет место для матриц. Отметим геометрическое содержание формул (124) и (125). Будем откладывать векторы n-мерного точечного евклидова пространства из начала координат. Тогда каждый вектор будет радиус-вектором некоторой точки пространства. Ортогональное преобразование, осуществляемое оператором О (или Oi), является "вращением" в этом пространстве, поскольку оно сохраняет евклидову метрику и оставляет на месте начало координат41). Симметрический же оператор S (или Si) осуществляет "дилатацию" n-мерного пространства (т. е. "растяжение" вдоль п взаимно перпендикулярных направлений с различными в общем случае коэффициентами растяжения р\,рч,...,рп\ р\,рч,...,рп — произвольные неотрицательные числа). Согласно формулам (124) и (125) произвольное линейное однородное преобразование n-мерного евклидова пространства можно получить, осуществляя последовательно некоторое вращение и некоторую дилатацию (в любом порядке). 2. Подобно тому как это было сделано в предыдущем параграфе для унитарного оператора, рассмотрим теперь некоторые представления для ортогонального оператора в евклидовом пространстве R. 40) Как и в теореме 8, операторы S и Si определяются однозначно заданием А. Если А — невырожденный оператор, то однозначно определяются и ортогональные множители ОиОь 41) В случае |0| = 1 это будет собственно вращением; в случае же |0| = — 1 это будет соединением вращения с зеркальным отображением относительно некоторой координатной плоскости.
§Ц. Полярное разложение 253 Пусть К — произвольный кососимметрический оператор (К7 = —К) и 0 = ек. (126) Тогда О — ортогональный оператор первого рода. Действительно, О' = ек' = е-к = О"1 |0| = 142). Покажем, что любой ортогональный оператор первого рода представим в виде (126). Для этого возьмем соответствующую ортогональную матрицу О. Поскольку \0\ = 1, то, согласно формуле (123)43) О .*{ COSifi - sin tpi smipi COS(^i COS (fq - sin (pq sunpq COS ipq +i, (Oi = ОГ = Oi). Определим кососимметрическую матрицу К равенством К = Ох О -<Pi о о -<PQ О , о, .... о +10 ОТ1- к1 (127) (128) Поскольку COSif sin<^ simp COS (f (129) /II о exp < то из (127) и (128) следует 0 = ек. Матричное равенство (129) влечет операторное равенство (126). Для представления ортогонального оператора второго рода ввдем в рассмотрение специальный оператор W, определив его в некотором ортонормированном базисе ei,e2,...,en равенствами Wei = еь ..., Wen_i = еп_ь Wen = -en. (130) W — ортогональный оператор второго рода. Если О — произвольный ортогональный оператор второго рода, то W_10 и OW-1 — операторы первого рода и потому представимы в виде е1^ и eKl, где К и Ki — кососимметрические операторы. Отсюда получим формулы для ортогонального оператора второго рода 0 = WeK = eKlW. (131) Базис ei,e2,...,en в формулах (130) можно выбрать так, чтобы он совпадал с базисом Xfc,yfc,x/ (А; = 1,2, ...,g; I = 2q + l,...,n) в формулах (120) и (122). Определенный таким образом оператор W будет перестановочен с К; поэтому две формулы (131) сольются в одну: Q = WeK (W = W=W1; К' = -К, WK = KW). (132) 2) Если ki,k2,...,kn — характеристические числа оператора К, то /л\ = ehl,/i2 = ^2 рКп „К. характеристические числа оператора О = е ; при этом |0| = = \x\\ii..^n = ехр < ^2 hi \ = 1> поскольку У^ kj = 0. г=1 г=1 43) Среди характеристических чисел ортогональной матрицы О первого рода имеется 1 ТТ ||-1 0[ четное число равных —1. Диагональная матрица де COS<£> -sin у? sin<£ COS(f 0 -1 может быть записана в ви- ПрИ (f = 7Г.
254 Гл. IX. Линейные операторы в унитарном пространстве Остановимся еще на формулах Кэли, устанавливающих связь между ортогональными и кососиммстрическими операторами в евклидовом пространстве. Формула 0 = (Е-К)(Е + К)"1, (133) как легко проверить, переводит кососиммегрический оператор К в ортогональный О. Из (133) можно выразить К через О: К = (Е-0)(Е + 0)-1. (134) Формулы (133) и (134) устанавливают взаимно однозначное соответствие между кососимметрическими операторами и теми ортогональными операторами, которые не имеют характеристического числа —1. Вместо (133) и (134) можно взять формулы О = -(Е - К)(Е + К)"1, (135) К = (Е + 0)(Е-0)"1. (136) В этом случае роль особой точки будет играть число +1. 3. Полярное разложение вещественной матрицы в соответствии с теоремой 9 позволяет получить основные формулы (117), (119), (121), (123), не прибегая к включению евклидова пространства в унитарное так, как это было сделано ранее. Второй вывод основных формул опирается на следующую теорему. Теорема 10. Если две вещественные нормальные матрицы подобны: В = Т~1АТ (АА* = А'А, ВВ' = В'В, А = А, В = В), (137) то эти матрицы вещественно и ортогонально подобны: В = О-1 АО (0 = 0 = О'-1). (138) Доказательство. Поскольку нормальные матрицы А и В имеют одни и те же характеристические числа, то (см. 2° на с. 239) существует такой многочлен а (А), что А' = д(А), В' = д(В). Поэтому вытекающее из (137) равенство д(В) = T-xfl(A)T может быть записано так: В' = Т-ХА'Т. (139) Переходя в этом равенстве к транспонированным матрицам, получим В = Т'АТ'-\ (140) Сопоставление (137) с (140) дает ТТ'А = АТТ'. (141) Воспользуемся теперь полярным разложением матрицы Т: Т = SO, (142) где S = у/ТТ' = h(TT') [h(X) — многочлен] — симметрическая, а О — вещественная ортогональная матрица. Поскольку, согласно (141), матрица А перестановочна с ТТ', то она же перестановочна с матрицей S = h(TT'). Поэтому подставляя в (137) выражение для Т из (142), будем иметь B = 0-1S-1ASO = 0~1AO.
§15. Коммутирующие нормальные операторы 255 Теорема доказана. Рассмотрим вещественную каноническую матрицу , /Х2<г+ъ .», /W • (143) Матрица (143) нормальна и имеет характеристические числа рь\ ± iv\, ...,цд ± =Ь^,М2я+ъ •••,Мп- Так как нормальные матрицы имеют простую структуру, то любая нормальная матрица, имеющая те же характеристические числа, подобна (а в силу теоремы 10 вещественно и ортогонально подобна) матрице (143). Таким образом, приходим к формуле (117). Совершенно так же получаются формулы (119), (121), (123). § 15. Коммутирующие нормальные операторы В § 10 мы доказали, что два коммутирующих оператора А и В в п-мерном пространстве R всегда имеют общий собственный вектор. Методом индукции можно показать, что это положение справедливо не только для двух, но для любого конечного числа коммутирующих операторов. Действительно, если даны т попарно коммутирующих операторов Ai, А2,..., Ат, среди которых первые т — 1 имеют общий собственный вектор х, то, повторяя дословно рассуждения леммы 1 (с. 237) [в качестве А берем любое А^ (г = 1,2, ...,т), а в качестве В — оператор Ат], мы получаем вектор у, который является общим собственным вектором операторов Ai, А2,..., Ат. Доказанное положение справедливо и для бесконечного множества коммутирующих операторов, поскольку такое множество может содержать только конечное число (^ п2) линейно независимых операторов, а общий собственный вектор последних будет общим собственным вектором всех операторов из данного множества. Пусть теперь дано произвольное конечное или бесконечное множество попарно коммутирующих нормальных операторов А,В, С,... Все они имеют общий собственный вектор xi. Обозначим (п — 1)-мерное подпространство, состоящее из всех векторов из R, ортогональных к xi, через Ti. Согласно § 10, 3° (с. 239) подпространство Ti инвариантно относительно операторов А,В,С,... Поэтому все эти операторы имеют общий собственный вектор х2 в Ti. Рассматривая ортогональное дополнение Т2 к плоскости [xi,x2], выделим в нем вектор хз и т. д. Таким образом, мы получим ортогональную систему xi,x2, ...,хп общих собственных векторов для операторов А,В,С,... Эти векторы можно нормировать. Нами доказана Теорема 11. Если дано конечное или бесконечное множество попарно коммутирующих нормальных операторов А,В,С,... в унитарном пространстве R, то все эти операторы имеют полную ортонормированную систему общих собственных векторов zi, z2,..., zn: Az; = A*z;, Вг; = А'^, Cz; = A-'zj, ... [(ziZk) = Sik; i, k = 1,2,...,n]. (144) В матричной формулировке эта теорема гласит следующее. Теорема 11'. Если дано конечное или бесконечное множество попарно коммутирующих нормальных матриц, то все эти матрицы одним и тем же унитарным преобразованием могут быть приведены к диагональному виду, т. е. существует такая унитарная матрица U, что А = U{\u...,\n}U-\ В = U{\[,..., X'JU-1,
256 Гл. IX. Линейные операторы в унитарном пространстве C = U{\'{,...,K}U-1, .... (U = U*~1). (145) Пусть теперь даны коммутирующие нормальные операторы в евклидовом пространстве R. Обозначим через А,В,С,... линейно независимые среди них (их конечное число). Включим (с сохранением метрики) R в унитарное пространство R, как это было сделано в § 13. Тогда, согласно теореме 11, операторы А, В,С,... будут иметь в R полную общую ортонормированную систему собственных векторов zi,z2, ...,zn, т. е. будут выполняться равенства (144). Рассмотрим произвольную линейную комбинацию операторов А,В,С,...: Р = аА + /Ш + 7С + ... При любых вещественных значениях a,/3,j,... оператор Р является вещественным (AR С R) нормальным оператором в R и Pzj = Чъз > AJ = aXJ + Pxj + 7 А" + ... (146) [(zjZk) =Sjk; j,k = l,2,...,n]. Характеристические числа Л^ (j = 1,2, ...,п) оператора Р являются линейными формами относительно а,/3,7,... В силу вещественности оператора Р эти формы можно разбить на попарно комплексно сопряженные и вещественные; при надлежащей нумерации собственных векторов будем иметь A2fe_i = Мк + iNk, А2к = Mk- iNk, Ai = Mi (к = 1,2,...,?; / = 2<? + l,..,n), где Mk,Nk,Mt — вещественные линейные формы от а,/9,7> ••• В соответствии с этим мы можем в (146) считать векторы Z2&-1 и z2k комплексно сопряженными, а ъ\ — вещественными: z2*-i =х*+гу*, z2k=xk-iyk, zt=xi (148) (* = 1,2,...,«; l = 2q + l,...,n). Тогда, как легко видеть, вещественные векторы х*,У*,х* (Л = 1,2,...,д; / = 2g + l,...,n) (149) образуют ортонормированный базис в R. В этом каноническом базисе имеем44) Рхк = Мкхк - Nkyk, Py* = Nkxk+Mkyk, Pxi=Mtxi (fc = 1,2,...,«; / = 2<? + l,...,n) Поскольку все операторы данного множества получаются из Р при частных значениях а,/3,7, —, то базис (149), не зависящий от этих параметров, является общим каноническим базисом для всех данных операторов. Нами доказана Теорема 12. Если дано любое множество коммутирующих нормальных линейных операторов в евклидовом пространстве R, то все эти операторы имеют общий ортонормированный канонический базис xk,yk,xi: Axk = цкхк -икук, Вхк= nkxk-v'kyk, ..., Ay* = vkxk + цкук, By* = v'kxk + 1л'кук, ..., (151) Axi=/iixh Bx/=/i{x/, ... ) Равенства (150) следуют из равенств (14б)-(148).
§16. Псевдообратный оператор 257 Приведем матричную формулировку теоремы 12. Теорема 12'. Любое множество коммутирующих вещественных нормальных матриц А,В,С,... при помощи одного и того же вещественного ортогонального преобразования О может быть приведено к каноническому виду В = о{ Ml Ml V\ 1 Ml | Ml 5 •••* 5 •••* M« 1 4 1 -< vq 1 M« | , M2g+1, • 5 foq+li ' », Mn | ••> Mnj 0" o- (152) Примечание. Если какой-либо из операторов А,В,С,... (какая-либо из матриц А, Б, С,...), например, А (А), является симметрическим (симметрической), то в соответствующих формулах (151) [соответственно (в 152)] все v равны нулю. В случае косой симметрии все [х равны нулю. В случае, если А — ортогональный оператор (А — ортогональная матрица), то jj,k = cos^, щ = sin%,№ = = =Ы (fc = l,2,...,g; / = 2<? + l,...,n). § 16. Псевдообратный оператор Пусть дан произвольный линейный оператор А, отображающий n-мерное унитарное пространство R в m-мерное унитарное пространство S (см. гл. III, § 2). Обозначим через г ранг оператора А, т. е. число измерений подпространства AR. Рассмотрим два ортогональных расщепления пространств R и S: R = Ri+R2, Ri_LR2, R2=NA, (153) S = Si+S2, Si_LS2, Si=AR. (154) Здесь подпространство R2 = N^ состоит из всех векторов х € R, удовлетворяющих уравнению Ах = 0. Поэтому число измерений подпространства R2 равно d = п — г (см. с. 74). Следовательно, число измерений ортогонального дополнения Ri равно г. С другой стороны, AR2 еОи ARi = AR = Si. Поскольку подпространства Ri и Si имеют одно и то же число измерений г, то линейный оператор А устанавливает взаимно однозначное соответствие между векторами подпространств Ri и Si. Поэтому однозначно определяется обратный оператор А-1, отображающий Si в Ri. Псевдообратным оператором А+ для оператора А назовем линейный оператор, отображающий S в R и определяемый равенствами А+у = А"1у (yeSi), А+у = 0 (у G S2). Псевдообратный оператор А+ однозначно определяется заданием линейного оператора А, отображающего пространство R в S, и заданием метрики в пространствах R и S. При изменении метрики в пространствах R и S изменяется и псевдообратный оператор А"1"45). (155) ) В этом отличие от обратного оператора А-1, определение которого не связано с метрикой. Но зато псевдообратный оператор А+ определяется в общем случае при любых т,п,г, а обратный оператор А-1 может быть определен лишь в частном случае, когда линейный оператор А устанавливает взаимно однозначное соответствие между векторами пространств R и S, т. е. когда т = п = г. В этом частном случае оператор А+ не зависит от метрики пространств R и S и совпадает с обратным оператором А-1. 9 Ф.Р. Гантмахер
258 Гл. IX. Линейные операторы в унитарном пространстве Роль псевдообратного оператора выясняется из следующей геометрической интерпретации. Уравнение Ах = у (156) при заданном у Е S либо не имеет решений в R (если у не принадлежит подпространству S = AR), либо имеет решения (если у Е AR). В последнем случае все решения уравнения (156) получаются из одного решения х° прибавлением произвольного вектора Х2 € R2 = N^. Докажем, что вектор х° = А+у (157) представляет собой наилучшее приближенное решение уравнения (156), т. е. |Ах°-у| =min |Ax-y|, х Е R, (158) и из всех векторов х Е R, для которых этот минимум реализуется, вектор х° имеет наименьшую длину |х°|. Действительно, пусть у = уг + у2 (yi Е Sby2 Е S2) и х° = A+y = А+уь Тогда yi = Ax° представляет собой ортогональную проекцию вектора у на подпространство S = AR, состоящее из всех векторов вида Ах, где х Е R. Поэтому имеет место равенство (158). С другой стороны, пусть х' Е R — какой-либо другой вектор (х' ф х°), для которого реализуется минимум (158). Тогда Ах' = Ах° = yi (159) и, следовательно, А(х'-х°) = 0, (160) т. е. х' — х° Е R2. Поэтому, поскольку х° _L (xq — x°), по теореме Пифагора из равенства х' = х° + (х' — х°) находим |х'|2 = |х0|2 + |х'-х0|2>|х°|2. (161) Таким образом, существует только одно наилучшее приближенное решение уравнения (156), и это решение определяется формулой (157). Выберем в пространствах R и S ортонормированные базисы. В этих базисах квадрат длины векторов х € R и у Е S определяется формулами м2 = £ы2> iyi2 = £i*i2' (162) и векторные равенства г=1 г=1 Ах = у, х° = А+у переходят в матричные Ах = у, х° = А+у. (163) Поскольку х° при любом у представляет собой наилучшее приближенное решение [в смысле метрики (162)] системы линейных уравнений, то А+ — псевдообратная матрица для прямоугольной матрицы А (см. гл. I, § 4). Таким образом, если в пространствах R и S выбраны ортонормированные базисы, то операторам А и А+ в этих базисах соответствуют взаимно псевдообратные матрицы А и А+.
ГЛАВА X КВАДРАТИЧНЫЕ И ЭРМИТОВЫ ФОРМЫ § 1. Преобразование переменных в квадратичной форме 1. Квадратичной формой называется однородный многочлен второй степени относительно п переменных а?1,а?2,...,#п. Квадратичную форму всегда можно представить в виде п У^ aikXiXk (a,ik = аЫ', i,k = 1, 2,..., n), iyk=l где А = \\a>ik\\i — симметрическая матрица. Обозначая через х столбцевую матрицу (ж1,а?2,...,жп) и пользуясь сокращенным обозначением для квадратичной формы п А(Х,Х) = ^ агкХ{Хк, (1) i>k=l мы можем написать х) А(х,х)=х'Ах. (2) Если А = Hazily — вещественная симметрическая матрица, то форма (1) называется вещественной. В этой главе мы будем в основном рассматривать вещественные квадратичные формы. Определитель \А\ = |а^|у называется дискриминантом квадратичной формы А(х, х). Форма называется сингулярной, если ее дискриминант равен нулю. Каждой квадратичной форме соответствует билинейная форма п А(х,у) = ^ агкХгУк, (3) i,k=l ИЛИ А(х,у)=х'Ау [x = (xi,...,xn), у = (у1,~.,Уп)]- (4) Если ж1,ж2,..., х1,уг,у2,...,ут — столбцевые матрицы, а ci, сг,..., Q, d\,<fe,...,dm — скаляры, то в силу билинейности выражения А(х, у) [см. (4)] (/ т \ I m i=l j=l J г=1 j=l Если задан некоторый симметрический оператор А в n-мерном евклидовом пространстве и этому оператору в некотором ортонормированном базисе eb *) Значок ' означает транспонирование. В формуле (2) квадратичная форма представлена в виде произведения трех матриц: строчной х', квадратной А и столбцевой х.
260 Гл. X. Квадратичные и эрмитовы формы в2,...,еп соответствует матрица А = \\cnk\\i2), то Для любых векторов п п х = ^ж*еь у = ^^е* г=1 г=1 имеет место тождество А(ж,г/) = (Ах,у) = (х,Ау)3). В частности, А(х,х) = (Ах,х) = (х,Ах). При этом aik = (Aei,efc) (i,k = l,2,...,n). 2. Посмотрим, как изменяется матрица коэффициентов формы при преобразовании переменных: п Xi = ^2Uk£k (г = 1,2,..., га). (6) В матричной записи это преобразование выглядит так: х = Т£. (60 Здесь х и £ — столбцовые матрицы: ж = (a?i,a?2,...,#n) и £ = (£ь£2,—,£п)> а Т — преобразующая матрица: Т = \\UkWi- Подставляя в (2) выражение для ж, из (6') получим A(x,x)=Z'T'ATt = Z'M = A(Z,0, где А = Т'АТ. (7) Формула (7) выражает матрицу А = \\(iik\\i коэффициентов преобразованной п формы А(£,£) = У^ ^гк£,г£,к через матрицу коэффициентов первоначальной г,к=1 формы А = \\aik\\i и матрицу преобразования Т = WUkWi- Из формулы (7) следует, что при преобразовании формы ее дискриминант умножается на квадрат определителя преобразования: \А\ = \А\\Т\>. (8) В дальнейшем мы будем пользоваться исключительно невырожденными преобразованиями переменных (\Т\ ф 0). При таких преобразованиях, как видно из формулы (7), ранг матрицы коэффициентов остается неизменным (ранг матрицы А равен рангу матрицы А4). Ранг матрицы коэффициентов обычно называют рангом формы. Определение 1. Две симметрические матрицы А и А, связанные равенством (7), в котором \Т\ ф 0, называются конгруэнтными. 2) Ае^ = 2_\dikCi (к = 1,...,п); см. с. 68. 3)BA(s,yf )бки обознач5 4) См. с. 25. г=1 3) В А(х,у) скобки составляют часть условного обозначения; в (Ах,у) и в (х, Ау) скобки обозначают скалярное произведение.
§2. Приведение квадратичной формы к сумме квадратов. 261 Таким образом, с каждой квадратичной формой связан целый класс попарно конгруэнтных симметрических матриц. Как было уже отмечено выше, все эти матрицы имеют один и тот же ранг — ранг формы. Ранг является инвариантом для данного класса матриц. В случае вещественной квадратичной формы вторым инвариантом является так называемая "сигнатура" квадратичной формы. К введению этого понятия мы и переходим. § 2. Приведение квадратичной формы к сумме квадратов. Закон инерции Вещественную квадратичную форму А(х,х) можно бесчисленным множеством способов представить в виде А(х,х) = ^>Хг2, (9) где at /0 (г = 1,2,..., г) и i=1 Xi = ^2 aikxk (г = 1,2,..., г) k=i — независимые вещественные линейные формы от переменных х±,Х2, .-.,хп (отсюда г ^ п). Рассмотрим невырожденное преобразование переменных, при котором первые г из новых переменных £i,£2,---,£n связаны с а?1,а?2,...,#п формулами5) 6 = Х< (г = 1,2,..., г). Тогда в новых переменных г=1 и, следовательно, матрица А имеет диагональный вид А = {ai,a2,...,ar,0, ...,0}. Но ранг матрицы А равен г. Следовательно, число квадратов в представлении (9) всегда равно рангу формы. Мы покажем, что неизменным при различных представлениях формы А(х, х) в виде (9) является не только число всех квадратов, но и число положительных6) (а значит, и число всех отрицательных) квадратов. Теорема 1. (закон инерции квадратичных форм). При представлении вещественной квадратичной формы А(х,х) в виде суммы независимых квадратов7) г А(х, Х) = ^^ агХ? г=1 число положительных квадратов и число отрицательных квадратов не зависят от способа представления формы в указанном виде. 5) Нужное преобразование получаем, дополняя систему линейных форм Xi,...,Xr линейными формами Xr+i, ...,Хп так, чтобы п форм Xj (j = 1,2,..., п) были независимы, и полагая £j = Xj (j = 1, 2,..., п). 6) Под числом положительных (отрицательных) квадратов в представлении (9) мы понимаем число положительных (соответственно отрицательных) коэффициентов ai. 7) Под суммой независимых квадратов мы понимаем сумму вида (9), в которой все ai ф 0 и формы Xi,X2, ...,Xr линейно независимы.
262 Гл. X. Квадратичные и эрмитовы формы Доказательство. Пусть наряду с представлением (9) имеет место другое представление формы А(х, х) в виде суммы независимых квадратов: г г=1 и пусть «1 > 0, а2 > 0, ..., ah > О, ah+i < О, ..., аг < О, h > О, Ь2 > 0, ..., bg > О, 65+i < 0, ..., Ьг < 0. Допустим, что h ф д, например h < д. Тогда в тождестве 5>х? = 5>1? (ю) г=1 г=1 дадим переменным х\,х<2,,...,хп значения, удовлетворяющие системе г — (д — К) уравнений Xi=0, Х2=0, ..., Xh=0, Ур+1=0, ..., Гг = 0 (11) и не обращающие в нуль хотя бы одну из форм X^+i,..., Хг 8). При этих значениях переменных левая часть тождества (10) равна .7=Л+1 а правая равна Таким образом, допущение /г ф д привело нас к противоречию. Теорема доказана. Определение 2. Разность а между числом 7Г положительных и числом v отрицательных квадратов в представлении формы А(х, х) называют сигнатурой формы А(х, х). Ранг г и сигнатура а определяют однозначно числа 7г и и, так как Г = 7Г + I/, а = 7Г — V. Заметим еще, что в формуле (9) положительный множитель \Д(н\ можно отнести к форме Xi (г = 1,2, ...,г). Тогда формула (9) принимает вид А(х, х) = Х\ + Х1 + ... + Х1- Xl+1 -...-XI (12) Полагая & = Xi (г = 1,2, ...,г) 9), приводим форму А(х,х) к каноническому виду Mi, о=&+й+-+й - й+1 - - - е- (13) Отсюда на основании теоремы 1 заключаем, что всякая вещественная симметрическая матрица А конгруэнтна диагональной матрице, у которой диагональные элементы равны +1,-1 или 0: -1,0,...,0}Т. (14) В следующем параграфе будет дано правило для определения сигнатуры по коэффициентам квадратичной формы. 8) Такие значения существуют, так как в противном случае уравнения Xh+i = = 0, ..., Хг = 0, а значит, и все г уравнений Х\ = 0, ..., ХТ = 0 были бы следствием г — (д — К) уравнений (11). Это невозможно, поскольку линейные формы Xi, Xo, ...,ХГ независимы. 9) См. сноску 5) на с. 261.
§ 3. Метод Лагранжа и Якоби приведения к сумме квадратов 263 § 3. Метод Лагранжа приведения квадратичной формы к сумме квадратов. Формула Якоби Из предыдущего параграфа вытекает, что для определения ранга и сигнатуры формы достаточно каким-либо способом привести эту форму к сумме независимых квадратов. Мы изложим здесь метод приведения Лагранжа. 1. Метод Лагранжа. Пусть дана квадратичная форма п А(Х,Х) = ^ aikXiXk. i,k=l Рассмотрим два случая. 1) При некотором g (1 ^ g ^ п) диагональный коэффициент agg ф 0. Тогда, полагая п 2 А(х,х) =—(У2адкхк) +Ai(x,x), (15) а"Ук% J непосредственной проверкой убеждаемся в том, что квадратичная форма А\ (х, х) уже не содержит переменной хд. Этот способ выделения квадрата из квадратичной формы применим всегда, когда в матрице А = Ца^Ц" имеются диагональные элементы, отличные от нуля. 2) Коэффициенты адд = 0, аь,н = 0, но agh ф 0. В этом случае полагаем 1 1 А(х,х) = [y^(opfc +ahk)xk\ - - [У^(арЛ - ahk)xk] +A2(x,x). (16) h9 k=i hg k=i Формы п п 22а9кХк> z2ahkXk (17) к=1 к=1 линейно независимы, так как первая содержит Xh, но не содержит хд, а вторая, наоборот, содержит хд, но не содержит Xh- Поэтому и формы, стоящие под знаком квадрата в (16), линейно независимы [как сумма и разность независимых линейных форм (17)]. Таким образом, мы выделили в А(х,х) два независимых квадрата. Каждый из этих квадратов содержит хд и Xh, в то время как форма А2(х,х), как легко проверить, этих переменных не содержит. Последовательным комбинированием приемов 1) и 2) всегда можно привести форму А(х,х) к сумме квадратов с помощью рациональных операций. При этом полученные квадраты будут независимы, так как на каждом этапе выделяемые квадраты содержат переменные, которые отсутствуют в последующих квадратах. Заметим еще, что основные формулы (15) и (16) могут быть записаны так: Пример. А(х, х) = Ах\ + х\ + х\ + х\ — Ах\х2 — ^х\х$ + Ах\х± + 4ж2#з — 4#з#4-
264 Гл. X. Квадратичные и эрмитовы формы Применяем формулу (15') (д = 1): А(х,х) = — (8a?i -4х2 - 4#3 + 4#4)2 + Ai(#,#) = (2#i - ж2 - #з + х±)2 + Ai(x,x), где Ai(#,:r) = 2х2х% + 2#2:r4 ~~ 2#з#4- Применяем формулу (16') (# = 2, /i = 3): Аг(х,х) = i (2ж2 + 2ж3)2 - ^ (2ж3 - 2х2 + 4ж4)2 + А2(ж,ж) = = -(х2 +х3)2 - -z (хз -х2 + 2#4)2 + А2(х,х), 2 ^ ' "*' 2 А2(х,х) = 2х\. где Окончательно А(х, х) = (2a?i - #2 - ж3 + х±)2 + 2 ^2 + Xs^ ~ 2 ^3 ~ Х2 + 2^4^ + 2ж^' г = 4, а = 2. 2. Формула Якоб и. Обозначим через г ранг квадратичной формы А(х, х) = п = ^ aikXiXk И ДОПУСТИМ, ЧТО i,fc=l Dk = A (I 2 ... к\ \l 2 ... к) /О (* = 1,2,...,г). (18) Поскольку ац = £>i ф О, то, выделяя по методу Лагранжа из формы А(ж,а:) один квадрат, получим А(х,х) = — (anxi +ai2x2 + ... + ainxn)2 + Ai(x,x), (19) an где квадратичная форма n Aiforr) = J2 ail)xixk («^ = 4V; hk = 2,...,n) (20) i,fc=2 не содержит переменной #i. Из тождества (19) следует, что коэффициенты формы А\ (ж, х) определяются формулами л(1) _„., _ flitflifc гл an (г,/г = 2,...,п). (21) Но тогда эти коэффициенты совпадают с соответствующими элементами матрицы ац а\2 ... а\п Gi = 0 а22 ... сг2п о а(1> 'aw которая получается из симметрической матрицы А— Ца^Ц" после применения к ней первого этапа алгоритма исключения Гаусса10) (см. гл. II, § 1). 10) Из формулы (21) и симметричности матрицы А = Ца^ЦГ следует симметричность матрицы А\ = \\aik\\2-
§ 3. Метод Лагранжа и Якоби приведения к сумме квадратов 265 Таким образом, процесс выделения одного квадрата по методу Лагранжа по существу совпадает с первым этапом алгоритма Гаусса. Элементы первой строки матрицы G\ являются коэффициентами в выделяемом квадрате; величина, обратная элементу ац, является множителем при квадрате. Остальные элементы матрицы G\ определяют коэффициенты формы А\(х,х). Для выделения второго квадрата следует выполнить второй этап алгоритма Гаусса и т. д. Применяя к симметрической матрице А = ||а^||у полный алгоритм Гаусса, состоящий из г этапов11), получим матрицу Gr — ац О «12 J1) а\г Л1) Gl,r+1 (1) 2,r+l аи a. ,(*) (r-1) (r-1) Irr Q>r r_|_i 0 0 (r-1) &rn 0 0 0 ... 0 0 ... 0 и соответственно представление квадратичной формы А(х, х) в виде суммы квадратов г А(х,х) = ^2 -^ (аЦ-^Xk + а^Цхн+г + ... + а^"1^)2 k=l akk (а£) = <цу, j = 1,...,п). Введем сокращенные обозначения для независимых линейных форм 7(*-i) 1кк Хк + «*,*+! s*+i + ...+ а Замечая, что12) ,(*-!) _ Рк кп J (aj$ =а1к; к = 1,...,г). (& = !,..., г; £>о = 1, aii =ац), можно записать тождество (22) в виде A(x,x) = J2^Xl (Д, = 1). (о)_ fc=i £>* (22) (23) (24) (25) Эта формула, дающая представление квадратичной формы А(х, х) в виде суммы независимых квадратов, носит название формулы Якоби13). Для коэффициентов, фигурирующих в формуле Якоби линейных форм Хк, имеют место равенства14) ... к-1 *Г 7(*-i) _ lkq — 1 к-1 q к-1 к-1 (fc = l,...,r). (26) 11) Выполнение алгоритма возможно благодаря неравенствам (18). Из этих неравенств следует, что ац ф 0, <42 ф О, ...,а,гГ~ ф 0 (см. с. 41). 12) См. с. 41; формулы (24) получаются приравниванием последовательных главных миноров Dk-i и Dk в матрицах А и G>; при этом получаем Dk = апа^...ак]~ (к = = 1,2,..., г). 13) Другой вывод формулы Якоби, не использующий алгоритма Гаусса, можно найти, например, в [7, с. 43,44]. 14) См. формулу (13) на с. 41.
266 Гл. X. Квадратичные и эрмитовы формы Если через G обозначить произвольную верхнюю треугольную матрицу, у которой первые г строк совпадают с соответствующими строками матрицы Gr, то на основе формулы Якоби можно утверждать, что преобразование перемен- п ных £ = Gx, где £ = (fi, &,...,&»), переводит квадратичную форму У^-^рг с диагональной матрицей коэффициентов D = \ —, —-,..., ^-1,0, ...,0 > в квадра- l D\ D2 Dr J тичную форму А(х,х). Но тогда [см. (7)] справедливо равенство А = G'DG. Эта формула устанавливает разложение симметрической матрицы А на треугольные множители и совпадает с формулой (55) на с. 53. Формулу Якоби часто представляют в другом виде. Вместо Xk (к = 1,2,...,г) вводят линейно независимые формы Yh=Dk-1Xh (k = 1,2,..., г; Д> = 1). Тогда формула Якоби (25) запишется так: aM = Ed^d, k=l Здесь где Ук = сккХк +Cfc,fc+i#fc+i + ... + скпхп (к = 1,2,...,г), скя = Ау1 2 ** к_х J (q = k,k + l,...,n; к = 1,2, ...,г). Пример. А(х, х) = х\ + Ъх\ — Ъх\ — Ах\Х2 + 2х\х% — 2х\х± — 6#2#з + 8#2#4 + 2#3#4- Приводим матрицу (27) (28) (29) (30) к гауссовой форме А = G = 1 -2 1 -1 1 0 0 0 -2 3 -3 4 -2 -1 0 0 1 -3 0 1 1 -1 0 0 -1 4 1 -3 -1 1 2 0 0 Отсюда г = 2, ац = 1, а^ = — 1- Формула (22) дает А(х,х) = (xi - 2х2 + хз - ж4)2 - (-Х2 - хз + 2ж4)2. Из формулы Якоби (28) вытекает Теорема 2 (Якоби). Если для квадратичной формы А(х,х) = > Хк i,k=l
§ 3. Метод Лагранжа и Якоби приведения к сумме квадратов 267 ранга г имеют место неравенства Dk=A(\ 2 ;;; l)*0 (*=i,2,..,r), (3i> то число положительных квадратов 7Г и число отрицательных квадратов v формы А(х, х) совпадают соответственно с числом знакопостоянств Рис числом знакоперемен V в ряду чисел l,DuD2,...,Dr, (32) т.е. тг = P(l,Di,D2,...,Dr), и = V(l,Di,D2,...,Dr) и сигнатура a = r-2V(l,D1,D2,...,Dr). (33) Замечание 1. В случае, когда в ряду чисел 1,D\,...,Dr ф О имеются нули, но нет трех подряд идущих нулей, для определения сигнатуры можно пользоваться формулой a = r-2V(l,D1,D2,...,Dr), опуская нулевое Dk, если Dk-iDk+i ф О, и полагая в случае Dk = Dk+i = О V(Dk-1,Dk,Dk+uDk+2) = < Dk+2 d""1 (34) 2 при ^>0. 1 при ^t+- < О, Dk Dk-i Мы приводим здесь это правило без обоснования15). Замечание 2. При наличии трех подряд идущих нулей в ряду Di,D2,..., P>r-\ сигнатура квадратичной формы не может быть непосредственно определена при помощи теоремы Якоби. В этом случае знаки ненулевых Dk не определяют сигнатуру формы. Следующий пример убеждает нас в этом: А(х,х) = 2aiXiX4 + а2х\ + а%х\ {а\а2а^ ф 0). Здесь D1=D2 = D3= 0, D4 = -а\а2аъ ф 0. В то же время 1 при а2 > 0, а3 > 0, 3 при а2 < 0, аз < 0. В обоих случаях D± < 0. Замечание 3. Если D\ ф 0, ..., Dr-\ ф 0, a Dr = 0, то знаки D\,D2,... ...,Dr-\ не определяют сигнатуру формы. В качестве подтверждающего примера можно привести форму ах\ + ах\ + Ьх\ + 2ах\х2 -h 2ах2хз + 2ax\Xz = а(х\ + х2 + х%)2 + (Ь — а)х\. Однако в последнем случае перенумерацией переменных можно достичь того, чтобы имело место и неравенство Dr ф 0. Действительно, пусть 5-я строка (s ^ г) линейно независима по отношению к первым г — 1 строкам. Поменяем между собой номера переменных хг и xs. После этого в новой матрице коэффициентов А первые г строк, а значит (в силу симметричности матрицы), и первые г столбцов линейно независимы. Тогда в произвольном миноре r-го порядка Аг каждую ..{ 15) Это правило было установлено для случая одного нулевого Dk Гундельфингером и для двух подряд идущих нулевых Dk Фробениусом [182, f].
268 Гл. X. Квадратичные и эрмитовы формы строку представим в виде линейной комбинации первых г строк, а затем каждый столбец — в виде линейной комбинации первых г столбцов. В соответствии с этим, расщепляя минор Аг на сумму определителей r-го порядка, мы в конце концов получим, что минор Аг равен произведению главного минора Dr на некоторый числовой множитель: Ar = cDr. Но среди миноров Аг имеются отличные от нуля миноры, так как г — ранг матрицы А. Поэтому Dr ф 0. § 4. Положительные квадратичные формы В этом параграфе мы остановимся на специальном, но важном классе положительных квадратичных форм. п Определение 3. Вещественная квадратичная форма А(х,х) = 2Z aikXiXk i,k=l называется неотрицательной (неположительной), если при любых вещественных значениях переменных А(х,х)^0 (<0). (35) В этом случае симметрическая матрица коэффициентов А называется положительно полуопределенной (отрицательно полуопределенной). п Определение 4. Вещественная квадратичная форма А(х,х) = Y^ a^XiXk i,k=l называется положительно определенной (отрицательно определенной), если при любых не равных одновременно нулю вещественных значениях переменных (х ф А(х,х)>0 (<0). (36) В этом случае матрица А также называется положительно определенной (отрицательно определенной). Класс положительно определенных (отрицательно определенных) форм является частью класса неотрицательных (соответственно неположительных) форм. Пусть дана неотрицательная форма А(х,х). Представим ее в виде суммы независимых квадратов: A(x,x) = Y,<4Xf- (37) г=1 В этом представлении все квадраты должны быть положительными: а*>0 (г = 1,2,..., г). (38) Действительно, если бы какое-либо ai было < 0, то можно было бы подобрать такие значения #i,#2, — ,#п> ПРИ которых Х\ = ... = Xi-i = Xi+i = ... = Xr =0, Xi ф 0. Но тогда при этих значениях переменных форма А(х, х) имела бы отрицательное значение, что по условию невозможно. Очевидно, что и, обратно, из (37) и (38) следует положительность формы А(х,х). Таким образом, неотрицательная квадратичная форма характеризуется равенствами а = г (п = г, v = 0). Пусть теперь А(х, х) — положительно определенная форма. Тогда А(х, х) — неотрицательная форма. Поэтому она представима в виде (37), где все ai (г = = 1,2, ...,г) положительны. Из положительной определенности формы следует,
§4- Положительные квадратичные формы 269 что г = п. Действительно, в случае г <п можно подобрать такие не равные одновременно нулю значения х\,х2, ...,жп, при которых все X; обращались бы в нуль. Но тогда в силу (37) А(х,х) = О при х ф О, что противоречит условию (36). Легко видеть, что и, обратно, если в (37) г = пи все а\, а2,..., ап положительны, то А(х, х) — положительно определенная форма. Другими словами, неотрицательная форма тогда и только тогда является положительно определенной, когда она не сингулярна. Следующая теорема дает критерий положительной определенности формы в виде неравенств, которым должны удовлетворять коэффициенты формы. При этом используются уже встречавшиеся в предыдущих параграфах обозначения для последовательных главных миноров матрицы А: Оц а\2 . . . «In an oi2 D1=a11, D2 = а2\ «22 Dn = «21 «22 • • • «2n «nl «n2 • • • Q"nn Теорема 3. Для того чтобы квадратичная форма была положительно определенной, необходимо и достаточно, чтобы выполнялись неравенства £>i > О, D2> О, ..., Dn > 0. (39) Доказательство. Достаточность условий (39) следует непосредственно из формулы Якоби (28). Необходимость условий (39) устанавливается следующим п образом. Из положительной определенности формы А(х, х) = \J ац*Х{Хь следует i fc=l положительная определенность "урезанных" форм16) v Ар(х,х) = ^ aikXiXk (р= 1,2, ...,п). i,k=l Но тогда все эти формы должны быть несингулярны, т. е. Dp = \Ap\^0 (p=l,2,...,n). Теперь мы имеем возможность воспользоваться формулой Якоби (28) (при г = п). Поскольку в правой части этой формулы все квадраты должны быть положительными, то £>i > 0, £>i£>2 > 0, D2DS > 0, ..., Дг-i Дг > 0. Отсюда следуют неравенства (39). Теорема доказана. Поскольку любой главный минор матрицы А при надлежащей перенумерации переменных можно поместить в левый верхний угол, то имеет место Следствие. В положительно определенной квадратичной форме А(х,х) = п = \J UikXiXk все главные миноры матрицы коэффициентов положительны17): A\ix Z '■'■'. i)>0 (1^*1<»2<-<гР^п; р=1,2,...,п). (40) 16) Форма Ар(х,х) получается из формы А(х,х), если в последней положить хр+\ = = ... = хп = 0 (р = 1, 2,..., п). 1Т) Таким образом, из положительности последовательных главных миноров вещественной симметрической матрицы следует положительность всех остальных главных миноров.
270 Гл. X. Квадратичные и эрмитовы формы Замечание. Из неотрицательности последовательных главных миноров #1 ^ 0, D2> 0, ..., Dn ^ 0 не следует неотрицательность формы А(х,х). Действительно, форма а\\х\ + 2ai2#l#2 + «22^2? в которой ац = oi2 = 0, а22 < 0, удовлетворяет условиям D\ ^ 0, D2^ 0, но не является неотрицательной. Однако имеет место следующая п Теорема 4. Для того чтобы квадратичная форма А(х,х) = /J aikXiXk бы- i>k=l ла неотрицательной, необходимо и достаточно, чтобы все главные миноры ее матрицы коэффициентов были неотрицательны: A(h Z УУ Z)^° (1<*1<*2<-<*Р^п; Р=1,2,...,п). (40*) Доказательство. Введем вспомогательную форму п А£(х,х) = А(х,х) +е^х1 (е> 0). г=1 Очевидно, \im Ае( X, X) — Ji.\X, Xl* Из неотрицательности формы А(х, х) следует положительная определенность формы А£(х,х) и, следовательно, неравенства (см. следствие из теоремы 3) Ae{h Z УУ Z)>0 (1^^<i^<"'<iP^^ P=l,2,...,n). Переходя к пределу при е ->• 0, получаем условия (40*). Пусть, наоборот, даны условия (40*). Из этих условий следует Ae(h Z УУ )j)=eP + -^>0 (1<*1<*2<...<*р^п; р=1,2,...,п). Но тогда (согласно теореме 3) А£(х,х) — положительно определенная форма: А£(х,х)>0 (хфО). Переходя к пределу при е ->• 0, получаем отсюда А(х,х) ^ 0. Теорема доказана. Условия неположительности и отрицательной определенности формы получаются соответственно из неравенств (39) и (40), если эти неравенства применить к форме —А{х,х). Теорема 5. Для того чтобы квадратичная форма А(х,х) была отрицательно определенной, необходимо и достаточно, чтобы имели место неравенства D1 < 0, D2> 0, D3 < 0, ..., {-l)nDn > 0. (39х) Теорема 6. Для того чтобы квадратичная форма А(х,х) была неположительной, необходимо и достаточно, чтобы имели место неравенства -1)m(J| J2 ;;; %fp)>° U^i <*2 < ... <гр^п; р = 1,2,...,п). (40')
§ 5. Приведение квадратичной формы к главным осям 271 § 5. Приведение квадратичной формы к главным осям Рассмотрим произвольную вещественную квадратичную форму п А(Х,Х) = 22 aik%iXk' i,k=l Ее матрица коэффициентов А = ||а^||у является вещественной симметрической. Поэтому (см. гл. IX, § 13) она ортогонально подобна некоторой вещественной диагональной матрице Л, т. е. существует такая вещественная ортогональная матрица О, что \ = 0~1АО (А = ||А<^||Г, 00'= Е). (41) Здесь Ai, А2,..., Ап — характеристические числа матрицы А. Поскольку для ортогональной матрицы О-1 = О', то из (41) следует, что форма А(х, х) при ортогональном преобразовании переменных x = Oi (00'= Е) (42) или, в более подробной записи, п п Xi = ^Oik^k y^OijOkj =Sik; i,fc = l,2,...,nj (42') k=l j=l переходит в форму Л(*,0 = Х>£. (43) г=1 п Теорема 7. Вещественная квадратичная форма А(х,х) = > (iik%i*Ek всег- да может быть приведена при помощи ортогонального преобразования к канонической форме (43); при этом Ai,A2,...,An — характеристические числа матрицы А= ||а^||у. Приведение квадратичной формы А(х,х) при помощи ортогонального преобразования к канонической форме (43) называется приведением к главным осям. Это название связано с тем, что уравнение центральной гиперповерхности второго порядка У^ aikXiXk = с (с = const ф 0) (44) i,k=l при ортогональном преобразовании переменных (42) принимает канонический вид У>Д = 1 (Ц = ±; е{ = ±1; г = 1,2,...,п). (45) г=1 l l Если мы будем рассматривать xi,X2,...,xn как координаты в некотором ортонормированием базисе n-мерного евклидова пространства, то £1,62, —,£п будут координатами в новом ортонормированном базисе того же пространства, причем "поворот" 18) осей осуществляется ортогональным преобразованием (42). Новые 18) Если \0\ = —1, то преобразование (45) представляет собой соединение вращения с зеркальным отображением (см. с. 252). Однако приведение к главным осям можно всегда осуществить при помощи ортогональной матрицы О первого рода (\0\ = 1). Это следует из того, что, не меняя канонической формы, мы можем сделать дополнительное преобразование 6=Й (* = 1,2,...,!»-!), £» = -&.
272 Гл. X. Квадратичные и эрмитовы формы оси координат являются осями симметрии центральной поверхности (44) и обычно называются главными осями этой поверхности. Из формулы (43) следует, что ранг г формы А(х, х) равен числу отличных от нуля характеристических чисел матрицы А, а сигнатура а равна разности между числом положительных и числом отрицательных характеристических чисел матрицы А. Отсюда, в частности, вытекает и такое предложение. Если при непрерывном изменении коэффициентов квадратичной формы остается неизменным ее ранг, то при этом изменении коэффициентов остается неизменной и ее сигнатура. При этом мы исходим из того, что непрерывное изменение коэффициентов влечет непрерывное изменение характеристических чисел. Сигнатура может измениться лишь тогда, когда какое-либо характеристическое число поменяет знак. Но тогда в какой-то промежуточный момент рассматриваемое характеристическое число обратится в нуль, что влечет изменение ранга формы. Из формулы (43) также следует, что вещественная симметрическая матрица А является положительно полуопределенной (положительно определенной) в том и только том случае, когда все характеристические числа матрицы А неотрицательны (положительны)19), т. е. когда она представима в виде A = 0\\\i8ik\\r[0-1 [A^0(>0); г = 1,...,п]. (46) Положительно полуопределенная (определенная) матрица F = ОЦ^б^О-1 (47) является корнем квадратным из положительно полуопределенной (определенной) матрицы А: ,— F = VI. (48) § 6. Пучок квадратичных форм В теории малых колебаний приходится одновременно рассматривать две квадратичные формы, из которых одна задает потенциальную, а вторая — кинетическую энергию системы. Вторая форма всегда является положительно определенной. Изучению системы двух таких форм мы посвящаем этот параграф. Две вещественные квадратичные формы п п А(х,х) = 22 aikXiXk, В(х,х) = 22 bikXiXk определяют пучок форм А(х,х) — ХЬ(х,х) (А — параметр). Если форма В(х,х) положительно определенная, то пучок А(х,х) — \В(х,х) называют регулярным. Уравнение \А - ХВ\ = О называется характеристическим уравнением пучка форм А(х,х) — ХВ(х,х). 19) Отсюда сразу следует, что в ортонормированном базисе евклидова пространства неотрицательному (положительно определенному) оператору А отвечает положительно полуопределенная (положительно определенная) матрица А. В этом можно убедиться и непосредственно, сопоставляя определения 3 и 4 из § 4 гл. X с определением 9 § 11 гл. IX.
§ 6. Пучок квадратичных форм 273 Обозначим через Ао какой-либо корень этого уравнения. Поскольку матрица А — Х0В вырожденная, то существует столбец z = (zi,Z2,...,zn) ф 0 такой, что (А — XoB)z = 0, или Az = X0Bz (z^O). Число Ао мы будем называть характеристическим числом пучка А(х, х) — — ХВ(х,х), a z — соответствующим главным столбцом или главным вектором этого пучка. Имеет место Теорема 8. Характеристическое уравнение \А-ХВ\ = 0 регулярного пучка форм А(х,х) — ХВ(х,х) всегда имеет п вещественных корней Xk (к = 1,2,..., п), которым соответствуют главные векторы zk = (z\k, Z2k, ••• ...,znk) (k = l,2,...,n): Azk=XkBzk (Jfe = l,2,...,n). (49) Эти главные векторы zk могут быть выбраны так, чтобы выполнялись соотношения20) B(z\zk) = Sik (t,fc = l,2,...,n). (50) Доказательство. Заметим, что равенства (49) могут быть записаны так: B~1Azk = Xkzk (fc = l,2,...,n). (49х) Таким образом, наша теорема утверждает, что матрица D = B~1A (51) имеет 1°) простую структуру, 2°) вещественные характеристические числа Ai, А2,..., Ап и 3°) собственные столбцы (векторы) я1, z2,..., zn, соответствующие этим характеристическим числам и удовлетворяющие соотношениям (50). Матрица D, являясь произведением двух симметрических матриц В-1 и А, не обязательно сама должна быть симметрической, поскольку D = В-1 A, a D' = = АВ~1. Однако, полагая F = у/~В21), из равенства (51) легко получаем D = F-XSF, (52) где S = F~lAF~l (52') — симметрическая матрица. Из того, что матрица D подобна симметрической матрице 5, сразу следуют утверждения 1°) и 2°). Обозначая через ик (к = 1,..., п) нормированную систему собственных векторов симметрической матрицы S: Suk = Xkuk (fc = l,...,n), (uk)'ul=5kl (fc,/ = l,...,n) (53) и полагая uk = Fzk (Jfc = l,...,n), (54) мы из равенств (52), (52'), (53), (54) найдем Dzk = Xkzk, B(zk,zl) = (zk)'Bzl = 6kh где к,1 = 1, ...,п, т. е. доказано утверждение 3°), и теорема 8 доказана полностью. 20) Иногда говорят, что равенства (50) выражают собой ортонормированность векторов z1,..., zn в Б-метрике. 21) F — положительно определенная матрица (см. с. 272). Поэтому \F\ ф 0.
274 Гл. X. Квадратичные и эрмитовы формы Заметим, что из (50) следует, что столбцы z1,*2, ...,zn линейно независимы. В самом деле, пусть $Sfts*=0. (55) к=1 Тогда при любом г (1 ^ г ^ п) согласно (50) п п 0 = B(z\ J2ckzk^j =J2ckB(zuzk) = а. к=1 к=1 Таким образом, в (55) все С{ (г = 1,2, ...,п) равны нулю, и никакой линейной зависимости между столбцами z1,^2, ...,zn не существует. Квадратную матрицу, составленную из главных столбцов z1,z2,...,zn, удовлетворяющих соотношениям (50), Z = (z\z2,...,zn) = НздН? будем называть главной матрицей для пучка форм А(х,х) — \В(х,х). Главная матрица Z невырожденная (\Z\ /0), поскольку ее столбцы линейно независимы. Равенства (50) могут быть записаны так: zi'Bzk=Sik (t,fc = l,2,...,n). (56) Кроме того, помножив обе части равенств (49) слева на строчную матрицу zl , получим zl Azk = \kziBzk=\k8ik (t,fc = l,2,...,n). (57) Вводя главную матрицу Z = (z1,z2,...,zn), мы можем представить равенства (56) и (57) в виде Z'AZ = \\\k6ik\\i, Z'BZ = Е. (58) Формулы (58) показывают, что невырожденное преобразование х = Zi (59) одновременно приводит квадратичные формы А(х,х) и В(х,х) к суммам квадратов Х>& Ее (во) к=1 к=1 Это свойство преобразования (59) характеризует главную матрицу Z. Действительно, пусть преобразование (59) одновременно приводит формы А(х, х) и В(х,х) к каноническим видам (60). Тогда имеют место равенства (58), а следовательно, (56) и (57) для столбцов матрицы Z. Из (58) следует невырожденность матрицы Z (\Z\ /0). Равенства же (57) перепишем так: zi'(Azk - XkBzk) =0 (г = 1,2,..., п); (61) здесь к имеет произвольное фиксированное значение (1 ^ А: ^ п). Систему равенств (61) можно объединить в одно равенство Z\Azk - \kBzk) = 0, откуда, поскольку Z' — невырожденная матрица, Azk - XkBzk = 0,
§ 6. Пучок квадратичных форм 275 т. е. при любом к получаем (49). Следовательно, Z — главная матрица. Нами доказана Теорема 9. Если Z = Н^Ц? — главная матрица регулярного пучка форм А(х,х) — ХВ(х,х), то преобразование x = Zi (62) приводит одновременно формы А(х,х) и В(х,х) соответственно к суммам квадратов ЕЛ*й> £& (б3) k=i k=i где Ai,A2,...,An — характеристические числа пучка А(х,х) — ХВ(х,х), соответствующие столбцам z1,z2,...,zn матрицы Z. Обратно: если некоторое преобразование (62) одновременно переводит формы А(х,х) и В(х,х) к виду (63), то Z = ||zifc||? — главная матрица регулярного пучка форм А(х,х) — ХВ(х,х). Иногда характерное свойство преобразования (62), сформулированное в теореме 9, используется для построения главной матрицы и доказательства теоремы 822). Для этого сначала совершают преобразование переменных х = Ту, п приводящее форму В(х, х) к единичной сумме квадратов Е Ук (что всегда воз- k=i можно, поскольку В(х,х) — положительно определенная форма). При этом форма А(х, х) переходит в некоторую форму А\ (у, у). Теперь форму А\ (у, у) приводят п к виду Е ^к^1 ПРИ помощи ортогонального преобразования у = 0£ (приведение к к=1 » » главным осям). При этом, очевидно23), \Jу\ = \J £|. Таким образом, преобразо- к=1 к=1 вание х = Z£, где Z = ТО, приводит данные две формы к виду (63). После этого показывают (как это было сделано на с. 274), что столбцы zx,z2, ...,zn матрицы Z удовлетворяют соотношениям (49) и (50). В частном случае, когда В(х,х) — единичная форма, т. е. В(х,х) = Еж& и' к=1 следовательно, В = Е, характеристическое уравнение пучка А(х,х) — ХВ(х,х) совпадает с характеристическим уравнением матрицы А, а главные векторы пучка становятся собственными векторами матрицы А. В этом случае соотношения (50) записываются так: z% zh = 8гк (i,k = 1,2, ...,n), и выражают орто- нормированность столбцов zl,z2,...,zn. Теоремы 8 и 9 допускают наглядную геометрическую интерпретацию. Введем евклидово пространство R с базисом ei,e2, ...,еп и основной метрической формой В{х,х). Рассмотрим в R центральную гиперповерхность второго порядка, уравнение которой п А(х,х) = Е агкХгХк = С. (64) г,к=1 После преобразования координат х = Z£, где Z = ||2**11? — главная матрица пучка А(х,х) — ХВ(х,х), новыми базисными векторами являются векто- 22) См. [7, с. 56, 57]. 23) Ортогональные преобразования не меняют суммы квадратов переменных, поскольку (Ох)'Ох = х'х.
276 Гл. X. Квадратичные и эрмитовы формы ры z1, z2,..., zn, координаты которых в старом базисе составляют столбцы матрицы Z, т. е. главные векторы пучка. Эти векторы образуют ортонормированный базис, в котором уравнение гиперповерхности (64) имеет вид £Л^2 = с- к=1 (65) Следовательно, главные векторы пучка zx,z2, ...,zn совпадают по направлению с главными осями гиперповерхности (64), а характеристические числа пучка Ai,A2, ...,ЛП определяют величины полуосей: А^ = ±cla\ (к = 1,2,...,п). Таким образом, задача определения характеристических чисел и главных векторов регулярного пучка форм А(х,х) — \В(х,х) эквивалентна задаче приведения к главным осям уравнения (64) центральной гиперповерхности второго порядка в том случае, когда уравнение гиперповерхности задано в обобщенной косоугольной системе координат24), в которой "единичная сфера" имеет уравнение В(х,х) = 1. Пример. Дано уравнение поверхности второго порядка 2х2 - 2у2 - Sz2 - 10yz + 2xz-4 = 0 (66) в обобщенной косоугольной системе координат, в которой уравнение единичной сферы 2х2 + Sy2 + 2z2 + 2xz = l. (67) Требуется привести уравнение (66) к главным осям. В данном случае А = 2 0 1 0 -2 -5 1 -5 -3 ' В=\ 2 О 0 3 1 О Характеристическое уравнение пучка \А — \В\ = 0 имеет вид 2-2А О 1-А О -2-ЗА -5 1-А -5 -3-2А 0. (68) Это уравнение имеет три корня: Ai = 1, А2 = 1, A3 = —4. Координаты главного вектора, соответствующего характеристическому числу 1, обозначим через u,v,w. Величины u,v,w определяются из системы однородных уравнений, коэффициенты которых совпадают с элементами определителя (68) при А = 1: 0 • и — 5v — bw = 0, 0 • и — 5v — bw = 0. Фактически мы здесь имеем лишь одно соотношение v + w = 0. Характеристическому числу А = 1 должны отвечать два ортонормированных главных вектора. Координаты первого можем выбрать произвольно, лишь бы выполнялось условие v -h w = 0. Выберем их так: и = 0, v,w, где w =—v. 24) То есть косоугольная система координат с различными масштабами длин вдоль осей.
§ 7. Экстремальные свойства спектра регулярного пучка форм 277 Координаты второго главного вектора возьмем в виде и'\v'\w'', где w' = —г/, и запишем условие ортогональности [B(zx,z2) = 0]: 2ии' + Svv' + 2ww' + uw' + w'w; = 0. Отсюда найдем и' = 5v'. Таким образом, координаты второго главного вектора и' = 5г>', v',w' = —v'. Аналогично, полагая в характеристическом определителе Л = —4, найдем для соответствующего главного вектора u",v" = -u", w" = -2u". Величины v, v' и и" определяются из условия: координаты главного вектора должны удовлетворять уравнению единичной сферы [В(х,х) = 1], т. е. уравнению (67). Отсюда находим 1/1 //1 V = —= V = =, U = —-. л/5 Зл/5 3 Поэтому главная матрица имеет вид 0 л/5/3 -1/3 Z = || 1/л/5 1/3V5 1/3 -1/л/5 -1/3\/5 2/3 и соответствующее преобразование координат (х = Z£) приводит уравнения (66) и (67) к каноническому виду Первое уравнение может быть еще записано так: Й , Й _ Й _ I 4 4 1 Это — уравнение однополостного гиперболоида вращения с вещественной полуосью, равной 2, и мнимой, равной 1. Координаты орта оси вращения определяются третьим столбцом матрицы Z, т. е. равны —1/3, 1/3, 2/3. Координаты ортов других двух ортогональных осей задаются первым и вторым столбцами. § 7. Экстремальные свойства характеристических чисел регулярного пучка форм25) 1. Пусть даны две квадратичные формы п п А(Х,Х) = ^ aikXiXk, B(X,X) = ^ bikXiXk, i,k=l i,k=l причем форма В(х,х) положительно определенная. Характеристические числа регулярного пучка форм А(х,х) — ХВ(х,х) занумеруем так, чтобы они шли в неубывающем порядке: Ai ^ А2 < ... < А„. (69) 25) При изложении этого параграфа мы следуем книге [7, § 10].
278 Гл. X. Квадратичные и эрмитовы формы Соответствующие этим характеристическим числам главные векторы 26) по-прежнему будем обозначать через z1,^2, ...,zn: z = (zik,Z2k,~-,znk); к = 1,2,..., п. Определим наименьшее значение (минимум) отношения форм А(х,х)/В(х,х), рассматривая все возможные значения переменных, не равные одновременно нулю (х ф 0). Для этого удобно перейти к новым переменным £i,£2>—>£п ПРИ помощи преобразования п x = Z£ \Xi = ^zik£>k', i = l,2,...,nj, k=i где Z = \\zik\\i — главная матрица пучка A(x,x) — XB(x,x). В новых переменных отношение форм представится в виде [см. (63)] А(х,х) \i£ + A2$f + - + Хп& /7Пч В(х,х) £? + €? + -+& ' К } Возьмем на числовой оси п точек Ai, Аг,..., Ап. Припишем этим точкам соответственно неотрицательные массы rai = £2, Ш2 = £2> •••> тп — Й- Тогда согласно формуле (70) отношение А(х,х)/В(х,х) будет числовой координатой центра этих масс. Поэтому \ ^ А(х,х) . . Отбрасывая временно вторую часть неравенства, выясним, когда в первой части имеет место знак равенства. Для этого выделим в (69) группы равных характеристических чисел: Ai = ... = APl < APl_|_i = ... = АР1 _|_Р2 < ... (71) Центр масс может совпадать с крайней точкой Ai лишь в том случае, когда все массы вне этой точки равны нулю, т. е. когда £pi+i — ••• — £п = о. В этом случае соответствующее х будет линейной комбинацией главных столбцов zx,z2, ...,zPl 27). Поскольку все эти столбцы отвечают характеристическим числам, равным Ai, то и х будет главным столбцом (вектором) для А = Ai. Нами доказана Теорема 10. Наименьшее характеристическое число регулярного пучка А(х,х) — ХВ(х,х) является минимумом отношения форм А(х,х) и В(х,х) \1=т[п^Л (72) В(х,х)' у ) причем этот минимум достигается только на векторах, являющихся главными для характеристического числа Ai. 26) Здесь мы употребляем термин "главный вектор" в смысле главного столбца пучка (см. с. 273). Вообще в этом параграфе, имея в виду геометрическую интерпретацию (см. с. 275), мы часто столбец будем называть "вектором". п 2Т) Из х = Z£ следует х = /]%kZk- k=i
§ 7. Экстремальные свойства спектра регулярного пучка форм 279 Ap = min^( (73) 2. Для того чтобы дать аналогичную "минимальную" характеристику для следующего характеристического числа Л2, ограничимся рассмотрением всех векторов ж, ортогональных к z1, т. е. удовлетворяющих уравнению28) B(z\x) = 0. Для этих векторов А(х,х) _ А2$2 + ... + Ап£п В(х,х)~ $ + ...+& и, следовательно, minUfy = A2 №>*) = °]- При этом знак равенства достигается только на тех векторах, ортогональных к z1, которые являются главными для характеристического числа Л2. Переходя к дальнейшим характеристическим числам, мы в конце концов получим следующую теорему. Теорема 11. При любом р (1 ^ р ^ п) р-е по величине характеристическое число Хр в ряду (69) является минимумом отношения форм А(х,х) В(х,х) при условии, что варьируемый вектор х ортогонален к первым р — 1 ортонорми- рованным главным векторам z1,z2,...,,zp~1: B(z\x) =0,...,B(zp-1,x) = 0. (74) При этом минимум достигается только на тех векторах, которые удовлетворяют условию (74) и являются одновременно главными векторами для характеристического числа Хр. 3. Характеристика числа Лр, данная в теореме 11, имеет то неудобство, что она связана с предыдущими главными векторами z1,^2, ...,zp_1 и, следовательно, может быть использована только тогда, когда эти векторы известны. Кроме того, в выборе этих векторов имеется известный произвол. Для того чтобы дать характеристику числа Хр (р = 1,2, ...,п), свободную от указанных недостатков, мы введем понятие о связях, наложенных на переменные #i,#2,...,#n. Пусть даны линейные формы от переменных xi,X2,...,xn Lk(x) = hkXi + hkX2 + .- + InkXn (к = 1,2,..., h). (74') Мы будем говорить, что на переменные xi,X2,...,xn или (что то же) на вектор х наложены h связей Li,L2, ...,L/i, если рассматриваются лишь значения переменных, удовлетворяющие системе уравнений Lk(x)=0 (fc = l,2,...,ft). (74") 28) Здесь и дальше под ортогональностью двух векторов (столбцов) #, у мы будем понимать ортогональность в В-метрике, т. е. равенство В(х,у) = 0. Это находится в полном соответствии с геометрической интерпретацией, данной в предыдущем параграфе. Мы рассматриваем величины #1,^2, ...,хп как координаты вектора х в некотором базисе евклидова пространства, в котором квадрат длины (норма) вектора задается положи- п тельно определенной формой В(х, х) = \. bikXiXk- В этой метрике векторы z1, z2,..., zn i,k=l " образуют ортонормированный базис. Поэтому, если вектор х = /_^£лг* ортогонален к одному из zh, то соответствующее £& = 0. fc=i
280 Гл. X. Квадратичные и эрмитовы формы Сохраняя обозначения (74') для произвольных линейных форм, мы введем специализированные обозначения для "скалярных произведений" вектора х на главные векторы zl,z2, ...,zn: Lk(x)=B(zk,x) (& = l,2,...,n)29). (75) Кроме того, в случае, когда на варьируемый вектор наложены связи (74"), будем обозначать min(A(x,x)/B(x,x)) так: В этих обозначениях равенство (73) запишется так: ЛР = ^(д'^ьЬ2,...,Ьр-1) (р= 1,2,...,п). (76) Рассмотрим связи Li(s)=0, ..., Lp.1(x)=0 (77) и _ _ Lp+i(a?)=0, ..., Ln(aO = 0. (78) Поскольку число связей (77) и (78) меньше п, то существует вектор х^ ф 0, удовлетворяющий одновременно всем этим связям. Так как связи (78) выражают ортогональность вектора х к главным векторам 2Р+1,...,2П, то соответствующие вектору х^ координаты £p+i = ... = £п = 0. Поэтому согласно (70) А(х^\х^) Л1Й + ... + Лр^ В(Ж(1),я;(1)) в+ ...+# Р* Но тогда ^-;1а,1,2,..,1,р_^ ^ в(я.(1)|Я.(1)) ^ V Это неравенство в соединении с (76) показывает, что при варьировании связей Li,L2,...,Lp_i величина /х остается ^ Хр и делается равной Ар, если взять специализированные связи Li,L2, ...,Lp_i. Нами доказана Теорема 12. Е'сли лш рассмотрим минимум отношения двух форм А(х,х)/В(х,х) при произвольныхр — 1 связях Li, L2, ...,Lp_i г/ будем варьировать связи, то максимум этих минимумов будет равен Хр: Хр = max/x(—;Li,L2,...,Lp_iJ (p = 1,...,п). (79) Теорема 12 дает "максимально-минимальную" характеристику числам Ai, А2,...,АП в отличие от "минимальной" характеристики, о которой идет речь в теореме 11. 4. Заметим, что при замене формы А(х,х) в пучке А(х,х) — ХВ(х,х) на форму —А(х, х) все характеристические числа пучка меняют знак, а соответствующие главные векторы остаются неизменными. Таким образом, характеристическими числами пучка — А(х,х) — ХВ(х,х) являются числа —An ^ — An_i ^ ... ... <-Ai. 29) Lk(x) = zk Вх = hkXi + hkX2 + ••• + InkXn, где hk,hk, •••, Ink — элементы строчной матрицы zk В (k = 1,2, ...,n).
§ 7. Экстремальные свойства спектра регулярного пучка форм 281 Кроме того, обозначая ^,L2,..,^=m-iS) (8o) в случае, когда на варьируемый вектор наложены связи Li,L2,...,Lh, мы сможем записать V>{- -j2*',L1,L2,...,LhJ = -v\^—;L1,L2,...,LhJ и тахд(- — ;Li,L2,...,Lh) = -mini/(—;Li,L2, ^^Lhj. Поэтому, применяя к отношению —А(х,х)/В(х,х) теоремы 10-12, мы вместо формул (72), (76), (79) получим формулы Л А{х,х) Хп = тах —) '-, В(х,х) (А [ (р = 2> "•'")• An-p+i = mini/f — ;Li,L2,...,Lp-i) Эти формулы устанавливают соответственно "максимальные" и "минимально- максимальные" свойства чисел Ai, А2,..., Ап, которые мы сформулируем в виде следующей теоремы. Теорема 13. Пусть характеристическим числам Ai ^ А2 ^ ... ^ Ап регулярного пучка форм А(х,х) — ХВ(х,х) соответствуют линейно независимые главные векторы пучка z1 ,z2 ,...,zn. Тогда: 1) наибольшее характеристическое число \п является максимумом отношения форм, A«=maxl5f)' (81) причем этот максимум достигается только на главных векторах пучка, соответствующих характеристическому числу Ап; 2) р-е (с конца) характеристическое число An_p+i (2 ^ р ^ п) является максимумом того же отношения форм, An_p+1 =max||^) (82) при условии, что на варьируемый вектор х наложены связи: B(zn,x) = 0, B(zn-\x) = 0, ..., B(zn-p+2,x) = 0, (83) га. е. л _ _ An-p+i = W ~B]Ln,Ln-i, ...,Ln_p_|_2J; (84) этот максимум достигается только на главных векторах пучка, соответствующих характеристическому числу An_p+i и удовлетворяющих связям (83); 3) если в максимуме отношения форм А(х,х)/В(х,х) при связях Li(x) = 0, ..., Lp-i(x) = 0
282 Гл. X. Квадратичные и эрмитовы формы и вообще (2 ^ р ^ п) варьировать связи, то наименьшее значение (минимум) этого максимума равно Ап_р_|-1, An-p+i = minz/^—;LbL2,...,Lp-iJ. (85) 5. Пусть даны h независимых связей30) L4(x)=0, L°2(x)=0, ..., L°h{x)=0. (86) Тогда из них можно выразить h из переменных а?1,а?2,...,#п через остальные переменные, которые мы обозначим буквами vi,V2,...,vn-h- Поэтому при наложении связей (86) регулярный пучок форм А(х,х) — ХВ(х,х) переходит в пучок A°(v,v) — XB°(v,v), причем B°(v,v) — снова положительно определенная форма (только от п — h переменных). Полученный таким образом регулярный пучок имеет п — h вещественных характеристических чисел А? < А° < ... < A°_ft. (87) При наложении связей (86) можно по-разному выразить все переменные через п — h независимых переменных vi,V2,...,vn-h. Однако характеристические числа (87) не зависят от этого произвола и имеют вполне определенные значения. Это следует хотя бы из максимально-минимальных свойств характеристических чисел: А? = ^$$ = К£^ ••••LS) <88) — ;LbL2,...,Lp_iJ =max^^-;L?,...,L^;Lb...,Lp_iJ, (89) при этом в формуле (89) варьируются только связи Li,L,2,...,Lp-i. Имеет место Теорема 14. Если Ai ^ Лг ^ ... ^ Ап — характеристические числа регулярного пучка форм А(х,х) — ХВ(х,х), а А? ^ А° ^ ... ^ А^_л — характеристические числа того же пучка при наложении h независимых связей, то Ар^АЦ^Ар+л (р=1,2,...,п-Л). (90) Доказательство. Неравенства Хр ^ X® (р = 1,2, ...,п — К) сразу следуют из формул (79) и (89). Действительно, при добавлении новых связей величина минимума /jl(A/B;Li, ...,Lp_i) увеличивается или остается прежней. Поэтому fil — ;Li,...,Lp_iJ ^ fil —; Ьи ..., Lh; Li,..., Lp-iJ. Отсюда Ap = max/z(-;Lb...,Lp_ij ^ X°p = max/z(-;L?, ...,Z,£;Lb ...,Lp_iJ. Вторые части неравенств (90) имеют место в силу соотношений Х°р = max/z(-;L?,...,L£;Lb...,Lp_iJ ^ ^ max/if —;Li, ...,Lp_i;Lp, ...,Lp+h-i) = Xp+h- 30) Связи (86) являются независимыми, когда независимы линейные формы L\{x), L%(x), ..., L°h(x), стоящие в левых частях уравнений связей.
§ 7. Экстремальные свойства спектра регулярного пучка форм 283 Здесь в правой части варьируются не только связи L±, ...,Lp_i, но и связи Lp,... ...jLp+h-i; в левой же части последние связи заменены фиксированными связями L?, ...,L°. Теорема доказана. 6. Пусть даны два регулярных пучка форм А(х,х) - \В(х,х), А(х,х) - \В(х,ж), (91) и пусть при любом х ф О А(х,х) А(х,х) В(х,х) ^ В(х,х)' Тогда, очевидно, max/x(—;Li,L2,...,Lp_iJ ^ max/z(—;LbL2, ...,Lp_iJ (p = l,2,...,n). Поэтому, обозначая через Ai ^ А2 ^ ... ^ Ап и Ai ^ А2 ^ ... ^ Ап соответственно характеристические числа пучков (91), будем иметь Ар ^ Ар (р= 1,2, ...,п). Таким образом, доказана Теорема 15. Если даны два регулярных пучка форм А(х,х) — \В(х,х) и А(х,х) — \В(х,х) с характеристическими числами соответственно Ai ^ А2 ^ ... ... ^ Ап и Ai ^ А2 ^ ... ^ Ап, то из тождественного соотношения Аух,х) ^ А{х,х) /д^\ В(х,х) ^ В(х,х) следует _ Хр^Хр (р=1,2,...,п). (93) Рассмотрим частный случай, когда в неравенстве (92) В(х,х) = В(х,х). В этом случае разность А(х, х) — А(х, х) является неотрицательной квадратичной формой и поэтому может быть представлена в виде суммы независимых положительных квадратов: г А(х, х) = А(х, х) + ^2 №(#)]2- г=1 Тогда при наложении г независимых связей Хг(х) = О, Х2(х) = О, ..., Хг(х) = О формы А(х, х) и А(х, х) совпадают, и пучки А(х, х) — \В(х, х) и А(х, х) — \В(х, х) имеют одни и те же характеристические числа Ai ^ А2 ^ ... ^ Ап_г. Применяя теорему 14 к каждому из пучков А(х,х) — ХВ(х,х) и А(х,х) — —\В(х,х), будем иметь Ар ^ Aj < Ap+r (p= l,2,...,n-r). Присоединяя сюда неравенство (93), приходим к следующей теореме.
284 Гл. X. Квадратичные и эрмитовы формы Теорема 16. Если Ai ^ Л2 ^ ... ^ Лп и Ai ^ Х2 ^ ... ^ Ап — характеристические числа двух регулярных пучков форм А(х,х) — ХВ(х,х) и А(х,х) — ХВ(х,х), где г А(х,х) = А(х,х) + J2 №(ж)]2' *=i a Xi(x) (г = 1,2, ...,г) — независимые линейные формы, то имеют место неравенства31) Хр ^ Ар ^ Ар+Г (р = 1,2,...,п). (94) Совершенно аналогично доказывается Теорема 17. Е'слг/ Ai ^ А2 ^ ... ^ Ап и Ai ^ A2 ^ ... ^ Ап — характеристические числа регулярных пучков форм А(х,х) — ХВ(х,х) и А(х,х) — ХВ(х,х), где форма В(х,х) получается из В(х,х) прибавлением г положительных квадратов, то имеют место неравенства32) ХР-Г^^Р^ХР (р= 1,2, ...,п). (95) Замечание. В теоремах 16 и 17 можно утверждать, что при некотором р имеем Хр < Хр (соответственно Хр < Хр), если, конечно, г ф О33). § 8. Малые колебания системы с п степенями свободы Результаты предыдущих двух параграфов имеют важные приложения в теории малых колебаний механической системы с п степенями свободы. Рассмотрим свободные колебания консервативной механической системы с п степенями свободы вблизи ее устойчивого положения равновесия. Отклонение системы от положения равновесия будем задавать при помощи независимых обобщенных координат qi,q2, —,Яп- Само положение равновесия при этом соответствует нулевым значениям этих координат: q\ = О, #2=0, ..., qn = 0. Тогда кинетическая энергия системы представится в виде квадратичной формы относительно обобщенных скоростей qi,q2, ••-,(Zn34)- n т= ^2 bik(qi,q2,...,qn)mk' i,k=l Разлагая коэффициенты &ifc(tfbtf2,---^n) в ряд по степеням qi,q2,—,qn- bik(qi,q2,-",qn) = hk + ••• (г,к = l,2,...,n), и сохраняя (ввиду малости отклонений qi,q2, •••,^n) только постоянные члены 6^, будем иметь Т = ^2 Ъы№к (bik = bun г, к = 1,2,..., п). i,k=l Кинетическая энергия всегда положительна и обращается в нуль только при п нулевых скоростях qx = q2 = ... = qn = 0. Поэтому \J bikqiqk — положительно i,k=l 31) Вторые части этих неравенств имеют место только при р ^ п — г. 32) Первые части неравенств имеют место при р > г. 33) См. [7, с. 71-73]. 34) Точкой мы обозначаем производную по времени.
§ 8. Малые колебания системы с п степенями свободы 285 определенная форма. Потенциальная энергия П(#1, #2> •••>Чп) системы является функцией от координат. Не нарушая общности, можем принять Щ = П(0,0, ...,0) = 0. Тогда, разлагая потенциальную энергию в ряд по степеням qi,q2, ••-,^n) получим п п п = ^2aiqi + ^2 °<*ия*+ - г=1 i,k=l Поскольку в положении равновесия потенциальная энергия всегда имеет стационарное значение, то /ягт\ ^=(Уо = ° « = 1.2.-.»)- Сохраняя только члены второго порядка относительно qi, q2, •••> (7п, мы будем иметь п П= 22 aikqiqk (a>ik = аы; г,к = 1,2, ...,п). i,k=l Таким образом, потенциальная энергия П и кинетическая энергия Т определяются двумя квадратичными формами: п п П= ^2 aikQiQk, T= ^2 ЬгкЫк, (96) i,fc=l i,k=l причем вторая форма положительно определенная. Запишем теперь дифференциальные уравнения движения в форме уравнений Лагранжа второго рода35): ЛдТ_дТ__дТ1 TtWi Wi~ Wi (!"1'2-"n)- (97) Подставляя сюда вместо Т и П их выражения из (96), получаем п п ^2bikqk + ^2aikqk = 0 (г = 1,2,...,п). (98) к=1 к=1 Вводя в рассмотрение вещественные симметрические матрицы A = |Mli, B = |fo*lli и столбцевую матрицу q = (qi,q2, ---^п), мы можем записать систему уравнений (98) в следующей матричной форме: Bq + Aq = 0. (98') Будем искать решения системы (98) в виде гармонических колебаний <?1 = vi sin (cot + a), q2 = v2 sin (ut + а), ..., qn = vn sin (ut + a); в матричной записи q = v sin (ut + a). (99) Здесь v = (vi,V2,..., vn) — постоянный амплитудный столбец (вектор), со — частота и a — начальная фаза колебаний. 35) См., например, Суслов Г. К. Теоретическая механика. — М.: Гостехиздат, 1944. — § 191 или Гантмахер Ф. Р. Лекции по аналитической механике. — М.: Физматгиз, I960. — § 6.
286 Гл. X. Квадратичные и эрмитовы формы Подставляя выражение (99) для q в (98'), после сокращения на sin (ut + а) получим Av = XBv (А = о;2). Но это уравнение совпадает с уравнением (49). Следовательно, искомый амплитудный вектор является главным вектором, а квадрат частоты А = р2 — соответствующим характеристическим числом регулярного пучка форм А(х, х) — —ХВ(х1х). Мы наложим на потенциальную энергию дополнительное ограничение, потребовав, чтобы функция П(<71,<72> —,Qn) B положении равновесия имела строгий минимум36). Тогда на основании теоремы Лежен-Дирихле37) положение равновесия системы будет устойчивым. С другой стороны, сделанное нами допущение означает, что квадратичная форма П = A(q,q) также является положительно определенной38). Согласно теореме 8 регулярный пучок форм А(х,х) — ХВ(х,х) имеет п вещественных характеристических чисел Ai,Аг,...,Ап и п соответствующих этим числам главных векторов v1,v2,...,vn [vk = (vik,V2k,...,vnk); к = 1,2,...,п], удовлетворяющих условиям B(v\vk) = Y^ b»vv»iVvk = Sik (г, к = 1,2,...,n). (100) Из положительной определенности формы А(х,х) следует, что все характеристические числа пучка А(х,х) — ХВ(х,х) положительны39): Хк >0 (& = 1,2,...,п). Но тогда существует п гармонических колебаний40) vk8m(ukt + ak) (и\ = Хк, к = 1,2, ...,п), (101) амплитудные векторы которых vk = (vik,V2k, —>vnk) (к = 1,2, ...,п) удовлетворяют условиям "ортонормированности" (100). В силу линейности уравнения (98') произвольное колебание может быть получено наложением гармонических колебаний (101): п я = ^Ак sin (uht + ak)vk, (102) k=i где Ак,ак (к = l,2,...,n) — произвольные постоянные. Действительно, при любых значениях этих постоянных выражение (102) является решением уравнения (98'). С другой стороны, за счет произвольных постоянных можно удовлетворить любым начальным условиям: q\t=0 = 9o, q\t=0 = Qo- 36) То есть чтобы значение По в положении равновесия было меньше всех других значений функции в некоторой окрестности положения равновесия. 37) См.: Суслов Г. К. Теоретическая механика, § 210; ГантмахерФ. Р. Лекции по аналитической механике, § 33. 38) Это, разумеется, дополнительное предположение. — Примеч. ред. 39) Это следует хотя бы из представления (63). 40) Здесь начальные фазы ак (к = 1,2, ...,п) — произвольные постоянные.
§ 8. Малые колебания системы с п степенями свободы 287 В самом деле, из (102) находим п п q0 = ^2 Aksinakvk, q0 = ^2cokAkcosakvk. (103) k=l k=l Поскольку главные столбцы v1,^2, ...,г>п всегда линейно независимы, то из равенств (103) однозначно определяются величины Aksinak и ukAkcosak (к = = 1,2,...,п) и, следовательно, произвольные постоянные Ак и ак (к = 1,2, ...,п). Решение (102) нашей системы дифференциальных уравнений (98) может быть более подробно записано так: п qi = ^2Aksm(ukt + ak)vik. (104) k=i Заметим, что к тем же формулам (102), (104) можно прийти, исходя из теоремы 9. Действительно, рассмотрим невырожденное преобразование переменных с матрицей V = Ц^глЦ?» приводящее одновременно обе формы А(х,х) и В(х,х) к каноническому виду (63). Полагая п qi = ^2vik0k (г = 1,2,...,п), (105) к=1 или, в сокращенной записи, q = V0 [0 = (0i,02,-А)], (Юб) и замечая, что q = V0, будем иметь п п U = A(q,q)=J2^el T = B(q,q) = Y,H- (Ю7) г=1 к=1 Координаты 01,02, ---А, в которых потенциальная и кинетическая энергии представляются в виде (107), называются нормальными координатами. Воспользуемся уравнениями Лагранжа второго рода (98), подставив в них вместо П и Т их выражения (107). Получим 0k + \k0k = 0 (* = l,2,...,n). (108) Поскольку форма A(q,q) положительно определенная, то все числа Ai, A2,..., Ап положительны и могут быть представлены в виде \к=ш\ (uk>0; fc = l,2,...,n). (109) Из (107) и (108) находим вк = Ак sin (ukt + ak) (* = l,2,...,n). (110) Подставляя эти выражения для 0к в равенства (105), получим снова формулы (104) и, следовательно, (102). Величины vik (i,k = 1,2, ...,п) при обоих выводах будут одни и те же, поскольку, согласно теореме 9, матрица V = \\vik\\i в (106) есть главная матрица регулярного пучка форм А(х,х) — ХВ(х,х). Отметим еще механическую интерпретацию теорем 14 и 15. Занумеруем частоты a;i,a;2,...,t<;n данной механической системы в порядке неубывания: 0 < иг ^ со2 ^ ... ^ ип.
288 Гл. X. Квадратичные и эрмитовы формы Этим определится и расположение соответствующих характеристических чисел Afc = и\ (к = 1,2,..., п) пучка А(х, х) — ХВ(х, х): Ai ^ А2 ^ ... ^ Ап. Наложим на данную систему h независимых конечных стационарных связей41). Поскольку отклонения qi,q2, —,Яп считаются малыми величинами, то эти связи можно считать линейными относительно qi,q2,—>Qn- Lifa) = 0, L2(q)=0, ..., Lh(q) = 0. После наложения связей наша система будет иметь п — h степеней свободы. Частоты этой системы 07° < U% ^ ... < LJ°n_h связаны с характеристическими числами А° ^ А° ^ ... ^ ^°_л пУчка А(х,х) — — ХВ(х,х) при наложении связей Li,L2,...,Lh соотношениями \® = (ш®)2 (j = = 1,2, ...,п — h). Поэтому из теоремы 14 непосредственно следует Uj ^u$ ^Wj+h (j = l,2,...,n-h). Таким образом, при наложении h связей частоты системы могут только увеличиться, однако при этом величина новой j-й частоты и>® не может превзойти величины прежней (j + Ь)-й частоты Uj+h- Точно так же на основании теоремы 15 можно утверждать, что при увеличении жесткости системы, т. е. при увеличении формы A(q, q) для потенциальной энергии [без изменения формы B(q, qj], частоты могут только увеличиться, а при увеличении инерции системы, т. е. при увеличении формы B(q,q) для кинетической энергии [без изменения формы A(q,q)], частоты могут только уменьшиться. Теоремы 16 и 17 вносят дополнительное уточнение в это положение. §9. Эрмитовы формы42) Все результаты § 1-7 этой главы, установленные для вещественных квадратичных форм, могут быть перенесены на эрмитовы формы. Напомним43), что эрмитовой формой называется выражение п Н(х, х) = ^2 hikXiXk (hik = hki; k = l,2,..., n). (Ill) i,k=l Эрмитовой форме (111) соответствует следующая билинейная эрмитова форма: Н(х,у)= ^2 hikXiyk] (112) при этом Н{у,х)=Щ^у) (113) 41) Конечная стационарная связь выражается уравнением /(#1,ф,---,#п) =0, где /(<7ъ#2, ...,tfn) — некоторая функция от обобщенных координат. 42) В предыдущих параграфах все числа и переменные были вещественными. В этом же параграфе все числа и переменные принимают комплексные значения. 43) См. гл. IX, § 2.
§9. Эрмитовы формы 289 и, в частности, Н(х,х) =Н(х,х), (113;) т. е. форма Н(х,х) принимает только вещественные значения. Матрица коэффициентов эрмитовой формы Я = \\hik\\i является эрмитовой, т. е. Я* =Я44). Пользуясь матрицей Я = Ц^глЦ?» можно представить Н(х,у), и, в частности, Н(х,х) в виде произведения трех матриц — строчной, квадратной и столбцевой: Н(х, у) = х'Ну, Н(х, х) = х'Нх45). (114) Если т V x = ^Ciu\ y = J2dkVk, (115) г=1 к=1 где иг, vk — столбцевые матрицы, с^, dk — комплексные числа (г = 1,2, ...,т; fc = l,2,...,p), то т р Н{х,у) = Y^Y,CidkH{u\vk). (116) г=1 к=1 Подвергнем переменные xi,X2,...,xn линейному преобразованию п xi = Yltik^k (« = l,2,...,n), (117) к=1 или, в матричной записи, х = ТЦ (Т=|М1Г)- (117') После преобразования эрмитова форма Н(х,х) примет вид п i,fc=l где матрица новых коэффициентов Я = \\hik\\i связана с матрицей старых коэффициентов Я = \\hik\\i формулой _ Я = Т'НТ. (118) В этом непосредственно убеждаемся после замены во второй формуле (114) х на Т£. _ Если положить Т = W, то формулу (118) можно переписать еще так: Я = W*HW. (119) Из формулы (118) следует, что ранги матриц Я и Я равны, если преобразование (117) невырожденное (\Т\ ф 0). Ранг матрицы Я называется рангом формы Н(х,х). Определитель \Н\ называется дискриминантом эрмитовой формы Н(х,х). Из (118) следует формула преобразования дискриминанта при переходе к новым переменным ~ _ \Н\ = \Н\\Т\\Т\. 44) Звездочкой * мы отмечаем переход к сопряженной матрице (см. гл. I, § 3). 45) Здесь х = ж(я?1,Ж2,...,жп), х = (ж1,ж2,...,жп), У = (yi,i/2,...,|/n), у = (5i,52»-»5n); значок ' означает транспонирование. 10 Ф.Р. Гантмахер
290 Гл. X. Квадратичные и эрмитовы формы Эрмитова форма называется сингулярной, если ее дискриминант равен нулю. Очевидно, сингулярная форма остается сингулярной при любом преобразовании переменных (117). Эрмитову форму Н(х,х) можно бесчисленным множеством способов представить в виде г Н(х,х)=^агХгХг, (120) г=1 где ai ф 0 (г = 1,2, ...,г) — вещественные числа, а п Xi = ^2 aikXk (i = 1, 2, ..., г) к=1 — независимые комплексные линейные формы от переменных #i,#2> ••-,^n46)- Правую часть в (120) будем называть суммой независимых квадратов47), а каждое слагаемое в этой сумме — положительным или отрицательным квадратом в зависимости от того, больше или меньше нуля соответствующее а^. Как и для квадратичных форм, число г в (120) равно рангу формы Н(х,х). Теорема 18 (закон инерции эрмитовых форм). При представлении эрмитовой формы Н(х,х) в виде суммы независимых квадратов, Н(х,х) = yajXiXj, i=l число положительных и число отрицательных квадратов не зависят от способа представления. Доказательство совершенно аналогично доказательству теоремы 1 (с. 261). Разность а между числом 7г положительных и числом v отрицательных квадратов в (120) называется сигнатурой эрмитовой формы Н(х,х): а = 7Г — v. Метод Лагранжа приведения квадратичных форм к сумме квадратов может быть использован и для эрмитовых форм, только при этом основные формулы (15) и (16) на с. 263 должны быть заменены формулами48) Н(х,х) = — Н(х,х) = - к=1 hkg SN+й fg l99 Xk + Hi(x,x), (121) k=1\ f9/ \ ) Пусть теперь для эрмитовой формы Н(х,х) = У^ hikXiXk ранга г ВЫПОЛНЯЛА:^ ются неравенства 12 - $*«■ Dk=H 1 2 (123) 46) Следовательно, г ^ п. 47) Эта терминология связана с тем, что произведение X{Xi равно квадрату модуля Xi (XiXi = \Xi\2). 48) Формула (121) применяется в случае, когда hgg Ф 0, а формула (122) — в случае, когда hff = hgg = 0, a h/g Ф 0.
§9. Эрмитовы формы 291 Тогда совершенно так же, как и для квадратичной формы (см. с. 265,266), получаем формулу Якоби в двух видах: Н(х,х) = Е^ ХкХк, H(x,x) = J2^\ (А> = 1), (124) к=1 к к=1 к Х к где Хк = ~FrYk, Ук = сккХк +ck,k+iXk + ••• + сь^п (к = 1, ...,г), (125) Dk а скд=н(1 '" к2г A (q = k,k + l,...,n; k = l,...,r). (126) В соответствии с формулой Якоби (124) число отрицательных квадратов в представлении формы Н(х,х) равно числу знакоперемен в ряду l,Di,D2,...,Dr: v = V(l,Dl,D2,...,Dr), (127) и, следовательно, сигнатура а эрмитовой формы Н(х,х) определится формулой a = r-2V(l,D1,D2,...,Dr). (128) Все замечания относительно особых случаев, которые могут здесь представиться, сделанные для квадратичных форм (§ 3), автоматически переносятся на эрмитовы формы. п Определение 5. Эрмитова форма Н(х,х) = Y^ hikxix~k называется неот- i,k=l рицательной {неположительной), если при любых значениях переменных Н(х,х)^0 (соответственно ^ 0). п Определение 6. Эрмитова форма Н(х,х) = ^ hikXixu называется поло- i,k=l жительно определенной (отрицательно определенной), если при любых значениях переменных xi,x2, ...,#n, не равных одновременно нулю, Н(х,х)>0 (соответственно < 0). п Теорема 19. Для того чтобы эрмитова форма Н(х,х) = YJ hiuxiXk бы- i,k=l ла положительно определенной, необходимо и достаточно, чтобы имели место неравенства Dk = H{\ 2 '.'.'. &)>0 (*=1.2,...,п). (129) П Теорема 20. Для того чтобы эрмитова форма Н(х,х) = У^ hikxixu была i,k=l неотрицательной, необходимо и достаточно, чтобы все главные миноры матрицы Н = \\hik\\i были неотрицательны: H(h Т2 '.'.'. Yp)>0 (*ь*2,...,»р = 1,2>...,п; p=l,2,...,n). (130) 10*
292 Гл. X. Квадратичные и эрмитовы формы Доказательство теорем 19 и 20 совершенно аналогично доказательству теорем 3 и 4 для квадратичных форм. Условия отрицательной определенности и неположительности эрмитовой формы Н(х,х) получаются соответственно из условий (129) и (130), если последние применить к форме —Н(х,х). Из теоремы 5' гл. IX (с. 240) следует теорема о приведении эрмитовой формы к главным осям. п Теорема 21. Эрмитова форма Н(х,х) = У^ hikxixu при помощи унитарного i ife=l преобразования переменных x = U£, (UU* = Е) (131) всегда может быть приведена к канонической форме п г=1 при этом Ai, Аг,..., Ап — характеристические числа матрицы Н = ||/iiJfe||3N Справедливость теоремы 21 вытекает из формулы Я = UWXiSikWU-1 = Т'\\\&к\\Т (U' = U'1 = Т). (133) Пусть даны две эрмитовы формы п п Н(х,х) = ^ hikXiXk, G(X,X) = ^ 9ikXiXk. i,k=l i,k=l Рассмотрим пучок эрмитовых форм Н(х,х) — XG(x,x) (A — вещественный параметр). Этот пучок называется регулярным, если форма G(x,x) положительно определенная. При помощи эрмитовых матриц Н = ||/ii,fc|li\ G = \\gik\\T составим уравнение \Н - XG\ = 0. Это уравнение называется характеристическим уравнением пучка эрмитовых форм. Корни этого уравнения называются характеристическими числами пучка. Если Ао — характеристическое число пучка, то существует столбец z = = (zi,Z2,...,zn) ф 0 такой, что Hz = Xoz. Столбец z мы будем называть главным столбцом или главным вектором пучка Н(х,х) — AG (ж, ж), соответствующим характеристическому числу Ао- Имеет место Теорема 22. Характеристическое уравнение регулярного пучка эрмитовых форм Н(х,х) — XG(x,x) имеет п вещественных корней Ai, A2,..., Ап. Этим корням соответствуют п главных векторов z1, z2,..., zn, удовлетворяющих условиям "ортонормированности ": G(z\zk) = Sik (»,fc = l,2,...,n). Доказательство совершенно аналогично доказательству теоремы 8. Все экстремальные свойства характеристических чисел регулярного пучка квадратичных форм сохраняют свою силу и для эрмитовых форм. Теоремы 10-17 сохраняют свою силу, если в этих теоремах термин "квадратичные формы" заменить везде термином "эрмитовы формы". Доказательства теорем остаются при этом неизменными.
§10. Ганкелевы формы 293 § 10. Ганкелевы формы Пусть даны 2п — 1 чисел 5o,5i, ...,52П-2- При помощи этих чисел составим квадратичную форму от п переменных S(X,X) = ^ Si+kXiXk- i,k=0 (134) Квадратичная форма (134) называется ганкелевой. Соответствующая ей симметрическая матрица S = ||si+fc||o_1 также называется ганкелевой. Эта матрица имеет вид So 5i 52 ... 5n_i S = Si S2 «2 S3 S3 54 Sn Sn+1 Sn-1 Sn 5n+i . . . 52n-2 Последовательные главные миноры матрицы S будем обозначать через Di, D2,...,Dn: dp = l*i+*lo (P= l,2,...,n). В настоящем параграфе мы установим основные результаты Фробениуса относительно ранга и сигнатуры вещественных ганкелевых форм49). Предварительно докажем две леммы. Лемма 1. Если в ганкелевой матрице S = ||5i+fc||o_1 первые h строк линейно независимы, а первые h + 1 строк линейно зависимы, то Доказательство. Обозначим через 14,Г2, ...,1^,1^+1 первые h + 1 строк матрицы S. По условию теоремы строки Гх, Г2,..., 1\ линейно независимы, а строка Гд+1 линейно выражается через эти строки: h Гл+i = }]ajrh-j+i, или h i=1 sq = 2_.ajSq-j (q = h, h + 1, ...,/i + n — 1). (135) i=i Выпишем матрицу, состоящую из первых h строк Г1,Г2,...,Гд матрицы S: so si si S2 S2 S3 Sn-1 Sn (136) Sn-1 Sn 5n_|_i . . . Sh+n-2 Эта матрица имеет ранг h. С другой стороны, в силу (135) любой столбец этой матрицы выражается линейно через h предыдущих столбцов. Следовательно, любой столбец матрицы выражается линейно через h первых столбцов. Но тогда, поскольку ранг матрицы (136) равен h, эти первые h столбцов матрицы (136) должны быть линейно независимы, т. е. Лл#0. Лемма доказана. 9) См. [182, f].
294 Гл. X. Квадратичные и эрмитовы формы Лемма 2. Если для матрицы S = ||$г+л||о * пРи некотором h (< п) Dh ф О, Dh+1 = ... = Dn = 0 (137) Uk = С h /i + i + 1 h h+k+\ 1 Ak S/i+i • • • (i,k = 0,1, ...,n — /i — 1) 5/i+fe (138) mo матрица T = \\Uk\\o h l также ганкелева и все ее элементы, расположенные над второй диагональю, равны нулю, т. е. существуют такие числа tn-h-i,..- —,t2n-2h-2, что tik = U+k (г, к = 0,1, ...,n- h - 1; t0 = h = ... = tn-h-2 = 0). Доказательство. Введем в рассмотрение матрицы TP = \\tik\\V (p = l,2,...,n-ft). В этих обозначениях Т = Тп_д. Мы докажем, что любая из матриц Тр (р = 1,2, ...,п — К) является ганкелевой и что в ней Uk = 0 при г + к ^ р — 2. Доказательство будем вести индуктивно относительно р. Для матрицы Ti наше утверждение тривиально, для матрицы Т2 оно очевидно, так как Dh То = £оо £oi ho hi , ^oi = ^ю (в силу симметрии S) и £0о = £+1 = 0. Dh Допустим, что наше утверждение справедливо для матрицы Тр (р < п — К), и докажем его справедливость для матрицы Tp_|_i = Ц^Ио- Из допущения следует существование таких чисел tv-\,tv, ...,£2^-2, что при to = ••• = tp-2 = 0 Гр = ||*й-*НГ1- При этом \TP\ = ±tpp_1. (139) С другой стороны, пользуясь детерминантным тождеством Сильвестра [см. (28) на с. 46], найдем = 0. |Тр| = %*-' Из сопоставления (139) с (140) получаем tp-i = 0. Далее, из (138) Uk = S2h+i+k + 77" Sh+к Dh (140) (141) (142) S2h+k-l Sh+i . • • S2h+i-l 0 На основании предыдущей леммы из (137) следует, что (h + 1)-я строка матрицы S = ||sj+fc||o_1 линейно зависит от первых h строк: h = Ysa9 9=1 (q = h, h + 1,..., /i + n-1). (143)
§10. Ганкелевы формы 295 Пусть i,k ^ p ^ i + k ^ 2р—1. При этом одно из чисел гик меньше р. Не нарушая общности рассуждений, примем, что г < р. Тогда, разлагая с помощью (143) последний столбец в определителе, стоящем в правой части равенства (142), и, снова используя соотношения (142), будем иметь Нк — S2h+i+k + / v 77" 9=1 П Dh $h+i S2h+i-l Sh+k-g S2h+k-g-l 0 = $2h+i+k + /2 a9^^-g - S2h+i+k-g)- (144) 9=1 Но в силу допущения индукции имеет место (141), и поскольку в (144) г < р, к — g<pni + k — д ^.2р — 2, то U^-g = ti+k-g- Следовательно, при г + к < р все tik = 0, а при p^.i + k^2p — 1 величина % в силу (144) зависит только от г + к. Таким образом, Tp+i — ганкелева матрица, и в этой матрице все элементы to,t\, ...,tp-i, стоящие над второй диагональю, равны нулю. Лемма доказана. Пользуясь леммой 2, докажем следующую теорему. Теорема 23. Если ганкелева матрица S = ||si+fc||o_1 имеет ранг г и при некотором h (< г) Dh ф О, Dh+1 = ... = Dr = О, то главный минор г-го порядка, образованный первыми h и последними г — h строками и столбцами матрицы 5, не равен нулю: h n — r + h+1 n — r + h + 2 ... п\/(\ h n-r + h+1 <n-<r-Lh-L9 <n )tz{J' Доказательство. n-r + h + 2 ... На основании предыдущей леммы матрица Т = lit \\п—h—l ik\\o где Uk = q (\ ... h Л + t + l \1 ... h Л + fe + l 1 ... h\ 1 ... h) (i,k = 0,l,...,n — h — 1), есть ганкелева матрица, в которой все элементы над второй диагональю равны нулю. Поэтому \т\ С другой стороны50), I ±n—h ^O^-h-V Следовательно, £0,n-/i-i = 0, и матрица Т имеет вид О О Т = О un-h-i U2 Un-h-1 U2 ') На основании детерминантного тождества Сильвестра [см. (28) на с. 46].
296 Гл. X. Квадратичные и эрмитовы формы Матрица Т должна иметь ранг г — hbl). Поэтому при г < п — 1 в матрице Т элементы ur-h+i = ... = un-h+i = 0, и матрица Т всегда имеет вид Т = О ... ... О О Ur-h О ... О ur-h ... i^i Но тогда в силу тождества Сильвестра (см. с. 46) (ur-h Ф 0). ^ = DhT{l-_rrXl ■- lZhh)=±DhKZ^0, что и требовалось доказать. Рассмотрим вещественную52) ганкелеву форму О (Ж, X) — / j Si-\-k%v Хк i,k=0 ранга г. Обозначим через 7Г, i/, а соответственно число положительных квадратов, число отрицательных квадратов и сигнатуру этой формы: 7Г + V = Г, а = 7Г — г/ = г — 2и. Согласно теореме Якоби (с. 266) эти величины могут быть определены из рассмотрения знаков последовательных миноров A) = l, Du D2, ..., Dr-U Dr при помощи формул 7T = P(l,Di,...,DP), I/ = V(l,I>i,...,A.), с = P(l,Du...,Dr) -V(l,Du...,Dr) =r -2V(l,Du...,Dr). (145) (146) Эти формулы становятся неприменимыми в случае, когда последний член в ряду (145) либо три подряд идущих промежуточных члена равны нулю (см. § 3). Однако для ганкелевой формы, как показал Фробениус, можно дать правило, позволяющее использовать формулы (146) в самом общем случае. Теорема 24 (Фробениуса). Для вещественной ганкелевой формы п-1 S(x,x) = 22 Si+kxixk i,k=0 51) Из тождества Сильвестра следует, что все миноры матрицы Т, у которых порядок > г — h, равны нулю. С другой стороны, матрица S содержит некоторый окаймляющий Dh минор г-го порядка, отличный от нуля. Отсюда следует, что и соответствующий минор порядка г — h матрицы Т отличен от нуля. 52) В предыдущих леммах 1, 2 и теореме 23 в качестве основного поля можно было брать произвольное числовое поле и, в частности, поле всех комплексных чисел или поле всех вещественных чисел.
§10. Ганкелевы формы 297 D(r)=s(l ... h "-r + ft + 1 .- n\ yl ... h n — r + h + 1 ... nj~ ' ранга г величины 7Г, г/, cr могут быть определены из формул (146), еслг/: 1) /грг/ Лл#0, Лл+1 = ... = Д. = 0 (Л<г) (147) заменить в этих формулах Dr на D^r\ где I ... h 1 ... h 2) в любой группе из р промежуточных нулевых определителей (Dh^O) Dh+1=Dh+2 = ... = Dh+p = 0 (1>л+р+1#0) (148) нулевым определителям приписать знаки по формуле signDH+j = (-i)iW-i)/2 sign^. (149) При этом величины P,V,P — V, соответствующие группе (148), получат значения53) Ph,p = P(Dh, Dh+i,. VhtP = V(Dh,Dh+u. Ph,p - Vh,p •;Dh+p+l) ..jDfc+P+l) p нечетно p + 1 2 P + l 2 0 p четно p + l + e 2 p + l-e 2 г (150) £ = (-ir/2sign%£±l. Доказательство. Рассмотрим сначала случай, когда Dr ф 0. В этом случае формы п—1 г—1 ЬуХ^Х) = у ^ S^+fc#i#fc) »ЬГ(Ж,#) = у ^ S^+fc#i#fc имеют не только один и тот же ранг г, но и одну и ту же сигнатуру а. Действительно, пусть S(x,x) = YfeiZ? г=1 где Zi — вещественные линейные формы, а е% = ±1 (г = 1,2,...,г). Положим жГ+1 = ... = хп = 0. Тогда формы S(x,x), Zi перейдут соответственно в Sr(x,x), г Zi (г = 1,2, ...,г), причем 5г(ж,#) = ^^eiZf, т. е. Sr(x,x) имеет такое же число г=1 положительных (отрицательных) независимых квадратов, как и форма S(x,x) 54). Таким образом, сг есть сигнатура формы Sr(x,x). 53) Формулы (149) и (150) применимы и к случаю (147), только здесь нужно положить р = г — h — 1 и под Dh+p+i понимать не Dr = 0, а Г>^ ^ 0. 54) Линейные формы Zi,Z2,...,Zr линейно независимы, поскольку квадратичная фор- т ма Sr(x,x) = 2_\eiZl имеет ранг г (Dr ф 0).
298 Гл. X. Квадратичные и эрмитовы формы Варьируем непрерывно параметры so,si, ...,S2r-2 так> чтобы при новых значениях параметров eg, s*,..., sjr_2 55) все члены ряда 1, di d*2, ..., d; (d; = lej+fcig-1; я = i,2,..,r) были отличны от нуля и чтобы в процессе варьирования ни один из отличных от нуля определителей (145) не обратился в нуль56). Так как при варьировании не изменялся ранг формы Sr(x, ж), то не изменялась и ее сигнатура (см. с. 272). Поэтому а = P(l, D\,..., D;) - V(l, D\,...,D*r). (151) Если Di ф 0 при некотором г, то signDt* = sign Dt. Поэтому весь вопрос сводится к определению перемен знака между теми D*, которым соответствуют Di = 0. Точнее, для каждой группы вида (148) требуется определить Для этого положим 8h+k Dh : S2h+k-l Sh+i • • • 82h+i-l S2h+i+k Согласно лемме 2 матрица т=Ыр0 ганкелева и все элементы ее, стоящие над второй диагональю, равны нулю, т. е. матрица Т имеет вид Uk = Dh ~">Щ+р1Щ+р+1)' (2,fc = 0,l,...,p). т = о 0 Т<Г) о (152) Обозначим последовательные миноры матрицы Т через Di,L>2,—,Dp+i: ^ = 1^1^ (q = l,2,...,p+l). Наряду с матрицей Т введем в рассмотрение матрицу г* = Hull?, где +* — —— Dh bh+i b2h+i-l bh+k s2h+k-l *2h+i+k (z,fc = 0,l,...,p), 55) В этом параграфе значок * не означает перехода к сопряженной матрице. 56) Такую вариацию всегда можно осуществить, поскольку в пространстве параметров so, 5i,..., 52г-2 уравнение вида Di = 0 определяет некоторую алгебраическую гиперповерхность. Если точка принадлежит нескольким таким гиперповерхностям, то она может быть всегда аппроксимирована сколь угодно близкими точками, лежащими вне этих гиперповерхностей.
§10. Ганкелевы формы 299 и соответственные определители £; = 1*Ы8-1 (g = i,2,..,p+i). Согласно детерминантному тождеству Сильвестра D*h+q = D*hD*q (g = l,2,...,p+l). Поэтому P(DlD*h+1,...,D*h+p+1)-V(D*h,D*h+1,...,D*h+p+1) = = p(i,d*u...,d;+1)-v(i,di,...,d;+1) = ?*, (153) P где а* — сигнатура формы T*(x,x) = Y^ t*kXiXk- i,k=0 Наряду с формой Т*(х,х) рассмотрим формы р Т(х,х) = ^2 U+kXiXk, Т**(х,х) = tp(x0xp + xixp-i + ... + хрхо). i,k=0 Матрица Т** получается из матрицы Т [см. (152)], если в последней заменить нулями все элементы, стоящие под второй диагональю. Сигнатуры форм Т(х, х) и Т**(х,х) обозначим соответственно через а и а**. Так как формы Т*(х,х) и Т**(х,х) получаются из формы Т(х,х) таким варьированием коэффициентов, в процессе которого ранг формы не меняется (|Т**| = \Т\ = —рг^- Ф О, \Т*\ = V Dh D* \ = J£+1 ф 0), то и сигнатуры форм Т(х,х), Т*(х,х) и Т**(х,х) должны быть Dh ' одинаковы: $ = $*=?**. (154) Но {2tp(x0X2k-i + ••• + Xk-iXk) при р = 2к - 1, tp[2(x0X2k + ... + Xk-iXk+i) + х%\ при р = 2к. Так как каждое произведение вида хахр при а ф /3 можно заменить раз- /Ха+Х0\2 (Xoc-Xq\2 ностью квадратов ( —- J — ( —- 1 и таким образом получить разложение Т**(х,х) на независимые вещественные квадраты, то -** _ Г 0 при р нечетном, (-\к%\ ~ 1 signup при р четном. ^ ' С другой стороны, из (152) Rh±m = \Т\ = (_1)р(р+1)/2^р+1. (156) Из (153)—(156) следует P(DlD*h+1,...,D*h+p+1)-V(D*h,D*h+1,...,D*h+p+1) _ ( 0 при р нечетном, (л ^7, ~| е при р четном, ^ '
300 Гл. X. Квадратичные и эрмитовы формы где s = (-l)^2sign^±i. Uh Так как P(D*h+1,D*h+2,...,D*h+p+1) + V(D*h+1,D*h+2,...,D*h+p+1) =p+l, (158) то из (157) и (158) вытекает таблица (150). Пусть теперь Dr = 0. Тогда при некотором h < г Dh ф 0, Dh+1 = ... = Dr = 0. В этом случае, согласно теореме 23, (г)= /1 ... h n-r + h + l ... n\ yl ... д п — г + д + 1 ... пу ^ Рассматриваемый случай сводится к предыдущему перенумерацией переменных в квадратичной форме S(X,X) = ^ Si+kXiXk- Полагаем г>к=0 Xq = Хо, ..., Xfi—i = Xji—i, Xfi = Жп_г_|_/},, ..., Xr—i = Жп_1, Хг = Ж^, ..., Xn—i = Жуг—т»-)-^—!. ^loyj При этом S(X,X) = ^ 'Si+kXiXk. i,k=0 Исходя из структуры матрицы Т на с. 295 и пользуясь полученными из де- терминантного тождества Сильвестра соотношениями Dj = ^, ^ = %f (j = l,2,...,n-h), найдем, что ряд l,Di,D2,'~,Dn получается из ряда l,.Di,.D2, ...,£>п заменой одного элемента Dr на D^r\ Таким образом, показано, что во всех случаях можно пользоваться таблицей (150). Заметим, что при р нечетном \р — число нулевых определителей в группе (148)] из формулы (156) следует sign%£±i = (_l)P+i/2. (1б0) Dh Пользуясь этим равенством, читатель легко проверит, что таблице (150) соответствует то приписывание знаков нулевым определителям, которое дается формулой (149). Теорема доказана полностью57). Примечание. При р = 1 из формулы (160) следует DhDh+2 < 0. Поэтому имеет место правило Гундельфингера, т. е. при подсчете v(l,Di,...,Dr) можно опустить £>/и-1. При р = 2 из таблицы (150) вытекает правило Фробениуса (см. с. 266). 57) Нетрудно убедиться, что теорема 23, а с ней и теорема 24, сохраняют силу также при h = 0, если считать, как мы условились на с. 295, Do = 1 (см. [182, f]).
ЧАСТЬ ВТОРАЯ СПЕЦИАЛЬНЫЕ ВОПРОСЫ И ПРИЛОЖЕНИЯ ГЛАВА XI КОМПЛЕКСНЫЕ СИММЕТРИЧЕСКИЕ, КОСОСИММЕТРИЧЕСКИЕ И ОРТОГОНАЛЬНЫЕ МАТРИЦЫ В гл. IX в связи с изучением линейных операторов в евклидовом пространстве были исследованы вещественные симметрические, кососимметрические и ортогональные матрицы, т. е. вещественные квадратные матрицы, характеризуемые соответственно соотношениями S' = S, К' = -К, О' = О-1 (здесь ' означает переход к транспонированной матрице). Было выяснено, что в поле комплексных чисел все эти матрицы имеют линейные элементарные делители, и были установлены нормальные формы для этих матриц, т. е. "простейшие" вещественные симметрические, кососимметрические и ортогональные матрицы, которым вещественно и ортогонально подобны произвольные матрицы рассматриваемых типов. Настоящая глава посвящена исследованию комплексных симметрических, ко- сосимметрических и ортогональных матриц. Выясняется, какие элементарные делители могут иметь эти матрицы, и для них устанавливаются нормальные формы. Эти формы имеют значительно более сложную структуру, нежели соответствующие нормальные формы в вещественном случае. Предварительно в § 1 устанавливаются интересные связи между комплексными ортогональными, унитарными и вещественными симметрическими, кососимметрическими и ортогональными матрицами. § 1. Некоторые формулы для комплексных ортогональных и унитарных матриц Начнем с леммы. Лемма I1). 1. Если матрица G одновременно является и эрмитовой, и ортогональной (G' = G = G~x), то она представима в виде G = IeiK, (1) где I — вещественная симметрическая инволютивная матрица, а К — перестановочная с нею вещественная кососимметрическая матрица: 1 = 7 = 1', 12=Е, К = К = -К'. (2) 2. Если дополнительно G является положительно определенной эрмитовой матрицей2), то в формуле (1) I = Е и G = eiK. (3) х) [81, в, с. 223-225]. 2) То есть G — матрица коэффициентов положительно определенной эрмитовой формы (см. гл. X, § 9).
302 Гл. XI. Комплексные симметрические матрицы Доказательство. 1. Пусть G = S + гТ, где S и Т — вещественные матрицы. Тогда G = S-iT, G' = S' + iT'. (4) (5) Поэтому равенство G = G' влечет S = S", Т = —Т", т. е. S — симметрическая, а Т — кососимметрическая матрица. Далее^комплексное равенство GG = Е после подстановки в него выражений для G и G из (4) и (5) распадается на два вещественных равенства: S2 + Т2 = Е, ST = TS. (6) Второе из этих равенств показывает, что S и Т коммутируют. Согласно теореме 12' гл. IX (с. 257) коммутирующие нормальные матрицы S и Т можно одним и тем же вещественным ортогональным преобразованием привести к квазидиагональной канонической форме. Поэтому3) S = 0{s1,S1,S2,S2,~4Sq,Sq,S2q+l,~4Sn}0 * (0=0 = 0' *), (7) -о{| 0 h h 0 ' 0 *2 | -*2 0 | 5 •••* 1 0 *9 1 | -*« 0 I, o^ojcr1 (числа Si и £; вещественны). Отсюда G = S + гТ = -о{ 5i г^1 -г^1 5i 52 г£2 -г£2 52 Sq ™q ~ltq Sq > S2q+1, .-, 5n > О . (8) С другой стороны, подставляя выражения (7) для S иТ в первое из равенств (6), найдем s2 -t 1 _ «i - !» s2 _ .2 _ х *2 62 ~~ А> •••> S2 -t Sq lq Теперь нетрудно проверить, что матрица типа представима в виде 2-1, e2g+1 = ±l, ..., *„ = ±1. (9) при s2 — t2 = 1 всегда 5 it -it s s it —it s ■ ее 0 <f -<p 0 где \s\ = ch(/?, et = sh(/?, e = signs. Поэтому в силу (8) и (9) имеем G т. е. = 0J±e1rVl ° 0 (f! ■<Р1 0 г 1, ±el 0 <р2 \—<Р2 0 г 1, ..., ±е 1 1 о ч>Л \-tpq 0| , ±1, ..., ±1 О"1. (10) G =/е гХ 3) См. также примечание к теореме 12' гл. IX (с. 257).
§1. Свойства комплексных ортогональных и унитарных матриц 303 где / = 0{±1>±1,...,±1}0-1, к = о{ 0 -ч>\ Ч>1 0 5 •••? 0 ~4>ч Vq 0 , о, ..., о} о-1. (11) 1К = К1 Из (11) вытекают равенства (2). 2. Если дополнительно известно, что G — положительно определенная эрмитова матрица, то можно утверждать, что все характеристические числа матрицы G положительны (гл. IX, с. 241). Но в силу формулы (10) этими характеристическими числами являются числа ±eVl, ±e"Vl, ±e^2, ie"^2, ..., ±е*«, ±е"^, ±1, ..., ±1 [здесь знаки соответствуют знакам в формуле (10)]. Поэтому в формуле (10) и в последующей формуле (11) всюду, где стоит ±, сохраняется знак +. Следовательно, / = 0{1,1,...,1}0"1=Е, что и требовалось доказать. Лемма доказана полностью. С помощью леммы мы докажем следующую теорему. Теорема 1. Комплексная ортогональная матрица О всегда представима в виде О = ReiK, (12) где R — вещественная ортогональная, а К — вещественная кососимметрическая матрица: R = R = R'~\ K = K = -K'. (13) Доказательство. Допустим, что формула (12) имеет место. Тогда О* = о' = eikR' 0*0 = eiKR'ReiK = e2iK'. Теперь в силу предыдущей леммы искомую вещественную кососимметричес- кую матрицу К можно определить из равенства 0*0 = e2iK, (14) поскольку 0*0 — положительно определенная эрмитова и ортогональная матрица4). После того как матрица К определена из (14), мы находим R из (12): Тогда R = Oe~iK. R*R = e~iK0*OeiK = Е, (15) т. е. R — унитарная матрица. С другой стороны, из (15) следует, что матрица R как произведение двух ортогональных матриц сама ортогональна: R'R = Е. 4) Комплексная ортогональная матрица О является невырожденной, так как из равенства ОО = Е следует, что \0\ = ±1.
304 Гл. XI. Комплексные симметрические матрицы Таким образом, R является одновременно унитарной и ортогональной и, следовательно, вещественной ортогональной. Формулу (15) можно записать в виде (12). Теорема доказана5). Установим теперь следующую лемму. Лемма 2. Если матрица D является одновременно симметрической и унитарной (D = D' = D ), то она всегда представима в виде D = eiS, (16) где S — вещественная симметрическая матрица (S = S = S'). Доказательство. Положим D = U + iV (U = U, V = V). (17) Тогда _ D = U-iV, D' = U' + iV'. Комплексное равенство D = D' распадается на два вещественных: U = U\ V = V. Таким образом, U_ иУ — вещественные симметрические матрицы. Равенство DD = Е влечет U2 + V2 = Е, UV = VU. (18) Согласно второму из этих равенств матрицы U и V коммутируют. Применяя к ним теорему 12; (вместе с примечанием) гл. IX (с. 257), получим U = 0{8US2,...,8n}0-1, V = 0{tut2,...,tn}0-1. (19) Здесь 0 = 0 = 0'~ , a Sk и tk (к = 1,2, ...,п) — вещественные числа. Теперь первое из равенств (18) дает 4+^ = 1 (* = 1,2,...,п). Поэтому существуют такие вещественные числа (р^ (к = 1,2, ...,п), что sk=cos(pk, tk=sin(pk (к = 1,2, ...,п). Подставляя эти выражения для Sk и tk в (19) и пользуясь (17), найдем L) = 0{e^1,e^2,...,ei^}0-1=ei5, где S = 0{<pu<p2,...,<Pn}0-1. (20) Из (20) следует S = S = S'. Лемма доказана. Пользуясь этой леммой, докажем следующую теорему. Теорема 2. Унитарная матрица U всегда представима в виде U = ReiS, (21) 5) Формула (12), как и полярное разложение комплексной матрицы [в соответствии с формулами (87), (88) на с. 244], имеет тесную связь с важной теоремой Картана, устанавливающей известные представления для автоморфизмов полупростых комплексных групп Ли [81,в, с. 221-232].
§2. Полярное разложение комплексной матрицы 305 где R — вещественная ортогональная, a S — вещественная симметрическая матрица: R = r = R'-\ S = S = S'. (22) Доказательство. Из формулы (21) следует U' = eiSR'. (23) Перемножая почленно (21) и (23), получим в силу (22) U'U = eiSR'ReiS = e2iS'. Согласно лемме 2 вещественную симметрическую матрицу S можно определить из уравнения U'U = e2iS, (24) поскольку матрица U'U является симметрической унитарной. После того как матрица S определена, мы определим матрицу R равенством R = Ue~iS. (25) Тогда R' = e~iSU', (26) и потому из (24)-(26) вытекает R'R = e-iSU'Ue-iS = Е, т. е. R — ортогональная матрица. С другой стороны, согласно (25) R есть произведение двух унитарных матриц и, следовательно, R — унитарная матрица. Поскольку R одновременно является ортогональной и унитарной, R — вещественная матрица. Формулу (25) можно переписать в виде (21). Теорема доказана. § 2. Полярное разложение комплексной матрицы Докажем следующую теорему. Теорема 3. Если А = Ца^Цу — невырожденная матрица с комплексными элементами, то A = SO (27) A = 01S1, (28) где S и Si — комплексные симметрические, а О и 0\ — комплексные ортогональные матрицы. При этом S = VAA = f(AA'), S1=VAA = f1(A'A), где /(Л), Л (Л) — некоторые многочлены относительно Л. Как в разложении (27), так и в разложении (28) сомножители S и О {соответственно 0\ и Si) перестановочны между собой в том и только том случае, когда матрицы А и А' перестановочны между собой. Доказательство. Достаточно установить разложение (27), так как, применив это разложение к матрице А' и определив из полученной формулы матрицу А, мы придем к разложению (28).
306 Гл. XI. Комплексные симметрические матрицы Если имеет место формула (27), то А = SO, А' = 0~XS, и потому AA' = S2. (29) Обратно, поскольку АА' — невырожденная матрица (|АА'| = \А\2 ф 0), то функция л/А определена на спектре этой матрицы 6), и, следовательно, существует такой интерполяционный многочлен /(A), что л/АА = f(AA'). (30) Симметрическую матрицу (30) обозначим через 5 = л/И7. Тогда имеет место (29) и, следовательно, |5| /0. Определяя матрицу О из равенства (27): О = S~lA, легко проверяем, что эта матрица является ортогональной. Таким образом, разложение (27) установлено. Если в разложении (27) множители S и О перестановочны между собой, то перестановочны и матрицы А = SO, A' = 0~lS, так как АА! = S2, A'A = 0~1S20. Обратно, если АА' = А'А, то S2 = 0~lS20, т. е. матрица О перестановочна с S2 = АА'. Но тогда матрица О перестановочна и с матрицей S = f(AA'). Таким образом, теорема доказана полностью. Пользуясь полярным разложением, докажем следующую теорему. Теорема 4. Если две комплексные симметрические либо кососимметричес- кие, либо ортогональные матрицы подобны, В = Т~1АТ, (31) то эти матрицы ортогонально подобны, т. е. существует такая ортогональная матрица О, что В = О"1 АО. (32) Доказательство. Из условия теоремы следует существование такого многочлена <7(А), что A' = q(A), B' = q(B). (33) Этот многочлен q(X) в случае симметрических матриц тождественно равен А, а в случае кососимметрических матриц тождественно равен —А. Если же А и В — ортогональные матрицы, то q(X) — интерполяционный многочлен для 1/А на общем спектре матриц А и В. 6) См. гл. V, § 1. Мы берем однозначную ветвь функции у/Х односвязной области, содержащей все характеристические числа матрицы АА' и не содержащей числа 0.
§3. Нормальная форма симметрической матрицы 307 Пользуясь равенствами (33), проведем доказательство данной теоремы совершенно аналогично доказательству соответствующей теоремы 10 гл. IX для вещественного случая (см. с. 254). Из (31) следует q(B) = Т-\{А)Т, или, в силу (33), В1 = Т^А'Т. Отсюда В = Т'АТ'~1. Сопоставляя это равенство с (31), легко находим ТТ'А = АТТ'. (34) Применим к невырожденной матрице Т полярное разложение T = SO (S = S'= f(TT'), 0' = 0~1). Поскольку, согласно (34), матрица ТТ' перестановочна с А, то и матрица S = _ д^Т') также перестановочна с А. Поэтому, подставляя в (31) вместо Т произведение SO, будем иметь В = 0~lS-lASO = О-1 АО. Теорема доказана. § 3. Нормальная форма комплексной симметрической матрицы Докажем следующую теорему. Теорема 5. Существует комплексная симметрическая матрица с любыми наперед заданными элементарными делителями7). Доказательство. Рассмотрим матрицу Н n-го порядка, у которой элементы первой наддиагонали равны единице, а все остальные элементы равны нулю. Докажем, что существует симметрическая матрица 5, подобная матрице Я: s = tht-\ Преобразующую матрицу Т будем искать, исходя из условия s = тнт-1 = s' = т'^н'т'. Это условие можно переписать так: VH = Н% где V — симметрическая матрица, связанная с Т равенством T'T = -2iVs). Вспоминая свойства матриц Н и F = Н' (с. 23), мы найдем, что любое решение V матричного уравнения (36) имеет следующий вид: 0 ... 0 (35) (36) (37) V = «о «о 0 оч (38) 7) Относительно содержания настоящего параграфа, а также последующих § 4 и § 5 см. [255]. 8) Для упрощения дальнейших формул нам удобно здесь ввести множитель —2г.
308 Гл. XI. Комплексные симметрические матрицы где ao,ai, ...,an_i — произвольные комплексные числа. Поскольку нам достаточно отыскать одну преобразующую матрицу Т, то мы в этой формуле положим ао = 1, а\ = ... = an_i = 0 и определим матрицу V равенством9) "0 ... 0 1 0 ... 1 0 V = (39) 1 ... 0 0 Кроме того, преобразующую матрицу Т будем искать в виде симметрической матрицы: Т = Т'. (40) Тогда уравнение (37) для Т перепишется так: Т2 = -2iV. (41) Теперь неизвестную матрицу Т будем искать в виде многочлена от V. Поскольку V2 = Е, в качестве такого многочлена можно взять многочлен первой степени: Т = аЕ + /3V. Из уравнения (41), учитывая равенство V2 = Е, найдем а2 + + 01 = 0, 2а(3 = —2г. Этим соотношениям мы удовлетворим, полагая a = 1, /3 = —г. Тогда T = E-iV. (42) Матрица Т невырожденная и симметрическая10). В то же время из (41) получаем Т"1 = iiV_1T= ^iVT, 1 .т 2 T-^^E + iV). (43) Таким образом, симметрическая форма 511) матрицы Н определится равенством 0 ... 0 1 S = ТНТ'1 = \{Е- %V)H(E + iV), V = 0 1 0 0 0 (44) Поскольку матрица S удовлетворяет уравнению (36) и V2 = Е, то равенство (44) может быть переписано еще так: 2S = (Я + #') + i(HV - VH) =H + H' + i(H- H')V = (45) 0 1 0 1 1 0 1 0 + г 0 1 0 -1 1 0 1 -1 0 | Формула (45) определяет симметрическую форму S матрицы Н. 9) Матрица V является одновременно симметрической и ортогональной. 10) Невырожденность матрицы Т следует, в частности, из (41), поскольку V — невырожденная матрица. 11) Здесь и ниже под симметрической (кососимметрической и т. д.) формой матрицы Н понимается симметрическая (кососимметрическая и т. д.) матрица, подобная Н. — Примеч. ред.
§4- Нормальная форма кососимметрической матрицы 309 В дальнейшем, если п — порядок матрицы Н, Н = Н^п\ то соответствующие матрицы Т, V и S будем еще обозначать и так: Т^п\ V^ и S^n\ Пусть даны произвольные элементарные делители (А-Ах)"1, (А-А2р, ..., (А-А»)*". (46) Составим соответствующую жорданову матрицу: J = {XiE^ + Я<Р1\ А2#(Р2) + Я(Р2), ..., A„£(Pw) + #(Pu)}. Для каждой матрицы Я^) введем соответствующую симметрическую форму Sfo>. Из 5^) = Т^Н^[Т^]-г (J = 1,2,..., г*) следует XjE^ + Sto) = = T^lXjEM +Я^')][Т^')]-1. Поэтому, полагая 5 = {Ai#<Pl> + S(pi), А2£(р2) + S(p2), ..., \иЕ^ + £(^}}, (47) Т = {Т^\Т^\ ...,Т^}, (48) будем иметь _ Матрица 5 — симметрическая форма жордановой матрицы J. S подобна матрице J и имеет те же элементарные делители (46), что и матрица J. Теорема доказана. Следствие 1. Произвольная квадратная комплексная матрица А = Ца^Ц" подобна симметрической матрице. Привлекая теорему 4, получим Следствие 2. Произвольная комплексная симметрическая матрица S = — IKfcll? ортогонально подобна симметрической матрице, имеющей нормальную форму 5, т. е. существует такая ортогональная матрица О, что S = OSO~1. (49) Нормальная форма комплексной симметрической матрицы имеет квазидиагональный вид 5 = {ХхЕ^ +S^\\2E^ +S(p2\...,Au£^ + S<P«>}, (50) где клетки S^ определяются так [см. (44), (45)]: 25(р) = [£(р) - iV{p)]H^[E^ + iV{p)] = [Я(р> + Я^' + г(Я<р> - Я(р) V(p)] = + г 1 0 (51) § 4. Нормальная форма комплексной кососимметрической матрицы Выясним, какие ограничения на элементарные делители накладывает косая симметрия матрицы. При этом мы будем опираться на следующую теорему. Теорема 6. Кососимметрическая матрица всегда имеет четный ранг. Доказательство. Пусть кососимметрическая матрица К имеет ранг г. Тогда среди строк матрицы К имеется г линейно независимых с номерами ii, г2,...,гг; все остальные строки являются линейными комбинациями этих строк.
310 Гл. XI. Комплексные симметрические матрицы Поскольку столбцы матрицы К получаются из соответствующих строк, если элементы последних умножить на —1, то и любой столбец матрицы К есть линейная комбинация столбцов с номерами ii,Z2, ...,гг. Поэтому произвольный минор г-го порядка матрицы К может быть представлен в виде ак(к *2 •- *А, \ц г2 ... %г) ' где а — число. Отсюда вытекает, что К Но кососимметрический определитель нечетного порядка всегда равен нулю. Следовательно, г — четное число. Теорема доказана. Теорема 7. 1°. Если Ло — характеристическое число кососимметрической матрицы К и ему соответствуют элементарные делители (Л-А0)Л, (Л-Ао)л, ..., (Л-Ло)л, то — Ло также является характеристическим числом матрицы К и этому числу соответствуют элементарные делители матрицы К в том же числе и тех же степеней (А + Ао)*, (А + А0)/2, ..., (А + Ао)л. 2°. Если число нуль является характеристическим числом кососимметрической матрицы К12), то в системе элементарных делителей матрицы К все элементарные делители четной степени, соответствующие характеристическому числу нуль, повторяются четное число раз. Доказательство. 1°. Транспонированная матрица К' имеет те же элементарные делители, что и матрица К. Но К' = —К, а элементарные делители матрицы —К получаются из элементарных делителей матрицы К, если в последних все характеристические числа А^Аг,... заменить на —Ai,—Аг,... Отсюда следует первая часть нашей теоремы. 2°. Пусть характеристическому числу нуль матрицы К отвечает Si элементарных делителей вида А, (^ вида Л2 и т. д. Вообще, мы через ёр обозначим число элементарных делителей вида Хр (р = 1,2,...). Мы докажем, что 62,64,... — четные числа. Дефект d матрицы К равен числу линейно независимых собственных векторов, соответствующих характеристическому числу нуль или, что то же, числу элементарных делителей вида А,А2,А3,... Поэтому d = u+<fe+<fe + ... (52) Поскольку согласно теореме б ранг матрицы К — четное число, a d = п — г, то число d имеет ту же четность, что и число п. Такое же утверждение можно сделать относительно дефектов с?з,с?5,... матриц К3,К5,..., поскольку нечетные степени кососимметрической матрицы снова являются кососимметрически- ми матрицами. Поэтому все числа d\ = d,ds,d^,... имеют одну и ту же четность. С другой стороны, при возведении матрицы К в степень т каждый элементарный делитель Хр этой матрицы при р < т расщепляется на р элементарных делителей (первой степени), а при р^ т — наш элементарных делителей13). 12) То есть если \К\ = 0. При п нечетном всегда \К\ = 0. 13) См. гл. VI, теорема 9 (с. 152). Mi h ••• ir\ i q I 2i г2 ... ir J Г
§4- Нормальная форма кососимметрической матрицы 311 Поэтому число элементарных делителей матриц К,К3,..., являющихся степенями Л, определится по формулам14) ds = 6г + 262 + 3(*3 + <*4 + ...)» d5 = 6г + 2ё2 + SS3 + 4ё4 + 5(«Б + й + ...), (53) Сопоставляя (52) с (53) и помня, что все числа d\ = d,с?з,с?5,... имеют одну и ту же четность, легко заключаем, что #2>#4> ••• — четные числа. Теорема доказана полностью. Теорема 8. Существует кососимметрическая матрица с любыми наперед заданными элементарными делителями, удовлетворяющими ограничениям 1°, 2° предыдущей теоремы. Доказательство. Найдем сначала кососимметрическую форму для квазидиагональной матрицы порядка 2р: j[Pop) = {\0E + H, -ХоЕ-Н}, (54) имеющей два элементарных делителя (Л — Ао)р и (А + Ао)р; здесь Е = Е^р\ Н = Будем искать такую преобразующую матрицу Т, чтобы матрица tj(pp)t-i была кососимметрической, т. е. чтобы имело место равенство Tj(pp)t-i + T'-^jiPP)}'?' = о или WJJ») + [jg)]'W = 0, (55) где W — симметрическая матрица, связанная с матрицей Т равенством15) Т'Т = -2iW. (56) Разобьем матрицу W на четыре квадратных блока, каждый порядка р: w.(Wn W12 w ~\Wn W22 Тогда (55) можно переписать так: fWn W12\f\0E + H 0 \ \W2i W22)\ 0 -\0E-Hj + + {° 0 -XoE-H')\W21 w£)=0' (5?) Выполняя указанные действия над блочными матрицами в левой части матричного уравнения (57), мы заменим это уравнение системой четырех матричных уравнений: 1) H'Wu + Wn(2\0E + H) = 0; 2) H'W12 - W12H = 0; (58) 14) Эти формулы были выведены (без ссылки на теорему 9) в гл. VI [см. формулы (49) на с. 150]. 15) См. сноску 8) на с. 307.
312 Гл. XI. Комплексные симметрические матрицы 3) H'W21 - W21H = 0; 4) H'W22 + W22(2X0E + Я) = 0. Уравнение АХ — ХВ = 0, где А и В — квадратные матрицы без общих характеристических чисел, имеет только нулевое решение X = О16). Поэтому первое и четвертое уравнения (58) дают Wn = W22 = О17). Что же касается второго из этих уравнений, то, как мы видели при доказательстве теоремы 5, этому уравнению можно удовлетворить, полагая 0 ... 0 1 0 ... 1 0 W12 = V = 0 0 (59) поскольку [см. (36)] VH - H'V = 0. Из симметрии матрицы W следует, что W2i = W{2 = V. Тогда автоматически удовлетворяется и уравнение 3). Таким образом, w=(v Vo)=v(2p)- (60) Но тогда, как уже было выяснено на с. 308, уравнение (56) удовлетворится, если положить Т = Е{2р) - iV{2p). (61) При этом T-1 = |(£<2p>+iVr<2,,>). (62) Следовательно, искомая кососимметрическая матрица найдется по формуле18) К(РР) = I де(2р) _ iV(2p)]jte>)[E(2p) + W&P)] = Подставляя вместо jtop) и у(2Р) соответствующие блочные матрицы из (54) и (60), найдем 0 -Н-Н' (64) оКШ -(Н-Н1 0 \/# + #' + 2A0i zaa0 -^ о Н'-Н)^г\ 0 -Н-Н'-2ХЕ /0 V\ _ ( Н-Н1 i(2\0V + HV + VH) X\V 0 J ~ \-i(2\0V + HV + VH) Н' -Н 16) См. гл. VIII, § 1. 17) При Ло Ф 0 уравнения 1) и 4), кроме нулевых, других решений не имеют. При Ао = 0 существуют и другие решения, но мы выбираем нулевые решения. 18) Здесь мы используем равенства (55), (60) и равенство р/(2р)]2 = Е^2рК Из этих равенств следует, что У{2р)/™] = -J™ и V{2p)J{xpQp)V{2p) = -J{xpQp)''. 'Ао 'Ао
§4- Нормальная форма кососимметрической матрицы 313 АЛо " 2 0 -1 0 0 —г -2Л0 1 0 —г -1 —г -2Л0 0 1 0 -2Л0 —г 0 0 г 2Л0 0 1 0 г -1 0 г 2Л0 1 2Л0 г 0 0 -1 0 (65) Построим теперь кососимметрическую матрицу q-ro порядка К^, имеющую один элементарный делитель А9, где q — нечетное число. Очевидно, что искомая кососимметрическая матрица будет подобна матрице /«) = 0 0 0 1 0 . 0 1 •. -1 0 0 0 0 -1 0 (66) В этой матрице все элементы вне первой наддиагонали равны нулю, а вдоль первой наддиагонали сначала идут (q — l)/2 единиц, а затем (q — l)/2 элементов, равных — 1. Полагая к(я) =т№т-\ из условия косой симметрии найдем WxjM+jM'Wx =0, где T'T = -2iWl. Непосредственной проверкой убеждаемся в том, что матрица (67) (68) (69) Wi = Viq) = 0 1 1 О о о удовлетворяет уравнению (68). Принимая это значение для Wi, мы из (69), как и ранее, находим Т = ЕМ - iVM, Т"1 = \ [#<«> + tV<«>], (70) 2К^ = [Е^ - iV{q)]{q)[E^ + iV{q)] J = Jiq) - J{q)> + i(J(q) + Jiq)')Viq). (71)
314 Гл. XI. Комплексные симметрические матрицы Произведя соответствующие вычисления, найдем 2КЫ = О 1 -1 О О .. О -1 О + г 0 -1 0 -1 1 0 .•' 1 ... 0 (72) Пусть даны произвольные элементарные делители, удовлетворяющие условиям теоремы 7: /ч Л ч„_. „.,,„, ,.. , п 1в (A-A^w, (\ + \&> У = 1,2,...,«)"), \чь (/г = 1,2, ...,v; qi,q2,—,Qv — нечетные числа). Тогда кососимметрическая матрица К имеет вид К = {KixPilpl\...,Ki^p");K^\...,KM} (73) (74) и элементарные делители (73). Теорема доказана. Следствие. Произвольная комплексная кососимметрическая матрица К ортогонально подобна кососимметрической матрице, имеющей нормальную форму К, определяемую формулами (74), (65), (72), т. е. существует такая (комплексная) ортогональная матрица О, что _ К = ОКО~\ (75) Замечание. Если К — вещественная кососимметрическая матрица, то она имеет линейные элементарные делители (см. гл. IX, § 13) \-iipi, \ + iipi, ..., \-iipu, X + itfu, А,...,Л ((fj v раз вещественные числа). В этом случае, полагая в (74) всер^ = 1 и все q^ = 1, получим нормальную форму вещественной кососимметрической матрицы к = {\\ ° 0 ■ч>\ Ч>\ 0 5 •••* 0 -4>и 4>и 0 , о, ..., о|. § 5. Нормальная форма комплексной ортогональной матрицы Начнем с выяснения, какие ограничения на элементарные делители накладывает ортогональность матрицы. Теорема 9. 1. Если Ао (А§ /1) — характеристическое число ортогональной матрицы О и этому характеристическому числу соответствуют элементарные делители (А-Ао)Л, (А-Ао)Л, -, (А-Ао)Л, то 1/Ао также является характеристическим числом матрицы О, и этому характеристическому числу соответствуют такие же элементарные делители, как и числу Ао: (А-Ао1)*, (А-Ао1/*, ..., (А-Ао1/'. 2. Если Ао = ±1 является характеристическим числом ортогональной матрицы О, то элементарные делители четной степени, соответствующие этому характеристическому числу Ао, повторяются четное число раз.
§5. Нормальная форма комплексной ортогональной матрицы 315 Доказательство. 1. Для любой невырожденной матрицы О при переходе от О к О-1 каждый элементарный делитель (Л — Ло)^ заменяется элементарным делителем (Л — А^1)^ 20). С другой стороны, матрицы О и О' всегда имеют одни и те же элементарные делители. Поэтому из условия ортогональности О' = О-1 сразу следует первая часть нашей теоремы. 2. Допустим, что число 1 является характеристическим числом матрицы О, а число —1 не является таковым (\Е — 0\ = О, |.Е + 0| /0). Тогда воспользуемся формулами Кэли (см. гл. IX, § 14), которые сохраняют свою силу и для комплексных матриц. Определим матрицу К равенством К = (Е-0)(Е + 0)-1. (76) Непосредственной проверкой убеждаемся в том, что К' = —К, т. е. что К — кососимметрическая матрица. Решая уравнение (76) относительно О, находим21) 0 = (Е-К)(Е + К)-1. Полагая /(А) = (1-А)/(1 + А), имеем /'(А) = -2/(1 + А)2 ф 0. Следовательно, при переходе от матрицы К к матрице О = f(K) элементарные делители не расщепляются22). Поэтому в системе элементарных делителей матрицы О элементарные делители вида (А — 1)2р повторяются четное число раз, поскольку это имеет место для элементарных делителей вида Х2р матрицы К (см. теорему 7). Случай, когда ортогональная матрица О имеет характеристическое число — 1, но не имеет характеристического числа +1, сразу сводится к разобранному случаю путем рассмотрения ортогональной матрицы —О. Переходим к наиболее сложному случаю, когда матрица О одновременно имеет характеристическое число +1 и характеристическое число —1. Обозначим через ф(Х) минимальный многочлен матрицы О. Используя доказанную первую часть теоремы, мы сможем записать ф(Х) в виде ^(A) = (A-ir4A+ir2n(A-Ai)Pi(A-A71)Pj (A!^; j = i,2,...,to. Рассмотрим многочлен #(А) степени < т [т — степень ф(Х)], у которого д(1) = 1, а все остальные т — 1 значений на спектре матрицы О равны нулю, и положим23) Р = д(0). (77) Заметим, что функции [#(А)]2 и #(1/А) принимают те же значения на спектре матрицы О, что и функция д(Х). Поэтому Р2=Р, Р' = д(0') = giO-1) = Р, (78) т. е. Р — симметрическая проекционная матрица24). 20) См. гл. VI, § 7. Полагая /(A) = 1/А, имеем /'(А) = — 1/А2 ф 0. Отсюда следует, что при переходе от матрицы О к матрице О-1 элементарные делители не расщепляются (см. с. 152). 21) Заметим, что из (76) следует Е + К = 2(Е + О)-1 и, следовательно, |^ + Х| = = 2п\Е + 0\~1 ф0. 22) См. с. 152. 23) Из основной формулы (см. с. 106) д(А) = \*\ [g(Xk)Zk\ + g (Xk)Zk2 + •••] следует, 4ToP = Zn. fc=i 24) См. гл. III, § 6 (с. 78).
316 Гл. XI. Комплексные симметрические матрицы Определим многочлен h(X) и матрицу Q равенствами Л(А) = (А-1)р(А), (79) Q = ЦО) = (0- Е)Р. (80) Поскольку степень [/i(A)]mi обращается в нуль на спектре матрицы О, эта степень делится на ф(Х) без остатка. Отсюда следует Qmi = 0, т. е. Q — нильпотентная матрица с индексом нильпотентности mi. Из (80) находим25) Q' = (О' - Е)Р. (81) Рассмотрим матрицу R = Q(Q' + 2E). (82) Из (78), (80) и (81) следует R = QQ' + 2Q = (О - &)Р. Из этого представления матрицы R видно, что R — кососимметрическая матрица. С другой стороны, из (82) Д* = Qk(Q' + 2E)k (jfe = 1,2,...). (83) Но Q', как и Q, — нильпотентная матрица и, следовательно, \Q' + 2E\?0. Поэтому из (83) вытекает, что при любом к матрицы Rk и Qk имеют один и тот же ранг. Но при к нечетном матрица Rk является кососимметрической и потому (см. с. 309) имеет четный ранг. Следовательно, каждая из матриц О, Q\ Q\ - имеет четный ранг. Поэтому, повторяя дословно для матрицы Q рассуждения, проведенные на с. 310 для матрицы К, мы сможем утверждать, что среди элементарных делителей матрицы Q делители вида Х2р повторяются четное число раз. Но каждому элементарному делителю Х2р матрицы Q соответствует элементарный делитель (Л — 1)2р матрицы О и наоборот26). Отсюда следует, что среди элементарных делителей матрицы О делители вида (Л — 1)2р повторяются четное число раз. Аналогичное утверждение для элементарных делителей вида (Л + 1)2р мы получим, применяя доказанное уже положение к матрице —О. Таким образом, теорема доказана полностью. Докажем теперь обратную теорему. 25) Все фигурирующие здесь матрицы Р, Q, Q',0' = О-1 перестановочны между собой и с О, поскольку все они являются функциями матрицы О. 26) Поскольку /i(l) = 0, h'(l) ф 0, то при переходе от матрицы О к матрице Q = = h(0) элементарные делители вида (Л — 1)2р матрицы О, не расщепляясь, заменяются элементарными делителями Л2р (см. гл. VI, § 7).
§5. Нормальная форма комплексной ортогональной матрицы 317 Теорема 10. Любая система степеней вида (А - А,)*, (Л - Ат> (А, ф 0; j = 1,2,...,«), (A-l)", (A-l)«, ..., (А-1)««, (A + 1)'S (A + 1)*», ..., (А + 1)«- (дъ...,<Ь,£ъ...,£ш — нечетные числа) является системой элементарных делителей некоторой комплексной ортогональной матрицы О27). Доказательство. Обозначим через /Xj числа, связанные с числами Xj (j = = 1,2, ...,и) равенствами Xj=e^ (j = l,2,...,ti). Введем в рассмотрение "канонические" кососимметрические матрицы (см. предыдущий параграф) К$,'р,) U = 1,2,...,«); #(Ч -., *■<«•>; #<Ч ..., *•<«->, имеющие соответственно элементарные делители (X-fij)"', (A+ ^-)w0' = 1,2,...,«); А", .... А"; А*1, ..., А'-. Если X — кососимметрическая матрица, то 0 = ек является ортогональной (О' = ек = е~к = О-1). При этом каждому элементарному делителю (Л — рь)р матрицы К отвечает элементарный делитель (Л — е^)р матрицы О28). Поэтому квазидиагональная матрица О = {eA"i , ..., ек*и ; ек , ..., ек ; -ек , ..., -ек } (85) является ортогональной и имеет элементарные делители (84). Теорема доказана. Из теорем 4, 9 и 10 вытекает Следствие. Произвольная (комплексная) ортогональная матрица О всегда ортогонально подобна ортогональной матрице, имеющей нормальную форму О, т. е. существует такая ортогональная матрица Oi, что 0 = 01OOi1. (86) Примечание. Подобно тому, как это было сделано для кососимметрической матрицы К, можно конкретизировать форму диагональных клеток в нормальной форме О29). 27) Некоторые (или даже все) из чисел Л^ могут равняться ±1. Одно число или два из чисел u,v,w могут равняться нулю. Тогда элементарные делители соответствующего вида отсутствуют у матрицы О. 28) Это следует из того, что при /(А) = еЛ имеем /'(А) = ел ф 0 при любом Л. 29) См. [255].
ГЛАВА XII СИНГУЛЯРНЫЕ ПУЧКИ МАТРИЦ § 1. Введение 1. Настоящая глава посвящена следующей задаче. Даны четыре матрицы А, В; А\, В\ одинакового размера т х п с элементами из числового поля К. Требуется найти, при каких условиях существуют две квадратные невырожденные матрицы Р и Q соответственно порядков тип такие, что одновременно PAQ = AU PBQ = B11). (1) Вводя в рассмотрение пучки матриц А + ХВ и А\ + ХВ\, два матричных равенства (1) можно заменить одним равенством P{A + XB)Q = A1+XBl. (2) Определение 1. Два пучка прямоугольных матриц А + ХВ и А\ + ХВ\ одного и того же размера т х п, связанные равенством (2), в котором Р и Q — постоянные (т. е. не зависящие от А) квадратные невырожденные матрицы соответственно порядков тип, мы будем называть строго эквивалентными2). Согласно общему определению эквивалентности А-матриц (см. гл. VI, с. 132) пучки А + ХВ и А\ + ХВ\ являются эквивалентными, если имеет место равенство вида (2), в котором Р и Q — две квадратные А-матрицы с постоянными и отличными от нуля определителями. При строгой же эквивалентности требуется дополнительно, чтобы матрицы Р и Q не зависели от А3). Критерий эквивалентности пучков А + ХВ и А\ + ХВ\ следует из общего критерия эквивалентности А-матриц и состоит в совпадении инвариантных многочленов, или, что то же, элементарных делителей пучков А + ХВ и А\ + ХВ\ (см. гл. VI, с. 137). В настоящей главе будет установлен критерий строгой эквивалентности двух пучков матриц и для каждого пучка будет определена строго эквивалентная ему каноническая форма. 2. Поставленная задача допускает естественную геометрическую интерпретацию. Рассмотрим пучок линейных операторов А + АВ, отображающих Rn в Rm. При определенном выборе базисов в этих пространствах пучку операторов А + АВ отвечает пучок прямоугольных матриц А + ХВ (размера т х п); при изменении базисов в Rn и Rm пучок А + ХВ заменяется строго эквивалентным пучком Р(А + XB)Q, где Р и Q — квадратные невырожденные матрицы порядков тип (см. гл. III, § 2 и § 4). Таким образом, критерий строгой эквивалентности дает характеристику того класса пучков матриц А + ХВ (размера т х п), 1) Если такие матрицы Р и Q существуют, то их элементы могут быть выбраны из поля К. Это вытекает из того, что равенства (1) могут быть переписаны в виде РА = = A\Q~l, РВ = B\Q~l и потому равносильны некоторой системе линейных однородных уравнений с коэффициентами из поля К относительно элементов матриц Р и Q~l. 2) См. гл. VI, с. 132. 3) Мы заменили встречающийся в литературе термин "эквивалентные пучки" термином "строго эквивалентные пучки" для того, чтобы резко разграничить определение 1 от определения эквивалентности из гл. VI.
§2. Регулярный пучок матриц 319 которые описывают один и тот же пучок операторов А + ЛВ, отображающих Rn в Rm, при различных выборах базисов в этих пространствах. Для получения канонической формы пучка нужно найти те базисы в Rn и Rm, в которых пучок операторов А + ЛВ описывается возможно более простой матрицей. Поскольку пучок операторов задается двумя операторами А и В, то можно еще сказать, что настоящая глава посвящена одновременному изучению двух операторов А и В, отображающих Rn в Rm. 3. Все пучки матриц А + \В размера га х п подразделяются на два основных типа: на регулярные и сингулярные пучки. Определение 2. Пучок матриц А + ХВ называется регулярным, если: 1) А и В — квадратные матрицы одного и того же порядка п; 2) определитель \А + ХВ\ не равен тождественно нулю. Во всех остальных случаях (га ф п или га = п, но \А + ХВ\ = 0) пучок называется сингулярным. Критерий строгой эквивалентности, а также каноническая форма для регулярных пучков матриц были установлены К. Вейерштрассом в 1867 г. [254] на основе его теории элементарных делителей, изложенной нами в гл. VI и VII. Аналогичные вопросы для сингулярных пучков получили свое разрешение позже, в 1890 г., в исследованиях Л. Кронекера [205]4). Результаты Кронекера и составляют основное содержание этой главы. § 2. Регулярный пучок матриц 1. Рассмотрим частный случай, когда пучки А + ХВ и А\ + ХВ\ состоят из квадратных матриц (га = п) и \В\ ф 0, \В\\ ф 0. В этом случае, как было доказано в гл. VI (с. 142), два понятия "эквивалентность" и "строгая эквивалентность" пучков совпадают. Поэтому, применяя к пучкам общий критерий эквивалентности А-матриц (с. 144), приходим к следующей теореме. Теорема 1. Два пучка квадратных матриц одного и того же порядка А + ХВ и А\ + ХВ\, у которых \В\ ф 0 и \Bi\ ф 0, являются строго эквивалентными в том и только том случае, когда эти пучки имеют одни и те же элементарные делители в поле К. Пучок квадратных матриц А + ХВ с \В\ ф 0 в гл. VI назывался регулярным, поскольку он представляет собой частный случай регулярного матричного многочлена относительно А (см. гл. IV, с. 84). В предыдущем параграфе настоящей главы мы дали более широкое определение регулярного пучка. Согласно этому определению в регулярном пучке возможно равенство \В\ = 0 (и даже |А| = \В\ = 0). Для того чтобы выяснить, сохранится ли теорема 1 для регулярных пучков (при расширенном определении 1), рассмотрим следующий пример: |2 1 1 12 1 111 + А 1 1 1| 111 111 (3) I2 * 3 3 2 5 3 2 6 + А 1 1 2| 112 1 1 3 Нетрудно видеть, что здесь каждый из пучков А + ХВ и А\ + ХВ\ имеет только один элементарный делитель А + 1. В то же время эти пучки не являются 4) Из дальнейших исследований, в которых по-иному трактуются сингулярные пучки матриц, укажем на [99,6, 251, 207, а].
320 Гл. XII. Сингулярные пучки матриц строго эквивалентными, так как матрицы В и В\ имеют соответственно ранги 2 и 1, а из равенства (2), если бы оно имело место, следовало бы, что ранги матриц В и В\ равны между собой. При этом пучки (3) являются регулярными согласно определению 1, так как |;l + AS| = |Ai+ASi|#A + l. Разобранный пример показывает, что теорема 1 неверна при расширенном определении регулярного пучка. 2. Для того чтобы сохранить теорему 1, нам придется ввести понятие "бесконечных" элементарных делителей пучка. Будем пучок А + ХВ задавать при помощи "однородных" параметров Л, /i: /iA + ХВ. Тогда определитель А(Л, /х) = \[j,A + + ХВ\ будет однородной функцией параметров Л, д. Определяя наибольший общий делитель Dk(X,/jL) всех миноров к-го порядка матрицы рьА + ХВ (к = 1,2, ...,п), получим инвариантные многочлены по известным формулам . ,Л ч Dn(X,y) . ,Л ч Dn гНЛ>/*) = п \\ л> г2(А,м) = — i(A,m) r>n-i(A,ji)' v '" ^n-2(A,/x)' -' при этом все Dk(X,iJ,) и г^(А,/х) — однородные относительно А и /х многочлены. Разлагая инвариантные многочлены на степени неприводимых в поле К однородных многочленов, получим элементарные делители ea(X,jj) (а = 1,2,...) пучка цА + ХВ в поле К. Совершенно очевидно, что, полагая д = 1 в еа(А, д), мы вернемся к элементарным делителям еа(Х) пучка А + ХВ. Обратно, из каждого элементарного делителя еа(Х) степени q пучка А + ХВ мы получим соответствующий элементарный делитель ea(X,jj) по формуле ea(X,jj) = /1яеа(Х//1). Таким способом могут быть получены все элементарные делители пучка \хА + ХВ, за исключением элементарных делителей вида /Iя. Элементарные делители вида fiq существуют в том и только том случае, когда \В\ =0, и носят название "бесконечных" элементарных делителей для пучка А + ХВ. Поскольку из строгой эквивалентности пучков А + ХВ и А\ + ХВ\ следует строгая эквивалентность пучков [хА + ХВ и цА\ + XB\, то у строго эквивалентных пучков А + ХВ и А\ + ХВ\ должны совпадать не только "конечные", но и "бесконечные" элементарные делители. Пусть теперь даны два регулярных пучка А + ХВ и А\ + XBi, у которых соответственно совпадают все (в том числе и бесконечные) элементарные делители. Введем однородные параметры /j,A + ХВ, цА\ + \В\. Преобразуем параметры: Л = а1Л + а2Д, (а1/?2_а2/?1^0). /л = PiX + (32Ц В новых параметрах пучки запишутся так: /L4 + ХВ, JIAi + XBi, где В = /3\А + + а\В, В\ = &\А\ + а\В\. Из регулярности пучков /j,A + ХВ и цА\ + ХВ\ вытекает, что можно подобрать числа ос\ и (5\ так, чтобы \В\ ф 0 и |I?i| ф 0. Поэтому, согласно теореме 1, пучки /L4 + ХВ и /L4i + XBi, а следовательно, и исходные пучки /хА + ХВ и /xAi + AI?i (или, что то же, А + ХВ к А\ + ХВ\) строго эквивалентны. Таким образом, мы пришли к следующему обобщению теоремы 1. Теорема 2. Для того чтобы два регулярных пучка А + ХВ и А\ + ХВ\ были строго эквивалентны, необходимо и достаточно, чтобы эти пучки имели одни и те же ({'конечные" и "бесконечные") элементарные делители.
§3. Сингулярные пучки. Теорема о приведении 321 В разобранном ранее примере пучки (3) имели один и тот же "конечный" элементарный делитель Л + 1, но отличались "бесконечными" элементарными делителями (первый пучок имеет один "бесконечный" элементарный делитель /х2, а второй — два: /i,/x). Поэтому эти пучки и не оказались строго эквивалентными. 3. Пусть теперь дан произвольный регулярный пучок А + ХВ.Тогда существует такое число с, что \А + сВ\ Ф 0. Данный пучок представим в виде А\ + + (А — с)В, где А\ = А + сВ, и потому |Ai| ф 0. Умножим пучок слева на А^1 : Е + (Л — c)Ai ХВ. Преобразованием подобия приводим этот пучок к виду Е + (Л - с){ Jo, Ji} = {E- cJ0 + AJ0, E - cJx + AJi} 5), (4) где {Jo, Ji} — квазидиагональная нормальная форма матрицы А^В, Jo — жор- данова нильпотентная6) матрица, a \J\\ ф 0. Первый диагональный блок правой части (4) умножим на (Е — cJo)-1. Получим Е + Х(Е — cJo)-1 Jo- Здесь коэффициент при А — нильпотентная матрица7). Поэтому преобразованием подобия этот пучок можно привести к виду Е + \То = {A^U1\A^U2\...,A^} (NW = Е^+ХН^)8). (5) Второй диагональный блок в правой части (4) умножением на J^1, а затем преобразованием подобия может быть приведен к виду J + ХЕ, где J — матрица, имеющая нормальную форму9), а Е — единичная матрица. Мы пришли к следующей теореме. Теорема 3. Произвольный регулярный пучок А + ХВ может быть приведен к (строго эквивалентному) каноническому квазидиагональному виду {N(Ui\n(U2\...,N(u'\J + \E} (NM =Я(и>+А#(и>), (6) где первые s диагональных блоков соответствуют бесконечным элементарным делителям /xUl,/xU2, ...,/xUs пучка А + ХВ, а нормальная форма последнего диагонального блока J + ХЕ однозначно определяется конечными элемента рными делителями данного пучка. § 3. Сингулярные пучки. Теорема о приведении Переходим к рассмотрению сингулярного пучка матриц А + ХВ размера т х х п. Обозначим через г ранг пучка, т. е. наибольший из порядков миноров, не равных тождественно нулю. Из сингулярности пучка следует, что всегда имеет место по крайней мере одно из неравенств г < п или г < т. Пусть г < п. Тогда столбцы А-матрицы А + ХВ линейно зависимы, т. е. уравнение (А + ХВ)х = 0, (7) где х — искомый столбец, имеет ненулевое решение. Каждое ненулевое решение этого уравнения определяет некоторую линейную зависимость между столбцами 5) Единичные матрицы Е в диагональных блоках правой части (4) имеют соответственно те же порядки, что Jo и J\. 6) То есть Jq = 0 при некотором целом / > 0. 7) Из 4 = 0 следует [(Е - cJo^Jo]1 = 0. 8) Здесь Е^и) — единичная матрица порядка и, а Я(и) — матрица порядка и, у которой элементы первой наддиагонали равны единице, а оста льные элементы равны нулю. 9) Поскольку здесь матрицу J можно заменить любой матрицей, ей подобной, то можно считать, что J имеет любую нормальную форму [например, естественную первого рода или второго рода или жорданову (см. гл. VI, § 6)]. 11 Ф.Р. Гантмахер
322 Гл. XII. Сингулярные пучки матриц Л-матрицы А + \В. Мы ограничимся только теми решениями х(Х) уравнения (7), которые являются многочленами относительно Л10), и среди этих решений возьмем решение наименьшей степени е х(Х) =х0- \х! + Х2х2 - ... + (-1)£Х£х£ (хе ф 0). (8) Подставляя это решение в (7) и приравнивая нулю коэффициенты при степенях Л, получим Ахо = 0, Вхо — Ах\ = 0, Вх\ — Ах2 = 0, ..., Вх£-\ — Ахе = 0, Вх£ = 0. (9) Рассматривая эту систему равенств как систему линейных однородных уравнений относительно элементов столбцов #о, —#ь +#2, •••> (—l)e^e5 заключаем, что матрица коэффициентов этой системы е + 1 М£ = МР[А + \В] А В 0 0 0 . А В ' 0 . . 0 . А . В (10) имеет ранг р£ < (е + 1)п. В то же время в силу минимального свойства числа е для рангов pi,...,pe_i матриц М0 = А В Mi = 1 А в 0 0 1 А В М£_х = А В 0 . А .. 0 •. А о Б (Ю') имеют место равенства ро = ^ Pi — 2п, ..., pe_i = гп. Таким образом, число е есть наименьшее значение индекса к, при котором в соотношении pk ^ (к + 1)п имеет место знак <. Теперь мы сформулируем и докажем следующую фундаментальную теорему. Теорема 4. Если уравнение (7) имеет решение минимальной степени е и е > 0, то данный пучок А + ХВ строго эквивалентен пучку вида L£ 0 0 А + ХВ (П) где е+1 L£ = X 0 0 1 Л 0 0 . 1 .. 0 0 | .. Л ] L I ч (12) > £ 10) Для определения элементов столбца х, удовлетворяющего уравнению (7), приходится решать систему линейных однородных уравнений, у которых коэффициенты при неизвестных линейно зависят от Л. Базисные линейно независимые решения х всегда могут быть выбраны так, чтобы их элементами были многочлены от Л.
§3. Сингулярные пучки. Теорема о приведении 323 а А + ХВ — пучок матриц, для которого уравнение, аналогичное (7), не имеет решений степени < е. Доказательство теоремы разобьем на три этапа. Сначала докажем, что данный пучок А + ХВ строго эквивалентен пучку вида О D + XF А + ХВ (13) где D, F,A,B — постоянные прямоугольные матрицы соответственных размеров. Затем установим, что уравнение (А + ХВ)х = 0 не имеет решений х(Х) степени < е. После этого мы покажем, что дальнейшими преобразованиями пучок (13) может быть приведен к квазидиагональному виду (11). 1. Первую часть доказательства облечем в геометрическую форму. Вместо пучка матриц А + ХВ рассмотрим пучок операторов А + ЛВ, отображающих Rn в Rm, и покажем, что при надлежащем выборе базисов в этих пространствах матрица, соответствующая оператору А + ЛВ, будет иметь форму (13). Вместо уравнения (7) возьмем векторное уравнение (А + ЛВ)х = О с векторным решением х(Л) = хо - Axi + Л2х2 - ... + (-1)еЛ£хе; равенства (9) заменятся векторными равенствами (14) (15) Ахо = 0, Axi = Bxq, Ах2 = Bxi, Ниже мы докажем, что векторы Ахь Ах2, Ах£ = Вхе_ь Вх£ = 0. (16) Ах, (17) линейно независимы. Отсюда легко будет следовать линейная независимость векторов х0, xi, ..., х£. (18) Действительно, поскольку Ахо = 0, из аохо + aixi + ••• + o;sxs = 0 находим aiAxi + ... + а£Ах£ = 0, откуда в силу линейной независимости векторов (17) оц = OL2 = ... = а£ = 0. Но хо Ф 0, поскольку в противном случае х(Л)/Л было бы решением уравнения (14) степени е — 1, что невозможно. Поэтому и ао = 0. Если теперь принять векторы (17) и (18) в качестве первых базисных векторов для новых базисов соответственно в Rm и Rn, то в новых базисах операторам А и В в силу (6) будут соответствовать матрицы е + 1 е + 1 А = г — 0 1 ... 0 0 1 0 0 ... 0 0 ... 0 0 ... ... 0 ... 0 ... 1 ... 0 ... 0 * . * . * . * . * . . * . * . * . * . * в = 1 0 ... 0 0 * О 1 ... 0 0 * о о о о 10* 0 0* о о о о тогда Л-матрица А + ХВ будет иметь вид (13). Все предыдущие рассуждения будут обоснованными, если мы докажем, что векторы (17) линейно независимы. 11*
324 Гл. XII. Сингулярные пучки матриц Допустим противное, и пусть Ах^ (h ^ 1) — первый в ряду (17) векто р, линейно зависящий от предыдущих векторов: Axh = aiAxh-x + a2Axft_2 + ... + a^-iAxi. В силу (16) это равенство может быть переписано так: Bx/>_i = aiBxfc-2 + а2ВхЛ_3 + ... + ah-iBx0, т. е. BxU = О, где x*h-i = Xh-i - «iX/i-2 - a2xh-z - ... - ah-ix0. Далее, опять в силу (16) Ах£_! = В(х/1_2 - aixhs - ... - <*л-2Хо) = Вх£_2, где x*h_2 = xh-2 - aixhs - ... - a/i_2X0. Продолжая этот процесс далее и вводя еще векторы x*h_3 = xh-Z - OLiKh-4 - -. - a/i-зхо, -.., xj = xi - aix0, Xq = x0, мы получим цепочку равенств BxJU=0, AxJUi=BxJU2, ..., Ax?=BxS, AxS=0. (19) Из (19) следует, что х*(А) = xS - Ах? + ... + (-1)Л-1х^_1 (xS = хо ф 0) есть ненулевое решение уравнения (14) степени ^ h — 1 < е, что невозможно. Таким образом, векторы (17) линейно независимы. 2. Докажем теперь, что уравнение (А + \В)х = 0 не имеет решений степени < е. Сначала обратим внимание на то, что уравнение L£y = О, как и уравнение (7), имеет ненулевое решение наименьшей степени е. В этом можно убедиться непосредственно, если матричное уравнение L£y = О заменить системой обыкновенных уравнений Aj/i +2/2 = 0, Aj/2 +2/з = 0, ..., Ху£ + уе+г = 0 [У = (j/i,2/2,...,2fe+i)], откуда у* = (-l)*"1^*-1 (Л = 1,2, ...,£ + 1). С другой стороны, если пучок имеет "треугольный" вид (13), то соответствующие этому пучку матрицы Ми (к = 0,1, ...,£) [см. (10) и (10') на с. 322] после надлежащей перестановки строк и столбцов также могут быть приведены к треугольному виду \\Mk[L£] Mk[D + \F\\\ || 0 Mk[A + \B]\\' { ] При к = е — 1 все столбцы этой матрицы, а значит, и столбцы матрицы Me-i[Le], линейно независимы11). Но M£-i[L£] — квадратная матрица порядка е(е + 1). Поэтому и в матрице M£-i[A + \B] все столбцы линейно независи- 11) Это следует из того, что ранг матрицы (20) при к = е — 1 равен ещ аналогичное равенство имеет место для ранга матрицы Me-i[Le].
§3. Сингулярные пучки. Теорема о приведении 325 мы, а это, как было выяснено в начале параграфа, означает, что уравнение (А + + ХВ)х = О не имеет решений степени ^ е — 1, что и требовалось доказать. 3. Заменим пучок (13) строго эквивалентным ему пучком \L£ D + \F\ О Y Е2 О А + ХВ Ез —X О Е4 Le D + XF + Y(А + ХВ) - L£X О А + ХВ (21) где Ei,E2,Ez,E4 — квадратные единичные матрицы соответственно порядков е,т — е,е + 1ип — е — 1, а X, F — произвольные постоянные прямоугольные матрицы соответствующих размеров. Наша теорема будет полностью доказана, если мы покажем, что матрицы X и Y могут быть выбраны так, чтобы имело место матричное равенство L£X = D + XF + Y (A + ХВ). (22) Введем обозначения для элементов матриц D, F, X, а также для строк матрицы Y и для столбцов матриц А, В: Л = ||**||, F=\\fik\l X = \\xjk\\ (г = 1,2,..., г; к = 1,2, ...,п - е - 1; j = 1,2, ...,е+ 1), У = 2/1 2/2 А = (0i,02,...,an-e-l), # = (bi,&2,...,bn-e-l). Тогда матричное уравнение (22) можно заменить системой скалярных уравнений, записывая, что элементы k-ro столбца в левой и правой частях равенства (22) соответственно равны друг другу (к = 1,2, ...,п — е — 1): х2к + Ажи = dik + АД*, + j/ia/fe + Xyibk, х3к + Аж2* = d2k + A/2* + 2/2 о* + А?/2&ь ж4* + А#з* = ^3ife + A/3fe + 2/за* + А?/36*, (23) a?ei,* + Аа?е* = defc + Xf£k + 2/ea* + Ху£Ьк (к = 1,2,...,п-г-1). В левых частях этих равенств стоят линейные двучлены относительно Л. Свободный член каждого из первых е — 1 этих двучленов равен коэффициенту при Л в следующем двучлене. Но тогда и правые части должны удовлетворять этому условию. Поэтому 2/iflfc - У2Ьк = J2k - dik, J/2«* - УзЬк = hk ~ d>2k, /24ч Уе-\0>к - УеЬк = fek ~ 4-l,fc (к = 1,2,...,п-г-1). Если равенства (24) имеют место, то, очевидно, из (23) можно определить искомые элементы матрицы X. Теперь осталось показать, что система уравнений (24) относительно элементов матрицы Y всегда имеет решение при любых dik и /^ (г = 1,2, ...,е;к = = 1,2,..., п — е — 1). Действительно, матрица, составленная из коэффициентов при неизвестных элементах строк ух, —t/2,+2/35 — 2/4, •••, может быть записана после
326 Гл. XII. Сингулярные пучки матриц транспонирования в виде £-1 А В 0 0 0 . А В ' 0 . . 0 . А . В Но эта матрица является матрицей M£-2 для пучка прямоугольных матриц А + + \В [см. (10') на с. 322]. Ранг же этой матрицы равен (е — 1)(п — е — 1), поскольку по доказанному уравнение (А + \В)х = 0 не имеет решений степени < е. Таким образом, ранг системы уравнений (24) равен числу уравнений, а такая система при любых свободных членах является совместной (непротиворечивой). Теорема доказана полностью. § 4. Каноническая форма сингулярного пучка матриц Пусть дан произвольный сингулярный пучок матриц А + \В размера га х п. Допустим сначала, что как между столбцами, так и между строками этого пучка нет линейной зависимости с постоянными коэффициентами. Пусть г < п, где г — ранг пучка, т. е. столбцы пучка А + ХВ линейно зависимы. В этом случае уравнение (А + \В)х = 0 имеет ненулевое решение минимальной степени е. Из принятого в начале этого параграфа ограничения следует, что s\ > 0. Поэтому, согласно теореме 4, данный пучок можно преобразовать к виду ^ 0 А + ХВг ) * где уравнение (А\ + \В\)х^ = 0 не имеет решений х^ степени < е\. Если это уравнение имеет ненулевое решение минимальной степени е2> ПРИ этом непременно e<z ^ £i), то, применяя к пучку А\ + \В\ теорему 4, мы данный пучок преобразуем к виду ^ 0 0 0 Le2 0 0 0 А2 + \В2 Продолжая этот процесс далее, мы приведем данный пучок к квазидиагональному виду 0 Aft + AlJrQ (25) где 0 < е\ ^ 62 ^ ... ^ ер, а уравнение (Ар + ХВр)х^ = 0 не имеет ненулевых решений, т. е. столбцы матрицы Ар + ХВР линейно независимы12). 12) Очевидно, что е\ + £2 + ••• + £р ^ т, е\ + £2 + ••• + sp +р ^ п. Эти соотношения могут стать равенствами лишь одновременно. В этом случае блок Ар + ХВР будет отсутствовать.
§4- Каноническая форма сингулярного пучка матриц 327 Если строки пучка Ар + ХВР линейно зависимы, то транспонированный пучок А'р = ХВ'р может быть приведен к виду (25), где вместо чисел £i,£2,—,£p будут фигурировать числа (0 <) щ ^ щ ^ ... ^ Щ13)- Но тогда данный пучок А + ХВ окажется преобразованным к квазидиагональному виду О U т О ^щ А0 + АД) (26) (О < ег ^ е2 ^ ... ^ ер, 0 < тух ^ туг ^ ... ^ %), где у пучка А$ + АД как столбцы, так и строки линейно независимы, т. е. А$ + + АД) — регулярный пучок14). Рассмотрим теперь общий случай, когда строки и столбцы данного пучка могут быть связаны линейными зависимостями с постоянными коэффициентами. Обозначим максимальное число постоянных независимых решений уравнений (А + ХВ)х = О, (А' + ХВ')у = О соответственно через д и h. Вместо первого из этих уравнений, подобно тому как мы это делали при доказательстве теоремы 4, рассмотрим соответствующее векторное уравнение (А + АВ)х = О (А и В — операторы, отображающие Rn в Rm). Линейно независимые постоянные решения этого уравнения обозначим через ei,e2,...,ep и примем за первые базисные векторы в Rn. Тогда в соответствующей матрице А + ХВ первые д столбцов будут состоять из нулей: А + \В = ( 1Г, А1+АБ1). (27) Совершенно так же в пучке А\ + ХВ\ первые h строк можно сделать нулевыми. Тогда данный пучок примет вид О О А0 + ХВ° (28) где строки и столбцы пучка А0 + ХВ° уже не связаны линейными зависимостями с постоянными коэффициентами. К пучку А0 + ХВ° применимо представление типа (26). Таким образом, в самом общем случае пучок А + ХВ всегда может быть приведен к каноническому квазидиагональному виду {h[ 0 , Leg+1, ..., L£p, L'Vh+1, ..., L'hg, Ao + XBo}. (29) 13) Так как между строками пучка А + ХВ, а следовательно, и пучка Ар + ХВР нет линейной зависимости с постоянными коэффициентами, то rji > 0. 14) Если в данном пучке г = п, т. е. столбцы пучка линейно независимы, то в (26) будут отсутствовать первые р диагональных блоков вида Le (p = 0). Точно так же, если г = т, т. е. в А + ХВ строки линейно независимы, то в (26) будут отсутствовать диагональные блоки вида L'v (q = 0).
328 Гл. XII. Сингулярные пучки матриц Выбор индексов при е и rj связан с тем, что нам удобно здесь считать е = е2 = ... = £д = 0 и 77i = щ = ... = щ = 0. Заменяя фигурирующий в (29) регулярный пучок Ао + АД) его канонической формой (6) (см. § 2, с. 326), получим окончательно следующую квазидиагональную матрицу: {h[T;Lee+1,...,Lep;L'Vh+1,...,L'^ (30) где матрица J имеет жорданову или естественную нормальную форму, a N^ = = Е^ + АЯ<и>. Матрица (30) представляет собой каноническую форму пучка А + ХВ в самом общем случае. Для того чтобы по данному пучку непосредственно определить его каноническую форму (30), не осуществляя последовательно процесс приведения, мы, следуя Кронекеру, в следующем параграфе введем понятие минимальных индексов пучка. § 5. Минимальные индексы пучка. Критерий строгой эквивалентности пучков Пусть дан произвольный сингулярный пучок прямоугольных матриц А + ХВ. Тогда к многочленных столбцов #i(А), #2(А), ...,#&(А), являющихся решениями уравнения (А + ХВ)х = 0, (31) будут линейно зависимыми, если ранг многочленной матрицы, составленной из этих столбцов, X = [xi(X),x2(X), ...,a?fc(A)] меньше к. В этом случае существует А: многочленов р\(А),р2(A),...,pk(А), не равных одновременно тождественно нулю, таких, что Pi(A)a?i(A) + р2(Х)х2(Х) + .» +Р*(А)а*(А) = 0. Если же ранг матрицы X равен &, то подобной зависимости не существует, и решения xi(X),x2(X), ...,#&(А) линейно независимы. Среди всех решений уравнения (31) возьмем ненулевое решение Xi(X) наименьшей степени е\. Среди всех решений того же уравнения, линейно независимых от #i(A), выберем решение х2{Х) наименьшей степени е2. Очевидно, что е\ ^е2. Этот процесс продолжим, выбирая среди решений, линейно независимых от х\(Х) и #2(А), решение #з(А) минимальной степени еъ и т. д. Так как число линейно независимых решений уравнения (31) всегда ^ п, то этот процесс должен закончиться. Мы получим фундаментальный ряд решений уравнения (31) a?i(A), х2(\), .., хр(Х) (32) со степенями ег ^ е2 ^ ... ^ ер. (33) В общем случае фундаментальный ряд решений не определяется однозначно (с точностью до скалярных множителей) заданием пучка А + ХВ. Однако два различных фундаментальных ряда решений имеют всегда один и тот же ряд степеней Е\,е2,...,ер. Действительно, рассмотрим наряду с (32) второй фундаментальный ряд решений xi(X),x2(X),... со степенями Е\,е2,... Пусть среди степеней (33) Е\ = ... = £П1 < £щ+1 = ... = ЕП2 "^ •••
§5. Минимальные индексы пучка 329 и аналогично в ряду £i,£2,... £\ = ... = £ftx < £fii+l = ••• = ^пг ^ ••• Очевидно, что£1 =е\. Любой столбец х\(А) (% — 1,2, ...,ni) есть линейная комбинация столбцов #i(A),#2(A),...,#ni(A), так как в противном случае в ряду (32) можно было бы решение #ni+i(A) заменить решением Х{(Х) с меньшей степенью. Очевидно, что и, наоборот, любой столбец Х{(Х) (г = 1,2, ...,ni) является линейной комбинацией столбцов #i(A),#2(A), ...,Xfix-\-\ (А). Поэтому щ = = п\ и ещ+1 = £п1+ь Теперь аналогичными рассуждениями убеждаемся в том, что п2 = п2 и en2+i = 6n2+i и т. д. Каждое решение Xk(X) фундаментального ряда (32) дает линейную зависимость степени ей между столбцами матрицы А + ХВ (к = 1,2, ...,р). Поэтому числа £i,£2> ...,£р называются минимальными индексами для столбцов пучка А + АБ. Аналогично вводятся минимальные индексы 7/1,772, • ••jffa для строк пучка А + + АБ. При этом уравнение (А + А-В)# = 0 заменяется уравнением (А' + \В')у = О и числа 771,772,..., т?д определяются как минимальные индексы для столбцов транспонированного пучка А' + ХВ'. Строго эквивалентные пучки имеют одни и те же минимальные индексы. Действительно, пусть даны два таких пучка А = \В и Р(А + XB)Q (Р и Q — квадратные невырожденные матрицы). Тогда уравнение (30) для первого пучка после почленного умножения слева на Р может быть записано так: Р(А + XB)Q x х Q~xx = 0. Отсюда видно, что все решения уравнения (30) после умножения слева на Q-1 дают полную систему решений уравнения Р(А + \B)Qz = 0. Поэтому пучки А + ХВ и Р(А + XB)Q имеют одни и те же минимальные индексы для столбцов. Совпадение минимальных индексов для строк устанавливается переходом к транспонированным пучкам. Вычислим минимальные индексы для канонической квазидиагональной матрицы {/>[¥ ,L£g+1,...,Lep;L'nn+i,...,L'Vq,A0 + XB0} (34) [Ао + АД) — регулярный пучок, имеющий нормальную форму (6)]. Заметим предварительно, что полная система минимальных индексов для столбцов (строк) квазидиагональной матрицы получается соединением из соответствующих систем минимальных индексов отдельных диагональных блоков. Матрица L£ имеет только один индекс е для столбцов, а строки этой матрицы линейно независимы. Точно так же матрица L'v имеет только один индекс 77 для строк, а столбцы этой матрицы линейно независимы. Регулярный пучок Aq + АД) совсем не имеет минимальных индексов. Поэтому матрица (34) имеет минимальные индексы для столбцов £\ = ... = £д = 0, £д+1, ..., £р, а для строк 771 = .- = Vh = 0, 77/i+i, ..., щ. Заметим еще, что матрица L£ не имеет элементарных делителей, так как среди ее миноров максимального порядка е имеется минор, равный единице, и минор, равный Xе. Это же положение, разумеется, верно и для транспонированной матрицы L'£. Так как элементарные делители квазидиагональной матрицы получаются путем соединения элементарных делителей отдельных диагональных блоков (см. гл. VI, с. 140), то элементарные делители Х-матрицы (34) совпадают с элементарными делителями ее регулярного "ядра" Aq + АД.
330 Гл. XII. Сингулярные пучки матриц Каноническая форма пучка (34) вполне определяется заданием минимальных индексов ei,...,ep,r)i,...,r)q и элементарных делителей этого пучка или (что то же) строго эквивалентного ему пучка А + ХВ. Так как два пучка, имеющих одну и ту же каноническую форму, строго эквивалентны, то мы доказали следующую теорему. Теорема 5 (Кронекера). Для того чтобы два произвольных пучка прямоугольных матриц А + ХВ и А\ + ХВ\ одного и того же размера т х п были строго эквивалентны, необходимо и достаточно, чтобы эти пучки имели одни и те же минимальные индексы и одни и те же ("конечные" и "бесконечные") элементарные делители. В заключение для наглядности выпишем каноническую форму пучка А + ХВ, имеющего минимальные индексы в\ = 0, е^ = 1, £з = 2, щ = 0, щ = 0, щ = 2 и элементарные делители Л2, (Л + 2)2, /х3: 0 0 Л 1 Л 1 0 0 Л 1 Л 1 0 0 Л 1 1 Л 0 0 1 Л 0 0 1 Л 1 0 Л Л + 2 1 0 Л + 2 § 6. Сингулярные пучки квадратичных форм Пусть даны две комплексные квадратичные формы: п А(х,х) = ^2 aikXiXk, В(х,х) = ^2 bikXiXk; (36) i,k=l i,k=l они порождают пучок квадратичных форм А(х,х) + ХВ(х,х). Этому пучку форм соответствует пучок симметрических матриц А + ХВ (А' = А, В' = В). Если мы в пучке форм А(х,х) + ХВ(х,х) переменные подвергнем невырожденному линейному преобразованию х = Tz (\T\ ф 0), то преобразованному пучку форм A(z,z) + XB(z,z) будет соответствовать пучок матриц А + ХВ = Т'(А + ХВ)Т; (37) здесь Т — постоянная (т. е. не зависящая от Л) невырожденная квадратная матрица n-го порядка. Два пучка матриц А + ХВ и А + ХВ, связанные тождеством (37), называются конгруэнтными (ср. с определением 1 гл. X, с. 260). 15) Все не отмеченные элементы этой матрицы равны нулю. ■)• (35)
§ 6. Сингулярные пучки квадратичных форм 331 Очевидно, что конгруэнтность представляет собой специальный частный случай строгой эквивалентности пучков матриц. Однако в тех случаях, когда рассматривается конгруэнтность двух пучков симметрических (или кососим- метрических) матриц, понятие конгруэнтности совпадает с понятием строгой эквивалентности. Это утверждает Теорема 6. Два строго эквивалентных пучка комплексных симметрических (или кососимметрических) матриц всегда конгруэнтны между собой. Доказательство. Пусть даны два строго эквивалентных пучка симметрических (кососимметрических) матриц Л = А + ХВ и Л = А + ХВ: A = PAQ (А' = ±Л, А' = ±А; \Р\ ф О, \Q\ ф 0). (38) Переходя к транспонированным матрицам, получаем А = Q'AP'. (39) Из (38) и (39) найдем AQP'~l = P^Q'A. (40) Полагая U = QP'-\ (41) равенство (40) перепишем так: AU = U'А. (42) Из (42) легко следует AUk = U'kA (fc = 0,l,2,...) и вообще AS = S'A, (43) где S = №), (44) а /(Л) — произвольный многочлен относительно Л. Допустим, что этот многочлен выбран так, что \S\ Ф 0. Тогда из (43) найдем A = S'AS~1. (45) Подставляя полученное выражение для Л в (38), будем иметь А = PS'AS^Q. (46) Для того чтобы это соотношение было преобразованием конгруэнтности, нужно, чтобы выполнялось равенство (PS')' = S~lQ, которое может быть переписано так: S2 = QP'-1 = U. Но матрица S = f(U) удовлетворит этому уравнению, если в качестве /(Л) взять интерполяционный многочлен д/Л на спектре матрицы U. Это можно сделать, поскольку многозначная функция у/\ имеет однозначную ветвь, определенную на спектре матрицы С/, так как \U\ ф 0.
332 Гл. XII. Сингулярные пучки матриц После этого равенство (46) станет условием конгруэнтности А = Т'АТ (T = SQ = ^QP'-lQ). (47) Из доказанной теоремы и из теоремы 5 вытекает Следствие. Два пучка квадратичных форм А(х, х) + \В(х, ж), A(z, z) + XB(z, z) могут быть переведены друг в друга преобразованием х = Tz (\T\ ф 0) тогда и только тогда, когда пучки симметрических матриц А + ХВ и А + ХВ имеют одни и те же элементарные делители ("конечные" и "бесконечные") и одни и те же минимальные индексы. Примечание. Для пучка симметрических матриц строки и столбцы имеют одни и те же минимальные индексы: p = q; 6l =7?ь ..., ер = г}р. (48) Поставим следующий вопрос. Даны две произвольные комплексные квадратичные формы п п А(х,х) = 22 aikXiXk, В(х,х) = 22 bikXiXk- i,k=l i,k=l При каких условиях невырожденным преобразованием переменных х = Tz (\T\ ф Ф 0) можно одновременно привести эти формы к суммам квадратов J2*izl Х>*г2? (49) г=1 г=1 Аналогичный вопрос возникает для двух эрмитовых форм А(х,х) и В(х,х), но в этом случае вместо (49) следует писать п п ^2 ^iZiZi, ^ biZi*i-> (5°) i=l i=l причем здесь а* и bi (г = 1,2, ...,п) — вещественные числа. Допустим, что квадратичные формы А(х,х) и В(х,х) обладают указанным свойством. Тогда пучок матриц А + ХВ будет конгруэнтен пучку диагональных матриц {ai+A&i, a2 + A62, ..., ап + Л6П}. (51) Пусть среди диагональных двучленов ai + Xbi имеется ровно г (г ^ п) не равных тождественно нулю. Не нарушая общности, можно считать, что ai = &i = 0, ..., ап-г = Ъп-Г = 0, a; + Xbi Ф 0 (г = п - г + 1, ...,п). Полагая Aq + ХВо = {an_r+i + A6n_r-|_i, ..., ап + Л6П}, представим матрицу (51) в виде п — г { 0 ,Д) + АД)}. (52) Сопоставляя (52) с (34) (с. 329), видим, что в данной случае все минимальные индексы равны нулю. Кроме того, все элементарные делители имеют первую степень. Тем самым получена
§ 7. Приложения к дифференциальным уравнениям 333 Теорема 7. Две квадратичные формы А(х,х) и В(х,х) одновременным преобразованием переменных могут быть приведены к суммам квадратов [(49) или (50)] в том и только том случае, когда у пучка матриц А + ХВ все элементарные делители (конечные и бесконечные) первой степени, а все минимальные индексы равны нулю. Для того чтобы в общем случае одновременно привести две квадратичные формы А(х,х) и В(х,х) к некоторому каноническому виду, нужно заменить пучок матриц А + ХВ строго эквивалентным ему "каноническим" пучком симметрических матриц. Пусть пучок симметрических матриц А + ХВ имеет минимальные индексы е\ = ... = sg = 0, е9+\ Ф 0, ..., 6Р Ф 0 и элементарные делители \хих,[хи<1 ,...,\xUs бесконечные и (Л + Ai)Cl, (Л + А2)С2,..., (Л + А*)0* конечные. Тогда в канонической форме (30) g = h, p = q и eg+i = r?5+i, •••> sp = rjp. Заменим в (30) каждые два диагональных блока вида L£ и L'£ одним диагональным блоком ( Т J ), а каждый блок вида N^ = Е^ + ХН^ заменим строго эквивалентным симметрическим блоком 0 0 . 0 0 . 1 А . .011 . 1 А .00 , уЫ = 10 0. 0 0. : 1 . 10. . 0 1 . 1 0 . 0 0 дг(и) = у(и)]\[(и) = Кроме того, вместо регулярного диагонального блока J + ХЕ в (30) (J нова матрица), J + ХЕ = {(А + Ai)£(Cl> + #(ci),..., (А + Xt)E^ + #(ct)}, возьмем строго эквивалентный ему пучок Л*'}. (53) жорда- (54) (55) где 7М :V^[(\ + Xi)E^+H^]: 0 A + Ai А + А; 1 0 (* = l,2,...,t). (56) А + А* 1 Пучок А + ХВ строго эквивалентен симметрическому пучку А + ХВ = -h 11 '£9+1 о 0 Ас) (57) Две квадратичные формы А(х,х) и В(х,х) с комплексными коэффициентами преобразованием переменных х = Tz (\T\ ф 0) могут быть одновременно приведены к каноническому виду A(z,z) и B(z,z), определяемому равенством (57).
334 Гл. XII. Сингулярные пучки матриц § 7. Приложения к дифференциальным уравнениям Рассмотрим приложения полученных результатов к интегрированию системы га линейных дифференциальных уравнений первого порядка с п неизвестными функциями с постоянными коэффициентами16): п п £а**Л + £ь<Л^ = Д(0 (г = 1,2,..., га), (58) k=i k=i или, в матричной записи, Ax + B^=f(t); (59) здесь А = |Ы|, В = \\bik\\ (г = 1,2,...,т; к = 1,2,...,п), х = (а?1,а?2,...,а:п), / = (Л,/2, ...,/т)17) Введем новые неизвестные функции zi,Z2, ---,zn, связанные со старыми a?i, #2,...,#n линейным невырожденным преобразованием с постоянными коэффициентами: z = Qz [z = (zuz2,...,zn); |Q|#0]. (60) Кроме того, вместо уравнений (58) можно взять любые га независимых линейных комбинаций их, что равносильно умножению матриц A,B,f слева на квадратную невырожденную матрицу Р га-ro порядка. Подставляя Qz вместо х в (59) и умножая (59) почленно с лева на Р, получим Az+eft=m (61) ГДе ~ ~ ~ ~ ~ A = PAQ, B = PBQ, f = Pf = (fi,f2,...,fn). (62) При этом пучки матриц А + ЛБ и А + ЛБ строго эквивалентны друг другу: A + \B = P(A + \B)Q. (63) Выберем матрицы Р и Q так, чтобы пучок А + ЛБ имел каноническую квазидиагональную форму: 1 + ЛВ = {О, L£g+1, ..., L£p, L'nh+1, ..., L'„g, JV'4 ..., JV<4 J + As}. (64) В соответствии с диагональными блоками в (64) система дифференциальных уравнений распадается на и = р — д + q — h + s + 2 отдельных систем вида 0 • z = /, (65) 1+г L'e+t(iY^=f (i = l,2,...,p-g), (66) 16) Частный случай, когда т = п и система (58) разрешена относительно производных, был подробно исследован в гл V, § 5. Как известно, система линейных дифференциальных уравнений с постоянными коэффициентами любого s-ro порядка может быть приведена к виду (58), если все производные от неизвестных функций до (s — 1)-го порядка включительно дополнительно ввести в качестве новых неизвестных функций. 1Т) Напоминаем, что круглыми скобками обозначается столбцевая матрица. Так, х = = (#i, Х2,..., хп) — столбец с элементами х\, Х2, ..., хп.
§ 7. Приложения к дифференциальным уравнениям 335 "*+'• \dt) NiUk) (I) p-g+l+j Z p-g+l+j f (j = 1,2,...,q-h), d \ p-g+q-h+l+k Z p-g+q^h+1+k f (fc = 1,2,...,«), (^jiY-f- где z = / = f Z = (Zl,...,Zg), / = (/l,...,/ft), Z = (zg+1,...,), /=(/ft+l,...,) UJ ■ A + Bj, если Л(Л) = А + АВ. (67) (68) (69) (70) (71) (72) Таким образом, интегрирование системы (59) в самом общем случае сведено к интегрированию частных систем (65)-(69) такого же типа. В этих системах пучок матриц А + ХВ имеет соответственно вид 0, L£, L^, N^u\ J + \E. 1) Для того чтобы система (65) не была противоречивой, необходимо и достаточно, чтобы f = o, т. е. /i=0, ..., Д = 0. (73) В этом случае в качестве неизвестных функций zi,Z2,...,zg, составляющих столбец z, могут быть взяты произвольные функции аргумента t. 2) Система (66) представляет собой систему вида ®»т- (74) или, в подробной записи, ^+Z2=fl(t), *£ + Z3 = Mt), -. %■ + Ze+1 = IS)18)- (75) Такая система всегда совместна. Если в качестве z£+i (t) взять произвольную функцию аргумента £, то последовательными квадратурами из (75) определятся все остальные неизвестные функции ze,ze-i,...,zi. 3) Система (67) представляет собой систему вида чй)«-/. (76) 18) Мы изменили индексы при z и f для упрощения обозначений. Для того чтобы от системы (75) вернуться к системе (66), нужно е заменить на е% и к каждому индексу при z прибавить g + eg+i + ... + eg+i-i + г — 1, а к каждому индексу при / следует прибавить h + 6g + l + ... + Sg + i-l.
336 Гл. XII. Сингулярные пучки матриц или, в подробной записи, %=Ш, %+*1 = ?*(*), -, ^+*,-!=/,(*), ?ч = /ч+1(«)19). (77) Из всех уравнений (77), кроме первого, мы однозначно определяем гп,гп-д, ...,z\\ zi-fau z^-f,--^, ..., Zl _/2 __ + ... +(-1)» ___. (78) Подставляя полученное выражение для z\ в первое уравнение, получаем условие совместности _ _ _ 4) Система (68) представляет собой систему вида *<•>(!)* = /, (80) или, в подробной записи, U,Z2 , У uZz . Т U^u , Т Т / о 1 \ -^-+^1=/1, "^-+^2 =/2, .-, -Jj- + Zu-1 = Ju-ly ZU = JU. (Ы) Отсюда последовательно однозначно определяем решение „ _ 7 -у —7 - ibi -у — 7 dfc . ^2/3 , ^ 1\ц-1^ц-1/ц *« - /«, s«-i - Ju-i dt , ..., si - л л + ^ ... + i i; dtu_, • (82) 5) Система (69) представляет собой систему вида /*+!=/• (83) Как было показано в гл. V, § 5, общее решение такой системы имеет вид t z = e-Jtz0 + |e-J(*-r)/(r) dr; (84) о здесь zo — столбец с произвольными элементами (начальными значениями неизвестных функций при t = 0). Обратный переход от системы (61) к системе (59) осуществляется формулами (60) и (62), согласно которым каждая из функций х±, ...,жп является линейной комбинацией функций zi,...,zn, а каждая из функций fi(t),...,fm(t) линейно (с постоянными коэффициентами) выражается через функции fi(t),...,fm(t). Проведенный анализ показывает, что для совместности системы (58) в общем случае должны выполняться некоторые определенные линейные конечные и дифференциальные зависимости (с постоянными коэффициентами) между правыми частями уравнений. Если эти условия выполнены, то общее решение системы содержит (в общем случае) линейно как произвольные постоянные, так и произвольные функции. Характер условий совместности и характер решений (в частности, количество произвольных постоянных и произвольных функций) определяются минимальными индексами и элементарными делителями пучка А + ХВ, поскольку от этих индексов и делителей зависит каноническая форма системы дифференциальных уравнений (65)-(69). 19) Здесь, как и в предыдущем случае, мы изменили обозначения. См. предыдущую сноску.
ГЛАВА XIII МАТРИЦЫ С НЕОТРИЦАТЕЛЬНЫМИ ЭЛЕМЕНТАМИ В этой главе изучаются свойства вещественных матриц с неотрицательными элементами. Эти матрицы находят существенное применение в теории вероятностей при исследовании цепей Маркова ("стохастические матрицы", см. [25]) и в теории малых колебаний упругих систем ("осцилляционные матрицы", см. [7]). § 1. Общие свойства Начнем с определения. Определение 1. Прямоугольную матрицу А с вещественными элементами Л= \\aik\\ (i = l,2,...,m; A: = l,2,...,n) мы будем называть неотрицательной (обозначение: А ^ 0) или положительной (обозначение: А > 0), если все элементы матрицы А неотрицательны (соответственно положительны): а**. ^ 0 (соответственно а**. > 0). Определение 2. Квадратная матрица А = Ца^Цу называется разложимой, если при некотором разбиении всех индексов 1,2, ...,п на две дополнительные системы (без общих индексов) г1,г2,...,гм; &i,fc2, ...,/^ (м + у = п) aiakp =0 (а = 1,2,..., /л; (3 = 1,2,..., v). В противном случае матрицу А будем называть неразложимой. Под перестановкой рядов в квадратной матрице А = Ца^Цу мы будем понимать соединение перестановки строк с такой же перестановкой столбцов матрицы А. Определения разложимой и неразложимой матриц могут быть сформулированы так. Определение 2'. Матрица А = ||а^||у называется разложимой, если перестановкой рядов она может быть приведена к виду А = В 0 С D где В и D — квадратные матрицы. В противном случае матрица А называется неразложимой. Пусть матрица А = ||а^||у соответствует линейному оператору А в п-мерном векторном пространстве R с базисом ei,e2, ...,еп. Перестановке рядов в матрице А соответствует перенумерация базисных векторов, т. е. переход от базиса еье2,...,еп к новому базису ei = е^,е2 = е,-2,...,е'п = ejn, где (ji,j2, ...,jn) — некоторая перестановка индексов 1,2, ...,п. При этом матрица А переходит в подобную ей матрицу А = Т~1АТ (в каждой строке и в каждом столбце преобразующей матрицы Т один элемент равен единице, а все остальные элементы равны нулю). Под ^/-мерным координатным подпространством в R мы будем понимать любое подпространство в R с базисом е^е^, ...,е^и (1 ^ k\ < fc2 < ••• < ku ^ n). С каждым базисом ei,e2,...,en пространства R связаны С^ zz-мерных коорди-
338 Гл. XIII. Матрицы с неотрицательными элементами натных подпространств. Определение разложимой матрицы может быть еще дано в следующей форме: Определение 2". Матрица А = ||о^Ц™ называется разложимой в том и только том случае, когда соответствующий этой матрице оператор А имеет 1/-мерное инвариантное координатное подпространство с v < п. Будет доказана Лемма 1. Если А ^ 0 — неразложимая матрица ип — порядок матрицы А, то (Е + А)71-1 > 0. (1) Доказательство. Для доказательства леммы достаточно показать, что для любого вектора (столбца)х) у ^ 0 (у ф 0) имеет место неравенство (Е + А)п-гу>0. Это же неравенство будет установлено, если мы только покажем, что при условии у ^ 0 и у ф 0 вектор z = (Е + А)у всегда имеет меньше нулевых координат, нежели вектор у. Допустим противное. Тогда векторы у и z имеют одни и те же нулевые координаты2). Не нарушая общности рассуждений, можно принять, что столбцы у и z имеют вид3) У = (и>0, v > 0), где столбцы и и v имеют один и тот же размер. Полагая соответственно будем иметь и 1 ° + А = 1 Ац А21 1 Ац А21 А12 А22 А12 I -422 | и 0 5 = V 1 ° 1 откуда 0. A2i и Поскольку и > 0, то отсюда вытекает -421 = 0. Это равенство противоречит неразложимости матрицы А. Таким образом, лемма доказана. Введем в рассмотрение степени матрицы А: Aq = #1 (5 = 1,2,...). Тогда из леммы вытекает Следствие. Если А^0 — неразложимая матрица, то для любой пары индексов (1 ^) г, к (^ п) существует целое положительное число q такое, что «а} > о. (2) х) Здесь и далее в этой главе мы под вектором будем понимать столбец из п чисел. Этим самым мы как бы отождествляем вектор со столбцом его координат в том базисе, в котором данная матрица А = \\aik\\i задает некоторый линейный оператор. 2) Здесь мы исходим из того, что z = у + Ау и Ay ^ 0; поэтому положительным координатам вектора у соответствуют положительные координаты вектора z. 3) К такому виду можно привести столбцы у и z при помощи некоторой (одной и той же для у и z) перенумерации координат.
§2. Спектральные свойства неразложимых матриц 339 При этом число q всегда можно выбрать в пределах q ^ т — 1, если i Ф k, ,~ч q ^ га, если г = к, ^ ' где га — степень минимального многочлена ф(\) матрицы А. Действительно, обозначим через г (Л) остаток от деления (А + l)n_1 на ф(Х). Тогда в силу (1) г (А) > 0. Так как степень г(Л) меньше га, то из полученного неравенства вытекает, что при любых (1 ^)г,&(^ п) по крайней мере одно из неотрицательных чисел г (2) (т-1) Oik5 o-ik, a>ik > •••> aik не равно нулю. Поскольку Sik = 0 при г ф к, то отсюда следует первое из соотношений (3). Второе соотношение (для г = к) получается аналогично, если неравенство г (А) > 0 заменить неравенством Аг(А) > О4). Замечание. Это следствие леммы показывает, что в неравенстве (1) можно заменить число п — 1 числом т — 1, где т — степень минимального многочлена матрицы А. § 2. Спектральные свойства неразложимых неотрицательных матриц 1. Перрон в 1907 г. установим замечательные свойства спектра (т. е. совокупности характеристических чисел и собственных векторов) положительных матриц5). Теорема 1 (Перрона). Положительная матрица А = Ца^Ц" всегда имеет вещественное и притом положительное характеристическое число г, которое является простым корнем характеристического уравнения и превосходит модули всех других характеристических чисел. Этому "максимальном^ характеристическому числу г соответствует собственный вектор z = (^1,^2, ...,^п) матрицы А с положительными координатами Zi > 0 (г = 1,2, ...,п)6). Положительная матрица является частным видом неразложимой неотрицательной матрицы. Фробениус7) обобщил теорему Перрона, исследовав спектральные свойства неразложимых неотрицательных матриц. Теорема 2 (Фробениуса). Неразложимая неотрицательная матрица А = = ll^felli1 всегда имеет положительное характеристическое число г, которое является простым корнем характеристического уравнения. Модули всех других характеристических чисел не превосходят числа г. "Максимальному" характеристическому числу г соответствует собственный вектор z с положительными координатами. Если при этом А имеет h характеристических чисел Ло = г, Ai, ...,An_i, no модулю равных г, то эти числа все различны между собой и являются корнями уравнения \h - rh = 0, (4) 4) Произведение неразложимой неотрицательной матрицы на положительную всегда представляет собой положительную матрицу. 5) См. [229,а,б], а также [7, с. 100]. 6) Поскольку г является простым характеристическим числом, то собственный вектор я, отвечающий этому числу, определяется с точностью до скалярного множителя. По теореме Перрона все координаты вектора z отличны от нуля, вещественны и одного знака. Умножением вектора z на ±1 можно сделать все его координаты положительными. В этом последнем случае вектор (столбец) z = (21,22, ...,2п) будем называть положительным (ср. с определением 1). 7) См. [182,d,e].
340 Гл. XIII. Матрицы с неотрицательными элементами и вообще совокупность всех характеристических чисел Ao,Ai, ...,An_i матрицы А = Ha^Hf, рассматриваемая как система точек в комплексной Х-плоскости, переходит сама в себя при повороте этой плоскости на угол 2-KJh. При h > 1 перестановкой рядов можно привести матрицу А к следующему "циклическому" виду: 0 А12 0 ... О О 0 А2г ... О А = Ah-i,h О (5) 0 0 0 Ahl О О где вдоль диагонали стоят квадратные блоки. Поскольку теорема Перрона следует как частный случай из теоремы Фробе- ниуса, то мы будем доказывать только последнюю8). Предварительно условимся относительно некоторых обозначений. Мы будем писать С ^D или D^C, где С mD — вещественные прямоугольные матрицы одинакового размера т х п, С = \\cik\\, D = ||4*|| (г = 1,2,...,ш; * = 1,2,...,п), в том и только том случае, когда Cik^dik (г = 1,2,..., га; к = 1,2, ...,п). (6) Если во всех неравенствах (6) можно отбросить знак равенства, то мы будем писать С < D или D > С. В частности, С ^ 0 (С > 0) обозначает, что все элементы матрицы С неотрицательны (соответственно положительны). Кроме того, через С+ мы будем обозначать mod С, т. е. матрицу, которая получается, если все элементы матрицы С заменить их модулями. 2. Доказательство теоремы Фробениуса9). Для фиксированного вещественного вектора х = (х±,Х2, —,хп) ^ 0 (х ф 0) полагаем rx = mm (Ax)j Х{ (Ax)i = ^2а{кхк; г = 1,2,...,п к=1 при этом при определении минимума исключаются те значения индекса г, для которых Xi = 0. Очевидно, гх ^ 0 и гх — наибольшее из вещественных чисел р, для которых имеет место неравенство рх ^ Ах. Мы докажем, что функция гх достигает своего наибольшего значения г на некотором векторе z ^ 0: г = rz = max rx = max mm {Ax)i (7) Из определения rx следует, что при умножении вектора х ^ 0 (х ф 0) на число А > 0 величина гх не меняется. Поэтому при разыскании максимума функции гх можно ограничиться замкнутым множеством М, состоящим из векторов х, для которых ж^0, (хх) = ^2^ = 1. 8) Непосредственное доказательство теоремы Перрона см. [7, с. 100 и далее]. 9) Приведенное здесь доказательство принадлежит Виландту [259].
§2. Спектральные свойства неразложимых матриц 341 Если бы функция гх была непрерывна на множестве М, то существование максимума было бы обеспечено. Однако функция гх непрерывна в любой "точке" х > О, но в граничных точках множества М, где одна из координат обращается в нуль, может испытывать разрывы. Поэтому мы вместо множества М введем множество N, состоящее из всех векторов у вида у = (Е + А)п~1х (хеМ). Множество N, как и М, ограничено и замкнуто и, согласно лемме 1, состоит из положительных векторов. Кроме того, умножая обе части неравенства на (Е + А)71-1 > 0, получаем гху^Ау [у = (Е + А)п-1х]. Отсюда, исходя из определения гу, находим Гх ^ Ту- Поэтому при разыскании максимума гх мы можем заменить множество М множеством N, состоящим только из положительных векторов. На ограниченном замкнутом множестве N функция гх непрерывна и поэтому достигает своего наибольшего значения на некотором векторе z > 0. Любой вектор z ^ 0, для которого Г z = Г, (8) будем называть экстремальным. Докажем теперь, что: 1) определенное равенством (7) число г положительно и является характеристическим числом матрицы А; 2) любой экстремальный вектор z положителен и является собственным вектором матрицы А для характеристического числа г, т. е. г > 0, z > 0, Az = rz. (9) п Действительно, если и = (1,1,...,1), то ru = min / а^. Но тогда ги > 0, п k=1 поскольку ни одна строка неразложимой матрицы не может состоять сплошь из нулей. Следовательно, и г > 0, так как г ^ ги. Далее, пусть x = (E + A)n-1z. (10) Тогда, согласно лемме 1, х > 0. Допустим теперь, что Az — rz ф 0. Тогда в силу (1), (8) и (10) получаем последовательно Az - rz ^ 0, (Е + A)n~l {Az - rz) > 0, Ах - гх > 0. Последнее же неравенство противоречит определению числа г, так как из этого неравенства следовало бы Ах — (г + е)х > 0 при достаточно малом е > 0, т. е. гх ^ г + е > г. Следовательно, Az = rz. Но тогда 0 < х = (Е + A)n~lz = (1 + r)n~lz, откуда вытекает z > 0.
342 Гл. XIII. Матрицы с неотрицательными элементами Покажем теперь, что модули всех характеристических чисел не превосходят г. Пусть Ау = ау (у#0). (11) Переходя к модулям в левой и правой частях равенства (11), получим10) \а\у+ ^ Ау+, (12) откуда N ^ гу+ ^ г. Допустим, что характеристическому числу г соответствует какой-либо собственный вектор у: Ау = гу (у/0). Тогда, полагая в (11) и (22) а = г, заключаем, что у+ — экстремальный вектор и, следовательно,^ > 0, т. е. у = (уг,у2, —,Уп), где у*/0 (г = 1,2, ...,п). Отсюда следует, что характеристическому числу г соответствует только одно собственное направление, так как при наличии двух линейно независимых собственных векторов z и z\ мы смогли бы подобрать числа с и d так, чтобы собственный вектор у = cz + dz\ имел нулевую координату, а это по доказанному невозможно. Введем в рассмотрение присоединенную матрицу для характеристической матрицы ХЕ — A: B(\) = \\Bik(\)\\? = A(\)(\E-A)-\ где А (А) — характеристический многочлен матрицы A, a Bik(\) — алгебраическое дополнение элемента Afe — a^ в определителе А (А). Из того, что характеристическому числу г соответствует (с точностью до множителя) только один собственный вектор z = (zi,Z2,...,zn), где z\ > 0, z^ > О, ..., zn > О, вытекает, что В (г) /О и что в любом ненулевом столбце матрицы В (г) все элементы отличны от нуля и одного знака. То же положение имеет место и для строк матрицы В(г), поскольку в предыдущих рассуждениях матрицу А можно заменить транспонированной матрицей А'. Из отмеченных свойств строк и столбцов матрицы А вытекает, что все Bik(r) (г,А; = 1,2,...,п) отличны от нуля и одного знака а. Поэтому п аД'(г)=<т£я«(г)>0, г=1 т. е. А'(г) ф 0 и г — простой корень характеристического уравнения А (А) = 0. Так как г — максимальный корень многочлена А (А) = Ап + ..., то А (А) возрастает при А = г. Поэтому А'(г) > 0 и а = 1, т. е. Bik(r)>0 (i,fc = l,2,...,n). (13) 3. Переходя к доказательству второй части теоремы Фробениуса, мы воспользуемся следующей интересной леммой11). Лемма 2. Если А = Ца^Ц" и С = \\cik\\i — две квадратные матрицы одного и того же порядка п, причем А — неразложимая матрица и С+^Л12), (14) то между любым характеристическим числом 7 матрицы С и максимальным характеристическим числом г матрицы А имеет место неравенство Ы ^ г. (15) 10) Относительно обозначения у+ см. с. 340. п) См. [259]. 12) С — комплексная матрица, ai^O.
§2. Спектральные свойства неразложимых матриц 343 В соотношении (15) знак равенства может иметь место в том и только том случае, когда C = ei(fiDAD~\ (16) где ег(р = j/r, a D — диагональная матрица, у которой диагональные элементы по модулю равны единице {D+ = Е). Доказательство леммы. Обозначим через у собственный вектор матрицы С, отвечающей характеристическому числу 7: Cy = jy (7/0). (17) Из (14) и (17) находим Ь\У+ ^ С+2/+ ^ Ау+. (18) Поэтому М < ГУ+ <; Г« Разберем теперь подробно случай |7| = г. В этом случае из (18) следует, что у+ — экстремальный вектор для матрицы А и, следовательно, у+ > 0 и у+ — собственный вектор матрицы А для характеристического числа г. Поэтому соотношение (18) принимает вид Ау+ = С+у+ = гу+, 2/+>0. (19) Отсюда в силу (14) С+ = А. (20) Пусть у = (уиУ2,-,Уп), где Уз = \Уз\е^5 (j = l,2,...,n). Определим диагональную матрицу D равенством D = {e^1,e^2,...,e^n}. Тогда У = Dy+. Подставляя это выражение для у в (17) и полагая там j = гег<р, легко найдем Fy+=ry+, (21) где F = e'^D^CD. (22) Сопоставляя (19) с (21), получим Fy+ = С+у+ = Ау+. (23) Но в силу (22) и (20) F+ = С+ = А. Поэтому из (23) находим Поскольку у+ > 0, то это равенство может иметь место лишь тогда, когда т. е. e-i<PD-iCD = A
344 Гл. XIII. Матрицы с неотрицательными элементами Отсюда C = ei(pDAD~1. Лемма доказана. 4. Вернемся к теореме Фробениуса и применим доказанную лемму к неразложимой матрице А ^ 0, имеющей ровно ft различных характеристических чисел с максимальным модулем г: Ао = re**70, Ai = re<Vl, ..., Xh-i = re***-1 (0 = <p0 < <рг < чъ < - < 4>h-i < 2тг). Тогда, полагая в лемме С = А и 7 = А*, для любого & = 0,1,..., /i — 1 будем иметь Л = е^£М£^\ (24) где Dk — диагональная матрица с D% = Е. Пусть снова z — положительный собственный вектор матрицы А, соответствующий максимальному характеристическому числу г: Az = rz (z>0). (25) Тогда, полагая V = Dkz (у+ = *>0), (26) из (25) и (26) найдем Ау = ХкУ (А* = ге^к- к = 0,1,..., ft- 1). (27) О 1 /i-l Последние равенства показывают, что векторы У, У,..., У , определяемые из (26), являются собственными векторами матрицы А для характеристических чисел Ao,Ai,...,Afc_i. Из (24) следует, что не только Ао = г, но и каждое из характеристических чисел Ai,...,Afc_i матрицы А является простым. Поэтому собственные векто- к ры У, а значит, и матрицы Dk (к = 0,1, ...,ft — 1) определяются с точностью до скалярных множителей. Для однозначного определения матриц Do,Di,...,Dh-i мы будем выбирать первые диагональные элементы этих матриц равными еди- о нице. Тогда D0 = Eny = z>0. Далее, из (24) следует А = e^^DjDfAD^Dj1 (j, к = 0,1,..., ft - 1). Отсюда аналогично предыдущему заключаем, что вектор есть собственный вектор матрицы А соответствующий характеристическому ЧИСЛУ re*(Vi±Vk). Поэтому et((pj±(ph) совпадает с одним из чисел егт, а матрица DjD^1 — с соответствующей матрицей Di, т. е. при некоторых (0 ^) /ьЬ (^ ft — 1) ei(4>i+4>h) = eimx ^ еИч>*-ч>*) = e^i2> DjDk = Dh, DjD^1 = Dh. Таким образом, числа ег(ро,ег<р1, ...,еЩн~х и соответствующие диагональные матрицы Do,Di,...,Dh-i образуют две изоморфные между собой мультипликативные абелевы группы.
§2. Спектральные свойства неразложимых матриц 345 В каждой конечной группе, состоящей из h различных элементов, h-я степень любого элемента равна единице группы13). Поэтому ег1ро,ег(р1, ...,ew-1 — корни h-й степени из единицы. Так как существует всего h различных корней из единицы и <р0 = О < <pi < <f2 < ... < (fh-i < 27Г, то 4>к eiVk = £к ^ (k = 0,l,2,..,ft-l) (e = ei(fii = e27ri//l, к = О,1, ..,/* - l), (28) (29) А* = re* (* = 0,l,...,ft-l). Числа Ao,Ai,...,А/г-i образуют полную систему корней уравнения (4). В соответствии с (28) будем иметь14) Dk = Dk (D = D1; k = 0,l,...,h-l). (30) Теперь равенство (24) дает нам (при к = 1) A = e2*i'hDAD-1. (31) Отсюда следует, что матрица А при умножении на е2"*1!*1 переходит в подобную матрицу, и, следовательно, вся система п характеристических чисел матрицы А при умножении на e27ri/h переходит в себя15). Далее, Dh = Е, поэтому все диагональные элементы в D — корни h-й степени из единицы. Перестановкой рядов в А (и соответственно в D) можно добиться того, чтобы матрица D имела следующий квазидиагональный вид: D = {тЕ0, тЕи .., ъ-гЕе-г], (32) где Eq,Ei, ...,Es-i — единичные матрицы, а Щ = е1^ , 2тг Фр = пр — (пр целое; р = 0,1,..., 5 — 1; 0 = щ < п\ < ... < ns_i < h). Очевидно, что s ^ h. Записывая А в блочном виде [в соответствии с (32)]: А = An A2i А12 А22 Als А2$ и\ U2 (33) 13) См., например, [39, с. 324]. 14) Здесь мы опираемся на изоморфность мультипликативных групп ег^°,ег¥?1,... ...е^-1 и Д),А,...,1>л-1. 15) Число А есть наибольшее целое число, обладающее этим свойством, поскольку матрица А имеет ровно h характеристических чисел с максимальным модулем г. Кроме того, из (31) вытекает, что все характеристические числа матрицы разбиваются на системы (по h чисел в каждой) вида /ло^/лов, ...,//о£/г_1 и что в пределах каждой такой системы любым двум характеристическим числам отвечают элементарные делители соответственно одинаковых степеней. Одну из таких систем образуют корни Ао, Ai,..., Xh-i уравнения (4).
346 Гл. XIII. Матрицы с неотрицательными элементами заменим равенство (31) системой равенств tSlpq — Slpq Vp-i (p,q= 1,2,.. .,s;e = e2"'h). (34) Отсюда при любых р и q либо 77^—1/77^—1 = £, либо Apq = 0. Возьмемр = 1. Поскольку все матрицы Ai2,Ais, ...,-Aie не могут одновременно обратиться в нуль, то одно из чисел 771/770, ш/щ, •••, Vs-i/vo (vo = 1) должно равняться е. Это возможно лишь при щ = 1. Тогда 771/770 = £ и Ац = Ахз = ... ... = А\8 = 0. Полагая в (34) р = 2, аналогично найдем, что П2 = 2 и что Л21 = = А.22 = А.24 = ... = A2s = 0 и т. д. В результате получим А = А12 0 0 А23 0 A$i 0 As2 0 s—l,s При этом 7ii = 1, П2 = 2, ..., ns_ равенства (34) стоят множители = s — 1. Но тогда при р = s в правых частях ^g-l _ e(q-s)2iri/h TJs-1 fa = 1,2,...,в). Одно из этих чисел должно равняться е = е27ггА. Это возможно, лишь когда s = = h и q = 1 и, следовательно, AS2 = ... = Ass = 0. Таким образом, D = {E0l eEu е2Е2, ..., eh~1Eh-1}, и матрица А имеет вид (5). Теорема Фробениуса доказана полностью. 5. Сделаем несколько замечаний к теореме Фробениуса. Замечание 1. При доказательстве теоремы Фробениуса мы попутно установили, что для неразложимой матрицы А ^ 0, имеющей максимальное характеристическое число г, присоединенная матрица В{\) при X = г положительна: В(г) > 0, (35) т. е. Bik(r)>0 (t,fc = l,2,...,n), (35') где Bik(r) — алгебраическое дополнение элемента гды — сьы в определителе \гЕ-А\. Рассмотрим теперь приведенную присоединенную матрицу (см. гл. IV, § 6) где Dn_i(A) — наибольший общий делитель (со старшим коэффициентом единица) всех многочленов Bik(\) (i,k = 1,2, ...,п). При этом из (35') следует, что Dn-i(r) ф 0. Все корни многочлена Z)n_i(A) являются характеристическими числами16), отличными от г. Поэтому все корни Dn-i(\) либо комплексны, либо вещественны, но меньше г. Отсюда Dn-i (г) > 0, что в соединении с (35) дает С(г) = -^->017). (36) 16) Ai-i(A) является делителем характеристического многочлена Dn(X) = \ХЕ — А\. 17) В следующем параграфе будет доказано, чти для неразложимой матрицы В(Х) > 0, С(А) > 0 при любом вещественном А ^ г.
§2. Спектральные свойства неразложимых матриц 347 Замечание 2. Неравенства (35') позволяют определить границыдля величины максимального характеристического числа г. Введем обозначения п Si = y^aik (г = 1,2, ...,n), s= min s^ S= max s^. ^—' l<i<n l<i<n k=l Тогда для неразложимой матрицы А ^ О з ^ г ^ 5, (37) причем знак равенства слева или справа от г имеет место лишь при s = S, т. е. когда все "строчные суммы" si,$2,—,sn равны между собой18). Действительно, прибавим к последнему столбцу характеристического определителя г - an -ai2 • •. -ain д / ч | -«21 Г - a22 • • • ~«2п —ап\ —аП2 ... г — ann все предыдущие столбцы и разложим после этого определитель по элементам последнего столбца. Получим п 5^(г - 8к)Впк(г) = 0. fc=l Отсюда в силу (35') вытекает неравенство (37). Замечание 3. Неразложимая матрица А ^ 0 не может иметь двух линейно независимых неотрицательных собственных векторов. Действительно, пусть, помимо положительного собственного вектора z > 0, соответствующего максимальному характеристическому числу г, матрица А имеет еще собственный вектор у ^ 0 (линейно независимый от z) для характеристического числа а: Ау = ау (у ф 0; у ^ 0). Поскольку г — простой корень характеристического уравнения \ХЕ — А\ = = 0, то афт. Обозначим через и положительный собственный вектор транспонированной матрицы А! для X = г: А'и = ги (и>0). Тогда19) г(у,и) = {у, А'и) = (Ау,и) = а(уи); отсюда, поскольку а ф г, (У,и) =0, а это невозможно при и > 0, у ^ 0, у ф 0. 18) Установлению для г интервала, более узкого, нежели (s,5), посвящены работы [207; 222,а; 161,а, гл. IV]. 19) Если у = (у1,у2,—,Уп) и и = (tti,tt2,...,ttn), то под (у,и) мы понимаем "скалярное п произведение" у'и = У_\Угиг- Тогда (у,А'и) = у'А'и и (Ау,и) = (Ау)'и = у'А'и.
348 Гл. XIII. Матрицы с неотрицательными элементами (Ах) Другими словами, поскольку rx = min -——, то и l<i<n Xi Замечание 4. При доказательстве теоремы Фробениуса мы установили следующую характеристику максимального собственного числа г неразложимой матрицы А ^ 0: г = max rx, где гх — наибольшее из чисел р, для которых имеет место неравенство рх ^ Ах. -, то 1 (Ax)i г = max mm -——. Совершенно аналогично можно для любого вектора х ^ 0 (х ф 0) определить гх как наименьшее из чисел а, удовлетворяющих неравенству ах ^ Ах, т. е. положить г* = тах №к. l^i^n Xi При этом, если при некотором г имеют место соотношения Xi — 0, (Ax)i Ф 0, то следует считать гх = +оо. Совершенно так же, как и для функции гж, доказывается, что функция гх достигает своего наименьшего значения г на некотором векторе v > 0. Покажем, что число ?, определяемое равенством r= min vx = min max LJEii (38) (ж^О) (ж^О) 1<г^п Xj совпадает с числом г, а вектор г; ^ 0 (г; / 0), на котором достигается этот минимум, является собственным вектором матрицы А при А = г. Действительно, rv-Av^0 (О 0, ^#0). Допустим, что здесь знак ^ нельзя заменить знаком равенства. Тогда согласно лемме 1 (Е + A)71-1 (rv - Av) > 0, (Е + A)n~lv > 0. (39) Полагая u = (E + A)n~1v>0, будем иметь ги > Аи, и, следовательно, при достаточно малом е > 0 (г-е)и>Аи (и>0), что противоречит определению числа г. Итак, Av = rv. Но тогда и = (Е + A)n~lv = (\ + r)n-1v. Поэтому из и > 0 следует v > 0. В силу замечания 3 отсюда г = г.
§3. Разложимые матрицы 349 всегда следует Таким образом, мы имеем для числа г двойную характеристику: г = max min -—— = min max -——, (40) причем доказано, что max или min достигается только на положительном (ж^О) (ж^О) собственном векторе для Л = г. Из установленной характеристики числа г вытекают неравенства20) min (AxU max (AxU ^ Q ^ Q) (41) l^i^n Xi l^i^n Xi Замечание 5. Поскольку в (40) max и min всегда достигаются только на (х^О) (х^О) положительном собственном векторе неразложимой матрицы А ^ 0, то из неравенств rz ^ Az, О 0, z ф 0 или rz ^ Az, z^O, z ф 0 Az = rz, z > 0. § 3. Разложимые матрицы 1. Установленные в предыдущем параграфе спектральные свойства неразложимых неотрицательных матриц не сохраняются при переходе к разложимым матрицам. Однако поскольку произвольная неотрицательная матрица А ^ 0 всегда может быть представлена как предел последовательности неразложимых и даже положительных матриц Ат: А = lim Ат (Ат > 0, т = 1,2,...), (42) т—>-оо то некоторые из спектральных свойств неразложимых матриц в ослабленной форме имеют место и для разложимых матриц. Для произвольной неотрицательной матрицы А = Ца^Ц" будет доказана следующая Теорема 3. Неотрицательная матрица А = Ца^Цу всегда имеет неотрицательное характеристическое число г такое, что модули всех характеристических чисел матрицы А не превосходят г. Этому "максимальному" характеристическому числу г соответствует неотрицательный собственный вектор Ау = гу (О 0, У Ф 0)- Доказательство. Пусть для матрицы А имеет место представление (42). Обозначим через г^ и у(т^ максимальное характеристическое число положительной матрицы Ат и соответствующий этому числу нормированный21) положительный собственный вектор: Ату^ = rNyN [(</(шУw)) = 1, </(w) > 0; т = 1,2,...]. (43) 20) См. [167], а также [7, с. 325] и далее. 21) Под нормированным вектором мы понимаем столбец у = (2/1,2/2, ...,2/п), для которого (у у) = ^у2г = 1.
350 Гл. XIII. Матрицы с неотрицательными элементами Тогда из (42) следует, что существует предел limr(m) =r, где г — характеристическое число матрицы А. Из того, что г^ > 0 и г^ > > |AJj |, где Aq — любое характеристическое число матрицы Ат (га = 1,2,...), предельным переходом получаем г > 0, г ^ |А0|, (44) где Ао — любое характеристическое число матрицы А. Этот же предельный переход дает нам вместо (35) В (г) ^ 0. (45) Далее, из последовательности нормированных собственных векторов у(т) (га = 1,2,...) можно выделить подпоследовательность у(тр) (р = 1,2,...), сходящуюся к некоторому нормированному (и, следовательно, не равному нулю) вектору у. Перейдем к пределу в обеих частях равенства (43), давая га последовательность значений тр (р = 1,2,...). Получим Ау = гу (у ^ 0, у ф 0). Теорема доказана. Замечание. При предельном переходе (42) неравенства (37) сохраняются. Поэтому эти неравенства имеют место для произвольной неотрицательной матрицы. Однако условие, при котором в (37) имеет место знак равенства, для разложимой матрицы уже неверно. 2. Установим ряд важных предложений для матриц с неотрицательными элементами. 1°. Если А = \\aik\\i — неотрицательная матрица с максимальным характеристическим числом г, то (\Е-А)-г^0, -^-(АЯ-А)"1 ^0 при \>г. (46) Действительно, при А > г ^ 0 справедливо разложение °° A3 (АЯ-Л)-1^^^, (47) и, следовательно, A(AE-A)-1=-f;^0. (48) 3=0 2°. Если А = \\aik\\i — неотрицательная матрица с максимальным характеристическим числом г, а В(Х) и С (А) — ее присоединенная и приведенная присоединенная матрицы, то В(Х) ^ 0, С(А) ^ 0 при Х^г. (49) Поскольку В(Х) = (ХЕ - А)"1 А(А), С(А) = (ХЕ - А)~1ф{Х) и А(А) > 0, ф(Х) > 0 при А > г, (50) то из первого неравенства (46) сразу вытекают соотношения (49). 3°. Если А = \\aik\\i — неразложимая матрица с максимальным характеристическим числом г, то (\Е-А)-г>0, ^-(ХЕ-А)-1 <0 при А>г, (51)
§3. Разложимые матрицы 351 В(Х) > О, С(А) > О при Х^г. (52) Действительно, согласно следствию леммы 1 (с. 338) в случае неразложимой матрицы А ^ 0 в соотношениях (47) и (48) можно отбросить знак равенства. Тогда и В(Х) > О, С(Х) > 0 при А > г. Но, как было показано в § 2, для неразложимой матрицы В (г) > О, С (г) > 0. Следовательно, справедливы неравенства (52). 4°. Максимальное характеристическое число г' любого главного минора (порядка < п) неотрицательной матрицы А = Ца^Цу не превосходит максимального характеристического числа г матрицы А: г' ^ г. (53) Если для главного минора (п — \)-го порядка г' < г, то для характеристического определителя А (А) = |А.Е — А\ имеем неравенство А (А) < 0 при г' < А < г. (54) Если А — неразложимая матрица, то в (53) знак равенства всегда отпадает. Если А — разложимая матрица, то по крайней мере для одного главного минора в (53) имеет место знак равенства. Действительно, пусть для конкретности г' — максимальное характеристическое число матрицы А\ = WaikW^Lii имеющей характеристический многочлен Ai(A) = Впп(Х). Тогда Впп(г') = 0, и в случае неразложимой матрицы А, согласно (52), Впп(Х) > 0 при А ^ г. Следовательно, г' < г. Отсюда в случае разложимой матрицы предельным переходом получаем неравенство (53). Пусть г' < X < г. Тогда, разлагая определитель А (А) по элементам последней строки и последнего столбца, получаем п—1 А(А) = Ах(А)(А - апп) - £ Ag\x)ainank, (55) i,k=l где A\jJ (A) — алгебраическое дополнение элемента Хбц^ — а^ в определителе Ai(A) = Впп(Х) (г, к = 1,2, ...,п — 1). Разделим обе части тождества (55) на Ai(A): дт n_1 ^-^- = А - апп - ^ {(ХЕ ~ Ai)~1}ika>inank- (56) i,k=l Используя второе неравенство (46) для матрицы А, замечаем, что при А > > г' первый член А — апп в правой части (56) монотонно возрастает, а второй не убывает. Следовательно, отношение A(A)/Ai(A) монотонно возрастает при А > > г'. Но тогда это отношение отрицательно при г' < X < г, поскольку А (г) = 0. Но Ai(A) > 0 при А > г'. Следовательно, имеет место неравенство (54). Мы установили справедливость неравенства (53) для миноров (п — 1)-го порядка. Постепенным переходом отп — 1кп — 2, отп — 2кп — Зит. д. мы докажем справедливость неравенства (53) (без знака = в случае неразложимой матрицы) для главного минора любого порядка. Если А — разложимая матрица, то перестановкой рядов она может быть представлена в виде В 0 С D А = Тогда число г должно быть характеристическим числом одного из двух главных миноров В и D. Предложение 4° доказано. Из 4° вытекает
352 Гл. XIII. Матрицы с неотрицательными элементами 5°. Если А ^ 0 и в характеристическом определителе г - an -aw • • • -ciin — Q>21 Т — CL22 . . • — 02п —ani —аП2 ... г — апп | какой-либо из главных миноров обращается в нуль (матрица А разложима), то обращается в нуль любой "объемлющий" главный минор и, в частности, один из главных миноров (п — 1)-го порядка #п(А), #22(А), ..., Впп(Х). Из 4° и 5° следует 6°. Матрица А^О является разложимой в том и только том случае, когда в одном из соотношений Вц(г)^0 (г = 1,2,..,п) имеет место знак равенства. Из 4° вытекает также 7°. Если г — максимальное характеристическое число матрицы А ^ О, то при любом А > г все главные миноры характеристической матрицы А\ = ХЕ — А положительны: Aa(||J;;;|j)>0 (Л>г; l<ti<t2<...<tp<n; р=1,2,...,п). (57) Нетрудно видеть, что и, обратно, из неравенств (57) следует Л > г. Действительно, п А(Л + ii) = |(Л + ц)Е - А\ = \АХ + piE\ = Y. S^U~k> где Sk — сумма всех главных миноров к-го порядка характеристической матрицы А\ = Ai£ — А (к = 1,2, ...,п)22). Поэтому, если при некотором вещественном Л все главные миноры характеристической матрицы А\ положительны, то при любом \х ^ О Л(А + //)/0, т. е. всякое число ^ Л не является характеристическим числом матрицы А. Следовательно, г < Л. Таким образом, неравенства (57) представляют собой необходимые и достаточные условия для того, чтобы число Л было верхней границей для модулей характеристических чисел матрицы A2Z). Однако не все неравенства (57) независимы. Матрица ХЕ — А представляет собой матрицу с неположительными недиагональными элементами24). Д. М. Котелянский показал25), что для таких матриц, 22) См. с. 80. 23) См. [123]. 24) Нетрудно видеть, что и, наоборот, всякая матрица с отрицательными или нулевыми недиагональными элементами всегда может быть представлена в виде ХЕ — А, где А — неотрицательная матрица, а Л — вещественное число. 25) См. [97, в]. Эта работа содержит ряд результатов, относящихся к матрицам, у которых все недиагональные элементы одного знака. Д(г) =
§3. Разложимые матрицы 353 (59) как и для симметрических матриц, положительность всех главных миноров вытекает из положительности последовательных главных миноров. Лемма 3 (Котелянского). Если в вещественной матрице G = \\gik\\T все не~ диагональные элементы отрицательны или равны нулю: 9гк^0 (г фк\ г, к = 1,2,...,п), (58) а последовательные главные миноры положительны: Л1=с(;)>о, <?(} £)><>, ..., g(J l :::")>o, то все главные миноры матрицы G положительны. G(hZ'.'.'X)>0 (1^*1<*2<-<гР^п; Р=1,2,...,п). Доказательство. Будем доказывать лемму индуктивно относительно порядка матрицы п. При п = 2 лемма имеет место, так как из 912 ^ 0, 021 ^ 0, #11 > О, 0П022 - 912921 > О следует #22 > 0. Пусть лемма справедлива для матриц порядка < п; докажем ее для матрицы G = Цр^Цу. Введем в рассмотрение окаймляющие определители tik=^ \ I k) = gn9ik ~ 9ik9n (i>k = 2, ...,n). Из (58) и (59) следует Uk ^0 {гфк\ iyk = 2, ...,п). С другой стороны, применяя к матрице Т = Ц^Ц? тождество Сильвестра [гл. II, равенство (30), с. 47], получаем т (ч 12 ... [Л = (gil)P-iG ( J *i ^ - Ч\ \i1i2...ipj v*iiy \ 1 ii г2 ... ip J (50) (2 ^ ii < i2 < ... <ip ^ n; p = 1,2, ...,n - 1). Отсюда в силу (59) следует, что последовательные главные миноры матрицы Т = \\UkW2 положительны: <22 = г(2)>0, т(2^>0, ..., т(2 »;;;»)><,. Таким образом, матрица (п — 1)-го порядка Т = Ц^Ц? удовлетворяет условиям леммы. Поэтому, согласно допущению индукции, все главные миноры матрицы Т положительны: т( 7 7 '" У) >0 (2^г1<г2<...<гр^п; р = 1,2, ...,п - 1). Но тогда из (60) вытекает, что положительны все главные миноры матрицы G, содержащие первую строку: G(ih?2'.'.'. Z)>0 (2<*1<*2<-<*р<п; P = i,2,...,n-i). (6i) 12 Ф.Р. Гантмахер
354 Гл. XIII. Матрицы с неотрицательными элементами Возьмем фиксированные индексы (г <) %\ < г2 < ... < гп-2 (^ ть) и составим матрицу (п — 1)-го порядка: \\дар\\ (а, /3 = 1,гьг2,...,гп_2). (62) Последовательные главные миноры этой матрицы в силу (61) положительны: »">»■ «(!:;)>»• - в('££;;:£)>о, а недиагональные элементы неположительны: 9а(3 ^ 0 (а //9; а,/? = 1,гьг2, ...,гп_2). Но порядок матрицы (62) равен п — 1. Поэтому, согласно допущению индукции, все главные миноры этой матрицы положительны; в частности, G(hZ'.'.'.i)>0 (2<*1<*2<-<»1><п; Р=1,2,...,п-2). (63) Таким образом, все миноры порядка ^ п — 2 матрицы G положительны. Поскольку в силу (63) д22 > 0, то мы можем теперь ввести в рассмотрение определители второго порядка, окаймляющие элемент р22 (а не ^и, как раньше): **=а(1к) (Ь* = 1.3,...,п). Оперируя с матрицей Т* = \\t*k\\ так, как мы ранее оперировали с матрицей Т, мы получим неравенства, аналогичные неравенствам (61): G(lZ::.l)>0 <M> (ii <%2 < • •• < iP', ii,—,iP = l,3,...,n; p= l,2,...,n- 1). Так как любой главный минор матрицы G = \\gik\\i либо содержит первую строку, либо содержит вторую строку, либо имеет порядок ^ п — 2, то из неравенств (61), (63) и (64) следует, что все главные миноры матрицы А положительны. Лемма доказана. Доказанная лемма позволяет в условиях (57) сохранить лишь последовательные главные миноры и сформулировать следующую теорему. Теорема 4. Для того чтобы вещественное число X было больше максимального характеристического числа г матрицы А = Цо^Ц" ^ О, г < А, необходимо и достаточно, чтобы при этом значении X все последовательные главные миноры характеристической матрицы А\ = ХЕ — А были положительны: | X — an —Q>i2 • • • —ciin X — CLu —Q>12 Л — ац > О, — 0>2\ X — 0,22 >о, —a2i Л — а22 ... — а2п ~ani ~ап2 • • • X — апп >0. (65) Рассмотрим одно приложение этой теоремы. Пусть у матрицы С = \\cik\\i все недиагональные элементы неотрицательны. Тогда при некотором Л > 0 матрица А = С + ХЕ ^ 0. Характеристические числа А; (г = 1,2, ...,п) матрицы С расположим в порядке возрастания вещественных частей: ReAi ^ ReA2 ^ ... ^ ReAn.
§3. Разложимые матрицы 355 Обозначим через г максимальное характеристическое число матрицы А. Поскольку характеристическими числами матрицы А являются суммы А; + Л (г = 1,2,... ...,п), то Ап + А = г. В данном случае неравенство г < А имеет место лишь при Лп < 0 и означает, что у матрицы С все характеристические числа имеют отрицательные вещественные части. Записывая неравенства (65) для матрицы —С = ХЕ — А, мы получим следующую теорему26). Теорема 5. Для того чтобы у вещественной матрицы С = \\cik\\i с неотрицательными недиагональными элементами, Сгк^О (г#Л; i,k = 1,2,...,п), все характеристические числа имели отрицательные вещественные части, необходимо и достаточно, чтобы выполнялись неравенства сц < О, СЦ Ci2 021 С22 >о, (-1Г Сц Ci2 ... С1п С21 С22 ... С2п Cnl Сп2 •• • Спп >о. (66) Пусть снова А — произвольная неразложимая неотрицательная матрица, а х ^ ^ 0 (х ф 0) — некоторый вектор 27), не являющийся собственным для максимального характеристического числа г. Тогда в силу замечания 5 на с. 349 существуют индексы г и j (1 ^ г, j ^ n) такие, что выполняются неравенства (Ar)j > rxi, (Ax)j < rxj. (67) Если же х — собственный вектор матрицы А для характеристического числа г, то в соотношениях (67) знаки неравенств следует заменить знаком равенства. Поэтому для любого вектора х ^ 0 существуют индексы г и А: (1 ^ г, к ^ п), при которых (Аг); ^ ГЖ;, (Ar)j ^ TXj. (67') В таком ослабленном виде соотношения (67') остаются в силе и для разложимой матрицы А ^ 0, поскольку она может быть представлена в виде предела последовательности неразложимых матриц. Из соотношений (67') может быть установлена Теорема 6. При увеличении любого элемента неотрицательной матрицы А максимальное характеристическое число не убывает. Оно строго возрастает, если А — неразложимая матрица. Эта теорема допускает эквивалентную формулировку. Теорема б'. Если даны две неотрицательные матрицы А и А\ с максимальными характеристическими числами г ит\, то из неравенства А ^ А\ (А ф А\) следует неравенство г ^г\. Если же А — неразложимая матрица, тот <Т\. Доказательство. Пусть А — неразложимая матрица. Тогда А\ — также неразложимая матрица. Обозначим через х собственный вектор матрицы А\ для характеристического числа г\\ А\х = т\х (х > 0). 26) См. [123, 97,в]. Поскольку С = А — ХЕ, А ^ 0, то Лп вещественно (это следует из равенства Лп + Л = г), и этому характеристическому числу соответствует неотрицательный собственный вектор матрицы С: Су = Хпу (у ^ 0, у Ф 0). 27) Обозначение х ^ 0 означает, что столбцевая матрица х неотрицательна. 12*
356 Гл. XIII. Матрицы с неотрицательными элементами Отсюда (п - г)х = Ах-гх + (Ах - А)х. (67") Но (А\ — А)х ^ 0. Поэтому, если х не является собственным вектором матрицы А для характеристического числа г, то в силу (67) при некотором индексе г (1 < t < п) (ri - r)Xi ^ (Аг); - ГХ{ > 0, откуда ri — г > 0, т. е. г < ri. Если же ж — собственный вектор матрицы А для характеристического числа г, то Аг — гх = 0, и поскольку при некотором индексе г [(А± — A)x]i > 0, то из равенства (67") следует (ri - г)ж* = (Ai - A)xi > 0, т. е. снова г < г\. В случае разложимой матрицы введем в рассмотрение матрицы А£ = А + еВ и А1е = Ai+ еВ, где В > 0, е > 0. Тогда Д, ^ А1е и 4 > 0. Поэтому г£ < rl£1 где г£ и rie — максимальные характеристические числа матриц А£ и А\£. В пределе при е -¥ 0 матрицы Ае и Aie переходят в матрицы А и Ai, a неравенство т£ <г\£ — в соотношение г ^ г±. Теорема доказана. § 4. Нормальная форма разложимой матрицы Рассмотрим произвольную разложимую матрицу А = На^Ну. Перестановкой рядов ее можно представить в виде А = В 0 С D (68) где В, D — квадратные матрицы. Если какая-либо из матриц В и D разложима, то ее можно также представить в виде, аналогичном (68), после чего матрица А примет вид А = Если какая-либо из матриц К, L, М разложима, то этот процесс можно продолжить. В результате надлежащей перестановкой рядов мы придадим матрице А треугольную блочную форму: К н F 0 L G 0 0 м Ац A2i 0 А22 Asl A s2 (69) где диагональные блоки — квадратные неразложимые матрицы. Диагональный блок Ац (1 ^ г ^ s) будем называть изолированным, если Aik =0 (к = 1,2,...,г-1,г + 1,...,з). Перестановкой блочных рядов (см. с. 337) в матрице (69) можно все изолированные блоки поставить на первые места вдоль главной диагонали, после чего
§4- Нормальная форма разложимой матрицы 357 матрица А примет вид А = О О А2 О Vn,i VH,2 Ад+1,д Ад+1 *-81д iS2 ... As Ч<7+1 ... As (70) здесь Ai,A2,...,A8 — неразложимые матрицы, а в каждом ряду Afl,Af2,..., Afj-x (/ = д + 1,..., s) по крайней мере одна из матриц не равна нулю. Матрицу (70) будем называть нормальной формой разложимой матрицы А. Покажем, что нормальная форма матрицы А определяется однозначно с точностью до перестановки блочных рядов28). Для этого рассмотрим линейный оператор А, соответствующий матрице А в n-мерном векторном пространстве R. Представлению матрицы А в виде (70) соответствует расщепление пространства R на координатные подпространства: R — Ri + R2 + ••• + R# + R< •9+1 + RS (71) при этом всегда Rs, Rs_i +RS, Rs-2 + R*-i +RS, ... — инвариантные координатные подпространства оператора А, причем между любыми двумя соседними из этих подпространств не существует промежуточного инвариантного подпространства. Допустим, что наряду с нормальной формой (70) данной матрицы имеется другая нормальная форма, которая соответствует другому расщеплению R на координатные подпространства: R — Ri + R2 + ... + Rp + R#+i + ... + R** (71') Однозначность нормальной формы будет показана, если мы докажем совпадение расщеплений (71) и (71') с точностью до порядка слагаемых. Пусть инвариантное подпространство R^ имеет общие координатные векторы с Rfc и не имеет таковых с R^+i, ...,RS. Тогда R* должно целиком содержаться в Rfc, так как в противном случае R* содержало бы "меньшее" инвариантное подпространство — пересечение R* с R& + R^+i + ... + Re. Далее, R* должно совпасть с R&, так как в противном случае инвариантное подпространство R* + Rfc+i + ... + Re было бы промежуточным между инвариантными под пространствами R& + R&+1 + ... + Rs и R&+i + ... + Rs. Поскольку R& совпадает с Rf, то Щ — инвариантное подпространство. Поэтому, не нарушая нормальную форму матрицы, можно поставить R^ на место Rs. Таким образом, в расщеплениях (71) и (71') мы можем считать Rs = R$. Рассмотрим теперь координатное подпространство R^-i. Пусть оно имеет общие координатные векторы с R/ (I < s), но не имеет таковых с R/+i + ... 28) Не нарушая нормальной формы, можно произвольно переставить первые g блочных рядов. Кроме того, иногда возможны некоторые перестановки последних s — g блочных рядов, сохраняющие нормальность формы.
358 Гл. XIII. Матрицы с неотрицательными элементами ... + Rs. Тогда инвариантное подпространство R^-i + R* должно целиком содержаться в R/ + Rj+i + ... + Rs, так как в противном случае существовало бы промежуточное инвариантное координатное подпространство между R^ и R^-i + + Rf Поэтому Rt-i С R/. Далее, R^-i = R/, поскольку в противном случае R$_i + + Rj+i + ... + Re было бы промежуточным инвариантным подпространством между R/ + Rj+i + ... + Rs и Rj+i + ... + Rs. Из R^_i = Rj следует, что Rj + Rs — инвариантное подпространство. Поэтому Rj можно поставить на место Rs_i, после чего будем иметь _ _ R^_i = Rs-i, R* = Rs. Продолжая этот процесс далее, мы в конце концов придем к тому, что s = t и что расщепления (71) и (71') совпадают с точностью до порядка слагаемых. Тогда с точностью до перестановки блочных рядов совпадают и соответствующие нормальные формы. Из однозначности нормальной формы следует, что числа д и s являются некоторыми инвариантами неотрицательной матрицы А29). Пользуясь нормальной формой матрицы, докажем следующую теорему. Теорема 7. Максимальному характеристическому числу г матрицы А ^ О соответствует положительный собственный вектор в том и только том случае, когда в нормальной форме (69) матрицы А: 1°) каждая из матриц А\,Ач,...,Ад имеет число г своим характеристическим числом и (при g < s) 2°) ни одна из матриц Ag+i,...,A8 этим свойством не обладает. Доказательство. 1. Пусть максимальному характеристическому числу г соответствует положительный собственный вектор z > 0. В соответствии с разбиениями на блоки в (70) разобьем столбец z на части zk (k = l,2,...,s). Тогда равенство Az = rz (z> 0) (72) заменится двумя системами равенств: Aiz^rz* (г = 1,2,...,<?), (720 3-1 Y,AihZh + AjZi = rzi (j = +l, ...,*). (72-) Из (72') следует, что число г является характеристическим числом каждой из матриц Ai,A2)...,Ag. Из (72") находим AjZj ^ rzJ\ AjZj ф rzj (j = g + 1,..., s). (73) Обозначим через rj максимальное характеристическое число матрицы Aj (j = = g + 1, ...,s). Тогда [см. (41) на с. 349] из (73) находим (Az3)- rj ^ max 3 ^ r (j = g + 1,..., s). z\ С другой стороны, равенство rj = г противоречит вторым соотношениям (73) (см. замечание 5 на с. 349). Поэтому r3<r (j = <; + l,...,s). (74) 2. Пусть теперь, обратно, дано, что максимальные характеристические числа матриц Ai (i = 1,2,..., #) равны г, а для матриц Aj (j = g + l, ...,s) имеют место 29) Для неразложимой матрицы g = s = 1.
§4- Нормальная форма разложимой матрицы 359 неравенства (74). Тогда, заменяя искомое равенство (72) системой равенств (72'), (72"), мы сможем из (72') определить положительные собственные столбцы zl матрицы А{ (г = 1,2, ...,#). После этого из (72") найдем столбцы z* (j = g + 1,..., s): i-i г* = (rEj - Aj)-1 £ Ajhzh (j=g + 1,..., *), /i=i (75) где Ej — единичная матрица того же порядка, что и матрица Aj (j = g + 1,. Поскольку Tj <r (j = д + 1,..., s), то [см. (51) на с. 350] (rEj - Aj)-1 > 0 (j=g + l,...,s). (76) Докажем индуктивно, что определенные по формулам (75) столбцы z9+1, ...,zs положительны. Мы покажем, что при любом j (д + 1 ^ j ^ s) из положительности столбцов z1,^2,...,^-1 следует z* > 0. Действительно, в этом случае i-i j-i Y,AjhZh>0, ^Л^/0, /i=i /i=i что в соединении с (76) на основании формулы (75) дает z3 >0. Таким образом, положительный столбец z = будет собственным вектором матрицы А для характеристического числа г. Теорема доказана. Следующая теорема дает нам характеристику матрицы А ^ 0, которая вместе со своей транспонированной матрицей А' обладает тем свойством, что максимальному характеристическому числу отвечает положительный собственный вектор. Теорема 7'30). Максимальному характеристическому числу г матрицы А ^ ^ 0 отвечает положительный собственный вектор матрицы А и положительный собственный вектор транспонированной матрицы А' в том и только том случае, когда матрица А может быть перестановкой рядов представлена в квазидиагональном виде: A = {A1,A2,...,AS}, (77) где Ai,A2,...,A8 — неразложимые матрицы, каждая из которых имеет число г своим максимальным характеристическим числом. Доказательство. Пусть матрицы АиА' имеют положительные собственные векторы для Л = г. Тогда по теореме 7 матрица А представима в нормальной форме (69), где матрицы Ai,A2,...,Ag имеют максимальное характеристическое число г и (при g < s) матрицы Ag+i,...,A8 имеют максимальные характеристические числа < г. Тогда А' = 0 0 0 А Л' Л9 о 0+1,1 VH,<7 А' А' ■0+1 sg А' °) См. [182, е].
360 Гл. XIII. Матрицы с неотрицательными элементами Поменяем здесь порядок блочных рядов на обратный: II А'8 0 0 ... 0 А'898_г А,_г 0 ... 0 А' А1 А' Поскольку матрицы A,s,A's_lJ...,A,1 неразложимы, то из матрицы (78) перестановкой блочных рядов мы получим нормальную форму, поставив на первые места вдоль главной диагонали изолированные блоки. Одним из таких изолированных блоков является блок A's. Поскольку нормальная форма матрицы А' должна удовлетворять условию предыдущей теоремы, то максимальное характеристическое число матрицы A's должно равняться г. Это возможно лишь при д = s. В этом случае нормальная форма (69) переходит в (77). Если, обратно, дано представление (77) для матрицы А, то тогда А' = {А[,АЬ,...,А'.}. (79) Тогда из (77) и (79) в силу предыдущей теоремы заключаем, что матрицы А и А' имеют положительные собственные векторы для максимального характеристического числа г. Теорема доказана. Следствие. Если максимальное характеристическое число г матрицы А^О является простым и ему соответствуют положительные собственные векторы матриц А и А', то А — неразложимая матрица. Поскольку, обратно, всякая неразложимая матрица обладает свойствами, указанными в этом следствии, то эти свойства представляют собой спектральную характеристику неразложимой неотрицательной матрицы. § 5. Примитивные и импримитивные матрицы Начнем с некоторой классификации неразложимых матриц. Определение 3. Если неразложимая матрица А^О имеет всего h характеристических чисел Ai,A2,...,Afc с максимальным модулем г (Ai = |А^| = • •• ... = \\h\ = г), то матрица А называется примитивной при h = 1 и импримитивной при h > 1. Число h называется индексом импримитивности матрицы А. Индекс импримитивности h сразу определяется, если известны коэффициенты характеристического уравнения А(А) = An + aiAni + а2ХП2 + ... + atXnt = 0 (n > ni > ... > nt; ai ф 0, a2 / 0, ..., at Ф 0) матрицы, а именно, число h равно наибольшему общему делителю разностей n-ni, ni-n2, ..., щ~\-щ. (80) Действительно, согласно теореме Фробениуса спектр матрицы А в комплексной А-плоскости переходит в себя при повороте на угол 2it/h вокруг точки А = = 0. Поэтому многочлен А (А) должен получиться из некоторого многочлена g(/j,) по формуле Д(А) = g(\h)\n'. (78)
§ 5. Примитивные и импримитивные матрицы 361 Отсюда следует, что h — общий делитель разностей (80). Наконец, h равняется наибольшему общему делителю d этих разностей, так как спектр не изменяется при повороте на угол 27r/d, а это невозможно при h < d. Следующая теорема устанавливает важное свойство примитивной матрицы. Теорема 8. Матрица А ^ 0 является примитивной в том и только том случае, когда некоторая степень матрицы А положительна: Ар>0 (р^1). (81) Доказательство. Если Ар > 0, то матрица А неразложима, так как из разложимости матрицы А следует разложимость матрицы Ар. Далее, для матрицы А число h=l, так как в противном случае положительная матрица Ар имела бы h (> 1) характеристических чисел Ai,A2,...,A^ с максимальным модулем гр, что противоречит теореме Перрона. Пусть теперь, обратно, дано, что А — примитивная матрица. Воспользуемся для степени АР формулой (24) гл. V (с. 108): -| (mk-l) С(Х)Хр ap=y: k=1(mk-l)l i(» ix=xk (82) где ф(Х) = (A - АхГЧА - А2Г2...(А - А.Г- (А,- ф Xf при j = f) k — минимальный многочлен матрицы А, ф(Х) = ф(Х)/(Х — Xk)mk (k = 1,2,..., s), a C(A) — приведенная присоединенная матрица С(А) = (XE — А)~1ф(Х). В данном случае можно положить Ai=r>|A2|^...^|A,|, mi = l. (83) Тогда формула (82) примет вид 1 (mfc-l) Ф'(Г) f^Arnk-1)! С{Х)Хр k=2— -> [ {(A) JA=Afc Отсюда в силу (83) легко заключить, что г АР С (г) ,ол, hm — = -777-4- (84) С другой стороны, С (г) [см. (53)] и ф'(г) > 0 в силу (83). Поэтому Лр lim ^г > 0, и, следовательно, начиная с некоторого р, имеет место неравенство (81). Теорема доказана. Замечание. Если матрица А примитивна и АР > 0, то Ат > 0 для всех т > р, так как матрица А не содержит нулевых рядов. Следствие. Степень примитивной матрицы всегда неразложима и притом примитивна. Для наименьшего номера р = рл, начиная с которого выполняется неравенство (81), Фробениус31) указал верхнюю оценку, зависящую только от порядка п матрицы А: Ра ^ 2п2 — 2п. 31) См [182, е].
362 Гл. XIII. Матрицы с неотрицательными элементами Виландт32) отметил (без доказательства), что на самом деле РА ^ п2 - 2п + 2, (85) и эта оценка точна. Она достигается на матрице А = / 0 1 0 0 ... О \ О 0 1 0 ... О О 0 0 1 ... О О 0 0 0 ... 1 V 1 1 о о ... о / Приводимое ниже доказательство неравенства (85) по существу совпадает с доказательством, принадлежащим Седлачеку33). Лемма. Если А — примитивная матрица, то для любых двух (не обязательно различных) индексов г, к существует такая цепочка индексов iyii,i2, ...,is,k (s ^ ^ 0), что ацг > О, aili2 > 0, ..., aisk > 0. О такой цепочке будем говорить, что она ведет в матрице А из г в к. Число s + 1 назовем длиной цепочки. Очевидно, в кратчайшей цепочке, ведущей из % в к, все индексы попарно различны. Для доказательства леммы достаточно взять s ^ 0 так, чтобы было A'+1 = ||ojjJ+1)||?>0. Тогда Е_ (e+i) . п и так как все слагаемые здесь неотрицательны, то по крайней мере одно из них положительно. Оно и дает требуемую цепочку индексов. Перейдем к доказательству неравенства (85). Обозначим через U наименьшую из длин цепочек, ведущих в матрице А из г в г (г = 1,2,..., п), и положим 34) / = min li. Пусть для определенности «12 > 0, а23 > 0, ..., ап > 0. (86) Тогда в матрице А1 будут положительными первые / диагональных элементов: e?i>0. 4*2 > 0, .-., a((f>0. (87) Возьмем произвольный индекс г. Кратчайшая цепочка, ведущая в матрице А из г в какой-нибудь из индексов 1,2,...,/, имеет, очевидно, длину, не большую п — I. В силу (86) эту цепочку можно продолжить добавлением каких-либо индексов 1,2,...,/ до цепочки длиной ровно п — I. Получится некоторая цепочка г, гь г2, ..., in-i-i, j, 32) См. [259, а]. 33) См. [244]. Другие доказательства были даны в статьях [190, 119, 228]. В работе [110] неравенство Виландта послужило отправным пунктом для обобщений, относящихся к любым матрицам А ^ 0. 34) / можно определить как наименьший показатель, для которого матрица А1 имеет положительный диагональный элемент.
§ 5. Примитивные и импримитивные матрицы 363 где l^j^L Возьмем еще один произвольный индекс к (не обязательно отличный от i). Так как согласно следствию теоремы 8 матрица А1 тоже примитивна, то найдется цепочка индексов длины, не большей п — 1, ведущая в матрице А1 из j в к. В силу (87) эту цепочку можно продолжить добавлением индекса j до цепочки длиной ровно п — 1. Получится некоторая цепочка Итак, и Отсюда Следовательно, h ju hi •••> in-2, к. Q>ii\ -> U, Ojixi2 > U, ..., Q>in_l_1j > U а{1) >0 а{1) >0 а{1) >0 ат > и' ahh > и' -' ajn-2k > и- (0 (1) (1) ^ п aiiiaiii2-" ain-i-ij ^какк-'- ajn_2k > U' a(n-l+l(n-l)) > Q Ввиду произвольности индексов iyk оказывается дп-1+1{п-1) у q Тем самым Ра ^п — I + 1(п — 1) = (п — 2)1 + п. Заметим теперь, что / ^ п — 1. Действительно, в противном случае / = п и в силу определения числа I матрица А оказывается циклической: А = 0 0 0 a>ni «12 0 0 0 0 . «23 • 0 . 0 . 0 0 ап_\п 0 т. е. импримитивной. Таким образом, Ра ^ (п - 2)(п - 1) + п = п2 - 2п + 2, что и требовалось доказать. Докажем теперь следующую теорему. Теорема 9. Если А ^ 0 — неразложимая матрица и некоторая степень Aq этой матрицы разложима, то степень Aq вполне разложима, т. е. перестановкой рядов Aq может быть представлена в виде Aq = {AuA2,...,Ad}, (88) где Ai,A2,..., А* — неразложимые матрицы. Эти матрицы имеют одно и то же максимальное характеристическое число. При этом число d есть наибольший общий делитель чисел q и h, где h — индекс импримитивности матрицы А. Доказательство. Поскольку матрица А является неразложимой, то, согласно теореме Фробениуса, максимальному характеристическому числу г отвечают положительные собственные векторы матриц i и А'. Но тогда эти же положительные векторы являются собственными векторами неотрицательных матриц Aq и (Aq)' для характеристического числа Л = rq. Поэтому, применяя
364 Гл. XIII. Матрицы с неотрицательными элементами к степени Aq теорему 7', мы представим (после надлежащей перестановки рядов) эту степень в виде (88), где Ai,A2,...,Ad — неразложимые матрицы с одним и тем же максимальным характеристическим числом rq. Но матрица А имеет h характеристических чисел с максимальным модулем г: г, re,..., re*"1 (e = e2^hY Поэтому и матрица Aq имеет h характеристических чисел с максимальным модулем rq: rqy rqeqy ..., rqeq(h~V, среди которых d чисел равны rq. Это возможно лишь тогда, когда d — наибольший общий делитель чисел q и h. Теорема доказана. Если в формулировке теоремы положить q = h, то получим Следствие. Если А — импримитивная матрица с индексом импримитивности h, то степень Ah разлагается на h примитивных матриц, которые имеют одно и то же максимальное характеристическое число. § 6. Стохастические матрицы Рассмотрим п возможных состояний некоторой системы Si, #2, ..., Sn (89) и последовательность моментов времени *о> hi h, ••• Пусть в каждый из этих моментов времени система находится в одном и только в одном из состояний (89), причем р^ обозначает вероятность нахождения системы в состоянии Sj в момент времени £&, если известно, что в предыдущий момент времени tk-i система находилась в состоянии Т* (i,j = 1,2, ...,n; A: = = 1,2,...). Мы будем предполагать, что переходные вероятностиpij (i,j = 1,2,..., п) не зависят от индекса к (номера момента времени tk). Если матрица переходных вероятностей задана, то говорят, что задана однородная цепь Маркова с конечным числом состояний35). При этом очевидно, что п Pij^O, 5>;; = 1 (t,i = l,2,...,n). (90) 3=1 Определение 4. Квадратная матрица Р= \\pij\\i называется стохастической, если матрица Р неотрицательна и сумма элементов каждой строки матрицы Р равна единице, т. е. имеют место соотношения (90)36). 35) См. [96], а также [29, с. 9-12]. 36) Иногда в определение стохастической матрицы включают дополнительное требо- п вание ^Pij Ф 0 U = 1,2,...,п). См. [29, с. 13]. г=1
§ 6. Стохастические матрицы 365 Таким образом, для каждой однородной цепи Маркова матрица переходных вероятностей является стохастической и, наоборот, любую стохастическую матрицу можно рассматривать как матрицу переходных вероятностей некоторой однородной цепи Маркова. На этом основывается матричный метод исследования однородных цепей Маркова37). Стохастическая матрица является частным видом неотрицательной матрицы. Поэтому к ней применимы все понятия и положения предыдущих параграфов. Отметим некоторые специфические свойства стохастической матрицы. Из определения стохастической матрицы следует, что эта матрица имеет характеристическое число 1 с положительным собственным вектором z = (1,1,..., 1). Легко видеть, что и, обратно, всякая матрица Р ^ О, имеющая собственный вектор (1,1,...,1) для характеристического числа 1, является стохастической. При этом единица является максимальным характеристическим числом стохастической матрицы, поскольку максимальное характеристическое число всегда заключено между наибольшей и наименьшей из строчных сумм38), а для стохастической матрицы все строчные суммы равны единице. Таким образом, нами доказано следующее предложение. 1°. Неотрицательная матрица Р ^ О является стохастической тогда и только тогда, когда она имеет собственный вектор (1,1,..., 1) для характеристического числа 1. Характеристическое число 1 является максимальным для стохастической матрицы. Пусть теперь дана неотрицательная матрица А = Цо^Цу, имеющая положительное максимальное характеристическое число г > 0 и соответствующий этому числу положительный собственный вектор z = (zi,Z2,...,zn) > 0: п ^2aijzj=rzi (г = 1,2,...,п). (91) i=i Введем в рассмотрение диагональную матрицу Z = {zi,Z2,...,zn} и матри- ЦУР=\Ы\?: Р=- Z~XAZ. г Тогда Pij = -zi1(lijzj > ° (hi = 1,2, ...,гг), и в силу (91) п ^Pij = 1 (* = 1,2,...,п). i=i Таким образом, 2°. Неотрицательная матрица А ^ 0, имеющая положительное максимальное характеристическое число г > 0 и соответствующий этому числу положительный собственный вектор z = (zi,Z2,...,zn) > 0, всегда подобна произведению числа г на некоторую стохастическую матрицу: A = ZrPZ~1 (Z = {zuz2,...,zn}>0)39). (92) 37) Теория однородных цепей Маркова с конечным (и со счетным) числом состояний была разработана А. Н. Колмогоровым (см. [96]). Последовательное проведение и развитие матричного метода в применении к однородным цепям Маркова читатель найдет в статье [120,6] и монографии [29] В. И. Романовского (см. также [4, дополнение 5]). 38) См. неравенства (37) и замечание на с. 350. 39) Предложение 2° имеет место и при г = 0, так как из А ^ 0, z > 0 следует А = 0.
366 Гл. XIII. Матрицы с неотрицательными элементами В предыдущем параграфе была установлена (см. теорему 7) характеристика класса неотрицательных матриц, имеющих положительный собственный вектор для Л = г. Формула (92) устанавливает тесную связь этого класса матриц с классом стохастических матриц. Теперь будет доказана Теорема 10. Характеристическому числу 1 стохастической матрицы всегда соответствуют только элементарные делители первой степени. Доказательство. Применим к стохастической матрице Р = \\р^\|f разложение (69) § 4: Р = 0 0 о А2 ^■9 ^+i где Ai,A2,...,As — неразложимые матрицы и Afl+Af2 + ... + Afj-1j:0 (/ = 0 + 1, ,8). Здесь Ai,A2y...,Ag — неразложимые стохастические матрицы, и потому каждая из этих матриц имеет простое характеристическое число 1. Что же касается остальных неразложимых матриц Ag+i,...,A8, то, согласно замечанию 2 на с. 346, их максимальные характеристические числа < 1, поскольку в каждой из этих матриц хотя бы одна строчная сумма меньше единицы40). Таким образом, матрица Р представима в виде Р = Qi 0 S Q2 где у матрицы Qi характеристическому числу 1 соответствуют элементарные делители первой степени, а для матрицы Q2 число 1 не является характеристическим числом. После этого справедливость теоремы непосредственно вытекает из следующей леммы. Лемма 4. Если матрица А имеет вид А = Qi 0 S Qi (93) где Qi uQ2 — квадратные матрицы, и характеристическое число Ао матрицы А является характеристическим числом матрицы Qi и не является таковым для матрицы Q2, |0i - \0Е\ = 0, \Q2 - Х0Е\ ф 0, то элементарные делители матриц А и Qi, соответствующие характеристическому числу Ао, одинаковы. Доказательство. 1. Рассмотрим сначала случай, когда Qi и Q2 не имеют общих характеристических чисел. Покажем, что в этом случае элементарные ') Эти свойства матриц Ai,...,As вытекают также из теоремы 7.
§ 6. Стохастические матрицы 367 делители матриц Qi и Qi в совокупности образуют систему элементарных делителей матрицы А, т. е. что для некоторой матрицы Т (\Т\ ф 0) ТАТ-1 Матрицу Т будем искать в виде Т = Qi 0 0 Q2 (94) U о -Ё/2 (разбиение на блоки в Т соответствует разбиению в А; Е\ и Ei матрицы). Тогда единичные ТАТ -1 _ £i и 0 -£/2 Qi 5 0 Qi Ei 0 -С/ Е2 UQi Qi -Q2U + S 0 <?2 (94') Равенство (94') перейдет в равенство (94), если прямоугольную матрицу U подберем так, чтобы она удовлетворяла матричному уравнению Q2U-UQ1 = S. В случае, когда Q\ и Qi не имеют общих характеристических чисел, это уравнение при любой правой части S всегда имеет одно определенное решение (см. гл. VIII, § 3). 2. В случае, когда матрицы Q\ и Q2 могут иметь и общие характеристические числа, мы заменим в (93) матрицу Q\ ее жордановой формой J (в результате этого матрица А заменится матрицей, ей подобной). При этом J = {Ji, J2}, где в J\ собраны все жордановы клетки с характеристическим числом Ло- Тогда Jl 0 S21 0 0 0| J2 £12 £22 0 0 g2 = 1 jl 0 S11 £21 0 0 0 Q2 Эта матрица подходит под разобранный уже первый случай, поскольку матрицы Ji и Qi не имеют общих характеристических чисел. Отсюда следует, что элементарные делители вида (Л — Хо)р одинаковы у матриц А и Ji, и, следовательно, одинаковы у матриц А и Q\. Лемма доказана. Если неразложимая стохастическая матрица Р имеет комплексное характеристическое число Ао с |Ао| = 1, то матрица Ао-Р подобна матрице Р [см. (16)], и потому из теоремы 10 вытекает, что числу Ао отвечают только элементарные делители первой степени. Пользуясь нормальной формой матрицы и леммой 4, легко распространить это утверждение и на разложимые стохастические матрицы. Таким образом, получаем Следствие 1. Если Ао — характеристическое число стохастической матрицы и | Ао | = 1? то этому числу Ао соответствуют элементарные делители первой степени матрицы Р. Из теоремы 10 в силу 2° (с. 365) вытекает также Следствие 2. Если максимальному характеристическому числу г неотрицательной матрицы А отвечает положительный собственный вектор, то все элементарные делители матрицы А, соответствующие любому характеристическому числу Ао с |Ао| = г, имеют первую степень. Укажем на некоторые работы, связанные с расположением характеристических чисел стохастической матрицы.
368 Гл. XIII. Матрицы с неотрицательными элементами Характеристическое число стохастической матрицы Р всегда лежит в круге |Л| ^ 1 А-плоскости. Совокупность всех точек этого круга, являющихся характеристическими числами каких-либо стохастических матриц n-го порядка, обозначим через Мп. В 1938 г. в связи с исследованием цепей Маркова акад. А. Н. Колмогоров поставил задачу определения структуры области Мп. Эта задача была частично решена в 1945 г. Н. А. Дмитриевым и Е. Б. Дынкиным [89, а, б] и полностью решена в 1951 г. в работе Ф. И. Карпелевича [94]. Оказалось, что граница Мп состоит из конечного числа точек на окружности |А| = 1 и определенных криволинейных дуг, соединяющих в круговом порядке эти точки. Заметим, что в силу предложения 2° (с. 365) характеристические числа матриц А = \\aik\\i ^ 0, имеющих положительный собственный вектор для А = г, при фиксированном г образуют множество г • Мп41). Поскольку произвольную матрицу А = \\a>ik\\i ^ 0 можно рассматривать как предел последовательности неотрицательных матриц указанного типа, а множество г • Мп замкнуто, то характеристические числа произвольных матриц А = ||о^||" > 0 с данным максимальным характеристическим числом г заполняют множество г • Мп42). К этому кругу вопросов относится и работа X. Р. Сулеймановой [127,а], в которой устанавливаются некоторые достаточные критерии для того, чтобы п заданных вещественных чисел Ai,A2,...,An были характеристическими числами некоторой стохастической матрицы Р = \\pij\\i43). § 7. Предельные вероятности для однородной цепи Маркова с конечным числом состояний 1. Пусть — все возможные состояния системы в однородной цепи Маркова, а Р = \\pij\\i — определяющая эту цепь стохастическая матрица, составленная из переходных вероятностей pij (i,j = l,2,...,n) (см. с. 364). Обозначим через р\у вероятность нахождения системы в состоянии Sj в момент времени tk, если известно, что в момент времени tk-q система находилась в состоянии Si (ij = 1,2, ...,n; q = 1,2,...). Очевидно, рФ = рц (i,j = 1,2,..., га). Пользуясь теоремами о сложении и умножении вероятностей, мы легко найдем pif1)=£^w (t,j=i,2 «), h=l или, в матричной записи, \\р%+1)\\ = \\$\\?\ЫК- Отсюда, давая q последовательно значения 1,2,..., получим важную формулу44) \\Р^\\=Р9 (9 = 1,2,...). 41) г ■ Мп есть совокупность точек Л-плоскости вида г/х, , где fx € Мп. 42) На возможность сведения указанной задачи для произвольной матрицы А ^ 0 к аналогичной задаче для стохастической матрицы было указано А. Н. Колмогоровым (см. [89,6, дополнение]). 43) См. также [227, Ъ]. 44) Из этой формулы следует, что вероятности р±) так же, как и pij (i,j = = 1,2,..., n; q = l, 2,...), не зависят от номера к исходного момента времени tk-
§ 7. Предельные вероятности для однородной цепи Маркова 369 Если существуют пределы ш р{я) или, в матричной записи, limpW=peo (j);- = 12 „), q—юо J J lim P« = P°° = ||p~||», q—too J то величины p?? (i,j = 1,2, ...,n) называются предельными или финальными переходными вероятностями 45). Для выяснения, в каких случаях существуют предельные переходные вероятности, и для вывода соответствующих формул введем следующую терминологию. Мы будем стохастическую матрицу Р и соответствующую ей однородную цепь Маркова называть правильной, если у матрицы Р нет характеристических чисел, отличных от единицы и равных по модулю единице, и регулярной, если дополнительно единица является простым корнем характеристического уравнения матрицы Р. Правильная матрица Р характеризуется тем, что в ее нормальной форме (69) (с. 356) матрицы Ai,A2,...,Ag являются примитивными. Для регулярной матрицы дополнительно g = 1. Кроме того, однородная цепь Маркова называется неразложимой, разложимой, ациклической, циклической, если для этой цепи стохастическая матрица Р является соответственно неразложимой, разложимой, примитивной, импримитивной. Поскольку примитивная стохастическая матрица является частным видом правильной матрицы, постольку ациклическая цепь Маркова является частным видом правильной цепи. Мы покажем, что предельные переходные вероятности существуют только у правильных однородных цепей Маркова. Действительно, пусть ф(Х) — минимальный многочлен правильной матрицы Р = \\pij\ft. Тогда ^(A) = (A-Ai)mi(A-A2)ma...(A-Ati)m« (A* # A*; i,k = 1,2, ...,u). (95) Согласно теореме 10 можно принять, что Ах = 1, ггы = 1. (957) На основании формулы (24) гл. V (с. 108) 1 (тЛ-1) С(1) " р« = ^+Е (mk - 1) с(\) Л« (96) <ф{1) к=2К Ц(А) JA=Afe где С(Х) = (ХЕ — Р)~1ф(Х) — приведенная присоединенная матрица и *<А>=(А^ (* = 1,2,...,«); при этом Если Р — правильная матрица, то |А*|<1 (* = 2,3,...,и), 45) Матрица Р°° как предел стохастических матриц также является стохастической.
370 Гл. XIII. Матрицы с неотрицательными элементами и потому в правой части формулы (96) все слагаемые, кроме первого, при q —> оо стремятся к нулю. Поэтому для правильной матрицы Р существует матрица Р°°, составленная из предельных переходных вероятностей и Обратное утверждение очевидно. Если существует предел Р°° = lim P\ то матрица Р не может иметь характеристического числа Л^, для которого Л^ / 1, a lAfcl = 1, так как тогда не существовал бы предел lim А?. [Этот же предел должен д—>-оо существовать в силу существования предела (97').] Мы доказали, что для правильной (и только для правильной) однородной цепи Маркова существует матрица Р°°. Эта матрица определяется формулой (97). Покажем, как можно выразить матрицу Р°° через характеристический многочлен А(А) = (А - Ах)П1(А - А2)П2...(А - А„)п* (98) и присоединенную матрицу В(\) = (\Е — Р)_1А(А). Из тождества в(\) = С(Л) А(А) ^(Л) в силу (95), (95') и (98) вытекает niB("i-i)(l) = c(i) А(~1)(1) ~ ф'(1)' Поэтому формулу (97) можно заменить формулой Д(П1)(1) * Для регулярной цепи Маркова, поскольку она является частным видом правильной цепи, матрица Р°° существует и определяется любой из формул (97), (97'). В этом случае п\ = 1, и формула (97') имеет вид (97') рос = -5(1) Д'(1)' (99) 2. Рассмотрим правильную цепь общего типа (нерегулярную). Соответствующую матрицу Р запишем в нормальной форме: Qi ... 0 0 ... 0 0 Ug+i,i и$1 Qg 0 Ug+ll9 Qg+1 uSQ U& ,S-1 0 Qs (100) где Qi,...,Qg — примитивные стохастические матрицы, а у неразложимых матриц Qg+i, ...,Qs максимальные характеристические числа < 1. Полагая U9+1,9 W = и = Ug+hl Usl Us, Qg+l Us,g+1 о Qs
§ 7. Предельные вероятности для однородной цепи Маркова 371 запишем Р в виде Р = Qi О О и Qg О W Тогда Pq = Q1 О О иа QI lim Pq QT и* о wq QT (101) 0 Ho W°° = lim Wq = 0, поскольку все характеристические числа матрицы W g—>-оо по модулю меньше единицы. Поэтому Qf> ... О О Р°° = О ... Qf Ua (102) Поскольку Qi,...)Qg — примитивные стохастические матрицы, то матрицы Qi°, ...,Q^°, согласно формулам (99) и (35) (с. 346), положительны: Q?>0, ..., Q~>0, и в каждом столбце любой из этих матриц все элементы равны между собой: (ft)i QT = Щ WiJ=l (Л = 1,2,...,р). Заметим, что нормальному виду (100) стохастической матрицы Р соответствует разбиение состояний системы Si,S2, ...,Sn на группы: Ei, E2, ..., Sp, Sp+i, (103) Каждой группе £ в (103) соответствует своя группа рядов в (101). По терминологии А. Н. Колмогорова46) состояния системы, входящие в Ei, £2, •••> £$> называются существенными, а состояния, входящие в остальные группы E^+i, ...,SS, — несущественными. Из вида (101) матрицы Pq следует, что при любом конечном числе шагов q (от момента tk-q к моменту tk) возможен только переход системы: а) из существенного состояния в существенное состояние той же группы; б) из несущественного состояния в существенное состояние; в) из несущественного состояния в несущественное состояние той же или предшествующей группы. Из вида (102) матрицы Р°° следует, что в пределе при q —»• 00 переход возможен только из любого состояния в существенное состояние, т. е. вероятность 46) См. [96], а также [29, с. 37-39].
372 Гл. XIII. Матрицы с неотрицательными элементами перехода в любое несущественное состояние при числе шагов q —> оо стремится к нулю. Поэтому существенные состояния иногда называются и предельными состояниями. 3. Из формулы (97) следует (Е-Р)Р°° = 047). Отсюда видно, что каждый столбец матрицы Р°° является собственным вектором стохастической матрицы Р для характеристического числа Л = 1. Для регулярной матрицы Р число 1 является простым корнем характеристического уравнения, и этому числу соответствует только один (с точностью до скалярного множителя) собственный вектор (1,1,...,1) матрицы Р. Поэтому в любом j-ы столбце матрицы Р°° все элементы равны одному и тому же неотрицательному числу p^j'. Р%=Р™>0 (j = l,2,..,n; f>, = l). (104) Таким образом, в регулярной цепи предельные переходные вероятности не зависят от начального состояния. Обратно, если в некоторой правильной однородной цепи Маркова предельные переходные вероятности не зависят от начального состояния, т. е. имеют место формулы (104), то в схеме (102) для матрицы Р°° обязательно g = 1. Но тогда п\ = 1, и цепь является регулярной. Для ациклической цепи, которая является частным случаем регулярной цепи, Р — примитивная матрица. Поэтому при некотором q > 0 Pq > 0 (см. теорему 8 на с. 361). Но тогда и Р°° = Р°°ря > О48). Обратно, из Р°° > 0 следует, что Pq > 0 при некотором q > 0, а это по теореме 8 означает примитивность матрицы Р и, следовательно, ацикличность данной однородной цепи Маркова. Полученные результаты мы сформулируем в виде следующей теоремы. Теорема 11. 1. Для того чтобы в однородной цепи Маркова существовали все предельные переходные вероятности, необходимо и достаточно, чтобы цепь была правильной. В этом случае матрица Р°°, составленная из предельных переходных вероятностей, определяется формулой (95) или (98). 2. Для того чтобы в правильной однородной цепи Маркова предельные переходные вероятности не зависели от начального состояния, необходимо и достаточно, чтобы цепь была регулярной. В этом случае матрица Р°° определяется формулой (99). 3. Для того чтобы в правильной однородной цепи Маркова все предельные переходные вероятности были отличны от нуля, необходимо и достаточно, чтобы цепь была ациклической49). 4. Введем в рассмотрение столбцы из абсолютных вероятностей P=(Puh,-.-X) (* = 0,1,2,...), (105) 47) Эта формула имеет место для произвольной правильной цепи и может быть получена из очевидного равенства Pq — Р ■ Pq~l = 0 предельным переходом q —> оо. 48) Это матричное равенство получается предельным переходом т —> оо из равенства Рт = Pm~q • Pq (m > q)\ P°° — стохастическая матрица, поэтому Р°° ^0, ив любой строке матрицы Р°° имеются ненулевые элементы. Отсюда P°°Rq > 0. Вместо теоремы 8 можно здесь воспользоваться формулой (99) и неравенством (35) (с. 346). 49) Заметим, что из Р°° > 0 вытекает ацикличность, а следовательно, и регулярность цепи. Поэтому из Р°° > 0 автоматически следует, что предельные переходные вероятности не зависят от начального состояния, т. е. имеют место формулы (104).
§ 7. Предельные вероятности для однородной цепи Маркова 373 к где Pi — вероятность нахождения системы в момент tk в состоянии Si (г = = 1,2, ...,п; к = 0,1,2,...). Пользуясь теоремами сложения и умножения вероятностей, найдем п Pi = J2PhPhi (* = М,-,л; * = 1,2,...), или, в матричной записи, р = Р,кр (к = 1,2,...), (106) где Р' — транспонированная матрица для матрицы Р. Все абсолютные вероятности (105) определяются из формулы (106), если из- оо о вестны начальные вероятности Pi,P2, —,Рп и матрица переходных вероятностей Р = Прут*. Введем в рассмотрение предельные абсолютные вероятности со к Pi = lim Pi (i = l,2,...,n) fc—юо ИЛИ oo ,oo со со ч к P = (Pi,P2,.»,Pn) = ,Hm P. Переходя в обеих частях равенства (106) к пределу при к -> оо, получим oo , 0 p=poofp ^107^ Заметим, что существование матрицы предельных переходных вероятнос- оо со тей Р°° влечет существование предельных абсолютных вероятностей Ро = уР\, со со 0 0 0 0 Р2,—,Рп) ПРИ любых начальных вероятностях Р = (Pi,P2, •••,Pn) и наоборот. Из формулы (107) и из вида (102) матрицы Р°° вытекает, что предельные абсолютные вероятности, соответствующие несущественным состояниям, равны нулю. Умножая обе части матричного равенства / туоо' туоо' Р'.р о справа на Р, в силу (107) получим , со со Р'Р = Р, (108) га. е. столбец предельных абсолютных вероятностей Р является собственным вектором матрицы Р' для характеристического числа Л = 1. Если данная цепь Маркова регулярна, то Л = 1 является простым корнем характеристического уравнения матрицы Р'. В этом случае столбец предельных абсолютных вероятностей однозначно определяется из (108) (поскольку Pj ^ 0 п 0' = 1,2,...,п)и£р,- = 1). i=i Пусть дана регулярная цепь Маркова. Тогда из (104) и из (107) следует П лч П лч со » > 0 » > О Р> = ЕР*Р«=^ЕР*=^ 0- = 1.2,...,«). (Ю9) h=l h=l
374 Гл. XIII. Матрицы с неотрицательными элементами со со со В этом случае предельные абсолютные вероятности Pi,P2,—,Pn не зависят от оо о начальных вероятностей Pi,P2i---,Pn- со 0 Обратно, Р может не зависеть от Р при наличии формулы (107) тогда и только тогда, когда все строки матрицы Р°° одинаковы, т. е. р«=р2? (ft,i = i,2,...,n), и потому (согласно теореме 11) Р — регулярная матрица. Если Р — примитивная матрица, то Р°° > 0, а отсюда в силу (109) °° Pj>0 (j = l,2,...,n). СО Наоборот, если все Pj > 0 (j = 1,2, ...,п) и не зависят от начальных вероятностей, то в каждом столбце матрицы Р°° все элементы одинаковы и, согласно (109), -Р°° > 0, а это по теореме 11 означает, что Р — примитивная матрица, т. е. данная цепь ациклична. Из изложенного вытекает, что теорему 11 можно сформулировать так. Теорема И7. 1. Для того чтобы в однородной цепи Маркова существовали все предельные абсолютные вероятности при любых начальных вероятностях, необходимо и достаточно, чтобы цепь была правильной. 2. Для того чтобы в однородной цепи Маркова существовали предельные абсолютные вероятности при любых начальных вероятностях и не зависели от этих начальных вероятностей, необходимо и достаточно, чтобы цепь была регулярной. 3. Для того чтобы в однородной цепи Маркова при любых начальных вероятностях существовали положительные предельные абсолютные вероятности и эти предельные вероятности не зависели от начальных, необходимо и достаточно, чтобы цепь была ациклической50). 5. Рассмотрим теперь однородную цепь Маркова общего типа с матрицей переходных вероятностей Р. Возьмем нормальную форму (69) матрицы Р и обозначим через h\,h2,-.-,hg индексы импримитивности матриц Ai,A2,...,Ag в (69). Пусть h — наименьшее общее кратное целых чисел hi,h2,...,hg. Тогда матрица Ph не имеет характеристических чисел, равных по модулю единице, но отличных от единицы, т. е. Ph — правильная матрица; при этом h — наименьший показатель, при котором Ph — правильная матрица. Число h назовем периодом данной однородной цепи Маркова. Поскольку Ph — правильная матрица, то существуют предел lim Phq = (Ph)°°, q—юо а значит, и пределы lim Pr+qh = Pr = pr(ph)°° (r = 0,1,..., h - 1). q—юо Таким образом, в общем случае последовательность матриц Р, Р2, Р3, ... разбивается на h подпоследовательностей с пределами Pr = pr(p/l)°° (r = о, l,...,h-l). 50) Вторую часть теоремы 11' иногда называют эргодической, а первую — общей ква- зиэргодической теоремой для однородных цепей Маркова (см. [4, с. 473, 476]).
§ 7. Предельные вероятности для однородной цепи Маркова 375 Переходя от переходных вероятностей к абсолютным при помощи формулы (106), получим, что последовательность 12 3 Р, Р, Р, ». распадается на h подпоследовательностей с пределами lim Г+РН = (P,h)°°pr (r = 0,1,2,..., ft - 1). q—>оо Для произвольной однородной цепи Маркова с конечным числом состояний всегда существуют пределы средних арифметических: N Р= lim 4У"^ = г(^ + ^ + - + ^"1)(^/1)с (ПО) к=\ р = lim — > р = Р'р. (110') к=1 Здесь Р = WpijWf и р = (р1,й,...,Рп). Величины p{j (i,j = 1,2,...,п) и pj (j = l,2,...,n) называются соотчетственно средними предельными переходными и средними предельными абсолютными вероятностями. Поскольку ЛГ+1 N lim 1Г^= Пш ^У"Р*, N-юо N к=2 к=1 ТО (111) РР = Р, и, следовательно, в силу (ПО7) Р'р = р, т. е. р — собственный вектор матрицы Р' для Л = 1. Заметим, что по формулам (69) и (ПО) мы можем представить матрицу Р в виде М 0 ... 0 0 А2 ... 0 где Р = N о о и Ъ = №ЛТ,А* (* = М> ■■■>*)> fc=l ТУ = W о * Л+2 о W w = о о lim ^ТУ^\¥к, ЛГ-юо iV fc=l Поскольку все характеристические числа матрицы W по модулю меньше единицы, то lim Wk = 0 к—>оо
376 Гл. XIII. Матрицы с неотрицательными элементами и, следовательно, W = 0. Поэтому Р - 1 ^ 0 0 0 . А2 . 0 . и .. 0 .. 0 .. А9 о (112) Поскольку Р — стохастическая матрица, то стохастическими являются здесь и матрицы Ai,A2,...,Ag. Из полученного представления для Р и из (107) следует, что средние предельные абсолютные вероятности, соответствующие несущественным состояниям, всегда равны нулю. Если в нормальной форме матрицы Р число g = 1, то для матрицы Р' число Л = 1 является простым характеристическим числом. В этом случае р однозначно определяется из (111), и средние предельные веро- ~ ~ ~ 0 0 0 ятности Р11Р2т--,Рп не зависят от начальных вероятностей Pi,P2, ---<>Pn- Обратно, о ~ если р не зависит от Р, то в силу (ПО7) матрица Р имеет ранг 1. Но матрица (112) может иметь ранг 1 только тогда, когда g = 1. Полученные результаты мы сформулируем в виде следующей теоремы51). Теорема 12. Для произвольной однородной цепи Маркова с периодом h мат- ь k рицы вероятностей Рк иР при к —> сю стремятся к периодическому повторению с периодом h; при этом всегда существуют средние предельные переходные и абсолютные вероятности Р = \\pij\\i up— (pi,P2,—,Pn), определяемые формулами (ПО) и (ПО'). Средние предельные абсолютные вероятности, соответствующие несущественным состояниям, всегда равны нулю. Если в нормальной форме матрицы Р число g = 1 (и только в этом случае), средние предельные абсолютные вероятности pi,p2, ...,рп не зависят от началь- 0 0 0 ных вероятностей Pi,P2,'-",Pn и однозначно определяются из уравнения (111). § 8. Вполне неотрицательные матрицы В этом и следующем параграфах мы рассмотрим вещественные матрицы, у которых не только элементы, но и все миноры любых порядков неотрицательны. Такие матрицы имеют важные применения в теории малых колебаний упругих систем. Подробное исследование этих матриц и их приложений читатель найдет в книге [7]. Здесь же будут даны только некоторые основные свойства этих матриц. 1. Начнем с определения. Определение 5. Прямоугольная матрица А= \\aik\\ (i = l,2,...,m; k = l,2,...,n) называется вполне неотрицательной (вполне положительной), если все миноры 51) Эту теорему иногда называют асимптотической теоремой для однородных цепей Маркова. См [4, с. 479-482].
§8. Вполне неотрицательные матрицы 377 любых порядков этой матрицы неотрицательны (соответственно положительны): h к2 ^ 0 (соответственно > 0) (1 ^ i\ < г2 < ... < гр ^ п, 1 ^ к\ < к2 < ••• < кр ^ п; р = 1,2,... min (m, n))). В дальнейшем мы ограничимся рассмотрением только квадратных вполне неотрицательных и вполне положительных матриц. Пример 1. Обобщенная матрица Вандермонда У = \Kk\\i (0<а1<а2< ... < ап; оц < а2 < ... < ап) является вполне положительной. Докажем сначала, что \V\ / 0. В самом деле, из равенства \V\ = 0 следовало бы, что можно так определить не равные одновременно нулю вещественные числа Ci,C2,...,cn, чтобы функция f(x) = Щ с*а к=1 имела п нулей в точках xi = a; (i = 1,2,..., п), где n — число степенных слагаемых. При п = 1 это невозможно. Примем индуктивное допущение, что это невозможно для суммы меньшего, нежели п, числа степенных слагаемых, и докажем, что это невозможно и для данной функции f(x). Допустим противное. Тогда по теореме Ролля функция Д (х) = [x~ai/(#)]', сотоящая из п — 1 степенных слагаемых, имела бы п — 1 положительных нулей, а это противоречит допущению индукции. Итак, \V\ ф 0. Но при а\ = 0, а2 = 1, ..., ап = п — 1 определитель \V\ переходит в обычный определитель Вандермонда 1а*"1!", который положителен. Так как переход от этого определителя Вандермонда к обобщенному можно осуществить путем непрерывного изменения показателей а\,а2,...,ап с сохранением неравенств между ними {а\ < а2 < ... < ап) и так как по доказанному определитель при этом не обратится в нуль, то и \V\ > 0 при любых (0 <) а\ < а2 < ... < ап. Поскольку любой минор матрицы V можно рассматривать как определитель некоторой обобщенной матрицы Вандермонда, то все миноры матрицы V положительны. Пример 2. Рассмотрим якобиеву матрицу J = ах С\ 0 0 h а2 с2 0 0 . ь2 . а3 . 0 . 0 . 0 0 • cn_i 0 0 0 0>п (113) т. е матрицу, в которой все элементы, не принадлежащие главной диагонали, первой наддиагонали и первой поддиагонали, равны нулю. Установим формулу, выражающую произвольный минор этой матрицы через главные миноры и элементы 6, с. Пусть 1 ^ %\ < г2 < ... < %р ^ п, 1 ^ к\ < к2 < ... < кр ^ п %\ — A?i, %2 — к2, ..., %Vl — kVl; ^z/i+i f1 ^z/i+ъ •'••> iv2 г1 %2> ^Z/2 + l = ^2 + 1 1 "") ^3 = ^3 5 **•
378 Гл. XIII. Матрицы с неотрицательными элементами Тогда Л i1 i2 - ip )=j(ii - ь )j(ivi+i) -ЛЬ W h+i ■•• h 1 - \k\ k2 ... kp J \h ... kVl J \kVl+i J \K2 J \K2+i - Кг ) (114) Справедливость этой формулы вытекает из легко проверяемого равенства 'U :::&)-'(£::: fcOJU )'(&:::£) «^«->*«• (115) Из формулы (114) следует, что любой минор равен произведению некоторых главных миноров и некоторых элементов матрицы J. Таким образом, для того чтобы матрица J была вполне неотрицательной, необходимо и достаточно, чтобы все ее главные миноры и элементы Ъ, с были неотрицательны. 2. Для вполне неотрицательной матрицы А = На^Цу всегда имеет место следующее важное детерминантное неравенство52): Выводу этого неравенства предпошлем следующую лемму. Лемма 5. Если во вполне неотрицательной матрице А = Цо^Цу какой-либо главный минор равен нулю, то равен нулю любой "объемлющий" главный минор. Доказательство. Лемма будет доказана, если мы покажем, что для вполне неотрицательной матрицы А = Ца^Цу из l:':.qq)=° (9<n) (ш) О всегда следует 2 ••• П ' = 0. (118) 2 ... п При этом рассмотрим два случая: О 1) ац = 0. Поскольку = -аца1к^0, ац^О, а1к^0 (г,к = 2,...,п), «11 0>1к | an o,ik | то либо все ац = 0 (г = 2,...,п), либо все а\и = 0 (к = 2,...,п). Из этих равенств и из ац =0 следует (118). 2) ац ф 0. Тогда для некоторого р (1 ^ р ^ q) Введем окаймляющие определители d*=A{\ 2 '.'.'.Рр-1 1) в* = Р,Р+1,-,п). (120) 52) См. [82, в], а также [7, с. 111 и далее]. Там же выяснено, что знак равенства в (116) может иметь место только лишь в следующих очевидных случаях: 1) один из множителей в правой части (116) равен нулю; 2) все элементы a,ik (г = 1,2, ...,р; к = р+ 1, ...,гг) либо все элементы a,ik (г =р + + 1,..., n; & = 1, 2, ...,р) равны нулю. Неравенство (116) имеет тот же внешний вид, что и обобщенное неравенство Ада- мара [см. (29) на с. 223] для положительно определенной эрмитовой или квадратичной формы.
§8. Вполне неотрицательные матрицы 379 Из них составим матрицу D = \\dik\\p. Согласно тождеству Сильвестра (гл. II, § 3) D г\ г2 к\ к2 О 2 ... р-1 2 ... р-1 1 2 1 2 . . р- 1 %i г2 .. р - 1 к\ к2 д = 1,2,...,п (р ^ %\ < г2 < ... <ig ^ n, р ^ &i < /г2 < ... < кд ^ п; и поэтому D — вполне неотрицательная матрица. Поскольку в силу (119) / v dPP = А у 1 2 ... р J = °' то матрица D = \\dik\\p подходит под уже разобранный случай 1) и ^ 0 (121) Р+1), D р р+ 1 р р + 1 Отсюда, поскольку А п п С 1 2 1 2 2 ... р-1 2 ... р-1 Р- Р- О п—р 1 2 1 2 = 0. / 0, следует (118). Лемма доказана. 3. Теперь мы имеем возможность при выводе неравенства (116) предполагать, что все главные миноры матрицы А отличны от нуля, так как, согласно лемме 5, равенство нулю одного из главных миноров возможно лишь тогда, когда \А\ = 0, а в этом случае неравенство (116) очевидно. При п = 2 справедливость неравенства (116) проверяется непосредственно: 12\_ 12J- «11^22 — CLi2a2l ^ ^11^22, поскольку ai2 ^ 0, а2\ ^ 0. Будем устанавливать неравенство (116) для п > 2, предполагая, что оно уже справедливо для матриц порядка < п. Кроме того, не нарушая общности, можем считать, что р > 1, так как в противном случае путем обратной нумерации строк и столбцов мы поменяли бы ролями числа р и п — р. Вводя снова в рассмотрение матрицу D = \\dik\\p, где dik (г, к = р,р+ 1, ...,п) определяются формулами (120), используя дважды тождество Сильвестра и основное неравенство (116) для матриц порядка < п, имеем 2 .. 2 .. л/рр + 1...п\ /р + 1...п\ урр+1 ... п) уу ур + 1 ... nj р- р- 1 2 .. 1 2 ... <*(!>:::;) р + 1 р+1 (l2...nj Г Л 2... I V12- \12...р) \1 2 ... р-1р+1 ... п A{l2...p-l) Таким образом, неравенство (116) можно считать установленным. Введем следующее Определение 6. Минор А(%\ г2 ... ip\ \ki k2 ... кр J (1 ^ %\ < г2 < ... < ip ^ п, 1 ^ к\ < к2 < ... < кр ^ п) .(122) (123)
380 Гл. XIII. Матрицы с неотрицательными элементами матрицы А = \\a>ik\\i будем называть почти главным, если среди разностей %\ — — &i, i2 — &2, •••, iP — кр только одна разность не равна нулю. Обращаем внимание на то, что весь вывод неравенства (116) (в том числе и доказательство вспомогательной леммы) сохраняет свою силу, если условие "А — вполне неотрицательная матрица" заменить более слабым условием "в матрице А неотрицательны все главные и почти главные миноры" 53). § 9. Осцилляционные матрицы 1. Характеристические числа и собственные векторы вполне положительных матриц обладают целым рядом замечательных свойств. Однако класс вполне положительных матриц недостаточно широк с точки зрения приложений к малым колебаниям упругих систем. В этом отношении класс вполне неотрицательных матриц имеет уже достаточный объем. Но не для всех вполне неотрицательных матриц имеют место нужные нам спектральные свойства. Однако существует промежуточный класс (между классами вполне положительных и вполне неотрицательных матриц), в котором сохраняются спектральные свойства вполне положительных матриц и который достаточно широк для охвата приложений. Матрицы этого промежуточного класса получили название "осцилляционных". Это название связано с тем, что осцилляционные матрицы образуют математический аппарат для исследования осцилляционных свойств малых колебаний линейных упругих систем54). Определение 7. Матрица А = \\ац||" называется осцилляционной, если А — вполне неотрицательная матрица и существует такое целое число q > 0, что Aq — вполне положительная матрица. Пример. Якобиева матрица J [см. (113)] является осцилляционной в том и только том случае, когда: 1°) все числа 6, с положительны; 2°) последовательные главные миноры положительны, т. е. ах > 0, «2 оч С\ о bi а>2 С2 5 х# ' 0 ь2 а>г >0, ..., аг С\ 0 bi «2 с2 0 .. &2 .. аг •• 0 . 0 0 0 0 0 >0, ci а2 62 >0, ..., 0 с2 а3 ... 0 0 > 0. 0 0 0 Сп-1 (124) Необходимость условий 1°), 2°). Числа 6, с неотрицательны, поскольку матрица J ^ 0. При этом ни одно из чисел 6, с не может равняться нулю, так как в противном случае матрица была бы разложимой, и тогда при любом q > 0 неравенство Jq > 0 не соблюдалось бы. Следовательно, все числа 6, с положительны. Все главные миноры (124) положительны согласно лемме 5, поскольку из \J\ ^ 0 ) См. [97,6]. Мы пользуемся случаем отметить, что в книге Ф. Р. Гантмахера и М. Г. Крейна [7] (во втором издании) в этом пункте допущена ошибка, на которую первым обратил внимание авторов Д. М. Котелянский. В книге [7] на с. 111 почти главный минор (123) определяется равенством р У2\*у -к»\ = 1. При таком определении почти главного минора из неотрицательности главных и почти главных миноров не следует еще неравенство (116). Однако все формулировки и доказательства § б гл. II в [7], посвященного основному неравенству, становятся верными, если для почти главного минора дать приведенное здесь определение, взятое нами из работы [97,6]. 54) См. [7, введение, гл. III, IV].
§9. Осцилляционные матрицы 381 и |Л| > 0 следует \J\ > О. Достаточность условий 1°), 2°). Раскрывая |J|, легко убеждаемся в том, что числа 6, с входят в состав \J\ только произведениями &iCi,&2C2, ••• ...,6n_icn_i. Это же относится к любому главному минору "нулевой плотности", т. е. к минору, образованному подряд идущими (без пропусков) строками и столбцами. Но любой главный минор матрицы J распадается в произведение главных миноров нулевой плотности. Поэтому в любой главный минор матрицы J числа Ь и с входят только произведениями b\C\,bic<2,, ...,6n_icn_i. Составим симметрическую якобиеву матрицу: bi = Vb~c~>0 (г = 1,2,...,п). (125) Из установленного выше свойства главных миноров якобиевой матрицы следует, что соответствующие главные миноры матриц J и J равны друг другу. Но тогда условия (124) означают, что квадратичная форма J(x,x) является положительно определенной (см. гл. X, теорему 3, с. 269), Но у положительно определенной квадратичной формы все главные миноры положительны. Следовательно, и в матрице J все главные миноры положительны. Поскольку по условию 1°) все числа 6, с положительны, то по формуле (114) все миноры матрицы J неотрицательны, т. е. J — вполне неотрицательная матрица. Осцилляционность вполне неотрицательной матрицы J, для которой выполняются условия 1°), 2°), вытекает непосредственно из следующего критерия осцилляционности. Для того чтобы вполне неотрицательная матрица А = Цо^Ц" была осцилляци- онной, необходимо и достаточно, чтобы выполнялись условия: 1) А — невырожденная матрица (\А\ > 0); 2) все элементы матрицы А, расположенные на главной диагонали, на первой наддиагонали и на первой поддиагонали, отличны от нуля (а^ > 0 при \г — k\ ^ 1). Доказательство этого предложения читатель найдет в [7, гл. II, § 7]. 2. Для того чтобы сформулировать свойства характеристических чисел и собственных векторов осцилляционной матрицы, введем некоторые предварительные понятия и обозначения. Рассмотрим вектор (столбец) и= (щ,и2у...уип). Будем подсчитывать число перемен знака в ряду координат щ,и2,...,ип вектора и, приписывая нулевым координатам (если таковые имеются) произвольные знаки. В зависимости от того, какие знаки мы припишем нулевым координатам, число перемен знака будет колебаться в известных пределах. Получающиеся при этом максимальное и минимальное числа перемен знака будем обозначать соответственно через 5+ и S~. В том случае, когда S~ = 5+, мы будем говорить о точном числе перемен знака и обозначать его через Su. Очевидно, S~ = 5+ тогда и только тогда, когда: 1°) крайние координаты щ и ип вектора и отличны от нуля; 2°) равенство щ = 0 (1 < г < п) всегда сопровождается неравенством ui-iUi+i < 0. Ь\ 0,2 Ъ<1 Ьп- Ьп-1
382 Гл. XIII. Матрицы с неотрицательными элементами Теперь будет доказана следующая основная Теорема 13. 1. Осцилляционная матрица A=\\aik\\i всегда имеет п различных положительных характеристических чисел Ai > А2 > ... > Ап > 0. (126) 2. У собственного вектора и = (un,U2i,...,uni) матрицы А, отвечающего наибольшему характеристическому числу Ai, все координаты отличны от ну- 2 ля и одного знака; у собственного вектора и = (ui2,v>22, —,иП2), отвечающего второму по величине характеристическому числу А2, в ряду координат имеется точно одна перемена знака и вообще в ряду координат собственного вектора и = (uik,U2k, —,unk), соответствующего характеристическому числу А&, имеется точно к — 1 перемен знака (к = 1,2, ...,п). h 3. При любых вещественных числах cg, cg+i,..., Ch (1 ^ g ^h^n; Y^ c\ > 0] в k=g h u = Y,CkU (127) ряду координат вектора k=g h k=g число перемен знака заключается между g — 1 и h — 1: g-l^S-^S+^h-1. (128) Доказательство. 1. Занумеруем характеристические числа Ai, А2,..., Ап матрицы А так, чтобы |Ai|^A2|^... ^|АП|, и введем в рассмотрение р-ю ассоциированную матрицу 21р (р = 1,2,...,п; см. гл. I, § 4). Характеристическими числами матрицы 21р являются всевозможные произведения по р из характеристических чисел матрицы А (см. с. 83), т. е. произведения AiA2...Ap, AiA2...Ap_iAp+i, ... Из условий теоремы следует, что при некотором целом q степень Aq — вполне положительная матрица. Но тогда 21р ^ 0, Щ, > О55), т. е. 21р — неразложимая неотрицательная и притом примитивная матрица. Применяя теорему Фробениуса (см. § 2, с. 339) к примитивной матрице 21р (р = 1,2, ...,п), получим AiA2...Ap>0 (р = 1,2,...,п), AiA2...Ap > AiA2...Ap_iAp+i (p = 1,2, ...,п — 1). Отсюда вытекают неравенства (125). 2. Из установленных неравенств (125) вытекает, что А = Ца^Ц" — матрица простой структуры. Тогда и все ассоциированные матрицы 21р (р = 1,2, ...,п) будут иметь простую структуру (см. с. 83). Введем в рассмотрение фундаментальную матрицу U = ll^ifcll? Для матри- k цы А (в k-м столбце матрицы U стоят координаты к-ro собственного вектора и матрицы А; к = 1,2, ...,п). Тогда (см. гл. III, с. 83) характеристическому числу AiA2 ... Ар матрицы 21р будет соответствовать собственный вектор с координатами U(l 2 '.'.'. р) (1^1<*2<-<гр^п). (129) 5) Матрица Щ, является р-й ассоциированной матрицей для А0 (см. гл. 1, с. 28).
§9. Осцилляционные матрицы 383 По теореме Фробениуса все числа (129) отличны от нуля и одного знака. Умно- 12 п жая векторы и, и, ...,и на ±1, можно сделать все миноры (129) положительными: "(? *2 • • • гр \ 2 ••• Р )>U (130) (1 ^ %\ < г2 < ... < ip ^ n; p = 1,2, ...,п). Фундаментальная матрица U = \\uik\\i Для матрицы А связана с матрицей А равенством А = С/{Л1,Л2,...,ЛП}(7-1. (131) Но тогда A' = U'-1{\1,\2,...,\n}U'. (132) Сопоставляя (131) с (132), мы видим, что матрица V = U'~l (133) является фундаментальной для транспонированной матрицы А' при тех же характеристических числах Ai,A2, ...,ЛП. Но из осцилляционности матрицы А следует осцилляционность транспонированной матрицы А1'. Поэтому и для матрицы V при любом р = 1,2,..., п все миноры ) (134) ^(l1 2 '.'.'. рР) (1 < <i < «'а <•« <<!»<" отличны от нуля и имеют один и тот же знак. С другой стороны, согласно (133) матрицы U и V связаны равенством U'V = Е. Переходя к р-м ассоциированным матрицам (см. гл. I, § 4), будем иметь XX-pJjp = у~р> Отсюда, в частности, записывая, что диагональный элемент матрицы (£р равен единице, получим Е Ki1 22 ::: ?М? * '■■'■ J0=L (135) В левой части этого равенства первые множители в слагаемых положительны, а вторые отличны от нуля и одного знака. Тогда очевидно, что и вторые сомножители положительны, т. е. yfii г2 ... ip\ Ч1 2 ••• Р ) (136) (1 ^ и < г2 < ... < ip ^ n; p = 1,2, ...,п). Таким образом, для матриц U = \\uik\\i и V = U'~ одновременно имеют место неравенства (130) и (136). Выражая миноры матрицы V через миноры обратной матрицы V~l = Uf no известным формулам [см. с. 29], получим у (h h ... jn-p \_(-l)np+^'^ivTr(ii г2 ... гр \ \1 2 ... n-pj \U\ \п п-1 ... n-p + ly' (137)
384 Гл. XIII. Матрицы с неотрицательными элементами где %\ < %2 < ... < гр и ji < J2 < ... < jn-p вместе дают полную систему индексов 1,2, ...,п. Так как в силу (130) \U\ > 0, то из (136) и (137) вытекает У J \1 2 ... р J (138) (1 ^ ii < г2 < ... < ip ^ п; р = 1,2,...,п). Пусть теперь и = Y^ Ск и I Y^ с* > 0 1. Мы покажем, что из неравенств (130) к=д ^ к=д ' следует вторая часть неравенства (128): S+^h-1, (139) а из неравенств (138) — первая: S-^g-1. (140) Допустим, что 5+ > h — 1. Тогда можно указать такие h + 1 координат вектора гл iiiuiiia,...,^^ (1 ^ii <г2 < ... <гЛ+1 ^п), (141) что игаЩа+1 ^° (<* = 1,2,...,/г). При этом координаты (141) не могут все одновременно равняться нулю, так h Ек Ск U к=1 h lc\ = ... = Cg-i = 0; yjc^ > 0], мы получили бы систему однородных урав- к=1 нений h ^2 Скигак = 0 (а = 1, 2, ..., К) к=1 с ненулевым решением ci,C2, ...,0^; в то же время определитель этой системы "0; • %2 • • • г/г 2 ... h согласно (130), отличен от нуля. Рассмотрим теперь равный нулю определитель Щг1 . . . U^h Щ\ Щ21 . . . Щ2к Щ2 = 0. uih+il ••• uih+\h uih+i Раскроем его по элементам последней вертикали: /i+i «.-1-х • . . .\ £(-1)л+в+ч,гч i1 •••га-1 ia+i ••• гт)=о. Но такое равенство не может иметь места, так как в левой части нет двух слагаемых разных знаков и по крайней мере одно слагаемое отлично от нуля. Таким образом, допущение S+ > h — 1 привело нас к противоречию, и неравенство (139) можно считать установленным.
§9. Осцилляционные матрицы 385 Введем в рассмотрение векторы к и* = К*,г*!!*» •••><*) (* = 1>2,...,п), где <к = (-l)n+i+4* (t,fc = l,2,...,n); тогда для матрицы U* = \\u*k\\i в силу (138) будем иметь ^(п п-1 '.'.'. n-p+l)>° (1<<1<<2<-<<р<«; Р=1,2,...,п). (142) Но неравенства (142) аналогичны неравенствам (130). Поэтому, полагая h к и* = £(-1)4"*, (143) к=д будем иметь неравенство, аналогичное неравенству (139)56): S+^n-g. (144) Пусть и = (^i,U2,...,^n), а и* = (wj,^2,...,^*). Легко видеть, что и: = (-1)Ч|< (г = 1,2,...,п). Поэтому 5+ +5"=п-1 и, следовательно, в силу (144) имеет место соотношение (140). Неравенство (128) установлено. Поскольку из него получается при д = h = к утверждение 2 теоремы, то теорема доказана полностью. 3. Рассмотрим применение доказанной теоремы к исследованию малых колебаний п масс mi,rri2,...,mn, сосредоточенных в п подвижных точках х\ < < Х2 < ... < хп сегментного упругого континуума (струна или стержень конечной длины), простирающегося (в состоянии равновесия) вдоль отрезка 0 ^ х ^ / оси х. Обозначим через K(x,s) (0 ^ х, s ^ I) функцию влияния этого континуума [К(х, s) — прогиб в точке х под действием единичной силы, приложенной в точке s], а через кц — коэффициенты влияния для данных п масс: kij = K(xuXj) (ij = l,2,...,n). Если в точках xi,X2,—,xn приложены п сил i*i,F2, ...,Fn, то соответствующий статический прогиб у(х) (0 ^ х ^ /) в силу линейного наложения прогибов выразится формулой У(х) = ^К(х^хз)Ез- 3=1 Заменяя здесь силы Fj силами инерции —rrij -^y(xj;t) (j = 1,2,...,п), получим уравнение свободных колебаний П д2 У(Х) = -^2m3K(X^Xj) QJ2 У(Х3'^)' (145) 3=1 56) В неравенствах (142) векторы и (к = 1,2, ...,п) идут в обратном порядке и, и . Вектору и предшествуют п — g векторов этого ряда. 13 Ф.Р. Гантмахер
386 Гл. XIII. Матрицы с неотрицательными элементами Будем искать гармонические колебания континуума в виде y(x)=u(x)sm(ut + a) (O^x^l). (146) Здесь и(х) — амплитудная функция, ш — частота, а — начальная фаза. Подставляя это выражение для у(х) в (145) и сокращая на sin (ut + а), получим n и(х) = J1 2_. m-jK(x, Xj)u(xj). (147) i=i Введем обозначения для переменных прогибов и для амплитудных прогибов в точках расположения масс: Уг =y(Xi,t), Щ =и(х{) (l = 1,2,...,п). Тогда Уг = щ sin (ut + а) (г = 1,2, ...,п). Введем еще приведенные амплитудные прогибы и приведенные коэффициенты влияния щ = у/ггнщ, aij = у/тщт]kij (г, j = 1,2, ...,п). (148) Заменяя в (147) х последовательно на Х{ (г = 1,2,..., п), получим систему уравнений для амплитудных прогибов п ^aijUj = Хщ (\ = —; г = 1,2, ...,nj. (149) i=i Отсюда видно, что амплитудный вектор и = (ui,U2, ...,йп) есть собственный вектор матрицы А = \\aij\\i = \\y/mimj kijWi ПРИ ^ = 1/^2 (ср« с гл. X, § 8). В результате подробного анализа57) устанавливается, что матрица коэффициентов влияния \\kij\\i сегментного континуума всегда является осцилляционной матрицей. Но тогда и матрица А = Ца^-ЦУ = \\y/rriimj %||? является осцилляционной. Поэтому матрица А (согласно теореме 13) имеет п положительных характеристических чисел Ai > Л2 > ... > Лп > О, т. е. существует п гармонических колебаний континуума с различными частотами: (0<)ол <о>2 <... <ип (Xi = ^ г = 1,2,...,п). В силу той же теоремы основному тону с частотой ш\ соответствуют амплитудные прогибы, отличные от нуля и одного знака. В ряду амплитудных прогибов, отвечающих первому обертону с частотой U2, имеется точно одна перемена знака и вообще в ряду амплитудных прогибов для обертона с частотой Uj имеется точно j — 1 перемен знака (j = 1,2, ...,п). Из того факта, что матрица коэффициентов влияния Ц^Цу осцилляционна, вытекают и другие осцилляционные свойства континуума: 1) при ш = и± амплитудная функция и(х), связанная с амплитудными прогибами формулой (147), не имеет узлов, и вообще при и = u>j эта функция имеет j — 1 узлов (j = 1,2,... ...,п); 2) узлы двух смежных тонов перемежаются и т. д. На обосновании этих свойств мы не можем здесь останавливаться58). 57) См. [101, д,е; 7, гл. III]. 58) См. 7, гл. III, IV].
ГЛАВА XIV РАЗЛИЧНЫЕ КРИТЕРИИ РЕГУЛЯРНОСТИ И ЛОКАЛИЗАЦИЯ СОБСТВЕННЫХ ЗНАЧЕНИЙ § 1. Критерий регулярности Адамара и его обобщения Пусть А = \\aik\\i — произвольная п х n-матрица с комплексными элементами. Допустим, что эта матрица вырождена, т. е. \А\ = 0. Тогда существуют такие числа xi,X2,...,xn с максимальным \xk\ > 0, что1) п ^2akjXj = 0. (1) i=i Но тогда п п \акк\\хк\ ^ ^2 \а*з\\хз\ < 1ж*1 Ц la*il- j=i,j^k j=ij^k Сокращая на \хк\, получаем п Поэтому, если выполняются условия Адамара п Нг = \ац\- Y, М>° (г = 1,...,п), (3) з=ЪзФ1 то неравенство типа (2) невозможно и, следовательно, матрица А является регулярной (невырожденной), т. е. \А\ ф 0. Таким образом, справедлива Теорема 1 (Адамара). Если для матрицы A = \\a,ik\\i выполняются п неравенств (3), то матрица А является невырожденной. Условие Hi > 0 означает, что модуль диагонального элемента ац превосходит (строго) сумму модулей всех остальных элементов г-й строки. Такой элемент ац называется доминирующим (для своей строчки). Условия Адамара требуют, чтобы все диагональные элементы матрицы А были доминирующими (для своих строк). Замечание 1. Если выполняются условия Адамара (3), то для mod \A\ справедлива следующая оценка снизу: mod|,4| ^ЯхЯ2...Яп>0. (4) Для того чтобы убедиться в справедливости неравенства (4), введем вспомогательную матрицу F = \\fij\|f, где fij = ^ (*,i = l,...,n), (5) х) Равенства (1) выполняются при любом к = 1, ...,п. Мы же берем только то значение к, при котором \хк\ является максимальным.
388 Гл. XIV. Различные критерии регулярности для которой, очевидно, п 3=1,Зфг Обозначим через Ло какое-либо характеристическое число этой матрицы. Числу Ло соответствует собственный вектор (xi,X2,—,xn) с максимальным \хк\ > 0. Тогда п Ao^fe =^2fkjXj. (7) i=i Из этого равенства с учетом соотношений (6) получаем п / п \ |А0|Ы^1/ЫЫ- £ |Л;1Ы^М |Л*|- Е l/*il = 1**1- 3=1,Зфк \ j=l,rtk / Сокращая на |ж^|, найдем |Ао| ^ 1. Но определитель |F| равен произведению характеристических чисел матрицы F. Каждое из них по модулю ^ 1. Поэтому и mod|F|^l. (8) С другой же стороны, |F| = 'Л| . (9) HlH2 ... iln Из (8) и (9) сразу следует искомое неравенство (4). Заметим еще, что для всего класса матриц, удовлетворяющих условиям Ада- мара с заданными значениями Hi,...yHn, оценка (4) не может быть улучшена, так как неравенство (4) переходит в равенство, если в качестве матрицы А взять матрицу ||Я»й*||. Замечание 2. Поскольку \А\ = \А'\, то, заменяя матрицу А транспонированной матрицей А', получаем достаточные условия невырожденности матрицы А в виде условий Адамара для столбцов п G< = |o«|- Y, Ы>0 (* = 1,-,п). (10) i=l.Зфг При выполнении этих условий вместо (4) будем иметь mod\A\>GlG2...Gn. (11) Пусть С — произвольная невырожденная п х n-матрица. Тогда матрицы А и С одновременно являются невырожденными. Поэтому в условиях (3), (10), а также в оценках (4) и (11) можно матрицу А заменить на АС. Варьируя матрицу С, будем получать различные (неэквивалентные между собой) достаточные условия невырожденности, а также оценки для |А|, аналогичные (4) и (11). В частности, путем подбора надлежащей матрицы С можно осуществить произвольную перестановку столбцов. Тогда вместо условий (3) получим условия п H[ = \ailH\- Y, 1«У1>° (* = 1.-.п)» (12)
§1. Критерий регулярности Адамара и его обобщения 389 где (/xi, ...,//п) — фиксированная, но произвольная перестановка индексов 1,2,... ...,п. Другими словами, матрица А = Ца^Ц^ будет невырожденной, если в каждой ее строке имеется доминирующий (не обязательно диагональный) элемент и эти п доминирующих элементов расположены в различных столбцах. Аналогичное предложение имеет место для столбцов. Пусть теперь выполняются ослабленные условия Адамара п Нг = \ац\- ^2 |оу|^0 (г = 1,...,п). (13) В этом случае каждый диагональный элемент является слабо доминирующим для своей строки. Допустим, что матрица А вырождена и Ах = 0, вектор-столбец х = (х±,..., хп) ф Ф О имеет ровно р элементов Хк с максимальным модулем |ж^|, и пусть сначала р < п. Перенумеруем координаты вектора х так, чтобы этими максимальными по модулю были первые р координат: \Xl\ = ... = \хр\ > \xj\ (j = p+l,...,n). При этом равенство Ах = 0 сохранится, если мы совершим некоторую (но одну и ту же) перестановку строк и столбцов матрицы А. После этого можно записать п akkXk = - 22 аЬэхэ (^ - *» —>Р)> откуда / р \ п п \а>кк\\хк\^[ ^2 \аы\)\хь\+ ^2 \аи\\хз\ ^ 1Ж*1 Y1 1а^1 (к = 1,...,п). (14) Сокращая на \хк\, получим \акк\ ^ ^ |a*il (A; = l,...,n). (15) Сопоставляя эти соотношения с ослабленными условиями Адамара (13), которые имеют место по условию, заключаем, что во всех соотношениях (15), а значит, и в (14), имеет место знак равенства. А это возможно лишь тогда, когда п ^2 \akj\ = 0 (fc=p+l,...,n), т. е. матрица А имеет вид р А- Mi Mb' (16) А ~ { А3 А4 ) Но матрица, которая одной и той же перестановкой строк и столбцов приводится к виду (16), называется разложимой (см. гл. XIII, § 1). Таким образом, А — разложимая матрица при р < п. Если же р = п, то во всех соотношениях (15) и, следовательно, во всех п ослабленных условиях Адамара (13) имеет место знак равенства.
390 Гл. XIV. Различные критерии регулярности К этим выводам мы пришли, допустив, что А — вырожденная матрица. Таким образом, нами доказана следующая теорема, представляющая собой уточнение теоремы Адамара. Теорема 2 (Ольги Тауски). Если для неразложимой матрицы А выполняются ослабленные условия Адамара (13) и по крайней мере в одном из этих условий имеет место знак >, то матрица А невырождена. Само собой разумеется, что и в этой теореме условия Hi ^ 0 (г = 1,..., п) могут быть заменены условиями G{ ^ 0 (г = 1, ...,п). Для дальнейших обобщений теоремы Адамара нам понадобится понятие нормы прямоугольной матрицы. Этому понятию посвящается следующий параграф. § 2. Норма матрицы В n-мерном пространстве R векторов-столбцов х введем понятие нормы вектора. Каждому вектору х Е R ставим в соответствие некоторое вещественное неотрицательное число ||#||r или просто ||я|| так, чтобы для произвольных векторов х, у из R и произвольного скаляра Л выполнялись следующие условия: i°)lk + y||^INI + lly||; 2°)||а*|| = |А|1М1; 3°) ||ж|| > 0, если х ф 0. Полагая в 2°) А = 0, получим, что ||я|| = 0, если х = 0. Кроме того, из 2°) сразу следует \\х — у\\ ^ ||я|| — \\у\\ для любых векторов х,у Е R. Так, например, можно ввести "кубическую" норму вектора IWIi = max \Xi\ (17) или октаэдрическую норму |п = El (17') "Эрмитову" (в случае вещественного пространства R "евклидову") норму Ikllin определяют равенством2) 1№п = л|Х>*12- (17") \|г=1 Легко проверяется, что все эти нормы удовлетворяют постулатам 1°)-3°). Рассмотрим теперь произвольную прямоугольную т х n-матрицу А и связанное с нею линейное преобразование у = Ах, х — n-мерный вектор-столбец из n-мерного пространства R, а у — m-мерный вектор-столбец из га-мерного пространства S. Введем в этих пространствах нормы векторов ||#||r = ||я|| и \\y\\s = \\у\\- После этого норму прямоугольной матрицы А определим равенством ||А||= sup Jjj^lla. (18) Норма га х n-матрицы А определяется как самой матрицей А, так и теми векторными нормами, которые введены в пространствах R и S. При изменении этих норм изменяется и норма матрицы. 2) См гл. IX, § 2.
§2. Норма матрицы 391 Из определения нормы следует очевидное соотношения \\Ax\\s < PHINIr. (18') Для двух га х n-матриц А и В при одном и том же определении векторных норм имеем соотношение Р + ВК|И|| + ||В||. (19) Кроме того, очевидно, что \\\А\\ = \\\\\А\\. (19') Пусть р х n-матрица В отображает n-мерное пространство R в р-мерное пространство S, а га х р-матрица А отображает р-мерное пространство S в га- мерное пространство Т. Очевидно, матрица АВ отображает R в Т. Вводя в R, S и Т векторные нормы и определяя с их помощью нормы матриц ||А||, ||.В||, ||АВ||, легко приходим к неравенству \\АВ\\ < 1И1ШЯЦ. (19") Так, например, если исходить из "кубических" векторных норм ||#||i = max \xk\, \\y\\i = max \yi\y то норма матрицы А= Ца^Ц (г = l,...,ra; к = l,...,n) определя- ется формулой п |И||= max£|a«|. (20) к=1 Действительно, в этом случае ||Ae||i = max 5^ к=1 кХк ^ max \хк\ max У^|а**| 1<к<п l<i<m*-^ k=l и потому п к=1 В то же время здесь знак = имеет место, если выбрать координаты х±,Х2, ...,#п вектора х так, чтобы \х\\ = \х%\ = ... = \хп\ и apkXk = \apkXk\ (к = 1,...,п), где р — то значение г, при котором достигается максимум в правой части соотношения (20). Таким образом, эта правая часть равна sup ||Аж||/||ж||, и имеет место формула (20) 3). х^° Если же исходить из октаэдрических векторных норм п т 1Ин = £ы, 1М1и = £м, к=1 г=1 3) Иногда норму квадратной п х n-матрицы А вводят аксиоматически (независимо от векторной нормы), каждой п х n-матрице А ставится в соответствие неотрицательное действительное число ||А|| так, что: 1°) \\А\\ > 0, если А ф 0, и \\А\\ ф 0, если А = 0; 2°) \\А + ВЦ <С \\А\\ + ||Б||; 3°) ||АА|| = \Х\\\А\\ (А - скаляр); 4°) ||АБ|| ^ ||А||||£||. Например, можно положить \\А\\ = л/^» к \aik\2 или ll^ll = wmax|aij|. Вводят одну и ту же векторную норму как для вектора х, так и для вектора у = Ах, называют эту норму согласованной с нормой \\А\\, если всегда выполняется соотношение \\Ах\\ ^ ||А||||:г||. Наше определение нормы в этом частном случае (га = п и R = S) удовлетворяет требованиям 1°)-4°) и согласуется с векторной нормой. В отличие от произвольной нормы, определяемой аксиоматически, норму матрицы, определяемую с помощью формулы (18), называют операторной нормой, подчиненной данной норме векторов.
392 Гл. XIV. Различные критерии регулярности то, как нетрудно показать, P||=max f>*|. (20') ^ ^ г=1 п п Рассмотрим теперь эрмитовы векторные нормы ||ж||2 = \J \%k\2 и ||у||2 = Y^ \yi\2- k=l i=l Тогда, вводя в рассмотрение положительную эрмитову матрицу S = А* А, будем иметь ||Аг||2 = у*у = х*А*Ах = x*Sx, \\x\\2 = х*х. Но тогда (см. гл. X, § 7) ||А||2 = тах^=р, " " хфО Х*Х Г где р — максимальное характеристическое число матрицы АА*. В этом случае 1ИН = у/Р- (20") Введем теперь различные нормы для векторных столбцов хну. Пусть, например, 1М|п = У"Ы, |M|i = max \Vi\. Тогда ||Ac||i= max к=1 ^а^\хк\ =о||ж||и, к=1 где а = max |о^|. С другой стороны, если а = арду то, выбирая хд так, чтобы apqxq = a\xq\, и полагая Xj = 0 при j ф q, будем иметь равенство ||Ae||i = а||ж||п. Таким образом, в этом случае \\Ах\\= max \щк\. (20'") § 3. Распространение критерия Адамара на блочные матрицы Пусть п х n-матрица А разбита на s2 блоков Аар размеров соответствен но па х rip (а, /3 = 1,..., s): Til 712 • • • П3 ( An A12 ... Als \ }m A21 A22 • • • A2s }n2 . (21) V Asl As2 ... Ass ) К При этом n-мерное пространство R автоматически расщепляется на s подпространств КЛ с числом измерений па (г = l,...,s). Для любого вектора х £ R имеет место разложение х=22,х<х (xaGRa, a = l,...,s). (21') Введем векторные нормы в пространствах На. Поскольку блок-матрица Аар отображает R^ в Ra, то тем самым определится и норма 114*11= »Р ЛЙГ^- (И)
§3. Распространение критерия Адамара на блочные матрицы 393 В частности, определяется и норма квадратных матриц Ааа: \\Ааа\\= sup Ц^М. (22') Если \Ааа\ ф 0, то ||Л*а|| > 0. В этом случае из (22') легко следует, что \\A~l\\ = sup «*•« хеПа,ха^0 \\АааХа\\ и, следовательно, "^""'•.„^„.."irar' (23) Правая часть этого равенства имеет смысл и в случае, когда Ааа — вырожденная матрица. (В этом случае справа стоит нуль.) Исходя из этого и из соображений непрерывности, будем считать, что ||А~^||-1 определено и в случае \Ааа\ = 0 равно нулю. Пусть теперь \А\ = 0 и имеет место равенство Ах = 0 при х ф 0. Исходя из представлений (21) и (21'), раскрывая блочное произведение Ах, мы сможем записать S -Аааха = Е А<*0Х(3 (а = !,...,«). (24) /3=1, (Зфа Отсюда в силу установленных ранее свойств нормы матрицы (см. (18') и (19)) S S \\Аааха\\^ Е Р"/?*/зК Е H^IIIMI (a = l,...,*). (25) 0=1,0фа /3=1,/3^а С другой стороны, из (23) следует IHeeir'IMI ^ \\Аааха\\ (а = 1,...,«), что в сочетании с предыдущими неравенствами (25) дает H^ill-'IkaK Е IMMIIM (a = i, ...,*). (26) Как и в § 1, выберем индекс а так, чтобы ||жа|| имел наибольшее значение (по сравнению с \\хр\\, где /3 ф а), и заменим в правой части (26) все \\хр\\ на \\ха\\. После сокращения на \\ха\\ > 0 получим р«лгч Е н^н- (2?) 0=1,№<* Поэтому при выполнении "блочных условий Адамара" WA-'J-1- E H^ll > 0 (а = 1, ...,*) (28) /3=1, Рф* соотношение (27) невозможно и матрица А не может быть вырожденной. Нами получена Теорема 3. Если выполняются блочные условия Адамара (28), то А — невырожденная матрица.
394 Гл. XIV. Различные критерии регулярности В частном случае п\ = п^ = ... = ns = 1 эта теорема переходит в теорему Адамара, если в одномерных подпространствах Иа определить норму так: \\ха\\ = = \ха\ (а = l,...,s). Само собой разумеется, что, записывая условие невырожденности транспонированной матрицы А', в теореме 3 условия Адамара для блочных строк можно заменить условиями Адамара для блочных столбцов: WA-'J-1- £ \\A'fia\\>0 (a = 1, ...,*). (28') Ha блочные матрицы легко распространяется и теорема Ольги Тауски, если только в этой теореме потребовать "блочную" неприводимость матрицы А и выполнение ослабленных блочных условий Адамара со строгим знаком > хотя бы в одном из них. § 4. Критерий регулярности Фидлера Пусть снова п х n-матрица А представлена в блочном виде (21). Составим для нее числовую s x s-матрицу с вещественными элементами: / pii1!!-1 -p12|| ... -px.il \ г- -IMbiH IIAl1!! ••• -\\Ait\\ (0Q. \ -\\АЛ\\ -\\As2\\ ... ЦЛ-ЧГ1 J У этой матрицы все недиагональные элементы ^ 0, а диагональные ^ 0. Напомним читателю, что матрица с вещественными элементами называется М-матрицей, если у нее все недиагональные элементы ^ 0, т. е. неположительные и все главные миноры положительны4). Имеет место Теорема 4 (Фидлера). Если s x s-матрица G является М-матрицей, то п х п-матрица А является невырожденной. Доказательство. Допустим, что \А\ =0. Тогда Ах = 0, где х ф 0. Исходя из представлений (21) и (21'), как и ранее на с. 392, получаем неравенства (26), которые теперь перепишем так: \\К1ТХЫ- Е IMWIIIMI^O (a = 1, ...,*). (30) (3=1,(3фа Пусть сначала все \\ха\\ > 0. Тогда, увеличивая надлежащим образом в (30) коэффициент при \\ха\\, т. е. заменяя ||-А~£||_1 на некоторое число gaa ^ Ц-^ааУ-1» мы из неравенств (30) получим систему равенств <Ьа||#с*||- Е Н^||||^|| = 0 (a = l,...,s), (3=1,(3фа которые в матричной символике запишутся так: 4) Согласно лемме Котелянского (см. с. 353), для этого достаточно, чтобы п последовательных главных миноров были положительны.
§ 5. Круги Гершгорина и другие области локализации 395 где / 9п -\\А12\\ ... -||А1в|| \ я_ -1И21Ц 922 ... -||А2,|| V -\\Asl\\ -\\As2\\ ... gss J a £ / О — s-мерный вектор-столбец с элементами ||#i||,..., ||#*||. Отсюда сразу следует, что |G| = 0. С другой стороны, из определения М-матрицы следует, что |G| ^ \G\ > 0. Мы пришли к противоречию, допустив, что \А\ = 0. Если некоторые \\ха\\ = 0, то мы возьмем лишь те из соотношений (30), которые соответствуют значениям а, при которых \\ха\\ > 0. Повторяя дословно предыдущие рассуждения и оперируя вместо |G| некоторым главным минором матрицы G, мы снова придем к противоречию. Теорема доказана полностью. § 5. Круги Гершгорина и другие области локализации Пусть А = \\aik\\i — произвольная п х n-матрица с комплексными элементами и Л — некоторое ее характеристическое число. Тогда А — ХЕ — вырожденная матрица, и потому для нее не могут выполняться все условие Адамара, т. е. должно и меть место хотя бы одно из соотношений п |а«-А|^ ^ \aij\ (г = 1,...,п). (31) 3=1,зфг Каждое из соотношение (31) определяет некоторый круг в комплексной Л-плос- п кости с центром в точке ац радиуса 2_, \аъз\- Мы ПРИШЛИ к теореме, установ- 3=1,зфг ленной Гершгориным в 1931 г. Теорема 5 (Гершгорина). Каждое характеристическое число X матрицы А = = Н^НГ всегда расположено в одном из кругов (31). Таким образом, объединение всех точек кругов Гершгорина (31) дает некоторую область локализации характеристических чисел матрицы А, т. е. область, в которой заведомо лежат все характеристические числа матрицы А. Каждый критерий регулярности приводит к своей области локализации характеристических чисел. Так, исходя из условий Адамара для столбцов, мы получили область локализации в виде объединения п кругов п |А-о«|^ Y, 1^1 (* = 1,->и). (31') 3=1,зфг Из блочных условий Адамара сразу получается Теорема 6. Каждое характеристическое число X п х п-матрицы А, представленной в блочном виде А = {Аар}1, принадлежит по крайней мере одной из областей S MAaa-XE*)-1^1^ Yl \\A«eU (<* = 1, .»,*), (32) а также по крайней мере одной из областей Н^а-АЯаГЧГЧ £ 11^11 (" = !»-.*) (32')
396 Гл. XIV. Различные критерии регулярности (здесь Еа — единичная матрица того же порядка, что и Ааа; а = 1, ...,s). Выясним, какую область локализации можно получить, исходя из критерия Фидлера. Пусть неотрицательные числа ci,C2,...,c„ выбраны так, чтобы матрица G = ( ci -\\Мх\ -1ИЫ С2 -IHi.1 -\\М.\ (33) V -\\АЛ\\ -\\АЛ\ была ослабленной М-матрицей, т. е. чтобы все главные миноры этой матрицы были неотрицательны (недиагональные элементы в этой матрице заведомо все ^ 0). Допустим теперь, что для некоторого числа Л выполняются s неравенств МАаа-ХЕаУ^Хъ (а = 1, ...,*). (34) Тогда, заменяя в матрице (33) са на ||(Ааа — А.Еа)-1||-1 (а = l,...,s), мы строго увеличим все диагональные элементы и получим уже М-матрицу (неослабленную) / IKAu-A^i)-1! -P21II -P12II 1КА22-АЯ2)- -11^1.1 -11^2.1 V -114.111 -Us \\(Ass-XE$y \ I Но тогда по теореме Фидлера \А — XE\ / 0, и число Л не является характеристическим числом матрицы А. Поэтому для любого характеристического числа Л матрицы А по крайней мере одно из неравенств (34) не выполняется, т. е. выполняется одно из соотношений КАаа-ХЕаУ^^Са (а = 1, ...,*). (35) Объединение s областей (35) и образует область локализации Фидлера, зависящую от специально выбираемых неотрицательных параметров ci,C2,...,ce. Теорема 7 (Фидлера). Если неотрицательные числа ci,C2,...,cs выбраны так, чтобы матрица (33) была ослабленной М-матрицей, то каждое характеристическое число А матрицы А принадлежит по крайней мере одной из s замкнутых областей (35). Рассмотрим в качестве примера симметрическую матрицу четвертого порядка А-- Поскольку матрица А симметрическая, то у нее все характеристические числа веществены. Поэтому вместо областей локализации в комплексной А-плоскос- ти можно рассматривать отрезки, высекаемые этими областями на вещественной А-оси. I. Область Гершгорина состоит из одного сегмента -18 ^ А ^ 16, который перекрывают остальные сегменты Гершгорина. П. Разобьем матрицу А на четыре блока: 0 4 1 1 4 0 -1 1 1 -1 -1 15 -1 1 15 -1 [~{а21 А12\ А22 Ац = \ 0 4 4 0 L А22=\ -1 15 15 -1 ^12=^21 = 1 -1
§5. Круги Гершгорина и другие области локализации 397 В данном случае (А11-ХЕ1) = (А22-ХЕ2у Л2-16 1 1-А -4| |-4 -Л 5 11-1-Л —1 — Л | -15 -15 (Л + 1)2 - 152 Рассмотрим три варианта нормировки подпространств Ri и R2: а) в Ri и R2 — кубические нормы; б) в Ri кубическая, а в R2 — октаэдральная норма; в) в Ri октаэдральная, а в R2 — кубическая норма. а) Нормы всех блоков определяются по формуле (20'): Р12|| = 2, ||А21||=2, \\{Аи-ХЕ1)-1\\ = \\Х\-4\, ||(^22-AS2)-1||-1 = ||A + 1|-15|. Блочные области Гершгорина ||Л|-4|^2, ||Л + 1|-15К2 представляют собой совокупность четырех интервалов -18 ^ А ^ -14, -6 ^ Л ^ -2, 2 ^ Л ^ б, 12 ^ Л ^ 16. (Па) б) В этом случае выражения для \\(Ац — XEi) х|| х и 11(^22 — ХЕ2) *|| х остаются прежними, но \\A12\\=max}X\~f=l, ||Л21|| = тах2|а:1~Ж2||=4. х \xi\ + \x2\ х max \хЛ Блочные области Гершгорина ||Л|-4|^1, ||А + 1|-15|^4 распадаются на четыре интервала: -20 ^ А ^ -12, -5 ^ А ^ -3, 3 ^ А ^ 5, 10 ^ Л ^ 18. (Пб) в) Отличие от предыдущего случая заключается лишь в том, что здесь Р21||=4, ||Л12|| = 1. Поэтому блочные области Гершгорина ||Л|-4|^4, ||А + 1|-15Ю распадаются на три интервала -17 ^ А ^ -15, -8 ^ А ^ 8, 13 ^ Л ^ 15. (Пв) -20^ Пв Иа| Ив На На 16 -14 J -10 -8 -6 [-^J-2 0 21 [ 4 J 6 8 10^ 12 14 |16^18 Пб Пб Пб Пб Рис.6
398 Гл. XIV. Различные критерии регулярности На схеме (рис. 6) изображены области I, Па, Пб, Ив. Их пересечение дает области локализации -17 ^ Л ^ -15, -5^Л^-3, З^Л^б, 13^ Л ^ 15. III. При применении критерия Фидлера будем снова исходить из нормировок а)-в): , ч и i С- <* "ll^lh I с, -2| Ь-{-\\А21\\ с2 )-\\-2 с2 \G\ = ac2 -4^0. Желая получить наименьшие значения с\ и с2, полагаем с\с2 — 4. Область Фидлера ||A|-4|^ci, ||А + 1|-15|^С2 совпадает с областью Па при с\ = 2 с2 = 2, с областью Пб — при с\ = 1, с2 = 4 и с областью Ив при с\ = 4, с2 = 1. Область Фидлера состоит из четырех интервалов -16 - с2 ^ А ^ -16 + с2, -4 - ci ^ А ^ -4 + ci, 4-ci ^ A^4 + ci, 14-с2 ^ А^ 14 + с2 и зависит от одного положительного параметра, поскольку с\ = 4/с2. Можно опре- С2 С2 СХ СХ СХ СХ С2 С2 -М £МЗ—Ь-Н~ -16 4 0 4 14 Рис.7 делить пересечение всех этих областей Фидлера. Для этого (рис. 7) приравняем величины: 1) -16 -с2 = -4-ci; 2) -I6 + C2 = -4-ci; 3) -16 + с2 = -4 + ci; 4) 4 - ci = 14 - с2; 5) 4 + ci = 14 - с2; 6) 4 + ci = 14 + с2. Используя равенство с\с2 = 4, получим шесть квадратных уравнений с наименьшими положительными корнями: 1) с\ - 12с2 -4 = 0, Zl = -6 + VI6 = 0,3246...; 2) 4 ~ 12^2 + 4 = 0, z2 = б - л/32 = 0,3431...; 3) с\ + 12ci -4 = 0, z3 = zx = -6 + л/40 = 0,3246...; 4) с\ + 10ci -4 = 0, ^4 = -5 + л/29 = 0,3852...; 5) с\ - 10ci +4 = 0, z5 = 5 - >/21 = 0,4174...; 6) с\ + 10с2 -4 = 0, zq = z4 = -5 + л/29 = 0,3852... Нетрудно уяснить, что область локализации, состоящая из пересечения всех областей Фидлера, состоит из следующих четырех сегментов: -16 - zi ^ А ^ -16 + z2, -4 - z2 ^ А ^ -4 + zi, 4 - z± ^ А ^ 4 + 05, 14 - z5 ^ А ^ 14 + z4.
ГЛАВА XV ПРИЛОЖЕНИЯ ТЕОРИИ МАТРИЦ К ИССЛЕДОВАНИЮ СИСТЕМ ЛИНЕЙНЫХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ § 1. Системы линейных дифференциальных уравнений с переменными коэффициентами. Общие понятия Пусть дана система линейных однородных дифференциальных уравнений первого порядка ^ = £ЫФ* (< = 1.2,...,n), (l) k=l где Pik(t) (i,k = 1,2, ...,n) — комплексные функции вещественного аргумента £, непрерывные в некотором (конечном или бесконечном) интервале изменения t1). Полагая P(t) = \\Pik(t)\\i и х = (xi,X2,—,xn), запишем систему (1) так: ft=P{t)x. (2) Интегральной матрицей системы (1) мы будем называть квадратную матрицу X{t) = \\xik(t)\\i, столбцами которой являются п линейно независимых решений системы. Так как каждый столбец матрицы X удовлетворяет уравнению (2), то и интегральная матрица X удовлетворяет уравнению ^г = Р(*)Х. (3) В дальнейшем мы вместо системы (1) будем рассматривать матричное уравнение (3). Из теоремы о существовании и единственности решения системы линейных дифференциальных уравнений2) следует, что интегральная матрица X(t) определяется однозначно, если задано значение X(to) = Xq этой матрицы при некотором ("начальном") значений t = to3). В качестве матрицы Xq можно взять любую невырожденную квадратную матрицу n-го порядка. В частном случае, когда X(to) = Е, интегральную матрицу X{t) будем называть нормированной. Продифференцируем определитель матрицы X, дифференцируя последовательно строки определителя и используя при этом дифференциальные соотношения dxi ~dt Тогда получим ^ = (Р11+Р22 + ...+Рпп)|Х|. ^г = ^2p%kXkj (i,j = l,2,...,n). k=i dt x) Все соотношения этого параграфа, в которые входят функции аргумента £, имеют место для данного интервала изменения t. 2) Доказательство этой теоремы приведено далее в § 5. См. также: Петровски й И. Г. Лекции по теории обыкновенных дифференциальных уравнений. — б-е изд. — М.: Наука, 1970. 3) Предполагается, что to принадлежит данному интервалу изменения t.
400 Гл. XV. Приложения к системам линейных дифференциальных уравнений Отсюда следует известное тождество Якоби t f SpPdt \Х\ = се'о , (4) где с — постоянная, а Sp Р = ри + Р22 + .- + Рпп — след матрицы P(t). Так как определитель |Х| не может тождественно равняться нулю, то с ф 0. Но тогда из тождества Якоби следует, что определитель \Х\ при любом значении аргумента отличен от нуля: 1*1*0, т. е. интегральная матрица при любом значении аргумента является невырожденной. _ _ Если X(t) — невырожденное (|Х| / 0) частное решение уравнения (3), то общее решение этого уравнения определяется формулой X = ХС, (5) где С — произвольная постоянная матрица. Действительно, умножая обе части равенства § = РХ (6) справа на С, убеждаемся, что и матрица ХС удовлетворяет уравнению (3). С другой стороны, если X — произвольное решение уравнения (3), то из (6) следует f = Ж & ■ ^_1х) = # *~1х + * I ^V = рх + х± (х-*х), откуда в силу (3) ! (*-**)=о И _ X~lX = const = С, т. е. имеет место (5). Все интегральные матрицы X системы (1) получаются по формуле (5) при \С\ ф 0. Рассмотрим частный случай f = AX, (7) где А — постоянная матрица. При этом X = eAt есть частное невырожденное решение уравнения (7)4), и потому общее решение этого уравнения имеет вид X = емС, (8) где С — произвольная постоянная матрица. 4) Почленно дифференцируя ряд eAt = у —гг t , находим — eAt = AeAt. *-^ А\ at
§2. Преобразование Ляпунова 401 Полагая в (8) t = to, найдем Xq = eAt°C. Отсюда С = е At°Xo, и потому формулу (8) можно представить в виде X = eAit-to)X0. (9) Эта формула эквивалентна выведенной ранее формуле (46) гл. V (с. 120). Рассмотрим еще так называемую систему Коши dX A —— = X (А — постоянная матрица). (10) at t — а Этот случай сводится к предыдущему заменой аргумента и = \n(t — a). Поэтому общее решение системы (10) выглядит так: X = eAln^-a^C = (t- a)AC. (11) Функции ем и (t — а)А, встречающиеся в формулах (8) и (11), могут быть представлены в виде (с. 120) S ем = J2(Zki + Zk2t + ... + Zkmhtm^)e^\ (12) fc=i (t - a)A = Y.iZki + Zk2 In (t - a) + ... + Zkmk[ln (t - a)]™*"1)^ - a)4 (13) Здесь 2^ k=l ф(Х) = (A - Ai)m4A - A2)W2 ... (A - Ae)m' (Xi ф Хк при i ф k; i, к = 1,2,..., s) — минимальный многочлен матрицы А, а Zkj (j = 1,2, ...,rrik; к = 1,2, ...,s) — линейно независимые постоянные матрицы, являющиеся многочленами от А5). Замечание. Иногда в качестве интегральной матрицы системы дифференциальных уравнений (1) берут матрицу W, у которой строки являются линейно независимыми решениями системы. Очевидно, матрица W будет транспонированной матрицей для X: W = Х'. Переходя в обеих частях равенства (3) к транспонированным матрацам, мы вместо (3) получим следующее уравнение для W: ^- = WP\t). (З7) В правой части этого уравнения матрица W стоит первым множителем, а не вторым, как X в уравнении (3). 5) В правой части формулы (12) каждое слагаемое Хк = (Zk\ + Zmt -\-... ... + Zkmktmk~1)exkt (к = 1,2, ...,s) является решением уравнения (7). Действительно, этому уравнению удовлетворяет произведение g(A)eAt при любой функции #(А). Но Хк = f(A) = g(A)eAt, если /(А) = g(X)ext и <7(Afc) = 1, а все остальные т — 1 значений функции д(Х) на спектре матрицы А равны нулю (см. (16) на с. 106].
402 Гл. XV. Приложения к системам линейных дифференциальных уравнений § 2. Преобразование Ляпунова Допустим теперь, что в системе (1) [и в уравнении (3)] матрица коэффициентов P(t) = \\pik(t)\\T — непрерывная ограниченная функция аргумента t в интервале [£о,оо)6). Введем вместо неизвестных функций a?i,#2,...,#n новые неизвестные функции у1,у2,...,Уп при помощи преобразования п Xi = J2hk(t)yk (i = l,2,...,n). (14) k=l На матрицу преобразования L(t) = \\hk(t)\\i наложим следующие ограничения. 1°. L(t) имеет непрерывную производную dL/dt в интервале [to,oo). 2°. L(t) и dL/dt ограничены в интервале [£о,оо). 3°. существует постоянная т такая, что 0<т< mod|L(*)| (t^t0), т. е. определитель \L(t)\ ограничен по модулю снизу положительной постоянной т. Преобразование (14), в котором матрица коэффициентов L(t) = \\hk(t)\\i удовлетворяет условиям 1°-3°, мы будем называть преобразованием Ляпунова, а соответствующую матрицу L(t) — матрицей Ляпунова. Такие преобразования рассматривал А. М. Ляпунов в своем знаменитом ме- муаре "Общая задача об устойчивости движения" [22]. Примеры. 1. Если L = const и \L\ ф 0, то матрица L удовлетворяет условиям 1°-3°. Следовательно, невырожденное преобразование с постоянными коэффициентами всегда является преобразованием Ляпунова. 2. Если D = \\dik\\i — матрица простой структуры с чисто мнимыми характеристическими числами, то матрица L(t) = eDt удовлетворяет условиям 1°-3° и потому является матрицей Ляпунова7). Легко проверить, что из свойств 1°-3° матрицы L(t) следует, что существует обратная матрица 1/_1(£) и что она удовлетворяет тем же условиям 1°-3°, т. е. обратное преобразование для преобразования Ляпунова снова является преобразованием Ляпунова. Точно так же проверяется, что два последовательных преобразования Ляпунова в результате снова дают преобразование Ляпунова. Таким образом, преобразования Ляпунова образуют группу. Преобразования Ляпунова обладают следующим важным свойством. Если при преобразовании (14) система уравнений (1) переходит в систему ^ = £««(%*, (15) k=i нулевое решение которой является устойчивым, асимптотически устойчивым или неустойчивым по Ляпунову (см. гл. V, § 7), то таким же свойством обладает и нулевое решение исходной системы (1). Другими словами, преобразования Ляпунова не изменяют характеристики нулевого решения (в отношении устойчивости). Поэтому эти преобразования могут 6) Это означает, что каждая из функций pik(t) (г,/г = 1,2, ...,п) непрерывна и ограничена в интервале [£о,оо), т. е. при t ^ £о- 7) При этом в формуле (12) все тк = 1, a Хк = iipk (<pk вещественны, к = 1,2, ...,s).
§3. Приводимые системы 403 быть использованы при исследовании устойчивости для упрощения исходной системы уравнений. Преобразование Ляпунова устанавливает взаимно однозначное соответствие между решениями систем (1) и (15), при этом линейно независимые решения остаются таковыми и после преобразования. Поэтому преобразование Ляпунова переводит интегральную матрицу X системы (1) в некоторую интегральную матрицу Y системы (15), при этом X = L(t)Y. (16) В матричной записи система (15) имеет вид di = QW, (17) где Q(t) = \\qik(t)\\i — матрица коэффициентов системы (15). Подставляя в (3) вместо X произведение LY и сопоставляя полученное уравнение с (17), легко найдем следующую формулу, выражающую матрицу Q через матрицы Р и L: Q = L-lPL-L~l<^. (18) Две системы (1) и (15), или, что то же, (3) и (17), мы будем называть эквивалентными (в смысле Ляпунова), если они переводятся друг в друга преобразованием Ляпунова. Матрицы коэффициентов Р и Q эквивалентных систем всегда связаны между собой формулой (18), в которой матрица L удовлетворяет условиям 1°-3°. § 3. Приводимые системы Среди систем линейных дифференциальных уравнений первого порядка наиболее простыми и наиболее изученными являются системы с постоянными коэффициентами. Поэтому представляют интерес системы, которые при цомощи преобразования Ляпунова могут быть приведены к системам с постоянными коэффициентами. Такие системы А. М. Ляпунов называл приводимыми. Пусть дана приводимая система §=РХ (19) Тогда некоторое преобразование Ляпунова X = L(t)Y (20) переводит ее в систему f = AY, (21) где А — постоянная матрица. Поэтому система (19) имеет частное решение X = L(t)eAt. (22) Легко видеть, что и, обратно, всякая система (19), имеющая частное решение вида (22), где L(t) — матрица Ляпунова, а А — постоянная матрица, является приводимой, и при этом она приводится к виду (21) при помощи преобразования Ляпунова (20).
404 Гл. XV. Приложения к системам линейных дифференциальных уравнений Следуя А. М. Ляпунову, покажем, что всякая система (19) с периодическими коэффициентами приводима 8). Пусть в данной системе (19) P(t) — непрерывная функция в интервале (—оо, +оо) с периодом т: P(t + r)=P(t). (23) Заменяя в (19) t на t + г и используя (23), получим dX{t + T) =P(t)X(t + T). Таким образом, X(t + r), как и X(t), является интегральной матрицей системы (19). Поэтому X(t + т) = X(t)V, где V — некоторая постоянная невырожденная матрица. Поскольку |V| / 0, то можно определить9) yt/r = e(t/r)lnVa Эта матричная функция от £, как и X(t), умножается справа на V, если к аргументу прибавить т. Поэтому "частное" L(t) = X(t)V-^T = X(*)e-('/r)lnV является непрерывной периодической функцией с периодом г: L(t + т) = Щ и с определителем \L(t)\ ф 0. Матрица L{i) удовлетворяет условиям 1°-3° предыдущего параграфа и, следовательно, является матрицей Ляпунова. С другой стороны, поскольку решение X системы (19) представимо в виде X = L(t)eW^inV, то система (19) приводима. В данном случае преобразование Ляпунова X = L(t)Y, приводящее систему (19) к виду *f = ±\nV-Y, at т имеет периодические коэффициенты с периодом т. А. М. Ляпуновым был установлен10) весьма важный критерий устойчивости и неустойчивости по первому линейному приближению для нелинейных систем дифференциальных уравнений 5 = Е^^ + (**) (г = 1,2,...,п), (24) k=l где в правых частях стоят сходящиеся степенные ряды относительно х\, а?2, •••, хп, а (**) обозначает сумму членов этих рядов второго порядка и выше относительно xi,X2,~-,xn; коэффициенты aik (i,k = l,2,...,n) в линейных членах постоянны11). 8) См. [22, § 47]. 9) Здесь \nV = /(V), где /(A) — какая-либо однозначная ветвь функции In А в одно- связной области (7, содержащей все характеристические числа матрицы V и не содержащей числа 0. См. гл. V. 10) См. [22, § 24]. 11) Коэффициенты при нелинейных членах могут зависеть от t. На эти функциональные коэффициенты налагаются известные ограничения (см. [22, § 11)].
§4- Каноническая форма приводимой системы. Теорема Еругина 405 Критерий Ляпунова. Нулевое решение системы (24) будет устойчивым (и притом асимптотически), если матрица коэффициентов первого линейного приближения А = Цо^Цу имеет все характеристические числа с отрицательными вещественными частями, и неустойчивым, если хотя бы одно из этих характеристических чисел имеет положительную вещественную часть. Приведенные выше рассуждения позволяют использовать этот критерий для систем с периодическими коэффициентами в линейных членах: ^ = &«*(*)** + (**) (* = 1>->*)- (25) k=l Действительно, на основании предыдущих рассуждений при помощи преобразования Ляпунова можно привести систему (25) к виду (24), где A = \\aik\\nl=\\nV, a V — постоянная матрица, на которую умножается интегральная матрица соответствующей линейной системы (19) при сдвиге аргумента на т. Не нарушая общности, можем считать г > 0. В силу свойств преобразования Ляпунова нулевое решение исходной системы и нулевое решение преобразованной одновременно являются устойчивыми, асимптотически устойчивыми или неустойчивыми. Но характеристические числа А; и V{ (г = 1,2, ...,п) матриц А и V связаны между собой формулой А; = -\nui (i = l,2,...,n). т Поэтому, применяя критерий Ляпунова к приведенной системе, найдем12): нулевое решение системы (25) будет асимптотически устойчивым, если все характеристические числа v\,vi,...,Vn матрицы V по модулю < 1, и неустойчивым, если хотя бы одно из этих чисел по модулю > 1. А. М. Ляпунов установил свой критерий устойчивости по линейному приближению для значительно более широкого класса систем, а именно для систем вида (24), у которых система линейного приближения не обязательно является системой с постоянными коэффициентами, но принадлежит к классу систем, названных Ляпуновым правильными13). Класс правильных линейных систем содержит в себе как часть все приводимые системы. Критерий неустойчивости для случая, когда первое линейное приближение является правильной системой, был установлен Н. Г. Четаевым14). § 4. Каноническая форма приводимой системы. Теорема Еругина Пусть даны приводимая система (19) и эквивалентная ей (в смысле Ляпунова) система где А — постоянная матрица. Нас будет интересовать вопрос, в какой степени матрица А определяется данной системой (19). Этот вопрос можно сформулировать еще так: 12) См. там же, § 55. 13) Там же, § 9. и) См. [38, с. 181].
406 Гл. XV. Приложения к системам линейных дифференциальных уравнений в каком случае две системы f -*• t-»*. где А и В — постоянные матрицы, являются эквивалентными по Ляпунову, т. е. переводятся друг в друга преобразованием Ляпунова? Для того чтобы ответить на этот вопрос, введем понятие матриц, имеющих одну и ту же вещественную часть спектра. Мы будем говорить, что две матрицы А и В п-го порядка имеют одну и ту же вещественную часть спектра, в том и только том случае, когда элементарные делители матриц А и В имеют соответственно вид (Л-ЛхГ1, (Л-Л2Г2, ..., (А-А.Г- и (A-Mi)mi, (А-//2Г2, .... (А-/*,)™', где ReAfc = Re да; (к = 1,2,..., в). Имеет место следующая теорема, установленная Н. П. Еругиным15). Теорема 1 (Еругина). Две системы ^- = AY, ^- = BZ (26) dt ' dt v } (А и В — постоянные матрицы п-го порядка) эквивалентны в смысле Ляпунова в том и только том случае, когда матрицы А и В имеют одну и ту же вещественную часть спектра. Доказательство. Пусть даны системы (26). Приведем матрицу А к нормальной жордановой форме16) (см. гл. VI, § 7) А = Т{Х1Е1 + Ни \2Е2 + #2, ..., XSE$ + H$}T-\ (27) где \k = ak + ifik (ock,Pk — вещественные числа; к = 1,2,..., s). (28) В соответствии с (27) и (28) положим Аг = Т{а1Е1 + Яь а2Е2 + Н2, ..., asEs + tfjT"1, A2=T{i(31E1, i(32E2, ..., ipsEs}T-\ Тогда A = Ax + A2, Л1А2 = A2j4i. (30) Определим матрицу L{t) равенством A{t) = eA2t; L(t) — матрица Ляпунова (см. пример 2 на с. 402). Но частное решение первой из систем (26) в силу (30) имеет вид eAt = eMteMt = L(t)eM{t). Отсюда следует, что первая из систем (26) эквивалентна системе %=AlUt (31) где согласно (29) матрица А\ имеет вещественные характеристические числа, и ее спектр совпадает с вещественной частью спектра матрицы А. 15) См. [11, с. 9-15]. Приведенное здесь доказательство теоремы отличается от доказательства Н. П. Еругина. 16) Ек — единичная матрица, в Hk элементы первой наддиагонали равны единице, а остальные элементы равны нулю; порядок Ек, Нк равен степени fc-го элементарного делителя матрицы А, т. е. гпк (к = 1,2,..., s).
§4- Каноническая форма приводимой системы. Теорема Еругина 407 Аналогично вторую из систем (26) заменим эквивалентной системой где матрица В\ имеет вещественные характеристические числа, и ее спектр совпадает с вещественной частью спектра матрицы В. Наша теорема будет доказана, если мы покажем, что две системы (31) и (32), в которых Ai и Bi — постоянные матрицы с вещественными характеристическими числами, могут быть эквиваленты лишь в том случае, когда матрицы А\ и В\ подобны17). Пусть преобразование Ляпунова U = L{V переводит (31) в (32). Тогда матрица L\ удовлетворяет уравнению 1£- = A1L1-L1B1. (33) Это матричное уравнение относительно Ь\ эквивалентно системе п2 дифференциальных уравнений относительно п2 элементов матрицы L\. Правая часть в (33) представляет собой линейную операцию над "вектором" L\ в пространстве п2 измерений ^ = i?(Lx) [F(Li) = AXLX - ЬгВг]. (33') Любое характеристическое число линейного оператора F (и соответствующей ему матрицы порядка п2) представляется в виде разности у — 6, где у — характеристическое число матрицы А±, a S — характеристическое число матрицы В\18). Отсюда следует, что оператор F имеет только вещественные характеристические числа. ^ ^ ^ ^ - ^ - ^ Обозначим через ^(А) = (А - Ai)™J(A - А2)™2...(А - Ап)™* (Л* вещественны; Xi ф Xj при г ф j; i,j = 1,2, ...,и) минимальный многочлен оператора F. Тогда решение Li(t) = eFtL^ системы (33') в силу формулы (12) (с. 401) запишется так: ^ и гпк—1 М') = Е Е L^JeXkt, (34) k=l j=0 где Lkj — постоянные матрицы n-го порядка. Поскольку матрица Li(t) ограничена в интервале (£о,оо), то как для любого А& > 0, так и для Хк = 0 и j > 0 1Т) Из этого утверждения следует теорема 1, поскольку эквивалентность систем (31) и (32) означает эквивалентность систем (26), а подобие матриц А\ и В\ означает, что эти матрицы имеют одинаковые элементарные делители, и потому матрицы А и В имеют одну и ту же вещественную часть спектра. 18) В самом деле, пусть Ло — какое-либо характеристическое число оператора F. Тогда существует матрица L ф 0 такая, что F(L) = Ло-L, или (Ai - A0E)L = LBi. Матрицы А\ — АоЕ и В\ имеют хотя бы одно общее характеристическое число, так как в противном случае существовал бы такой многочлен #(А), что g(Ai - АоЕ) = 0, g(Bi) = £?, а это невозможно, поскольку из (*) следует д(А\ — АоЕ) • L = L • д(ВЛ и L ф 0. Но если матрицы А\ — АоЕ и В\ имеют общее характеристическое число, то Ло = 7 — <^> гДе 7 и 8 — характеристические числа соответственно матриц А\ и В\. Подробное исследование оператора F можно найти в работах Ф. Голубчикова [85, а, б].
408 Гл. XV. Приложения к системам линейных дифференциальных уравнений соответствующие матрицы Ьщ = 0. Обозначим через L-(t) сумму всех слагаемых в (34), в которых А*; < 0. Тогда Li(t)=L-(t) + L0, (35) где lim L-(t) = 0, lim dL~® = 0, L0 = const. (35') Тогда, согласно (35) и (35'), lim Li(i) = Lo, £—>-+oo откуда следует, что \Lo\ ф 0, поскольку определитель |1а(£)| ограничен по модулю снизу. Подставляя в (33) вместо Li(t) сумму L-(t) + Lo, получим dL-(t) dt откуда в силу (35') АгЬ-(г) + BxL-it) = AiLo - ВгЬ0, AiLo-LoBi =0 и, следовательно, Вг = Ь^АгЬо. (36) Обратно, если имеет место (36), то преобразование Ляпунова U = L0V переводит систему (31) в систему (32). Теорема доказана. Из доказанной теоремы вытекает, что всякая приводимая система (19) при помощи преобразования Ляпунова X = LY может быть приведена к виду dt -Jy' где J — жорданова матрица с вещественными характеристическими числами. Эта каноническая форма системы заданием матрицы P(t) определяется однозначно с точностью до порядка диагональных клеток в J. § 5. Матрицант Рассмотрим систему дифференциальных уравнений ^г = Р(*)Х, (37) где P(t) = \\Pik(t)\\i — непрерывная матричная функция в некотором интервале (а, Ь) изменения аргумента t19). Воспользуемся методом последовательных приближений для определения нормированного решения системы (37), т. е. решения, обращающегося в единичную 19) (а,Ь) — произвольный интервал (конечный или бесконечный). Все элементы pik(t) (г, fc = 1,2, ...,п) матрицы P(t) — комплексные функции вещественного аргумента £, непрерывные в интервале (а, Ь). Все последующее сохраняет силу, если вместо непрерывности потребовать лишь ограниченность и интегрируемость по Риману [в любом конечном подынтервале интервала (а,Ь)] всех функций pik(t) (г, fc = 1,2, ...,n).
§5. Матрицант 409 матрицу при t = to [to — фиксированное число из интервала (а, &)]. Последовательные приближения Xk (к = 0,1,2,...) будем находить из рекуррентных соотношений ^. = P(t)Xk.l (к = 1,2,...), выбирая в качестве приближения Хо единичную матрицу Е. Полагая Xk{to) = Е (к = 0,1,2,...), мы Xk сможем представить в виде t Xk = E + fp(t)Xk-1dt (* = 1,2,...). Таким образом, Х0 = Е, Хг = Е + fp(t) dt, X2 = E+ fp(t) dt + fP(t) dtfp{h) dtu ..., to to to to т. e. Xk (к = 0,1,2,...) есть сумма первых А; + 1 членов матричного ряда t t t Е + fP(t) dt + fp(t) dtfPih) dt! + ... (38) Для того чтобы доказать, что этот ряд абсолютно и равномерно сходится в любой замкнутой части интервала (а, Ь) и определяет искомое решение уравнения (37), мы построим мажорантный ряд. Определим неотрицательные функции g(t) и h(t) в интервале (а, Ь) равенствами20) g(t) =max[|pii(*)|,|pi2(*)|,...,|Pnn(*)|], h(t) = /git) dt Легко проверяется, что функции g(t), а следовательно, и h(t) непрерывны в интервале (а, б)21). Каждый из п2 скалярных рядов, на которые распадается матричный ряд (38), мажорируется рядом nh~(t) n-h6(t) 1 + h(t) + 2! 3! + ... (39) Действительно, P(t) dt fpik(t)dt\ ^ \Jg(t)dt = Kt), P(t) dt f P(h) dtx i,fc ^2 [Pij dtfpjkih) dh ^ n\Jg(t) dt(g(ti) dh j=lto to I 1*0 *0 = nh\t) ~ 2 и т. д. 20) По определению значение функции g(t) при каком-либо из значений t равно наибольшему из п2 модулей значений pik(t) (i,k = 1,2, ...,п) при том же значении t. 21) Непрерывность функции g(t) в любой точке t\ интервала (а, Ъ) следует из того, что разность g(t) — g(t\) при £, достаточно близком к ti, всегда совпадает с одной из п2 разностей \pik(t)\ - |pife(*i)| (i,k = 1,2, ...,га).
410 Гл. XV. Приложения к системам линейных дифференциальных уравнений Ряд (39) сходится в интервале (а, 6), причем сходится равномерно в любой замкнутой части этого интервала. Отсюда вытекает, что и матричный ряд (38) сходится в (а, Ь) и притом абсолютно и равномерно в любом замкнутом интервале, входящем в (а, Ь). Почленным дифференцированием проверяем, что сумма ряда (38) представляет собой решение уравнения (37); это решение обращается в Е при t = to. Почленное дифференцирование ряда (38) допустимо, поскольку ряд, получающийся после дифференцирования, отличается множителем Р от ряда (38) и, следовательно, как и ряд (38), является равномерно сходящимся в любой замкнутой части интервала (а, 6). Таким образом, нами доказана теорема о существовании нормированного решения уравнения (37). Это решение будем обозначать через Г^0(Р) или просто О,10. Любое другое решение, как было показано в § 1, имеет вид X = Щ0С, где С — произвольная постоянная матрица. Из этой формулы следует, что любое решение, в частности, нормированное, однозначно определяется своим значением при t = Ненормированное решение П^ уравнения (37) часто называют матрицантом. Мы показали, что матрицант представим в виде ряда22) t t t $1\о=Е+ fp(t) dt + fp(t) dtfp^dh + ..., (40) Ц Ц to который сходится абсолютно и равномерно в любом замкнутом интервале, в котором функция P(t) непрерывна. Отметим некоторые формулы для матрицанта. lo.nJ^nfX (to,h,t С (a,b)). Действительно, поскольку Г^о и П^ — два решения уравнения (37), то П*о = Г^С (С — постоянная матрица). Полагая здесь t = t\, получим С = Г^1. 2°.ftt0(P + Q) = nt0(P)n|0(5), где S = [il\0(P)]-1Qil\0(P). Для вывода этой формулы положим X = Sl\0(P), Y = tft0(P + Q) И Y = XZ. (41) Дифференцируя почленно (41), найдем Отсюда (P + Q)XZ = PXZ + X^. g = X~lQXZ, и, следовательно, поскольку из (41) следует, что Z(to) = Е, Z = ntt0(X-1QX). 2) Представление матрицанта в виде такого ряда было впервые получено Пеано [225].
§5. Матрицант 411 Подставляя в (41) вместо X, У, Z соответствующие матрицанты, получаем формулу 2°. t 3°.ln|ft*0(P)|=|SpPA. *о Эта формула следует из тождества Якоби (4) (с. 400), если в него вместо X(t) подставить Г^0(Р). 4°. Если А = \\aik\\? = const, то ПЦА) = eA^-to). Введем следующие обозначения. Если Р = ||pifc||5N то через modP будем обозначать матрицу modP= ||Ы||?. Кроме того, если А = Ца^Ц" и В = \\bik\\i — две вещественные матрицы и dik ^ bik (i,k = l,2,...,n), то мы будем писать А^В. Тогда из представления (40) следует 5°. Если modP(£) ^ Q(t), то modnJ0(P) ^ ПЦ<2) (* > *о). В дальнейшем матрицу n-го порядка, у которой все элементы равны единице, будем обозначать через I: j = iiiii- Рассмотрим функцию g(t), определенную на с. 409. Тогда modP(£) ^g(t)I. Отсюда силу 5° тост*0(РК^0(з(<)7) (t>t0). (42) Но Qtto(g(t)I) есть нормированное решение уравнения f=9(t)IX. Следовательно, в силу 4°23) ъмт = <**>' z (i+Kt)+^p+^ где о: +-I'' h(t) = jg(t)dt. to Поэтому из (42) следует 6°. mod ft' (P) ^ (- enh^ + ?—±) I ^ enh^I (t > t0), где 0 \n n / h(t) = fg(t) dt, g{t) = max {|p<*(*)!}• 3) Используя замену независимой переменной t переменной h = I g(t)dt.
412 Гл. XV. Приложения к системам линейных дифференциальных уравнений Покажем теперь, как при помощи матрицанта выражается общее решение системы линейных дифференциальных уравнений с правыми частями ^ = £р*(Ф* + Л(*) (i = l,2,...,n); (43) k=l здесь Pik(t), fi(t) (г, k = 1,2,..., n) — непрерывные функции в интервале изменения аргумента t. Вводя столбцовые матрицы ("векторы") х = (xi,X2,...,xn) и / = (/ь/г, ...,/п) и квадратную матрицу Р = \\pik\\i, запишем эту систему так: §=P(t)*+ /(*)• (43') Будем искать решение этого уравнения в виде x = nl(P)z, (44) где z — неизвестный столбец, зависящий от t. Подставим это выражение для х в (43'); получим , рП«0(Р)г + П«0(Р) f = РО^)* + /(*), откуда i = РП0(Р)Г7(*). Интегрируя, находим = /[n[0(P)]-1/(r)dr + c, где с — произвольный постоянный вектор. Подставим это выражение в (44); получим х = ^o(P)|[n[o(P)]-V(r) dr + tft0(P)c. (45) Давая t значение to, найдем x(to) = с. Поэтому формула (45) принимает вид t х = rtt0 (P)x(t0) + JK{t, r)f(r) dr, (45') где K(t,T)=Sltt0(PWt0(P)]-1 — так называемая матрица Коши. § 6. Мультипликативный интеграл. Инфинитезимальное исчисление Вольтерра Рассмотрим матрицант fi*0(P). Разобьем основной интервал (to,t) на п частей, введя промежуточные точки *i,fej.-.,*n-ij и положим Atk = tk —tk-i (к = = 1,2, ...,n; tn = t). Тогда на основании свойства 1° матрицанта (см. предыдущий параграф) n«0=nfn_1...ngn«J. (46) Выберем в интервале (tk-i,tk) промежуточную точку Tk (к = 1,2,...,п). Тогда, считая Atk малыми величинами первого порядка, при вычислении 17jjJ_l с точ-
§6. Мультипликативный интеграл 413 ностью до малых второго порядка можно принять P(t) « const = Р(гк). Тогда П'1_1 = ep^Atk + (**) = Е + P(rk)Atk + (**); (47) здесь символом (**) мы обозначаем сумму членов, начиная со второго порядка малости. Из (46) и (47) находим rftQ = е*(г»)Д«» ... eP(**)AtaeP(Ti)Aii + (*) (48) и Sl*0 = [E + P(rn)Atn]... [Е + P(r2)At2][E + P(n)Ati] + (*). (49) Переходя к пределу при неограниченном увеличении числа интервалов разбиения и стремлении к нулю длин этих интервалов (при предельном переходе малые члены (*) исчезают24)), получаем точные предельные формулы ПЦР)= lim [e^n)AtneeeeP(T2)A«aeP(n)Ati] (487) ПЦР) = lim [Е + P(rn)Atn]... [Е + P(r2)At2][E + P(n)A*i]. (49') Выражение, стоящее под знаком предела в правой части последнего равенства, представляет собой интегральное произведение25). Предел его мы назовем мультипликативным интегралом и обозначим 7 [Е + P(t) dt] = lim [Я + P(rn)Atn]... [Е + P(ti)A*i]. (50) Формула (49') дает представление матрицанта в виде мультипликативного интеграла: Sltot(P)=J(E + Pdt), (51) *о а равенства (48) и (49) могут быть использованы для приближенного вычисления матрицанта. Мультипликативный интеграл впервые ввел Вольтерра в 1887 г. На базе этого понятия Вольтерра построил своеобразное инфинитезимальное исчисление для матричных функций (см. [49]26)). Вся специфика мультипликативного интеграла связана с неперестановочностью между собой различных значений подынтегральной матричной функции P(i). В том же весьма частном случае, когда все эти значения перестановочны между собой: P(t')P(t") = P(t")P(t') (t',t"e(t0,t)), 24) Эти рассуждений могут быть уточнены путем оценки членов, обозначенных нами через (*) 25) Аналог интегральной суммы для обычного интеграла. 26) Мультипликативный интеграл (по-немецки "Produkt-Integral") был использован Шлезингером при исследовании систем линейных дифференциальных уравнений с аналитическими коэффициентами [61, а, Ь], см. также [234]. Мультипликативный интеграл (50) существует не только для функции P(t), непрерывной в интервале интегрирования, но и при значительно более общих предположениях (см. [154]).
414 Гл. XV. Приложения к системам линейных дифференциальных уравнений мультипликативный интеграл, как это видно из (48') и (51), сводится к матрице [ P(t)dt Введем теперь мультипликативную производную DtX = ^X~\ (52) Операции Dt и / взаимно обратны. Если DtX = Р, то X=j(E + Pdt)-C (C = X(t0))27), to и наоборот. Последняя формула может быть записана еще так28): t j(E + Pdt) = X(t)X(t0)-\ (53) Предлагаем читателю проверить справедливость следующих дифференциальных и интегральных формул29): Дифференциальные формулы I. Dt{XY) = Dt(X) + XDt(Y)X-\ Dt(XC) = Dt(X), Dt(CY) = CDt{Y)C-1 (С — постоянная матрица). II. Dt(X') = X'iDtXyX'-1 30). III. DtiX-1) = -X~1Dt(X)X = -(Dt(X'))', DtiX'-1) = -(Dt(X))'. Интегральные формулы IV. f(E + Pdt)= f(E + Pdt)f (E + Pdt). to H ц л Г— 1 V. f (E + Pdt) = \f(E + Pdt)\ to \_t J Л Л VI. Г(Е + С PC-1 dt) = cf(E + Pdt)C~l (С — постоянная матрица). Ч *о 2Т) Здесь произвольная постоянная матрица С является аналогом аддитивной произвольной постоянной в обычном неопределенном интеграле. t С dX 28) Аналог формулы IР dt = X(t) — X(to) в случае, когда —г- = Р. *° 29) Эти формулы могут быть выведены непосредственно из определения мультипликативных производной и интеграла (см. [67]). Однако интегральные формулы получаются быстрее и проще, если рассматривать мультипликативный интеграл как матрицант и воспользоваться свойствами матрицанта, изложенными в предыдущем параграфе (см. [61, а]). 30) Значок ' обозначает переход к транспонированной матрице.
§6. Мультипликативный интеграл 415 Л Л VII. J[E + (Q + DtX) dt] = X(t)J (E + X-^QX ^)^(^o)"1 31). Ц *o Выведем еще важную формулу, дающую оценку модуля32) разности между двумя мультипликативными интегралами: t t VIII. mod если J(E + Pdt)-J(E + Qdt) to Ц modQ^ql, mod(P-Q) ^d-I, I = ||1 ^ I enq(t-t0) (end(*-*o) _ 1)/ (* > *0), (q,d — неотрицательные числа, n — порядок матриц P и Q). Обозначим через D разность Р — Q. Тогда P = Q + Dy modD^d-L Рассматривая мультипликативный интеграл как матрицант и пользуясь разложением (40) матрицанта в ряд, найдем t t j [E + (Q + D)di\- j (E + Q dt) to t = fDdt+ [d dt JQ dh + [Q dt JD din + JD dt JD dh + ... to to to to to to to Из этого разложения видно, что mod | J [E + (Q + D) dt] - f (E + Q dt) I ^ Wo *o J I'E + (modQ + modD)dt- Г(Е + modQ)dt^ to to ^ f [E + (q + d)Idt] -f[E + ql] dt = e(<?+<*№-'o) _ eg/(t-t0) = *o *o — eql(t-t0) fed-I(t-t0) — E) < L enQ(t-t0) rend(t-t0) _ Щ n Пусть теперь матрицы Р и Q зависят от некоторого параметра а: Р = Р(*,а), 0 = 0(*,а), и пусть lim P(t,a)= lim Q(t,a) = P0(t), OC—¥OCQ OC—¥OtQ 31) Формула VII может быть рассматриваема в известном смысле как аналог формулы интегрирования по частям для обычных (немультипликативных) интегралов. Формула VII следует из формулы 2° § 5. 32) Относительно определения модуля матрицы, а также соотношения ^ между матрицами см. с. 411.
416 Гл. XV. Приложения к системам линейных дифференциальных уравнений причем стремление к пределу равномерно относительно t в рассматриваемом интервале (to,t). Допустим, что, кроме того, при а -»• с*о матрица Q(t,a) по модулю ограничена матрицей ql, где q — положительная постоянная. Тогда, полагая d(a) = max \pik (r, a) - qik (r, a) |, lim d(a) = 0. с*—>-о:о будем иметь Поэтому из формулы VIII следует " Л Л J(E + Pdt)-J(E + Qdt) lim а—>ао = 0. .to to В частности, если Q не зависит от a[Q(t,a) = Po(t)], получаем lim f[E + P(t, a) dt] = [ [E + P0(t) dt], a—toco to где P0(t) = lim P(t,a). a—>q;o § 7. Дифференциальные системы в комплексной области. Общие свойства Рассмотрим систему дифференциальных уравнений § = £**(*)**• (54) k = l Здесь данные функции Pik(z) и искомые функции Xi(z) (i,k = 1,2, ...,п) предполагаются однозначными аналитическими функциями комплексного аргумента z, регулярными в некоторой области G комплексной z-плоскости. Вводя квадратную матрицу P(z) = \\pik(z)\\i и столбцевую матрицу х = = (#ъ#2, ...,жп), мы, как и в случае вещественного аргумента (§ 1), можем записать систему (54) в виде ! = *(*)«■ (54') Обозначая через X интегральную матрицу, т. е. матрицу, столбцами которой являются п линейно независимых решений системы (54), мы вместо (54') можем записать % = РШ- №) Формула Якоби имеет место и при комплексном аргументе z: I Sp Pdz \X\=ceJ*o . (56)
§ 7. Дифференциальные системы е комплексной области 417 При этом предполагается, что zq и все точки пути, вдоль которого берется Д яв- ляются регулярными точками для однозначной аналитической функции Sp P(z) = = Pll(z) +P22W + ... +Pnn(z)ZZ). Специфичность рассматриваемого случая комплексного аргумента заключается в том, что при однозначной функции P(z) интегральная матрица X(z) может быть многозначной функцией от z. В качестве примера рассмотрим систему Коши —— = X (U — постоянная матрица). (57) dz z a Одним из решений этой системы, как и в случае вещественного аргумента, является (см. с. 401) интегральная матрица X = eUln(z-a) = (z_a^U^ (58) В качестве области С возьмем всю z-плоскость, за исключением точки z = a. Все точки этой области являются регулярными точками матрицы коэффициентов P(z) = -2-. z — а Если U Ф 0, то точка z = а является особой точкой (полюсом первого порядка) для матричцой функции P(z) = U/(z — а). Элемент интегральной матрицы (58) при однократном обходе в положительном направлении точки z = а возвращается с новым значением, которое получается из старого умножением справа на постоянную матрицу V = е27гШ. Для общей системы (55) теми же рассуждениями, что и в случае вещественного аргумента, убеждаемся в том, что два однозначных решения 1и1в некоторой части области G всегда связаны формулой X = ХС, где С — некоторая постоянная матрица. Эта формула сохранится при любом аналитическом продолжении функций X(z) и X(z) в области G. Теорема о существовании и единственности (при заданных начальных значениях) решения системы (54) может быть доказана аналогично вещественному случаю. Рассмотрим односвязную ипритом звездообразную относительно точки zq34) область Gi, составляющую часть области G, и пусть матричная функция P{z) регулярна35) в области G\. Составим ряд Z Z Z Е+ fPdz+ fPdzfPdzi + ... (59) z0 z0 z0 Из односвязности области G\ следует, что каждый встречающийся в ряду (59) интеграл не зависит от пути интегрирования и представляет собой регулярную 33) Здесь и в дальнейшем в качестве путей интегрирования берутся кусочно гладкие кривые. 34) Область называется звездообразной относительно точки zo, если любой отрезок, соединяющий произвольную точку z области с точкой zo, целиком лежит в данной области. 35) То есть все элементы pik(z) (г, к = 1,2,..., п) матрицы P(z) являются регулярными функциями в области Gi. 14 Ф.Р. Гантмахер
418 Гл. XV. Приложения к системам линейных дифференциальных уравнений функцию в области G\. Поскольку область G\ звездообразна относительно zo, то при оценке модулей этих интегралов мы можем считать, что все интегралы берутся вдоль прямоугольного отрезка, соединяющего точки zq и z. Абсолютная и равномерная в любой замкнутой части области G\, содержащей точку z$, сходимость ряда (59) вытекает из сходимости мажорантного ряда 1 + Ш + ^/2М2 + ^/3М3 + ... Здесь М — верхняя граница для модуля матрицы P(z), а / — верхняя граница расстояний точки z от точки ^о, причем обе границы относятся к рассматриваемой замкнутой части области G±. Путем почленного дифференцирования проверяется, что сумма ряда (59) представляет собой решение уравнения (55). Это решение нормировано, поскольку оно при z = zq обращается в единичную матрицу Е. Однозначное нормированное решение системы (55), как и в вещественном случае, будем называть матрицантом и будем обозначать через QZZQ(P). Таким образом, мы получили представление матрицанта в области G\ в виде ряда36) Z Z Z tizZo(P) =E + jPdz + jPdzjPdzx + ... (60) ZQ ZQ ZQ Свойства 1°-4° матрицанта, установленные в § 5, автоматически переносятся и на случай комплексного аргумента. Произвольное решение уравнения (55), регулярное в области G и обращающееся при z = zq в матрицу Xq, представится в виде Х = П*20(Р)-С (С = Х0). (61) Формула (61) охватывает все однозначные решения, регулярные в окрестности точки zq [zq — регулярная точка для матрицы коэффициентов P(z)]. Эти решения, будучи аналитически продолжены в область G, дадут все решения уравнения (55), т. е. уравнение (55) не может иметь решений, для которых z$ была бы особой точкой. Для аналитического продолжения матрицанта в область G удобно пользоваться мультипликативным интегралом. § 8. Мультипликативный интеграл в комплексной области Мультипликативный интеграл вдоль некоторой кривой в комплексной плоскости определяется следующим образом. Пусть даны некоторый путь L и матричная функция P(z), непрерывная на кривой L. Разобьем путь L на п частей (zo,zi), (z±, z<z),..., (zn-1,2); здесь z$ — начало, zn = z — конец пути, a 2i,22,...,2n_i — промежуточные точки разбиения. На отрезке пути (zk-i,Zk) выберем произвольную точку (k и введем обозначения Azk = Zk — Zk-i', к = 1,2, ...,п. Тогда по определению 1[Е + P(z) dz] = lim [Е + Р(С„)Azn] ... [Е + P(Ci)Д*]. J Azk^-0 L 36) Приведенное доказательство существования нормированного решения и представления его в области Gi рядом (60) сохраняет свою силу, если вместо звездообразности области сделать более общее допущение: для любой замкнутой части области Gi существует такое положительное число /, что любую точку z этой замкнутой части можно соединить с zo путем, длина которого ^ /.
§8. Мультипликативный интеграл в комплексной области 419 Сопоставляя это определение с определением на с. 413, видим, что новое определение совпадает с прежним в том частном случае, когда путь L является отрезком вещественной оси. Однако и в общем случае, когда путь L произвольно расположен в комплексной плоскости, новое определение может быть сведено к старому при помощи замены переменной интегрирования. Если z = z(t) — параметрическое уравнение пути, причем z(t) — непрерывная функция в интервале (to,t), имеющая в этом интервале кусочно непрерывную производную dz/dt, то, как легко видеть, J[E + P(z) dz] =J{E + P[z(t)] § dt] . L t0 Эта формула показывает, что мультипликативный интеграл вдоль произвольного пути существует, если подынтегральная матрица P(z) непрерывна вдоль этого пути37). Мультипликативная производная определяется прежней формулой dz При этом предполагается, что X(z) — аналитическая функция. Все дифференциальные формулы (I—III) предыдущего параграфа переносятся без изменения на случай комплексного аргумента. Что же касается интегральных формул IV-VI, то их запись несколько видоизменяется. IV. J (E + Pdz)=J(E + Pdz)[(E + Pdz). {L'+L") L" V — Г — "I _1 Y.[(E + Pdz)= f(E + Pdz)\ . -L L L J Vr. f(E + С PC-1 dz) = С J (E + Pdz)C-x (G — постоянная матрица). L L В формуле IV; мы через V + L" обозначили составной путь, получающийся при прохождении сначала пути I/, а затем пути L". В формуле V' — L обозначает путь, отличающийся от пути L только направлением. Формула VII принимает теперь вид Vir. f[E+(Q + DZX) dz] = X(z)J (E + X-1QXdz)X(z0)-1. L L Здесь X(zo) и X(z) в правой части обозначают соответственно значения X(z) в начале и в конце пути L. Формула VIII заменится теперь формулой Vlir. mod j{E + Pdz)- j(E + Qdz) ^ Lenql(endl _1jj 37) См. сноску 26) на с. 413. Даже в случае, когда P(z) — непрерывная функция вдоль L, функция P[z(t)] dz/dt может быть кусочно непрерывной. В этом случае мы можем разбить интервал (£о, t) на частичные интервалы, в каждом из которых производная dz/dt непрерывна, и под интегралом от £о до t понимать сумму интегралов вдоль этих частичных интервалов. 14*
420 Гл. XV. Приложения к системам линейных дифференциальных уравнений Здесь modQ ^ ql, mod(P — Q) ^d-1, I = ||1||, a / — длина пути L. Формула VIII' получается сразу из формулы VIII, если в последней сделать преобразование переменной, выбрав в качестве новой переменной интегрирова- т ( \dz\ -Л ния длину дуги s вдоль пути L (при этом — = 1 . V I as I / Как и в случае вещественного аргумента, существует тесная связь мультипликативного интеграла с матрицантом. Пусть дана однозначная аналитическая матричная функция P(z), регулярная в области G, и пусть Go — односвязная область, содержащая точку zq и составляющая часть области G. Тогда матрицант Що{Р) будет регулярной функцией от z в области Go- Соединим точки zq и z произвольным путем L, целиком лежащим в Go, и выберем на L промежуточные точки 2i,22,...,2n-i- Тогда, пользуясь равенством *Lz0 *Lzn-i iLz1 abz0» совершенно так же, как в § б (с. 412), предельным переходом получим Z SlzZ0{P)=f{E + P)dz=j{E + Pdz). (62) L 20 Из этой формулы видно, что мультипликативный интеграл не зависит от формы пути, а зависит только от начала и конца пути, если весь путь интегрирования лежит в односвязной области Go, в которой подынтегральная функция P(z) регулярна. В частности, для замкнутого контура L, лежащего в односвязной области Go, имеем $(E + Pdz) = E. (63) /< Эта формула представляет собой аналог известной теоремы Коши, согласно которой обычный (немультипликативный) интеграл вдоль замкнутого контура равен нулю, если этот контур лежит в односвязной области, в которой подынтегральная функция регулярна. Представление матрицанта в виде мультипликативного интеграла (62) может быть использовано для аналитического продолжения матрицанта вдоль произвольного пути L в области G. В этом случае формула z X =J(E + Pdz)X0 (64) ZQ задает все ветви многозначной интегральной матрицы X дифференциального уравнения dX/dz = РХ, обращающейся в Х$ на одной из ветвей при z = z$. Различные ветви получаются из-за наличия различных путей, соединяющих точки Zq И Z. Согласно формуле Якоби (56) Г* SpPdz \X\ = \X0\eJ*o и, в частности, при Хо = Е [ Sp Pdz = eJzo . (65) / (E + Pdz)
§9. Изолированная особая точка 421 Из этой формулы следует, что мультипликативный интеграл всегда представляет собой невырожденную матрицу, если только путь интегрирования целиком лежит в области, в которой функция P(z) регулярна. Если L — произвольный замкнутый путь в G и G — неодносвязная область, то равенство (63) может и не иметь места. Более того, в этом случае значение интеграла <f(E + Pdz) не определяется заданием подынтегральной функции и замкнутого пути интегрирования L, а зависит еще и от выбора начальной точки интегрирования на кривой L. Действительно, выберем на замкнутой кривой L две точки zq и z\ и обозначим участки пути от zq до z\ и от z\ до zq (в направлении интегрирования) соответственно через L\ и Z^- Тогда, согласно формуле IV'38), / = /•/' / = /•/ и, следовательно, / = /■/■/"■ (66) Ч L\ *0 L\ Формула (66) показывает, что символ j>(E + Pdz) определяет некоторую матрицу с точностью до преобразования подобия, т. е. определяет только элементарные делители некоторой матрицы. Рассмотрим элемент X(z) решения (64) в окрестности точки z$. Пусть L — произвольный замкнутый путь в G, начинающийся и кончающийся в точке zq. После аналитического продолжения вдоль L элемент X(z) перейдет в некоторый элемент X(z). При этом новый элемент X(z) будет удовлетворять тому же дифференциальному уравнению (55), поскольку P(z) — однозначная функция в G. Поэтому X = XV, где V — некоторая невырожденная постоянная матрица. Из формулы (64) следует, что X(zo) = f(E + Pdz)X0. Сопоставляя это равенство с предыдущим, найдем V = Xvlj(E + Pdz)X0. (67) 20 В частности, для матрицанта X = £lzz имеем Xq = Е, и тогда V =2(E + Pdz). (68) 38) Здесь мы для сокращения обозначений опускаем подынтегральное выражение Е + + Pdz, одно и то же во всех интегралах.
422 Гл. XV. Приложения к системам линейных дифференциальных уравнений § 9. Изолированная особая точка Займемся исследованием поведения решения (интегральной матрицы) в окрестности изолированной особой точки а. Пусть матричная функция P(z) регулярна для значений z, удовлетворяющих неравенствам О < \z - а\ < Я Совокупность этих значений образует двусвязную область G. Матричная функция P{z) в области G разлагается в ряд Лорана: +оо P(z)= Y, Pn{z-a)n. (69) п=—со Элемент X(z) интегральной матрицы после однократного обхода в положительном направлении вокруг а вдоль пути L перейдет в элемент X+(z) = X(z)V, где V — некоторая постоянная невырожденная матрица. Пусть U — постоянная матрица, связанная с матрицей V равенством V = е2*ш. (70) Тогда матричная функций (z — а)и после обхода вдоль L также переходит в (z — a)uV. Поэтому аналитическая в области G матричная функция F(z) = X(z)(z-a)-u (71) при аналитическом продолжении вдоль L переходит сама в себя (остается неизменной) 39). Поэтому матричная функция F(z) регулярна в С и разлагается в G в ряд Лорана: + СО F(z)= J2 Fn(z-a)n. (72) Из (71) следует X(z) = F(z)(z-a)u. (73) Таким образом, каждая интегральная матрица X(z) может быть представлена в виде (73), где однозначная функция F(z) и постоянная матрица U зависят от матрицы коэффициентов P{z). Однако алгоритмическое определение матрицы U и коэффициентов Fn ряда (72) по коэффициентам Рп ряда (69) в общем случае представляет собой сложную задачу. Частный случай этой задачи, когда со p(z) = J2 p«(z - °)n. n=-l будет нами разобран полностью в § 10. В этом случае точка а называется регулярной особой точкой системы (55). Если разложение (69) имеет вид со P(z) = Y, pn(z ~ «Г (9 > 1; Р-я Ф 0), 39) Отсюда следует, что функция F(z) при обходе вдоль любого другого замкнутого пути в G возвращается к исходному значению.
§9. Изолированная особая точка 423 то точка а называется иррегулярной особой точкой типа полюса. Наконец, если в ряду (69) имеется бесчисленное множество отличных от нуля матричных коэффициентов Рп при отрицательных степенях z — а, то точка а называется существенной особой точкой данной дифференциальной системы. Из формулы (73) следует, что интегральная матрица X(z) при любом однократном обходе в положительном направлении (вдоль некоторого замкнутого пути L) умножается справа на одну и ту же матрицу V = е ,2iciU Если этот обход начинается (и кончается) в точке ^о, то, согласно (67), V = X{zq)-1J{E + Pdz)X(z0). (74) Если вместо интегральной матрицы X(z) мы рассмотрим любую другую интегральную матрицу X(z) = X(z)C (С — постоянная матрица, \С\ Ф 0), то, как видно из (74), матрица V заменится подобной матрицей v = c~1vc. Таким образом, "интегральные подстановки" V данной системы образуют класс подобных между собой матриц. Из формулы (74) также следует, что интеграл <f(E + Pdz) (75) определяется начальной точкой обхода и не зависит от формы кривой обхода40). Если же мы меняем точку zo, то получающиеся при этом различные значения интеграла (75) подобны между собой41). В этих свойствах интеграла (75) можно убедится и непосредственно. Действительно, пусть L и V — два замкнутых пути в G вокруг точки z = а с начальными точками обхода zq и z'q (рис. 8). Двусвязная область, заключенная между L и I/, может быть сделана односвязной, если провести разрез от zq до z'0. Интеграл вдоль разреза мы обозначим через Т= Г (E + Pdz). Поскольку мультипликативный интеграл вдоль замкнутого контура одно- связной области равен Е, то м Е, 40) Конечно, при условии, что путь интегрирования обходит точку а однократно в положительном направлении. 41) Это вытекает из формулы (74), а также из формулы (66).
424 Гл. XV. Приложения к системам линейных дифференциальных уравнений откуда V L Таким образом, как и V, интеграл <f(E + Pdz) определен с точностью до подобия, и равенство (74) мы иногда будем записывать так: V = 2(E + Pdz), понимая под этим совпадение элементарных делителей у матриц, стоящих в левой и правой частях равенства. Рассмотрим для примера систему с регулярной особой точкой f = P(Z)X, где P{z) = ^=± + Y/Pn{z-a)n. z — а *-^ п=0 Пусть Q(z) = Р"1 z — а Пользуясь формулой VIII' предыдущего параграфа, дадим оценку модуля разности D = 2{Е + Pdz)- 2(Е + Q dz), (76) выбрав и качестве пути интегрирования окружность радиуса г (г < R) с положительным направлением обхода. Тогда при оо modP_i ^p-il, mod VP^-of^dfr)/, *=||1||, \z—a\=r *—' 1 ' n=0 мы можем положить в формуле VIII' q = ^-, d = d(r), / = 2тгг, г после чего получим mod£> < Ie2^-i/e27rnrd(r) _ 1)7 п Отсюда видно, что42) С другой стороны, система lim D = 0. (77) <f=QY dz 42) При этом мы используем то, что при надлежащем выборе d(r) limd(r) = do, где г-э-0 do — наибольший из модулей элементов матрицы Ро-
§9. Изолированная особая точка 425 является системой Коши, и в этом случае при любом выборе начальной точки обхода zq и при любом г < R 2(E + Qdz) = e2*iP~1. Поэтому из (76) и (77) следует lim <f(E + Pdz) = e _ ЛжгР-х (78) Но элементарные делители интеграла <b(E + P dz) не зависят от zo и г и совпало дают с элементарными делителями интегральной подстановки V. Отсюда Вольтерра в своем известном мемуаре (см. [253]), а также в книге [49, с. 117-120] делает вывод, что матрицы V и е27ггР-г подобны, и потому интегральная подстановка V с точностью до подобия определяется матрицей "вычетов" Р-\. Это утверждение ошибочно. Из (74) и (78) можно лишь сделать вывод, что характеристические числа интегральной подстановки V совпадают с характеристическими числами матрицы е2жгР-1. Однако элементарные делители у этих матриц могут быть различными. Так, например, матрица а г 0 а при любом г / 0 имеет один элементарный делитель (Л — а)2, а предел этой мат- OL 0 || Л , имеет два элементарных делителя: Л — а 0 а рицы при г —>• 0, т. е. матрица и Л — а. Таким образом, утверждение Вольтерра не вытекает из формул (74) и (78). Но оно и вообще неверно, как показывает следующий пример. Пусть P(z) = 0 0 0 -1 0 1 о о Соответствующая система дифференциальных уравнений имеет вид dx\ dz = #2, dxi dz d, = - X2 X2 Z _ С z Интегрируя эту систему, находим Х\ = clnz + d Интегральная матрица вд = |^ I при однократном положительном обходе вокруг особой точки z = 0 умножается справа на матрицу 1 0 2тгг 1 Эта матрица имеет один элементарный делитель (Л — I)2. В то же время матрица 27гг е2«Р-г = е 1° °| 0-1 = 1 1 0 1 0 1 = Е
426 Гл. XV. Приложения к системам линейных дифференциальных уравнений имеет два элементарных делителя: Л — 1 и Л — 1. Рассмотрим теперь случай, когда матрица P(z) имеет конечное число отрицательных степеней z — а (а — регулярная или иррегулярная особая точка типа полюса): v ' n=0 Преобразуем данную систему dX dz = РХ, (79) положив X = A(z)Yy (80) где A(z) — матричная функция, регулярная в точке z = 0 и принимающая в этой точке значение Е: A(z) = E + Ax(z -а) Л- A2(z - а)2 + ..., степенной ряд в правой части сходится при \z — а\ < г±. Известный американский математик Г. Биркгоф в 1913 г. опубликовал теорему (см. [119] и [153,а]), согласно которой всегда можно подобрать преобразование (80) так, чтобы матрица коэффициентов преобразованной системы ^=P*(z)Y dz содержала только отрицательные степени z — а: р* (79') P*(z) = (z - о)« + ...+ Р-г Теорема Биркгофа вместе с полным ее доказательством приведена в книге Э. JI. Айнса "Обыкновенные дифференциальные уравнения" 43). Там же на основе рассмотрения "канонических" систем (797) проводится исследование поведения решения произвольной системы в окрестности особой точки. Между тем доказательство Биркгофа содержит ошибку, а сама теорема неверна. В качестве опровергающего примера можно взять хотя бы пример, приведенный выше для опровержения утверждения Вольтерра44). В этом примере q = 1, а = 0 и P-i = 0 0 0 -1 Ро = 0 1 о о Рп = 0 при п = 1,2, Применяя теорему Биркгофа и подставляя в (79) вместо X произведение AY, мы после замены —— на —^- Y и сокращения на Y получим z dz 43) См. [1, с. 632-641]. Биркгоф и Айне формулируют теорему для особой точки z = = оо. Это не является каким-либо ограничением, поскольку любая особая точка z = a преобразованием z' = может быть переведена в z' = оо. z — а 44) В случае q = 1 ошибочное утверждение Биркгофа по существу совпадает с ошибкой Вольтерра (см. с. 425).
§10. Регулярная особая точка 427 Приравнивая коэффициенты при 1/z и свободные члены, найдем P*!=P-i, АгР-г-Р-гАг+А^Ро. Полагая А\ = а Ь с d получим а О с О О О -с —d О 1 О О Это — противоречивое равенство. В следующем параграфе мы выясним, к какому каноническому виду может быть преобразована система (79) при помощи равенства (80) в случае регулярной особой точки. § 10. Регулярная особая точка Исследуя поведение решения в окрестности особой точки, мы без нарушения общности рассуждения можем принять, что особой точкой является точка z = = 045). 1. Пусть дана система где оо 771=0 (81) (82) И РЯД \J Prat™ СХОДИТСЯ Внутри Круга \z\ < Г. Т71=0 Положим X = A(z)Y, (83) где A(z) = E + A1z + A2z2 + ... (84) Оставляя пока в стороне вопрос о сходимости ряда (84), постараемся так определить матричные коэффициенты Ат этого ряда, чтобы преобразованная система dY dz = P*(z)Y, где PI, p*(z) = ^ + j2p^ (85) (86) 771=0 имела возможно более простой ("канонический") вид46). Подставляя в (81) вместо X произведение AY и используя (85), получим A{z)P*(z)Y + ^ Y = P(z)A(z)Y. 45) Преобразованием z' = z — а или z' = 1/z можно соответственно любую конечную точку z = а или z = оо перевести в точку z' = 0. 46) Мы будем стремиться к тому, чтобы в ряду (86) было конечное (и притом возможно меньшее) число коэффициентов РД, отличных от нуля.
428 Гл. XV. Приложения к системам линейных дифференциальных уравнений Умножая обе части этого равенства справа на У г, найдем P{z)A{z)-A(z)P\z) = dfz. Заменяя здесь P(z), A(z), P*(z) рядами (82), (84), (86) и приравнивая в левой и правой частях равенства коэффициенты при одинаковых степенях z, получим бесконечную систему матричных уравнений для искомых коэффициентов АиА2, ...47): 1)Р_!=Р^, 2) P_iAi - Ai(P_i + Е) + Р0 = Р0% 3) Р-,А2 - Л2(Р_х + 2Е) + Р0А, - ЛхР0* + Pi = Pf, (87) (ш + 2) Р_1 Лд+i - Лт+1[Р_! + (т + 1)#] + Р0Ат - ЛтР0*+ + Р\Ат-\ — Am-iPi + ... + Рт = Р^. 2. Рассмотрим отдельно несколько случаев. 1°. Матрица P_i не имеет различных характеристических чисел, отличающихся друг от друга на целое число. В этом случае при любом к = 1,2,3,... матрицы P_i и P_i + кЕ не имеют общих характеристических чисел, и потому (см. гл. VIII, § З)48) матричное уравнение P-1U-U(P-1+kE)=T при любой правой части Т имеет одно и только одно решение. Это решение будем обозначать через Ф*(Р-1,Г). Поэтому в уравнениях (87) можно положить все матрицы Р^ (т = 0,1,2,...) равными нулю и последовательно определить Ai,^,... при помощи равенств А^Ф^Р-ь-Ро), А2 = Ф2(Р_1,-Р1-Р0А1), ... Тогда преобразованная система является системой Коши dY = P-i Y dz z ' и потому решение X исходной системы (81) имеет вид49) X = A(z)zp-K (88) 47) Во всех уравнениях, начиная со второго, в силу первого уравнения заменяем матрицу Р1г на Р-\. 48) Можно, впрочем, доказать это, и не опираясь на гл. VIII. Интересующее нас положение равносильно утверждению, что матричное уравнение P_1U = U(P-i+kE) (*) имеет только нулевое решение U = 0. Поскольку матрицы P_i и P_i + кЕ не имеют общих характеристических чисел, то существует такой многочлен /(Л), для которого /(P_i)=0, f(P-i+kE) = E. Но из (*) следует f(P-i)U = Uf{P-i+kE). Отсюда U = 0. 49) Формула (88) определяет одну интегральную матрицу системы (81). Произвольная интегральная матрица получается из (88) умножением справа на произвольную постоянную невырожденную матрицу С.
§10. Регулярная особая точка 429 2°. Среди различных характеристических чисел матрицы P_i имеются числа, разность между которыми является целым числом; при этом матрица P_i имеет простую структуру. Обозначим через Ai,A2,...,An характеристические числа матрицы P_i, расположенные так, чтобы имели место неравенства ReAi ^ ReA2 ^ ... ^ ReAn. (89) Не нарушая общности рассуждений, мы можем заменить матрицу P_i любой, ей подобной. Это следует из того, что, умножая обе части уравнения (81) слева на невырожденную матрицу Т, а справа — на Т-1, мы фактически заменяем все Рт на ТРтТ~х (тп = —1,0,1,2,...,) (при этом и X заменяется на ТХТ~Х). Поэтому мы будем считать, что в рассматриваемом случае P_i — диагональная матрица: Р-1 = UiSikW?. (90) Введем обозначения для элементов матриц Рт, Р^ и Ат: Рт = \\р%)\\'?, Р*т = ПРИГОН?, Ат = \\х^. (91) Для определения А\ мы воспользуемся вторым из уравнений (87). Это матричное уравнение можно заменить скалярными уравнениями ^-\к-\)х^+р^=р{р (*,* = 1,2,...,«). (92) Если ни одна из разностей А; — А& не равна единице, то мы можем положить Pq = 0. Тогда из уравнения 2) системы (87)50) Ai = <l>i(P_i, —Ро). В этом случае элементы матрицы А\ однозначно определятся из уравнений (92): (0) x(ik=-Xi-Xk-l (*>* = 1>2>->")• (93) Если же при некоторых г, А:51) Ai — Afc = 1, то соответствующее р\к ' определяется из (92): Ж) _ (0) а соответствующее х\к' выбирается совершенно произвольно. При тех же г и к, при которых Aj — А& ф 1, полагаем ю((Г) - 0 а соответствующее х\к находим по формуле (93). Определив Ai, мы переходим к определению А^ из третьего уравнения (87). Заменим это матричное уравнение системой п2 скалярных уравнений: (\i-\k-2)x£)=p£*)-p£)-(P0A1-A1PZ)ik (i,k = l,2,...,n). (94) Здесь мы поступаем так же, как и при определении А\. Если \ — \кф 2, то полагаем р\к ' = 0, и тогда из (94) находим х* = -Xl-\2-2 ^ ~ {PoAl ~ AlP» )ik]- 50) Мы пользуемся обозначениями, введенными при разборе случая 1°. 51) В силу (89) это возможно лишь при г < к.
430 Гл. XV. Приложения к системам линейных дифференциальных уравнений Если же Xi — Xk = 2, то при этих г и А: из (94) следует, что p\P=p'U) + (PoA1-A1P^ik. В этом случае х\^ выбирается произвольно. Продолжая этот процесс далее, мы последовательно определим все матрицы Pl^P^P^ ... и АиА2,... При этом только конечное число из матриц Р^ будет отлично от нуля и, как нетрудно видеть, матрица P*(z) будет иметь вид52) y\i— Ап — 1 P*(z) = Xi/z ai2^Al"A2_1 ... ain^ X2/z 0 Q>2nZ A2-A„-l K/z (95) где dik = 0, если Xi — Xk не есть целое положительное число, и a,ik = pik{~ k~ , если Xi — Xk является целым положительным числом. Обозначим через rrii наибольшую целую часть числа Re А;53): mi = [ReAi] (г = 1,2, ...,п). (96) Тогда в силу (89) mi ^ Ш2 ^ ... ^ тп. При этом если Xi — Xk — целое число, то А; — Xk =mi — rrik- Поэтому в выражении (95) канонической матрицы P*(z) мы можем заменить все разности Xi — Xk на rrii — га*;. Кроме того, положим Xi = Xi-rrii (г = l,2,...,m) M = ||m*fo||i, U = Ai ai2 ... ain 0 A2 ... a2n 0 0 Тогда из (97) следует (см. формулу I на с. 414) Ап (91') (97) P*(Z) = zM^ z~M + f = Dz(zMzu). Отсюда вытекает, что Y = zMzu представляет собой решение уравнения (85), а X = A(z)zMzu является решением уравнения (81)54). (98) 52) Рт (тп ^ 0) может быть отличным от нуля лишь тогда, когда существуют характеристические числа Аг и Xk матрицы P_i такие, что Аг — А& — 1 = т (при этом в силу (89) г < к). При данном га каждому такому равенству соответствует элемент P^ik * — aik матрицы Р^; этот элемент может быть отличен от нуля. Все остальные элементы матрицы Р^ равны нулю. 53) То есть пц — наибольшее целое число, не превосходящее ReAz (г = 1,2, ...,гг). 54) Специальный вид матриц (97) соответствует каноническому виду матрицы Р-\. Если матрица Р-\ не имеет каноническую форму, то матрицы М и U в (98) подобны матрицам (97).
§10. Регулярная особая точка 431 3°. Переходим к общему случаю. Как было выяснено выше, мы можем, не нарушая общности, заменить матрицу P_i любой матрицей, ей подобной. Мы примем, что матрица P_i имеет нормальную жорданову форму55) P_i = {Ai£i + #i, Х2Е2 + #2, ..., \иЕи + Ни}у (99) причем ReAi ^ ReA2 ^ ... ^ ReAu. (100) Здесь Е обозначает единичную матрицу, а Н — матрицу, у которой элементы первой "наддиагонали" равны единице, а остальные элементы равны нулю. Порядки матриц Е{ и Нi в различных диагональных клетках будут, вообще говоря, различными; эти порядки совпадают со степенями соответствующих элементарных делителей матрицы P_i 56). В соответствии с представлением (99) матрицы P_i разобьем все матрицы Рт,Р^Ат на блоки: р _ Ср{т)\и р* _ ср{т*)\и л — (Y^m^\u ■Гщ — \*ik )ц *т — K^ik /1' -"-rn — \Aik /1- Тогда второе из уравнений (87) может быть заменено системой уравнений (А,Я« + Щ)Х£> - Xg>[(\k + l)Ek + Щ] + 40) = PJSn (ш) (i,k = 1,2, ...,u), которые могут быть еще переписаны так: (А, - А, - 1)4' + HiXg> - X$Hh + 40) = PiP (h * = 1,2,..., и). (102) Пусть57) #11 #12 = 11**11, 40) = iiA рГ = 1^}1 #21 «22 Тогда матричное уравнение (102) (при фиксированных ink) можно заменить системой скалярных уравнений вида58) (А* - А* - l)#s* + x8+itt - x8,t-i + Р^ = р2 } п Поч (аЧч-м = #s,0 = 0; s = l,2,..., v; t = 1,2,..., iu), где v и w — порядки матриц \Ei + Hi и XkEk + Hk в (99). Если Aj — Afc т^ 1, то в системе (103) можно положить все p\t — 0 и однозначно определить все xst из рекуррентных соотношений (103). Это означает, что в матричном уравнении (102) мы полагаем и однозначно определяем Х\к*. 55) См. гл. VI, § 6. 56) Для сокращения обозначений мы не пишем при Е{ и Щ индекс, указывающий порядок этих матриц. 5Т) Для сокращения обозначений мы опускаем индексы г, к при обозначении элементов матриц Xik, РЦ\ Pp. 58) Рекомендуем читателю вспомнить свойства матрицы if, разобранные на с. 23,24.
432 Гл. XV. Приложения к системам линейных дифференциальных уравнений Если Xi — Xk = 1, то соотношения (103) принимают вид , (о) (о*) X8+l,t - X8lt-1 +P8t =Pst (s = 1,2,..., v; t = 1,2,..., w; avn,t = xs,0 = 0). (104) Нетрудно показать, что из уравнений (104) можно так определить элементы xst матрицы х\1\ чтобы матрица Р?к ' имела в соответствии со своим размером V X W ВИД 0 «о av-i av-2 ... а>\ ао (у = w) ао 0 «о av-i av-2 0 0 0 0 а\ ао О (v < w) 0 0 ао ах &W-1 0 0 0 а0 .. ах 0 0 0 0 а0 (105) (v > w) Про матрицы (105) будем говорить, что они имеют правильную нижнюю треугольную форму59). Из третьего уравнения (87) определяем матрицу А^. Это уравнение можно заменить системой уравнений (А, - Л, - 2)Х% + ЩХ$ - Х$Нк + {Р0Аг - АгР0}гк + J#> = р£*> (i,k = 1,2,...,и). (106) Аналогично тому, как это было при определении Aiy если А; — Л^ / 2, то из соответствующего уравнения (106) матрица х\к определяется однозначно при ,(i*) _ ,(2) . ik — 0. Если же Xi — Xk = 2, то можно так определить матрицу Х\к\ чтобы матрица Р±к ' имела правильную нижнюю треугольную форму. Продолжая этот процесс, мы определим последовательно все матричные коэффициенты Ai,A2,... и Р1г,Р^ ,PJ",... При этом только конечное число из коэффициентов Р^ будет отлично от нуля, и матрица P*(z) будет иметь следующий 59) Аналогично определяются правильные верхние треугольные матрицы. Из уравнений (104) все элементы матрицы х\к не определяются однозначно; имеется некоторый произвол в выборе элементов xst- Это видно и непосредственно из уравнения (102): при Лг — Xk = 1 к матрице Х\к можно прибавить произвольную матрицу, перестановочную с if, т. е. произвольную правильную верхнюю треугольную матрицу.
§10. Регулярная особая точка 433 блочный вид60) 60\. ( XiEi+Hi £ Ах-Аа-1 z п Х2Е2 + i?2 P*{z) = B2uzx*-x«-1 \ 0 0 Ли^и Н~ -tiu (107) / где Bik Г о, i p(Ai-Afc-l*) если A; — Afc не есть целое положительное число; если \ — А*; равно целому положительному числу (г,& = 1,2,...,?/). Все матрицы Б^ (г, к = 1,2,..., гл; г < /г) имеют правильную нижнюю треугольную форму. Как и в предыдущем случае, обозначим через га; целую часть Re А;: mi = [Re А*] (г = 1,2, ...,и) (108) и положим _ А; = га* + А; (г = 1,2,..., г*). (108') Тогда снова в выражении (107) для P*(z) мы всюду можем заменить разность А; — А*; разностью га; — ти- Вводя диагональную матрицу с целыми элементами М и верхнюю треугольную матрицу U при помощи равенств61) / \\Е\ + Hi ^ В\2 ... В\и \ 0 А2-Е?2 + В.2 • . . В2и М = (rrnEiSik)^, U = , (109) V 0 0 ... ХиЕи + Ни ) мы, исходя из (107), легко получим следующее представление для матрицы P*(z): P*(Z) = zm4.z-m + E = Dz(zmzu). Отсюда следует, что решение уравнения (85) может быть задано в виде Y = zMzu, а решение уравнения (81) может быть представлено так: X = A(z)zMzu. (ПО) Здесь A(z) — матричный ряд (84), М — диагональная матрица с постоянными целыми элементами, U — постоянная треугольная матрица. Матрицы М и U определяются равенствами (108), (108') и (109)62). 3. Переходим теперь к доказательству сходимости ряда A(z) = E + A1z + A2z2 + ... 60) Размеры квадратных матриц Ei, Hi и прямоугольных матриц Bik определяются размерами диагональных клеток в жордановой матрице P_i, т. е. степенями элементарных делителей матрицы Р-\. 61) Здесь разбиение на блоки соответствует разбиению матриц Р-i и Р*{х). 62) См. сноску 54) на с. 430.
434 Гл. XV. Приложения к системам линейных дифференциальных уравнений Воспользуемся леммой, которая представляет и самостоятельный интерес. Лемма. Если ряд х = ао + a>iz + a,2Z2 + ... (Ш) формально удовлетворяет системе63) | = Р(Ф, (П2) для которой z = 0 является регулярной особой точкой, то ряд (111) сходится в любой окрестности точки z = О, в которой сходится разложение в ряд (82) для матрицы коэффициентов P(z). oo оо Р Доказательство. Пусть P(z) = ——!- + )Pqzq, где ряд ^ Pmzm CXO- q^O m=0 дится при \z\ < г. Тогда существуют такие положительные постоянные p-i и р, что64) modP-xO-x/, modPm^J, I = ||1|| (m = 0,1,2,...). (113) Подставляя в (112) вместо х ряд (111) и приравнивая между собой коэффициенты при одинаковых степенях в обеих частях равенства (112), получим бесконечную систему векторных (столбцевых) равенств P-ia0 = 0, (E-P_i)oi=P0ao, (2Е - P-i)a2 = Росц + Рюо, (114) (тЕ - P-i)am = Po«m-i + Piam-2 + ... + Pm-i^o, Нам достаточно доказать, что какой-либо остаток ряда (111) х^ = akzk + aMzk+1 + ... (115) сходится в окрестности точки z = 0. Число к подчиним неравенству к > np-i. Тогда число к будет превосходить модули всех характеристических чисел матрицы P_i 65), и потому при га ^ к будем иметь \тЕ — P_i| /Ои m V т ) mm1 m6 (116) (т = к, к + 1,...). 63) Здесь ж = (#i,#2, ...,#п) — столбец из неизвестных функций; ao,ai,a2,... — постоянные столбцы; P(z) — квадратная матрица коэффициентов. 64) Определение модуля матрицы см. на с. 411. 65) Если Ао — характеристическое число матрицы А = Ца^ЦГ, то |Ао| ^ п max \aik\. l^.i,k^.n Действительно, пусть Ах = Ао#, где х = (:ri,#2,..., хп) ф 0. Тогда п Ао^г = ^2 агк%к (г = 1, 2, ..., п). к=\ Пусть \xj\ = max{|m|, \x2\y..., \хп\}- Тогда п \М\хз\ ^ y]Kfe||a?fc| ^ \xj\n max \aik\. fc=l ^ ^ Сокращая на \xj\, получим нужное неравенство.
§10. Регулярная особая точка 435 В последней части этого равенства стоит сходящийся матричный ряд. Пользуясь этим рядом, мы из (114) можем все коэффициенты ряда (115) выразить однозначно через ao,ai, ...,^-1 при помощи рекуррентных соотношений am=(iE+ip_! + i Р1г + ...) (Лп_1 + P0am-i + .- + Pm-k-iak) (Лл_ \т mz т* / (117) (га = к, к + 1,...)» где /m_i = Pm-kak-i + ... + Pm-iao (т = к,к + 1,...). (118) Заметим, что ряд (115) формально удовлетворяет дифференциальному уравнению ^=Р(ф<*>+/(*), (119) где оо т=к — 1 = P(z)(a0 + aiz + ... + a^-i^-1) - сц - 2a2z - ... - (к - l)ak-izk~2. (120) Из (120) вытекает, что ряд ^ т=к—1 сходится при |z| < г, и потому существует такое число N > 0, что66) mod/™ ^1^1 (m = fc - l,fc,...). (121) Из вида рекуррентных соотношений (117) следует, что, заменив в них мат- v II N II рицы P_i,Pg,/m_i мажорантными матрицами р-\1, — J, w-i > а СТ0Л^еЦ ат столбцом ||о;т|| 67) (га = к, к + 1,...; g = 0,1,2,...), мы получим соотношения, определяющие верхние границы ||am|| для modam: modam^||am||. (122) Следовательно, ряд ^*)=a*2* + a*+1z*+1+... (123) после почленного умножения на столбец ||1|| будет мажорантным рядом для ряда (115). Заменив в (119) матричные коэффициенты P-i,Pq,fm рядов P-L +2^fqz\ }{z)= 2^ *™z" q=0 m=k-l р(*) = ?г + Т,Ря*9> т= Ё f- соответствующими мажорантными матрицами p_i7, — 7, — , а также заменив х^ на ||£^||, мы получим дифференциальное уравнение для %№; (124) 66) Здесь ||7V/rm|| обозначает столбец, у которого все элементы равны одному и тому же числу N/rm. 6Т) Здесь \\ат\\ обозначает столбец (am,am, ...,am) (am — число; т = к, к + 1,...).
436 Гл. XV. Приложения к системам линейных дифференциальных уравнений Это линейное дифференциальное уравнение имеет частное решение п\ N znp~l Г / л / ~\прг-1 которое регулярно в точке 2 = 0ив окрестности этой точки разлагается в сходящийся при \z\ < г степенной ряд (123). Из сходимости мажорантного ряда (123) следует сходимость ряда (115) при \z\ < г. Лемма доказана. Замечание 1. Приведенное доказательство позволяет определить все регулярные в особой точке решения дифференциальной системы (112), если таковые существуют. Для существования регулярных решений {не равных тождественно нулю) необходимо и достаточно, чтобы матрица вычетов P_i имела целое неотрицательное характеристическое число. Если s — наибольшее такое целое характеристическое число, то из первых s + 1 уравнений (114) можно определить не обращающиеся одновременно в нуль столбцы ao,ai, ...,as, поскольку определитель соответствующей системы линейных однородных уравнений равен нулю: А = \Р.1\\Е-Р.1\ ... \sE-P.1\=0. Из остальных уравнений (114) столбцы as+i,as+2,... однозначно выразятся через ao,ai, ...,as. Полученный ряд (111) сходится согласно лемме. Таким образом, линейно независимые решения первых s + 1 уравнений (114) определяют все линейно нез ависимые регулярные в особой точке z = 0 решения системы (112). Если z = 0 есть особая точка, то задание начального значения ао для регулярного в этой точке решения (111) (если таковое существует) не определяет однозначно это решение. Однако решение, регулярное в регулярной особой точке, определяется однозначно, если заданы ao,ai, ...,as, т. е. если заданы начальные значения при z = 0 самого решения и его первых s производных (s — наибольшее неотрицательное целое характеристическое число матрицы вычетов P_i). Замечание 2. Доказанная лемма сохраняет свою силу и при P_i = 0. В этом случае в доказательстве леммы в качестве p_i можно взять любое положительное число. При P_i = 0 лемма утверждает известное положение о существовании регулярного решения в окрестности регулярной точки системы. В этом случае решение однозначно определяется заданием ао- 4. Пусть дана система g = P(z)X, (126) где оо Р(г) = — + Е Р™*т Z *-^ 771=0 и ряд, стоящий в правой части, сходится при \z\ < г. Пусть, далее, полагая X = A(z)Y (127) и подставляя вместо A(z) ряд A(z) =A0 + Axz + A2z2 + ..., (128)
§10. Регулярная особая точка 437 мы после формальных преобразований получаем %=P*(z)Y, (129) ^хГ где га=0 причем здесь, как и в выражении для P(z), ряд в правой части сходится при \z\ < г. Докажем, что и ряд (128) сходится в окрестности \z\ < г точки z = 0. Действительно, из (126), (127) и (129) следует, что ряд (128) формально удовлетворяет дифференциальному матричному уравнению j± = P(z)A-AP*(z). (130) Мы будем рассматривать А как вектор (столбец) в пространстве всех матриц п-го порядка, т. е. в пространстве п2 измерений. Если мы в этом пространстве определим линейный оператор P(z) над матрицей А, аналитически зависящий от параметра z, при помощи равенства P(z)[A] = P(z)A - AP*(z), (131) то дифференциальное уравнение (130) можно будет записать в виде dfz = P(z)[A]. (132) Правую часть этого уравнения можно рассматривать как произведение матрицы P(z) порядка п2 на столбец А из п2 элементов. Из формулы (131) видно, что точка z = 0 является регулярной особой точкой для системы (132). Ряд (128) формально удовлетворяет этой системе. Поэтому, применяя лемму, заключаем, что ряд (128) сходится в окрестности \z\ < г точки z = 0. В частности, сходится и ряд для A{z) в формуле (110). Таким образом, нами доказана Теорема 2. Всякая система g = P(z)X (133) с регулярной особой точкой z = 0 оо p(Z) = ?f + Y< р™*т т=0 имеет решение вида X = A(z)zMzu, (134) где A(z) — матричная функция, регулярная при z = 0 и обращающаяся в этой точке в единичную матрицу Е, а М и U — постоянные матрицы, причем М имеет простую структуру и целые характеристические числа, и разность между любыми двумя различными характеристическими числами матрицы U не есть целое число. Если матрица Р-\ приводится к жордановой форме при помощи невырожденной матрицы Т: P_i = ТЧАхЯх + Ни Х2Е2 + #2, ..., XSES + tfJT"1 (135) (ReAi ^ ReA2 ^ ... ^ ReAs),
438 Гл. XV. Приложения к системам линейных дифференциальных уравнений то можно взять М и U в виде М = Т{т1Еи т2Е2, U = Т ( \\Е\ + Hi ^ В\2 О Л2Е2 + 112 msEs}T-\ Bis B2S \ т-\ о о \SES + Hs J где ГПг — [A,], Xi-Xi-TUi (i = 1,2, ...,$), (136) (137) (138) Bik — правильные нижние треугольные матрицы (г, к = 1,2,..., s), причем В^ = О, если \i — Afc не есть целое положительное число (г, к = 1,2,..., s). В частном случае, когда ни одна из разностей А; — А& (г, к = 1,2,..., s) не равна целому положительному числу, в формуле (134) можно положить М = О, U = Р-\, т. е. в этом случае решение представимо в виде X = A(z)zp~K (139) Замечание 1. Обращаем внимание на то, что в настоящем параграфе был оо установлен алгоритм для определения коэффициентов ряда A(z) = Y^ Amzm т=0 (А0 = Е) через коэффициенты Рт ряда для P(z). Кроме того, доказанная теорема определяет и инт егральную подстановку V, на которую умножается решение (134) при однократном обходе особой точки z = 0 в положительном направлении: у _ e^iU^ Замечание 2. Из формулировки теоремы следует, что Bik = 0 при А; / А^ {г,к = 1,2,...,*). Поэтому матрицы / О В12 А = T{Ai£b X2E2, ..., XsEs}T-\ U = Tl ° ° Bls \ B2s V о о (140) 0 / перестановочны между собой: Отсюда MJ = UK. ZMZU: ZMZA+U MKJJ KJJ z z z = z z . где (141) Л = М + Л = T{\u\2,...,\n}T-\ (142) где Ai, A2,..., An — все характеристические числа матрицы Р-\, расположенные в порядке ReAi ^ ReA2 ^ ... ^ ReAn. С другой стороны, zb = h(U), где h(X) — интерполяционный многочлен Лагранжа-Сильвестра для функции /(А) = zx.
§11. Приводимые аналитические системы 439 Поскольку все характеристические числа матрицы U равны нулю, то h(X) линейно зависит от /(0), /'(О), ..., /^_1^(0), т. е. от l,lnz,..., (Inz)9-1 (g — наименьший показатель, при котором U9 = 0). Следовательно, 0-1 h(X) = ^hj(X)(lnzy, 3=0 и потому zv = h(U) = ^2hj(U)(\nzy=T 3=0 qi2 0 1 Qin \ Q2n (143) / \ 0 0 ... 1 где qij (iyj = 1,2, ...,п; г < j) — многочлены от lnz степени ниже д. В силу (134), (141)—(143) частное решение системы (126) можно взять в виде X = A(z) 0 о *Л2 о о 1 #12 0 1 qin Q2n 0 0 (144) Здесь Ai,A2,...,An — характеристические числа матрицы P_i, расположенные в порядке ReAi ^ ReA2 ^ ... ^ ReAn, a q^ (i,j = 1,2, ...,п; г < j) — многочлены от \nz степени не выше д — 1, где д — максимальное количество характеристических чисел А;, отличающихся между собой на целое число; A(z) — матричная функция, регулярная в точке z = 0, причем А(0) = Т (\Т\ ф 0). Если матрица P_i имеет жорданову форму, то Т = Е. § 11. Приводимые аналитические системы В качестве приложения теоремы предыдущего параграфа выясним, в каких случаях система % = Q(!)X, (145) где ПО Qm 7™~ Q(t) = £ (146) — сходящийся ряд при t > to, является приводимой (по Ляпунову), т. е. в каких случаях существует решение системы вида X = L(t)eB\ (147) где L(t) — матрица Ляпунова (т. е. L{t) удовлетворяет условиям 1°-3° на с. 402), а В — постоянная матрица68). Здесь X,Q — матрицы с комплексными элементами, at — вещественный аргумент. Сделаем преобразование 1 Тогда система (145) перепишется в виде f = pw, (148) б8) Если имеет место равенство (147), то преобразование Ляпунова X = L(t)Y переводит систему (145) в систему dY/dt = BY.
440 Гл. XV. Приложения к системам линейных дифференциальных уравнений где оо P(z) = -z-*Q(V}=-9i-Y,Qm+2Z» (149) m=0 Ряд, стоящий в правой части выражения для P(z), сходится при \z\ < 1/to. Могут представиться два случая. 1) Qi = 0. В этом случае точка z = 0 не является особой для системы (148). Эта система имеет решение, регулярное и нормированное в точке z = 0. Это решение задается сходящимся степенным рядом Полагая X(z) = E + XlZ + X2z2 + ... (\z\ < i) . L(t)=*(i), B = Q, получим искомое представление (147). Система приводима. 2) Qx ф 0. В этом случае система (148) имеет регулярную особую точку в точке z = 0. Не нарушая общности рассуждений, можно считать матрицу вычетов Р-\ = = —Qi приведенной к жордановой форме, в которой диагональные элементы Ai, Аг,..., Ап расположены в порядке ReAi ^ ReA2 ^ ... ^ ReAn. Тогда в формуле (144) Т = Е, и потому система (148) имеет решение X = A(z) 0 о о 1 012 0 1 Qin Q2n 0 0 где функция A(z) регулярна при z = 0 и принимает в этой точке значение Е, a qik (г, к = 1,2, ...,п; г < к) — многочлены от In z. Заменяя здесь z на 1/t, будем иметь X ■(9 1чА, (I) о 1\ ^2 (9 о о (9 Лп 1 912 (in i) 0 1 9i„(lnJ) ftn(lni) 0 0 (150) Так как преобразование X = A(l/t)Y является преобразованием Ляпунова, то система (145) будет приводимой к некоторой системе с постоянными коэффициентами в том и только том случае, когда произведение Li(t) = t~Xl 0 о гА о о 1 to(lni) ... *n(lni) 0 1 ... «2n(lni) 0 0 ... 1 е-"\ (151) где В — некоторая постоянная матрица, будет матрицей Ляпунова, т. е. когда матрицы Li(t), dLi/dt и L±l(t) будут ограничены. При этом, как следует из
§11. Приводимые аналитические системы 441 теоремы Еругина (§ 4), матрицу В можно считать матрицей с вещественными характеристическими числами. Из ограниченности матриц L\(t) и L^x{t) при t > to вытекает, что все характеристические числа матрицы В должны равняться нулю. Это следует из выражения для eBt и е~т, получаемого из (151). Кроме того, все числа Ai, Л2,..., Ап должны быть чисто мнимыми, поскольку, согласно (151), из ограниченности элементов последней строки в Li{t) и первого столбца в L±l(t) вытекает, что ReAn ^ О и Re Ai ^ 0. Но если все характеристические числа матрицы P_i чисто мнимы, то разность между любыми двумя различными характеристическими числами матрицы P_i не равна целому числу. Поэтому имеет место формула (139) X = A(z)zp~1 =A(j)tQ\ и для приводимости системы необходимо и достаточно, чтобы матрица L2(t)=tQle~Bt (152) вместе со своей обратной была ограничена при t > to. Поскольку все характеристические числа матрицы В должны равняться нулю, то минимальный многочлен для матрицы В имеет вид Xd. Обозначим через ф(Х) = (А - т)С1 (А - fjL2)C2 ... (А - 11и)Си (м* ф V>k при г ф к) минимальный многочлен матрицы Q\. Поскольку Qi = —-Р-i, то числа //i,/^--- ..., [хи отличаются знаком от соответствующих чисел \ и потому все они — чисто мнимые числа. Тогда [см. формулы (12), (13) на с. 401] и tQl = Е [^*о + Ukl In* + ... + Uk^Qnty*-1] t»\ (153) eBt = V0 + Vxt + ... + Vd-it*"1. (154) Подставляя эти выражения в равенство L2(t)eBt = tQ\ получим [L2(t)Vd-i + (*)]^_1 = Z0(t)(\nty-\ (155) где с — наибольшее из чисел Ci,c2, ...,cn, (*) обозначает матрицу, стремящуюся к нулю при t —> 00, a Zo(t) — ограниченная матрица при t > to. Так как матрицы, стоящие в левой и правой частях равенства (155), должны иметь одинаковый порядок роста при t —> 00, то d = с = 1, т. е. В = 0, и матрица Qi имеет простые элементарные делители. Обратно, если матрица Qi имеет простые элементарные делители и чисто мнимые характеристические числа ^i,//2, ...,Mn? то X = A(z)z-«1=A(z)||z-^«||? есть решение системы (149). Полагая здесь z = l/£, найдем X = A(i)||f%*||?.
442 Гл. XV. Приложения к системам линейных дифференциальных уравнений Функция X{t) вместе с dX(t)/dt и обратной матрицей X~l(t) ограничена при t> to. Поэтому система приводима (В = 0). Нами доказана69) Теорема 3. Система f = «<«>*• где матрица Q(t) представима сходящимся при t > to рядом Q{t) = 9i +1 +..., является приводимой в том и только том случае, когда у матрицы вычетов Q\ все элементарные делители простые и все характеристические числа чисто мнимы. § 12. Аналитические функции многих матриц и их применение к исследованию дифференциальных систем. Работы И. А. Лаппо-Данилевского Аналитическая функция т матриц n-го порядка Xi,X2,...,Xm может быть задана при помощи ряда (Л ч ею (l...m) F(Xi,X2,...,Xm) = a0 + ^2 ^2 ahJ2...jvXjixj2-xj*> (156) сходящегося для всех матриц m-го порядка Xj, удовлетворяющих неравенствам modXj<Rj (j = 1,2,...,га). (157) Здесь коэффициенты ao,ot>hj2...jv (juh,-,ju = l,2,...,m; v = 1,2,3,...) — комплексные числа, Rj(j = 1,2, ...,m) — постоянные матрицы n-го порядка с положительными элементами и Xj(j = 1,2, ...,m) — матрицы того же порядка, но переменные и с комплексными элементами. Теория аналитических функций нескольких матриц была развита И. А. Лаппо- Данилевским. На основе этой теории И. А. Лаппо-Данилевский провел фундаментальные исследования систем линейных дифференциальных уравнений с рациональными коэффициентами. Система с рациональными коэффициентами путем надлежащего преобразования независимой переменной всегда может быть приведена к виду (158) dv Af uj0 uh и^-Л х dz j^\{z- а,)Ч + (* - aj)4 -1 + •" + z - aj / ' где Ujk — постоянные матрицы n-го порядка, aj — комплексные числа, Sj — целые положительные числа (& = 0,1,..., Sj — 1; j = 1,2,..., т)70). Некоторые результаты Лаппо-Данилевского мы проиллюстрируем на частном случае так называемых регулярных систем. Последние характеризуются услови- 69) См. работу Еругина [11, с. 21-23]. Там эта теорема доказана для случая, когда матрица Qi не имеет различных характеристических чисел, различающихся между собой на целое число. 70) В системе (158) все коэффициенты — правильные рациональные дроби относительно z. К такому виду приводятся любые рациональные коэффициенты, если при помощи дробно-линейного преобразования над переменной z перевести регулярную (для всех коэффициентов) конечную точку z = с в точку z = оо.
§12. Аналитические функции матриц 443 ем s\ = S2 = ... = sm = 1 и записываются в виде (159) dz *-^ z — aj Следуя Лаппо-Данилевскому, введем в рассмотрение специальные аналитические функции — гиперлогарифмы, — определяемые следующими рекуррентными соотношениями: h(z;ah)= Г Z , j z - ajx Ь Iu(z;ah,aj2,...,ajl,)= / -^—^-^ ^ dz. b J Рассматривая точки ai,a2,...,am,oo как точки ветвления логарифмического типа, построим соответствующую риманову поверхность 5(ai,a2,...,am;oo). Каждый гиперлогарифм будет однозначной функцией на этой поверхности. С другой стороны, матрицант системы (159) Щ (т. е. нормированное в точке z = Ь решение), будучи аналитически продолжен, также может быть рассматриваем как однозначная функция на 5(ai,a2, ...,am; оо); при этом в качестве Ь может быть выбрана любая конечная точка на 5, отличная от 01,02, ...,om. Для нормированного решения Щ Лаппо-Данилевский дает явное выражение через определяющие матрицы Ui,U2,—,Um системы (159) в виде ряда оо (l...m) Щ = Е + ^2 Yl lb{z;ah,ah,...,aj„)UhUh...Ujv. (160) Это разложение сходится равномерно относительно z при любых Ui,U2,...,Um и представляет Щ в любой конечной области на поверхности 5(ai,a2, ...,am; оо), если только эта область не содержит точек ai,...,am внутри и на границе. Если ряд (156) сходится при любых матрицах Xi,X2, ...,Xm, то соответствующая функция F(Xi,X2,...,Xm) называется целой. Нормированное решение Щ представляет собой целую функцию от матриц Ui,U2, —,Um. Заставляя в формуле (160) аргумент z обойти точку aj в положительном направлении один раз так, чтобы контур обхода не захватывал других точек ai (при г ф j), мы получим выражение для интегральной подстановки V}, соответствующей точке z = aji оо (l...m) VJ=E + ^ ^2 P3ib^ah^a32^-^ju)Uj1Uh...Ujv (j = l,2,...,m), (161) u=lj1,...,jl/ где в понятных обозначениях (i) П pi(6;a,1,a,2,...,a,J= Г Lb(z;aj aj ..^J ^ , J ч z~aji (Juh,-Ju, 3 = l,2,...,m; i/ = 1,2,3,...). Ряд (161), как и ряд (160), представляет собой целую функцию Ui,U2,...,Um.
444 Гл. XV. Приложения к системам линейных дифференциальных уравнений Обобщив теорию аналитических функций на случай бесконечного, но счетного множества матриц-аргументов Xi,X2,X3, ...,71), Лаппо-Данилевский использовал эту теорию для исследования поведения решения системы в окрестности иррегулярной особой точки72). Мы приведем основной результат. Нормированное решение Щ системы з=-я где степенной ряд в правой части сходится при \z\ < г (г > I)73), может быть представлено рядом оо оо "> = £+£ Е Ph-Pi.* v п—ц \х х J2 V^+-+i»+v-»zK+-+i>-+» J2 «Й+„...л lnA b J2 ahi-,U ln" z- (162) Здесь a*j \ л и or?' • — скалярные коэффициенты, определяемые по специальным формулам. Ряд (162) сходится при любых матрицах Pi,P2> — в кольце р < \z\ < г (р — произвольное положительное число, меньшее г). Этому кольцу должна принадлежать и точка Ь (р < \Ь\ < г). Не имея возможности в какой бы то ни было степени подробно изложить содержание работ Лаппо-Данилевского в настоящей книге, мы вынуждены ограничиться приведенными выше формулировками некоторых основных результатов и отослать читателей к соответствующей литературе. Все относящиеся к дифференциальным уравнениям работы И. А. Лаппо-Данилевского изданы посмертно Академией наук СССР в трех томах в 1934-1936 гг. Кроме того, основные результаты автора изложены в статьях [92,а-в] и небольшой книге [21, а]. Сокращенное изложение некоторых результатов можно найти и в книге [30]. 71) См. [21,6], т. I, Мемуар 1. 72) См. [21,6], т. I, Мемуар 3, см. также [92, а-в; [104, а, 6]. 73) Ограничение г > 1 несущественно, так как это условие всегда можно получить заменой z на az, где а — надлежащим образом выбранное положительное число.
ГЛАВА XVI ПРОБЛЕМА РАУСА-ГУРВИЦА И СМЕЖНЫЕ ВОПРОСЫ § 1. Введение В гл. XII, § 2 мы выяснили, что, согласно теореме Ляпунова, нулевое решение системы дифференциальных уравнений п -j]: = ^aikxk + (**) (г = 1,...,п) (1) к=1 [dik (г,к = 1,2,...,п) — постоянные коэффициенты] при любых членах (**) второго порядка и выше относительно xi,X2,...,xn является устойчивым, если все характеристические числа матрицы А = Ца^Цу, т. е. все корни векового уравнения Д(А) = |А.Е — А\ = О, имеют отрицательные вещественные части. Поэтому задача установления необходимых и достаточных условий, при которых все корни данного алгебраического уравнения расположены в левой полуплоскости, имеет фундаментальное значение в ряде прикладных областей, в которых исследуется устойчивость механических и электрических систем. Важность этой алгебраической задачи была ясна основоположникам теории регулирования машин, английскому физику Д. К. Максвеллу и русскому инженеру-исследователю И. А. Вышнеградскому, которые в своих работах, посвященных регуляторам, установили и широко использовали упомянутые алгебраические условия для уравнений не выше третьей степени1). В 1868 г. Максвелл выдвинул математическую задачу об отыскании соответствующих условий для алгебраического уравнения любой степени. Между тем эта задача по существу была решена в опубликованной в 1856 г. работе французского математика Эрмита [195]. В этой работе была установлена тесная связь между числом корней комплексного многочлена f(z), расположенных внутри какой-либо полуплоскости (или даже внутри какого-либо прямоугольника), и сигнатурой некоторой квадратичной формы. Однако результаты Эрмита не были доведены до такого состояния, чтобы они могли быть использованы специалистами, работающими в прикладных областях. Поэтому эта работа Эрмита и не получила соответствующего распространения. В 1875 г. английский механик Раус [60,а], пользуясь теоремой Штурма и теорией индексов Коши, установил алгоритм для определения числа к корней вещественного многочлена, расположенных в правой полуплоскости (Rez> 0). В частном случае А: = 0 этот алгоритм и дает критерий устойчивости. В конце XIX века крупнейший словацкий инженер-исследователь, создатель теории паровых и газовых турбин, А. Стодола, не зная работы Рауса, снова поставил задачу об отыскании условий того, чтобы все корни алгебраического уравнения имели отрицательные вещественные части, и в 1895 г. А. Гурвиц [196], опира- 1) Максвелл Д.К. О регуляторах (1868); Вышнеградский И.А. О регуляторах прямого действия (1876). Эти работы опубликованы в книге "Теория автоматического регулирования" (М.: Изд. АН СССР, 1949); см. там же статью: Андронов А.А., Вознесенский И. Н. О работах Д. К. Максвелла, И. А. Вышнеградского и А. Стодолы в области теории регулирования машин.
446 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы ясь на работы Эрмита, дает второе (не зависящее от результатов Рауса) решение той же задачи. Полученные Гурвицем детерминантные неравенства известны в настоящее время под названием условий Рауса-Гурвица. Однако еще до появления в свет работы Гурвица основатель современной теории устойчивости А. М. Ляпунов в своей знаменитой диссертации (Общая задача об устойчивости движения. — Харьков, 1892) установил2) теорему, из которой вытекают необходимые и достаточные условия для того, чтобы все корни характеристического уравнения вещественной матрицы А = Ца^Цу имели отрицательные вещественные части. Эти условия используются в ряде работ по теории регулирования3). Новый критерий устойчивости был установлен в 1914 г. французскими математиками Льенаром и Шипаром [208]. Используя специальные квадратичные формы, эти авторы получили критерий устойчивости, имеющий некоторые преимущества перед критерием Рауса-Гурвица (число детерминантных неравенств в критерии Льенара-Шипара примерно вдвое меньше, нежели в критерии Рауса-Гурвица). Знаменитые русские математики П. Л. Чебышев и А. А. Марков установили две замечательные теоремы в связи с разложением в ряды непрерывных дробей специального типа. Эти теоремы, как будет показано в § 16, имеют непосредственное отношение к проблеме Рауса-Гурвица. В очерченном круге вопросов, как увидит читатель, находят существенное применение теория квадратичных форм (гл. X) и, в частности, теория ганкелевых форм (гл. X, § 10). § 2. Индексы Коши Начнем с рассмотрения так называемых индексов Коши4). Определение 1. Индексом Коши вещественной рациональной функции R(x) в пределах от а до Ъ (обозначение I^R(x); а, Ь — вещественные числа либо ±оо) будем называть разность между числом разрывов R{x) с переходом от — оо к +оо и числом разрывов с переходом от +оо к — оо при изменении аргумента от а к б5). Согласно этому определению, если B(*) = £^+*i(*), f—* X — СХг г=1 где А{, ai (i = 1,2, ...,р) — вещественные числа, a Ri(x) — рациональная функция, не имеющая вещественных полюсов6), то I±£R(x) = J2*S*Ai7) (2) г=1 2) См. [22, § 20]. 3) См., например, [73]. 4) См. [10, с. 419-425]. 5) При подсчете числа разрывов крайние значения х — пределы а и Ь — не включаются. 6) Полюсами рациональной функции являются те значения аргумента, при которых эта функция обращается в бесконечность. 7) Под sign а (а — вещественное число) мы понимаем +1, —1 или 0 в зависимости от выполнения условий а > 0, а < 0 или а = 0.
§2. Индексы Коши 447 и вообще IbaR(x)= У] sign A{ (a<b). (2') a<ai<b В частности, если f{x) = ао(х — ai)ni...(x — ат)Пт — вещественный многочлен (щ ф ak при г ф к\ i,k = 1,2, ...,m) и среди корней «1,0:2, •••,«m этого многочлена только первые р вещественны, то /Or) *-^x-aj *-^х-щ v ' j=l i=l где Ri(x) — вещественная рациональная функция, не имеющая вещественных полюсов. Поэтому индекс , равен числу различных вещественных корней многочлена f(x), находящихся внутри интервала (а, Ь). Произвольная вещественная рациональная функция R(x) всегда представима в виде « . * Г А(г) л(г) Л i=l v ' где все а и А — вещественные числа (Ащ ф 0; г = 1,2,...,р) и Ri(x) не имеет вещественных полюсов. Тогда (пг нечетно) и вообще IbaR(x)= J2 s[ZnA% («<Ь)8)- (3') / а<ац<Ь \ \ /г» нечетно J Если i?(a) = R(b) = 0, то индекс I^R{x) выражается через приращение непрерывной функции arctgR(x): IbaR(x) = -Аьаarctg Д(я) (a < b)9). (4) Один из методов вычисления индекса I^R(x) основан на классической теореме Штурма. Рассмотрим ряд вещественных многочленов Л(»), /2(ж), .-, /т(я), (5) обладающий двумя свойствами по отношению к интервалу (а, Ь)10). 1°. При любом значении х (а < х < 6), обращающем в нуль какую-либо из функций fk(x), две смежные функции fk-i(x) и fk+i(x) имеют значения, 8) В (3) сумма распространяется на все те значения г, для которых соответствующее щ нечетно. В (3') сумма распространяется на все те г, для которых щ нечетно и а < <щ <Ь. 9) Если а = — со, а 6 = +со, то формула (4) справедлива для любой правильной рациональной дроби R(x), прскольку в этом случае R(—со) = Я(+со) = 0. 10) При этом а может равняться —со, a b может равняться +со.
448 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы отличные от нуля и разных знаков, т. е. из fk{x) = 0 при а < х < Ъ следует fk-i(x)fk+1(x) <0. 2°. Последняя функция fm(x) в ряду (5) не обращается в нуль внутри (а, 6), т. е. fm(x) ф О при а <х <Ъ. Такой ряд (4) многочленов называется рядом Штурма в интервале (а, Ь). Обозначим через V(x) число перемен знака в ряду (5) при фиксированном значении х п). Тогда при изменении х от а до Ь величина V(x) может измениться лишь при переходе через нуль какой-либо из функций ряда (5). Но в силу 1° при переходе через нуль функции fk{x) (к = 2,..., т — 1) величина V(х) не изменяется. При переходе же через нуль функции fi(x) теряется или приобретается одна перемена знака в ряду (5) в зависимости от того, переходит при этом отношение f2(x)/fi(x) от —оо к +оо или наоборот. Поэтому имеет место Теорема 1 (Штурма). Если fi(x), /2(х),..., fm(x) — ряд Штурма в (а,6), а V(х) — число перемен знака в этом ряду, то It fg = V{a) - V(b). (6) Примечание. Умножим все члены ряда Штурма на один и тот же произвольный многочлен d(x). Полученный таким образом ряд многочленов назовем обобщенным рядом Штурма. Так как умножение всех членов ряда (5) на один и тот же многочлен не меняет ни левой, ни правой части равенства (6), то теорема Штурма сохраняет свою силу и для обобщенного ряда Штурма. Заметим, что если даны два произвольных многочлена f(x) и д(х) [степень f(x) меньше или равна степени д(х)], то при помощи алгоритма Евклида всегда можно построить обобщенный ряд Штурма, который начинался бы с функций fi(x) = /(ж), f2(x) = д(х). Действительно, обозначая через —/з(#) остаток от деления fi(x) на f2(x)y через —/4(х) — остаток от деления /2^) на /з(#) и т. д., будем иметь цепочку тождеств Л (ж) = qi(x)f2(x) - /з(ж), ..., fk-i(x) = = qk-i(x)fk(x) - fk+i(x), ..., fm-i(x) = qm-i(x)fm(x), (7) где последний не равный тождественно нулю остаток fm(x) является наибольшим общим делителем f{x) и д(х), а также наибольшим общим делителем всех функций построенного таким образом ряда (5). Если fm(x) ф 0 (а < х < 6), то полученный ряд (5) в силу (7) удовлетворяет условим 1°, 2° и является рядом Штурма. Если же многочлен fm(x) имеет корни внутри интервала (а, 6), то ряд (5) является обобщенным рядом Штурма, поскольку он становится рядом Штурма после деления всех его членов на fm(x). Из сказанного следует, что индекс любой рациональной функции R(x) может быть определен при помощи теоремы Штурма. Для этого достаточно представить R(x) в виде Q(x) + g(x)/f(x), где Q(x), f(x), g(x) — многочлены и степень д{х) меньше или равна степени f(x). Тогда если построить обобщенный ряд Штурма для /(ж), д(х), то IbaR(x) = Ibaj^ = V(a)-V(b). п) Если а < х < Ь и f\(x) ф 0, то в силу 1° при определении V(х) нулевые значения в ряду (4) можно опустить либо этим значениям можно приписать произвольные знаки. Если а конечно, то под V(а) следует понимать V(а + в), где е — столь малое положительное число, что в полуоткрытом интервале (а,а + е] ни одна из функций fi(x) (i = 1,2,..., m) не обращается в нуль. Точно так же, если Ь конечно, то под V(b) следует понимать V(Ь — б), где число е определяется аналогично.
§3. Алгоритм Рауса 449 При помощи теоремы Штурма можно определить число различных вещественных корней многочлена f(x) внутри интервала (а, 6), поскольку это число, как мы видели, равно I^f'(x)/f(x). § 3. Алгоритм Рауса 1. Задача Рауса состоит в определении числа к корней вещественного многочлена f(z), расположенных в правой полуплоскости (Rez > 0). Рассмотрим сначала случай, когда f(z) не имеет нулей на мнимой оси. В правой полуплоскости построим полуокружность радиуса R с центром в нуле и рассмотрим область, ограниченную этой полуокружностью и отрезком мнимой оси (рис. 9). При достаточно большом R все к нулей многочлена f(z) с положительными вещественными частями будут находиться внутри этой области. Поэтому aigf(z) при положительном обходе контура области получит приращение 2ктг12). С другой стороны, приращение aigf(z) вдоль полуокружности радиуса R при R —> оо определяется приращением аргумента старшего члена a§zn и потому равно птг. Поэтому для приращения aigf(z) вдоль мнимой оси (R —> оо) получаем выражение A±~arg/(ta;) = (n-2k)7r. (8) Введем не совсем обычные обозначения для коэффициентов многочлена f(z). Пусть f(z) = a0zn + boz71-1 + axzn~2 + Mn"3 + ... (a0 ф 0). Тогда, замечая, что приращение Aarg/(ia;) в формуле (8) не изменится, если многочлен f(z) умножить на произвольное комплексное число, положим Рис.9 ж/М = ЛМ-*/2И, (9) где (10) Ми) = а0ип - сци;п-2 + а3и>п-4 - ..., /2(w) = бо^"1 - hun-s + Ьъип-Ъ - ... Следуя Раусу, воспользуемся индексом Коши. Из формул (4) и (9) находим Поэтому из формулы (8) следует, что12) j+oo боа;71"1 - Ь^п~3 + ... аоа;" ■ a\ujn ; + ... = п-2к. (И) 2. Для определения индекса, стоящего в левой части равенства (11), используем теорему Штурма (см. предыдущий параграф). Исходя из функций /i(u>) 12) В самом деле, если f(z) = ао 7г (z — г»), то A arg f(z) = V^ A arg(^ — z%). Если точка г=1 ■ ' г=1 Zi находится внутри рассматриваемой области, то Aarg(z — z%) = 27г; если z% находится вне этой области, то Aarg(z — z%) = 0. 13) Напомним, что формула (10) выведена в предположении, что многочлен f(z) не имеет корней на мнимой оси. 15 Ф.Р. Гантмахер
450 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы и ЛИ» определяемых равенствами (10), построим, следуя Раусу, при помощи алгоритма Евклида обобщенный ряд Штурма (см. с. 448) ЛИ, ЛИ, ЛИ, ..., ЛпИ- (12) Рассмотрим теперь регулярный случай: га = п + 1. В этом случае в ряду (12) степень каждой функции на единицу меньше степени предыдущей, и последняя функция /тИ имеет нулевую степень13). Из алгоритма Евклида [см. (7)] следует, что /зИ = ^ w/2(w) - /i(w) = cow"'2 - Clo>"-4 + с2шп~в - ..., 00 где .. (13) Точн где ао 1 boai — aob\ с0 = ai - — 61 = , ci = a2 - bo bo 0 так же /4(w) = - u>h(w) - /2H = d0cjn CO , , bo Л co&i - 60C1 , , «o = Oi Ci = , di = 02 - со со Q>o 1 bod2 — ao&2 г°2 = —h bo bo —3 j . ,n—5 _i_ 60 Co 62 — 6oC2 — c2 = , со со (13') Аналогично определяются коэффициенты остальных многочленов ЛИ, ••• ..♦, /n+lH- При этом каждый из многочленов ЛИ, ЛИ, ..., /n+iH (14) является четной или нечетной функцией, причем степени смежных многочленов всегда имеют разную четность. Составим схему Рауса: ao, ai, a2, ..., bo, h, &2, ..., со, ci, c2, ..., (15) do, d\, cfe, .. •, В этой схеме, как показывают формулы (13), (13'), каждая строка определяется из двух предыдущих по следующему правилу. Из чисел верхней строки вычитаются соответствующие числа нижней, предварительно умноженные на такое число, чтобы первая разность обращалась в 9 нуль. Отбрасывая эту нулевую разность, получаем искомую строку. » Регулярный случай, очевидно, характеризуется тем, что при последовательном применении этого правила мы в ряду bo, Co, do, ... не встречаем числа, равного нулю, и этот ряд состоит из п + 1 чисел. На рис. 10 и рис. 11 показан скелет регулярной схемы Рауса при п четном (п = 6) и п нечетном (п = 7). Здесь элементы схемы отмечены точками. В регулярном случае многочлены ДИ Рис. 10 Рис. 11 13) В регулярном случае ряд (12) является обычным (необобщенным) рядом Штурма.
§3. Алгоритм Рауса 451 и /2^) имеют наибольший общий делитель fn+i(uo) = const / 0. Поэтому эти многочлены не обращаются одновременно в нуль, т. е. /(га;) = fi(u) — if2^) Ф Ф 0 при ш вещественном. Поэтому в регулярном случае имеет место формула (11). Применяя к левой части этой формулы теорему Штурма в интервале (—оо, +оо) и используя при этом ряд (14), получаем согласно (11) В данном случае14) Отсюда У (-оо) - У(+оо) =п-2к. (16) F(+oo) =V(ao,bo,co,do,...), VX-oo) = V(a0, -b0, со, -do,...). У(-оо) + F(+oo) = п. (17) Из равенств (16) и (17) находим к = VXao,fco»co,do,...). (18) Для регулярного случая нами доказана Теорема 2 (Рауса). Число корней вещественного многочлена f(z), лежащих в правой полуплоскости Rez > О, равно числу перемен знака в первом столбце схемы Рауса. 3. Рассмотрим важный частный случай, когда все корни f(z) имеют отрицательные вещественные части ("случай устойчивости"). В этом случае многочлен f(z) не имеет чисто мнимых корней, и потому имеет место формула (11), а следовательно, и формула (16). Поскольку к = О, формула (16) перепишется так: У (-оо) - У(+оо) = п. (19) Но 0 ^ V(—00) ^m-ЦпиО^ У(+оо) ^ т — 1 ^ п. Поэтому равенство (19) возможно лишь тогда, когда т = п + 1 (регулярный случай) и У(+оо) = О, V(—00) = т — 1 = п. Тогда из формулы (18) следует Критерий Рауса. Для того чтобы все корни вещественного многочлена f(z) имели отрицательные вещественные части, необходимо и достаточно, чтобы при выполнении алгоритма Рауса все элементы первого столбца схемы Рауса получались отличными от нуля и одного знака. 4. При установлении теоремы Рауса мы опирались на формулу (11). В дальнейшем нам понадобится обобщение этой формулы. Формула (11) была выведена в предположении, что многочлен f(z) не имеет корней на мнимой оси. Мы покажем, что в общем случае, когда многочлен f(z) = aozn + 6o^n_1 + aizn~2 + ... (a ф 0) имеет к корней в правой полуплоскости и s корней на мнимой оси, формула (11) заменяется формулой В самом деле, f(z) = d(z)f*(z), 14) Знак fk (ш) при ш = +оо совпадает со знаком старшего коэффициента, а при ш = — оо отличается от этого знака множителем (_)n_fc+1 (fc = i?2, ...,n + 1). 15*
452 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где вещественный многочлен d(z) = zs + ... имеет s корней на мнимой оси, а многочлен f*{z) степени п* = п — s таких корней не имеет. Пусть Тогда £ /М = ЛИ - »/2и, t1^--)/*м = /ГЫ - г/2*Ы- /i(w) - %hИ = ^ d(iw)[/i (H - *Л*Ml- Поскольку — d(iw) — вещественный многочлен относительно ш, то ЛИ /Г И" К многочлену /*(г) применима формула (11). Поэтому что и требовалось доказать15). § 4. Особые случаи. Примеры 1. В предыдущем параграфе мы разобрали регулярный случай, когда при заполнении схемы Рауса ни одно из чисел 60,Оь do,... не оказывается равным нулю. Переходим теперь к рассмотрению особых случаев, когда в ряду чисел 6о, со,... мы встречаемся с числом ho = 0. Алгоритм Рауса останавливается на той строке, где находится ho, так как для получения чисел следующей строки нужно делить на ho. Особые случаи могут быть двух типов. 1) В той же строке, где находится ho, имеются числа, не равные нулю. Это означает, что в каком-то месте ряда (12) произошло понижение степени больше чем на единицу. 2) Одновременно все числа строки, содержащей ho, оказываются равными нулю. Тогда эта строка является (т + 1)-й, где т — число членов в обобщенном ряду Штурма (5). В этом случае в ряду (12) степени функций все время понижаются на единицу, но степень последней функции fm(u>) больше нуля. В обоих случаях в ряду (12) число функций т < п + 1. Поскольку обычный алгоритм Рауса в особых случаях приостанавливается, Раус дает специальные правила для продолжения схемы в случаях 1), 2). 2. В случае 1) следует, по Раусу, вместо ho = 0 подставить "малую" величину в определенного (но произвольного) знака и продолжать заполнение схемы. При этом последующие элементы первого столбца схемы будут рациональными функциями величины е. Знаки этих элементов определяем исходя из "малости" и знака е. Если же какой-либо из этих элементов окажется тождественным нулем относительно е, то мы этот элемент заменим другой малой величиной г\ и продолжим алгоритм. Пример. /(z) = z4 + z3 + 2z2 + 2z + l. 15) Обращаем внимание читателя на интересное обобщение критерия Рауса, содержащееся в работе Фаэдо [176]. Здесь устанавливаются достаточные условия того, что корни всех многочленов f{z) = aozn + a\zn~l + ... + ап с коэффициентами ai, меняющимися в заданных интервалах а{ ^ а» ^ а* (г = 0,1, ...,щ а^ < 0), одновременно все имеют отрицательные вещественные части.
§4- Особые случаи. Примеры 453 Схема Рауса (с малым параметром е). 1 2 1 1 2 6 г k = V(l,l,e,2-l/e,l) = 2. 2-1/s 1 Обоснование этого своеобразного метода варьирования элементов схемы заключается в следующем. Поскольку мы предполагаем отсутствие особенностей второго типа, то функции fi(u) и /2(0;) взаимно просты. Отсюда следует, что многочлен f(z) не имеет корней на мнимой оси. В схеме Рауса все элементы выражаются рационально через элементы первых двух строк, т. е. через коэффициенты данного многочлена. Но нетрудно усмотреть из формул (13), (13') и аналогичных формул для последующих строк, что, задавшись произвольными значениями для элементов двух любых подряд идущих строк схемы Рауса и для первых элементов предыдущих строк, мы можем целым рациональным образом выразить через эти элементы все числа, стоящие в первых двух строках, т. е. коэффициенты исходного многочлена Так, например, все числа а, Ъ можно представить в виде целых рациональных функций величин ась bo, со, ..., ho, hi, h2, ..., до, <7ь #2, ••• Поэтому, заменяя ho = О на е, мы фактически видоизменяем наш исходный многочлен. Вместо схемы для f(z) мы имеем схему Рауса для многочлена F(z,e), где F(z,e) — целая рациональная функция величин z и е, обращающаяся в f(z) при е = 0. Так как корни многочлена F(z,e) непрерывно меняются с изменением параметра е и при е = 0 нет корней на мнимой оси, то при малых по модулю значениях е число к корней в правой полуплоскости у многочленов F(z,e) и F(z, 0) = f(z) одинаково. 3. Переходим к рассмотрению особенностей второго типа. Пусть в схеме Рауса «о /0, Ьоф 0, ..., е0 /0, h0 = 0, hi =0, h2 = 0, ... В этом случае в обобщенном ряду Штурма (16) последний многочлен имеет вид f Л Л 0 . ,n—m+1 п—т—1 . Jm\u) — еош — eiu + ... Раус предлагает заменить нулевое /m+i(u;) на 1'т(ш), т. е. вместо нулевых ho,hi,... записать соответственно коэффициенты (п — т + 1)ео, (п — т — l)ei, и продолжать алгоритм. Обоснование этого правила заключается в следующем. Согласно формуле (20) г+оо /2И _ _ 2и _ s корней многочлена f(z) на мнимой оси совпадают с вещественными корнями многочлена fm(u;). Поэтому если эти вещественные корни простые, то (см. с. 447) т+оо fm(u) _
454 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы и, следовательно, г+оо /г(ц) , т+оо /т(^) _ п _ oh -°°/iH+ -°°fm(u;)-n Z*' Эта формула показывает, что недостающую часть схемы Рауса следует заполнить схемой Рауса для многочленов jm{uS) и fm{u)- Коэффициенты многочлена f'm(w) и используются для замены элементов нулевой строки в схеме Рауса. Если же корни /т(о;) не простые, то, обозначая через d(uj) наибольший общий делитель fm(u;) и $'т(ш), через е(и) наибольший общий делитель d(co) и d'(<jj) и т. д., мы будем иметь г+оо f'{u) j+oo d'(w) ,+00 е'(ш) 00 /И "°° d(u>) -°° e(o;) *" Таким образом, искомое число /г можно получить, если недостающую часть схемы Рауса дополнить схемами Рауса для fm(uj) и /^(с*;), d(o;) и d'(u;), e(u;) и е'(а;) и т. д., т. е. несколько раз применять правило Рауса для ликвидации z8 - 2z7 + z6 + 3z5 + z4 - 2z3 - z2 + z + 1. 1 -1 1 2 1 2 1 4 1 2 fc = V(l,l,l,2,-l,l,l,2,-l,l,l) = 4. Примечание. Не изменяя знаков элементов первого столбца, можно все элементы какой-либо строки умножить на одно и то же число. Это замечание было использовано при построении схемы. 4. Применение обоих правил Рауса не дает возможности во всех случаях определить число к. Применение первого правила (введение малых параметров е,гу,...) обосновано лишь в том случае, когда многочлен f(z) не имеет корней на мнимой оси. Если многочлен f(z) имеет корни на мнимой оси, то при варьировании параметра е некоторые из этих корней могут перейти в правую полуплоскость и изменить число к. Пример. f(z) = z6 + z5 + Sz4 + Sz3 + Sz2 + 22 + 1. особенностей 2- Пример. № Схема. to10 ш9 UJ8 «'{ w6 ш5{ «'{ us{ и2 1 1 1 8 ■ 2 -1 3 1 2 1 4 2 -1 ■го типа. = z10 -1 -2 -2 -12 -3 3 -3 -1 -2 -1 -2 -1 2 + 2! 1 3 3 12 3 -3 3 1 2 1 0J°{
§5. Теорема Ляпунова 455 Схема. и« си* со4 и3 и2 UJ UJ0 1 1 е 3-1/е 1 2s-1 3-1/е и 1 3 3 1 2-1/г 1 3 2 1 2-1--^Г = — Х 1 ' 3-1/е / Г 4 при е > О, V(l,l,e,3-l/e,l,-e,l) = {2n^e<0; Вопрос, чему равно &, остается открытым. В общем случае, когда f(z) имеет корни на мнимой оси, следует поступать следующим образом. Полагая f(z) = Fi(z) + F2(z), где F^z) = a0zn + axzn~2 + ..., F2(z) = boz*1'1 + bxzn~3 + ..., следует найти наибольший общий делитель d(z) многочленов F\{z) и F2(z). Тогда f(z) = d(z)f*(z). Если f(z) имеет корень z, для которого — z снова является корнем (этим свойством обладают и все корни на мнимой оси), то из f(z) = 0 и f(—z) = О следует F\(z) = О и F2(z) = О, т. е. z является корнем d(z). Поэтому многочлен f*(z) не имеет корней z, для которых —z является корнем f*(z)16). Тогда к = ki +k2, где к\ и к2 — числа корней в правой полуплоскости многочленов f*(z) и d(z); k\ определяется по алгоритму Рауса, а к2 = (q — s) /2, где q — степень d(z), as — число вещественных корней многочлена d(iuj)17). В последнем примере ф) = z2 + 1, f*(z) = z4 + z3 + 2z2 + 2z + 1. Поэтому (см. пример на с. 452) здесь к2 = О, к\ = 2, и, следовательно, к = 2. § 5. Теорема Ляпунова Из исследований А. М. Ляпунова, опубликованных в 1892 г. в его монографии "Общая задача об устойчивости движения", вытекает теорема18), дающая необходимые и достаточные условия для того, чтобы все корни характеристического уравнения |А.Е — А\ = О вещественной матрицы А = Ца^Ц? имели отрицательные вещественные части. Поскольку любой многочлен /(А) = а^Х71 + aiAn_1 + ... ... + ап (ао ф 0) может быть представлен в виде характеристического определите- 16) При определении многочлена d(z) можно исходить не из функций F\(z) и Fi(z), а из введенных ранее (с. 449) функций f\(z) и fi(z). (Подробнее об этом см сноску 33) на с. 466.) 17) d(iw) — вещественный многочлен или становится таковым после сокращения на г. Число вещественных корней его можно определить при помощи теоремы Штурма. 18) См. [22, §20].
456 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы ля |А.Е — А\19), то теорема Ляпунова носит общий характер и относится к любому алгебраическому уравнению /(А) = 0. Пусть дана вещественная матрица А = ||at*||? и однородный многочлен га-го измерения относительно переменных xi,X2,...,xn V(x,x,...,x) [х = (Ж1,ж2,...,жп)]. Найдем полную производную по t функции V(x,x, ...,ж) в предположении, что х — решение дифференциальной системы dx/dt = Ах. Тогда — V(x, х,..., х) = V(Ax, х,..., х) + V(x, Ах,..., х) + ... + V(x, x,..., Ах) = = W(x,x,...,x), (21) где W(x,x,...,x) — снова однородный многочлен m-го измерения относительно #i,#2, •••>хп- Равенство (21) определяет линейный оператор А, относящий каждому однородному многочлену V(x,x,...,x) га-го измерения некоторый однородный многочлен W(x,x,...,x) того же измерения га: W = A{V). Мы ограничимся случаем га = 220). В этом случае V(х,х) и W(x,x) — квадратичные формы от переменных xi,X2,...,xn, связанные равенством jt V(x,x) = V(Ax,x) + V(x, Ax) = W(x,x), (22) откуда21) W = A(V) = A'V + VA. (23) Здесь V = \\vik\\i и W = \\wik\\i — симметрические матрицы, составленные соответственно из коэффициентов форм V(ж, х) и W(x,x). Линейный оператор А в пространстве симметрических матриц n-го порядка V целиком определяется заданием матрицы А = Цо^Ц". Если Ai, A2,..., Ап — характеристические числа матрицы А, то каждое характеристическое число оператора А представляется в виде А; + А& (1 $С i ^ к ^ п). Действительно, пусть Uk — собственный вектор-столбец матрицы А', соответствующий характеристическому числу А&, т. е. Auk = Хк^к (Цк Ф 0), и пусть Vik = щи'к. Тогда Avik = А!щи'к + щи'кА = (А'щ)ик + щ(А'ии)' = = (\i + \к)щи'к = (\i + \k)vik (i,k = l,...,n). (23') 19) Для этого достаточно, например, положить 0 0 ... 0 —ап/а>о А = 1 0 0 —an-i/ao 0 0 ... 1 — ai/ao 20) А. М. Ляпунов установил свою теорему (см. ниже теорему 3) при любом целом и южительном га. 21) Поскольку V(x,y) = x'Vy.
§5. Теорема Ляпунова 457 Если все величины (А; + \и) (г, к = 1, ...,п) различны, то из равенств (23') следует, что эти величины образуют полную систему характеристических чисел оператора А. Общий случай, когда среди сумм А; + \к имеются равные, получается из рассмотренного случая с помощью соображений непрерывности. Из доказанного предложения следует, что оператор А является невырожденным, матрица А = Ца^Цу не имеет нулевых и двух противоположных характеристических чисел. В этом случае задание матрицы W однозначно определяет матрицы V в (23). Таким образом, если матрица А = Ца^Ц" не имеет нулевых и двух противоположных характеристических чисел, то каждой квадратичной форме W(x,x) отвечает одна и только одна квадратичная форма V(x,x), связанная с W(x,x) равенством (22). Теперь сформулируем теорему Ляпунова. Теорема 3 (Ляпунова). Если все характеристические числа вещественной матрицы А = \\аце\\Т имеют отрицательные вещественные части, то любой отрицательно определенной квадратичной форме W(x,x) отвечает положительно определенная квадратичная форма V(x,x), связанная с формой W(x,x) в силу уравнения ж = А* (24) равенством ±V(x,x)=W(x,x). (25) Обратно, если для некоторой отрицательно определенной формы W(x,x) существует положительно определенная форма V(х, х), связанная с W(x,x) равенством (25) в силу уравнения (24), то все характеристические числа матрицы А= | la^Hy имеют отрицательные вещественные части. Доказательство. 1. Пусть все характеристические числа матрицы А имеют отрицательные вещественные части. Тогда для любого решения х = емхо системы (24) имеет lim x = О22). Пусть формы V(x,x) и W(x,x) связаны фор- t—Ц-оо мулой (25) и W(x,x) < О (х ф О)23). Допустим, что при некотором xq ф О V0 = V(x0,x0) ^0. Но — V(x,x) = W(x,x) < 0 (х = eAtxo). Поэтому при t > 0 величина V(x,x) отрицательна и убывает при t —> +оо, что противоречит равенству lira V(x,x) = t—*+oo = lim V(x,x) = 0. Следовательно, V(x,x) > 0 при x ф 0, т. е. V(х, х) — положи- тельно определенная квадратичная форма. 2. Пусть, обратно, дано, что в равенстве (25) W(x,x)<0, V(x,x)>0 (хфО). Из (25) следует t V(x, x) = V(x0,x0) + [W(x, x) dt (х = емх0). (25') 22) См. гл. V, § 6. 23) Форма W(x,x) задана произвольно. Форма V(х, х) однозначно определяется из условия (25), поскольку в данном случае матрица А не имеет нулевых и двух противоположных характеристических чисел.
458 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Докажем, что при произвольном хо ф 0 столбец х = емхо как угодно близко подходит к нулю при некоторых сколь угодно больших значениях t > 0. Допустим противное. Тогда существует число v > 0 такое, что W(x,x) < -v < 0 (x = eAtx0, х0 ф 0, t > 0). Но тогда из (25') V(ж, х) < У(#(ь#о) — vt, и, следовательно, при некоторых достаточно больших значениях t справедливо неравенство V(х, х) < 0, что противоречит условию. Из доказанного следует, что при некоторых достаточно больших значениях t величина V(x,x) (x = eAtxo, хо ф 0) будет как угодно близка к нулю. Но V(x,x) монотонно убывает при t > 0, поскольку —V(x,x) = W(x,x) < 0. Поэтому lim V(x,x) =0. t—teo Отсюда вытекает, что при любом хо ф 0 имеет место равенство lim eAtxo = = 0, т. е. lim eAt = 0. Это возможно лишь тогда, когда все характеристичес- t—»-+оо кие числа матрицы А имеют отрицательные вещественные части (см. гл. V, § 6). Теорема доказана полностью. В качестве формы W(x,x) в теореме Ляпунова можно взять любую отри- п цательно определенную форму и, в частности, форму — 2_\х^' ^ этом случае г=1 теорема допускает следующую матричную формулировку. Теорема 3'. Для того чтобы все характеристические числа вещественной матрицы А = Ца^Цу имели отрицательные вещественные части, необходимо и достаточно, чтобы матричное уравнение A'V -h VA = -Е (26) имело в качестве решения V матрицу коэффициентов некоторой положительно определенной квадратичной формы V(ж, х) > 0. Из доказанной теоремы вытекает критерий для определения устойчивости нелинейной системы по ее линейному приближению24). Пусть требуется доказать асимптотическую устойчивость нулевого решения нелинейной системы дифференциальных уравнений (1) (с. 399) в том случае, когда коэффициенты а^ (i,k = l,2,...,n) в линейных членах правых частей уравнений образуют матрицу А = ЦА^Ц", имеющую только характеристические числа с отрицательными вещественными частями. Тогда, определяя положительно определенную форму V(ж, х) при помощи матричного уравнения (26) и вычисляя ее полную производную по времени в предположении, что х = (xi,X2,—,xn) — решение системы (1), будем иметь — V(x,x) = -^ж2+#0г1,ж2,...,жп), г=1 где R(xi,X2,...,xn) — ряд, содержащий члены третьего и более высоких измерений относительно х±,Х2, ...,хп. Поэтому в некоторой достаточно малой окрестности точки (0,0, ...,0) для любого х ф 0 одновременно V{x,x) >0, jjVfax) <0. 4) См. [22, § 26; 38, с. 113 и далее; 23, с. 66 и далее].
§6. Теорема Рауса-Гурвица 459 Согласно общему критерию устойчивости Ляпунова25) это и означает асимптотическую устойчивость нулевого решения системы дифференциальных уравнений. Если из матричного уравнения (26) выразить элементы матрицы V через элементы матрицы А и полученные выражения подставить в неравенства «п > О, vn «21 «12 «22 >о, «И «21 «12 «22 «In «2п «nl «п2 >о, то мы получим неравенства, которым должны удовлетворять элементы матрицы А = \\aik\\i Для того5 чтобы все характеристические числа матрицы имели- отрицательные вещественные части. Однако в значительно более простом виде эти неравенства могут быть получены из критерия Рауса-Гурвица, которому посвящается следующий параграф. Примечание. Теорема Ляпунова (3) или (3') непосредственно обобщается на случай произвольной комплексной матрицы А = На^Н?- В этом случае квадратичные формы V(x,x) и W(x,x) заменяются эрмитовыми п п V(x,x) = ^ VikXiXk, W(x,x) = ^ WikXiXk- г,&=1 i,k=l В соответствии с этим матричное уравнение (26) заменится уравнением A*V + VA = -E (A*=A'). §6. Теорема Рауса-Гурвица В предыдущих параграфах был изложен непревзойденный по своей простоте метод Рауса для определения числа А: корней в правой полуплоскости вещественного многочлена, коэффициенты которого заданы как конкретные числа. Если же коэффициенты многочлена зависят от параметров и требуется определить, при каких значениях параметров число к будет иметь то или другое значение и, в частности, значение 0 (область устойчивости) 26), то желательно иметь конкретные выражения для величин co,do,... через коэффициенты данного многочлена. Разрешив эту задачу, мы получим метод определения числа к и, в частности, критерий устойчивости в том виде, в каком он был установлен Гурвицем [196]. Рассмотрим снова многочлен /(*) = a0zn + bo*""1 + axzn-2 + Mn"3 + ... (a0 ф 0). Назовем матрицей Гурвица квадратную матрицу n-го порядка Ьп-1 0"п-1 Ьп-2 0>п-2 Ьп-3 при А; > Н = ( dk = 0 при А: > b0 &i «0 «1 0 6о 0 а0 0 0 ►Г?1; &2 •• 02 . . h .. Oi .. bo •• ьк = о (27) m)- 25) Cm. [22, § 16; 38, с 19-21, 31-33; 23, с. 32-34]. 26) Так именно и обстоит дело при проектировании новых механических или электрических систем регулирования.
460 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Преобразуем эту матрицу, вычитая из второй, четвертой, и т. д. строки соответственно первую, третью, и т. д. строки, предварительно умноженные на ао/bo27). Получим матрицу bo 0 0 0 0 h со bo 0 0 b2 • Cl • h . со . b0 . • bn-i • Cn-2 • Ьп-2 • cn_3 • Ьп-з Здесь co,ci,... — третья строка схемы Рауса, дополненная нулями (си = 0 при к > [п/2] - 1). Полученную матрицу снова преобразуем, вычитая из третьей, пятой и т. д. строки соответственно вторую, четвертую и т. д. строки, предварительно умноженные на bo/cq: bo 0 0 0 0 0 h со 0 0 0 0 b2 Cl do со 0 0 b3 ... c2 ... di ... Ci ... do ... Cq ... Продолжая этот процесс далее, мы придем в конце концов к треугольной матрице п-го порядка R = bo h b2 0 со ci 0 0 d0 которую назовем матрицей Рауса. Она получается из схемы Рауса [см. (15)]: 1) отбрасыванием первой строки; 2) сдвигом строк вправо так, чтобы их первые элементы пришлись на главную диагональ; 3) пополнением нулями до квадратной матрицы п-го порядка. Определение 2. Две матрицы А = Ца^Цу и В = \\bik\\i назовем равносильными в том и только том случае, когда при любом р^пв первых р строках этих матриц соответствующие миноры р-го порядка равны между собой: а(} 2 - Л=в{1 2 - Л \г1 г2 ••• W \ii г2 ... ipJ (гьг2,...,гр = 1,2,...,п; р= 1,2,...,п). Так как при вычитании из какой-либо строки матрицы какой-либо предыдущей строки, умноженной предварительно на произвольное число, миноры р-го порядка в первых р строках (р = 1,2,..., п) не меняют своей величины, то, согласно определению 2, матрицы Гурвица и Рауса Н и R равносильны: Я . Г '" Г = R \ll %2 ... IpJ (г1,г2,...,гр = 1,2, ...,гг; 2 «2 (28) р= 1,2,...,п). ) Сначала рассматривается регулярный случай, когда bo ф 0, со Ф 0, do Ф 0, ...
§6. Теорема Рауса-Гурвица 461 Равносильность матриц Я и R позволяет выразить все элементы матрицы R, т. е. элементы схемы Рауса, через миноры матрицы Гурвица Я и, следовательно, через коэффициенты данного многочлена. Действительно, давая р в (28) последовательно значения 1,2,3,..., получим #(})=6о, н(^=Ъи #(з)=&2, ... Н ( 1 2)=Ь°СОу Н\1 з)=&оСь Н ( 1 4J=b°C2' '••' J = 60со^о, ^ ( 1 2 4)=&оСо^ь ^ ( 1 2 5 ) = &оС°^2 Я 1 2 3 1 2 3 Отсюда находим следующие выражения для элементов схемы Рауса: (29) &о = Я со = d0 '0 0 . -00 -0)' ' ь2 = н н я 12 3 1 2 3 di = с2 1 2 1 4 •(О (30) 1 2 3 2 4 —, «2 — 7 ч я (1 0 ' -0 0 ' -0 0 Последовательные главные миноры матрицы Я обычно называются определителями Гурвица. Мы их будем обозначать через &о h Ai =H = Ьо А2=Я АП = Я ао ai &0 ао 0 0 h ах bo а0 • • Ьп-1 .. an_i . • Ьп-2 • • «п-2 (31) Замечание 1. Согласно формулам (29) Ai = &о, А2 = 60с0, Аз = 60c0rfo, ...28). (32) Из Ai ф 0,..., Ар ф 0 следует, что первые р из числа &о5со5... отличны от нуля и наоборот; в этом случае определены р подряд идущих строк схемы Рауса, начиная с третьей, и для них имеют место формулы (30). Замечание 2. Регулярный случай (все &о,Со,... имеют смысл и не равны нулю) характеризуется неравенствами Ах/О, Д2#0, ..., Д„#0. 28) Если коэффициенты многочлена f(z) заданы численно, то формулы (32) дают наиболее простой способ вычисления определителей Гурвица, сводя это вычисление к составлению схемы Рауса.
462 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Замечание 3. Определение элементов схемы Рауса при помощи формул (30) является более общим, нежели определение при помощи алгоритма Рауса. Так, например, если &о = Н I , I = О, то алгоритм Рауса нам не дает ничего, кроме первых двух строк, составленных из коэффициентов данного многочлена. Однако, если при Ai = 0 остальные определители А2,А3,... отличны от нуля, мы при помощи формул (30), минуя строку из с, можем определить все последующие строки схемы Рауса. Согласно формулам (32) А2 , Аз Ьо = Дь с0 = ^, d0 = A2 и потому V(ao,bo,co,...)=v(ao, А, ^, ..., ^) = V(a0, Аь Д3,...) + V(l, A2, А4,...). Поэтому теорема Рауса может быть сформулирована так. Теорема 4 (Рауса-Гурвица). Число к корней вещественного многочлена f(z) = aozn + ..., расположенных в правой полуплоскости, определяется формулой *=v(eo,Al'£'£•■•••£;)• (33) или, что то же, к = V(а0, Аь Аз,...) + V(l, A2, A4,...). (33') Примечание. Приведенная формулировка теоремы Рауса-Гурвица предполагает, что имеет место регулярный случай Ах/0, А2#0, ..., Ап#0. В § 8 мы покажем, как пользоваться этой формулой в особых случаях, когда некоторые из определителей Гурвица А; равны нулю. Рассмотрим теперь тот частный случай, когда все корни многочлена f(z) расположены в левой полуплоскости Rez < 0. В этом случае, согласно критерию Рауса, все ao,bo,co,do,... должны быть отличны от нуля и одного знака. Так как здесь мы имеем дело с регулярным случаем, то получаем из (33) при А: = 0 следующий критерий. Теорема 5 (критерий Рауса-Гурвица). Для того чтобы у вещественного многочлена f(z) = a§zn + ...+ (ао ф 0) все корни имели отрицательные вещественные части, необходимо и достаточно, чтобы имели место неравенства апАп > 0 (при п нечетном), а0Ах>0, А2>0, а0А3>0, А4 > 0, ..., Л П Ап > 0 (при п четном). (34) Примечание. Если ао > 0, то эти условия записываются так: Ai > 0, А2 > 0, ..., Ап > 0. (35) Если принять обычные обозначения для коэффициентов многочлена f(z) = = aozn + a\zn~l + a\zn~2 + ... + an-\z + an, то при ао > 0 условия Payca-Гурви-
§6. Теорема Рауса-Гурвица 463 ца (35) записываются в виде следующих детерминантных неравенств: oi >0, ао аз CL2 >0, ах а0 0 аз «2 а\ аъ CL4 аз >о, а\ ао 0 0 аз U2 а\ ао а5 . а± а3 . а2 . .. 0 .. 0 .. 0 .. 0 а. >0. (35') Вещественный многочлен f(z) = aozn + ..., коэффициенты которого удовлетворяют условиям (34), т. е. вещественный многочлен, у которого все корни имеют отрицательные вещественные части, обычно называют многочленом Гурвица. Отметим два замечательных свойства схемы Рауса. 1. Обозначим элементы (р+1)-й строки схемы Рауса через apo,api,aP2i •••; тогда apj = (p,j = 0,1,...). Здесь Д! (р) v "О ::: J) определитель Гурвица, а Ар3' = Н I . "' _ i + • ) ПРИ 3 ^ 1 — "побочный" определитель Гурвица р-го порядка. Между элементами схемы Рауса имеет место основная зависимость [см. формулы (13), (13') на с. 450]. а„ СХрО Лр+1,0 ap+ij + ap+2,j-i (pj = 0,1,...; аы = 0, если к> п либо j < 0). Элементы любой р-й строки схемы Рауса получаются из элементов двух последующих строк с помощью двух операций — умножения на отношение apo/ap+i,o и сложения. Поэтому (в регулярном случае) элементы произвольной р-й строки схемы Рауса могут быть выражены с помощью операций сложения и умножения через элементы последних двух строк an_i,o и ап$ и через от- &р0 Qn-2,0 отношения Лр+1,0 1,0 и представлены в виде _ <ppj (аро, ap+i ,о,..., ост) Лр+1,0 ... OinO (р, j = 0,l,...), (36) где (pPj (apo,«p+i,05 •••>ano) — многочлены с целыми положительными коэффициентами. С помощью формул (36) все элементы схемы Рауса и, в частности (при р = = 0,1), коэффициенты исходного многочлена f(z) рационально выражаются (и притом с положительными коэффициентами) через элементы первого столбца схемы Рауса. Если выполняется критерий Рауса, т. е все элементы первого столбца схемы Рауса положительны, то из формулы (36) непосредственно следует, что в этом случае все элементы схемы Рауса и, в частности, коэффициенты основного многочлена положительны. Заметим еще, что, заменяя в формулах (36) величины aPj на отношения Ар 3' /Ар-\, можно рационально (с положительными коэффициентами) выразить побочные определители Гурвица Ар>' через основные. 2. Пусть /0,/i,... и go,gi,... — (га + 1)-я и (га + 2)-я строки схемы /о = 9о = Дтта+1 А Ащ J '
464 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Так как эти две строки вместе с последующими образуют самостоятельную схему Рауса, то элементы (т+р+ 1)-й строки (в первоначальной схеме) выражаются через элементы (т + 1)-й и (га + 2)-й строк /о,/i,... и go,0i,... no тем же формулам, по каким элемент (р+1)-й строки выражается через элементы первых двух строк ao,ai,... i/ 60,61,..., т. е., полагая Н = 9о /о 0 0 91 Л 9о /о 92 ... /2 ... 9i ... л ... будем иметь Лт+р Дга+р-1 Д, :и) U =р,р + 1,...). (37) р—1 Определитель Гурвица Ат+Р равен произведению первых т + р чисел в ряду Ьо,с0,...: Ат+Р = &oQ) ... fo9o ... fo- Но Ат = босо ... /о, Ар = 0о -. k- Поэтому имеет место следующее важное соотношение: Aw+p = AmAp29). (38) Формула (38) имеет место всегда, если только определены числа /о? /i ? • • • и 0о,0ь.», т. е. при условии Am_i ф 0, Ат ф 0. Формулы (37) имеют смысл, если дополнительно к условиям Am_i ф 0, Ат ф 0 выполняется и условие Am+P_i 7^ 0. Из этого условия уже следует, что и знаменатель дроби, стоящей в правой части равенства (37), не равен нулю: Ap_i ф 0. § 7. Формула Орландо При рассмотрении случаев, когда некоторые из определителей Гурвица равны нулю, нам понадобится следующая формула Орландо [221], выражающая определитель An_i через старший коэффициент ао и корни zi,Z2,...,zn многочлена/^)30): 1...П Д„_! = (-l)^"-1'/^^-1 П (* + **)• (39) i<k При п = 2 эта формула сводится к известной формуле для коэффициента bo в квадратном уравнении a^z1 + boz + a\ = 0: Ai = 60 = -00(21 +^2). Допустим теперь, что формула (39) справедлива для многочлена n-й степени f(z) = aozn + &o2n_1 + ..., и покажем, что она справедлива для многочлена (п + 1)-й степени F(z) = (z + h)f(z) = a0zn+l + (60 + ha0)zn + (аг + hbo)zn~1 + ... (Л = -zn+l). 29) Здесь Ap — минор р-го порядка, стоящий в левом верхнем углу матрицы Н. 30) При этом коэффициентами многочлена f(z) могут быть произвольные комплексные числа.
§8. Особые случаи в теореме Рауса-Гурвица 465 b0 bi 0 b0 0 а0 0 0 b„-i hn a„_! -ft""1 bn-2 hn~2 a„_2 -hn~3 ... (-1)" Для этого составим вспомогательный определитель (п + 1)-го порядка: D (ак=0 при ^>[f]; h=0 при ^>[^— ])• Умножим первую строку D на ao и прибавим к ней вторую, умноженную на — bo, третью, умноженную на а±, четвертую, умноженную на —Ь\, и т. д. Тогда все элементы первой строки, кроме последнего, обратятся в нуль, а последний элемент будет равен f(h). Отсюда легко заключаем, что D = (-l)nAn^f(h). С другой стороны, прибавляя к каждой (кроме последней) строке определителя D последующую, умноженную на h, мы получим умноженный на (—1)п определитель Гурвица А* n-го порядка для многочлена F(z): D = (-1)п bo + hao a0 0 0 &i + ha\ a\ + hbo ... &o + ha0 • • • ao = (-1)"A^ Таким образом, A; = An_i/(ft) = a0An_i Y[(h - Zi). Заменяя здесь An_i на его выражение из (39) и полагая h = —zn+i, получаем 1...П+1 д„ = (-i)n(n+1)/2< П (*+**)• г<к Таким образом, методом математической индукции установлена справедливость формулы Орландо для многочлена любой степени. Из формулу Орландо следует, что An_i = 0 тогда и только тогда, когда сумма двух корней многочлена f(z) равна нулю31). Так как An = cAn_i, где с — свободный член многочлена f(z) (с = (—l)nao x xziZ2 ... zn), то из (39) следует Ап = (-1)Л<Л+1>/2а£*1*2 .- zn Д (zi + zk). i<k (40) Последняя формула показывает, что Ап обращается в нуль тогда и только тогда, когда у f(z) существует такой корень z, что и —z является корнем. 31) В частности, An_i = 0, когда f(z) имеет хотя бы одну пару сопряженных чисто мнимых корней или кратный нулевой корень.
466 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы § 8. Особые случаи в теореме Рауса-Гурвица При рассмотрении особых случаев, когда некоторые из определителей Гурви- ца равна нулю, мы можем предполагать, что Ап ф О (и, следовательно, An-i ф 0). Действительно, если Ап = 0, то, как было выяснено в конце предыдущего параграфа, вещественный многочлен f(z) имеет такой корень z', для которого —z' также является корнем f(z). Если положить f(z) = F\(z) + F2(z), где Fx(z) = a0zn + alZn-1 + ..., F2(z) = 60^n_1 + Mn_1 + ..., то из равенства f(z') = f(-z') = 0 можно заключить, что Fi(z') = F2(z') = 0. Следовательно, z' будет корнем наибольшего общего делителя d(z) многочленов F\ (z) и F2(z). Полагая f(z) = d(z)f*(z), мы сведем задачу Рауса-Гурвица для f(z) к такой же задаче для многочлена f*(z), для которого уже последний определитель Гурвица отличен от нуля32). 1. Рассмотрим сначала тот случай, когда Дх = ... = Ар = 0, Из Ai = 0 следует 60 = 0; из А2 = тогда автоматически 0 &i ..., Ап#0. (41) = — ao&i = 0 вытекает Ь\ = 0. Но А3 = Из 0 h do a\ 0 0 а2 = -аоЪ( = 0. А4 = о о ь2 ъ3 ао а\ а2 а3 0 0 0 Ь2 0 ао d\ cl2 = -alb\ = 0 следует Ь2 = 0, а тогда А5 = —а^Щ = 0 и т. д. Приведенные рассуждения показывают, что в (41) всегда р — нечетное число: p = 2h-l. При этом Ь0 = h = b2 = ... = 6^-1 =0, bh ф 0 и 33) Ар+1 = A2h = {-l)h^^ah0bl Ар+2 = Д2Л+1 = (-ljMfc+D/^aJbjJ+i = Др+16,. (42) 32) В случае, когда Ап = An-i = ... = Ат+1 = 0, Ат ф 0, Am_i ф 0, ... Ai ф 0, можно в явном виде записать уравнение d{z) = 0. Действительно, функции F\(z) и F2{z) связаны с функциями f\(u) и /2(0;) [см. формулу (9) на с. 449] соотношениями Fx{z) = infi(-iz), F2(z) = in~lf2{-iz). Поэтому уравнение d(z) = 0 совпадает с уравнением fm+i(—iz) = 0, где многочлен /m+i(c^) — наибольший общий делитель многочленов fi(z) и /2(2) определяется последней строкой схемы Рауса. Следовательно, в силу формул (31) уравнение d(z) = 0 может быть записано в виде [(п-т)/2\ J2 A{™+j)zn-m-2j = 0, где А. (m+j) н(\ •• т~\ m Л О'= 0,1,...) VI ... т-\ т + j J KJ ' ' ' побочные определители Гурвица. 33) Из (42) следует, что при h нечетном signAp+2 = (—l)^+1^2signao, а при h четном signAp+1 = (-l)'1/2.
§8. Особые случаи в теореме Рауса-Гурвица 467 Варьируем, т. е. изменим немного, коэффициенты bo,bi,...,bh-i так, чтобы при новых варьированных значениях 6q, 6^, .♦.,^_1 все определители Гурвица AJ, AJ,..., А* стали отличными от нуля и чтобы при этом определители А*+1,... ...,А* сохранили свои прежние знаки. Мы будем считать &<$,&*,...,Ь£+1 "малыми" величинами разных порядков "малости", а именно, примем, что каждое К_1 по абсолютной величине "значительно" меньше № (j = 1,2,...,/г; b^ = bh). Последнее означает, что при вычислении знака целого алгебраического выражения относительно 6* мы можем пренебрегать членами, в которых некоторые 6* имеют индекс < j по сравнению с членами, где все Щ имеют индекс ^ j. После этого мы легко найдем "знакоопределяющие" члены в Д|, Ag,..., AJ (р = 2h — l)34): A{=bQ, А^ = -а0Ь{ + ..., Ад = -а0Ь{ + ..., А4 = -а^Щ + ..., A* = -a*&f+ ..., А*=а*6*3 + ... и т. д.; вообще Д$, - (-1)^+1)/2а^ + ... (j = 1,2,..., h - 1), (43) ДW = (-i)^'+1)/V0&*j+1 +... О" = о, 1,.-, h -1). Выберем 6q, 6J,..., 62/1—1 положительными; тогда знаки А* определятся из формулы . sign Д* = (-iy(i+i)/2 signal (i=[i], i = l,2,...,p). (44) При любом малом варьировании коэффициентов многочлена число к остается неизменным, поскольку многочлен f(z) не имеет корней на мнимой оси. Поэтому, исходя из (44), определяем число корней в правой полуплоскости по формуле '-"(-■д:- ft ■-Ф£)+"(& ■■■■£:)■ (45) Элементарный подсчет, проведенный на основании формул (42) и (44), показывает, что . ч , „/ д. А2* Ар+1 Ap+2\_l-(-l)he Vlao, Al5 —, ..., ——, —— -Л+- А*' ' А* ' AP+1J 2 (4б) (р = 2h - 1, е = sign (a0 Ap+2/Ap+i)). Заметим, что величина, стоящая в левой части равенства (46), не зависит от способа варьирования коэффициентов и при любых малых варьированиях сохраняет одно и то же значение. Это следует из формулы (45), поскольку А: не меняет своего значения при малом варьировании коэффициентов. 2. Пусть теперь при 5 > О As+1 = ... = As+P = 0, (47) а все остальные определители Гурвица отличны от нуля. Обозначим через ao,ai,... и 6o,6i,... элементы (s + 1)-й и (s + 2)-й строки в схеме Рауса (ao = As/As_i, 60 = As+i/AsJ. Соответствующие определители Гурвица обозначим через Ai, А2,..., An_s. По формуле (38) (с. 464) As+i = AsAi, ..., As+P = ASAP, As+p+i = AsAp+i, As+p+2 = AsAp+2. (48) 34) По существу аналогичные члены уже были вычислены выше для Ai, A2,..., Др.
468 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Отсюда на основании п. 1 следует, что р нечетное, т. е. р = 2h — I35). Варьируем коэффициенты f(z) так, чтобы все определители Гурвица стали отличными от нуля и чтобы те из них, которые до варьирования были отличны от нуля, сохранили свои знаки при варьировании. Тогда исходя из (48), поскольку к определителям А применима формула (46), получим As Ag+1 As+p+i As+p+2 \ _ , 1 - (-1) e As_i As ' A*+p ' As+p+i J 2 ,-»-!, ,.*.(£-^)), (49) '-"(»a -it)+v(^-*t ^)+"te--£r> Величина, стоящая в левой части (49), снова не зависит от способа варьирования. 3. Допустим теперь, что среди определителей Гурвица имеется v групп нулевых определителей. Докажем, что для каждой такой группы (47) величина, стоящая в левой части формулы (49), не зависит от способа варьирования и определяется этой формулой36). Это утверждение нами доказано в случае v = 1. Допустим, что это справедливо при наличии v — 1 групп, и докажем, что оно верно для v групп. Пусть (47) — вторая из v групп; определим определители Ai, А2,... так, как это было сделано в п. 2; тогда при варьировании А* А* \ / ~ А* — v «o>^i>—» YZ— a;_/ 'al_.. . •• 1 Поскольку в правой части этого равенства имеется только v — 1 групп нулевых определителей, то наше утверждение имеет место для правой и, следовательно, для левой частей равенства. Другими словами, формула (49) справедлива для второй и т. д., 1/-й групп нулевых определителей Гурвица. Но тогда из формулы *-"(«8.AJ.&-,£) следует, что величина V 1 Л s , /+1, л f+2,..., л s+p+2 ) не зависит от способа VA*-l A^ As+1 As+p+iy/ варьирования, и для первой группы нулевых определителей, а потому и для этой группы имеет место формула (49). Таким образом, нами доказано следующее дополнение к теореме Гаусса-Гур- вица. Теорема 4'. Если некоторые из определителей Гурвица равны нулю, но Ап ф 7^ 0, то число корней вещественного многочлена f(z) в правой полуплоскости определяется формулой в которой при подсчете величины V для каждой группы подряд идущих р нулевых определителей (р — всегда нечетное число) (Д,#0) As+1 = ... = As+P = О (As+p+1#0) 35) В соответствии со сноской 33) на с. 466 при р = 2h — 1 и h нечетном sign As+p+2 = = (-l)(/l+1)/2signAs_i, а при h четном signAs+p+i = (-l)^/2sign As. 36) Из (47) и неравенств As ф 0, As+p+i /Ов силу (48) и (42) вытекает As_i ф О, As+p+2 ф 0.
§ 9. Метод квадратичных форм. 469 следует положить v{-t-^-^)=h^-^¥1' (50) где х 7 р = 2Л-1 и е= sign ( AAs ^5+p+2 ) 37). § 9. Метод квадратичных форм. Определение числа различных вещественных корней многочлена Раус получил свой алгоритм, применяя теорему Штурма к вычислению индекса Коши правильной рациональной дроби специального типа [см. формулу (11) на с. 449]. У этой дроби из двух многочленов — числителя и знаменателя — один содержит только четные, а другой только нечетные степени аргумента z. В настоящем параграфе и в последующих параграфах мы изложим более глубокий и более перспективный метод квадратичных форм Эрмита в применении к проблеме Рауса-Гурвица. При помощи этого метода мы получим выражение для индекса произвольной рациональной дроби через коэффициенты числителя и знаменателя. Метод квадратичных форм позволяет применить к проблеме Рауса-Гурвица результаты тонких исследований Фробениуса по теории ганке- левых форм (гл. X, § 10) и установить тесную связь некоторых замечательных теорем П. Л. Чебышева и А. А. Маркова с задачей устойчивости. Мы познакомим читателя с методом квадратичных форм сначала на сравнительно простой задаче определения числа различных вещественных корней многочлена. При решении этой задачи мы можем ограничиться случаем, когда f(z) — вещественный многочлен. Действительно, пусть дан комплексный многочлен f(z) = = u(z) + iv(z) [u(z) и v(z) — вещественные многочлены]. Каждый вещественный корень многочлена f(z) обращает в нуль одновременно и u(z) и v(z). Поэтому комплексный многочлен f(z) имеет те же вещественные корни, что и вещественный многочлен d(z), являющийся наибольшим общим делителем многочленов u(z) и v(z). Итак, пусть f(z) — вещественный многочлен с различными корнями ai,a2,... ...,ag соответственно кратностей ni,7i2,...,ra9: f(z) = a0(z - ai)ni(* " ос2)П2... (z - aq)n* [o»#0; ахфак при гфк (г,к = 1,2, ...,#)]. Введем в рассмотрение суммы Ньютона Q sp = ^2njapj (p = 0,l,2,...). При помощи этих сумм составим ганкелеву форму п-1 Dn\X,X) = у ^ Si+kXiXk) г,к=0 где п — любое целое число ^ q. Тогда имеет место следующая зт) При s = l отношение As/As_i следует заменить на Ai, а при s = 0 — на ao.
470 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Теорема 6. Число всех различных корней многочлена f(z) равно рангу, а число всех различных вещественных корней равно сигнатуре формы Sn(x,x). Доказательство. Из определения формы Sn(x,х) непосредственно вытекает следующее ее представление: я Sn(x,x) = ^2ni(x° +OL3X1 + а2х2 + ... + a^_1a;n_i)2. (51) j=i Здесь каждому корню aj многочлена f(z) соответствует квадрат линейной формы Zj = хо + ctjXi + ... + a™~lxn-\ (j = 1,2, ...,g). Формы Zi,Z2, ...,Zq линейно независимы, так как коэффициенты этих линейных форм образуют матрицу Ван- дермонда ||а^||, ранг которой равен числу различных с^, т. е. q. Следовательно (см. с. 260), ранг г формы Sn(x,x) равен q. В представлении (51) каждому вещественному корню aj отвечает положительный квадрат. Каждой паре комплексно сопряженных корней aj и ~a~j отвечают две комплексно сопряженные формы Zj=Pj+iQj, Zj = Pj-iQj; соответствующие слагаемые в (51) в сумме дают один положительный и один отрицательный квадрат: niZ2j+jj~z) = 2rijPf - 2njQ2j. Отсюда легко усмотреть38), что сигнатура формы Sn(x,x) т. е. разность между числом положительных и числом отрицательных квадратов, равна числу различных вещественных aj. Теорема доказана. Из доказанной теоремы вытекает, что все формы Sn(x,x) (n = q,q + l,...) имеют один и тот же ранг и одну и ту же сигнатуру. Применяя теорему б к определению числа различных вещественных корней, возьмем в качестве п степень многочлена f(z). Используя установленное в гл. X (с. 267) правило определения сигнатуры квадратичной формы, получаем Следствие. Число различных вещественных корней вещественного многочлена f(z) равно избытку числа постоянств знака над числом перемен знака в ряду чисел so, So Si si s2 So Si ... Sr Si S2 • ♦ • $r S2r где sp (p = 0,1,2,...) — суммы Ньютона для многочлена f(z), a r — ранг ганке- п-1 левой формы Sn(x,x) = 2Z SikXiXk [n — степень многочлена f(z)]. i,k=0 Сформулированное таким образом правило для определения числа различных вещественных корней непосредственно применимо лишь в случае, когда все числа в ряду (52) отличны от нуля. Однако поскольку здесь речь идет о вычислении сигнатуры ганкелевой квадратичной формы, то на основе результатов гл. X, § 10 это правило с надлежащими уточнениями применяется в самом общем случае (более подробно об этом см. § 11 этой главы). 38) Квадратичная форма Sn(x,x) представлена в виде суммы (алгебраической) q квадратов вещественных форм Zj (для вещественных Aj), Pj и Qj (для комплексных А^). Эти формы независимы, так как число q равняется рангу г формы Sn(x,x).
§10. Бесконечные ганкелевы матрицы конечного ранга 471 Число различных вещественных корней вещественного многочлена f(z) равно индексу 1±™ ^-гу (см. с. 447). Поэтому следствие теоремы б дает нам формулу T\z) I* r-2V\l, so, 50 Si Si S2 so Si Si S2 o*p — ]_ Ь|» S2r-2 В § 11 мы установим аналогичную формулу для индекса произвольной рациональной дроби. Необходимые для этого сведения о бесконечных ганкелевых матрицах будут даны в следующем параграфе. § 10. Бесконечные ганкелевы матрицы конечного ранга 1. Пусть дана последовательность комплексных чисел SO, «1, 82, .♦. Эта последовательность чисел определяет бесконечную симметрическую матрицу S = so si s2 Si 52 53 52 5з 54 которую называют обычно ганкелевой. Наряду с бесконечными ганкелевыми матрицами рассматриваются конечные ганкелевы матрицы Sn = ||si+fc||o_1 и связанные с ними ганкелевы формы Ьп[Х,Х) — у j Si-\-k%i%k* г,к=0 Последовательные главные миноры матрицы S будем обозначать через Di, D2, D3, ...: Dp = \si+k\l~l (p=l,2,...). Бесконечные матрицы могут быть конечного и бесконечного ранга. В последнем случае в этих матрицах существуют отличные от нуля миноры сколь угодно большого порядка. Следующая теорема дает необходимое и достаточное условие, которому должна удовлетворять последовательность чисел so,si,S2j— Для того, чтобы порождаемая ею бесконечная ганкелева матрица S = ||si+fe||o° имела конечный ранг. Теорема 7. Бесконечная матрица S = ||si-Hfe|lo° имеет конечный ранг г тогда и только тогда, когда существует г чисел а±,а2, ...,аг таких, что (53) SQ=Ys a9SQ-9 (q = T,r + l, ...), 9=1 и г есть наименьшее число, обладающее этим свойством. Доказательство. Если матрица S = ||si+fe||o° имеет конечный ранг г, то первые г + 1 строк Гх,Г2, ...,Гг+1 этой матрицы линейно зависимы. Поэтому существует число h ^ г такое, что строки 14,Г2, .,Гд линейно независимы, а строка Th+i есть линейная комбинация этих строк: h Г/н-1 = у]адГь-д+1. 9=1
472 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Рассмотрим строки Гд+1,Гд+2, ...,1^+^+1, где q — любое целое неотрицательное число. Из структуры матрицы S непосредственно видно, что строки Гд+i, Гд+2, ---iFq+h+i получаются из строк Гх,Г2, ...,1^+1 "укорочением", отбрасыванием элементов, стоящих в первых q столбцах. Поэтому h Гд+fc+l = /J agTq+h-g+l (q = 0, 1, 2, ...). 9=1 Таким образом, в матрице S любая строка, начиная с (h + 1)-й, выражается линейно через h предыдущих и, следовательно, выражается линейно через h линейно независимых первых строк. Отсюда следует, что для матрицы S h ранг г = /г39). Линейная зависимость Tq+h+i = 2Za9^q+h-g+i после замены h на г в более подробной записи дает (53). 9~ Обратно, если выполняется условие (53), то в матрице S любая строка (столбец) является линейной комбинацией первых г строк (столбцов). Поэтому все миноры матрицы 5, порядок которых > г, равны нулю, и матрица S имеет конечный ранг $С г. Но этот ранг не может быть < г, так как тогда, как было уже показано, имели бы место соотношения вида (53) при меньшем значении г, а это противоречит условию 2). Таким образом, теорема доказана полностью. Следствие. Если бесконечная ганкелева матрица S = ||$г+*||о° имеет конечный ранг г, то л А- = |*+*1о~ #0. Действительно, из соотношений (53) следует, что любая строка (столбец) матрицы S есть линейная комбинация первых г строк (столбцов). Поэтому любой минор г-го порядка матрицы S может быть представлен в виде aDr, где а — некоторое число. Отсюда следует неравенство Dr ф 0. Примечание. Для конечных ганкелевых матриц ранга г неравенство Бгф0 может не иметь места. Так, например, матрица #2 = ° М при so = «si = 0, II Sl S2 II $2 ф 0 имеет ранг 1, в то время как D\ = sq = 0. 2. Выясним замечательные взаимные связи между бесконечными ганкелевы- ми матрицами и рациональными функциями. Пусть дана правильная рациональная дробная функция h(z) = a0zm + ... + am (оо ф 0), g(z) = М™"1 + 62*w~2 + ... + bm. Запишем разложение R(z) в степенной ряд по отрицательным степеням z: ед = |М = £° + £1 + £| + ... h(z) z z2 z3 Если все полюсы функции R(z), т. е. все значения z, при которых R(z) обращается в бесконечность, лежат в круге \z\ ^ а, то ряд, стоящий в правой части разложения, сходится при \z\ > а. Обе части последнего равенства умножим на знаменатель h(z): (a0zm + axzm~x + ... + am) (^ + g + J + ...) = М™-1 + b2zm~2 + ... + bm. 39) Положение "число линейно независимых строк в прямоугольной матрице равно рангу этой матрицы" справедливо не только для конечных, но и для бесконечных строк.
§11. Определение индекса произвольной рациональной дроби 473 Приравнивая между собой коэффициенты при одинаковых степенях z в обеих частях этого тождества, получим следующую систему соотношений: a0so = 61, aosi + aiso = 62, (54) Полагая aoSm-i + aiSm-2 + ••• + am-iSo = bm, a0sq + aisq-i + ... + amsq-m = 0 (q = m,m + l,...). (54') a9 = ~<T~ (# = l,2,...,m), мы можем записать соотношения (54х) в виде (53) (при г = т). Следовательно, согласно теореме 7 построенная при помощи коэффициентов so>si,S2,... бесконечная ганкелева матрица 5 = 11***118° имеет конечный ранг (^ га). Обратно, если матрица S = Ц^+^Цо0 имеет конечный ранг г, то имеют место соотношения (53), которые могут быть переписаны в виде (54х) (при га = г). Тогда, определяя числа 6i, 62,..., 6m равенствами (54), будем иметь разложение b\zm~x +... + Ът _ ££ i £1 . (54") Наименьшая степень знаменателя га, при которой имеет место это разложение, совпадает с наименьшим числом га, при котором имеют место соотношения (53). По теореме 7 это наименьшее значение га равно рангу матрицы S = = I|e«+*II8°- При этом значении га рациональная дробь, стоящая в левой части равенства (54"), является несократимой. Таким образом, нами доказана Теорема 8. Матрица S = ||зг+*||о° имеет конечный ранг в том и только том случае, когда сумма ряда ад = £» + £!+ £§ + ... Z Z1 Z6 есть рациональная функция переменной z. В этом случае ранг матрицы S совпадает с числом полюсов функции R(z), считая каждый полюс столько раз, какова его кратность. § 11. Определение индекса произвольной рациональной дроби через коэффициенты числители и знаменателя 1. Пусть дана произвольная рациональная функция. Запишем ее разложение в ряд по нисходящим степеням z40): R(z) = s-u-lZu + ... + s-2z + 8-г + ^ + J + ... (55) Последовательность коэффициентов при отрицательных степенях z SO, Si, 52, .- 40) Ряд (55) сходится вне любого круга (с центром в точке z = 0), содержащего все полюсы функции R(z).
474 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы определяет бесконечную ганкелеву матрицу S = ||$г+*||о°- Таким образом, устанавливается соответствие R(z) ~ S. Очевидно, что двум рациональным функциям, разность между которыми есть целая функция, отвечает одна и та же матрица S. Однако не всякая матрица S = ||st+fe||o° соответствует рациональной функции. В предыдущем параграфе было установлено, что матрица S тогда и только тогда соответствует рациональной функции, когда эта бесконечная матрица имеет конечный ранг. Этот ранг равен числу полюсов (с учетом кратностей) функции R(z), т. е. равен степени знаменателя f(z) в несократимой дроби g(z)/f(z) = R(z). С помощью разложения (55) устанавливается взаимно однозначное соответствие между правильными рациональными функциями R(z) и ганкелевыми матрицами S = Ц^г+^Ио0 конечного ранга. Отметим некоторые свойства соответствия. 1°. Если Ri(z) ~ Si, #2(2) ~ #2, то ПРИ любых числах а, с2 ciRi(z) + c2R2(z) ~ ciSi + с2£2. В дальнейшем нам придется встретиться со случаем, когда коэффициенты числителя и знаменателя R(z) будут целыми рациональными функциями параметра а; тогда и R будет рациональной функцией z и а. Из разложения (54) следует, что в этом случае и числа so,si,S2,.—, т. е. элементы матрицы S, будут рационально зависеть от а. Дифференцируя по а почленно разложение (55), получим 2°. Если R(z,a)~S(a), то ^~|?41). да да 2. Запишем разложение R(z) на простейшие дроби: А Г AU) AU) A{j} (56) где Q(z) — многочлен, и покажем, как по числам а и А построить матрицу 5, соответствующую рациональной функции R(z). Для этого рассмотрим сначала простейшую рациональную дробь 1 _уа^ z-a 2-** zP+1' р=0 Ей отвечает матрица Sa = Hai+*IIS°. Соответствующая этой матрице форма San(x,x) имеет вид п-1 San(x,x) = ^ OLl+kXiXk = (Хо + <ХХ\ + ... + OLn~lXn-i)2. Если R(z) = Q(z) + Y, 9 А* z ■ 3=1 41)Если S=|l*+*llo°°, то g^lfeir оа || оа По
§11. Определение индекса произвольной рациональной дроби 475 то в силу 1° соответствующая матрица S определится по формуле j=i а соответствующие квадратичные формы имеют вид Q Sn(x,x) =^2AU)(x0 + oijXi + ... + а^Хп-х)2. i=i Для того чтобы перейти к общему случаю (56), мы предварительно h — 1 раз продифференцируем почленно соотношение -L-~5e = ||ai+*||§°. Согласно 1° и 2° получим42) 1 1 д ~ Sa _ \\fih-l i+k-h+l\\°° (Г!11-1 — (z-a)h ~ (Л-1)! da^"1 Н°<+* а о (С^=0 при t + fc<ft-l). Поэтому, пользуясь снова правилом 1°, в общем случае, когда для R(z) имеет место разложение (56), находим Выполняя дифференцирование, получим S = £ 4'Ц+* + ^^а?-*-1 + - + А$С%;1а?к-'>+1 3=1 (57') Соответствующая ганкелева форма Sn(x,x) = Y^ Si+kXiXk будет равна г,к=0 х(ж0 + aj-rci + ... + а^Хп-х)2. (57") 3. Теперь мы имеем возможность сформулировать и доказать основную теорему43). Теорема 9. Если R(z) ~ S 42) Здесь и ниже С% означает число сочетаний из d no h. 43) Эта теорема была доказана Эрмитом [195] в 1856 г. для простейшего случая, когда R(z) не имеет кратных полюсов. В общем случае эта теорема была доказана Гурвицем [196] (см. также [16, с. 17-19]). Приведенное в тексте доказательство отличается от доказательства Гурвица.
476 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы и т — ранг матрицы 544), то индекс Коши it^R(z) равен сигнатуре45) формы Sn(x,x) при любом n ^ га: I±£R(z)=<r[Sn(x,x)]. Доказательство. Пусть имеет место разложение (56). Тогда, согласно (57), где каждое слагаемое имеет вид Ta=(A1+A2^ + ... + J^A„^jSa, 5а = ||«*+*||8°, (58) и я Sn(x,x) = ^Taj(x,x) = Y1 Тч&х)+ 5Z [Тч(х,х)+Тъ(х,х)]. j=i «j вещ. а^компл. Согласно теореме 8 ранг матрицы Taj и, следовательно, ранг формы Taj(x,x) q равен i/j (j = l,2,...,g), а ранг Sn(x,x) равен га = Y^^j. Но если ранг суммы i=i нескольких вещественных квадратичных форм равен сумме рангов слагаемых форм, то такое же соотношение имеет место и для сигнатур: v[Sn(x,x)]= Y, <*[Tai(x,x)]+ Y, (r[Tai(x,x)+Tai(x,x)]. (59) olj вещ. ocj компл. Рассмотрим раздельно два случая. 1) а вещественно. При любой вариации параметров A\,A<i,...,Av-\ и а в — + т-^Ч; + - + УЧи (Л#о) (60) z — a (z - a)2 (z — а)и ранг соответствующей матрицы Та будет оставаться неизменным (= i/); следовательно, будет оставаться неизменной и сигнатура формы Та(х,х) (см. с. 272). Поэтому а[Та(х,х)] не изменится, если мы в (59) и (60) положим А\ = ... = Av-\ = 0 и а = 0, т. е. вместо Та возьмем матрицу 0 0 ... 0i 0 0... 0 .' .* . Av У У 0 .* 0 44) Как мы уже отмечали, га равно степени знаменателя в несократимом представлении рациональной дроби R(z) (см. теорему 8 на с. 473). 45) Сигнатуру формы Sn(x,x) будем обозначать через cr[Sn(x,x)]. 1 du~lS*
§11. Определение индекса произвольной рациональной дроби 477 Соответствующая квадратичная форма равна 2Аи(х0хи-1 + #1Ж„_2 + ... + xs-ixs) при v = 2s, А„[2(хох„-1 + ... + xs-2x$) + xl_±] при v = 2s - 1 2 1 _— .. «. , (5 = 1,2,3,...). Но сигнатура верхней формы всегда равна нулю, а сигнатура нижней формы равна signAu46). Таким образом, если а вещественно, то О при v четном. signA^ при v нечетном. (61) а[Та(х,х)] = {^ 2) а — комплексное число. Пусть V V Та(х,х) = Y,(pk+iQk)2, Та(х,х) = ^(Р* -iQk)\ k=i k=i где Pk,Qk (к = 1,2,..., v) — вещественные линейные формы переменных #о,#ъ — ...,жп_1. Тогда V V Ta(x,x)+Ta(x,x)=2Y,Pk-2Y,Ql (62) к=\ к=1 Так как ранг этой квадратичной формы равен 2i/, то Р&, Qk (к = 1,2,..., v) линейно независимы, и потому, согласно (62), при вещественном а <т[Та(х,х) +Та(х,х)] = 0. (63) Из (59), (61) и (63) вытекает a[Sn(x,x)]= ^2 sign^. / а, вещ. "\ ^ v нечетно ) Но на с. 447 было выяснено, что сумма, стоящая в правой части этого равенства, равна I±™R(z). Таким образом, теорема доказана. Из доказанной теоремы вытекает Следствие 1. Если R(z) ~ S = ||вг+*||о° и 7П — Ранг матрицы 5, то все п-1 квадратичные формы Sn(x,x) = У^ Si+k^iXk (n = т,тп + 1,...) имеют одну и ту же сигнатуру. ^к=0 В гл. X, § 10 (с. 296, 297) было установлено правило вычисления сигнатуры ганкелевой квадратичной формы, причем исследования Фробениуса дали возможность сформулировать правило с охватом всех особых случаев. Согласно доказанной теореме этим правилом можно пользоваться для вычисления индекса Коши. Таким образом, получаем Следствие 2. Индекс произвольной рациональной функции R(z), которой соответствует матрица S = ||st+fc||o° ранга т, определяется по формуле I±™R(z)=m-2V{l,DuD2,...,Drn), (64) 46) Каждое произведение xqxv-\-, х\хи-2, ••• можно заменить соответственно на раз- (Xq+Xv-i\2 (Xq-Xv-i\2 fXi+Xu-2\2 (X\-Xv-2\2 „ ности квадратов у ) - ^ ) , ^ ) - ^ ) , ... Все получающиеся при этом квадраты независимы.
478 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где Df = \si+k\f0~1 = so si si S2 S/-l Sf S2/-2 (/ = l,2,...,m); (65) если среди определителей D\,D2,...,Dm имеется группа подряд идущих определителей, равных нулю47), (Dh?0) Dh+1 = ... = Dh+P = О (Dfc+p+i^O), то при вычислении V(Dh,Dh+i,...,Dh+p+i) можно принять signl>fc+i = (-l)M-iy>'2fAgiiDh (j = 1,2,...,р), что дает {р + 1 £-—— при р нечетном, Р + 1-е / -,w2 • ^W+i -— тгрм р четном, е — (—l)p/z sign —рр-^- * (ее) Для того чтобы выразить индекс рациональной функции через коэффициенты числителя и знаменателя, нам понадобятся некоторые вспомогательные соотношения. Прежде всего всегда можно представить R(z) в виде48) Ж*) = «(*) + £$, где Q(z), g(z), h(z) — многочлены, причем h(z) = a0zm + aiz™-1 + ... + am (a0 ф 0), g(z) = b0zm + bxz m—l + bm. Очевидно, Пусть i±zm = zz$y 9{z) =s_ +££ + £]_ + _ h(z) z z2 Тогда, освобождаясь здесь от знаменателя и после этого приравнивая друг другу коэффициенты при одинаковых степенях z в левой и правой частях равенства, получаем a0s-i = bo, a0s0 + ais-i = bi, , . aoSm-i + a>iSm-2 + ... + amS-i = bm, a0st + aist-i + ... + amst-m =0 (t = m,m + 1,...). 47) При этом всегда Dm ф 0 (с. 472) и при р нечетном signDh+P+i/Dh = (—1)(р+1)/2 (с. 300). 48) У нас нет необходимости заменять R(z) правильной рациональной дробью. Для дальнейшего достаточно, чтобы степень g{z) не превосходила степени h{z).
§11. Определение индекса произвольной рациональной дроби 479 Пользуясь соотношениями (67), находим выражение для следующего определителя 2р-го порядка, в котором полагаем a,j = 0, bj = 0 при j > т: do a\ а>2 ... a2p-i 60 h b2 ... b2p-i О ao ai ... a2p-2 О Ьо h ... &2p-2 10 0. 5_i 5o Si . 0 10. 0 5_i So • .. 0 • • S2p-2 .. 0 • • S2p-3 = (-i)rtp-W<g Sp—i Sp Sp-2 Sp-l S2p-2 $2p-3 So Si ... Sp-i = ап Введем обозначение ao 0 0 0 2p 0 ai a2 .. a0 ai .. 0 a0 .. 0 0.. So Si si s2 Sp—l Sp . a2P-i • &2p-2 • а>2р-з . ao ... Sp-i . . . Sp ... s2p- = 2 = alPDp. (68) '2p ao ai ... a2P-i bo bi ... b2p-i 0 ao ... a2p-2 0 bo ... &2p-2 (p = 1,2,...; aj = bj = 0 при j > m). (69) Тогда формула (68) запишется так: \/2p = a20pDp (p=l,2,...). В силу этой формулы из следствия 2 на с. 477 выводится Теорема 10. Если V2m Ф О49), то , 6o*w + М™"1 + ... + Ья (680 itz a0zm + aiz™-1 + ... + am m-2y(l,V2,V4,...,V2m) (a0#0), (70) где V2p (p = 1,2, ...,m) определяется формулой (69); если яри этаж имеются подряд идущие нулевые определители (V2/,#0) V2/l+2 = ... = V2fc+2p = 0 (У2Л+2р+2#0), та в формуле (70) /г/ж подсчете V(V2/i, V2fc+2, •• .>V2/i+2p+2) следует положить signA2fc+2i = (-l)iW-1)/2signV2/i (j = 1,2,...,р), шш, что та та же50), " "*" х ггрг/ р нечетном, ^(V2/i,..., V2/1+2P+2) = \ Р + 1 — £ / -1 \ю/2 • ^2/l+2p+2 -— при р четном, е = (—l)p/z sign — F . 2 V2/i Замечание. Е'сли V2m = 0, т. е. дробь, стоящая под знаком индекса в формуле (70), сократима, то формулу (70) следует заменить формулой -1 —о. > ooz a0zm + ai*™"1 + ... + ат = r-2V(l,V2,V4,...,V2r), (700 49) Условие V2m # 0 означает, что Dm ф 0 и что, следовательно, дробь, стоящая в (70) под знаком индекса, несократима. 50) При р нечетном V2/i+2p+2/V2/i = signDh+p+i/Dh = (-1)р+1/2 (см. сноску 48) на с. 478).
480 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где г — число полюсов (с учетом кратностей) рациональной дроби, стоящей под знаком индекса (т. е. г — степень знаменателя после сокращения дроби). Здесь V2r ф 0. Действительно, если V2m = 0, то интересующий нас индекс равен r-2V(l,DuD2,...,Dr), так как число г является рангом соответствующей матрицы S = ||^+*||о°. Но равенство (68') имеет формальный характер и оно справедливо и для сократимой дроби51). Поэтому V(l,DuD2,...,Dr) = V(l,\72,\74,...,V2r), и мы приходим к формуле (7(У). Формула (7(У) дает возможность выразить индекс любой рациональной дроби, у которой степень числителя не превышает степени знаменателя, через коэффициенты числителя и знаменателя. § 12. Второе доказательство теоремы Рауса-Гурвица В § б мы доказали теорему Рауса-Гурвица, опираясь на теорему Штурма и алгоритм Рауса. В этом параграфе мы дадим доказательство теоремы Рауса- Гурвица, основанное на теореме 10 § 11 и на свойствах индексов Коши. Отметим некоторые свойства индексов Коши, которые нам понадобятся в дальнейшем. l°.IbaR(x) = -IgR(x)*2). 2°. I%Ri(x)R(x) = sigaRi(x)I^R(x), если R\(x) ф < внутри (а,6). 3°. Если а<с<Ь, то IhaR(x) = 1% R(x) + 1ЬС R{x) + ryc, где r\c = 0, если R(c) — конечная величина, и rjc = =Ы, если в точке с функция R(x) обращается в бесконечность; при этом rjc = +1 соответствует переходу в точке с от — оо к +оо (при возрастании х), а г\с = — 1 — переходу от +оо к —оо. 4°. Если R(-x) = -R(x), то I?_aR(x) = I§R(x). Если R(-x) = R(x), то I°_aR(x) = -ISR(x). 5°. /д R(x) + /д —— = b , где еа — знак R(x) внутри (а, b) вблизи а, еъ — знак R(x) внутри (а, Ь) вблизи Ь. Первые четыре свойства непосредственно следуют из определения индекса Коши (см. § 2). Свойство 5° вытекает из того, что сумма индексов I* R(x) + I* равна разности щ — п2, где щ — число перемен знака R(x) с переходом от отрицательных значений к положительным при изменении х от а до 6, а п2 — число перемен знака R(x) с переходом от положительных к отрицательным значениям. Рассмотрим вещественный многочлен53) f(z) = a0zn + axzn~x + a2zn~2 + ... + an-iz + an (a0 > 0). 51) Из равенства (68') следует, что значения V2p определяются рациональной дробью R(z) (точнее, ее правильной частью), а не числителем и знаменателем в отдельности. Поэтому при сокращении дроби g(z)/h(z) меняются элементы в каждом определителе V2p, а величина его остается неизменной. 52) Здесь и далее нижний предел при индексе может равняться —оо, а верхний предел может равняться +оо. 53) Здесь, мы в отличие от § 3, возвращаемся к обычным обозначениям для коэффициентов многочлена.
§12. Второе доказательство теоремы Рауса-Гурвица 481 Мы его можем представить в виде f(z) = h(z2) + zg(z2), где h(u) = ап + ап-2и + ..., g(u) = an_i + ап-3и + ... Введем обозначение л = 7"+°° * ~аз^ +... /71 ч ^ -°° а0^п - а2^"2 +... ' У J В § 3 мы показали [см. (20) на с. 446], что p = n-2k-s, (72) где А: — число корней многочлена f(z) с положительными вещественными частями, а s — число корней f(z), расположенных на мнимой оси. Преобразуем выражение (71) для р. Рассмотрим сначала случай четного п. Пусть п = 2т. Тогда h(u) = а0ит + а2ит~1 + ... + ап, д(и) = сци™'1 + а3ит~2 + ... + an_b Пользуясь свойствами 1°-4° и полагая г? = ±1, если соответственно lim ^7—г = J ' ' «-►-() h(u) = ±00, и 77 = 0 в остальных случаях, будем иметь г+оо ^(~^2) _ /гО . г+оо , ч _ _2т0 ^(~^2) _ -°°/i(-^2) ' °°лы М*0 °° Ци) ' г+оо РЫ г+оо ид(и) -°° Л(ге) °° Ци) ' Точно так же при п нечетном, п = 2т + 1, имеем Ци) = ахи171 + ази™'1 + ... + an, д(и) = а0ит + а2игп~1 + ... + on-i. Полагая С = sign найдем PW Л(г*) 54), если lim ^—^ = 0, и £ = 0 в остальных случаях, =-о и—>-оо /^Ifc ^ _ г+оо М"*") _ гО I г+оо ,/-_ 97-0 K~z~) , /• _ огО Мц) , /- _ р " 7-оо ^(Z^y " ^00 + А) + С - ^i-oo^zpy + С - Ji-oo^J) + С - гО М*0 _ го МгО .+ г+оо М*0 _ г+оо Мг*) "°° ш?(и) "°° р(и) ^ ^ "°° ш?(и) "°° <?« • Таким образом55), Л _ г+оо #М _ г+оо ид(и) ( _ 2 ч Г7уч Р - "°° Л(") "°° Л(") (П " 2mh [76 ] j+^h^ т+^Щ (n = 2m + l). (73") °°ид(и) д(и) 54) Здесь под sign [<7(гг)/Л(гг)]и=-о мы понимаем знак g(u)/h(u) при очень малом по абсолютной величине отрицательном и. 55 ) Если а\ ф О, то две формулы (73') и (73") можно объединить в одну формулу Г+ОО р = Ц~?р-+1+<£>^-. (73'") h{u) ug{u) 16 Ф.Р. Гантмахер
482 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы По-прежнему через Ai, A2,..., Ап будем обозначать определители Гурвица для данного многочлена f(z). Примем, что Ап /О56). 1) п = 2т. По формуле (70) 57) I±£^=m-2V(l,AuA3,...,An-1), (74) 1±™^=т- 2У(1, -А2, +А4, -А6,...) = -т + 2У(1, А2, А4,..., Дп). (75) Но тогда, согласно (73'), р = п- 21/(1, Аь Аз,..., Ап_х) - 21/(1, А2, А4,..., Ап), что в соединении с равенством р = п — 2к дает к = У(1, Аь А3,..., Ап_х) + У(1, А2, А4,..., Ап). (76) 2) п = 2т + 1. По формуле (70) 58) 7--5w=m + 1-2F(1'Al'A3'-'A^' (77) /+S ^у = т - 2^(1, -А2, +А4, -...) = -т + 2^(1, А2, А4,..., An_x). (78) Равенство р = 2т Л- \ — 2к вместе с равенствами (73"), (77) и (78) дает снова формулу (76). Теорема Рауса-Гурвица доказана (см. с. 462). Замечание 1. Если в формуле & = y(l,AbA3,...) + ni,A2,A4,...) некоторые промежуточные определители Гурвица равны нулю, то формула сохраняет силу и в этом случае, только в каждой группе подряд идущих нулевых определителей (А/ ф 0) А*+2 = А*+4 = ... = Az+2p = 0 (А*+2р+2 ф 0) следует приписать этим определителям (в соответствии с теоремой 7) знаки signAj+2j = (-l)^"1)/2 sign A, (i = 1,2,...,р), что дает ( Р+1 I —-— при р нечетном, Vr(Al,AH.2,...,Ai+2p+2) = < p + l-e . lW2 . А/+2р+2 I -— при р четном, е = (—l)p/z sign —ir^—- '(79) 56) В этом случае s = 0 и, следовательно, р = п — 2к. Кроме того, Ап ф 0 означает, что дроби, стоящие под знаком индексов в формулах (73'), (73"), несократимы. 57) При вычислении V2, V4, •♦♦, V2™, величины ao,ai,...,am и bo,bi,...,bm следует соответственно заменить при вычислении первого индекса на ao,a2, ...,02m и 0,ai,O3, ...,a2m-i, а при вычислении второго индекса — на ао,аг, ...,a2m и а1,аз, ...,a2m-i,0. 58) Здесь при вычислении первого индекса в формуле (70) вместо ao,oi,...,am+i и Ьо, bi,.-., bm+i берем соответственно ао, а2,..., а2т, 0 и 0, ai, аз,..., агт+i, а при вычислении второго индекса вместо ao,ai,...,am и &o,bi,---,bm ставим ai,a3, ...,a2m+i и ao,a2, ••♦,a2m-
§13. Критерий устойчивости Льенара и Шипара 483 Внимательное сопоставление этого правила вычисления к при наличии нулевых определителей Гурвица с правилом, данным в теореме 5 (с. 462), показывает, что оба правила совпадают59). Замечание 2. Если Ап = 0, то многочлены ид(и) и h(u) не являются взаимно простыми. Обозначим через d(u) наибольший общий делитель многочленов д(и) и h(u), а через tt7d(tt) — наибольший общий делитель ид(и) и h(u) (7 = О или 7 = 1). Степень d(u) обозначим через S и положим h(u) = d(u)hi(u) и д(и) = = d(u)gi(u). Несократимой рациональной дроби gi(u)/hi(u) всегда соответствует некоторая бесконечная ганкелева матрица S = ||вг+л||о° ранга г, где г — степень hi(u). При этом соответствующий определитель Dr ф О, a Dr+\ = .Dr+2 = ... = 0. В силу формулы (68') V2r Ф 0, V2r+2 = V2r+4 = ••• = 0. Кроме того, iiSgg=r-2V(l,V9,...,Var). Применяя все это к дробям, стоящим под знаком индекса в (74), (75), (77) и (78), мы легко найдем, что при любом п (четном и нечетном) их=2<$ + 7 к An_„_i ф 0, Ап_„ ф 0, An-x+i = ... = Дп = 0 и что все формулы (74), (75), (77) и (78) сохраняют свою силу и в рассматриваемом случае, если в правых частях этих формул опустить все А; при г > п — х и заменить число т [а в формуле (77) число т + 1] на степень соответствующего знаменателя подындексной дроби после ее сокращения. Тогда с учетом (73;) и (73") получим р = п - х - 2у(1, Аь Аз,...) - 2У(1, А2, А4,...). Вместе с формулой р = п — 2к — s это дает h = У(1, Аь А3,...) + V(l, A2, А4,...), (80) где к\ = к + s/2 — х/2 — число всех корней f(z), лежащих в правой полуплоскости, за исключением тех, которые одновременно являются корнями и многочлена /(—z)60). § 13. Некоторые дополнения к теореме Рауса-Гурвица. Критерий устойчивости Льенара и Шипара Пусть дан многочлен с вещественными коэффицентами f(z) = a0zn -h aizn_1 + ... + ап (a0 > 0). Тогда условия Рауса-Гурвица, необходимые и достаточные для того, чтобы все корни многочена f(z) имели отрицательные действительные части, записываются в виде неравенств Ах > 0, А2 > 0, .., Ап > 0, (81) 59) При этом следует учесть замечания, сделанные в сносках 35) и 36) на с. 468. 60) Это следует из того, что х — степень наибольшего общего делителя многочленов h(u) и ид(и); я — число "особых" корней многочлена f(z), т. е. тех корней z*, для которых —z* также является корнем f(z). Число этих особых корней равно числу последних (включая Ап) подряд идущих нулевых определителей Гурвица An-^+i = ... = An = 0. 16*
484 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где А< = а\ as a$ ... do 0,2 «4 О а\ as ... О ао а2 а>4 di (cik = О при к > п) — определитель Гурвица г-го порядка (г = 1,2, ...,п). Если условия (81) выполнены, то многочлен f(z) представляется в виде произведения ао на множители вида z + и, z2 + vz + w (и > О, v > О, w > 0), и потому все коэффициенты многочлена f(z) положительны61): oi > 0, а2 > 0, ..., ап > 0. (82) В отличие от условий (81) условия (82) являются необходимыми, но отнюдь не достаточными для расположения всех корней f(z) в левой полуплоскости Re z < 0. Однако при выполнении условий (82) неравенства (81) уже не являются независимыми. Так, например, при п = 4 условия Рауса-Гурвица приводятся к одному неравенству А3 > 0, при п = 5 — к двум: А2 > 0, А4 > 0, при п = б — к двум: А3 >0, А5 > О62). Это обстоятельство было исследовано французскими математиками Льенаром и Шипаром и дало возможность им в 1914 г.63) установить критерий устойчивости, отличный от критерия Рауса-Гурвица. Теорема 11 (критерий Льенара и Шипара). Необходимые и достаточные условия для того, чтобы вещественный многочлен f(z) = a§zn + a\zn~l + ... + ап (ао > 0) имел все корни с отрицательными вещественными частями, могут быть записаны в любом из следующих четырех видов64): 1) ап > 0, ап_2 > 0, ...; Аг > 0, А3 > 0, ...; 2) ап > 0, ап_2 > 0, ...; А2 > 0, А4 > 0, ...; 3) ап > 0, an_i > 0, ап_3 > 0, ...; Ах > 0, А3 > 0, ...; 4) ап > 0, an_i > 0, ап_3 > 0, ...; А2 > 0, А4 > 0, ... Из теоремы 11 вытекает, что для вещественного многочлена f(z) = = aozn + a\zn~x + ... + ап (ао > 0), у которого все коэффициенты (или даже только часть ап,ап_2,... или ап,ап_1,6п_з,...) положительны, детерминантные неравенства Гурвица (81) не являются независимыми, а именно: из положительности определителей Гурвица нечетного порядка следует положительность определителей Гурвица четного порядка и наоборот. Условия 1) были получены Льенаром и Шипаром в работе [208] при помощи специальных квадратичных форм. Мы дадим более простой вывод условий 1) 61) ао > 0 по условию. 62) Это обстоятельство для первых знач ений п было установлено в ряде работ по теории регулирования независимо от общего критерия Льенара и Шипара, с которым авторы этих работ, очевидно, не были знакомы. 63) См. [208]. Изложение некоторых основных результатов Льенара и Шипара можно найти в фундаментальном обзоре М. Г. Крейна и М. А. Наймарка [16]. 64) Условия 1)-4) имеют известное преимущество перед условиями Гурвица, поскольку они содержат примерно вдвое меньше детерминантных неравенств, нежели условия Гурвица. Из двух серий детерминантных неравенств Ai > 0, A3 > 0, ... и А2 > 0, Аз > > 0, ... практически лучше та, которая представляется в виде An_i > 0, Ап_з > 0, ..., так как она содержит определители меньшего порядка.
§13. Критерий устойчивости Льенара и Шипара 485 [а также условий 2)-4)], опирающийся на теорему 10 § 11 и теорию индексов Коши, получив эти условия как частный случай значительно более общей теоремы, к изложению которой мы и переходим. Введем снова в рассмотрение многочлены h(u) и д(и), связанные с f(z) тождеством f(z) = h(z2) + zg(z2). Если п четно, п = 2т, то h(u) = а0ит + а2ит~1 + ... + ап, д(и) = aium~l + а3ит~2 + ... + an_i; если же п нечетно, п = 2т + 1, то h(u) = ахиш + а%ит~1 + ... + ап, д(и) = а0ит + а2ит~1 + ... + an_i. Тогда условия ап > 0, an_2 > 0, ... (соответственно an_i > 0, an_2 > 0, ...) можно заменить более общими условиями: h(u) [соответственно д(и)\ не меняет знака при и > О65). При этих условиях можно вывести формулы для числа корней многочлена f(z) в правой полуплоскости, используя только определители Гурвица нечетного порядка или только определители четного порядка. Теорема 12. Если для вещественного многочлена f(z) = a0zn + axzn~x + ... + ап = h(z2) + zg(z2) (a0 > 0) выполняется условие: h(u) [или g(u)] не меняет знака при и > 0 и последний определитель Гурвица Дп / 0, то число к корней многочлена f(z), расположенных в правой полуплоскости, определяется по формулам h(u)ne меняет знака при и > 0 д(и) не меняет знака при и > 0 п = 2т fc = 2V(l,Ai,A3,...,A„-i) = = 2У(1,Д3,Д4,...,Д») * = 2V(l,Ai,A3,...,A„-i+ £оо — £о _ 2 ~ = 2V(l,A2,A4,...,An)- 2 п = 2т + 1 * = 2У(1,Д1,Д3,...,Д»)- 1 -Soo _ 2 = 2V(l,A2,A4,...,A„-i)+ 1 "Soo 2 Л = 2^(1,Д1,Дз,...,А»)- 1 - so _ 2~ ~ = 2V(l,A2,A4,...,An-i)+ 1 -£о 2 (83) где Soo = Sign g(u) h(u) So = Sign n=+oo дЫ h(u) 66\ u=+0 Доказательство. Снова введем обозначение67) р = /+£ а1г„ "°з;_. +- =п-2к. aoz" — a%zn + ..■ (83') (84) 65) То есть h(u) ^ 0 или h(u) $С 0 при и > 0 [соответственно д(и) ^ 0 или р(гг) ^ 0 при г*>0]. 66) Если а\ ф 0, то £оо = signai, и вообще, если а\ = аз = ... = a2At_i = 0, a2Ai+i ^ 0, то £оо = signa2/i+i; если an_i ^ 0, то е = sign (an_i/an), и вообще, если an_i = ап_з = ... = = un-2/i+i — 0) «п-2д-1 ф 0, то во = sign (an-2fi-i/an). 67) См. (71), (72); в нашем случае s = 0.
486 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Рассмотрим в соответствии с таблицей (83) четыре случая. 1) п = 2т; h(u) не меняет знака при и > 0. Тогда68) г+оо 9(и) _ г+оо ид (и) _ п 0 h(u) ~ ° h(u) ~U' и потому из очевидного равенства и) #М=_гО ug{u) -°° h(u) -°° h(u) следует69) г+оо 9(и) _ .+00 ид(и) -°° h(u) -°° h(u) ' Но тогда из (73'), (74) и (84) находим к = 21/(1, Дь Аз,...). Аналогично из формул (73), (75) и (84) следует * = 2У(1,Д2,Д4,...,Дп). 2) п = 2т; д(и) не меняет знака при и > 0. В этом случае г+оо Ни) _ г+оо Ни) _ п ^о Ни) , гО Мц) _ г, '° p(u) " '0 ид(и) ~ U' -°° p(u) + "°° up(u) " U' и, следовательно, пользуясь обозначениями (83'), найдем 1^Щ+1^Щ-е0=0. (85) 00 р(т4) °° ид(и) Заменяя функции, стоящие под знаком индекса, их обратными величинами, мы в силу 5° (см. с. 480) получим г+оо ~°° h(u) + "°° h(u) °° °* /с = 2У(1,ДьД3,...) + ^-^- Но это в силу (73'), (74) и (84) дает k = 2V(l,l Аналогично из (73х), (75) и (84) находим k = 2V(l,A2,A4,...)-£-2^. 3) п = 2т + 1, д(и) не меняет знака при и > 0. В этом случае, как и в предыдущем, имеет место формула (85). Из равенств (73"), (74), (78), (84) и (85) легко получаем к = 2V(1,ДьДз,...) - Ц^, * = 2У(1,Д2,Д4,...) + Ц^. 4) п = 2т + 1; /г.(гл) не меняет знака при и > 0. Из равенств г+оо PW. _ roo Ц^Ы _ г, гО PW , гО Ц^(Ц) _ г, 0 h(u) ~ ° Л(п) ' -°°Mt») °° М") 68) Если /i(wi) = 0 (ui > 0), то р(гц) ф 0, поскольку Дп ^ 0. Поэтому из h(u) ^ 0 (и > 0) следует, что g(u)/h(u) не меняет знака при переходе через г/, = и\. 69) Из Дп = anAn-i ф 0 вытекает, что h(0) = ап ф 0.
§Ц. Некоторые свойства многочлена Гурвица 487 заключаем г+оо 9(и) , г+оо Щ(и) _ п /i(w) -°° h(u) Обращая функции, стоящие под знаком индекса, получаем г+оо Ци) Т+00 h(u) _ -°°PW+ -™ug(u)-£o°' Но тогда формулы (73"), (77) и (84) дают к = 2У(1,ДьАз,...) - 1^, к = 2^(1,Д2, Д4,...) + ^*. Теорема 12 доказана полностью. Из этой теоремы как частный случай получается теорема 11. Следствие теоремы 12. Если вещественный многочлен f(z) = a§zn + + a\zn~l + ... + ап (ао > 0) имеет положительные коэффициенты ао > 0, а\ > 0, а,2 > 0, ..., ап > 0 и Дп ^ 0, то число к корней этого многочлена, расположенных в правой полуплоскости Rez > 0, определяется формулой к = 2У(1, Дх, Аз,...) = 2У(1, Д2, Д4,...). Замечание. Если Дп / 0, но в последней формуле или в формулах (83) некоторые из промежуточных определителей Гурвица равны нулю, то формулы остаются верными, но при вычислении величин У(1, Дх, Д3,...) и У(1, Д2, Д4, •••) следует руководствоваться правилом, изложенным в замечании 1 на с. 482. Если же Дп = Дп_1 = ... = Дп-лг+i = 0, Дп->< ф 0, то, отбрасывая в формулах (83) определители Дп_ж+1,..., Дп70), мы определим по этим формулам число к\ "неособых" корней f(z), расположенных в правой полуплоскости Rez > 0, если соответствующий из многочленов h\(u) и gi(u), получающихся из h(u) и д(и) после деления на их наибольший общий делитель d(u), удовлетворяет условиям теоремы 12 71). § 14. Некоторые свойства многочлена Гурвица. Теорема Стилтьеса. Представление многочленов Гурвица при помощи непрерывных дробей 1. Пусть дан вещественный многочлен f(z) = a0zn + cnz71-1 + ... + ап (а0 ф 0). Представим его в виде f(z) = h(z2)+zg(z2). Выясним, какие условия должны быть наложены на многочлены h(u) и д(и) для того, чтобы многочлен f(z) был многочленом Гурвица. Полагая в формуле (20) (с. 451) к = s = 0, мы получим необходимое и достаточное условие для того, чтобы f(z) был многочленом Гурвица, в виде равенства Р = Щ 70) См. с. 484. 71) Это условие выполняется, если h(u) ф 0 при и > 0 или д(и) ф 0 при и > 0.
488 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где, как и в предыдущих параграфах, , = /+°° cl\z — a%z +... aozn — a2Zn~2 + ... Пусть п = 2га. Согласно формуле (73') (с. 481) это условие может быть записано так: Так как абсолютная величина индекса рациональной дроби не может превосходить степени знаменателя (в данном случае га), то равенство (86) может иметь место тогда и только тогда, когда одновременно /+оо дМ_ _ /+оо «яЫ _ (87) При п = 2га + 1 равенство (73") (поскольку р = п) дает п = Т+°° h^ - /"+0° h^ -°° ид(и) -°° h(u)' Заменяя здесь дроби, стоящие под знаком индекса, их обратными величинами (см. 5° на с. 480) и замечая при этом, что h(u) и д(и) имеют одну и ту же га-ю степень, получаем72) „-2Ш + 1- Г+°° ^ - 7+°° ug(U>} 4- f (Ж) n-Zm + l-l^ hM l^ h{u) + вы. [fib) Исходя снова из того, что абсолютная величина индекса дроби не может превосходить степени знаменателя, заключаем, что равенство (88) имеет место тогда и только тогда, когда одновременно +00 д(и) _ j+oo ид(и) _ _ ( , Если п = 2га, то первое из равенств (87) означает, что многочлен h(u) имеет т различных вещественных корней щ < u<i < ... < ит и что правильная дробь g(u)/h(u) представима в виде М = у;-5*-, (90) h(u) *—i и-щ где i=1 R* = %W)>° <* = 1.2.-.m)- (W) Из этого представления дроби g(u)/h(u) следует, что между любыми двумя корнями щ,щ+1 многочлена h(u) лежит вещественный корень и\ многочлена д(и) (г = 1,2, ...,т — 1) и что старшие коэффициенты многочленов h(u) и д(и) имеют одинаковые знаки, т. е. h(u) = а0(и - гц) ... (и - ит), д(и) = ai(u- и[) ... (и - и^^), и\ < и[ <и2 <и'2 < ... < ит-х < t^-i < ит; a0ai > 0. Второе из равенств (87) вносит лишь одно дополнительное условие ит < 0. 2) Как и в предыдущем параграфе, £оо = sign [g{u)/h(u)\u=+0o.
§Ц. Некоторые свойства многочлена Гурвица 489 Согласно этому условию все корни h(u) и д(и) должны быть отрицательными. Если п = 2т + 1, то из первого равенства (89) следует, что h(u) имеет m различных вещественных корней г^,^, ...,^т и |M=S_1+V-^- (*-i#0), (91) h(u) *-^и-щ v v где Из третьего равенства (89) вытекает, что s-i > 0, (92) т. е. что старшие коэффициенты ао и а\ имеют одинаковые знаки. Кроме того, из (91), (91') и (92) следует, что д(и) имеет m вещественных корней и[ < < и2 < ... < и'т, лежащих внутри интервалов (—oo,tti), (1/1,1*2), • ••, (um-i,um). Другими словами, h(u) = ах(и - щ) ... (и - ит), д{и) = а0(и - и[) ... (и - и'т), и[ <щ <и'2 <и2 < ... <и'т< ит; aodi > 0. Второе из равенств (89), как и при п = 2т, вносит лишь одно дополнительное неравенство ит < 0. Определение 3. Мы будем говорить, что два многочлена h(u) и д(и) т-й степени [или первый m-й, а второй (т — 1)-й степени] образуют положительную пару73), если корни этих многочленов ui,u2,...,um и и'^и^^.^и^ (соответственно и'1,и'2,..^и'т_1) все различны, вещественны, отрицательны и перемежаются следующим образом: и[ < щ < и2 < U2 < ... < и'т < ит < 0 (соответственно щ < и'2 < и2 < ... < и'т_1 < ит < 0), а старшие коэффициенты этих многочленов имеют одинаковые знаки74). Вводя положительные числа V{ — —щ, v\ = —и\ и умножая оба многочлена h(u) и д(и), образующих положительную пару, на ±1 так, чтобы старшие коэффициенты этих многочленов стали положительными, мы сможем представить эти многочлены в виде т т h(u) = 01 Y[(u + V& д(и) = а0 Д (и + uj), (93) г=1 г=1 где ai > 0, а0 > 0, 0<vm<v'm< vm-i < у'т_г < ... < vx < v[, если оба многочлена h(u) и д(и) имеют степень т, и в виде т т—1 h(u) = а0 Y[(u + «><), g(u) = «1 П (и + Vi), (93х) г=1 г=1 73) См [7, с. 333]. Определение положительной пары многочленов, проведенное здесь, несколько отличается от определения, данного в книге [7]. 74) Если мы отбросим требование об отрицательности корней, мы получим вещественную пару многочленов. Относительно использования этого понятия в задаче Рау- са-Гурвица см. [23].
490 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы где а0 > 0, ai > О, 0 < vm < v'm-i < vm-i < — < v[ < vi, если h(u) имеет степень га, a g(u) — степень га — 1. Приведенные ранее рассуждения доказывают следующие две теоремы. Теорема 13. Для того чтобы многочлен f(z) = h(z2) + zg(z2) был многочленом Гурвица, необходимо и достаточно, чтобы многочлены h(u) и д(и) составляли положительную пару75). Теорема 14. Для того чтобы два многочлена h(u) и д(и), из которых первый имеет степень га, а второй имеет степень га или га — 1, составляли положительную пару, необходимо и достаточно, чтобы имели место равенства +ос pW _ +00 ид(и) _ ( v "°° h(u) ~Ш' "°° h(u) ~ m [т) и в случае, когда степени h(u) и д(и) одинаковы, — дополнительное условие £оо = sign 9(и) h(u) = 1. (95) 'J+00 2. Из последней теоремы, используя свойства индексов Коши, мы легко получим теорему Стилтьеса о представлении дроби g(u)/h(u) в виде непрерывной дроби специального типа в случае, когда многочлены h(u) и д(и) образуют положительную пару многочленов. Доказательство теоремы Стилтьеса опирается на следующую лемму. Лемма. Если многочлены h(u), д(и) [степень h(u) равна га] составляют положительную пару и ^W=c+ I (96) h(u) du + hi{u)lgi{u)' У J где c,d — постоянные, a h\(u), gi(u) — многочлены степени $С га — 1, то: 1°) с ^ 0, d > 0; 2°) многочлены hi (и), gi(u) имеют степень га — 1; 3°) многочлены h\(u), g\{u) составляют положительную пару. Задание h(u) и д(и) однозначно определяет многочлены h\(u), gi(u) (с точностью до общего постоянного множителя) и постоянные cud. Обратно, из (96) и 1°)-3°) следует, что многочлены h(u) и д(и) образуют положительную пару, причем h(u) имеет степень га, а д(и) — степень га или га — 1 в зависимости от того, будет ли с> 0 или с = 0. Доказательство. Пусть h(u), g(u) — положительная пара. Тогда из (94) и (96) следует Ш = 7"^ Щ = Т~™ du + hi(u)/gi(u)' ^ Из этого равенства следует, что степень gi(u) равна ш-1и что d ф 0. Далее, из (97) находим га = -/±° du+hl^ pi М Отсюда следует, что d > 0 и что + signd=-7+£^g+signd. ^£м = -(т_1)- (98) 75) Эта теорема представляет собой частный случай так называемой теоремы Эрмита-Билера (см. [37, с. 21]).
§Ц. Некоторые свойства многочлена Гурвица 491 Теперь второе равенство (94) дает -т = /±; ид (и) h(u) _ J+OO CU + 1 d + hi(u)/ugi(u) . Т+ОО А _ _Г+° -°° d + hx{u)lugi(u) d + Ы(Н) ugi(u) ' ~°° u9l(u)' (99) Отсюда следует, что h\{u) имеет степень m — l76). Условие (95) в силу (96) дает с > 0. Если же степень д(и) меньше степени h(u), то из (96) вытекает с = 0. Из (98) и (99) следует r+oo PiW. - m _ 1 /+<*> ^W - -^ _l М) (100) где e&) = sign gift*) hi(u) u=+oo Так как второй из индексов (100) по абсолютной величине ^ га — 1, то е™ = 1 (101) а тогда из (100) и (101) на основании теоремы 12 заключаем, что многочлены h\(u) и д\(и) образуют положительную пару. Из (96) следует 9Ы с= lim it—>-oo tl\U) lim и—too 9(u) h(u) 1 U=d- После того как end определены, из (96) определяется отношение hi(u)/gi(u). Соотношения (97)—(101), использованные в обратном порядке, устанавливают вторую часть леммы. Таким образом, лемма доказана полностью. Пусть нам дана положительная пара многочленов h(u), g(u), а га — степень многочлена h(u). Тогда, разделив д(и) на h(u) и обозначив частное через со, а остаток через gi(u), получим 9Ы h(u) ■ Со + h(u) Со + h(u)/gi(u)' Отношение h(u)/gi(u) можно представить в виде dou + hi(u)/g\(u), где степень h\(u), как и степень gi(u), меньше га. Отсюда 9(и) = , 1 h(u) dou + hi (u)/gi (и)' (102) Таким образом, для положительной пары h(u) и д(и) всегда имеет место представление (96). Согласно лемме со ^0, d0 > 0, а многочлены hi (и) и д\ (и) имеют степень га — 1 и образуют положительную пару. 76) Из равенства (99) следует, что знаменатель ид\(и) имеет степень т и что между любыми двумя корнями знаменателя ид\{и) содержится корень числителя h\{u).
492 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Применяя эти же рассуждения к положительной паре hi(u), gi(u), получим равенство 01 (ц) _ с _| I (1027) hi(u) diu + li2(u)/g2(u)1 где ci > 0, di > 0, а многочлены 1i2(u) и д2(ц) имеют степень т — 2 и образуют положительную пару. Продолжая этот процесс далее, мы в конце концов придем к положительной паре hm и дт, где hm и дт — постоянные одного знака. Положим 9т _ (102(т)) Тогда из (102), (102'),..., (102(т)) вытекает dou + С1 + 1 1 rfi« + 1 С2 + , 1 • dm-iu-\ ПоЛЬЗуЯСЬ второй частью леммы, мы аналогично покажем, что при любых со ^ 0, с\ > 0, ..., ст > 0, d0 > 0, di > 0, ..., dm-i > 0 записанная непрерывная дробь однозначно (с точностью до общего постоянного множителя) всегда определяет положительную пару многочленов h(u) и д(и), причем h(u) имеет степень га, а д(и) имеет степень га при со > 0 и степень га — 1 при со = 0. Таким образом, нами доказана следующая теорема77). Теорема 15 (Стилтьеса). Если h(u), g(u) — положительная пара многочленов и h(u) имеет степень га, то *(«) - ^ + 1 С1 + d\u -\ С2 + (103) +- -\и-\ Cm где со ^ 0, с\> 0, ..., ст > 0, d0 > 0, ..., dm_i > 0. Я/ж этой* со = 0, если д(и) имеет степень га — 1, и со > 0, если р(м) имеет степень га. Постоянные Ci,dk однозначно определяются заданием h(u), g(u). 77) Доказательство теоремы Стилтьеса, не опирающееся на теорию индексов Коши, можно найти в книге [7, с. 333-337].
§15. Область устойчивости. Параметры Маркова 493 Обратно, при любом cq ^ 0 и любых положительных ci, ...,cm, do, ...,dm-\ непрерывная дробь (103) определяет положительную пару многочленов h(u), g(u), где h(u) имеет степень га. Из теоремы 13 и теоремы Стилтьеса следует Теорема 16. Вещественный многочлен п-й степени f(z) = h(z2 + zg(z2) в том и только том случае является многочленом Гурвица, когда имеет место формула (103) при неотрицательном cq и положительных ci,...,cm, do, ...,dm-i. При этом со > 0, когда п нечетно, и со = 0, когда п четно. § 15. Область устойчивости. Параметры Маркова Каждому вещественному многочлену n-й степени можно отнести точку n-мерного пространства, координаты которой равны частным от деления на старший коэффициент всех остальных коэффициентов. В таком "пространстве коэффициентов" все многочлены Гурвица образуют некоторую n-мерную область, которая определяется78) неравенствами Гурвица Ai > 0,А2 > 0, ...,АП > 0 или, например, неравенствами Льенара-Шипара ап > 0,ап-2 > 0,..., Ai > 0, А3 > 0,... Эту область будем называть областью устойчивости. Если коэффициенты уравнения заданы как функции р параметров, то область устойчивости строится в пространстве этих параметров. Исследование области устойчивости представляет большой практический интерес; так, например, такое исследование существенно при проектировании новых систем регулирования79). В § 16 мы покажем, что две замечательные теоремы, установленные А. А. Марковым и П. Л. Чебышевым в связи с разложением непрерывных дробей в степенные ряды по отрицательным степеням аргумента, имеют прямое отношение к исследованию области устойчивости. При формулировке и доказательстве этих теорем нам удобно будет задавать многочлен не его коэффициентами, а специальными параметрами, которые мы назовем параметрами Маркова. Пусть дан вещественный многочлен f(z) = a0zn + axz71'1 + ... + ап (а0 ф 0). Представим его в виде f(z) = h(z2)+zg(z2). Примем, что многочлены h(u) и ид(и) взаимно просты (Ап ф 0). Несократимую рациональную дробь g(u)/h(u) разложим в ряд по убывающим степеням и80): f^^ + ^-^ + ^-V- (Ю4) h(u) и и2 и3 и4 Если п нечетно, то для получения этой формулы необходимо добавочно предположить, что а\ ф 0 (в противном случае s_i = оо). 78) При а0 = 1. 79) Исследованию области устойчивости, а также областей, соответствующих различным значениям к (к — число корней в правой полуплоскости), посвящен ряд работ Ю. И. Наймарка (см. монографию [27]). 80) Для дальнейшего нам удобно коэффициенты при четных отрицательных степенях и обозначать через —si, —S3 и т. д.
494 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Последовательность чисел so, $ъ $2, ••• определяет бесконечную ганкелеву матрицу S = ||si+fc|lo°- Определим рациональную функцию R(v) равенством m = -$gy (Ю5) Тогда Ж») = -8.1 + ^ + Ц + ^ +..., (106) и потому имеет место соответствие (см. с. 474) R(v) ~ S. (107) Отсюда следует81), что матрица S имеет ранг т = [п/2], поскольку т — степень многочлена h(u) и, следовательно, число полюсов функции R(v). При п = 2т (в этом случае s_i = 0) задание матрицы S однозначно определяет несократимую дробь g(u)/h(u) и, следовательно, с точностью до постоянного множителя однозначно определяет f(z). При п = 2т + 1 для задания f(z), помимо матрицы 5, необходимо еще знать коэффициент s_i. С другой стороны, для задания бесконечной ганкелевой матрицы m-го ранга S достаточно задать лишь первые 2т чисел so,si,...,S2m-i- Числа so,si,...,S2m-i могут быть выбраны произвольно при одном лишь ограничении I>TO = |*+ft|JP#0; (108) все последующие коэффициенты разложения (104) S2m>S2m+i>--- однозначно (и даже рационально) выражаются через первые 2т: so,si,...,S2m-i- Действительно, у бесконечной ганкелевой матрицы m-го ранга S элементы связаны между собой рекуррентными соотношениями (см. теорему 7 на с. 471) т sq = ^2agsq-g (g = m,m + l,...). (109) 9=1 Если числа so,si, ...,«2m-i удовлетворяют неравенству (108), то после задания этих чисел из первых т соотношений (109) однозначно определяются коэффициенты ai,a2,...,am; тогда последующие соотношения (109) определяют S2m,S2m+b... Таким образом, вещественный многочлен f(z) степени п = 2т при Ап ф 0 может быть однозначно82) задан при помощи 2т чисел so,si,...,S2m-b УД°В" летворяющих неравенству (108). При п = 2т + 1 к этим числам следует прибавить еще s_i. Мы будем п величин s0j &i»•••> 82m-i (ПРИ ft = 2m) или s_i, so,..., «2m-i (при n = = 2m + 1) называть параметрами Маркова для многочлена f(z). В n-мерном пространстве эти параметры могут быть рассматриваемы как координаты точки, изображающей данный многочлен f(z). Выясним, какие условия должны быть наложены на параметры Маркова для того, чтобы соответствующий многочлен f(z) был многочленом Гурвица. Этим мы определим область устойчивости в пространстве параметров Маркова. Многочлен Гурвица характеризуется условиями (94) и дополнительным условием (95) при п = 2т + 1. Вводя функцию R(v) [см. (105)], запишем равенства (94) так: I±£R(v) = m, I±£vR(v) = m. (110) 81) См. теорему 8 (с. 473). 82) С точностью до постоянного множителя.
§15. Область устойчивости. Параметры Маркова 495 Дополнительное же условие (95) для п = 2т + 1 дает s-i > 0. Введем наряду с матрицей S = ||si-Hfe|lo° бесконечную ганкелеву матрицу б'-1 = = ||s;+fc+i||o°. Тогда поскольку из (106) получаем vR(v) = -s-iv + s0 + — + Ц + ..., V V2 то имеет место соответствие vR(v)~SM. (111) Матрица s^\ как и матрица S, имеет конечный ранг га, так как функция vR(v), как и R(v), имеет га полюсов. Поэтому и формы 771 — 1 771 — 1 ЬтуХ^Х) = / j Si+kxixki Ьт [X, X) = у j Si-\-k+lxixk имеют ранг га. Но, согласно теореме 9 (с. 475), сигнатуры этих форм в силу соответствий (107), (111) равны индексам (110) и, следовательно, также равны га. Таким образом, условия (110) означают положительную определенность квадратичных форм Sm(x,x) и Sm (х,х). Нами установлена Теорема 17. Для того чтобы вещественный многочлен f(z) = h(z2) + zg(z2) степени п = 2га или п = 2т + 1 был многочленом Гурвица, необходимо и достаточно83), чтобы: 1°) квадратичные формы га—1 га—1 Sm(x,x) = ^ si+k%iXki S$(x,x) = ^ Si+k+lXiXk (П2) i,k=0 i,k=0 были положительно определенными; 2°) (при п = 2т + 1) 5-1 > 0. (113) Здесь 5_i, 5o, 5i,..., S2771-1 — коэффициенты в разложении 9(и) _ s_ +£o_£l + £i_£i + h(u) и и2 uz и4 Введем обозначения для определителей: r>p = h+*lo~\ ^15 = ki+fe+ilg-1 (p=l,2,...,ro). (114) 83) Мы не оговариваем специально неравенства Ап ф 0, поскольку это неравенство автоматически следует из условий теоремы. В самом деле, если f(z) — многочлен Гур- вица, то, как известно, Ап ф 0. Если же даны условия 1°), 2°), то из положительной определенности формы Sm(x,x) вытекает равенство 7-+OQ U9\U) Т+°°Л,П/ЛЛ m из которого следует несократимость дроби ug(u)/h(u), что выражается неравенством An ф 0. Точно так же из условий теоремы автоматически следует, что Dm = Н^г+А:!™-1 ф 0, т. е. что числа so,si,..., «2т-1 и (при п = 2т + 1) число s_i являются параметрами Маркова для многочлена f(z).
496 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Тогда условие 1°) эквивалентно системе детерминантных неравенств Uo $1 D1=s0> О, D2 = s\ s2 iW- 1>^=«1>0, D£> = (i) _ 51 S2 52 S3 >0, ... >o, 5 Urn ..., -ism S = so si m—1 Si S2 Si . . s2 .. Sm S2 S3 Sm—1 Sm S2m-2 Sm Sm+1 >o, >0. Sm+1 «2m-l (115) В случае п = 2m неравенства (115) определяют область устойчивости в пространстве параметров Маркова. При п = 2т + 1 к этим неравенствам следует прибавить еще одно: 5-1 > 0. (116) В следующем параграфе мы выясним, какие свойства матрицы S вытекают из неравенств (115), и тем самым выделим специальный класс бесконечных ган- келевых матриц 5, которые соответствуют многочленам Гурвица. § 16. Связь с проблемой моментов 1. Сформулируем следующую проблему моментов из положительной полуоси84) 0 < v < оо. Дана последовательность вещественных чисел so, si, ••• Требуется определить положительные числа Mi > 0, /х2 > 0, ..., цт > 0; 0 < vi < v2 < ... < vm (117) так, чтобы имели место равенства 8p = '52vjVj (p = 0,l,2,...). (118) Нетрудно усмотреть, что система равенств (118) равносильна следующему разложению в ряд по отрицательным степеням и: ЕИз _ ££ _ £1 _|_ £1 _ U + Vj U V? UZ i=i (119) В этом случае бесконечная ганкелева матрица S = ||si+fe|lo° имеет конечный ранг т, и в силу неравенств (117) в несократимой правильной рациональной дроби ~ "' (120) 9W _ у> Щ h(u) £-^ и + Vj 84) Эту проблему моментов следовало бы называть дискретной в отличие от об- т щей степенной проблемы моментов, в которой суммы у^[ajv? заменены интегралами Стилтьеса vp dp,(v) (см. [3]).
§16. Связь с проблемой моментов 497 [старшие коэффициенты в h(u) и д(и) выбираем положительными] многочлены h(u) и д(и) образуют положительную пару [см. (91) и (91')]. Поэтому (см. теорему 14) сформулированная нами проблема моментов имеет решение в том и только том случае, когда последовательность чисел so,si,S2,... при помощи равенств (119) и (120) определяет многочлен Гурвица f(z) = h(z2) + + zg(z2) степени 2га. Решение проблемы моментов единственно, поскольку из разложения (119) однозначно определяются положительные числа Vj и /jlj (j = 1,2, ...,m). Наряду с "бесконечной" проблемой моментов (118) рассмотрим и "конечную" проблему моментов, задаваемую первыми 2т из уравнений (118): т *р = 5>^ (p = 0,l,...,2m-l). (121) i=i Из этих соотношений уже вытекают следующие выражения для ганкелевых квадратичных форм: 771—1 771 ^2 Si+kXiXk = ^2fJtj(x0 + XiVj + ... + Xm-iV™'1)2, '•*=° i=1 (122) m—1 m v ' ^2 Si+k+xXiXk = ^2^jVj(x0 +xxVj + ... + xm-1vm~1)2. i,k=0 j=l Поскольку линейные формы относительно переменных хо,х±, -->^m-i Хо + XiVj + ... + Xm-iV™'1 (j = 1, 2, ..., m) независимы (коэффициенты этих форм образуют отличный от нуля определитель Вандермонда) и Vj > 0,/jLj > 0 (j = 1,2,...,га), то квадратичные формы (122) являются положительно определенными. Тогда, согласно теореме 17, числа so,si,... ...,52m-i являются параметрами Маркова некоторого многочлена Гурвица f(z). Эти числа являются первыми 2га коэффициентами разложения (119). Вместе с остальными коэффициентами в2т»$2т+ь ••• они определяют бесконечную разрешимую проблему моментов (118), которая имеет то же решение, что и конечная проблема (121). Таким образом, нами доказана Теорема 18. 1. Для того чтобы конечная проблема моментов т *P = £wt£ (123) i=i (р = 0,1,..., 2га - 1; /xi > 0, ..., [im > 0, 0 < v\ < v2 < ... < vm), где sp — заданные, a Vj и jij — искомые вещественные числа (р = 0,1,..., 2га — 1; j = 1,2,..., га), имела решение, необходимо и достаточно, чтобы квадратичные формы т—1 тп—1 У^ Si+kXiXk, £ si+k+jXiXk (124) i,k=0 i,k=0 были положительно определенными, т. е. чтобы числа so,si, ...,S2m-i были параметрами Маркова некоторого многочлена Гурвица степени 2га. 2. Для того чтобы бесконечная проблема моментов 771 sp = J2^vj (125)
498 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы (р = О,1,2,...; /xi > О, ..., цт > О; О < v± < V2 < ... < vm), где sp — заданные, a Vj и jij — искомые вещественные числа (р = О,1,2,...; j = 1,2, ...,т), имела решение, необходимо и достаточно, чтобы: 1°) квадратичные формы (124) были положительно определенными; 2°) бесконечная ганкелева матрица S = ||si-Hfc|lo° имела ранг т, т. е. чтобы ряд £»-4 + V... = fS (126) и и1 и6 п[и) определял многочлен Гурвица f(z) = h(z2) + zg(z2) степени 2т. 3. Решение проблемы моментов, как конечной (123), так и бесконечной (124), всегда единственно. 2. Доказанную теорему мы используем для исследования миноров бесконечной ганкелевой матрицы S = ||s;+fc||o° ранга га, соответствующей некоторому многочлену Гурвица, т. е. матрицы S = ||вг+л||о°» Для которой квадратичные формы (124) являются положительно определенными. В этом случае порождающие матрицу S числа so, si,S2,... могут быть представлены в виде (123), и потому для произвольного минора матрицы S порядка h ^ га имеем 8i\+k\ - • • sh+kh sih+ki - - - sih+kh и, следовательно, g (ч h ••• h \ _ \ki k2 ... kh) / j H>OL\H'OL2'~li'Oth l^.ai<a2<...<ah^m Wl1 №%2 VmV„ Ml< W? VmV'rl ,.** v2 }.kh Vkl vOL2 M oci OL2 k2 Но из неравенств О < vi < V2 < ... < vm, i\ < %2 < ... < ih, ki < k2 < ... < kh следует положительность обобщенных определителей Вандермонда85) v«hh (127) >0, fa а2 }М „kh >0. Поэтому, поскольку и числа /jlj > О (j = 1,2, ...,т), то из (127) вытекает *2 к2 kh >0 (128) (О ^ н < г2 < ... < гл, 0 ^ h < к2 < ... < kh, h = 1,2,..., га). Обратно, если в бесконечной ганкелевой матрице S = Н^+^Но0 ранга га все миноры любого порядка h $C га положительны, то квадратичные формы (127) являются положительно определенными. Введем 5) См. с. 377, пример 1.
§17. Связь между определителями Гурвица и определителями Маркова 499 Определение 4. Бесконечную матрицу А = Ца^Ио0 будем называть вполне положительной ранга т в том и только том случае, когда все миноры матрицы А порядка h $С т положительны, а все миноры порядка h > m равны нулю. Теперь сформулируем установленные свойства матрицы 586). Теорема 19. Для того чтобы бесконечная ганкелева матрица S = ||зг+*||о° была вполне положительной ранга га, необходимо и достаточно, чтобы: 1) матрица S имела ранг га; 2) квадратичные формы Si+k%i%k-> i,k=0 т—1 i,k=0 были положительны определенными. Из этой теоремы и теоремы 17 следует Теорема 20. Вещественный многочлен f(z) степени и является многочленом Гурвица в том и только том случае, когда соответствующая этому многочлену бесконечная ганкелева матрица S = Н^+^Но0 является вполне положительной ранга га = [п/2] и в случае п нечетного дополнительно s_i > 0. При этом элементы s$, s\, s2, ••• матрицы S и число s-\ определяются из разложения 9W _ 80 81 82 /19Qx где v ' f{z) = h(z2)+zg(z2). § 17. Связь между определителями Гурвица и определителями Маркова87) Рассмотрим сначала случай четного п = 2га. Тогда д{и) _ ащ171-1 + а3цт~2 + . h(u) а0ит + а,2ит-1 + . Согласно формуле (68') на с. 479 имеем _ Sp 8i S2 (130) ао 0 0 0 а2 ах ао 0 а^ аз а2 «1 ав ... а5 ... 04 а3 ... V2p = I 0 а0 а2 а4 ... \=a20pDp (р=1,...,га). 0 0 oi аз ... С другой стороны, V2p = аоАгр-i, где A2p-i — определитель Гурвица порядка 2р — 1. Поэтому A2p-i = alp-lDp (р=1,...,га). (131) Умножим обе части равенства (130) на и и снова применим формулу (68') на с. 479. Получим ао а2 а4 .. (-1)рД2р = V: 2р а\ аз а$ 0 ао а2 Jp si s2 s2 -S3 -S3 S4 (-1)% = {-!)*<# D™, 86)Cm. [82, д]. 87) Определители Гурвица Ak введены на с. 461; определители Маркова задаются формулами (114). — Примеч. ред.
500 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы откуда ^2P = %PDP (р = l,2,...,m). При нечетном п = 2т + 1 имеем д(и) _ аои h(uj ~ CLlU + ... SO S2 , a\um + azu171-1 + ... ~ и и2 (131') (132) откуда снова по формуле (687) на с А2р = а\ а3 ао а2 0 oi 0 а0 479 имеем -Л2*> = a^Dp (р = l,...,m). С другой стороны, из (132) находим h(u (д(и) _ \ _ а!2ит + аАит 1 + ... _ _ £1 , £1 _ \h{u) S~1JU- am™ + aw™-'+ ... ~S° и и2 '"' (132#) где а2Р = а2Р ~ s-i - Я2Р+1 (р = 1,..., ш); а0 = 0. Но тогда для р = 1,..., т а\ а3 а5 а2 а4 а'6 0 ai аз 0 а2 а4 v^p = -„2Р -Si S2 ... (-l)PSp «2 -«3 = (-VftfDp. С другой стороны, VL = (-i)p «2 ai 0 0 а4 ... а3 ..♦ а2 ... ai ... (-1)* Ol Oi «0 0 0 аз а2 ai а0 а5 ... ^ ... аз ♦.. а2 ... (133) (1337) В полученном определителе (2р + 1)-го порядка к каждой строке с четным номером прибавим предыдущую строку, умноженную предварительно на s-\. Тогда этот определитель перейдет в Дгр+ь Поэтому из (133) и (1330 получаем A2p+1=a?+1D^. Таким образом, имеет место следующая связь между определителями Гурвица и Маркова: а) при п = 2т Д2р-1 = аоР_1£>р, А2р = alPD{pl) (р = 1, ...,т); б) при п = 2т + 1 (заменяя а\ на aoS-i) Д2р = (a0s-i)2p£>p (р = 1,...,т), Д2р+1 = (ooe-i)2^1^ (р = 0,1, ...,т). Эти формулы показывают, как неравенства Маркова (115) переходят в неравенства Гурвица и наоборот. Кроме того, эти неравенства в соединении с критерием Льенара-Шипара дают следующую теорему. Для того чтобы вещественный многочлен f(z) = h(z2) + zg(z2) со старшим коэффициентом ао > 0 был гурвицевым, необходимо и достаточно, чтобы: 1) все коэффициенты этого многочлена были положительны; 2) одна из квадратичных форм (112) была положительно определенной.
§18. Теоремы Маркова и Чебышева 501 § 18. Теоремы Маркова и Чебышева В своем известном мемуаре "О функциях, получаемых при обращении рядов в непрерывные дроби", напечатанном в "Записках Петербургской Академии наук" за 1894 г.88), покойный академик А.А. Марков доказал две теоремы, из которых вторая иными методами и в не столь общей формулировке была в 1892 г. установлена П. Л. Чебышевым89). В этом параграфе мы покажем, что эти теоремы имеют непосредственное отношение к исследованию области устойчивости в параметрах Маркова, и дадим сравнительно простое доказательство (не связанное с непрерывными дробями) этих теорем, опирающееся на теорему 19 предыдущего параграфа. Переходя к формулировке первой теоремы, процитируем соответствующее место упомянутого выше мемуара А. А. Маркова90): "Основываясь на предыдущем, нетрудно уже доказать две замечательные теоремы, которыми мы закончим нашу статью. Одна касается определителей91) Ai, До Дга, Д*1) Д<2\ ..., Д<т> а другая — корней уравнения92) фт(х) = 0. Теорема об определителях. Если для чисел S(b sb s25 •••> S2m-2, s2m-l мы имеем две системы значений: 1) So = ao, Si = 0,1, S2 = a2, ■ 2) S0 = 60, 8i=bi, S2 = &2, —, S2m-2 = &2m-2 при которых все определители S2m-2 — tt2m-2, $2m-l — «2m-b S2m-1 = &2m-b Д1 = 50, Д2 = A(D=Sl, д(2) = so si Si S2 Si S2 S2 S3 &m = д(т) = so si 5m-l 1 Sl S2 Si .. s2 .. Sm S2 S3 Sm—1 Sm • S2m-2 1 Sm Sm+1 Sm Sm+1 оказываются положительными и удовлетворены неравенства a>o^b0, bi^ai, a2^b2, b3 ^ a3, ..., a2m-2 ^ b2m-2, s2m-i ^ a>2n то наши определители Ai, Д2, .., Дт; ДМ, Д<*>, ..., Д( т) 88) См. также [25, с. 78-105]. 89) Эта теорема была опубликована в работе П. Л. Чебышева "О разложении в непрерывную дробь рядов, расположенных по нисходящим степеням переменной". См. [36, с. 307-362]. 90) [25, с. 95, третья строка снизу и далее]. 91) В наших обозначениях Du D2,..., Dm, D{i\ D^,..., D^ (см. с. 496). 92) В наших обозначениях h(—x) = 0.
502 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы должны оставаться положительными при всех значениях S(b sb s2> •••) $2га-Ъ удовлетворяющих неравенствам «о ^ so ^ bo, bi ^ 5i ^ аь а2 ^ 52 ^ 62, ... ..., a2w-2 ^ S2m-2 ^ &2m-25 &2m-l ^ $2т-1 ^ а2т-1- При тех же условиях должно быть ао аг ак- 1 6i 62 ьк ах . а2 . -1 ак . &2 &з Ьк+i • .. afc_i .. а* • • «2А;-2 • h 1 • &fc+l • &2fc-l I Г ^ 1 So si 1 Sfc- Si 52 s* 5i . S2 • -1 Sfc . 52 53 Sfc+1 • • •• sk-i .. Sfc • . S2k-2 • Sfc 1 ♦ Sk+1 • «2*-l 1 r ^ 1 &0 6i bk- ai a2 Як h . 62 • -1 &fc • a2 аз Gfc+1 • • • bk-i .. 6* ♦ . &2A:-2 . ak • Gfc+1 • «2A;-1 при А: = 1,2, ...,m." Для того чтобы дать иную формулировку этой теоремы, связанную с задачей устойчивости, введем некоторые понятия и обозначения. Параметры Маркова 5o,5i, ...,52m-i (при п = 2т) или 5_i,5o,5i, ...,52m-i (при п = 2т + 1) будем рассматривать как координаты некоторой точки Р n-мерного пространства. Область устойчивости в этом пространстве будем обозначать через G. Область G характеризуется неравенствами (115), (116) (с. 496). Мы будем говорить, что точка Р = {si} "предшествует" точке Р* = {5*}, и писать Р -< Р* если SO < «о, 5i^5b 52^5j, 5з^5з, ..., 52m_i^52m-l, 5_i ^ 5!_х (при п = 2т + 1) (134) и хотя бы в одном из этих соотношений имеет место знак <. Если имеют место только соотношения (134) без последней оговорки, то будем писать Р ^Р*. Мы будем говорить, что точка Q лежит "межд\р точками Р и R, если Р -< Q -<; R. Каждой точке Р соответствует бесконечная ганкелева матрица S = ||si+fc||o° ранга т. Эту матрицу будем обозначать еще Sp. Теперь мы дадим теореме Маркова следующую формулировку. Теорема 21 (Маркова). Если две точки Р uR принадлежат области устойчивости G, то и любая точка Q, расположенная между точками Р и R, также принадлежит области G, т. е. из Р, R G G, P ^ Q ^ R следует Q G G. Доказательство. EtaP^Q^R следует, что две точки Р и R можно соединить отрезком кривой Si = (—l)i(fi(t) [а ^ £^ 75 * = 0,1,...,2тп — 1 и (при п = 2т + 1) i = — 1], (135)
§18. Теоремы Маркова и Чебышева 503 содержащим точку Q, так, чтобы: 1) функции (fi(t) были непрерывными, монотонно возрастающими и дифференцируемыми при изменении t от t = а до t = 7; 2) чтобы значениям а, /3, j (а < (3 < 7) аргумента t соответствовали точки Р, Q, R на кривой. При помощи величин (135) составим бесконечную ганкелеву матрицу S = = S(t) = ||si+fe||o° ранга т. Рассмотрим часть этой матрицы, а именно прямоугольную матрицу So Si ... Sm_i Sm Si S2 ... Sm Sm_|_i и (Л*\(\\ Sm—1 S2m-2 S2771-I Согласно условию теоремы при t = а и при t = 7 матрица S(t) вполне положительна ранга га, и потому все миноры матрицы (136) порядка р = 1,2,..., га положительны. Мы докажем, что это свойство сохраняется при любом промежуточном значении t (a < t < 7). Для р = 1 это очевидно. Докажем это утверждение для миноров р-го порядка в предположении, что оно верно для миноров (р — 1)-го порядка. Рассмотрим произвольный минор р-го порядка, образованный подряд идущими строками и столбцами матрицы (136): V Од Sq+1 Sq+1 Sq+2 Sq+p-1 Sq+P Sq+p-l sq+p • • • Sg+2p-2 Вычислим производную этого минора: fe = 0,l,...,2(m-p) + l]. p-i dDpq) ds, dt P ^0dsQ+i+k dt q+i+k №> где dDp }/dsq+i+k (i,k = 0, l,...,p — 1) — алгебраические дополнения элементов определителя Dp К Поскольку, согласно допущению, все миноры этого определителя положительны, то Ubq+i+k >0 (г,А; = 0,1,...,р-1). (137) С другой стороны, из (131) находим (-1) q+i+k dsq+j+k _ d(fq+i+k dt dt ^0 (г,& = 0,1,...,р-1). (13Г) Из (134), (135) и (136) следует (-iy±D^>0 fa = 0,l,...,2(m-p) + l; р=1,2,...,га; a ^ t^ 7)- (137") dt ^q) Таким образом, каждый минор Dp при q четном монотонно возрастает (точнее, не убывает), а при q нечетном монотонно убывает (точнее, не возрастает) при возрастании аргумента t от значения t = а до значения t = 7, и поскольку при t = aut = j этот минор положителен, то он будет положительным при любом промежуточном значении t (a < t < 7).
504 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Из того, что положительны миноры матрицы (136) порядка р — 1 и миноры р-го порядка, образованные подряд идущими строками и столбцами, уже следует, что все миноры р-го порядка матрицы (136) положительны93). Из доказанного следует, что при любом t (а $С £ $С 7) величины so, si,..., «2т-1 и (при п = 2т + 1) 5_i удовлетворяют неравенствам (115) и (116), т. е. при любом t эти величины являются параметрами Маркова для некоторого многочлена Гурвица. Другими словами, вся кривая (135), а значат, и точка Q лежат в области устойчивости G. Теорема Маркова доказана. Примечание. Поскольку доказано, что каждая точка кривой (135) принадлежит области G, то при любом t (a $C t ^ 7) величины (135) определяют вполне положительную матрицу S(t) = ||si_|_fc(£)||o° ранга т. Поэтому неравенства (137), а следовательно, и (137") имеют место при любом t (а ^ £ ^ /3), т. е. с возрастанием t любое Dp возрастает, если q четно и убывает, если q нечетно [q = 0,1,..., 2(га — р) + 1; р = 1,..., т]. Другими словами, из Р ■< Q ■< R следует (-i)*4g)(P) ^ (-i)^(Q) ^ (-i)^(R) [<? = 0,1,...,2(га-р) + 1; р= 1,...,ш]. Эти неравенства при q = 0,1 дают неравенства Маркова (с. 502). Рассмотрим теперь упомянутую в начале этого параграфа теорему Чебышева- Маркова. Снова приведем цитату из мемуара А. А. Маркова94). "Теорема о корнях. Если числа ао, «1, <*2, . . ., «2771-2, «2m-l, 5(b 5Ъ s2i • • •> $2771-25 52т-Ъ Ьо, bi, 62, . . ., &2га-2, fem-1 удовлетворяют всем условиям предыдущей теоремы95), то уравнения а0 ах «2 Q"m 50 51 «2 5га Ьо h 62 Ьт ai а2 а3 0"т-\-1 • 51 52 53 5тп+1 • h h h Ьщ+l • .. am-i CLm .. am+i .. a2m-i 5772 — 1 5m • • 5m_|_i • • 52m-l • • &7П-1 • • bm • • &771+1 • • &2771-1 1 X X2 xm 1 X x2 Xм 1 X x2 xm 93) Это следует из детерминантного тождества Фекете (см. [7, с. 306, 307]). 94) См. [25, с. 103, 5-я строка сверху и далее]. 95) Имеется в виду предыдущая теорема Маркова — теорема об определителях (с. 502).
§18. Теоремы Маркова и Чебышева 505 степени т относительно неизвестной х не имеют ни кратных, ни мнимых, ни отрицательных корней. И корни второго уравнения больше соответственных корней первого и меньше соответственных корней последнего уравнения." Выясним, в какой связи эта теорема находится с областью устойчивости в пространстве параметров Маркова. Полагая f(z) = h(z2) + zg(z2) и h(-v) = c0vm + dv™-1 + ... + cm (со ф 0), мы из разложения (105) U[v) — --Г-,—г — -s-i H Ь — + ... h(—v) v v2 получим тождество -9(-v) = (-в-l + J + £ + -) (<*""* + CXVm-1 + ... + Cm). Приравнивая нулю коэффициенты при степенях v~l,v~2, ...,v~m, найдем SoCm +SiCm-i + ... + SmC0 =0, s\cm + S2Cm-i +... + sm+iCo =0, (138) Sm-\C"m + SmCm-i + ... + S2m-lQ) = 0; к этим соотношениям добавим уравнение h(-v) = 0, (139) записанное так: Ст + VCm-x + ... + VmC0 = 0. (139') Исключая из (138) и (139') коэффициенты cq,ci, ...,cm, представим уравнение (139) в виде 50 51 52 51 52 53 5772,-1 Sm . . . 5m+i 1 V v'2 = 0. (139") 5m+l • • • 52m-l Vn Таким образом, алгебраическое уравнение в теореме Чебышева-Маркова совпадает с уравнением (139), а неравенства, налагаемые на величины so, $ь •••? 82т-ъ совпадают с неравенствами (115), определяющими область устойчивости в пространстве параметров Маркова. Теорема Чебышева-Маркова выясняет, как меняются корни щ = —v±, и?, = = —V2, ..., um = —vm многочлена h(u), когда соответствующие параметры Маркова 5o,5i, ...,S2m-i изменяются в области устойчивости. Первая часть теоремы утверждает известные нам факты: при выполнении неравенств (115) все корни ui,U2,:;Um многочлена h(u) простые, вещественные и отрицательные96). Мы будем обозначать эти корни так: Til(P), Т12(Р), .», tim(P), где Р — соответствующая точка области G. Тогда вторая (основная) часть теоремы Чебышева-Маркова может быть сформулирована так. ') См. теорему 13 на с. 490.
506 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы Теорема 22 (Чебышева-Маркова). Если Р и Q — две точки области G и точка Р "предшествует" точке Q, Р -< Q, (140) то tii(P) < tii(Q), ti2(P) < ti2(Q), ..., мто(Р) < uw(Q)97). (141) Доказательство. Коэффициенты многочлена h(u) можно выразить рационально через параметры во,«ь ...,S2m-i 98)- Тогда из /i(tti) = 0 (г = 1,2, ...,т) следует") ^^ + Л><)^ = 0 (t = l,2,...,m; / = 0,l,...,2m-l). (142) С другой стороны, дифференцируя почленно разложение 9(u)_=s_ +£о_£]_ + £2_ ^ h(u) и и и3 по параметру si, найдем 1~Щй) ~ = ~У^+ :^^г W* (143) Умножая обе части этого равенства на многочлен h2(u)/(u — щ) и обозначая через Сц коэффициент этого многочлена при степени и1, получим ( Л dh{u) Ни) dg{u) _ 9W dai = (-l)lCa + (ш) и — щ dsi и — щ и Приравнивая коэффициенты при 1/и (вычеты) в левой и правой частях равенства (144), найдем (-1)'-у«1)^=С«, (145) что в сочетании с (142) дает dm _ {-l)lCu dsi д{щ)Н'(т) Вводя величины * = $М (< = 1'2'-'т)' (146) мы получим формулу Чебышева-Маркова ^ = ШШ (< = 1'2--т' ' = 0,1,...,2т-1). (147) Но в области устойчивости величины Щ (г = 1,2, ...,т) положительны [см. (90х) на с. 488]. То же можно сказать и о коэффициентах Сц. Действительно, 7 2/ \ —УУ- = eg(u + vi)2 ... (и + Vi-i)2(u + Vi)(u + vi+i)2 ... {и + vm)2, (148) и — и 97) ДруГИМИ СЛОВаМИ, КОрНИ Ui,U2,...,Um ВОЗраСТаЮТ При ВОЗраСТаНИИ So,S2, ••♦,52m-2 И убЫВаНИИ Sl,S3,...,S2m-b 98) Хотя бы из уравнений (138), положив в них для конкретности со = 1. 99) Здесь dh(ui)/dsi = [dh(u)/dsi\u=ui.
§19. Обобщенная задача Рауса-Гурвица 507 где Vi = — щ > 0 (г = 1,2,..., га). Из (148) видно, что все коэффициенты С и в разложении h2(u)/(u — щ) по степени и положительны. Таким образом, из формулы Чебышева-Маркова получаем (-1)1 ^ > 0. (149) При доказательстве теоремы Маркова мы показали, что любые две точки Р -< -< Q области G можно соединить дугой кривой si = (—l)l(pi(t) (I = 0,1,... ...,2т — 1), где (fi(t) — монотонно возрастающие дифференцируемые функции t [t изменяется в пределах от а до /3 (а < /3), причем t = а соответствует точка Р, a t = /3 — точка Q]. Тогда вдоль этой кривой в силу (149) 10°) 2т-1 i=E£f^, ^0 (а^Д. 1=0 dsi dt dt (150) Отсюда, интегрируя, получаем Щ{1=а) = Щ(Р) < Щ{1=(3) = Ui(Q) (i = 1,2,..., га). Теорема Чебышева-Маркова доказана. § 19. Обобщенная задача Рауса-Гурвица В этом параграфе мы дадим правило определения числа корней в правой полуплоскости для многочлена f(z) с комплексными коэффициентами. Пусть f(iz) = b0zn + hz71'1 + ... + bn + i (a0zn + ai^"1 + ... + an), (151) где ao,ai, ...,an,bo,bi, ...,bn — вещественные числа. Если n — степень многочлена f(z), то &о + io>o ф 0. Не нарушая общности, можем считать, что ао ф 0 [в противном случае мы бы заменили многочлен f(z) на if(z)]. Мы будем предполагать, что вещественные многочлены a0zn + axz71-1 + ... + an, b0zn + Mn_1 + ... + bn (152) взаимно просты, т. е. что результант этих многочленов отличен от нуля101): V2n = «0 bo 0 0 Oi .. bi .. ао .. bo .. an bn Q"n-1 Ьп-1 0 . 0 . an . bn • .. 0 .. 0 .. 0 .. 0 #0. (153) Отсюда следует, в частности, что многочлены (152) не имеют общих вещественных корней и что, следовательно, многочлен f(z) не имеет корней на мнимой оси. Обозначим через к число корней f(z), имеющих положительные вещественные части. Рассматривая область в правой полуплоскости, ограниченную мнимой осью и полуокружностью радиуса R (R-> оо), и повторяя дословно рассуждения, 100) Поскольку (—l)ldsi/dt = dtpi/dt ^ 0 (a ^ t ^ /?), причем хотя бы для одного / существуют такие значения t, при которых {—l)ldsi/dt > 0. 101 ) V2n — определитель порядка 2п.
508 Гл. XVI. Проблема Рауса-Гурвица и смежные вопросы приведенные на с. 449 для вещественного многочлена f(z), получим формулу для приращения aigf(z) вдоль мнимой оси: Д±~аг6/(*) = (п-2*)тг. (154) Отсюда в силу (151) и условия ао ф 0 получаем J+O = П "°° a0zn+aizn-1 + ... + zn Пользуясь теоремой 10 § 11 (с. 479), отсюда получаем fc = y(i,v2,v4,...,v2n), ■2k. (155) (156) где '2р «О 0 0 «1 h do bo a>2p-i Ь2р-1 0>2p-2 Ь2р-2 (p = 1,2, ...,n; a,k = bk = 0 при к>п). (157) Нами получена Теорема 23. Если дан комплексный многочлен f(z), для которого f(iz) = b0zn + Mn_1 + ... + bn + i(a0zn + aizn_1 + ... + an) (a0 # 0), причем многочлены aozn + ... + an i/ &o^n + ... + bn взаимно просты (V2n 7^ 0), mo число корней многочлена f(z), расположенных в правой полуплоскости, определяется формулами (156), (157). При этом102), если среди определителей (157) имеются равные нулю, то для каждой группы подряд идущих нулей (V2fc Ф 0) V2/l+2 = ... = V2fc+2p = 0 (V2/l+2p+2 ф 0) (158) при подсчете V(l, V2, V4, •••, V2n) следует положить signV2^+2i = (-lytf-^signVa* (j = 1,2,...,р), (159) или, что то же, ^(V2/l, V2/j+2,..., У2/г+2р, V2/i+2p+2) = p + 1 2 p+1 - при p нечетном, при р четном, € = (—l)p/2 sign V2/1+21 +2p+2 v2* Предоставляем самому читателю проверить, что в частном случае, когда f(z) — вещественный многочлен из теоремы 23, можно получить теорему Рауса-Гурвица (см. § б)103). В заключение отметим, что в этой главе были рассмотрены приложения квадратичных форм (в частности, ганкелевых форм) к одной задаче распределения корней многочлена в комплексной плоскости — к задаче Рауса-Гурвица. Между тем квадратичные и эрмитовы формы имеют интересные приложения и к другим задачам распределения корней. Читателя, интересующегося этими вопросами, мы отошлем к уже цитированному нами обзору М. Г. Крейна и М.А. Наймар- ка [16]. ш) См с. 479. ш) Удобные алгоритмы для решения обобщенной задачи Рауса-Гурвица можно найти в монографии [27] и статье [26]. См. также [37].
ДОБАВЛЕНИЕ НЕРАВЕНСТВА ДЛЯ СОБСТВЕННЫХ И СИНГУЛЯРНЫХ ЧИСЕЛ В. Б. Лидский Ниже рассматриваются неравенства, которым удовлетворяют собственные и сингулярные числа линейных операторов в n-мерном унитарном пространстве. Основное внимание уделяется неравенствам Неймана-Хорна и Вейля (§ 2 и 3), которые позволяют оценивать собственные числа оператора посредством его сингулярных чисел. В § 4 устанавливается максимально-минимальное свойство сумм и произведений собственных чисел эрмитовых операторов, обнаруженное Виландтом и Амир- Моэзом. Результаты § 4 используются далее в § 5 для доказательства неравенств, содержащих оценку собственных и сингулярных чисел операторов А + В и АВ. В § б рассматривается задача о собственных числах суммы и произведения эрмитовых операторов в постановке И. М. Гельфанда1). § 1. Мажорирующие последовательности В этом параграфе мы остановимся на ряде вспомогательных вопросов, связанных с конечными числовыми последовательностями. Рассмотрим две убывающие последовательности чисел OL\ ^ OL2 ^ ... ^ <*п, (1) а[ >а'2> ... ^ а'п, (2) каждая из которых содержит п элементов. Принято говорить, что последовательность (2) мажорируется последовательностью (1), если а[ + а2 + ... + а'т ^ а\ + а2 + ... + ат (1 ^ т ^ п - 1), (3) а[ + а2 + ... + а'п = а\ + а2 + ... + ап. (3') При выполнении условий (3) и (3') пишут а' < а. (4) Квадратную матрицу Т = \\Uj\\i мы будем в дальнейшем называть двояко стохастической, если матрицы ТиТ' являются стохастическими, другими словами, если tij ^ О, п ^2Uj = l, l^i^n, (5) п $>i = l, lO'^n. (5') г=1 *) Автор приносит благодарность А. С. Маркусу, прочитавшему рукопись настоящей статьи и сделавшему ряд полезных замечаний.
510 Добавление Справедливо следующее утверждение (см. [35, с. 63]). Лемма 1. Последовательность а' мажорируется последовательностью а тогда и только тогда, когда существует двояко стохастическая матрица Т такая, что а' = Та. (6) Достаточность условия (6) доказывается легко2). В самом деле, 771 771 П П / 771 \ 71 Y а'к = YY **J'ai = Y [Y tkA ai = Y uiai' (?) k=l k=lj=l j=l \k=l / j=l Мы положили 771 uj = Ytk3 0-^э^п)- (8) k=l Легко видеть, что 0 ^ изj ^ 1 и n m / n \ Y^^YiY^j =m- (9) j=i k=i \j=i / На основании равенства (7) имеем 771 771 771 П Yai" Ya^ = Yai -Y^w= j=i k=i j=i j=i = ai(l -ui) + ...+ am(l -um) -a;m+iQ:m+i - ... - unan. (10) Уменьшая слагаемые в правой части, получаем 771 771 Y ai ~ Y а'з ^ aw(1 ~ Wl) + - 3=1 3=1 ... + am(l - ит) - LOm+iam - ... - шпат = ат(т - га) = 0. (10') Следовательно, неравенства (3) имеют место. Так как, далее, при т = п, согласно (8), loj = 1 (j = 1,2, ...,п), то в силу (7) справедливо и равенство (3'). Таким образом, достаточность условия (6) установлена. Доказательство необходимости этого условия требует известных усилий. Мы проведем его по индукции3). В случае п = 1 последовательности содержат по одному элементу, а[ = ах, и матрица Т, очевидно, существует. Предположим, что утверждение справедливо для случая последовательностей из п — 1 элементов и рассмотрим две последовательности а' и а, которые связаны соотношением а' < а и состоят из п элементов. Из условия а[ ^ а\ и равенства (3') следует, что ап ^ а[ ^ а\. Поэтому найдется такое к (1 ^ к ^ п — 1), при котором afc+i ^ a[ ^ a*. (11) Следовательно, при некотором т (0 $С т ^ 1) имеем а[ = так + (1 - т)а*+1. (12) 2) В формуле (6) под а и а' следует понимать столбцовые матрицы с элементами (1) и (2). 3) В книге [35] приводится доказательство, основанное на другой идее. Настоящее, более короткое, доказательство принадлежит А. С. Маркусу (см. [113]).
§1. Мажорирующие последовательности 511 Наряду с а' и а рассмотрим две последовательности: а2, ад, ..., а'Л, а'к+1, а'к+2, ..., а'п (13) и аЬ а2, .-, «fe-l, «fe + «£+1 -«i, «£+2, .-, «n> (13') каждая из которых содержит п — 1 элементов. Обозначим эти последовательности через а' и а соответственно. Учитывая (11), легко заключить, что элементы последовательности а расположены в порядке убывания. Без труда проверяется также соотношение а' < а. Поэтому в силу индуктивного предположения существует такая двояко стохастическая матрица Т = \\UjWi~1, что ^' = Та, или, в развернутой записи, a's+l = t8\0L\ + ... + t8ik-\OLk-\ + tsk(ak + afc+i - a[) + + ts,k+\OLk+2 + • •• + t8tn-ian (1 ^ s ^ n - 1). Подставив сюда а[ из равенства (12), при 1 ^ 5 ^ п — 1 получим a's+l = t8\<x\ + ... + tsk(l - т)ак + t8kT0tk+i + t8yk+i<*k+2 + ••• + t8yn-ian. Добавляя сюда равенство а[ = так + (1 — т)а*+1, легко убеждаемся в том, что последовательности а' и а связаны двояко стохастической матрицей II 0 0 0 ... т 1-т ... О II j, _\\ hi ti2 h3 ... *ijfe(l — т) hki~ • •• h,n-i II tn-1,1 tn-1,2 tn-1,3 ••• tn-itk(l — T) tn-\ykT ... £n_i,n_i || Лемма доказана полностью. Нам понадобится ниже также следующее предложение (см. [232]). Лемма 2. Пусть cp(t) — непрерывная выпуклая4) монотонно возрастающая функция. Пусть а[ >а'2> ... > а'р, (14) OL\ ^ «2 ^ ••• ^ «р (15) г/ а[ + а2 + ••• + ат ^ а1 + а2 + ••• + ост (1 ^ га ^ р). (16) Тогда у>(а!) + у?(а2) + ... + (р(а'р) ^ (р(аг) + ср(а2) + ... + у>(ар). (17) Доказательство. Предположим сначала, что при га = р в соотношении (16) имеет место равенство. Тогда последовательность а' мажорируется последовательностью а и, согласно лемме 1, v а'^^еМ, lOO, (18) i=i где t$j — элементы двояко стохастической матрицы. В силу выпуклости (p(t) из равенства (18) следует5), что v ср(а'8)<:^*Мч)- (19) 4) Функция f(t) называется выпуклой на интервале, если для любых точек этого интервала <р((х + у)/2) ^ [</?(#) + <р(у)]/2. 5) Доказательство неравенства (19) для непрерывных выпуклых функций проводится по индукции (см. [35, с. 93]).
512 Добавление Суммируя неравенства (19), получаем J2 <p(a's) < £ (Е *'А VW = Е *>("*)• (2°) S=l j=l \S=1 J j = l Таким образом, в указанном случае неравенство (17) выполняется. Рассмотрим теперь общий случай. Пусть в соотношении (16) при т=р имеет место знак <. Положим р v Наряду с последовательностями (14) и (15) рассмотрим две последовательности: а[ ^ а'2 ^ ... ^ а'р ^ а'р+1 (21) и OLi ^ а2 ^ ... ^ ар ^ ар+1, (22) где а^+1 и ap+i — произвольные два числа, удовлетворяющие неравенствам (21) и (22) и соотношению <*p+i = о/р+1 - с. (23) Легко видеть, что при таком выборе <х'р+1 и ap+i последовательность (21) мажорируется последовательностью (22), и по доказанному имеем <р(а[) + (р(а'2) + ... + (р(а'р) + ^«+i) ^ ^ (р(аг) + <^(а2) + ... + <р(ар) + <^(<Vbi). (24) Так как, далее, <p(i) — монотонно возрастающая функция и a^+1 > ap+i, то <^(ap+1) ^ y?(ap+i), и из (24) снова следует неравенство (17). Лемма доказана полностью. Замечание. Из наших рассуждений следует, что в том случае, когда последовательность (14) мажорируется последовательностью (15) [т. е. при т = р в (16) достигается равенство], неравенство (17) справедливо для любой непрерывной выпуклой функции (p(t) (возрастание является излишним требованием). § 2. Неравенства Неймана-Хорна Пусть А — линейный оператор, действующий в n-мерном унитарном пространстве R. Собственные числа неотрицательного эрмитова оператора6) л/А*А (см. с. 243) принято называть сингулярными числами оператора А. В настоящем параграфе мы установим неравенства, связывающие сингулярные числа произведения двух операторов с сингулярными числами сомножителей. Пусть yi,y2, ...,Ут и zi,Z2, ...,zm — два набора векторов из R. Введем сокращенное обозначение для определителя порядка га, связанного с данными наборами: (yi,zi) (y2,zi) ... (ym,zi) (У1,22) (y2,Z2) ... (yw,Z2) [(y<>^)] = (yi,zm) (y2,zm) ... (ym,zm) (25) ') Мы будем пользоваться также обозначением (А*А)1/2.
§2. Неравенства Неймана-Хорна 513 Рассмотрим далее неотрицательный эрмитов оператор Н, действующий в R. Собственные значения оператора Н занумеруем в убывающем порядке: hi^h2^ ... ^ hn > 0. (26) Справедливо следующее предложение, принадлежащее А. Хорну ([191,Ь]). Лемма 3. Пусть хь х2, ..., xm (га ^ п) (27) — произвольный набор векторов из R. Тогда1) [(Hxi.xj)] ^ /цЛ2...Лт[(х<,х^)]. (28) Для доказательства рассмотрим ортонормированный базис собственных векторов оператора Н: еь е2, ..., еп (29) и разложим каждый из векторов х^ (г = 1,2, ...,га) по базису (29). Вычисляя скалярное произведение, получаем п п (rlx^Xjfj = / j дДх^, esj(Xjf, esj = / v дДХг,в5де5,х^) (qo^ s=l s=l ^ ' (z,i = l,2,...,m). Равенство (30) позволяет рассматривать матрицу определителя [(Нх^,х^)] как результат умножения двух прямоугольных матриц размеров т х п и п х га. Разлагая определитель по формуле Бине-Коши (см. с. 17), получаем в принятых обозначениях для определителей [(Hx,,Xj)] = Y, [(x,,/ises)][(es,x,)]. (31) Здесь (xl -> i^si^si) ••• (xm) ",siesiJ (Xi, tlS2GS2) ... (Xm, flS2eS2) [(xi,h8e8)] = (310 а суммирование ведется по всевозможным наборам натуральных чисел 1 ^ s\ < < s2 < ... < sm ^ п. Оценив правую часть (31) по неравенству Коши-Буняковского, получим [(Нх«,х,)]2 < ( £ |[(х;,Л*е,)]|2)( £ |[es,x,]|2). (32) \l^si<...<sm^n / \l^si<...<sm^n / Вторая сумма в правой части неравенства (32) равна определителю Грама [(х^, х^)]. В этом легко убедиться, положив в формуле (31) Н = Е, где Е — единичный оператор. Впрочем, соответствующее равенство отдельно доказано на с. 222 (формула (26)). В первой сумме правой части (32) вынесем из каждого определителя (31') произведение hSlhS2 ... hSrn и заменим его большим h\h2 ... hm. В результате получим [(Нх,,х,)]2^^/г1...^[(х,,х,)]2. 7) Определитель, стоящий в левой части (28), неотрицателен. Действительно, полагая Нх/2Хг = у?, получаем [(Нх;,х,)] = [(Н1'2*, Н1'^)] = [(уьУ;)] ^ 0. 17 Ф.Р. Гантмахер
514 Добавление Извлекая из обеих частей этого неравенства квадратные корни, мы устанавливаем справедливость неравенства (28). Докажем далее следующий факт. Лемма 4. Пусть К — произвольный оператор в R и х\ ^ х2 ^ ... ^ хп (33) — его сингулярные числа. Тогда для произвольного набора векторов xi,x2,...,xm (га $C п) справедливо неравенство [(Кх«,Кх,)] ^ х2^ ... **,[(*, х,)]. (34) Неравенство (34) немедленно следует из леммы 3 при Н = К*К. Установим, наконец, еще одно вспомогательное предложение. Лемма 5. Пусть А и В — линейные операторы в R, С = АВ, и пусть as, (3S и 7s (s = 1,2, ...,n) — сингулярные числа соответственно А, В и С, занумерованные в убывающем порядке. Тогда при любом га ^ п справедливы неравенства8) 7172 ». 7m ^ «1«2 .- OLmPifo ... An- (35) Для доказательства рассмотрим ортонормированный базис ei,e2,...,en собственных векторов оператора С*С. Последовательно применяя (34), получаем [(СеьСе,)] = [(АВе<, АВе,-)] ^ а\а\ ...ат[(ВеьВе,)] ^ ^^^...^^...^[(е^е,)]. (36) С другой стороны, поскольку е^ (1 $С г $С га) — собственные векторы С*С, мы имеем [(Се,, Се,-)] = [(С'Се^)] = 7l2722 ... -£[(еи е,)]. (37) Следовательно, (35) имеет место. Мы в состоянии теперь доказать следующую теорему, которая является основной целью настоящего параграфа. Теорема 1 (Нейман-Хорн [218,b; 191,b]). Пусть А,В и С — линейные операторы в n-мерном унитарном пространстве R. Пусть С = АВ, и пусть a$,Ps и 7s (s = l,2,...,n) — сингулярные числа операторов А, В и С, занумерованные в порядке убывания. Пусть f(x) — непрерывная при х ^ О функция такая, что (p(t) = f(eb) — монотонно возрастающая выпуклая функция параметра t. Тогда при всех т ^.п справедливы неравенства9) т т £/(7.К £/(«.&)• (38) s=l s=l Доказательство. Пусть сначала операторы А и В невырождены, тогда все числа as, /3S и 7s положительны. Логарифмируя неравенства (35), получаем 771 771 ^ln7s^^ln(as&) OUm^n). (39) s=l s=l 8) При т = n в формуле (35) достигается равенство. Действительно, имеем С*С = = В*А*АВ; отсюда |С*С| = |А*А||В*В|. Поскольку определитель матрицы оператора равен произведению его собственных 2 2 2 2 2 2 /э2 /э2 ril чисел, то 7Г72... In = <*i<*2 ... ««#/% - /%• 9) Неравенства (38) установлены А. Хорном в работе [191,Ь]. В работе Дж. Неймана п п [218,Ь] доказано лишь, что /^7e ^ />а«^' °Днако развитый там метод позволяет s=l s=l доказать неравенства (38) в общем виде.
§3. Неравенства Вейля 515 На основании леммы 2 имеем т т 5>(1п Ъ) ^ ^(lnas&) (I ^ m <: п). (40) 5=1 5=1 Так как (p(t) = /(е*), то отсюда следует (38). В случае вырожденных операторов неравенства (38) устанавливаются по непрерывности. Замечание 1°. В случае f(x) = ха (а ^ 0) получаем т т £-£<$>?# (Km^n). (41) 5=1 5=1 В таком виде неравенства (38) встречаются в приложениях чаще всего. Замечание 2°. При т = п неравенство (39) превращается в равенство (см. сноску на с. 514). Поэтому при т = п неравенство (40) справедливо для любой непрерывной выпуклой функции (p(t) (см. замечание к лемме 2). В частности, неравенство (41) при т = п справедливо и для а < 0. Замечание 3°. Пусть di ^ ol2 ^ ... ^ ап — сингулярные числа оператора А, и пусть &i,i ^ а/,2 ^ ••• ^ оц,п — сингулярные числа оператора А* (I — натуральное число). Тогда при любом а^Ои любом 1 ^ т ^ п т т £<.^£«?'. (42) 5=1 5=1 Неравенства (42) докажем индукцией по /. При I = 1 соотношение (42) очевидно; пусть оно выполняется для / — 1. Так как А1 = А*-1 • А, то, согласно (41), т т Y,<*is ^ 5>f-i,X (1 < m ^ n). (43) 5=1 S=l Применяя к правой части (43) неравенство Гёльдера10) с р = 1/(1 — 1) и q = I (p~l + q~x = 1), получаем т / т \1/Р/т \г/я £о$.£ £<i, 5>Г - (44) 5=1 \5=1 / \5=1 / По предположению индукции имеем для первой суммы в правой части (44) / т \1/Р / т \1/Р / т \ 1~1/1 Учитывая, что во второй сумме правой части (44) q = /, из (44) легко получаем т т 5>ir..<£«'/. 5=1 5=1 что и требовалось доказать. В частности, при а = 2 и m = n из формулы (42) следует, что Sp(A*'A') <С Sp(A*A)'. (45) 10) См. [35, с. 40]. 17*
516 Добавление § 3. Неравенства Вейля В настоящем параграфе мы выведем принадлежащие Г. Вейлю неравенства, которые позволяют оценивать собственные числа линейного оператора А посредством его сингулярных чисел11). Нам понадобится следующее важное предложение. Лемма 6. Пусть Xs (s = 1,2, ...,n) — собственные числа линейного оператора А, занумерованные так, что |Ai|^|A2|^...^|An| (46) и пусть ai ^ а2 ^ ... ^ ап (47) — сингулярные числа этого оператора. Тогда при любом т $С п справедливы неравенства |Ai||A2|...|Am| ^aia2...am. (48) Для доказательства рассмотрим ортонормированный базис еье2, ..., еп, (49) в котором матрица оператора А имеет треугольный вид. Существование такого базиса устанавливается теоремой Шура (см. гл. IX, с. 235). Мы воспользуемся леммой 4 и двумя способами оценим определитель [(Ае»,Ае,)]?\ (50) Пусть aij — элементы матрицы оператора А в базисе (49). Имеем Ае^ = S^ а^-е*. Поскольку а^ = 0 при г > j, то г=1 з Aej=J2aijej (51) и i=1 /k I \ 9 (Аел, Aei) = I ^ aikeh ^ а«е< I = ^ <цкац (a = min (fc, /)). (52) \г=1 г=1 / г=1 Формула (52) позволяет записать определитель (50) в виде следующего произведения двух определителей: [(Ае*,Ае|)]Г = «и «12 «13 0 «22 «23 0 0 «33 .. 0 .. 0 .. 0 «lm «2m «Зя «И 0 0 0 «12 «22 0 0 «13 • «23 • «33 • 0 .. aim •• «2m • • «3m Q"mm Поскольку an = А; и оба определителя в правой части (53) равны произведению диагональных элементов, то [(АеьАе/)]Г = |А1|2|А2|2...|Ат|2. (54) С другой стороны, в силу леммы 4 [(Aefc,Aei)]r^a?al...a^, (55) так как [(е^е^)]™ = 1. 11) Определение см. в § 2.
§4- Свойства собственных чисел эрмитовых операторов 517 Неравенства (48) следуют теперь из соотношений (54) и (55). Лемма б доказана12). Используя неравенства (48), мы сейчас докажем следующую теорему. Теорема 2 (см. [256]). Пусть А — линейный оператор, и пусть Xs и as (s = 1,2, ...,n) — его собственные и сингулярные числа, занумерованные так же, как и в лемме 6. Пусть f(x) — непрерывная при х^О функция такая, что (p(t) = f(eb) — монотонно возрастающая выпуклая функция параметра t. Тогда при любом т $С п справедливы неравенства т т £Я1Л*1К£ /(«.)• (56) S=l 8=1 Доказательство. Если оператор А невырожден, то согласно(48) получаем т т 5>|А.|<5>«, (57) S=l 8=1 при всех га ^ п. Отсюда на основании леммы 2 уже следуют неравенства (56). Если оператор А вырожден, то неравенства (56) могут быть получены по непрерывности. Теорема доказана. Замечание 1°. При т = п неравенство (48) превращается в равенство, так как в этом случае равенство имеет место в формуле (55). Следовательно, при га = п равенство достигается и в (57). Используя замечания к лемме 2, п п мы можем заключить, что /~^/(|As|) ^ /J/(<**) для любой функции f(x), если S=l S=l только функция <p(t) = f(eb) выпукла. Возрастание оказывается излишним требованием. Например, при любом вещественном а f>,r^f>J. (58) 8=1 8=1 Замечание 2°. Рассмотрим функцию f(x)=\n(l + xz), х^О, (59) где z фиксировано и положительно. Легко проверить, что функция (59) удовлетворяет всем условиям теоремы 2. Поэтому при любом га (1 ^ га ^ п), имеем т т £ In (1 + |A.I*)<£ Ml+«.*)• 8=1 8=1 Потенцируя, получаем неравенство т т Ц(1 + |А.|«) < Ц(1 + а.г), (60) S=l 8=1 которое используется в теории интегральных операторов. 12) Эту лемму можно доказать иначе, если воспользоваться теоремой 4 гл. III, согласно которой произведение А1А2 ... Ат является собственным числом ассоциированной матрицы 2tm для матрицы А. Пусть х — соответствующий собственный вектор 2lm; умножая равенство 2lmx = A1A2... Amx на сопряженное, получаем |AiAa...Am|a = x*as,a",x. Х*Х Матрица 2i^2tm является ассоциированной для А*А, и, следовательно, наибольшее собственное число 2l^2lm равно a\al... о?ш. Поскольку дробь в правой части последнего равенства не превосходит а\а\ ...а^, мы приходим к неравенствам (48).
518 Добавление § 4. Максимально-минимальные свойства сумм и произведений собственных чисел эрмитовых операторов В настоящем параграфе мы получим обобщение ряда результатов, относящихся к экстремальным свойствам собственных чисел эрмитовых операторов (см. § 7 гл. X). 1°. Для дальнейшего удобно придать теореме 12 гл. X, устанавливающей основное максимально-минимальное свойство собственных чисел, несколько иную формулировку. Пусть А — эрмитов оператор, действующий в n-мерном унитарном пространстве R, и пусть Ai ^ Л2 ^ ... ^ Лп (61) — его собственные числа. Обозначим через R^ ^-мерное подпространство пространства R. Справедлива следующая формула: Afc = max min (Ax,x). (62) Kq xgR9,(x,x)=1 В этой формуле минимум берется по всем нормированным векторам х, принадлежащим некоторому фиксированному подпространству Rg, а затем берется максимум по всем ^-мерным подпространствам. Равенство (62) составляет содержание теоремы 12 гл. X и представляет собой видоизмененную запись формулы (79). Действительно, всякое g-мерное подпространство Rg может быть рассмотрено как совокупность векторов, удовлетворяющих некоторой системе п — q независимых линейных уравнений Lk(x)=0 (к = 1,2,...,n-q) (63) п (см. обозначения на с. 279). Если ввести эрмитову форму Б(х,х) = /_^|#s|2 и 5=1 выбирать лишь нормированные векторы х, то тогда Б(х,х) = 1 и /x(-,LbL2,...,Ln_J = „min (Ax,x). (64) V-D / xeRg,(x,x)=i В силу (79) гл. X получаем A(n_g+i) = max min (Ax,x), (65) Kq xeRg,(x,x)=i где n — q + 1 — номер собственного числа оператора А при нумерации, принятой в гл. X (в возрастающем порядке). Легко сообразить, что при новой нумерации A(n_g_|_i) = Xq. Таким образом, соотношение (62) действительно имеет место. Легко также видеть, что, согласно (62), Ai = max (Ax,x), (66) (х,х)=1 An = min (Ax,x). (66') (х,х)=1 Непосредственным обобщением равенства (бб) является следующее предложение, принадлежащее Фань Цзы [177,а]. Теорема 3. Для любого эрмитова оператора А с собственными числами (61) и любого т ^ п справедлива формула Ai + А2 + ... + Am = max (Ах*,х*). (67) (х<,х,-)=й,-
§4- Свойства собственных чисел эрмитовых операторов 519 Максимум в правой части (67) берется по всем системам взаимно ортотональных нормированных векторов хь х2, ..., хт. (68) Для доказательства рассмотрим ортонормированиый базис собственных векторов оператора А: еь е2, ..., еп. Полагая х^ = Y"Xxj,es)es, легко найдем ^i n (AxbXi) = ^As|(xs,es)|2. (69) Расширим систему (68) до ортонормированного базиса в R и заметим, что п £|(хье8)|2 = (х,,х0 = 1, (70) S=l п ^|(Xi,es)|2 = (es,es) = l. (71) г=1 Матрица ЦКх^е^)!2!!^, таким образом, является двояко стохастической. Из равенств (69) следует, что последовательность (Ах^хО (г = 1,2,..,п) (72) связана с последовательностью (61) двояко стохастической матрицей. На основании леммы 1 (см. (10')) заключаем, что т т ^(Ах,,х,)^^А,. (73) г=1 г=1 Так как, далее, при х^ = е^ (1 ^ г ^ т) в формуле (73) достигается равенство, то теорема доказана. Если наряду с оператором А ввести оператор —А, собственные числа которого, очевидно, равны — As (5 = 1,2, ...,п), то на основании доказанной теоремы можно легко заключить, что 1 т Хп + An_i + ... + An_m+i = min УЧАх;,х;). (74) (х<,х,-)=*,-" Эта формула обобщает равенство (66'). Замечание. Из неравенств (73) на основании леммы 2 заключаем, что для любой непрерывной выпуклой возрастающей функции (p(t) и любого га имеет место неравенство т т г=1 г=1 где ац = (Ах*,х;). 2°. Дальнейшее обобщение формулы (62) связано с установлением максимально- минимальных свойств сумм собственных чисел эрмитова оператора А вида К +Ai2 +... + A;,, (75) где 1 ^ ii < 22 < ... < ц ^ п — некоторый набор натуральных чисел. Соответствующая теорема принадлежит Г. Виландту [259, е].
520 Добавление Сохраняя в основном ход рассуждений Виландта, мы докажем более общее предложение, установленное Амир Моэзом [149]. Этим предложением мы воспользуемся и при оценке произведений собственных и сингулярных чисел. Предварительно введем некоторые обозначения. Пусть 1 ^ ч < г2 < ... < гт ^ п (76) — фиксированный набор га натуральных чисел. Рассмотрим некоторую цепочку последовательно вложенных подпространств пространства R R,^ с R^2 С ... С Rzm) (77) где индекс указывает размерность подпространства. Пусть, далее, ХП 5 хг2 5 ••••> хгт V'°J — система га взаимно ортогональных и нормированных векторов: (xifc,xifc,) = 6kk', (79) таких, что xik eKik (& = 1,2,...,га). (80) Условимся называть систему векторов (78) системой, подчиненной цепочке (77). Теперь будет сформулирована и доказана Лемма 7 (см. [149]). Пусть А — эрмитов оператор с собственными числами Ai ^ А2 ^ ... ^ Ап, (61) и пусть У>(*Ь*2,...,*т) (81) — монотонно возрастающая по каждому аргументу функция га вещественных переменных (га $С п)13). Пусть (77) — некоторая цепочка подпространатств, построенная по фиксированному набору (76), и пусть xii 5 хг2 5 •••> хгт \Р^) — подчиненная этой цепочке система векторов. Обозначим через Рт оператор проектирования на подпространство [х^ ,х^2, ...,Хгт], (оо) натянутое на векторы (82), и пусть Ai ^ А2 ^ ... ^ Ат — собственные числа эрмитова оператора РтАРт, (83') рассматриваемого в подпространстве (83)14). Тогда ^(A»1,A<2,...,A<m)= max min у>(Аь А2,..., Ат). (84) RilcRi2c..cRimxifceR<fc Поясним, что в формуле (84) сначала выбирается некоторая цепочка подпространств и находится минимум по всем подчиненным ей системам векторов; после этого берется максимум по всевозможным цепочкам. 13) Предполагается, что область определения функции </?(£i,£2, ...,£m) содержит куб a^ts^p, s = l,2, ...,m, где а и Р — границы спектра оператора А. 14) Определение оператора проектирования дано на с. 237.
§4- Свойства собственных чисел эрмитовых операторов 521 Доказательство формулы (84), очевидно, сводится к доказательству следующих двух утверждений. A. К любой цепочке (77) всегда можно подобрать такую подчиненную систему (78), что _ _ _ <^(Ai,A2,...,Am) ^ <p(Aii,Ai2,...,Aim). (85) B. Существует такая цепочка (77), что для любой подчиненной ей системы векторов выполняется неравенство ^(AiuAfej—Л*т) <y>(Ai,A2,...,Am). (86) Докажем сначала утверждение В. Пусть еь е2, ..., еп (87) — базис собственных векторов оператора А, соответствующих собственным числам (61). Выберем следующую цепочку подпространств: R;fc =[ei,e2,...,eifc] (k = 1,2, ...,m), (88) и покажем, что в этом случае неравенство (86) выполняется всегда. Пусть (78) — система векторов, подчиненная цепочке (88), и пусть S/ — некоторое /-мерное подпространство, принадлежащее оболочке (83). Как мы видели [см. (62)], при любом выборе Si А/^ min (PmAPwx,x). (89) xeS*,(x,x)=i Заметив, что при х £ S/ имеем (РтАРтх, х) = (АРтх, Ртх) = (Ах, х), положим Легко видеть, что при этом S/ С R/, вследствие чего мы получаем min (Ax, x) ^ min (Ax, x). (90) xeSb(x,x)=i xeRb(*,x)=i Но минимум в правой части (90) достигается на собственном векторе е^ и равен А^. Сравнивая (90) и (89), заключаем, что А/ ^ Xii • Отсюда в силу возрастания функции (81) следует (86). Таким образом, утверждение В доказано. Утверждение А доказывается труднее. Мы проведем его по индукции, предполагая, что для операторов, действующих в (п — 1)-мерном пространстве, это утверждение справедливо. Заметим, что в случае п = 1 (пространство одномерно) А^ = А;15 и неравенство (85) имеет место для любой функции (p(t). Переходя к случаю n-мерного пространства, мы можем считать, что т < п. Действительно, при т = п подпространство (83) совпадает со всем пространством, \s = Xs (s = 1,2,...,п), и, следовательно, неравенство (85) справедливо. При т < п мы разберем два подслучая. 1) Пусть гт < п. Тогда существует некоторое (п — 1)-мерное подпространство Rn-i, содержащее все подпространства цепочки (77). Пусть Pn-i — оператор проектирования на подпространство Rn-i- Введем в Rn-i эрмитов оператор An_i =Pn_xAPn_i. (91)
522 Добавление Ясно, что для всех х Е Rn-i имеет место равенство (An_ix,х) = (Ах,х). Если \'s (s = l,2,...,n — 1) — собственные числа оператора An_i, то в силу теоремы 14 (с. 282)15) \в>\'8 (s = l,2,...,n-l). (92) По индуктивному предположению для любой цепочки (77) в Rn-i найдется подчиненная ей система векторов (78) таких, что <p(Ai,A2,...,Am) <у?(А^,А^,...,А^т). Отсюда в силу (92) сразу следует, что неравенство (85) в рассматриваемом случае действительно имеет место. 2) Рассмотрим теперь случай гт — п (га < п). Пусть гт = п, im+i = п - 1, ..., im-p = п-р (p ^ 0) (93) — последние элементы набора (76), и пусть число п — р — 1 уже не принадлежит набору (76). Обозначим через гт/ наибольший из оставшихся номеров набора (76). Очевидно16), W ^п-р-2. (94) Цепочка подпространств (77) в рассматриваемом случае может быть записана следующим образом: Rij С Ri2 С ... С Rim> С R>n-p С Rn_p+i с ... С Rn. (95) Пусть еП—р-) еП— р+15 "") еП \У®) — собственные векторы оператора А, занумерованные так же, как и в (87). Обозначим через Rn_i (n — 1)-мерное подпространство, содержащее векторы (96) (их всего р + 1) и подпространство R;m,. Такое подпространство действительно существует, ибо p+l-Hm' ^p+l + n-p-2 = n-l. Наряду с цепочкой (95) рассмотрим цепочку R^ С Rj2 С ... С Rzm/ С Rn_p_i С Rn-p С ... С Rn_i, (97) которая получается из цепочки (95), если каждое подпространство в (95) заменить его пересечением с подпространством Rn_i. Ясно, что первые га' подпространств цепочки (95) при этом не изменяются, так как они содержатся в Rn-i; последующие подпространства цепочки уменьшат свою размерность на единицу17). Введем снова оператор An_i на подпространстве Rn-i по формуле (91). По индуктивному предположению к цепочке (97) можно подобрать подчиненную систему векторов ХП 5 хг2 1 ""> х*т'5 хп—р— 1) •••) хтг—1 \У*) 15) Напомним, что в § 7 гл. X собственные числа занумерованы в порядке возрастания. Неравенства (92) легко также следуют из формулы (62). 16) Может случиться, что номера (93) исчерпывают весь набор (76); тогда для сохранения единообразия мы будем считать гт/ = 0, а соответствующее подпространство Rim/ — состоящим из нуль-вектора. 17) Если размерность пересечения не уменьшается, то, очевидно, пересечение всегда можно сузить так, чтобы подпространства в цепочке (97) имели указанные размерности.
§4- Свойства собственных чисел эрмитовых операторов 523 таких, что _ _ _ ^(Ai,A2,...,Aw)^^l,A^2,...,A^,A^_p_1,...,A;_1). (99) В правой части штрихами обозначены собственные числа оператора An_i. Согласно (92) имеем Аг^А^, А,2^А72, ..., \im>Km,- (ЮО) Разумеется, на основании (92) мы не можем утверждать, что An-p ^ An_p_l5 An_p_i ^ An_p, ..., An ^ An-1. (100 ) Однако, поскольку векторы (96) лежат в подпространстве Rn_i, они являются собственными векторами оператора An_i. Соответствующие им собственные числа Хп-р ^ An_p+i ^ ... ^ Ап во всяком случае не меньше, чем числа Х'п_р+1 ^ Х'п_р ^ ••• ^ А^_р, которые являются наименьшими собственными числами оператора An_i. Таким образом, (ЮО7) имеет место, и в силу (100) и (ЮО7) мы заключаем, что ^(Aij) Ai2,..., Aim, An_p_1, Хп_р) ^ y?(Ai1? Aj2,..., \{т,, An_p,..., An). (Ю1) Это неравенство вместе с (99) приводит к доказательству утверждения А, поскольку система векторов (98) подчинена не только цепочке (97), но и исходной цепочке (95). Таким образом, лемма 7 доказана полностью. Из доказанной леммы вытекает следующая теорема. Теорема 4 (см. [259,е]). Пусть А — эрмитов оператор с собственными числами Ai ^ А2 ^ ... ^ Ап. Пусть 1 ^ ч < %2 < .- < гт ^ п (102) — фиксированный набор п натуральных чисел. Тогда т А»! + Xi2 + ... + Xim = max min V(Axifc,xifc), (103) где минимум берется по всем системам векторов x^fe (k = 1,2, ...,m), подчиненным цепочке18) R^ С R*2 С ... С R;m- Для доказательства заметим, что матрица оператора PmAPm (см. лемму 7) в ортонормированном базисе (82) имеет вид \\(Азцк,щк,)\\%*-1, так как \лгт AJrmXifc, x^fe/) = (Ax^fc, Xjfc, J. Поэтому сумма, стоящая в правой части (103), есть след оператора PmAPm и, значит, равна Ai + A2 + ... + Am. Формула (103) после этих замечаний следует из леммы 7 при pihih, —,tm) = h + h + ... + tm. Теорема 4 доказана. Укажем, что формула (62), равно как и (67) и (74), является частным случаем теоремы 4. В заключение установим следующее утверждение, тоже непосредственно вытекающее из леммы 7. 18) Определение см. на с. 520.
524 Добавление Теорема 5 (см. [149]). Пусть А — неотрицательно определенный эрмитов оператор, и пусть Ai ^ Л2 ^ ... ^ Лп ^ О — его собственные числа. Пусть 1 ^ %\ < %2 < ... < гт ^ п — фиксированный набор т натуральных чисел. Тогда A*iA*2-Aim = „max „ miS DetlKAxi^XiJH^,^, (104) RijcRi2c...cRim xifcGRtfc где минимум берется по всем системам векторов, подчиненным цепочке R^ С с R^2 с ... с Rjm • Для доказательства теоремы достаточно в формуле (84) положить V>(*l,*2,...,*m) =*lfe...*m (*s^0, 5 = l,2,...,m) и заметить, что стоящий в правой части (104) определитель равен AiA2...Am. Теоремами 4 и 5 мы воспользуемся в следующем параграфе при выводе неравенств для сумм и произведений собственных и сингулярных чисел. § 5. Неравенства для собственных и сингулярных чисел сумм и произведений операторов Пусть А и В — два эрмитовых оператора в n-мерном унитарном пространстве R, собственные числа которых известны. Теоремы предыдущего параграфа дают возможность оценить суммы вида (75) собственных чисел оператора А + В. Близкие по характеру оценки мы получим и в случае произведения операторов. Мы начнем со следующего предложения. Теорема б (см [259,е]). Пусть А, В и С — эрмитовы операторы такие, что С = А + В; пусть Xs, /л$ uvs (s = 1,2, ...,n) — собственные числа операторов А, В и С соответственно, занумерованные в порядке убывания. Тогда для любого набора т натуральных чисел 1 ^ Ч < h < ••• < im ^ п (Ю5) справедливо неравенство Щх + Щ2 + - + vim ^ К + Ai2 + ... + A;m + /ii + fl2 + ... + /im- (Ю6) При т = n в формуле (106) достигается равенство. Доказательство. По заданному набору (105) выберем такую цепочку подпространств Rh cRi2 С... cR*m, (107) чтобы для любой системы векторов X2l 5 Х22 5 *••) Xim > \1""/ подчиненной цепочке (107), выполнялось неравенство т ik •> x*fc ). (109) Такая цепочка (107) найдется в силу теоремы 4 (ср. лемму 7). Заметив, что т т т ^(Cxifc,xife) = ^(Axifc,xifc) + ^(Bxifc,xifc), (110) k=i k=i k=i
§5. Неравенства для собственных чисел сумм и произведений операторов 525 подберем такую систему векторов, подчиненную19) цепочке (107), чтобы т ^(Axifc,xifc) ^Xh +Ai2 + ... + A»m. (Ill) k=i Такую систему векторов можно найти также на основании теоремы 4 (ср. утверждение А в доказательстве леммы 7). Так как, далее, в силу теоремы 3 для любой ортогональной нормированной системы х^х^, ...,x;fc т (112) г=1 то неравенство (106) следует из (109)—(112). При т = п (106) превращается в равенство, поскольку SpC = SpA+ SpB. Теорема б доказана полностью. Следствие. Для любой непрерывной выпуклой функции cp(t) справедливо неравенство п п 5>K-ASK^>(AS). (Ш) 5=1 5=1 Этот результат следует из неравенств (106) на основании замечания к лемме 2. Оказывается, неравенства типа (106) справедливы для сингулярных чисел произвольных линейных операторов. Для доказательства соответствующего предложения мы используем следующее замечание. Пусть А — матрица некоторого линейного оператора А в ортонормированием базисе, и пусть а\ ^ «2 ^ ••• ^ осп — сингулярные числа А. Рассмотрим квадратную матрицу А-(° А) порядка 2п. Мы сейчас покажем, что собственные числа матрицы А равны ±as (s = 1,2, ...,п). Действительно, раскрыв характеристический определитель А(Л) = = \А — \Е2п\ по формуле (16) с. 57, легко найдем А(\) = \\2Еп-А*А\. Отсюда сразу следует сформулированное утверждение. Сопоставив каждому оператору А оператор А, действующий в 2п-мерном унитарном пространстве, мы на основании теоремы б установим следующее предложение. Теорема 7 (см. [149]). Пусть А, В и С — линейные операторы в п-мерном унитарном пространстве. Пусть С = А + В, и пусть as, /3S u^s (s = 1,2,..., n) — сингулярные числа операторов А, В и С, занумерованные в порядке убывания. Тогда для любого набора натуральных чисел (105) справедливо неравенство 7*1 + 7;2 + .» + Ът ^ <*%i + ^г2 + ... + aim + ft + & + ... + Рт. (114) Замечание. Так как собственные числа операторов А, В и С располагаются относительно начала координат симметричными парами, неравенства (114) на основании теоремы б легко обобщаются следующим образом: ±(Ъ1 - «ti) ± (7*2 ~ а*2) ± - ± (7*т ~ aim) ^ А + Р2 + ... + /?т. 19) Определение см. на с. 520.
526 Добавление Поскольку выбор знака перед каждой скобкой произволен, то hh - «иI + 1тг2 -<*ь\ +... + Ыт - ШтI ^ А + А +... + An. (И4#) Используя лемму 2, мы можем на основании неравенств (114) заключить, что для любой непрерывной возрастающей выпуклой функции ip(t), t ^ 0, и любого т ^ п т т 8=1 8=1 Перейдем теперь к оценке сингулярных и собственных чисел произведений двух операторов. Основной в этом направлении является следующая теорема, обобщающая неравенство (35) (см. лемму 5). Теорема 8. Пусть А, В и С — линейные операторы в n-мерном унитарном пространстве. Пусть С = АВ, и пусть as, /3S и 7s ((s = 1,2,..., п) — сингулярные числа операторов А, В и С соответственно, занумерованные в порядке убывания. Тогда для любого набора натуральных чисел 1 ^ Ч < h < ... < im ^ n (115) справедливы неравенства 7*i7*2-7*m ^ оц1ац2...ацт0102...рт, (116) 7ti7t2-7tm ^ a^-.amPhPii-Pim- (И6') Доказательство этой теоремы вполне аналогично доказательству теоремы 6. Докажем сначала неравенства (116'). На основании леммы 4 §2 получаем [(Cx,fc,Cx,fc)] = [(АВхь, АВх<ь)] < a^...a^[(Bxifc,Bxifc)] (117) для любой системы векторов x;fe (k = 1,2, ...,т). По данному набору натуральных чисел (115) найдем на основании теоремы 5 такую цепочку подпространств, чтобы для любой подчиненной ей системы векторов выполнялось неравенство -M-tL^KC'Cx^J], (118) после чего на основании той же теоремы 5 найдем такую подчиненную выбранной цепочке систему векторов, чтобы [(B*Bxifc,x,jK 4/%•••/!• (iw) Очевидно, неравенство (116') уже следует из неравенств (117)—(119). Для доказательства неравенства (116) следует повторить рассуждение применительно к оператору С* = В*А* и воспользоваться при этом тем фактом, что сингулярные числа у сопряженных операторов равны [см. (82) на с. 236]. Теорема 8 доказана полностью. Заметим попутно, что сингулярные числа операторов АВ и ВА в общем случае не совпадают. Отметим еще следующий факт, вытекающий из теоремы 8. Теорема 9. Пусть А и В — два положительно определенных эрмитовых оператора с собственными числами Xs и ц8 (s = l,2,...,n), занумерованными в убывающем порядке, и пусть vi>v<i> ... ^ Уп (120) — собственные числа оператора АВ. ') По поводу этих неравенств см. [212, е].
§ 6. Другая постановка задачи о спектре 527 Тогда для любого набора (115) выполняется неравенство (121) Доказательство. Так как оператор В невырожден, то АВ = В"1/2(В1/2АВ1/2)В1/2 = В"1/2{(А1/2В1/2)*(А1/2В1/2)}В1/2 (122) и, следовательно, собственные числа (120) являются квадратами сингулярных чисел оператора А1/2 • В1/2. Применяя к произведению А1/2 • В1/2 неравенство (116), получаем (121). § 6. Другая постановка задачи о спектре суммы и произведения эрмитовых операторов В настоящем параграфе мы сопоставим набору собственных чисел v\ ^ ^ V2 ^ ... ^ vn суммы эрмитовых операторов А и В точку в n-мерном координатном пространстве и рассмотрим множество точек, получающихся при сложении всевозможных операторов А и В с данными спектрами. Аналогичную задачу мы рассмотрим и в случае произведения операторов. Постановка задач на собственные значения в указанной геометрической форме принадлежит И. М. Гельфанду (см. по этому поводу [76; 106,а; 113; 191,с]). Мы приведем здесь лишь аналоги теорем б и 9, первоначально полученные другими методами. 1°. Нам понадобится геометрическое описание всех последовательностей а', которые мажорируются данной последовательностью а. Соответствующую лемму мы установим, используя некоторые результаты Фробениуса, Кёнига и Бир- кгофа. Начнем со следующего замечания. Пусть Т = \\tij\\n — квадратная матрица. Нормальным набором элементов матрицы Т назовем набор п элементов этой матрицы, взятых по одному из каждой строки и каждого столбца, т. е. набор вида где ji,J2, •••yjn — некоторая перестановка индексов 1,2, ...,n. Справедливо следующее предложение, имеющее самостоятельное значение в ряде разделов математики. Лемма 8 (Фробениус-Кёниг [182,е; 203]). Пусть Т = \\tij\\i — квадратная матрица порядка п с неотрицательными элементами, и пусть каждый нормальный набор матрицы Т содержит нулевой элемент. Тогда существует состоящий из нулей минор матрицы Т размера р х q такой, что р + q = п + 1. Доказательство21) мы проведем по индукции, предположив, что для матриц всех порядков к < п лемма справедлива. Случай п = 1 тривиален. Обращаясь к матрице Т порядка п, мы можем, очевидно, считать, что не все ее элементы равны нулю. Пусть для определенности tnn ф 0 (этого всегда можно добиться перестановками строк и столбцов, так как при этом условия леммы не нарушаются). Для матрицы Т\ = ||^'||п_15 очевидно, выполняются условия леммы, и по индуктивному предположению найдется состоящий из нулей минор Mi матрицы 7\ размера р\ х qi: Pi + qi = п. (124) ) См. [172].
528 Добавление Без ограничения общности, можно, считать, что минор Mi расположен на пересечении первых р\ строк и первых qi столбцов матрицы Т. Разобьем матрицу Т на блоки следующим образом: П\ П2 Mi т3 т2 и рассмотрим квадратные матрицы Т2 и Тз размеров р\ х р\ и q\ x qi. Хотя бы одна из матриц Т2 или Тз обладает тем свойством, что каждый нормальный набор ее элементов содержит нулевой элемент (в противном случае можно было бы образовать нормальный набор положительных элементов всей матрицы Т). Пусть указанным свойством обладает матрица Т2. По предположению индукции Т2 обладает состоящим из одних нулей минором М2 размера р2 х q2: P2 + ?2=Pi + l. (125) Очевидно, можно считать, что минор М2 расположен в строках матрицы Т с номерами 1,2,...,р2 и в столбцах с номерами q\ + 1, q\ + 2, ..., q\+q2. Легко видеть, что при этом минор матрицы Т, расположенный в строках с номерами 1,2,...,р2 и в столбцах с номерами 1,2, ...,gi,gi + l,...,#i + q2, состоит из одних нулей, причем в силу (124) и (125) Р2 + (qi + Ы = qi +Pi + 1 = п + 1. Лемма 8 доказана. Следствие. Пусть элементы квадратной матрицы Т неотрицательны и сумма элементов в каждой строке и в каждом столбце равна ьи > 0. Тогда матрица Т обладает нормальным набором положительных элементов. В самом деле, допустив противное, мы сможем, согласно лемме 8, указать минор матрицы Т размера pxg, p + q = п + 1, состоящий из одних нулей. Легко видеть, что сумма элементов матрицы Т, расположенных в тех р строках и тех q столбцах, на пересечении которых расположен данный минор, равна рио + + quo = (п + 1)ол Последнее, однако, невозможно, так как сумма всех элементов матрицы Т равна пи. Условимся в дальнейшем матрицу Р порядка п называть матрицей перестановки (permutation matrix), если она обладает нормальным набором элементов, каждый из которых равен единице, а все остальные элементы матрицы равны нулю. Ясно, что умножение матрицы Р на столбцевую матрицу х приводит к некоторой перестановке элементов матрицы х. Так как и, обратно, каждая перестановка элементов х порождает некоторую матрицу Р, то всего существует п\ различных матриц перестановок. Докажем теперь следующее предложение, принадлежащее Дж. Биркгофу (см. [153, а,Ь]). Лемма 9. Множество всех двояко стохастических матриц совпадает с выпуклой оболочкой матриц перестановок. Другими словами, любая двояко стохастическая матрица Т может быть представлена в виде T = Y,rsPs, (126) s=l pi ь
§ 6. Другая постановка задачи о спектре 529 где Ts^O, 5>, = 1, (127) 5=1 а Р8 — матрицы перестановок. Обратно, правая часть (126) при условии (127) является двояко стохастической матрицей. Последняя часть утверждения почти очевидна. В самом деле, сумма элементов г-го столбца матрицы rsPs равна т8. Поэтому сумма элементов г-го столбца правой части (126) равна /_^т5 = 1. Аналогично в случае строк. s=l Доказательство первой части леммй существенно использует лемму 8. Пусть Т — двояко стохастическая матрица. Тогда по следствию леммы 8 существует положительный набор элементов hjn t2j21 •'"> tnjn (128) этой матрицы. Пусть mintsjs=r1 (ri >0), (129) S и пусть Pi — матрица перестановки, у которой на местах элементов набора (128) стоят единицы. Рассмотрим матрицу В1=Т-т1Р1. (130) В силу (129) элементы матрицы В неотрицательны, а сумма элементов в каждой строке и в каждом столбце В\ равна 1 — т\ = uj\ ^ 0. Заметим, что число нулевых элементов В\ во всяком случае на единицу больше, чем у матрицы Т. Если и\ = 0, то В\ = 0, и лемма доказана. Если uj\ > 0, то Bi обладает нормальным набором положительных элементов, и, повторив рассуждение, мы придем к неотрицательной матрице В2 — Т — т\Р\ — т2Р2, число нулевых элементов которой уже на два больше, чем у Т. Суммы элементов в столбцах и строках В2 равны 1 — т\ — т2 = и>2 ^ 0. Ясно, что на некотором к-м шаге (к < п2 — п + 1) этот процесс приведет к числу шк = 1 — т\ — т2 — ... — тк = 0 и, следовательно, к матрице Вк=Т- ri Pi - т2Р2 - ... - ткРк = 0. Действительно, при к = п2 — п + 1 матрица Вк уже не имеет нормального набора положительных элементов (у нее п2 — п + 1 нулевых элементов), и, следовательно, ик не может быть положительным числом. Лемма 9 доказана. 2°. Условимся каждой числовой последовательности (xi,x2,...,xn) ставить в соответствие точку в n-мерном координатном пространстве Dn. Пусть OL\ ^ а2 ^ ... ^ ап (131) — некоторая последовательность. Рассмотрим п! последовательностей, получающихся из последовательности (131) всевозможными перестановками ее элементов а»1? а;2, ..., ain. (131х) Сопоставив каждой последовательности (131') точку в Т>п, обозначим через К (а) линейную выпуклую оболочку, натянутую на эти точки.
530 Добавление Легко видеть, что множество К (а) состоит из всех точек п! x = Y,TsPsa, (132) s=l где rs ^ 0, y^Ts = 1, Ps — матрицы перестановок и а — столбцовая матрица с s=l координатами (131). Заметим попутно, что каждая точка принадлежит множеству К(а) вместе с п\ точками, получающимися перестановками ее координат. Для доказательства достаточно умножить равенство (132) на матрицу перестановки и воспользоваться тем, что произведение матриц перестановок есть матрица перестановки. Мы теперь без труда докажем следующее предложение: Лемма 10. Для того чтобы последовательность а[ >а'2> ... > а'п (133) мажорировалась последовательностью а\ ^ а.2 ^ ... ^ ап, необходимо, чтобы точка а' с координатами (133) принадлежала выпуклой линейной оболочке К(а)22). Доказательство леммы. Пусть сначала a' £ К (а). Тогда п! а' = $]т,Рва, (134) n! s=1 где rs ^ 0, y^Ts = 1, a Ps — матрица перестановок. Следовательно, по лемме 1 5=1 а' = Та, (135) где Т — двояко стохастическая матрица, и, значит, согласно лемме 1 последовательность (133) мажорируется последовательностью (131). Пусть теперь, наоборот, известно, что а' < а. Тогда по лемме 1 найдется двояко стохастическая матрица Т, для которой выполняется равенство (135). Этому равенству, согласно лемме 9, можно придать вид (134), откуда уже следует, что а' Е К (а). 3°. Перейдем теперь к теоремам, составляющим цель настоящего параграфа. Теорема 10 (см. [106,а]). Пусть А и В — эрмитовы операторы в п-мерном унитарном пространстве с собственными значениями Ai ^ А2 ^ ... ^ Ап (136) и 1И > /i2 ^ ... ^ цп. (137) Пусть С = А + В, и пусть v\>v<i> ... ^ vn (138) — собственные числа С. Обозначим через К\ выпуклую линейную оболочку точек (Ai-h/i^, A2+//?2, ..., An + A*j„) (139) 22) Это утверждение было установлено Радо [233], использовавшим при доказательстве теорему об отделении выпуклых множеств плоскостями. Другое доказательство, основанное на теореме о крайних точках выпуклых множеств, дано в работе [113], содержащей обстоятельный обзор литературы. Идея приводимого здесь доказательства, опирающегося на лемму Биркгофа, принадлежит А. Хорну [191,d].
§ 6. Другая постановка задачи о спектре 531 и через К2 выпуклую линейную оболочку точек Ы + Лп > М2 + Aj2, ..., /xn + Xjn) (140) (берутся всевозможные перестановки ji,j2,...,jn чисел 1,2, ...,п). Тогда точка v = (vi,v2,...)Vn) принадлежит пересечению оболочек К\ и К2. Доказательство. Рассмотрим точку (i/i - Ль i/2 - Л2, ..., г^п - Ап). (141) Согласно теореме б [см. неравенства (106)] последовательность, полученная упорядочением координат точки (141), мажорируется последовательностью /xi, А*2,---,Мп- На основании леммы 10 мы заключаем, что точка (141) принадлежит выпуклой линейной оболочке точек (а*л»А*ь> •••>/Ъп)- Отсюда следует, что v = (v\,V2, --.^n) € К\- Поменяв ролями А и В, легко получим, что v £ К2. Таким образом, теорема 10 доказана. Мы вывели теорему 10 из теоремы 6. Легко видеть, что и, обратно, в силу леммы 10 теорема б следует из теоремы 10 23). В связи с теоремой 10 сделаем несколько замечаний. Обозначим через М множество точек (138), отвечающих спектрам операторов С = А + В, где А и В — всевозможные эрмитовы операторы с данными спектрами (136) и (150). Утверждение теоремы 10 состоит в том, что М С С К^К2. Полное описание множества М до сих пор не получено, несмотря на имеющиеся в этой области важные исследования ([76; 191,с]). В частности, в работе [191, с] найдено полное описание множества М для случая п ^ 424). Приведем без доказательства относящийся к этому вопросу следующий просто формулируемый результат [106,а]. Пусть при всех г = 1,2,..., п — 1 Mi - А*п < Аг+i - Аг (142) или Ai - An < /i*+i - //;. (142х) Тогда м = к1пк2. Отметим здесь же, что при условии (142) или (142') среди собственных чисел оператора С = А + В нет кратных. В самом деле, пусть, например, выполнено условие (142). Согласно теореме 10 f Щ+1 —Щ = Аг+1 - \i + 2jTs^(s) ~~ ^(*'))' где ,s=1 п! т8^0, ^rs = l. Поэтому t s=1 ^г+1 - Щ ^ Ai+i ~ Xi-^2 Ts^ ~ Vn) = А;+1 - А< - (fix - fin) > 0 s=l и, следовательно, 1/г+х ф щ. Сформулируем в геометрических терминах теорему, эквивалентную теореме 9. 23) В [106, а] теорема 10 доказана другим методом. 24) См. примечание на с. 535 и, в частности, работу [285].
532 Добавление Теорема 11 (см. [106]). Пусть А и В — положительно определенные эрмитовы операторы с собственными числами Xs и ц8 (s = 1,2, ...,п), занумерованными в убывающем порядке, и пусть Vi ^ Ь>2 ^ ... ^ Уп — собственные числа оператора С = АВ. Пусть К\ — выпуклая линейная оболочка точек (InAi +ln/z7-1, In A2 + In/^2, ..., lnAn + ln/^-J и K<i — выпуклая линейная оболочка точек (ln/xi +lnAj15 ln/x2 + lnAj2, ..., ln/xn + lnAJn). Тогда точка с координатами (lni/i, lnz/2, • •, ln^n) принадлежит пересечению оболочек К\ uK<i. Доказательство. Логарифмируя неравенства (121), получим (lni/^i -InAiJ + (Ini/i2 -1пА;2) + ... + (lni/im -lnA»m) ^ ^ ln/xi +ln/z2 + ... + ln/xm. И в этом случае при т = п достигается равенство, ибо |С| = |А||В|. Далее поступаем так же, как в теореме 10. Отметим также следующую теорему о спектре произведения унитарных матриц, принадлежащую А. А. Нудельману и П. А. Шварцман (УМН. — 1958. — Т. 13. — Вып. 6(84)). Пусть 0 ^ (pi ^ (f2 ^ ••• ^ <Рп < 27Г — аргументы собственных чисел унитарной матрицы U, и пусть 0 ^ ф\ ^ ф2 ^ ... ^ фп < 27Г — аргументы собственных чисел унитарной матрицы V. Пусть, кроме того, <рп + фп — <pi — ф\ < 27г. Обозначим через Ni выпуклую оболочку, натянутую на п\ векторов (cpi + ф^, 4>ъ + Ф%2 1 -'^Фп + Фгп)^ а через N2 — выпуклую оболочку векторов (фх+ср^, Фъ + <Рг2т—>Фп + <Pin)- Пусть, наконец, 0 ^ uj\ ^ uj2 ^ ... ^ ип < 2п — аргументы собственных чисел матрицы UV. Тогда точка с координатами (uji,uj2,...,un) принадлежит пересечению выпуклых оболочек Ni и N2.
ПРИМЕЧАНИЯ ОБЩИЕ ЗАМЕЧАНИЯ Гл. II. В связи с интенсивным развитием вычислительной математики различным аспектам метода исключения Гаусса в научной литературе уделяется большое внимание, см. [294, 293, 291]. Гл. III, с. 83. Произвольную матрицу А = \\ast\\™t=1 можно рассматривать как предел матрицы А£ простой структуры при е —>• 0. В самом деле, пусть для простоты К — поле комплексных чисел; матрица Ае = \\ast + ssS8t\\ при е -> +оо имеет простые собственные числа; они равны es + 0(1), 1 ^ s ^ п. Поэтому дискриминант характеристического многочлена As, будучи аналитической функцией е, не равен тождественно нулю. Следовательно, А£ имеет простые характеристические числа при всех 0 < \е\ < во, за возможным исключением конечного числа значений е. Гл. IV, § 4. По поводу метода Д. К. Фаддеева см. [294]. Гл. V, § 7. В теореме 3 существенно, что система (68) предполагается автономной. Простой пример х\ = —х\ +e2tX2, #2 = — #2 показывает, что если pik(t) не константы, то теорема 3 неверна. Проблеме устойчивости неавтономных систем посвящено большое число работ. Ссылки читатель найдет в превосходной монографии [275], в которой обсуждаются и другие вопросы. Гл. VII, § 8. Метод А. Н Крылова обсуждается в книге [294], см. также [293]. Гл. VI, VII. Доказательство теоремы о приведении матрицы преобразования к жордановой форме содержится почти во всех учебниках и монографиях по линейной алгебре. Случай, когда К — поле комплексных чисел, наиболее важен в прикладных задачах. При этом предположении анализ и доказательство теоремы упрощаются (см. [284; 8,6; 288; 20]). Как следует из содержания глав VI и VII, помимо принципиального самостоятельного значения теорема о приведении матрицы к жордановой форме открывает широкие возможности при решении матричных алгебраических уравнений: позволяет ввести и исследовать функции матричного аргумента, изучать поведение решений системы дифференциальных уравнений и т. д. В связи со сказанным отметим одно хорошо известное обстоятельство — жорданова форма неустойчива по отношению к малым возмущениям. Если, например, преобразованию А в неко- I га 1 тором базисе отвечает матрица а преобразование В в том же базисе — матрица О га I , то преобразование А£ = А + еВ, где е — малый параметр, описывается матрицей га е 1 га . Последняя имеет неравные собственные значения А± = га ± у/е и, следовательно, приводится к диагональному виду. Подобного рода неустойчивость, разумеется, имеет не только абстрактно алгебраический характер. Она порождает в реальных процессах сильные перепады физических величин. Дело существенно осложняется и тем, что у/ё ^> е. Если, например, система
534 Примечания у = Ay имеет "вялое" неустойчивое решение yW = г1!2 со1(£ега*,егс**)25), то малое возмущение е приводит к появлению интенсивно растущей экспоненты у = = co\(eiat+^t,e1f2eiat+^t). Обстоятельный анализ строения жордановых форм семейства матриц, зависящих от нескольких параметров, проведен В. И. Арнольдом с позиции теории особенностей. Изучаются наиболее опасные ситуации, которые возникают при изменении параметров семейства и которые невозможно обойти (разрушить) малыми изменениями семейства. Основные положения теории читатель найдет в книге [262,а]. Там же имеется ряд ссылок на статьи прикладного характера. В частности, в [271] обсуждаются указанные вопросы в случае симплектических матриц размера 2n x 2п, непосредственно связанные с потерей локальной устойчивости гамильтоновых систем. Укажем также на интересную работу [262,6], использующую результаты книги [262,а]. Отметим также статьи физиков и математиков, написанные в развитие изложенной в [262,а] теории: [301а,б; 302; 290]. В последней работе приводятся таблицы типов жордановых форм для /-эрмитовых и /-унитарных матриц с сигнатурой (р, q) у матрицы /. Пользуясь случаем, укажем, что здесь и ниже под / понимается эрмитова матрица размера п х п, т. е. такая матрица, что 1 = 1* и I2 = Еп. Матрица Н называется /-эрмитовой, если /Я — Н*1 = 0, а матрица U называется /-унитарной, если U*IU = /. В связи с проблемой неустойчивости жордановой формы отметим доказанный в монографии [298] небезынтересный факт: пусть элементы матрицы А{е) аналитичны в окрестности точки е = 0; тогда существует проколотая окрестность 0 < |е| < £, в которой жорданова форма А(е) стабильна. При наличии двух параметров в\ и £2 утверждение теряет силу, как это следует из теоремы В. И. Арнольда [262а]. Гл. VII. Об использовании жордановой формы в проблеме обусловленности вычислительных процедур читатель прочтет в монографиях [294, 293, 274]. В связи с использованием матриц в вычислительной математике укажем также на монографии [268, 269]. Важные специальные вопросы обсуждаются в книгах [277, 292]. Гл. VII, § 3. Анализ уравнения (31), использующий кронекеровское (прямое) произведение матриц, проводится в [265] и в [284]. Гл. VII, § 5. Матричное уравнение второго порядка А$Х2 + А\Х + A<i = 0, возникшее в теории колебаний с учетом трения (см. [299]), породило большое число работ в спектральной теории операторов. Стимулом для этого послужили аналогичные задачи в механике сплошной среды. Укажем на фундаментальную работу [281], а также на важную статью [280]. Существенную роль при разложении операторного полинома на линейные множители и оправдания метода Фурье сыграла теорема, обобщающая теорему Понтрягина [117]. Вопрос о разложимости аналитической матрицы-функции о;(А), /-растягивающей при Re А ^ 0: ги*(А)/ги(А) — / ^ 0, и /-унитарной при Re A = 0, на элементарные матричные множители изучен в статье [276]. Тем самым решена важная задача в аналитической теории электрических цепей. Гл. X, § 5. В вычислительной математике для приведения квадратичной формы к главным осям широко используется метод вращений. См. по этому поводу [294, 268, 293]. ') Символом col (a, b) обозначается столбцевая матрица с элементами а, Ь.
Примечания 535 Гл. X, § 10. Ганкелевым формам и тёплицевым формам посвящена монография [278]. В § 18 этой книги обсуждается важный вопрос об обращении тёплицевой матрицы Т = \\cp-q\\p q=0. Приводятся простые формулы для обратной матрицы при условии, что известны решения неоднородной системы Tf = g при двух правых частях. Укажем здесь лишь на работу [289], в которой обращение проводится без дополнительных ограничений. Гл. XIII. Теорема Фробениуса была обобщена на случай бесконечномерного абстрактного пространства в работе [282] и впоследствии нашла многочисленные новые приложения в ряде важных задач, в частности в теории переноса (267]. Ряд интересных фактов, связанных с неотрицательными матрицами, читатель почерпнет в монографии [265], а также в превосходной книге [273]. Гл. XIV. Проблеме локализации собственных чисел и рациональному выбору матричных норм посвящено много работ (см. [259, 293, 273, 266, 287]). Укажем здесь на интересные неравенства, полученные для собственных чисел /-эрмитовых и /-унитарных матриц [295]. Гл. XV. Устойчивость по первому приближению в случае периодических решений представляет собой сложную задачу, когда система (25) консервативна: дело в том, что при этом характеристические числа vs матрицы А из системы (24) не могут лежать в левой полуплоскости. Даже вопрос о грубой устойчивости линейной консервативной системы (25) по отношению к линейным периодическим возмущениям с тем же периодом вызывал естественные трудности. Отсылая читателя к обстоятельной монографии [297], отметим здесь, что основная трудность в указанной проблеме была преодолена в работе [15] благодаря тонкому анализу спектров /-унитарных матриц. Гл. XVI. Доказательство теоремы 5 по индукции читатель найдет в книге [283]. Полезный факт отмечен в работе [263]: пусть у вещественной матрицы А размера п х п существует последовательность вложенных главных миноров а(*А, а(^ *2V ..., а(1} *2 - \А, не равных нулю. Тогда существует вещественная диагональная матрица D такая, что DA — матрица Гурвица. Гл. XVI. Обзор работ по устойчивости систем с конечным числом степеней свободы читатель найдет в [279]. См. также [272]. Большое число работ по проблемам оптимизации систем управления и роли матричных методов в решении возникающих в этой области задач названо в обзоре [296]. См. также книгу [270], где обсуждаются прикладные вопросы этой тематики. В заключение сделаем несколько замечаний в связи с неравенствами для собственных и сингулярных чисел, приведенных в добавлении. Ряд новых неравенств, связывающих спектры матриц и сингулярных чисел, читатель найдет в книге [264], а также в весьма содержательной и широкой по охвату материала монографии [286]. Там же имеется подробная библиография. Отдельно укажем на работу [285], в которой нашла положительное решение высказанная Хорном в [191, с] гипотеза о структуре многогранника М, заполняющего спектрами суммы двух эрмитовых матриц А и В с фиксированными спектрами Ai ^ А2 ^ ... ^ Ап и /xi ^ /х2 ^ ... ^ Мп- В статье [191, с] множество М было описано лишь для матриц порядка п ^ 4.
536 Примечания Примечание к гл. VII (Д. П. Желобенко) Во многих вопросах теории матриц, особенно в теории функций матриц (§ 1 гл. V) предпочтительно использовать нормальную жорданову форму матрицы (§ 7 гл. VII). Существенно (см., например, [8,6]), что приведение матрицы к нормальной жордановой форме можно осуществить элементарно, используя лишь простейшие понятия теории матриц (собственное число, инвариантное подпространство). Отсюда в свою очередь легко получить остальные результаты теории элементарных делителей (гл. VI, VII). Один из таких методов, излагаемый ниже, состоит в предварительном разделении различных собственных чисел матрицы и последующем "расщеплении" фиксированного собственного числа посредством жордановых клеток. 1. Треугольная форма матрицы. Пусть А — линейный оператор в п- мерном векторном пространстве R над полем К. Предположим, что собственные числа оператора А лежат в поле К. Лемма 1. Пусть Ai,A2, ...,АП — собственные числа (возможно, с повторениями) оператора А. Существует базис пространства R, в котором матрица оператора А имеет следующий вид: Ai * А2 О Ап (1) Доказательство. Лемма очевидна при п = 1. В общем случае пусть ei — собственный вектор, отвечающий собственному числу Ai. Дополняя ei до базиса ei,e2, ...,en пространства R, получаем в этом базисе матрицу А = Ai * О А' (2) где А' — матрица порядка п — 1. Исходя из соображений индукции, можно выбрать е2, ...,еп таким образом, чтобы матрица А' имела вид (1) (с собственными числами А^ = Aj+i, г = 1,...,п — 1). Но тогда и матрица А имеет вид (1). Лемма доказана. Следствие. Для каждого собственного числа А оператора А матрица оператора А может быть выбрана в виде А = О С Ао (3) где Ал. не имеет собственного числа А, в то время как Ао имеет единственное число, равное А. 2. Разделение собственных чисел. Пусть Ai,..., Ар (р $С п) — все попарно различные собственные числа оператора А. Лемма 2. Существует базис, в котором матрица оператора А имеет квазидиагональный вид: А = {А1,А2,...,АР}, (4) где Ai имеет единственное собственное число А^ (г = 1,2,...,р). Доказательство. Достаточно проверить (индукцией по р), что матрица (3) приводится подобным преобразованием А = UAU~l к квазидиагональной матрице А = {Ал., Aq}. Заменяя А на А — ХЕ, можно считать для упрощения записи,
Примечания 537 что А = 0. Положим "" Е+ X U = 0 Е0 X = Y,Kk~lCAl (5) к=0 где £?+, Eq — единичные матрицы тех же порядков, что А+, А$ (соответственно). В нашем случае (Л = 0) матрица А+ обратима, матрица Aq нильпотентна (т. е. Aq = 0 при некотором к). Поэтому ряд (5) существует и конечен. Имеем оо оо A+X = Y,A+kCAl XA0 = Y,A+kCAl к=0 к=1 откуда А+Х - ХА0 = С. (6) В свою очередь (6) равносильно UA = AU. Лемма доказана. Замечание. Частичная сумма Хк ряда (5), содержащая к членов, имеет вид Xk = A+hCki гДе матрица С к определяется разложением А\ Ск " А* = о 4 т.е. Ск = ^А\-'-1САЪ. (7) г=0 3. Нормальная жорданова форма. Пусть Jn — нижняя "жорданова клетка" порядка п, т. е. матрица оператора А с циклическим базисом е^ = Агео (г = 0,1,...,п- 1), Апе0 = 0. Матрица А = {Ли + ^iEni, ..., JUp + ХрЕПр} (8) имеет по определению нижнюю жорданову форму (см. § 7 гл. VII). Здесь Еп — единичная матрица порядка п. Теорема. Каждый линейный оператор в пространстве R имеет в некотором базисе матрицу вида (8). Другими словами, каждая матрица А подобна матрице вида (8). Доказательство. Согласно лемме 2, достаточно рассматривать случай, когда матрица А имеет единственное собственное значение Л, например Л = 0. Пусть п\ — наименьшее из целых положительных к таких, что Ак = 0, и пусть R+ — циклическое подпространство с базисом е^ = Агео (г = 0,1, ...,ni — 1), где ео выбирается таким образом, чтобы АП1_1ео Ф 0. Полагая R = R+ + Rq (Ro — произвольнее дополнение), получаем матрицу вида (3), где А+ = Jni. Исходя из соображений индукции можем считать, что Aq = {Jn2,..., Jnp}. В этом случае Rq натянуто на векторы е^ = Агео^ (г = 0,1, ...,п^- — 1, j = 2, ...,р), так что Anjeoj G R+. Пусть х G Ro, Afcx G R+ (А: ^ п\). Положим Afcx = Afcy + z, где у G R+, z G Rfc, Rfc натянуто на векторы е^ при г = 0,1,..., А: — 1. Применяя АП1~к к равенству z = А*(х — у), находим Ani_A;z = 0, откуда z = 0, так как АП1~к не имеет нетривиальных нулей в подпространстве R^. В результате А*(х — у) = 0. Заменяя Ro линейной оболочкой R0 элементов е^- = Аг (eoj —yj) с условием Anj (eoj —yj) = 0 (j = 2, ...,p), находим, что R0 инвариантно относительно А. Но в этом случае С = 0, т. е. А = А. Теорема доказана. Замечание. Матрица Jn подобна верхней жордановой клетке Нп = J'n. Поэтому в условиях теоремы можно рассматривать верхнюю нормальную жорданову форму ((73), гл. VII). 4. Матричное уравнение А+Х — XAq = С (гл. VIII). Полагая Aq = = {Ai,...,Ap}, согласно лемме 2 находим X = ||Xi,...,Xp||, где Xi — решение
538 Примечания уравнения (6) с заменой Aq на Ai (i = 1,...,р). Поэтому достаточно рассмотреть тот случай, когда матрица А0 нильпотентна: А™ = 0. Пусть Xfc — сужение X на подпространство Nk = {х G Ro*. А§х = 0}, так что Nm = Rq. Если х G Nfc, то Aqx G N*-i. Уравнение (6) принимает рекуррентный вид A+Xfc - Xfc-iAo = С, откуда (Х0 = 0) Хк=А+1(С + Хк-1А<>) (fc = l,2,...,m), (9) где А+1 следует понимать как произвольное значение многозначной функции, при условии, что хотя бы одно такое значение существует, т. е. (C + Xft_iAo)NfcCA+R+ (fc = l,2,...,m). (10) С другой стороны, всякое решение X уравнения (6) удовлетворяет также уравнениям А\Х-ХАк0 = Ск (fc = l,2,...), (И) где Ск определяется согласно (7). В частности, А+Х& = Ск на подпространстве N*. 1°. Регулярный случай (матрица А+ обратима). Имеем Хк = А+кСк- Решение X существует, единственно и совпадает с рядом (5). 2°. Общий случай. Условие разрешимости (10) можно заменить условием СЛСА^+ (fc = l,2,...,m). (12) Действительно, если Х& существует, то А+Х& = Ск (на N&), откуда следует (12). Обратно, (12) означает, что С^х = А+у (х G N&) при некотором у G R+, что равносильно условию А*(х — у) = 0, из которого следует (см доказательство теоремы) существование X. Пример. Л_|_ = Нр, Aq = Hq, p ^ q. Условие разрешимости (12) сводится к системе уравнений i—j=p—k Замечание. В общем случае Х& = A+feCfc, где значение Ajf* не произвольно (оно определяется решением (9)). Таким образом, формула (9) содержит, при известной интерпретации, все решения уравнения (6).
СПИСОК ЛИТЕРАТУРЫ А. Монографии, обзоры, учебники 1. Айне Э. Л. Обыкновенные дифференциальные уравнения. — Харьков: ДНТВУ, 1939. — Гл. XIX. 2. Ахиезер Я. Я. Лекции по теории аппроксимации. — М.: Гостехиздат, 1948. — Гл. I. 3. Ахиезер Я. Я., Крейн М. Г О некоторых вопросах теории моментов. — Харьков: ДНТВУ, 1938. 4. Бернштейн С. Я. Теория вероятностей. — 4-е изд. — М. — Гостехиздат, 1946. 5. Бохер М. Введение в высшую алгебру: Пер. с нем. — М,: Л.: ОНТИ, 1934. 6. Булгаков Б. В. Колебания. Т. 1. — М.: Гостехиздат, 1949. — Гл. I. 7. Гантмахер Ф. Р., Крейн М. Г Осцилляционные матрицы и малые колебания механических систем. — 2-е изд. — М.: Гостехиздат, 1950. 8. Гельфанд Я. М. а) Лекции по линейной алгебре. — 2-е изд. — М.: Гостехиздат, 1951. б) Лекции по линейной алгебре. — 4-е изд. — М.: Наука, 1971. 9. Геронимус Я. Л. Теория ортогональных многочленов. — М.: Гостехиздат, 1950. — Гл. П. 10. Граве Д. А. Элементы высшей алгебры. — Киев, 1914. 11. Еругин Я. Я. Приводимые системы. — М.: Изд-во АН СССР, 1946. (Тр. мат. ин-та АН СССР им. В. А. Стеклова. Т. 13.) 12. Еругин Я. Я. Метод Лаппо-Данилевского в теории линейных дифференциальных уравнений. — Л.: Изд-во ЛГУ, 1956. 13. Каган Я. Ф. Основания теории определителей. — Одесса: Гос. изд-во Украины, 1922. 14. Клейн Ф. Высшая геометрия: Пер. с нем. — М. - Л.: ГОНТИ, 1939. — § 96-99. 15. Крейн М. Г Основные положения теории Л-зон устойчивости канонической системы линейных дифференциальных уравнений с периодическими коэффициентами/Памяти А. А. Андронова. — М.: Изд-во АН СССР, 1955. 16. Крейн М. Г., Наймарк М. А. Метод симметрических и эрмиторых форм в теории отделения корней алгебраических уравнений. — Харьков, 1936. 17. Крейн М. Г., Рутман М. А. Линейные операторы, оставляющие инвариантным конус в пространстве Банаха//УМН. — 1948. — Т. 3, вып. 1(23). 18. Кудрявцев Л. Д. О некоторых математических вопросах теории электрических цепей//УМН. — 1948. — Т. 3, вып. 4(26). 19. Курант Р., Гильберт Д. Методы математической физики. Т. 1: Пер. с нем. — 3-е изд. — М.: Гостехиздат, 1961. — Гл. I, П. 20. Курош А. Г Курс высшей алгебры. — 11-е изд. — М.: Наука, 1975. 21. Лаппо-Данилевский Я. А. а) Теория функций от матриц и системы линейных дифференциальных уравнений. — М. - Л.: ОНТО, 1934. б) Memoires sur la theorie des systemes des equation differentielles lineaires. T. I. — M.: Изд-во АН СССР, 1934 (Тр. физ.-мат. ин-та АН СССР им. В. А. Стеклова. Т. 6); Т. И. — М.; Изд-во АН СССР, 1935 (Тр. физ.-мат. ин-та АН СССР им. В А. Стеклова. Т. 7); Т. III. — М.: Изд-во АН СССР, 1936. (Тр. физ.-мат. ин-та АН СССР им. В. А. Стеклова. Т. 8). 22. Ляпунов А. М. Общая задача об устойчивости движения. — М.: Гостехиздат, 1950. 23. Малкин И Г Теория устойчивости движения. — М.: Гостехиздат, 1952.
540 Список литературы 24. Мальцев А. И. Основы линейной алгебры. — 4-е изд. — М.: Наука, 1975. 25. Марков А. А. Избранные труды по теории непрерывных дробей и теории функций, наименее уклоняющихся от нуля. — М.: Гостехиздат, 1948. 28. Мейман Н. Н. Некоторые вопросы расположения корней полиномов//УМН. — 1949. — Т. 4, вып. 6(34). 27. Наймарк Ю. И. Устойчивость линеаризованных систем. — Л.: Изд-во Ленингр. военно-воздушной инж. акад., 1949. 28. Потапов В. П. Мультипликативная структура J-нерастягивающих матриц функ- ций//Тр. Моск. мат. об-ва. — 1955. — Т. 4. 29. Романовский В. И. Дискретные цепи Маркова. — М: Гостехиздат, 1949. 30. Смирнов В. И. Курс высшей математики. Т. III, ч. II. — 9-е изд. — М.: Наука, 1974. 31. Стилтьес Т. И. Исследование о непрерывных дробях. — Харьков: ОНТИ, 1936. 32. Фаддеев Д. Я, Соминский И. С. Сборник задач по высшей алгебре. — 11-е изд. — М.: Наука, 1977. 33. Фаддеева В. Н. Вычислительные методы линейной алгебры. — М.: Гостехиздат, 1950. 34. Фрезер Р., Дункан В., Коллар А. Теория матриц и ее приложения к дифференциальным уравнениям и динамике: Пер. с англ. — М.: ИЛ, 1950. 35. Харди Г., Литтлвуд Дж., Пойа Г. Неравенства: Пер. с англ. — М.: ИЛ, 1948. 36. Чебышев П. Л. Полное собрание сочинений. Т. III. — М.: Изд-во АН СССР, 1948. 37. Чеботарев Н. Г., Мейман Н. Н. Проблема Рауса-Гурвица для полиномов и целых функций. — М.: Изд-во АН СССР, 1949. (Тр. мат. ин-та АН СССР им. В. А. Стек- лова. Т. 26.) 38. Четаев Н. Г. Устойчивость движения. — М.: Гостехиздат, 1946. 39. Шапиро Г. М. Высшая алгебра. — 4-е изд. — М.: Учпедгиз, 1938. 40. Шилов Г. Е. Введение в теорию линейных пространств. — М.: Гостехиздат, 1952. 41. Широков П А. Тензорное исчисление. — М. - Л.: ГТТИ, 1934. 42. Шрейер О., Шпернер Е. а) Введение в линейную алгебру в геометрическом изложении, т. I: Пер. с нем. — М. - Л.: ОНТИ, 1934. б) Теория матриц: Пер. с нем. — М. - Л.: ОНТИ, 1934. 43. Aitken А. С. Determinants and matrices. — 5 ed. — Edinbourg, 1948. 44. Bodewig E. Matrix calculus. — Amsterdam, 1956; N.Y.: Interscience publ., 1959. 45. Cahen G. Elements de calcul matriciel. — Paris, 1955. 46. Collatz L. Eigenwertaufgaben mit technischen Anwendungen. — Leipzig, 1949. 47. Cullis С. Е. Matrices and determinoids. V. I—III. — Cambridge, 1913-1925. 48. Jung H. Matrizen und Determinant en: Eine Einfuhrung. — Leipzig, 1953. 49. Grobner W. Matrizenrechnung. — Munchen, 1956. 50. Kowalewski G. Einfuhrung in die Determinantentheorie. — Leipzig, 1909. 51. Lichnerowicz A. Algebre et analyse lineaires. — 2 ed. — Paris, 1956. 52. Mac Duffee С. С. a) The theory of matrices. — Berlin, 1933. b) Vectors and matrices. — N.Y., 1943. 53. Marden M. The geometry of the zeros of a polynomial in a complex variable. — N.Y., 1949. 54. Mirsky L. An introduction to linear algebra. — Oxford, 1955. 55. Muir, Sir Thomas. The theory of determinants. V. I—III. — Cambridge, 1906-1923. 56. Muth P. Theorie und Anwendung der Elementarteilertheorie. — Leipzig, 1899. 57. Parodi M. Sur quelques proprietes des valeurs caracteristiques des matrices carre- es//Mem Sci. Math. Paris. — 1952. — № 118. 58. Perils S. Theory of matrices. — Cambridge, 1952. 59. Pickert G. Normalformen von Matrize//Enzykl. Math Wiss. I 1.7. Band 1: Algebra und Zahlentheorie, 1. Teil B: Algebra. Heft 3, Teil 1 — Leipzig, 1953.
Список литературы 541 60. Routh E. J. a) Stability of a given state of motion. — London, 1877. b) The advanced part of a treatise on the dynamics of a system of rigid bodies. Part II. — 5 ed. — London, 1892. 61. Schlesinger L. a) Vorlesungen tiber lineare Differentialgleichungen. — Berlin, 1908. b) Einfuhrung in die Theorie der gewohnlichen Differentialgleichungen auf funk- tionentheoretischer Grundlage. — Berlin, 1922. 62. Schmeidler W. Vortrage iiber Determinanten und Matrizen mit Anwendungen in Physic und Technik. — Berlin, 1949. 63. Schwerdtfeger H. Introduction to linear algebra and the theory of matrices. — Gronin- gen, 1950. 64. Thrall #., Tornheim L. Vector spaces and matrices. — N.Y. — London, 1957. 65. Turnbull H. W., Aitken A. C. An introduction to the theory of canonical matrices. — London, 1932. 66. Turnbull H. W. The theory of determinants, matrices and invariants. — London, 1929. 67. Volterra V., Hostinsky B. Operations infinitesimales lineaires. — Paris, 1938. 68. Wedderburn J. H. M. Lectures on matrices. — N.Y., 1934. 69. Wiyl H. Mathematische Analyse des Raumproblems. — Berlin, 1923. 70. Winter A. Spektraltheorie der unendlichen Matrizen. — Leipzig, 1929. 71. Zurmuhl R. Matrizen und ihre technischen Anwendungen. — 3-te Auf. Berlin, 1961. Б. Специальные статьи 72. Азбелев #., Виноград Р. Процесс последовательных приближений для отыскания собственных чисел и собственных векторов//ДАН СССР. — 1952. — Т. 83. — С. 173-174. 73. Айзерман М. А. Об учете нелинейных функций от нескольких аргументов при исследовании устойчивости системы автоматического регулирования//Авто- матика и телемеханика. — 1947. — Т. 8, № 1. 74. Аржаных И. С. Распространение метода А. Н. Крылова на полиномиальные мат- рицы//ДАН СССР. — 1951. — Т. 81. — С. 749-752. 75. Атрашенок П. В. Определение произвола в выборе матрицы, приводящей систему линейных дифференциальных уравнений к системе с постоянными коэффициента- ми//Вестник Ленингр. ун-та. Сер. мат., физ., хим. — 1953. — Т. 2. — С. 17-29. 76. Березин Ф. А., Гельфанд И. М. Несколько замечаний к теории сферических функций на симметрических римановых многообразиях//Тр. Моск. мат. об-ва. — 1956. — Т. 5. — С. 311-351. 77. Булгаков Б. В. Деление прямоугольных матриц//ДАН СССР. — 1952. — Т. 85. — С. 21-24. 78. Вержбицкий Б. Д. Некоторые вопросы теории рядов композиций нескольких мат- риц//Мат. сб. — 1939. — Вып. 5(47). — С. 505-512. 79. Вейленд Г. Представление векового уравнения в виде многочлена: Пер. с англ.//УМН — 1947. — Т. 2, вып. 4(20). — С. 128-158. 80. Виленкин Н Я. Об одной оценке максимального собственного значения матри- цы//Уч. зап. Моск. гос пед. ин-та им. В. И. Ленина. — 1957. — Т. 108, № 2. — С. 55-57. 81. Гантмахер Ф. Р. а) Геометрическая теория элементарных делителей по Крул- лю//Тр. Одесск. гос. ун-та. Математика. — 1935. — Т. 1 — С. 89-108. б) К алгебраическому анализу метода акад. А. Н. Крылова преобразования векового уравнения//Тр. II Всесоюзн. мат. съезда. — 1934. — Т. 2. — С. 45-48. в) On the classification of real simple Lie groups//MaTeM. сб. — 1939. — Вып. 5(47). — С 217-250. 82. Гантмахер Ф. Р., Крейн М. Г. а) К структуре ортогональной матрицы//Тр. физ.- мат отдела ВУАН. — Киев, 1929. — С. 1-8. б) О нормальных операторах в эрмитовом пространстве//Изв. физ.-мат. о-ва при Казанск. ун-те сер. 3. — 1929-1930. — Т 4, вып. 1. — С. 71-84.
542 Список литературы в) Об одном специальном классе детерминантов в связи с интегральными ядрами Келлога//Мат. сб. — 1935. — Т. 42. — С. 501-508. г) Sur les matrices oscillatoires//Acad. Sci. Paris. — 1935. — V. 201. — P. 577-579. д) Sur les matrices oscillatoires et completement non-negatives//Compositio math. — 1937. — V. 4. — P. 445-476. 83. Гелъфанд Я. Af., Лидский В. Б. О структуре областей устойчивости линейных канонических систем дифференциальных уравнений с периодическими коэффициента- ми//УМН. — 1955. — Т. 10, вып. 1 (63). 84. Гершгорин С. A. Ueber die Abgrenzung der Eigenwerte einer Matrix//H3B. АН СССР. Сер физ.-мат. — 1931. — С. 749-754. 85. Голубчиков А. Ф. а) Об одном матричном уравнении//Уч. зап. Сталингр. пед. ин-та. — 1953. — № 3. — С. 71-82. б) О структуре автоморфизмов комплексных простых групп Ли//ДАН СССР. — 1951. — Т. 77, № 1. — С. 7-9. 86. Граве Д. А. Малые колебания и некоторые предложения алгебры//Изв. АН СССР. Сер. физ.-мат. — 1929. — С. 563-570. 87. Гроссман Д. Я. К задаче численного решения систем совместных линейных алгебраических уравнений//УМН. — 1950. — Т. 5, вып. 3(37) — С. 87-103. 88. Данилевский А. М. О численном решении векового уравнения//Мат. сб — 1937. — Вып. 2(44). — С. 169-172. 89. Дмитриев Н. А., Дынкин Е. В. а) О характеристических числах стохастических матриц//ДАН СССР. — 1945. — Т. 49. — С. 159-162. б) Характеристические корни стохастических матриц//Изв. АН СССР. Сер. мат. — 1946. — Т. 10. — С. 167-194. 90. Донская Л. Я. а) Построения решения линейной системы в окрестности регулярной особой точки в особых случаях//Вестн. ЛГУ. — 1952. — № 6. б) О структуре решений системы линейных дифференциальных уравнений в окрестности регулярной особой точки//Вестн. ЛГУ. — 1954. — № 8. — С. 55-64. 91. Дубнов Я. С. а) О совместных инвариантах системы аффиноров//Тр. Всесоюзн. съезда мат. в Москве. — 1927. — С. 236-237. б) О симметрично сдвоенных ортогональных матрицах//Изв. асе. ин-тов ун-та. — М., 1927. — С. 33-35. в) О матрицах Дирака//Уч. зап. МГУ. — 1934. — Т. 2, № 2. — С. 43-48. 91'. Дубнов Я. С, Иванов В. К. О понижении степени аффинорных полиномов//ДАН СССР. — 1943. — Т. 41. — С. 99-102. 92. Еругин Н. П. a) Sur la substitution exposante pour quelques systemes irregulie- res//MaT. сб. — 1935. — Т. 42. — С. 745-753. б) Показательная подстановка иррегулярной системы линейных дифференциальных уравнений//ДАН СССР. — 1937. — Т. 17 — С. 235-236. в) О проблеме Римана для системы Гаусса//Уч. зап. Ленингр. пед. ин-та им. А. И. Герцена. — 1939. — Т. 28. — С. 293-304. 93. Ершов А. Я. Об одном методе обращения матриц//ДАН СССР. — 1955. — Т. 100. — С. 209-211. 93'. Каган В. Ф. О некоторых системах чисел, к которым приводят лоренцовы пре- образования//Изв. асе. ин-тов ун-та. — М., 1927. — С. 3-31. 94. Карпелевич Ф. Я. О характеристических корнях матрицы с неотрицательными элементами//Изв. АН СССР. Сер. мат. — 1951. — Т. 15. — С. 361-383. 95. Коваленко К. Р., Крейн М. Г О некоторых исрледованиях А. М. Ляпунова по дифференциальным уравнениям с периодическими коэффициентами//ДАН СССР. — 1950. — Т. 75. — С. 495-499. 96. Колмогоров А. Я. Цепи Маркова со счетным множеством возможных состоя- ний//Бюлл. МГУ. — 1937. — Т. 1, № 3. 97. Котелярский Д. М. а) Про монотонш n-го порядка функцп вщ матриць//Тр. Одеськ. держ. ун-ту. Сб1рник матем. вщдигу. — 1941. — Т. 3. — С. 103-114. б) К теории неотрицательных и осцилляционных матриц//Укр. мат. — 1950. — Т. 2, № 2. — С. 94-101.
Список литературы 543 в) О некоторых свойствах матриц с положительными элементами//Мат. сб. — 1952. — Вып. 31 (73). — С. 497-506. г) Об одном свойстве знакосимметрических матриц//УМН. — 1953. — Т. 8, вып. 4(56). — С. 163-167. д) О некоторых достаточных признаках вещественности и простоты матричного спектра//Мат сб. — 1955 — Т. 36, № 1. — С. 163-168. е) О влиянии преобраования Гаусса на спектры матриц//УМН. — 1955. — Т. 10, № 1. — С. 117-121. ж) О расположении точек матричного спектра//Укр. мат. ж. — 1955. — Т. 7, № 2. — С. 131-133. з) Оценки для определителей матриц с преобладающей главной диагональю//Изв. АН СССР. Сер. мат. — 1956. — Т. 20, №1. — С. 137-144. 98. Кравчук М. Ф. а) До теорп перемшних матриць//3ап. физ.-мат. отд. АН УССР. — 1924. — Т. 1, № 2. — С. 28-33. б) До зaгaльнoi теори бышшних форм//Изв. Кшв. Политехи, с.-х. ин-та. — 1924. — Т. 19. — С. 17-18. в) Про одне перетворення квадратичних форм//Зад. физ.-мат. отд. АН УССР. — 1924. — Т. 1, № 2. — С. 87-90. г) Про квадратичт1 форми та лшшш перетворення//Зап. физ.-мат. отд. АН УССР. — 1924. — Т. 1, №3. — С. 1-89. д) Перемшш множини лшшних перетворень//Зап. Киив. с.-госп. ин-ту. — 1926. — Т. 1. — С. 25-58. е) Ueber vertauschbare Matrizen//Rend. circ. mat. Palermo. — 1927. — V. 51. — P. 126- 130. ж) О структуре перестановочных групп матриц//Тр. II Всесоюзн. мат. съезда. — 1934. — Т. 2. — С. 11-12. 99. Кравчук М. Ф., Голъдбаум Я. С. а) Про групи коммутативних матриць//Тр. Кшв. авиац. ин-та. — 1929. — С. 73-98; 1936. — С. 12-23. б) Об эквивалентности особенных пучков матриц//Тр. Киев, авиац. ин-та. — 1936. — С. 5-27. 100. Красносельский М. А., Крейн С. Г. Итерационный процесс с минимальными не- вязками//Мат. сб. — 1952. — Вып. 31 (73). — С. 315-384. 101. Крейн М. Г. а) Добавление к работе "К структуре ортогональной матрицы"//Тр. физ.-мат. отд. ВУАН. — Киев, 1931. — С. 103-107. б) О спектре якобиевой формы в связи с теорией крутильных колебаний валов//Мат. сб. — 1933. — Вып. 40. — С. 465-466. в) Об одном новом классе эрмитовых форм//Изв. АН СССР. Сер. физ.-мат. — 1933. — С. 1259-1275. г) Об узлах гармонических колебаний механических систем некоторого специального типа//Мат. сб. — 1934. — Вып. 41. — С. 339-348. д) Sur quelques applications des noyaux de Kellog aux problemes d'oscillations// Сообщ. Харьк. мат. об-ва (4). — 1935. — Т. 11. — С 3-19. е) Sur les vibrations propres des tiges dont l'une des extremites est encastree et I'autre ИЬге//Сообщ. Харьк. мат. об-ва (4). — 1935. — Т. 12 — С. 3-11. ж) Обобщение некоторых исследований А. М. Ляпунова о линейных дифференциальных уравнениях с периодическими коэффициентами//ДАН СССР. — 1950. — Т. 73. — С. 445-448. з) Об одном применении принципа неподвижной точки в теории линейных преобразований пространств с индефинитной метрикой//УМН. — 1950. — Т. 5, № 2(36). — С. 180-190. и) О применении одного алгебраического предложения в теории матриц монодро- мии//УМН. — 1951. — Т. 6, № 1(41). — С. 171-177. к) О некоторых вопросах, связанных с кругом идей Ляпунова в теории устойчивости //УМН. — 1948. — Т. 3, № 3(25). — С. 166-169. л) К теории целых матриц функций экспоненциального типа//Укр. мат. ж.- 1951. — Т. 3. — № 1. — С. 164-173. м) О некоторых задачах теории колебаний штурмовых систем//Прикл. мат.мех. — 1952. — Т. 16. — № 5. — С. 555-568.
544 Список литературы 102. Крейн М. Г., Наймарк М. А. а) Об одном преобразовании безутианты, приводящем к теореме Штурма//3ап. Харьк. мат. о-ва (4). — 1933. — Т. 10. — С. 33-40. б) О применении безутианты к вопросам отделения корней алгебраических уравне- ний//Тр. Одесск. гос. ун-та. Математика. — 1935. — Т. 1. — С. 51-69. 103. Крылов А. Н. О численном решении уравнения, которым в технических вопросах определяются частоты колебаний материальных систем//Изв. АН СССР. Сер. физ.-мат. — 1931. — С. 491-539. 104. Лаппо-Данилевский И. А. а) Основные задачи теории систем линейных дифференциальных уравнений с произвольными рациональными коэффициентами//Труды 1-го Всесоюзн. съезда матем. — М.; Л.: ОНТИ, 1936. — С. 254-262. б) Resolution algorithmique des problemes reguliers de Poincare et de Шетапп//Ж. Ленингр. физ.-мат. о-ва. — 1928. — Т. 2. — № 1; — С. 94-120. в) Theorie des matrices satisfaisantes a des systemes des equations differentielles lineaires a coefficients rationnels arbitrairesZ/Ж. Ленингр. физ.-мат. о-ва. — 1928. — Т. 2. — № 2. — С. 41-80. 105. Лившиц М. С, Потапов В. П. Теорема умножения характеристических матриц функций//ДАН СССР. — 1950. — Т. 72. — С. 164-173. 106. Лидский В. Б. а) О собственных значениях суммы и произведения симметрических матриц//ДАН СССР. — 1950. — Т. 75. — С. 769-772. б) Осцилляцнонные теоремы для канонической системы дифференциальных уравне- НИЙ//ДАН СССР. — 1955. — Т. 102. — С. 877-880. 107. Липин Н. В. О регулярных матрицах//Тр. Ленингр. ин-та инж. ж.-д. транспорта. — 1934. — Т. 9. — С. 105. 108. Лопшиц А. М. а) Векторное решение задачи о симметрически сдвоенных мат- рицах//Тр. Всеросс. съезда матем. в Москве. — 1927. — С. 186-187. б) Характеристическое уравнение наинизшей степени для аффинора и применение его к интегрированию дифференциальных уравнений//Тр. сем. по вект. и тенз. исчислению. — 1935. — Вып. 2-3. в) Численный метод нахождения собственных значений и собственных плоскостей линейного оператора//Тр. сем. по вект. и тенз. исчислению. — 1939. — Вып. 7. — С. 233-259. г) Экстремальная теорема для гиперэллипсоида и ее применение к решению системы линейных алгебраических уравнений//Тр. сем. по вект. и тенз. исчислению. — 1952. — Вып. 9. — С. 183-197. 109. Лузин Н. Н. а) О методе А. Н. Крылова составления векового уравнения//Изв. АН СССР. Сер. физ.-мат. — 1931. — С. 903-958. б) О некоторых свойствах перемещающего множителя в методе А. Н. Крылова, 1//Изв. АН СССР. Сер. физ.-мат. — 1932. — С. 596-638; И//Изв. АН СССР. Сер. физ.- мат. — 1932. — С. 735-762; Ш//Изв. АН СССР. Сер. физ.-мат. — 1932. — С. 1065-1102. в) К изучению матричной теории дифференциальных уравнений//Автоматика и телемеханика. — 1940. — Т. 5. — С. 3-66. ПО. Любич Ю. И. Оценки для оптимальной детерминизации недетерминированных автономных автоматов//Сиб. мат. ж. — 1964. — Т.5. — С. 337-355. 111. Люстерник Л. А. а) Нахождение собственных значений функции на электрической схеме//Электричество. — 1946. — Т. 11. — С. 67-68. б) Об электрическом моделировании симметрических матриц//УМН. — 1949. — Т. 4. — Вып. 2(30). — С. 198-200. 112. Люстерник Л. А., Прохоров А. М. Определение собственных значений и функции некоторых операторов с помощью электрической цепи//ДАН СССР. — 1947. — Т. 55. — С. 579-582; Изв. АН СССР. Отд. физ. наук. — 1947. — Т. 11. — С. 141-145. 113. Маркус А. С. Собственные и сингулярные числа суммы и произведения линейных операторов//УМН. — 1965. — Т. 19. — Вып. 4(118). — С. 93-123. 114. Маянц Л. С. Метод уточнения корней вековых уравнений высоких степеней и численного анализа их зависимости от параметров соответствующих матриц//ДАН СССР. — 1945. — Т. 50. — С. 121-124. 115. Нейгауз М. Г., Лидский В. Б. Об ограниченности решений линейных систем дифференциальных уравнений с периодическими коэффицнентамн//ДАН СССР. — 1951. — Т. 77 — С. 183-193.
Список литературы 545 116. Папкович П. Ф. Об одном методе разыскания корней характеристического опре- делителя//Прикл. мат. мех. — 1933. — Т. 1. — С. 314-318. 117. Понтрягин Л. С. Эрмитовы операторы в пространстве с индефинитной метрикой. — Изв. АН СССР. Сер. мат. — 1944. — Т. 8. — С. 243-280. 118. Потапов В. П. О голоморфных ограниченных в единичном круге матрицах- функциях//ДАН СССР. — 1950. — Т. 12. — С. 849-853. 119. Птак В. Об одной комбинаторной теореме и ее применении к неотрицательным матрицам//Чехосл. мат. ж. — 1958. — Т. 8. — С. 487-495. 120. Романовский В. И. a) Un theoreme sur les zeros des matrices non-negati- ves//Bull. Soc. Math. Prance — 1933. — V. 61. — P. 213-219. 6) Secherches sur les chaines de Markoff//Acta Math. — 1935. — V. 66. — P. 147-251. 121. Рехтман- Ольшанская П. Р. Об одном утверждении академика А. А. Марко- ва//УМН. — 1959. — Т. 12, вып. 3(75). — С. 181-187. 122. Сарымсаков Т. А. О последовательности стохастических матриц//ДАН СССР. — 1945. — Т. 47. — С. 331-333. 123. Севастьянов Б. А. Теория ветвящихся случайных процессов//УМН. — 1951. — Т. 6, вып. 6. — С. 46-99. 124. Семендяев К. А. О нахождении собственных значений и инвариантных многообразий матриц посредством итераций//Прикл. мат. мех. — 1943. — Т. 3. — С. 193-221. 125. Смогоржевский А. С. По уштарш типи циркулянт1в//Ж. мат. цикла АН УССР. — 1932. — Т. 1. — С. 82-91. 126. Смогоржевский А. С, Кравчук М. Ф. Про ортогональш перетворення//Зап. Киев, ин-та нар. проев. — 1927. — Т. 2. — С. 151-156. 127. Сулейманова X. Р. а) Стохастические матрицы с действительными характеристическими числами//ДАН СССР. — 1949. — Т. 66. — С. 343-345. б) О характеристических числах стохастических матриц//Уч. зап. Моск. гос. пед. ин-та. Сер. мат. — 1953. — Т. 71, вып. 1. — С. 167-197. 128. Султанов Р. М. Некоторые свойства матриц с элементами из некоммутативного кольца//Тр. сек. мат. АН АзССР. — 1946. — Т. 2. — С. 11-17. 129. Сушкевич А. К. Про деяк1 типи особливих матриць//Уч. зап. Харьк. держ. унту. — 1937. — Т. 10. — С 11-16. 130. Турчанинов А. С. О некоторых приложениях исчисления матриц к линейным дифференциальным уравнениям//Уч. зап. высш. шк. — 1921. — Т. 1. — С. 41-48. 131. Фаге М. К. а) Обобщение неравенства Адамара об определителях//ДАН СССР. — 1946. — Т. 54. — С. 765-768. б) О симметризуемых матрицах//УМН. — 1951. — Т. 6, вып. 3(43). — С. 153-156. 132. Фаддеев Д. Я. О преобразовании векового уравнения матрицы//Тр. Ленингр. ин-та инж. пром. строит. — 1937. — Т. 4. — С. 78-86. 133. Хлодовский И. Н. К теории общего случая преобразования векового уравнения методом академика А. Н. Крылова//Изв. АН СССР. Сер. физ.-мат. — 1933. — Т. 8. — С. 1077-1102. 134. Хуа Логен. а) Геометрия симметрических матриц над полем действительных чисел. 1//ДАН СССР. — 1946. — Т. 53. — С. 99-102; И//ДАН СССР. — 1946. — Т. 53. — С. 199-200. б) Автоморфизмы действительной симплектической группы//ДАН СССР. — 1946. — Т. 53. — С. 307-310. 135. Хуа Логещ Розенфельд Б. А. Геометрия прямоугольных матриц и ее приложения к вещественной проективной и неевклидовой геометрии//Изв. вузов. Сер. мат. — 1957. — Т. 1. — С. 233-246. 136. Цейтлин М. Л. Применение матричного исчисления к синтезу релейно-контакт- ных схем//ДАН СССР. — 1952. — Т. 86. — С. 525-528. 137. Циммерман Г. К. Разложение нормы матрицы по произведениям норм ее строк//Науч. зап. Николаевск, гос. пед. ин-та. — 1953. — Т. 4. — С. 130-135. 138. Шварцман П. А. О матрицах Грина самосопряженных конечно-разностных опе- раторов//Тр. Одесск. гос. ун-та. Математика. — 1941. — Т. 3. — С. 35-77. 18 Ф.Р. Гантмахер
546 Список литературы 139. Шиффнер Л. М. а) Разложение интегралов системы дифференциальных уравнений с правильными особыми точками в ряды по степеням элементов дифференциальных подстановок//Тр. физ.-мат. ин-та АН СССР им. В. А. Стеклова. Т. 9. — М.: Изд. АН СССР, 1935. б) О степени матрицы//Мат. сб. — 1935. — Т. 42, № 3. — С. 385-394. 140. Шостак Р. Я. О признаке условной определенности квадратичной формы переменных, подчиненных линейным связям, и о достаточном признаке условного экстремума функции переменных//УМН. — 1954. — Т. 9, вып. 2. — С. 199-206. 141. Шрейдер Ю. А. Решение систем линейных совместных алгебраических уравнений //ДАН СССР. — 1951. — Т. 76. — С. 651-655. 142. Штаерман И. Я. Новый метод решения некоторых алгебраических уравнений, которые имеют применения в математической физике и технике//Ж. ин-та мат. АН УССР. — 1934. — Т. 1. — С. 83-89; 1934. — Т. 4. — С. 9-20. 143. Штаерман И. Я., Ахиезер Н. И. К теории квадратичных форм//Изв. Киев, политехи, с-х. ин-та. — 1934. — Т. 19. — С. 116-123. 144. Шура-Бура М. Р. Оценка ошибок при численном обращении матриц высокого порядка//УМН. — 1951, — Т. 6, вып. 4(44). — С. 121-150. 145. Яглом И. М. Квадратичные и кососимметрические билинейные формы в вещественном симплектическом пространстве//Тр. сем. по вект. и тенз. анализу. — 1950. — Т. 8. — С. 364-381. 146. Якубович В. А. Некоторые критерии приводимости системы дифференциальных уравнений//ДАН СССР. — 1949. — Т. 66. — С. 577-580. 147. Afriat S. Composite matrices//Quart. J. Math. — 1954. — V. 5, № 12. — P. 81-98. 148. Aitken A.C. Studies in practical mathematics. The evaluation with applications of a certain triple product matrix//Proc. Roy. Soc. Edinbourgh. — 1936-1937. — V. 57. 149. Amir Moez Ali R. Extreme properties of eigenvalues of a hermitian transformation and sungular values of the sum and product of linear transformations//Duke Math. J. — 1956. — V. 23. — P. 463-467. 150. Baker H.F. On the integration of linear differential equations//Proc. Lond. Math. Soc. — 1903. — V. 35. — P. 333-378. 151. Barankin E. W. Bounds for characteristic roots of a matrix//Bull. Amer. Math. Soc. — 1945. — V. 51. — P. 767-770. 152. Bartsch H. Abschatzungen fur die kleinste charakteristische Zahl einer positivdefini- ten Matrix//ZAM. — 1954 — Bd. 34, № 1-2. — S. 72-74. 153. Birkhoff G. D. a) Equivalent singular points of ordinary linear differential equati- ons//Math. Ann. — 1913. — V. 74. — P. 134-139. b) Tres observations sobre el algebra lineal//Revista Universidad Nacional Tucuman, ser. A — 1946. — V. 5 — P. 147-151. 154. Birkhoff G. On product integration//J. Math. Phys. — 1937. — V. 16. — P. 104- 132. 155. Bellman R. Notes on matrix theory//Amer. Math. Monthly. — 1953. — V. 60; Bendat J., Scherman S. Monotone and convex operator functions//Trans. Amer. Math. Monthly. — 1955. — V. 62, № 8. — P. 571-572; Amer. Math. Monthly. — 1955. — V. 62, № 9. — P. 647-648; Amer. Math. Monthly. — 1957. — V. 64, № 3. — P. 189-191. 156. Bellman #., Hoffman A. On a theorem of Ostrowski//Arch. Math. — 1954. — V. 5, № 1-3. — P. 123-127. 157. Bendat J., Scherman S. Monotone and convex operator functions//Trans. Amer. Math. Soc. — 1955. — V. 9, № 1. — P. 58-71. 158. Berge C. Sur une propriete des matrices doublement stochastiques//C. r. Acad. Sci. Paris. — 1955. — V. 241, № 3. — P. 269-271. 159. Bjerhammer A. Rectangular reciprocal matrices, with specially references to geodesic calculus//Bull. geod. int. — 1951. — P. 188-220. 160. Bott #., Duffin R. On the algebra of networks//Trans. Amer. Math. Soc. — 1953. — V. 74, № 1. — P. 99-109.
Список литературы 547 161. Brauer A. a) Limits for the characteristic roots of a matrix. I//Duke Math. J. — 1946. — V. 13. — P. 387-395; II//Duke Math. J. — 1947. — V. 14. — P. 21-26; III//Duke Math. J. — 1948. — V. 15. — P. 871-877; IV//Duke Math. J. — 1952. — V.19. — P. 73-91; V//Duke Math, J. — 1952. — V. 19. — P. 551-563; VI//Duke Math. J. — 1955. — V. 22. — P. 387-395. b) Uber die Lage der charakteristischen Wurzeln einer Matrix//J. reine angew. Math. — 1953. — Bd. 192, № 2. — S 113-116. c) Bounds for the rations of the coordinates of the characteristic vectors of a matrix//Proc. Nat. Acad. Sci. U.S.A. — 1955. — V. 41, № 3. — P. 162-164. d) The theorems of Ledermann and Ostrowski on positive matrices//Duke Math. J. — 1957. — V. 24, № 2. — P. 265-274. 162. Brenner J. Bounds for the determinants//Proc. Nat. Acad. Sci. U.S.A. — 1954. — V. 40. — P. 442-454; Proc. Amer. Math. Soc. — 1957. — V. 8. — P. 532-534; С. г. Acad. Sci. Paris. — 1954. — V. 238. — P. 555-556. 163. Bruijn N. Inequalities concerning minors and eigenvalues//Nieuw. arch, wiskunde. — 1956. — V. 4, № 1. — P. 18-35. 164. Bruijn JV., Szekeres C. On some exponential and polar representations of matri- ces//Nieuw. arch, wiskunde. — 1955. — V. 3, № 1. — P. 20-32. 165. Cayley A. A memoire on the theory of matrices//London. Phil. Trans. — 1857. — V. 148. — P. 17-37. 166. Coheen H. E. On a lemma of Stieltjes on matrices//Amer. Math. Monthly. — 1949. — V. 56. — P. 328-329. 167. Collatz L. a) Einschliebungssatz fur die charakteristischen Zahlen von Matri- zen//Math Z. — 1942. — Bd. 48. — S. 221-226. b) Uber monotone Susteme linearer Ungleichungen//J. reine angew. Math. — 1955. — V. 194. — S. 193-194. 168. Cremer H. Die Verringerung der Zahl der Stabilitatskritenien bei Voraussetzung positiver Koeffizienten der charakteristischen Gleichung//Zam. — 1953. — V. 33, № 7. — P. 222-227. 169. Cremer #., Effertz F.H. Uber die algebraischen Kriterien fur die Stabilitat von Regelungssystemen//Math. Ann. — 1959. — Bd. 137, № 4. — S. 328-350. 170. Diliberto S. On system of ordinary differential equations. Contributions to the theory of non-linear oscillations. — Princeton, 1950. — P. 1-38. 171. Dobsch O. Matrixfunktionen beschrankter Schwankung//Math. Z. — 1937. — Bd 43. — S. 353-388. 172. Dulmage L., Halperin I. On a theorem of Frobenius-Konig and J. von Neumann's game of hide and seek//Trans. Roy. Soc. Canada. Ser. III. — 1955. — V. 49. — P. 23-29. 173. Duncan W. Reciprocation of triply-partitioned matrices//J. Roy. Aeronaut. Soc. — 1956. — V. 60, № 542. — P. 131-132. 174. Едегуагу Е. a) On hypermatrices whose blocks are commetable in pairs and their application in lattice-dynamics//Acta scient. Math. — 1954. — V. 15, № 3-4. — P. 211-222. b) On a lemma of Stieltjes on matrices//Acta Scient. Math. — 1954. — V. 15, № 2. — P. 99-103. 175. Epstein M, Flanders H. On the reduction of a matrix to diagonal form//Amer. Math. Monthly. — 1955. — V. 62, № 3. — P. 168-171. 176. Faedo S. Un nuovo problema di stabilita per le equazioni algebriche a coefficient reali//Ann. Scuola notm. suiper. Pisa. Sei. fis mat. — 1953. — V. 7, № 1-2. — P. 53-63. 177. Fan Ky. a) On a theorem of Weyl concerning eigenvalues of linear transformations. I//Proc. Nat. Acad. Sci. U.S.A. — 1949. — V. 35. — P. 652-655; II//Proc. Nat. Acad. Sci. U.S.A. — 1950. — V. 36. — P. 31-35. b) Maximum properties and inequalities for the eigenvalues of completely continuous operators//Proc. Nat. Acad. Sci. U.S.A. — 1951. — V. 37. — P. 760-766. c) A comparison theorem for eigenvalues of normal matrices//Pacific. J. Math. — 1955. — V. 5. — P. 911-913. d) Some inequalities concerning positive-definite Hermitian matrices//Proc. Cambr. Phil. Soc. — 1935. — V. 51, № 3. — P. 414-421. 18*
548 Список литературы 178. Fan Ky, Hoffman A. Some metric inequalities in the space of matrices//Proc. Amer. Math. Soc. — 1955. — V. 6, № l. — p. Ш-И6. 179. Fan Ky, Housenholder A. S. A note concerning positive matrices and M-matri- ces//Monatsh. Math. — 1959. — V. 63, № 3. — P. 265-270. 180. Fan Ky, Gordon P.//Imbedding conditions for Hermitian and normal matrices//Ca- nad. J. Math. — 1957. — V. 9. — P. 298-304. 181. Fan Ky, Todd J. A determinantial inequality//J. London Math. Soc. — 1955. — V. 30, № l. — p. 58-64. 182. Frobenius G. a) Uber lineare Substitutionen und bilineare Formen//J. reinen- gew. Math. — 1877. — Bd. 84. — S. 1-63. b) Uber die kogredienten Transformationen der bilinearen Formen//Sitz.-Ber. Akad. Wlss. Phys.-math. Klasse. — Berlin, 1896. — S. 7-16. c) Uber die vertauschbare Matrizen//Sitz.-Ber. Akad. Wiss. Phys.-maih. Klasse. — Berlin, 1806. — S. 601-604. d) Uber Matrizen aus positiven Elementen//Sitz.-Ber. Akad. Wiss. Phys.-math. Klasse. — Berlin, 1908. — S. 471-476; Sitz.-Ber. Akad. Wiss. Phys-math. Klasse. — Berlin, 1909. — S. 514-518. e) Uber Matrizen aus nicht-negativen Elementen//Sitz.-Ber. Akad. Wiss. Phys.-math. Klasse. — Berlin, 1912 — S. 456-477. f) Uber des Tragheitsgesetz der quadratischen Formen//Sitz.-Ber. Akad. Wiss. Phys- math. Klasse. — Berlin, 1894. — S. 241-256, 407-431. 183. Gautschi W. Pounds of matrices with regard to an hermitian metric//Compositio math. — 1954. — V. 12, № 1. — P. 1-16. 184. Goddard L. An extension of a matrix theorem of A. Brauer//Proc. Intern. Congr. Math. — 1954. — V. 2. — P. 22-23. 185. Haynsworth E. Bounds for determinants with dominant main diagonal//Duke Math. J. — 1953. — V. 20, № 2. — P. 199-209. 186. Hellman 0. Die Anwendung des Matrizanten bei Eigenwertaufgaben//ZAM. — 1955. — Bd. 35, № 8. — S. 300-315. 187. Hjelmslev J. Introduction a la thaorie des suites monotones//Oversight over Kgl. Danske Vjdenskaberns Selbskabs Forhandlinger. — 1914. — P. 1-74. 188. Hoffman Л., Taussky Olga. A characterisation of normal matrices.//J. Res. Nat. Bur. Standards. — 1954. — V. 52, № 1. — P. 17-19. 189. Hoffman Л., Wiefandt H. The variation of the spectrum of a normal matrix//Duke Math. J. — 953. — V. 20, № 1. — P 37-39. 190. Holladay L., Varga R. On powers of non-negative matrices//proc. Amer. Math. Soc. — 1958. — V. 9. — P. 631-634. 191. Horn A. a) On the eigenvalues of a matrix with: prescribed singular values//Proc. Amer. Math. Soc. — 1954. — V. 5, № 1. — P. 4. b) On the singular values of product of completely continuous operators//Proc. Nat. Acad. U.S.A. — 1950 — V. 36, № 7. — P. 374-375. c) Eigenvalues of sums of Hermitian matrices//Pacific J. Math. — 1962. — V. 11, № 1. — P. 225-241. d) Doubly stochastic matrices and the diagonal of a rotation matrix//Amer. J. Math. — 1954. — V. 76, № 3. — P. 620-630. 192. Hsu P. L. a) On symmetric, orthogonal, and skew symmetric matrices//Proc. Edinburgh Math. Soc. Ser. 2. — 1953. — V. 10. — P. 37-44. b) On a kind of transformations of matrices//Acta Math. Sinica. — 1955. — V. 5, № 3. — P. 333-347. 193. Hoteling H. Some new methods in matrix calculation//Ann. Math. Stat. — 1943. — V. 14, № 1. 194. Hua Loo-keng. a) On the theory of automorphic functions of a matrix variable. I//Amer. J. Math. — 1944. — V. 66. — P. 470-478; H//Amer. J. Math. — 1944. — V. 66. — P. 561-563. b) Geometries of matrices//Trans. Amer. Math. Soc. — 1945. — V. 57. — P. 441-490.
Список литературы 549 c) Orthogonal classification of Hermitian matrices//Trans. Amer. Math. Soc. — 1946. — V. 59. — P. 508-523. d) Inequalities involving determinants//Acta Math. Sinica. — 1955. — V. 5. — P. 463-470. 195. Hermite С Sur le nombre des racines d'une equation algebrique comprise entre des limites donnees//J. reine angew. Math. — 1856. — Bd. 52. — S. 39-51. 196. Hurwitz A. Uber die Bedingungen, unter welchen eine Gleichung nur Wurzeln mit negatiyen reellen Teilen besitzt//Math. Ann. — 1895. — Bd. 46. — S. 273-284. 197. Ingraham M. H. On the reduction of a matrix to its rational canonical form//Bull. Amer. Math. Soc. — 1933. — V. 39. — P. 379-382. 198. Jonescu D. 0. identitate importante ai descompunere a unei forme bilineare intro suma de produse//Gaz. mat si fiz — 1955. — V. A7, № 7. — P. 303-312. 199. Jongmans F. Problemes matriciels lies an ring//Bull. Soc. Roy. Sei. Liege. — I960. — V. 29. — P. 3-4, 51-60. 200. Ishak M. Sur les spectres des matrices//Sem. P. Dubreil et Pisot. Fac. sci. Paris. — 1955-1956. — V. 9, № 14, — P. 1-14. 201. Khan N. A. The characteristic roots of the product of matrices//Ouart. J. Math. 1956. — V. 7, № 26. — P. 138-143. 202. Kowalewski G. Natiirliche Normalformen linearer Transformationen//Leipz. Ber. — 1917. — Bd. 69. — S. 325-335. 203. Konig D. Uber Graphen und ihre Anvendungen//Math. Ann. — 1916. — S. 453-465. 204. Kraus F. Uber konvexe Matrixfunktionen//Math. 2. — 1936. — Bd. 41. — S. 18-42. 205. Kronecker L. Algebraische Reduktion der Scharen bilinearer Formen//Sitz.-Ber. Akad. Wiss. Phys.-math. Klasse. — Berlin, 1890. — S. 763-776. 206. Kru H W. Theorie und Anwendung der verallgemeinerten Abelschen Gruppen//Sitz.- Ber. Heidelb. Akad. — 1926. — S. 1. 207. Ledermann W. a) Reduction of singular pencils of matrices//Proc. Edinb. Math. Soc, ser. 2. — 1935. — V. 4. — P. 92-105. b) Bounds for the greatest latent root of positive matrix//J. Lond. Math Soc. — 1950 — V. 25 — P. 265-268. 208. Ljenard, Chipart Sur la signe de la partie reelle des racines d'une equation algebrique//J. Math, pure appl. (6). — 1914. — V. 10. — P. 291-346. 209. Lowner K. a) Uber monotone Matrixfunktionen//Math. Z. — 1933. — Bd. 38. — S. 177-216. b) Some classes of functions defined by difference or differential inequalities// Bull. Amer. Math. Soc. — 1950. — V. 56. — P. 308-319. 210. Marcus M. a) A remark on a norm inequality for square matrices//Proc. Amer. Math. Soc. — 1955. — V. 6, № 1. — P. 117-119. b) An eigenvalue inequality for the product of normal matrices//Amer. Math. Monthly. — 1956 — V. 63, № 3. — P. 173-174. 211. Marcus M., McGregor J. L. Extremal properties of Hermitian matrjces//Canad. J. Math. — 1956. — V. 8. — p. 524-531. 212. Mirsky L. a) An inequality for positive definite matrices//Amer. Math. Monthly. — 1955. — V. 62, № 6. — P. 428-430. b) The norm of adjugate and inverse matrices//Arch. Math. — 1966. — V. 7. — P. 276-277. c) The spread of a matrix//Mathematica. — 1956. — V. 3. — P. 127-130. d) Inequalities for normal and Hermitian matrices//Duke Math. J. — 1957. — V. 24, № 4. — P. 591-599. e) Symmetric gange functions and unitarily invariant norms//Quart. J. Math. — 1960. — V. 11. — P. 50-59. 213. Mitrovic D. Conditions graphiques pour que toutes les raciries d'une equation algebrique soient a parties reelles negatives.//C. r. Acad. Sci. Paris. — 1955. — V. 240, № 11. — P. 1177-1179.
550 Список литературы 214. Moore.//Bull Amer. Math. Soc. — 1920. — V. 26. — P. 394-395. 215. Morgenstern D. Eine Verscharfung der Ostrowski'schen Determinantenabschat- zung//Math. Z. — 1956. — V. 66. — S. 143-146. 216. Motzkin Т., Taussky Olga Paris of matrices with property W. I//Trans. Amer. Math. Soc. — 1952. — V. 73, № 1. — P. 108-114; II//Trans. Amer. Math. Soc. — 1955. — V. 80, № 2. — P. 387-401. 217. Nagy B. Remark on S. N. Roy's paper "A useful theorem in matrix theory"//Proc. Amer. Math. Soc. — 1956. — V. 7, № 1. 218. Neumann J. a) Approximative of matrices of high order//Portug. Math. — 1942. — V. 3. — P. 1-62. b) Some matrix-inequalities and metrization of matrix-space//H3B. Науч.-ис. ин-та мат. и мех. при Томск, гос. ун-те им. В. В. Куйбышева. — 1937. — Т. 1, вып. 3. 219. Okamoto M. On a certain type of matrices with an application to experimental design//Osaka Math. J. — 1954. — V. 6, № 1. — P. 73-82. 220. Oppenheim A. Inequalities connected with definite Hermitian forms//Amer. Math. Monthly. — 1954. — V. 61, № 7. — P. 463-466. 221. Orlando L. Sul probleme di Hurwitz relativo alle parti realli delle radici di un'equazi- one algebrica//Math. Ann. — 1911. — Bd 71. — S. 233-245. 222. Ostrowski A. a) Bounds for the greatest latent root of a positive matnx//J. Lond Math Soc. — 1952. — V. 27. — P. 253-256. b) Sur quelques applications des functions convexes et concaves au sens de J. Schur//J. Math, pures appl. — 1952. — V. 31. — P 253-292. c) On nearly triangular matrices//J. Res. Nat. Standards. — 1954. — V. 52, № 6. — P. 344-345. d) On the spectrum of one-parametric family of matrices//J. reine angew. Math. — 1954. — Bd. 193, № 3/4. — S. 143-160. e) Sur les determinants a diagonale dominante//Bul. Soc. math. Belgique. — 1955. — V. 7, № 1 — P. 46-51. f) Note on bounds for some determinants//Duke Math J. — 1955. — V. 22, № 1. — P. 95-102. g) Uber Normen von Matrizen//Math. Z. — 1955. — V. 63, № 1. — P. 2-18. 223. Papulis A. Limits on the zeros of a network determinant//Quart. Appl. Math. — 1957. — V. 15, № 2. — P. 193-194. 224. Parodi M. a) Remarques sur la stabilite//C. r. Acad. Sci Paris. — 1949. — V. 228. — P. 51-52, 807-808, 1198-1200. b) Sur une propriete des racines d'une equation qui intervient en mecanique//C. r. Acad. Sci. Paris. — 1955. — V. 241, № 16. — P. 1019-1021. c) Sur la localisation des valeurs caracteristiques des matrices dans le plan comple- xe//C. r. Acad. Sei. Paris. — 1956. — V. 242, № 22. — P. 2617-2618. 225. Peano G. Integration par series des equations differentielles Hneaires//Math. Ann. — 1888. — Bd. 32. — S. 450-456. 226. Penrose R. a) A generalized inverse for matrices//Proc. Cambridge Phil. Soc. — 1955. — V. 51, № 3. — P. 406-413. b) On best approximate solutions of linear matrix equations//Proc. Cambridge Phil. Soc. — 1956. — V. 52, № 1. — P. 17-19. 227. Perfect H. a) On matrices with positive elements//Quart. J. Math. — 1951. — V. 2. — P. 286-290. b) On positive stochastic matrices with real characteristic roots//Proc. Cambridge Phil. Soc. — 1952. — V. 48. — P. 271-276. c) Methods of constructing certain stochastic matrices, I//Duke Math. J. — 1953. — V. 20, № 3. — P. 395-404; II//Duke Math. J. — 1955. — V. 22, № 2. — P. 303-311. d) A lower bound for the diagonal elements of a non-negative matrix//J. London Math. Soc. — 1956. — V. 31. — P. 491-493. 228. Perkins P. A theorem on regular matrices//Pacific. J. Math. — 1961. — V. 11. — P. 1529-1533.
Список литературы 551 229. Perron О. a) Jacobischer Kettenbruchalgorithmus//Math. Ann. — 1907. — Bd. 64. — S. 1-76. b) Ueber Matrizen//Math. Ann. — 1907. — Bd. 64. — S. 248-263. 230. Phillips H. B. Functions of matrices//Amer. J. Math. — 1919. — V. 41. — P. 266-278. 231. Pignani. On certain matrix equations//Amer. Math. Monthly. — 1957. — P. 573-576. 232. Polya G. Remark on Weyl's note//Proc. Nat. Acad. U.S.A. — 1960. — V. 36. — P. 49-50. 233. Radc R. An inequality//J. Lond. Math. Soc. — 1952. — V. 27. — P. 1-6. 234. Rasch G. Zur Theorie und Anwendung des Produktintegrals//J. reine angew. Math. — 1934. — Bd. 171. — S. 65-119. 235. Rham G. de. Sur un thereme de Stieltjes relatif a certain matrices//Acad Sei. Serbe. Publ. Inst. Math. — 1952. — P. 133-154. 236. Richter H. a) Uber Matrixfunktionen//Math. Ann. — 1950. — V. 122. — P. 16-35. b) Bemerkung zur Norm der inversen einer Matrix//Arch. Math. — 1954. — Bd. 5, № 4-6. — S. 447-458. c) Zur Abschatzung von Matrizennormen//Math. Nachr. — 1959. — Bd. 18. — S. 178-187. 237. Roth W. a) On the characteristic polynomial of the product of two matrices//Proc. Amer. Math. Soc. — 1954. — V. 5, № 1. — P. 1-3. b) On the characteristic polynomial of the product of several matrices//Amer Math. Soc. — 1956 — V. 7, № 4. — P. 578-582. 238. Roy S. A useful theorem in matrix theory//Proc. Amer. Math. Soc. — 1954. — V. 5, № 4. — P. 635-638. 239. Schneider H. a) An inequality for latent roots applied to determinants with dominant principal diagonal//J. Lond. Math. Soc. — 1953. — V. 28, № 109. — P. 8-20. b) A pair of matrices with property W//Amer. Math. Monthly. — 1955. — V. 62, № 4. — P. 247-249. c) A matrix problem concerning projections//Proc. Edinbourgh Math. Soc. — 1953. — V. 10, № 3. — P. 129-130. d) The elementary divisors, associated with 0, of a singular 7-matrix//Proc. Edingourgh Math. Soc. — 1956. — V. 10, № 3. — p. 108-122. 240. Schoda K. Uber mit einer Matrix vertauschbaren Matrizen//Math. Z. — 1929. — Bd. 29 — S. 696-712. 241. Schoenberg J. a) Uber variationsvermindernde lineare Transformationen//Math. Z. — 1930. — Bd. 32. — S. 321-328. b) Zur Abzahlung der reellen Wurzeln algebraischer Gleichungen//Math. Z. — 1933. — Bd. 38. — S. 546. 242. Schoenberg Т., Whitney A. A theorem on polygons in dimensions with application to variation-diminishing linear transformatiors//Compositio math. — 1951. — V. 9. — P. 141-160. 243. Schur J. Uber die charakteristischen Wurzeln einer linearen Substitution mit einer Anwendung auf die Theorie der Integralgleichungen//Math. Ann. — 1909. — Bd. 66. — S. 488-510. 244. Sedlacek I. O incidencnich maticich orientovanych grafu//Casop. pest. mat. — 1959. — T. 84. — S. 303-316. 245. Siegel C. L. Sympiectic Geometry//Amer. J. Math. — 1943. — V. 65. — P. 1-86. 246. Stenzel H. Uber die Darstehbarkeit einer Matrix als Produkt von zwei symmetris- chen Matrizen//Math. Z. — 1922. — Bd. 15. 247. Stohr A. Oszillationstheoreme fur die Eigenvectoren spezieller Matrizen//J. reinean- gew. Math. — 1943. — Bd. 185, № 3. 248. Taussky Olga. a) Bounds for characteristic roots of matrices//Duke Math. J. — 1948. — V. 15. — P. 1043-1044. b) A determinantial inequality of H. P. Robertson//J. Washington Acad. Sci. — 1957. — V. 47, № 8. — P. 263-264.
552 Список литературы 249. Toeplitz О. Das algebraische Analogen zu einem Satz von Fejer//Math. Z. — 1918. — Bd. 2. — S. 187-197. 250. Turnbull H. W. On the reduction of singular matrix pencils//Proc. Edinbourgh Math. Soc. ser. 2. — 1935. — V. 4. — P. 67-76. 251. Vivier M. Note sur les structure unitaires et paraunitaires//C. r. Acad. sci. Paris. — 1955. — V. 240, № 10. — P. 1039-1041. 252. Volterra V. Sui fondamenti della teoria delle equazioni differenziali lineari//Mem. Soc Ital. Sci. (3). — 1887. —V. 6. — P. 1-104; Mem. Soc. Ital. Sci. (3). — 1902. — V. 12 — P. 3-68. 253. Walker A., Weston J. a) Inclusion theorems for the eigenvalues of a normal matrix//J. Lond. Math. Soc. — 1944. — V. 24. — P. 28-31. b) Ein Einschliesungssatz fur charakteristische Wurzeln normaler Matrizen//Arch. Math — 1948/49. — Bd. 1. — S. 348-352. c) Die Einschliesung von Eigenwerten normaler Matrizen//Math. Ann. — 1949. — Bd. 121. — S. 234-241. 254. Weierstrass K. Zur Theorie der bilinearen und quadratischen Formen//Monatsh. Akad. Wiss. Berlin. — 1867. — S. 310-338. 255. Wellstein J. Uber symmetrische, alternierende und orthogonale Normalformen von Matrizen//J. reine angew. Math. — 1930. — Bd. 163. — S. 166-182. 256. Weyl H. Inequalities between the two kinds of eigenvalues of a linear transformati- on//Proc Nat. Acad. Sci. U.S.A. — 1949. — V. 35. — P. 408-411. 257. Weyr E. Zur Theorie der bilinearen Formen//Monatsh. Math. Phys. — 1890. — S. 163-236. 258. Whitney A. A reduction theorem for totaly positive matrices//J. Anal. Math. — 1952. — V. 2. — P. 88-92. 259. Wielandt H. a) Unzerlegbare, nicht negative Matrizen//Math. Z. — 1950. — Bd. 52. — S. 642-648. b) Lineare Scharen von Matrizen mit reellen Eigenwerten//Math. Z. — 1950. — Bd. 53. — S. 219-225. c) Pairs of normal matrices with property W//J. Res. Nat. Bur. Standards. — 1953. — V. 51, № 2. — P. 89-90. d) Inclusions theorems for eigenvalues//Nat. Bur. Standards, Appl. Math. — 1953 — № 29. — P. 75-78. e) An extremum property of sums of eigenvalues//Proc. Amer. Math. Soc. — 1955. — V. 6, № 1. — P. 106-110. f) On eigenvalues of sums of normal matrices//Pacific. J. Math. — 1955. — V. 5, № 4. — P. 633-638. 260. Wong Y. a) An inequality for Minkowski matrices//Proc. Amer. Math. Soc. — 1953. — V. 4, № 1. — P. 137-141. b) On non-negativ-valued matrices//Proc. Nat. Acad. Sci. U.S.A. — 1954. — V. 40, № 2. — P. 121-124. 261. Winter A. On criteria for linear stability//J. Math. Mech. — 1957. — V. 6. — P. 301-309. ДОПОЛНИТЕЛЬНЫЙ СПИСОК ЛИТЕРАТУРЫ 262. Арнольд В. И. а) Дополнительные главы теории обыкновенных дифференциальных уравнений. — М.: Наука, 1978. — § 30. б) Особенности границ пространств дифференциальных уравнений//УМН. — 1986 — Т. 41. — С. 152 —154. 263. Аюпов Р. С. Об одном свойстве гурвицевых матриц и его использовании для регуляризации системы линейных алгебраических уравнений//Ж. выч. мат. мех. физ. — 1987. — № 6. 264. Беллман Р., Беккенбах Э. Неравенства: Пер. с англ. — М.: Мир, 1965. 255. Беллман Р. Введение в теорию матриц: Пер. с англ. — М.: Наука, 1976. 266. Белицкий Г. Р., Любич Ю. И. Нормы матриц и их приложения. — Киев: Наукова думка, 1984.
Список литературы 553 267. Владимиров Я. С. Математические задачи односкоростной теории частиц. — М.: Изд-во АН СССР, 1961. (Тр. мат. ин-та АН СССР им. В. А. Стеклова. Т. 61.) 268. Воеводин В. В. Численные методы алгебры. — М.: Наука, 1966. 269. Воеводин В. В., Кузнецов Ю. А. Матрицы и вычисления. — М.: Наука, 1984. (Справочная математическая библиотека.) 270. Воронов А. А. Введение в динамику сложных управляемых систем. — М.: Наука, 1985. 271. Галин Д. М. Версальные деформации линейных гамильтоновых систем//Тр. сем. им. И. Г. Петровского. — 1975. — Т. 1. — С. 63-74. 272. Гантмахер Ф. Р., Якубович В. А. Абсолютная устойчивость нелинейных регулируемых систем//Труды 2-го Всесоюзного съезда по теоретической и прикладной механике. — М.: Наука, 1965. — С. 30-63. 273. Глазман Я. М., Любич Ю. Я. Конечномерный линейный анализ, — М.: Наука, 1969. 274. Годунов С. К. Решение систем линейных уравнений. — Новосибирск: Наука, 1980. 275. Далецкий Ю. Л"., Креин М. Г Устойчивость решений дифференциальных уравнений в банаховом пространстве. — М.: Наука, 1970. 276. Ефимов А. Я., Потапов В. Я. J-растягивающие матрицы-функции и их роль в аналитической теории электрических цепей//УМН. — 1973. — Т. 28, вып. 1(169). — С. 65-129. 277. Ильин В. Я., Кузнецов Ю. М. Трехдиагональные матрицы и их приложения, — М.: Наука, 1985. 278. Иохвидов И. С. Ганкелевы и теплицевы матрицы и формы. — М.: Наука, 1974. 279. Карапетян А. В., Румянцев В. В. Устойчивость консервативных и диссипатив- ных систем//ВИНИТИ. Итоги науки и техники. Сер. Общая механика. — 1983. — Т. 6. 280. Костюченко А. Г., Оразов М. В. Задача о колебаниях упругого полуцилиндра и связанные с ней самосопряженные квадратичные пучки//Тр. сем. им. И. Г. Петровского. — 1981. — Т. 6. — С. 97-146. 281. Крейн М. Г., Лангер Г. К (Я. Langer), О некоторых математических принципах линейной теории демпфированных колебаний континуумов//Тр. международного симпозиума, Тбилиси, 7-23 сентября 1963. Т. 2. — С. 283-322. 282. Крейн М. Г., Рутман М. А. Линейные операторы, оставляющие инвариантным конус в пространстве Банаха//УМН. — 1948. — Т. 3, вып. 1(23), — С. 3-95. 283. Лаврентьев М. А., Шабат В. В. Методы теории функции комплексного переменного. — М.: Наука, 1987. 284. Ланкастер Я. Теория матриц: Пер. с англ. — М.: Наука, 1982. 285. Лидский В. В. Многогранник спектра суммы двух эрмитовых матриц//Функци- он. анализ и его прил. — 1982. — Т. 16, вып. 2. — С. 76-77. 286. Маршалл А., Олкин Я. Неравенства. Теория мажорации и ее приложения: Пер с англ. —М.: Мир, 1983. 287. Пароди М. Локализация характеристических чисел матриц и ее применение: Пер. с фр. — М: ИЛ, 1960 288. Понтрягин Л. С. Обыкновенные дифференциальные уравнения. — М.: Наука, 1965. 289. Сахнович А. А. Об одном методе обращения конечных теплицевых матриц//Мат. исслед. (Кишинев). —1973. — Т. 8, вып. 4(30). 290. Спрингер ГА., Штейнберг Р. Классы сопряженных элементов//Семинар по алгебраическим группам: Пер. с англ. —М.: Мир, 1973. — Гл. V, пп. 2.18-2.23, с. 254-257. 291. Стренг Г Линейная алгебра и ее применение: Пер. с англ. — М.: Мир, 1980. 292. Тьюарсон Р. Разреженные матрицы: Пер. с англ. — М: Наука, 1985. 293. Уилкинсон Дж. X. Алгебраическая проблема собственных значений: Пер. с англ. — М.: Наука, 1970. 294. Фаддеев Д. Я., Фаддеева В. Я. Вычислительные методы линейной алгебры. — М. Физматгиз, 1963.
554 Список литературы 295. Шварцман Я. А. а) Неравенства для собственных чисел /-эрмитовых и /-унитарных операторов//Мат исслед, (Кишинев). — 1969. — Т. 4, вып. 4(14). — С. 33-45. б) Неравенства для собственных чисел /-эрмитовых и /-унитарных операторов//Мат. исслед. (Кишинев). — 1970. — Т. 5, вып. 1(15). 296. Якубович В. А. Оптимизация и инвариантность линейных стационарных систем управления//Автоматика и телемеханика — 1984. — Т. 8. 297. Якубович В. А., Старшинский В. М. Линейные дифференциальные уравнения с периодическими коэффициентами. — М.: Наука, 1972. 298. Bauingartel H. Endlich-dimensionale Analytische Storunggtheorie. — Berlin: Akade- mie-Verlag, 1972. 299. Duffin R. J. A minimax theory for overdamped networks//J. Rat. Mech. Anal. — 1955. — V. 4, № 2. — P. 221-223. 300. lohvidov /.5., Krein M. G., Lander H. Introduction to the Spectral Theory of Operators in spaces with an indefinite metric. — Berlin: Akademie-Verlag, 1982. 301. Patera /., Rousseau C, Schlomiuk D. a) Dimensions of Orbits and Strata in complex and real classical Lie algebras//J. Math. Phys. — 1982 — V. 23, № 4. — P. 490-494. b) Versal deformations of elements and real classical Lie algehras//J. Phys. Math. General. —1982. —V. 15, № 4. — P. 1009-1086. 302. Patera /., Rousseau C. Complex ortogonal and sumplectics matrices depending on parameters//J. Math. Phys. 1982. — V. 23, № 5. — P. 705-714.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Алгоритм Гаусса, 40 , механическая интерпретация 43 обобщенный 56 — Рауса 449 Базис векторного пространства 64 — жорданов 182 — ортонормированный 217 Вектор 63 —, аннулирующий многочлен 165 — главный пучка квадратичных форм 273 эрмитовых форм 292 — единичный 216 —, координаты 65 —, минимальный многочлен 165 —, норма 390 — нормированный 216 —, относительный аннулирующий многочлен 170 —, — минимальный многочлен 170 — собственный линейного оператора 79 матрицы 79 Векторы линейно зависимые и линейно независимые — см. Зависимость линейная векторов Вероятность абсолютная 372 предельная 373 средняя 375 — переходная 364 предельная 369 средняя 375 финальная 369 Вычитание матриц 14 Делитель элементарный квадратной матрицы 141 А-матрицы 140 Дефект линейного оператора 74 — матрицы 74 Дискриминант квадратичной формы 259 — эрмитовой формы 289 Дополнение ортогональное 233 Жорданова форма — см. Форма нормальная квадратной матрицы жорданова верхняя Зависимость линейная векторов 63 , критерий Грама 218 Задача Рауса-Гурвица обобщенная 507 Закон инерции квадратичных форм 261 эрмитовых форм 290 Индекс импримитивности 360 — Коши 446 — нильпотентности 201 Интеграл мультипликативный 413 Интеграл мультипликативный в комплексной области 418 — от матрицы 122 Компонента линейного оператора кососим- метрическая 247 симметрическая 247 Конгруэнтность пучков симметрических матриц 330 — симметрических матриц 260 Координаты вектора 65 Корень из матрицы 206 Критерий Адамара 387 для блочных матриц 393 — Грама линейной зависимости векторов 218 — Льенара и Щипара 483 — Ляпунова 405 — подобия матриц 144 — Рауса 451 — Рауса-Гурвица 462 — Фидлера 394 — эквивалентности строгой регулярных пучков матриц 319 сингулярных пучков матриц 330 А-матриц 138 Линейный оператор — см. Оператор линейный Логарифм матрицы 212 Матрица 11 — ассоциированная р-я 28 — бесконечная вполне положительная 499 ганкелева 471 — блочная 53 — Вандермонда обобщенная 377 — вещественная 27, 106 — вполне неотрицательная 376 положительная 376 — вырожденная 24 — ганкелева 293 — главная пучка квадратичных форм 274 — Гурвнца 459 — двояко стохастическая 509 — диагональная 12 — единичная 22 — жорданова верхняя 148, 183 нижняя 148 — идемпотентная 202 — импримитивная 360 — инволютивная 78 — интеграл от нее 122 — интегральная 399 — квадратная 11 , аннулирующий многочлен 95 , дефект 74
556 Предметный указатель Матрица квадратная, естественная нормальная форма вторая 146 , первая 146 , жорданова нормальная форма верхняя 148, 183 , нижняя 148, 183 , инвариантные многочлены 141 , компоненты 107 , линейный многочлен 95 , перестановка рядов 337 , порядок 11 , разложение на треугольные множители 47 , след 93 , функция 99 , характеристический многочлен 89 , элементарные делители 141 — квазидиагональная 54 — квазитреугольная верхняя 55 нижняя 55 — комплексная кососимметрическая 301 , нормальная форма 309 невырожденная, полярное разложение 305 ортогональная 301 , нормальная форма 314 симметрическая 301 , нормальная форма 307 —, корень из нее 206 — кососимметрическая 27 —, логарифм 212 — Ляпунова 402 —, минор 11 —, многочлен от нее 22 — многочленная — см. А-матрица квадратная 84 — невырожденная 24 — неотрицательная 337 — неразложимая 337 , индекс импримитивности 360 — нильпотентная 201 — нормальная 236 — обратная 24 — ограниченная 127 — ортогональная 231 — осцилляционная 380 — положительная 337 — преобразующая 145 — примитивная 360 — присоединенная 89 приведенная 95 — проекционная 79 —, производная 119 — простой структуры 82 — прямоугольная 11 — псевдообратная 31 — разложимая 337 , нормальная форма 356 —, ранг 12 — Рауса 460 — симметрическая 27 — сопровождающая 145 — сопряженная 26 — составляющая 107 Матрица, степень 22 — столбцевая 12 — стохастическая 364 правильная 369 регулярная 369 — строчная 12 — транспонированная 26 — треугольная верхняя 26 нижняя 26 —, умножение на число 14 — унитарная 230, 236 — фундаментальная 83 — функция — см. Функция матрицы — характеристическая 89 —, элементы 11 — эрмитова 27, 236 — якобиева 377 Матрицант 410 Матрицы, вычитание 14 — коммутирующие 15 — перестановочные 15 — подобные 77 —, сложение 13 —, умножение 15 Метод Гревилля нахождения псевдообратной матрицы 37 — Крылова преобразования векового уравнения 183 — Лагранжа приведения к сумме квадратов квадратичной формы 263 эрмитовой формы 290 — построения преобразующей матрицы общий 152 — Фаддеева одновременного вычисления коэффициентов характеристического многочлена и присоединенной матрицы 93 — Якоби приведения к сумме квадратов квадратичной формы 264 эрмитовой формы 291 Метрика 215 — евклидова 212 — эрмитова 216 неотрицательная 216 положительно определенная 216 Минор 11 — главный 11 — почти главный 380 Многочлен аннулирующий вектора 165 матрицы 95 пространства 166 — инвариантный квадратной матрицы 141 А-матрицы 137 — интерполяционный Лагранжа-Сильвестра 100 — матричный 84 , порядок 84 регулярный 84 , степень 84 — минимальный вектора 165 относительный 170 матрицы 95 пространства 166 относительный 170 — от матрицы 22
Предметный указатель 557 Многочлен скалярный 84 — характеристический 80, 89 Многочлены матричные, деление левое 86 , — правое 86 Модуль линейного оператора левый 242 правый 242 Неравенства Вейля 243, 516 — Неймана-Хорна 514 — Сильвестра 75 Неравенство Адамара 223 обобщенное 223 — Бесселя 228 — Буняковского 225 — детерминантное для вполне неотрицательных матриц 378 Норма вектора 390 — линейного оператора 390 — матрицы 390, 391 Оператор линейный 68 в R 76 вещественный 248 вырожденный 78 , дефект 74 инвариантное подпространство 167 инволютивный 78 компонента кососимметрическая 247 — А-симметрическая 247 кососимметрический 247 , модуль левый 242 , — правый 242 невырожденный 78 нормальный в евклидовом пространстве 246 унитарном пространстве 235 ортогональный 247 второго рода 247 первого рода 247 , полярное разложение в евклидовом пространстве 252 , унитарном пространстве 242 проекционный 78 простой структуры 82 псевдообратный 257 , ранг 74 симметрический 246 неотрицательный 247 положительно определенный 247 , собственные векторы 79 сопряженный 232 транспонированный 246 , умножение на число 70 унитарный 235 , характеристические (собственные) числа 79 эрмитов 235 неотрицательный 240 положительно определенный 240 Операторы линейные, сложение 69 , умножение 70 Операция элементарная 130 левая 131 правая 131 Определитель Грама 219 , геометрический смысл 222 — Гурвица 461, 499 — Маркова 495, 499 Орт 216 Ортогонализация ряда векторов 225 Остаток левый 86 — правый 86 Параметры Маркова 493 Перестановка рядов в квадратной матрице 337 Подпространство 66 — инвариантное 167 — координатное 337 — циклическое 171 Порядок матрицы 11 Предел последовательности матриц 46 Преобразование координат 68 ортогональное 231 унитарное 230 — линейное 12 — Ляпунова 402 Приведение квадратичной формы к главным осям 271 сумме векторов 261 — эрмитовой формы к главным осям 292 Проблема Рауса-Гурвица 445 Проектирование ортогональное 220 Проекционная матрица 78 Проекционный оператор 78 Произведение скалярное 215 Производная матрицы 119 — мультипликативная 414 Пространство 63 —, аннулирующий многочлен 166 —, базис 64 — бесконечномерное 64 — векторное — см. Пространство — евклидово 218 — конечномерное 64 —, метрика — см. Метрика —, минимальный многочлен 166 — унитарное 216 , ортонормированный базис 217 Псевдообратная матрица 31 Пучок квадратичных форм 272 , главная матрица 274 , главный вектор 273 регулярный 272 , характеристическое число 273 , — уравнение 273 — матриц 318 регулярный 319 , каноническая форма 321 сингулярный 319 , каноническая форме 326 , ранг 321 — эрмитовых форм 292 , главный вектор 292 регулярный 292 , характеристическое уравнение 292 , — число 292
558 Предметный указатель Равенство Парсеваля 229 Разложение квадратной матрицы на треугольные множители 48 — полярное комплексной невырожденной матрицы 305 линейного оператора в евклидовом пространстве 252 унитарном пространстве 242 Ранг квадратичной формы 272 — линейного оператора 74 — матрицы 12 многочленной 137 — сингулярного пучка матриц 321 — эрмитовой формы 289 Ряд векторов, ортогонализация 226 ортогональный 226 полный 228 Сигнатура квадратичной формы 262 — эрмитовой формы 290 Система линейных дифференциальных уравнений с переменными коэффициентами 399 , интегральная матрица 399 , преобразование Ляпунова 402 приводимая 403 аналитическая 439 постоянными коэффициентами 119 Системы векторов биортонормированные 234 Скелетное разложение матрицы 31 След матрицы 93 Сложение линейных операторов 69 — матриц 13 Собственное число — см. Число собственное Степень матрицы 22 Схема Рауса 450 Сходимость в среднем 228 Теорема асимптотическая для однородных цепей Маркова 376 — Безу обобщенная 89 — Гамильтона-Кэли 90 — Гершгорина 395 — Еругина 406 — Кронекера об ассоциированных матрицах 83 — Ляпунова 457 — Маркова 502 — Неймана-Хорна 514 — о расщеплении вторая 173 первая 167 третья 175 — Ольги Тауски 390 — Перрона 339 — Рауса 451 — Рауса-Гурвица 462 — Стилтьеса 492 — Фробениуса о ганкелевых формах 296 неотрицательных матрицах 339 — Чебышева-Маркова 506 — Штурма 448 Теорема Шура 235 Тождество Сильвестра детерминантное 45 Умножение линейных операторов 70 — матриц 15 — на число линейного оператора 70 матрицы 14 Уравнение матричное многочленное 202 — характеристическое (вековое) матрицы 80 пучка квадратичных форм 272 эрмитовых форм 292 Форма билинейная 259 — квадратичная 218, 259 — квадратичная вещественная 259 ганкелева 293 , дискриминант 259 , закон инерции 261 неотрицательная 268 неположительная 268 отрицательно определенная 268 положительно определенная 218, 268 , приведение к главным осям 271 , сумме квадратов 261 , ранг 260 , сигнатура 262 сингулярная 259 , формула Якоби 265 — нормальная квадратной матрицы естественная вторая 146 первая 146 жорданова верхняя 148, 183 нижняя 148, 183 комплексной кососимметрической матрицы 309 ортогональной матрицы 314 симметрической матрицы 307 разложимой матрицы 356 — эрмитова 217, 288 билинейная 288 , дискриминант 289 , закон инерции 290 неотрицательная 217, 291 неположительная 291 отрицательно определенная 291 положительно определенная 217, 291 , приведение к главным осям 292 , ранг 289 , сигнатура 290 сингулярная 290 , формула Якоби 291 Формула Бине-Коши 18 — Орландо 464 — основная для функции матрицы 111 — Чебышева-Маркова 506 — Якоби для квадратичной формы 265 эрмитовой формы 291 Формулы Кэли 245 в евклидовом пространстве 254 Функция матрицы 99 , основная формула 106 — многих матриц аналитическая 442
Предметный указатель 559 Характеристическое число рактеристическое см. Число ха Цепочка векторов жорданова 183 нижняя 183 Цепь Маркова однородная 364 ациклическая 369 неразложимая 369 правильная 369 разложимая 369 регулярная 369 циклическая 369 Частное левое 86 — правое 86 Число характеристическое (собственное) линейного оператора 79 пучка квадратичных форм 273 Число характеристическое пучка квадратичных форм, экстремальные свойства 277 Число характеристическое пучка эрмитовых форм 292 Число характеристическое (собственное) линейного оператора, экстремальные свойства 292 Эквивалентность линейных двучленов 142 — Л-матриц 132 , критерий 138 левая 132 правая 132 — рядов векторов 225 Эквивалентность строгая пучков матриц 318 регулярных, критерий 319 сингулярных, критерий 331 Элементарный делитель —см. Делитель элементарный Л-матрица 130 , инвариантные многочлены 137 , ранг 138 , элементарные делители 140 - операции левые 131 правые 131