Текст
                    Р.Хорн, Ч.Джонсон
МАТРИЧНЫЙ АНАЛИЗ
Монография известных американских математиков, представляющая собой
исчерпывающее изложение теории матриц, которая находит применение
практически в любой области математики и во всех ее приложениях. Она
содержит как классический материал, так и последние достижения в этой
обширной области, в ней много упражнений и задач разной степени трудности.
Книга сопоставима с известной книгой Ф. Р. Гантмахера, но гораздо шире ее в
таких разделах, как оценки погрешностей при решении линейных уравнений,
локализация собственных значений, теория возмущений.
Для студентов и аспирантов вузов, для математиков разных специальностей,
экономистов, инженеров.
ОГЛАВЛЕНИЕ
Предисловие редактора перевода 5
Предисловие 7
Глава 0. Обзор и разное 12
0.0. Введение 12
0.1. Векторные пространства 12
0.2. Матрицы 16
0.3. Определители 19
0:4. Ранг 24
0.5. Невырожденность 26
0.6. Обычное скалярное произведение 27
0.7. Блочные матрицы 29
0;8. Снова определители 32
0.9. Матрицы специального вида 37
0.10. Замена базиса 45
Глава 1. Собственные значения, собственные векторы и подобие 48
1.0. Введение 48
1.1. Определение собственных значений и собственных векторов 49
1.2. Характеристический многочлен 53
1.3. Подобие 60
1.4. Собственные векторы 75
Глава 2. Унитарная эквивалентность и нормальные матрицы 84
2.0. Введение 84
2.1. Унитарные матрицы 85
2.2. Унитарная эквивалентность 93
2.3. Теорема Шура об унитарной триангуляризации 101
2.4. Некоторые следствия теоремы Шура 107
2.5. Нормальные матрицы 125
2.6. QR-разложение и 0/?-алгоритм 139
Глава 3. Канонические формы 146
3.0. Введение 146


3.1. Жорданова каноническая форма: доказательство 148 3.2. Жорданова каноническая форма: некоторые свойства и приложения 158 3.3. Многочлены и матрицы: минимальный многочлен 172 3.4. Другие канонические формы и разложения 182 3.5. Треугольные разложения 192 Глава 4. Эрмитовы и симметричные матрицы 200 4.0. Введение 200 4.1. Определения, свойства и характерные особенности эрмитовых матриц 203 4.2. Вариационные описания собственных значений эрмитовых матриц 211 4.3. Некоторые приложения вариационных описаний 218 4.4. Комплексные симметричные матрицы 242 4.5. Конгруэнтность и одновременная диагонализация эрмитовых и 263 симметричных матриц 4.6. Псевдоподобие и псевдодиагонализация 294 Глава 5. Нормы векторов и матриц 310 5.0. Введение 310 5.1. Определяющие свойства векторных норм и скалярных произведений 312 5.2. Примеры векторных норм 319 5.3. Алгебраические свойства векторных норм 323 5.4. Аналитические свойства векторных норм 324 5.5. Геометрические свойства векторных норм 340 5.6. Матричные нормы 351 5.7. Векторные нормы на матрицах 385 5.8. Ошибки в обратных матрицах и решениях линейных систем 402 Глава 6. Локализация и возмущения собственных значений 408 6.1. Круги Гершгорина 413 6.2. Круги Гершгорина - более пристальный взгляд 423 6.3. Теоремы о возмущениях 443 6.4. Другие области локализации 450 Глава 7. Положительно определенные матрицы 465 7.0. Введение 465 7.1. Определения и свойства 471 7.2. Характеризации 477 7.3. Полярная форма и сингулярные разложения 488 7.4. Примеры и приложения сингулярного разложения 507 7.5. Теорема о произведении Шура 539 7.6. Конгруэнтность: произведения и одновременная диагонализация 550 7.7. Упорядочение, индуцированное положительной полуопределенностью 556 7.8. Неравенства для положительно определенных матриц 564 Глава 8. Неотрицательные матрицы 576 8.0. Введение 576 8.1. Неотрицательные матрицы — неравенства и общие замечания 579 8.2. Положительные матрицы 585
8.3. Неотрицательные матрицы 8.4. Неразложимые неотрицательные матрицы 8.5. Примитивные матрицы 8.6. Общая предельная теорема 8.7. Стохастические и двоякостохастические матрицы Приложение А. Комплексные числа Приложение В. Выпуклые множества и функции Приложение С. Основная теорема алгебры Приложение D. Непрерывная зависимость корней многочленов от их коэффициентов Приложение Е. Теорема Вейерштрасса Литература Указатель обозначений Предметный указатель ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 593 598 607 617 619 624 627 632 634 636 638 641 643 абсолютная векторная норма (absolute vector norm) 345 — величина (absolute value) 625 — однородность (homogeneity) 313, 327,351 аддитивность (additivity) 314 алгебраическая кратность (algebraic multiplicity) 76 алгебраически замкнутое поле (algebraically closed field) 56, 632 — простое собственное значение (simple eingenvalue) 442 алгебраическое дополнение (cofactor) 30 0/?-алгоритм (QR algorithm) 142 ассоциированная матрица (compound matrix) 32 базис векторного пространства (basis of vector space) 14 — выпуклого множества (generators of convex set) 628 бесконечномерное векторное пространство (infinite- dimensional vector space) 15 блочно-диагональная матрица (block diagonal matrix) 38 блочное разбиение (partition) 30 вектор (vector) 13 — невязки (residual) 407 векторная норма (vector norm) 312 порожденная скалярным произведением (derived from inner product) 316 — полунорма (seminorm) 313 векторное пространство (vector space) 13 верхняя блочно-треугольна я матрица (block upper triangular matrix) 39 — полуплоскость (upper half-plane) 625 — строго блочно-треугольная матрица (strictly block upper triangular matrix) 39 треугольная матрица (strictly upper triangular matrix) 39 — треугольная матрица (upper triangular matrix) 38 — хессенбергова матрица (upper Hessenberg matrix) 43 форма (form) 43 вершина (node) 201 вещественная жорданова каноническая форма (real Jordan canonical form) 184
— ортогональная матрица (orthogonal matrix) 85 — ось (axis) 625 — часть (part) 624 внутреннее произведение (inner/ scalar product) 27 — точка (interior point) 341 вогнутая функция (concave function) 629 в основном треугольная матрица (essentially triangular matrix) 40 выпуклая комбинация (convex combination) 627 — оболочка (hull) 627 — функция (function) 629 выпуклое множество (convex set) 627 выпуклый конус (convex cone) 549, 627 вырожденная матрица (singular matrix) 26 вырожденное отображение (singular transformation) 26 ганкелева матрица (Hankel matrix) 42, 243, 467 геометрическая кратность (geometric multiplicity) 76 гессиан (Hessian) 200, 465 Гиперболический оператор (hypebolic operator) 288 гиперплоскость (hyperplane) 628 главная подматрица (principal sub- matrix) 30, 55 главный минор (principal minor) 30 граница множества (boundary of a set) 341 группа (group) 88 — изометрий (isometry group) 321 двойственная норма (dual norm) 332, 487 — пара по отношению к норме (pair with respect to a norm) 335—336 двойственное множество к вектору (dual of a vector) 335 двоякостохастическая матрица (doubly stochastic matrix) 236, 620 дефектная матрица (defective matrix) 77 дефект нормальности (defect from normality) 380 диагонализуемая матрица (diagonalizable, diagonable matrix) 62 диагональная матрица (diagonal matrix) 37 длина пути (length of a path) 428 доминирующее собственное значение (dominant eigenvalue) 597 дополнение по Шуру (Schur complement) 35 евклидова векторная норма (Euclidean vector norm) 319 — длина (length) 27 — матричная норма (matrix norm) 352 единичная матрица (identity) 17 единичный вектор (unit vector) 27 — круг (disc) 625 — шар (ball) 340 естественный базис (standard basis) 18 жорданов блок (Jordan blok) 148 жорданова каноническая (нормальная) форма (Jordan canonical (normal) form) 148 — клетка (block) 148 — матрица (matrix) 148 задача интерполяции (interpolation problem) 44 закон инерции Сильвестра (Sylvester's law of inertia) 268 — обращения порядка (reverse-order law) 18 замена базиса (change of a basis) 48 замкнутое множество (closed set) 341, 636
замыкание (closure) 341 идеально обусловленная матрица (perfectly conditioned matrix) 404 идемпотентная матрица (idempotent matrix) 53, 179, 375 изометричное линейное преобразование (isometry) 87 изометрия для векторной нормы (isometry for a vector norm) 321 изоморфизм (isomorphism) 15 изоморфные векторные пространства (isomorphic vector spaces) 15 ^-инвариантное подпространство (А- invariant subspace) 68 ^-инвариантное подпространство {3:- invariant subspace) 68 инвариантные множители (invariant factors) 186 инварианты подобия (similarity invariants) 61 индекс нильпотентности (index of nilpotence) 53 — примитивности (of primitivity) 66 — собственного значения (of an eigenvalue) 170,179 индикаторная матрица (indicator matrix) 427 индуцированная матричная норма (induced matrix norm) 353 инерция (inertia) 266 интерполяционная формула Лагранжа (Lagrange interpolation formula) 45 исчерпывание (diflation) 82 квадратная матрица (square matrix) 16 квадратный корень (square root) 72 квазилинеаризация (quasi- linearization) 537 квазинорма (pre-norm) 328 (классическая) присоединенная матрица (classical adjont) 33 ковариационная матрица (матрица ковариации) (covariance matrix) 466 кольцевое свойство (submultiplicativity) 351 комбинаторно симметричная матрица (combinatorially symmetric matrix) 616 коммутативное кольцо (commutative ring) 120 семейство матриц (commuting family of matrices) 68 коммутатор (commutator) 123 компактное множество (compact set) 342, 636 комплексная ортогональная матрица (complex orthogonal matrix) 92 комплексное число (complex number) 624 комплексно-сопряженные числа (complex conjugate numbers) 624 конгруэнтные матрицы (congruent, tea-congruent matrices) 265 ^конгруэнтные матрицы (^congruent matrices) 265 *конгруэнтные матрицы (*congruent matrices) 265 конечномерное векторное пространство (finite-dimensional vector space) 15 конечно порожденное выпуклое множество (finitely generated convex set) 628 координатное представление вектора (coordinate representation of a vector) 45 координаты (coordinates) 45 корреляционная матрица (correlation matrix) 475 косоортогональная матрица (skew- orthogonal matrix) 92 кососимметричная матрица (skew- symmetric matrix) 261 косоэрмитова матрица (skew- Hermiten matrix) 125, 203
косоэрмитова часть (компонента) матрицы (skew-Hermitian part of a matrix) 136,474 крайний луч (extreme ray) 549 крайняя точка (extreme point) 627 кратность (multiplicity) 76 крут Гершгорша (Gersgorin disc) 415 левый собственный вектор (left eigenvector) 77 линейная оболочка (span) 14 — функция (linear function) 27 линейно зависимое подмножество (linearly dependent subset) 14 — независимое подмножество (independent subset) 14 линейное отображение (linear transformation) 16 — преобразование (transformation) 16 мажоризация (majorization) 231 максимальная столбцовая норма (maximum colomn sum matrix norm) 356 — строчная норма (row sum matrix norm) 356 максимальный элемент (maximal element) 458 манхеттен-норма (Manhatten-norm) 320 матрица (matrix) 16 — ассоциированная (compound) 32 — блочно-диагональная (block diagonal) 38 блочно-треугольная (block triangular) 39 — Вандермонда (Vandermonde matrix) 43 — вещественная ортогональная (real orthogonal) 85 — в основном треугольная (essentially triangular) 40 — вырожденная (singular) 26 — ганкелева (Hankel matrix) 42, 243, 467 — Гильберта (Hilbert matrix) 411 — Грома (Gram matrix) 483 — двоякостохастическая (doubly stochastic) 236, 620 — дефектная (defective) 77 — диагонализуемая (diagonalizable, diagonable) 62 — диагональная (diagonal) 37 неотрицательная (nonnegative) 37 положительная (positive) 37 — единичная (identity) 17 — жорданова (Jordan matrix) 148 — идеально обусловленная (perfectly conditioned) 404 — идемпотентная (idempotent) 53, 179, 375 — индикаторная (indicator) 427 — инерции (inertia matrix) 267 — квадратная (square) 16 — (классическая) присоединенная (classical adjoint) 33 — ковариации (или ковариационная) (covariance matrix) 264, 466 — комбинаторно симметричная (combinatorially symmetric) 616 — комплексная ортогональная (complex orthogonal) 92 — корреляционная (correlation matrix) 475 — косоортогональная (skew- orthogonal) 92 — кососимметричная (skew- symmetric) 261 — косоэрмитова (skew-Hermitian) 125, 203 — коэффициентов (coefficient) 24 — Мура — Пенроуза обобщенная обратная (More—Penrose generalized inverse) 500 — невырожденная (nonsingular) 26 — недефектная (nondefective) 77 — незнакоопределенная (indefinite)
472 неотрицательная (nonnegative) 429, 580 — в главном (essentially) 596 неразложимая (irreducible) 432 нилъпотентная (nilpotent) 53, 169 нормальная (normal) 125 обратимая (invertible) 2, 6 обратная (inverse) 26 ортогональная (orthogonal) 91,92 ортогонально диагонализуемая (orthogonally diagonalizable) 126 ортостохастическая (orthostochastic) 236 отрицательно определенная (negative definite) 471 — полуопределенная (semi definite) 471 перестановки (permutation matrix) 39, 430 — основная циркулянтная (basic circulant) 41 перехода от SB2 к SBj (SBj-SS^ change of basis) 47 перъединичная (backward identity) 42, 250 плохо обусловленная (ill (poorly) conditioned) 404 положительная (positive) 429; 580 положительно определенная (positive definite) 302, 471 — полуопределенная (semidefinite) 2M, 471 представляет линейное отображение (represents a linear transformation) 16 приводящаяся к диагональному виду псевдоподобием 204 треугольному виду псевдонодобием 299 примитивная (primitive) 608 простая (noneerogatory) 77,166 псевдодиагонализуемая (condiagonalizable) 294 — псевдотриангуляризуемая (contriagularizable) 294 — псевдообратная 500 — разложимая (reducible) 431 — расширенная (системы уравнений) (augmented (of a linear system)) 24 — с диагональным преобладанием (diagonally dominant) 418 — симметричная (symmetric) 49,200 — скалярная (scalar) 18, 37 — слабо неразложимая (weakly irreducible) 457 — смежности (adjacency) 202 — сопровождающая (companion) 178. 181,381 — сопряженная (Hermitian adjont) 18 — со строгим диагональным преобладанием (strictly diagonally dominant) 365, 418 — стохастическая (stochastic) 619 — строго блочно-треугольная (strictly block triangular) 39 треугольная (triangular) 38 — субперестановки (sub-permutation) 198 — сходящаяся (convergent) 167, 360 — тёплицева (Toeplitz matrix) 41, 468 — транспонированная (transpose) 18 — трансформирующая (similarity) 61 — треугольная (triangular) 38 — трехдиагональная (tridiagonal) 43 — трипотентная (tripotent) 179. — унитарная (unitary) 85 — унитарно диагонализуемая (unitarily diagonalizable) 126 псевдодиагонализуемая (con- (condiagonalizable) 294 псевдотриангуляризуемая (соп- triangularizable) 294 — хессенбергова (Hessenberg matrix) 43
— хорошо обусловленная (well conditioned) 404 — циклическая (cyclic) 606 — циркулянтная (circulant) 40 — эрмитова (Hermitian) 53, 203 i,d,d-MaTpHna (irreducibly diagonally dominant) 433 матрицы (вещественно) ортогонально эквивалентные ((real) orthogonally equivalent matrices) 93 — конгруэнтные (congruent tea- congruent) 265 — тконгруэнтные (Tcongruent) 265 — ""конгруэнтные (*congruent) 265 — одновременно днагонализуемые (sfeialtaneotisly diagonalizable) 66 — перестановочно подобные (permutation similar) 183 — подобные (similar) 48, 58, 61 псевдоподобные (consimilar) 294 — унитарно подобные (unitarily si- failar) 93 псевдоподобные (consimilar) 294 эквивалентные (equivalent) 93 эквивалентные (equivalent) 199 — эрмитово конгруэнтные (* congruent, star-congruent) 265 матричная норма (matrix norm) 290 подчиненная векторной норме (induced by a vector norm) 355 метод Гивенса (Givens's method) 97 —Хаусколдера (Householder) 99 — .Як-оби (Jacobi) 97 минимальная матричная норма (minimal matrix norm) 369 Минимально спектрально преобладающая норма (minimally spectrally dominant norm) 397 минимальный многочлен (minimal polynomial) 112, 174 минор (minor) 30 мнимая ось (imaginary axis) 625 — часть (part) 624 многочлен, аннулирующий матрицу (annihilating polynomial for a matrix) 173 от матрицы (polynomial in a matrix) 51 модифицированный процесс Грамма— Шмидта (modified Gram — Schmidt process) 144 модуль комплексного числа (absolute value of a complex number) 625 моменты собственных значений (moments of eigenvalues) 59 — Теплица (Toeplitz moment seqiuence) 468 —Хаусдорфа (Hausdorif moment sequence) 467 монотонная векторная норма (monotone vector norm) 345 невырожденная матрица (nonsingular matrix) 26 невырожденное отображение (nonsingular transformation) 26 недефектная матрица (nondefective matrix) 777 незнакоопределенная матрица (indefinite matrix) 472 неотрицательная в главном матрица (essentially nonnegative matrix! 596 — диагональная матрица (nonnegative diagonal matrix) 37 — матрица (nonnegative matrix) 429, 580 неотрицательность (nonnegativity) 312,314,351 непрерывная функция (continuous function) 634 непрерывность (continuity) 327
неравенство Адамара (Hadamard's inequality) 565 —Адамара—Фишера (Hadamard— Fischer) 573 — Виландта (Wielandt's) 425, 426 — Гёлъдера (Holder) 332, 630 — Грунского (Grunsky) 342 — Коши—Шварца (Cauchy— SchwarzK14, 630 — между арифметическим и геометрическим средними (с весами) ((weighted) arithmetic- geometric mean) 630 — Минковского (Minkowski's) 320, 570,631 — Оппенгейма (Oppenheim's) 568 — Островского — Тауески (Ostrowski —Taussky) 569 — Робершсона (Robertson's). 553 — Саса (Szasz's) 567 — треугольника (triangle) 313, 351 — Фишера (Fischer's) 566 ; неразложимая матрица (irreducible matrix) 432 — нормальная форма (normal form) 597 нижняя блочно-треугольная матрица (block lower triangular matrix) 39 —строго блочно-треугольная матрица (strictly block lower triangular matrix) 39 треугольная матрица (strictly lower triangular matrix) 38 треугольная матрица (lower triangular matrix) 38 — хессенбергова матрица (lower Hessenberg matrix) 43 нильпотентдая матрица (nilpotent matrix) 53, 169 норма векторная (vector norm) 312 абсолютная (absolute) 345; Гёлъдера (Holder) 32.0 двойственная (dual) 332, 487 евклидова (Euclidean) 319, манхеттен-норма (Manhatten- norm) 320 минимально спектрально преобладающая (minimally spectrally dominant norm) 397 монотонная (monotone) 345 полиэдральная (polyhedral) 341 порожденная скалярным произведением (derived from an inner product) 316 равномерной сходимости 322 самосопряженная (self-adjont) 534 слабо монотонная (weakly monotone) 346 спектрально преобладающая (spectrally dominant) 390 унитарно инвариантная (unitarily invariant) 519 — матричная (matrix) 290 Гильберта—Шмидта (Hilbert— Schmidt) 291 евклидова (Euclidean) 353 индуцированная (induced) 354, 355 максимальная столбцовая (maximum column sum) 356 строчная (row sum) 356 минимальная (minimal) 369 обобщенная (generalized) 352, 386 операторная (operator) 355 подчиненная векторной норме (induced by a vector norm) 355 самосопряженная (seff-adjont) 373 спектральная (spectral) 357 унитарно инвариантная (unitarily invariant) 372 Фробениуса (Frobenius's) Шура (Schur) &-норма Фань Цзы (Ку Fan k norm)
528 Lj-норма (Lj-norm) 322 /гнорма (^-norm, sum norm) 320, 352 Ь2-норма (L2-norm) 322 /2-норма (Z2-norm) 319, 353 Ц-норма (Lp-norm) 322 /р-норма (Zp-norm) 320 Loo-норма (Loo-norm) 322 Lx -норма (Lx -norm, max norm) 320 (lx-norm) 353 р-норма Шаттена (Schatten/7-norm) 523 нормальная матрица (normal matrix) 125 нормальное псевдорешение (least squ« ares solution) 501, 510 нормированный вектор (normalized vector) 27 — многочлен (monic polynomial) 173 нормы согласованные (compatible, consistent norms) 355, 390 — эквивалентные (equivalent) 329 нуль-пространство полунормы (null space of a seminorm) 316 — матрицы (of a matrix) 17 область Гершгорина (Gersgorin region) 415 — значений (range) 17 — определения (domain) 17 обобщенная матричная норма (generalized matrix norm) 352, 386 функция (function) 20 — обратная матрица Мура— Пенроуза (Moore — Penrose generalized inverse) 500 обобщенное собственное значение (generalized eigenvalue) 256 обратимая матрица (invertible matrix) 26 обратная матрица (inverse) 26 — подстановка (back substitution) 193 обычное скалярное произведение (usual, standard scalar product) 27 овалы Кассини (ovals of Cassini) 453 ограниченное множество (bounded set) 341, 636 одновременно диагонализуемое семейство (simultaneously diagonalizable family) 69 — диагонализуемые матрицы (diagonalizable matrix) 66 однородность (homogeneity) 314 окружность Гершгорина (Gersgorin cirdeL15 оператор сдвига (shift operator) 53 операторная норма (operator norm, lub norm) 355 определитель (determinant) 19 ориентированный граф (directed graph) 427 — путь (path) All ортогональная группа (orthogonal group) 88 — матрица (martix) 91, 92 ортогонально диагонализуемая матрица (orthogonally diagonalizable matrix) 126 — эквивалентные матрицы (equivalent matrices) 93 ортогональное дополнение (orthogonal complement) 29 — множество (set) 27, 85 ортогональные векторы (orthogonal vectors) 27 ортонормированная система (ortho- normal system) 28 ортонормированное множество (ort- honormal set) 85 ортонормированный базис (orthonor- mal basis) 27 ортостохастическая матрица (ortho- stochastic matrix) 236
основная теорема алгебры (fundamental theorem of algebra) 56, 632 — циркулянтная матрица перестановки (basic circulant permutation matrix) 41 открытое множество (open set) 341, 636 отношение Рэлея—Ритца (Rayleigh— Ritz ratio) 211 — эквивалентности (equivalence relation) 61 отрицательно определенная матрица (negative definite matrix) 471 полуопределенная матрица (semi-definite matrix) 471 оценка Кармайкла и Мейсона (Carmichael and Mason's bound) 382, 383 — Kotuu (Cauchy's) 381, 383 — Монтеля (Montel's) 381, 383 перестановочно подобные матрицы (permutation-similar matrix) 183 перманент (permanent) 20 перронов вектор (Perron vector) 587, 599 — корень (root) 587, 595 перъединичная матрице (backward identity matrix) 42, 250 петля (loop) 428 плоское вращение (plane rotation) 94 плохо обусловленная задача (ill conditioned problem) 24 матрица (ill, poorly conditioned matrix) 404 подматрица (submatrix) 16 подобие (similarity) 60 подобные матрицы (similar matrix) 48, 58, 61 подпространство (subspace) 13 — инвариантное относительно А (A- invariant) 68 ^(^F-invariant) 68 полилинейная функция (multilinear function) 23 полиэдральная норма (polyhedral normK41 полная линейная группа (general linear group) 27 полное векторное пространство (complete vector space) 331 положительная диагональная матрица (positive diagonal matrix) 37 положительная матрица (positive matrix) 429, 580 положительно определенная матрица (positive definite matrix) 302, 471 функция (function) 475 — полуопределенная матрица (semi- definite matrix) 218, 471 — полуопределенное ядро (semidefinite kernel) 541 положительность (positivity) 312, 324, 327, 351 полулинейное преобразование (anti- linear transformation) 302 полуторалинейная форма (sesquilinear form) 202 полярная форма (polar form) 490, 491 полярное разложение (polar decomposition) 190, 490, 491 полярные координаты (polar coordinates) 625 понижение порядка (deflation) 82 последовательность Коши (Cauchy sequence) 330 — Крылова (Krylov) 139 правая полуплоскость (right half- plane) 625 правило Крамера (Gramer's rule) 34 правый собственный вектор (right eigenvector) 77 предел последовательности (limit of a sequence) 325 предельная точка (limit point) 341
предпорядок (preorder) 457 представление линейного преобразования (basis representation) 46 преобразование подобия (similarity transformation) 61 —Хаусхолдера (Householder transformation) 95 — эрмитовой конгруэнтности (congruence) 84 яримитивная матрица (primitive matrix) 608 эринцип биортогональности (principle of biorthogonality) 78 — вложения (inclusion principle) 227 — выбора (selection) 89 произведение Адамара (Hadamard product) 386, 539 — Шдеа (Schur) 540 нростая матрица (nonderogatory matrix) 77, 165 простой ориентированный цикл (simple directed cycle) 428 процесс ортонормирования Грамма— Шмидта (Gram— Schmidt ortonormalization process) 28 прямая подстановка (forward substitution) 193 — сумма матриц (direct sum of matrix) 38 прямоугольные координаты (rectangular coordinates) 625 псевдодиагонализуемая матрица (con-diagonalizable matrix) 294 псевдообратная матрица 500 псевдоподобные матрицы (consimilar matrices) 294 псевдособственное значение (coneigenvalue) 295 псевдотриангуляризуемая матрица (contriangularizable matrix) 294 равносильные системы уравнений (solution equivalent systems) 23 разложение Лапласа (Laplace expansion) 19 — Такаги (Takagi's factorisation) 246 —Холецкого (Cholesky factorization, decomposition) 141, 483 QR-разложенне (QR-factorization) 139 разложимая матрица (reducible matrix) 431 размерность (dimension) 15 ранг (rank) 24 расширенная матрица (augmented matrix) 24 рациональная каноническая форма (rational canonical form) 189 рациональная форма (rational form) 187 ребро (edge) 201 семейство матриц (family of matrices) 68 самосопряженная норма (self-adjoint) 373 свойство полноты (completeness property) 331 — L125 — P125 — 5C425 связанная система уравнений (coupled system of equations) 162 сдвиг вперед (forward shift) 42 — назад (backward) 42 сигнатура (signature) 266 сильно связный ориентированный граф (strongly connected directed graph) 428, 456 симметричная жорданова каноническая форма (symmetric Jordan canonical form) 251 — калибровочная функция (gauge function) 521 — матрица (matrix) 49, 200 сингулярное разложение (singular value decomposition) 190, 492,
493 — число (singular value) 256, 493 сингулярный вектор (singular vector) 493 скалярная матрица (scalar matrix) 18, 37 скалярное произведение (scalar, inner product) 27, 314 слабо монотонная норма (weakly monotone vector norm) 346 — неразложимая матрица (irreducible matrix) 457 — связный ориентированный граф (connected directed graph), 456 слабый принцип минимума (weak, minimum principle) 545 след (trace) 55 слово (word) 96, сложение (addition) 13 собственная пара (eigenvalue, eigenvector pair) 49 собственное значение (eigenvalue) 49,50 — подпространство (eigenspace) 75 собственный вектор (eigenvector) 49, 50 совместная система (consistent system) 24 согласованные блочные разбиения (conformal partitions) 30 — нормы (compatible, consistent norms) 355, 390 сопровождающая матраца (companion matrix) 178, 181, 381 сопряженная матрица (Hermftian adjoint) 18 сопряженно линейная, функция (conjugate linear function) 27 спектр (spectrum) 50 спектральная норма (spectral norm) 357 — теорема (theorem) 126, 129 характеристика (characteristic) 397 спектрально преобладающая норма (spectrally dominant norm) 390 спектральное разложение 127 число обусловленности (condition number with respect to the spectral norm) 425 спектральный радиус (spectral radius) 50, 358 стандартное скалярное произведение (standard, usual scalar product) 27 стандартный базис (standard basis) 15 степенной метод (power method) 82 степень слова (degree of a word) 96 столбцовая почти-норма (deleted absolute colomn sum) 415 стохастическая матрица (stochastic matrix) 619 строго вогнутая функция (strictly concave function) 629 — выпуклая функция (convex function) 629 строчная почти-норма (deleted absolute row sum) 413 — ступенчатая форма (row-reduced echelon form) 22 сходящаяся матрица (convergent matrix) 167, 360 — последовательность (sequence) 325 теорема Биркгофа (Вirkhoff theorem) 620, 621 — Брауэра (Brauer's) 453 — Бруалди (Brualdi's) 458, 461 — Вейерштрасоа (Weierstrass) 636 — Aabw(WeyrsJ18,221 — Виландта (Wielandt's) 612 — Гершгорина (Gersgorm) 413 — двойственности (duality) 347 — Крейна — Мильмана (Krein — Milman) 628 — Куранта — Фишера (Courant — Fischer) 215 — Кэли — Гамильтона (Cayley — Hamilton) 109
— Леей —Деспланка (Levy— Des- planques) 419 — Маккоя (McCoy) 118 — Mepcepa (Mercer's) 541 — о возмущениях (perturbation) 237 жордановой канонической форме (Jordan canonical form) 154 кругах Гершгорина (Gersgorin disc) 413 минимаксе (min-max) 215,-682, 586 монотонности (monotonicity) 219 произведении Шура (Schur po- duct) 542 разделении (interlacing) 219 гиперплоскостью (separating hyperplane) 628 — Перрона (Perron's) 590 Фробениуса (Frobenius) 599 — Пирси (of Pearcy) 96—97 — Пуанкаре о разделении (Poincare separating) 228 — Романовского (Romanovsky's) 609 — Рэлея — Ритца (Rayleigh — Ritz) 211 — Таусеки (Taussky's) 434 — Фанъ Цзы (Ку Fan) 591 — Фрейера (Fejer's) 544, 545 —Хоффмана—Виландта (Hoffman— Wielandt) 439 — Шпехта (of Specht) 96 — Шура об унитарной триангуляризаций (Sehur's unitary triangularization) 101 тёплицева матрица (Toeplitz matrix) 41,468 тождество Ньютона (Newton's identity) 60 — поляризации (polarization) 317 — параллелограмма (parallelogram) 317 — Сильвестра (Sylvester's) 35 транспозиция (transpositison) 40 транспонированная матрица (transpose) 18 трансформирующая матрица (semilarity matrix) 61 треугольное разложение (triangular factorization) 190 трехдиагональная матрица (trldlagonal matrix) 43 тривиальный цикл (trivial cycle) 428 трипотентная матрица (tripotent matrix) 179 угол (angle) 27 унитарная группа (unitary group) 88 — матрица (matrix) 85 унитарно диагонализуемая матрица (unitarily diagonalizable matrix) 126 — инвариантная векторная норма (invariant vector norm) 320, 519 матричная норма (matrix norm) 372 — подобные матрицы (similar matrices) 93 — псевдотриангуляризуемая матрица (condiagonalizable matrix) 294 — псевдоподобные матрицы (consimilar matrix) 294 — псевдотриангуляризуемая матрица (contriangularizable matrix) 294 — эквивалентные матрицы (equivalent matrices) 93 упорядоченный список узлов (ordered list of nodes) 428 уравновешенное множество (equilibrated set) 342 формула Коши — Вине (Cauchy—Bi- net formula) 36 характеристический многочлен (characteristic polynomial) 54 характеристическое уравнение (characteristic equation) 110 хорошо обусловленная матрица (well
conditioned matrix) 404 цикл (cycle) 428 циклическая матрица индекса к (cyclic matrix of index к) 606 циркулянтная матрица (циркулянт) (circulant matrix) 40 частичный порядок (partial order) 556 число обусловленности (condition number) 404 числовая область (field of value) 387 числовой образ (numerical range) 387 — радиус (radius) 387 шар (ball) 347, 676 эквивалентные матрицы (equivalent matrix) 199 — нормы (equivalent norms) 329 — системы уравнений (solution equivalent systems) 23 элементарная симметрическая функция (elementary symmetric function) 57 элементарное преобразование (elementary transformation) 20 элементарный делитель (elementary divisor) 188 — лагранжев интерполяционный многочлен (special Lagrange interpolating polynomial) 44 эллиптический оператор (elliptic operator) 288, 544 эрмитова компонента (часть) (Hermitian part) 135, 474 — матрица (matrix) 53, 203 эрмитово конгруэнтные матрицы (star congruent, congruent matrices) 265 эрмитовость (Hermitian property) 314 ядро матрицы (null space of a matrix) 17 — полунормы (of a seminorm) 316 якобиан (Jacobian) 263
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Совсем недавно в издательстве «Наука» четвертым изда- изданием вышла классическая монография Ф. Р. Гантмахера «Тео- «Теория матриц». Очень может быть, что эта монография н книга американских математиков Хорна и Джонсона будут соседями на прилавках книжных магазинов, а потом в библиотечных шкафах. И покупателю или читателю нужно решить, какую из этих двух объёмистых (и не очень дешевых книг) выбрать для себя. Боюсь, что мой ответ не удовлетворит ни того, ни другого. Он наихудший для покупательского кошелька. Итак: Вам бу- будут нужны обе книги. Книга Гантмахера заслужила всемирное признание как за- замечательно стройное изложение почти всех основных разделов линейной алгебры и многих ее специальных вопросов. Она вос- воспринимается как энциклопедия области, а в то же время яв- является и учебником, начинающимся с определения матрицы. Но как ни хороша книга Гантмахера, она отражает состоя- состояние теории матриц начала 60-х годов. Если учесть, что 2-е из- издание A966 г.) не очень отличается от 1-го A953—1954 гг.), то, пожалуй, эту временную границу нужно отодвинуть еще на де- десятилетие. Тридцать пять лет — огромный срок для любой об- области науки, и теория матриц — не исключение. С 1969 г. издается журнал Linear Algebra and Its Applications; к настоя- настоящему времени вышло около ста его томов (номер журнала есть одновременно том). В 70-х годах к нему добавился ежеквар- ежеквартальный журнал Linear and Multilinear Algebra. Статьи при- прикладного характера по линейной алгебре постоянно печатают многие журналы по вычислительной математике и статистике. Потребность в систематизации огромного нового материала ощущалась уже давно. Отчасти это сделано в ряде известных советскому читателю книг вводного характера, таких, как «Вве- «Введение в теорию матриц» Р. Беллмана, «Теория матриц» П.Лан- П.Ланкастера, «Линейная алгебра и ее применения» Г. Стренга. Од- Однако до самого последнего времени не находилось подвижни- подвижников, которые бы рискнули провести желаемую систематизацию с «гантмахеровским» размахом. Книга Хорна и Джонсона —
Предисловие редактора перевода первая подобная попытка, и следующая, учитывая сложность задачи, по-видимому, будет предпринята не скоро. Авторы книги, как мне кажется, хотели совместить в ней учебник для мало подготовленного читателя (все же знакомого с самыми основами предмета), справочник для математика, ра- работающего в другой области, и обзор самых свежих (или клас- классических, но мало известных) результатов — для специалиста по линейной алгебре. Мне кажется также, что все это им уда- удалось. Первой категории читателей овладевать теорией матриц будет гораздо проще по этой книге, чем по книге Гантмахера, которая — в качестве учебника — предназначена скорее для аспиранта. Эта элементарность изложения, надо думать, не бу- будет недостатком и для математика, не занимающегося линей- линейной алгеброй профессионально. Алгебраист же не станет изу- изучать основной текст, и мы назовем для него несколько наугад выбранных результатов, о которых он не прочтет ни в какой другой книге: 1. Теорема Маккоя о триангуляризации двух комплексных матриц одним подобием (гл. 2); критерий унитарной эквива- эквивалентности матриц (та же глава). 2. Необходимые и достаточные условия приводимости двух квадратичных форм к главным осям посредством одного и того же преобразования конгруэнтности (гл. 4). 3. Описание обобщенных матричных норм, допускающих со- согласованные векторные нормы (гл. 5). 4. Правильное обобщение теоремы Брауэра о локализации спектра в овалах Кассини (гл. 6). 5. Характеризация унитарно инвариантных матричных норм (гл. 7). Авторы готовят продолжение этой книги; оно будет состоять (см. их предисловие) из разделов, отсутствующих или едва за- затронутых в имеющихся книгах на русском языке. Нелишне сказать, что Чарльз Джонсон — один из крупней- крупнейших американских алгебраистов, специализирующихся в обла- области теории матриц, человек незаурядной работоспособности. Редкий номер названных выше журналов по линейной алгебре обходится без его статьи. Я думаю, что книга Хорна и Джон- Джонсона в течение многих лет будет незаменима как справочник, дополняющий книгу Гантмахера. Пользуюсь случаем поблагодарить авторов за любезно при- присланный ими список исправлений, которые учтены при переводе. В переводе книги вместе со мной участвовали А. В. Князев {гл. 4, 5 и дополнения) и Е. Е. Тыртышников (гл. 0—3, 8). X. Икрамов
ПРЕДИСЛОВИЕ Посвящается собратьям по тео- теории матриц и нашим семьям Дане, Дженифер и Эмили, Сузан, Сиэриз, Коринне и Говарду в благодарность за понимание и поддержку. Линейная алгебра и теория матриц давно вошли в число основных инструментов, используемых другими математиче- математическими дисциплинами; в то же время они сами являются пло- плодотворной областью исследований. В этой и следующей за ней •книгах ') излагаются как классические, так и недавние результа- результаты матричного анализа, оказавшиеся важными для прикладной математики. Книга может служить учебником для студентов и аспирантов или справочником, содержащим все необходимое для различных групп читателей. Для понимания ее материала достаточно прослушать односеместровый курс элементарной ли- линейной алгебры и овладеть азами математического анализа. Мы начинаем с понятий собственного значения и собственного вектора; предварительного знакомства с этими понятиями не требуется. Результаты теории матриц, выходящие за рамки элементар- элементарного курса линейной алгебры, необходимы практически в лю- любой области математики — будь то дифференциальные уравне- уравнения, теория вероятностей и статистика или теория оптимиза- оптимизации— и практически во всех ее приложениях — назовем хотя бы приложения к теоретической и прикладной экономике, ин- инженерным дисциплинам или исследованию операций. Но до не- недавнего времени большая часть необходимого материала появ- появлялась в учебных планах вузов лишь спорадически, а то и не появлялась вообще. По мере того как рос интерес к приклад- прикладной математике и теории матриц посвящалось все большее число курсов повышенного типа, все яснее становилась потреб- потребность в учебнике с широким охватом тем и в современном спра- справочнике по данному предмету. В литературе по теории матриц имеется ряд признанных классических книг, но они не слишком приспособлены для обычных семинарских нужд и для систематического самообуче- самообучения. Недостаток задач, приложений и мотивировок, неполный предметный указатель, устарелый подход — вот трудности, с ко- которыми встречаются читатели некоторых традиционных учеб- •) См. [HJ] в списке литературы. — Прим. ред.
8 Предисловие ников. Более свежие книги либо чересчур элементарны, либо представляют собой узко специализированные трактаты. Нашей целью было написать книгу, дающую доступное и современное изложение широкого круга вопросов. Мы интерпретируем термин «матричный анализ» как обшее название тех разделов линейной алгебры, которые возникли из нужд математического анализа — таких его составных частей, как теория функций многих переменных, теория функций комп- комплексного переменного, дифференциальные уравнения, оптимиза- оптимизация и теория приближений. Другая возможная точка зрения состоит в том, что матричный анализ есть подход к веществен- вещественным и комплексным задачам линейной алгебры, при котором без колебаний используются понятия анализа — пределы, непре- непрерывность, степенные ряды, — если они более эффективны или естественны, чем чисто алгебраические средства. Обе интерпре- интерпретации матричного анализа отражаются в отборе и трактовке тем, затронутых в этой книге. Мы предпочитаем термин мат- матричный анализ термину линейная алгебра, поскольку он верно схватывает широту приложений и методологию данной области. В главе 0 дан обзор необходимых фактов из элементарной линейной алгебры, а также ряда других полезных, хотя и не обязательно элементарных результатов. Мы сочли, что такой обзор будет полезен для ссылок в последующем тексте. Главы 1—3 содержат в основном материал, который обычно входит в любой серьезный курс линейной алгебры или теории матриц: основные сведения о собственных значениях, собственных век- векторах и подобии, унитарное подобие, триангуляризация по Шуру и ее следствия, нормальные матрицы, канонические формы и разложения, включая жорданову форму, LU- и (^-разложения, сопровождающие матрицы многочленов. Все последующие гла- главы по существу независимы и трактуют каждая, причем до- довольно глубоко, свою основную тему: Эрмитовы и комплексные симметричные матрицы (гл. 4). Особый акцент мы сделала на вариационных методах исследо- исследования собственных значений эрмитовых матриц; кроме того, даны начатки теории мажоризации. Векторные и матричные нормы (гл. 5). Этот материал су- существенно используется при анализе устойчивости алгоритмов вычислительной линейной алгебры, а также при изучении мат- матричных степенных рядов и итерационных процессов. Мы де- детально обсуждаем алгебраические, геометрические и аналити- аналитические свойства норм и проводим тщательное разграничение между теми результатами о матричных нормах, которые зави- зависят от кольцевого свойства, и теми, которые от него не зависят. Результаты, относящиеся к локализации и возмущениям соб- собственных значений (гл. 6), выводятся для матриц общего вида
Предисловие (не обязательно эрмитовых) и важны для многих приложений. Мы даем подробное изложение теории кругов Гершгорина, не- некоторых современных ее уточнений и сопутствующих ей поня- понятий теории графов. Положительно определенные матрицы (гл. 7) и их примене- применения, включая неравенства, рассматриваются очень подробно. В частности, обсуждаются полярное и сингулярное разложения, а также их приложения к матричным задачам аппроксимации. Покомпонентно неотрицательные и положительные матрицы (гл. 8) встречаются во многих дисциплинах, связанных с изу- изучением величин, по смыслу своему неотрицательных (в теории вероятностей, экономике, технических науках и т. д.); их заме- замечательная теория отражает эти приложения. Мы разворачи- разворачиваем теорию неотрицательных, положительных, примитивных и неразложимых матриц последовательно и по возможности эле- элементарно, причем оснозываем ее на использовании норм. В следующей книге рассматриваются вопросы, также пред- представляющие большой интерес для приложений: числовая об- область матрицы и обобщения этого понятия; инерция, устойчи- устойчивые матрицы, М-матрицы и родственные специальные классы матриц; матричные уравнения, кронекеровы и адамаровы про- произведения; различные способы, которыми могут быть связаны функции и матрицы. Настоящая книга дает возможность строить различные курсы одно- или двухсеместровой продолжительности; выбор глав и параграфов зависит при этом от конкретной аудитории. Мы рекомендуем преподавателю при составлении курса произ- произвести тщательный отбор параграфов и даже частей параграфов. В такой курс, по всей видимости, должны войти гл. 1, большие разделы гл. 2 и 3, а также результаты относительно эрмлто- вых матриц и норм из гл. 4—5. Большинство глав включает в себя некоторое количество сравнительно специализированного или нетрадиционного мате- материала. Так, в гл. 2 содержатся не только основная теорема Шура об унитарной триангуляризации одной матрицы, но и об- обсуждение вопроса об одновременном приведении семейства мат. риц к треугольному виду. В §2.2 об унитарной эквивалентности изложение обычных фактов сопровождается разделом об усло- условиях унитарной эквивалентности, выраженных в терминах сле- следов. Рассмотрение комплексных симметричных матриц в гл. 4 составляет контрапункт с изложением классической теории эрмитовых матриц. В каждой главе базисные аспекты ее тема- тематики изучаются в начальных параграфах, а более тонкие ре- результаты отнесены в концы параграфов или же в конец главы. Такая стратегия имеет то преимущество, что тема раскрывает- раскрывается последовательно, а это увеличивает полезность книги как
10 Предисловие справочника. Одновременно преподавателю предоставляется большая возможность маневрирования. Многие из обсуждаемых результатов имеют место или могут быть обобщены на матрицы над другими полями или с элемен- элементами более общей алгебраической природы. Однако мы умышленно ограничиваемся полями вещественных и комплек- комплексных чисел, где можно применять не только формальные ал- алгебраические приемы, но и известные методы классического анализа. Хотя обычно мы считаем матрицы комплексными, в боль- большинстве примеров приведены вещественные матрицы, и глубо- глубокого знания комплексного анализа не требуется. Знакомство с арифметикой комплексных чисел необходимо для понимания теории матриц; соответствующие сведения даны в первом из приложений. Еще несколько приложений относятся к перифе- периферийным, но существенным вопросам, таким, как теорема Вейер- штрасса и выпуклость. В книгу включено много упражнений и задач; на наш взгляд они очень важны для выработки понимания предмета. Упраж- Упражнения включены в основной текст каждого параграфа и состав- составляют часть общего изложения; как правило, они элементарны и помогают схватить смысл вводимых понятий. Мы рекомендуем читателю проработать хотя бы значительную их часть. Задачи даются списком в конце каждого параграфа; в их расположе- расположении нет какой-либо определенной системы. Они очень различны по степени трудности и своему характеру (от задач теоретиче- теоретического плана до чисто вычислительных) и могут углублять основ- основную тему параграфа, трактовать ее специальные аспекты или указывать иные способы доказательства главных результатов. Для более трудных задач существенную подсказку дают указа- указания. Результаты некоторых задач используются в других зада- задачах или даже в основном тексте. Еще раз подчеркнем важность активной вовлеченности читателя в проработку упражнений и решение задач. Хотя данная книга посвящена не приложениям теории матриц, все же мы начинаем каждую главу параграфом, описывающим несколько приложений, которые помогают ввести главную тему этой главы, обосновывая ее появление. Для читателей, желающих познакомиться с другими изло-< жениями конкретных тем или получить дополнительную инфор< мацию по ним, мы даем в конце книги, следом за приложен ниями, список литературы. В тексте книги ссылки на этот спи* сок указываются с помощью краткого мнемонического кода; на* пример, книга, авторами которой являются Jones, Smith, обо-- значается символом [JSm]. Коды и полные выходные данные книг приведены в списке литературы; он упорядочен по алфа*
Предисловие 11 виту в соответствии с английской транскрипцией фамилий авч торов. Список литературы не является исчерпывающим. При огра- ограниченности объема книги и при ее многотемности мы не могли не сократить до предела число ссылок в тексте. В конце боль- большинства параграфов все же указываются некоторые статьи — большей частью те, что были использованы нами явным обра- образом, — и дается краткое их обсуждение, однако мы не пытались проследить историю классических результатов. Более полную библиографию можно найти в специализированных книгах, включенных в наш список литературы. Нужно еще иметь в виду, что по некоторым разделам матричного анализа суще- существуют обширные и постоянно обновляемые библиографические справочники, например KWIC Index for Numerical Linear Al- Algebra [CaLe]1); см. также разд. 15 и 65 реферативного жур- журнала Mathematical Reviews2). Мы с признательностью отмечаем помощь наших коллег и учеников, не пожалевших времени, чтобы сообщить свои пред- предложения и замечания к конспектам и рукописям, предваряв- предварявшим эту книгу. Вот список этих лиц: В. Барретт, Л. Бисли, Б. Кейн, Д. Карлсон, Д. Чоудхури, Р. Чоудхури, Ю Рьё Хонг, Д. Красе, Д. Олески, С. Пирс, Л. Родман, П. ван ден Дриссе. Р. А. Хорн Ч. Р. Джонсон ') Или: Вычислительные методы линейной алгебры: Библиографический указатель. Ч. 1—3, ЛОМИ им. В. А. Стеклова АН СССР, 1976, 1982, 1986.— Прим. перев. 2) Или одноименные разделы западногерманского реферативного жур- журнала Zentralblatt fiir Mathematik или советского реферативного журнала «Математика», — Прим. перев.
Глава О ОБЗОР И РАЗНОЕ 0.0. Введение В этой главе приводится (сжато и без доказательств) ряд полезных понятий и фактов, на многие из которых явно или не- неявно опирается основной материал настоящей книги. Большин- Большинство из них в той или иной форме должно входить в элемен- элементарный курс линейной алгебры. Однако есть и не столь широко известные; некоторые из них рассматриваются здесь, а не в по- последующих главах из-за того, что плохо вписываются в их структуру. Таким образом, данная глава может служить крат- кратким обзором, предваряющим книгу, или справочником, к кото- которому удобно обращаться по мере необходимости. Для дальней- дальнейших ссылок здесь даются также основные обозначения и не- некоторые определения. Мы предполагаем, однако, что читатель уже хорошо знаком с элементарными понятиями линейной ал- алгебры и техникой выполнения таких матричных операций, как умножение и сложение матриц. 0.1. Векторные пространства В нашем изложении понятие векторного пространства будет использоваться, как правило, неявно. Тем не менее оно являет- является фундаментальным для всей теории матриц. 0.1.1. Основное поле. Определение векторного пространства базируется на понятии поля, или множества скаляров, на кото- которые можно умножать векторы. В наших построениях это поле почти всегда будет полем R вещественных чисел или полем С комплексных чисел (см. приложение А) с обычными опера- операциями сложения и умножения. Однако это может быть и поле рациональных чисел, поле вычетов по простому модулю или ка- какое-то иное поле. В случае когда не указано, какое именно поле имеется в виду, будем использовать для него символ F. Множе- Множество скаляров будет полем, если оно замкнуто относительно двух заданных бинарных операций (называемых сложением и умножением), причем выполняются следующие условия: обе эти операции ассоциативны и коммутативны и каждая обладает нейтральным элементом; обратные элементы относительно опе- операции сложения существуют (и содержатся в том же множе- стве) для всех элементов, относительно операции умножения^
0.1. Векторные пространства 13 для всех элементов, кроме нейтрального элемента 0 операции сложения; операция умножения дистрибутивна относительно операции сложения. 0.1.2. Векторные пространства. Векторное пространство1) V над полем F — это множество объектов (называемых векто- векторами), замкнутое относительно бинарной операции (называе- (называемой сложением), которая ассоциативна, коммутативна и обладает нейтральным элементом @); для каждого элемента существует обратный элемент относительно этой операции, принадлежащий тому же множеству. Это множество замкнуто также относи- относительно операции левого умножения вектора на скаляр из поля F, причем для любых а, 6 е F н для любых х, у е V выпол- выполняются следующие соотношения: а(х-\~ у)= ах-\-ау, (а + + Ь)х = ах + bx, a{bx) = {ab)x, ех — х, где eeF—нейтраль- eeF—нейтральный элемент относительно умножения. Для заданного поля F и целого положительного числа п множество F" упорядоченных дг-чденных наборов с компонен- компонентами из F образует векторное пространство над F при очевид- очевидном определении операций (наборы складываются покомпо- покомпонентно). В частных случаях получаем векторные пространства R" и С"— основные для данной книги. Другие примеры вектор- векторных пространств (над R или С): многочлены с вещественными или комплексными коэффициентами (степени не выше задан- заданной или же всевозможных степеней) и непрерывные или про- произвольные функции на отрезке [a, &]cR с вещественными либо комплексными значениями. Конечно, имеется существен- существенное различие между конечномерным пространством R™ и беско- бесконечномерным векторным пространством непрерывных функций на [0, I] с вещественными значениями. 0.1.3. Подпространства и линейная оболочка. Подпростран- Подпространство LJ векторного пространства V — это подмножество в V, которое само является векторным пространством над тем же самым полем. Например, множество {[a,b,0]T: a, b e R} есть подпространство в R3. Как правило, подпространство вектор- векторного пространства V определяется при помощи некоторых соот- соотношений, выделяющих часть векторов из V таким образом, что- чтобы обеспечить ее замкнутость относительно сложения элемен- элементов в V; например, подпространство составляют векторы из R3 с последней компонентой 0. При этом получающееся множество полезно рассматривать именно как подпространство, а не как самостоятельное векторное пространство. В любом случае пере- пересечение двух подпространств есть снова подпространство. ') Часто используется также термин линейное пространство. — Прим. перев.
14 Гл. 0. Обзор и разное Если 5 — подмножество векторного пространства V, то его линейной оболочкой называется множество SpanS = {a1o1 +02^2+ ••• + akvk: a{ a6eF, vb .... n4eS, k = \, a, ...}. Заметим, что Span 5 — всегда подпространство, даже если S подпространством не является. Говорят, что 5 порождает век- векторное пространство V, если SpanS = V. 0.1.4. Линейная зависимость и независимость. Множество векторов {хи ..., Xk) в векторном пространстве называется линейно зависимым, если существуют коэффициенты а\, ... ..., а д. е F, такие, что не все из них равны нулю и Это эквивалентно тому, что один из векторов xi выражается в виде линейной комбинации остальных векторов с коэффициен- коэффициентами из F1). Например, множество {[1, 2, 3]г, [1,0,—1]г, [2, 2, 2] т} линейно зависимо в R3. Подмножество в V, не являю- являющееся линейно зависимым над F, называется линейно независи- независимым. Например, множество {[1,2, З]7", [1,0,—1]г} линейно не- независимо в R3. Важно заметить, что оба понятия по сути своей относятся к множествам векторов. Любое подмножество ли- линейно независимого множества также линейно независимо; {0}—линейно зависимое, множество и, следовательно, любое множество, содержащее вектор 0, линейно зависимо. Множе- Множество векторов может быть линейно зависимым, в то время как любое его собственное подмножество линейно независимо. 0.1.5. Базис. Подмножество 5 векторного пространства V порождает V, если любой элемент из V можно представить как линейную комбинацию элементов из S (с коэффициентами из соответствующего основного поля). Например, множество {[1,0, О]7", [0, 1,0]г, [0,0, 1]г, [1,0,—I]7) порождает R3 над R (или С3 над С). Линейно независимое множество, порождаю- порождающее векторное пространство V, называется его базисом. Суще- Существует много различных базисов. Однако все они обладают следующим замечательным свойством: любой элемент из V можно разложить по базису единственным способом, но это утверждение становится неверным как при пополнении базиса каким-либо элементом, так и при исключении любого из эле- элементов. Линейно независимое множество элементов из V со- составляет базис в том и только в том случае, если при любом его пополнении оно становится линейно зависимым. Для того ') Эквивалентность имеет место при k ^= 2. — Прим. перев.
0.1. Векторные пространства 13 Чтобы множество, порождающее V, являлось базисом, необхо- необходимо и достаточно, чтобы ни одно из его собственных подмно- подмножеств не порождало V. Любое векторное, пространство нм«ет базис. 0.1.6. Дополнение до базиса. Любое линейно независимое множество векторов в векторном пространстве V можно допол- дополнить до базиса; другими словами, для любого линейно незави- независимого множества {хих2, ..., xk}cz V всегда найдутся допол- дополнительные векторы Xk+u •••> хп, ••• sV, такие, что множество {х\, ..., хп, ...} есть базис в V. Дополнительные векторы, ко- конечно, определяются неоднозначно (например, линейно незави- независимое множество {[1,0,0]г, [0, 1,0]г} дополняется до базиса в R3 любым вектором с ненулевой третьей компонентой). При- Пример вещественного векторного пространства С [0, 1] непрерыв- непрерывных вещественнозначных функций на [0, 1] показывает, что ба- базис в общем случае может не быть конечным. Бесконечное мно- множество одночленов {1, х, х2, х3, ...} линейно независимо в С [0, 1] 0.1.7. Размерность. Если один из базисов векторного про- пространства V состоит из конечного числа элементов, то и любой базис содержит такое же число элементов, и это число назы- называется размерностью векторного пространства V. В этом слу- случае V называется конечномерным, а в противном — бесконечно- мерным. Между любыми двумя базисами в бесконечномерном пространстве (например, в С [0,1]) существует взаимно одно- однозначное соответствие. Размерность вещественного векторного пространства R" равна п. Векторное пространство С" имеет размерность л над полем С и 2л над полем R. Базис {ей е2, ... ..., е„}, в котором г-я компонента вектора et равна 1, а осталь- остальные равны нулю, называется иногда стандартным или естествен- естественным базисом в R" или С". 0.1.8. Изоморфизм. Пусть U и V — векторные пространства над одним и тем же полем F и /: U-*-V — обратимая функция, такая, что f(ax-^-by) = af(x)-{-bf(y) для всех х, у е U и для всех о, d e F. В этом случае f называется изоморфизмом, a U и V называются изоморфными («одинаково устроенными»). Два конечномерных векторных пространства над одним и тем же полем изоморфны тогда и только тогда, когда они имеют одинаковую размерность. Таким образом, любое л-мерное век- векторное пространство над полем F изоморфно F". Всякое л-мер- л-мерное вещественное или комплексное векторное пространство, сле- следовательно, изоморфно соответственно R" или С". Конкретно: если V есть n-мерное векторное пространство над полем F и & = {х\, ..., хп)—его базис, то, поскольку любой элемент V однозначно записывается в виде х=а,\Х\.-{- ,., + апхп,
Гл. 0. Обзор и разное где а,-е F, i = l, ..., п, мы можем вектору х поставить в со- соответствие столбец [х]# = [ait ..., а„]т,и отображение х-*-[х]# является изоморфизмом между V и F", отвечающим базису 3$. 0.2. Матрицы При изучении матриц важно иметь в виду следующие два подхода к их определению:, с одной стороны, матрица рассмат- рассматривается как прямоугольный массив скаляров; с другой сто- стороны, она представляет линейное отображение одного вектор- векторного пространства в другое, когда в каждом из них фиксиро- фиксирован базис. 0.2.1. Прямоугольный массив. Матрица — это массив разме- размера шУСп, заполненный скалярами из поля F. В случае m = п матрица называется квадратной. Множество всех тХ^-матриц, или матриц размера пгУ(п, над Fобозначается через Mm,n(F) или М„(Р),если т = п (при т = п говорят о матрице порядкап). В наиболее распространенном случае, когда F = С, вместо М„(С) и Mm,n(C) будем писать Мп и Мт,п. Как правило, мат- матрицы обозначаются заглавными буквами. Например, матрица -Г L- л. 2 "' ¦1 л 4 принадлежит M2,3(R). Подматрица какой-либо матрицы — это прямоугольный массив, расположенный в выделенных строках и столбцах исходной матрицы. Для матрицы А, приведенной выше, в качестве подматрицы можно рассмотреть, например, [л 4] — это подматрица, расположенная во второй строке и во втором и третьем столбцах матрицы А. 0.2.2. Линейные отображения. Пусть U есть л-мерное, а V есть m-мерное векторные пространства над одним и тем же полем F. Базисы в U и в V обозначим соответственно через $и и 3&v. С помощью изоморфизмов х-+[х]# и у->\у\$ век- векторы из U и V представим как столбцы соответственно с п и m компонентами, принадлежащими F. Линейное отображе- отображением—это функция Т: U-+V, удовлетворяющая соотношению Т {ахх{ -f- ct2x2) = а{Г (хх) + а2Т (х2) для любых скаляров аь а2 и любых векторов хи х2. Всякому линейному отображению ') Если t/=V, то такое отображение называется линейным преобразо* ванием. — Прим. перев.
0.2. Матрицы 17 Т: U->V отвечает матрица АеМЯ]Л(Р), такая, что вектор у имеет вид у = Х{х) тогда и только тогда, когда [у]Лу = А[х]Ли. Говорят, что матрица А представляет линейное отображение Т в базисах д&и и 3Sv (представляющая матрица А зависит от выбранных базисов). Итак, изучая матрицу А, мы по существу изучаем линейное отображение по отношению к каким-то бази- базисам, но явное указание этих базисов во многих случаях не обя- обязательно. 0.2.3. Векторные пространства, связанные с заданной матри- матрицей или линейным отображением. В качестве векторного про- пространства размерности п над полем F, не ограничивая общно- общности, можно всегда рассматривать F". Матрицу ЛеМт, „(F) мы будем рассматривать как линейное отображение из F" в F (и, конечно, как массив). Областью определения такого линей- линейного отображения является F", а областью значений — множе- множество {у е Fm: y = Ax, j;eF"}. Нуль-пространство (или ядро) матрицы А есть {х е F": Ах = 0}. Область значений матрицы А является подпространством в Fm, а нуль-пространство — под- подпространством в F". Справедливо следующее соотношение: п = размерность нуль-пространства матрицы Л + + размерность области значений матрицы А. 0.2.4. Матричные операции. Сложение матриц определяется как покомпонентное сложение массивов одинаковых размеров и обозначается символом -f- (A-\~ В). Оно отвечает сложению линейных отображений, заданных относительно одной и той же пары базисов, и наследует коммутативность и ассоциативность операции сложения скаляров в соответствующем поле. В роли нейтрального элемента выступает нулевая матрица, т. е. матрица с нулевыми элементами. Множество AfOT,n(F) само является век- векторным пространством над F. Умножение матриц определяется обычным способом и отвечает композиции линейных отображе- отображений; произведение матриц А и В обозначается через АВ. При этом предполагается, что А<=Мт, „{?), Be^jfF), где р = п. Умножение матриц ассоциативно, но, вообще говоря, не ком- коммутативно. Например, Г1 01Г121 Г1 21 Г 1 01 L0 2.Л.З 4.1^43 4 J L0 2J- Однако коммутативность может иметь место для матриц из ка- каких-то подмножеств множества Mn(F). Нейтральным элемен- элементом относительно умножения является единичная матрица / е
18 Гл. 0. Обзор и разное ;Afn(F) вида J __ о о 1 Эта матрица и все матрицы, полученные из нее умножением на скаляр—так называемые скалярные матрицы, — коммутируют с любыми матрицами из Mn(F), и никакие другие матрицы та- таким свойством не обладают. Умножение матриц дистрибутивно относительно сложения матриц. Заметим, что символ 0 используется для обозначения числа «нуль», нулевого вектора (все координаты этого вектора равны нулю) и нулевой матрицы (все элементы этой матрицы равны нулю). Обычно из контекста ясно, о чем идет речь, и путаницы не возникает. Символ / используется для обозначения единич- единичной матрицы произвольного размера. При необходимости вво- вводится индекс, указывающий ее размер. 0.2.5. Транспонированные и сопряженные матрицы. Если А = [atl] e Mm> n (F), то транспонированная матрица Ат принад- принадлежит Mn>m(F) и представляет собой матрицу с элементами ati, т. е. строки и столбцы меняются местами. Например, 1 2 3 У Г l 4 = 25 L3 6J Разумеется, (Ат)т = А. Для А е Mmt n (С) сопряженная матрица А" определяется соотношением Л* = Ат, где А получается из А заменой всех ее элементов на комплексно-сопряженные. На- Например, Г 1 + i 2 — I Г Г 1 — / —3 "I L -3 —2i J == L 2 + / 2/ J" И транспонированные, и сопряженные [и обратные (см. разд. 0.5)] матрицы подчиняются следующему закону обращения порядка: (АВ)* = В*А* и (ЛВ)Г = ВГЛГ, при условии, что умножение вы- выполнимо. В то же время АВ = АВ, т.е. при переходе к ком- комплексно-сопряженным матрицам не происходит перестановки сомножителей. Если х, г/еМп>1 = С", то у'х есть скаляр н применительно к нему сопряжение и комплексное сопряжение дают один н тот же результат, т. е. (у'х)* = у'х = х'у = утх.
0.3. Определители 19 0.2.6. Техника матричного умножения. Отметим некоторые весьма и весьма полезные свойства умножения матриц. 1. Если bj обозначает у-й столбец матрицы В, то у-й столбец произведения АВ имеет вид Abj. 2. Если а,- обозначает t-ю строку матрицы А, то i-я строка произведения АВ имеет вид щВ. Другими словами, произведение АВ можно рассматривать как результат умножения столбцов матрицы В на матрицу А слева и как результат умножения строк матрицы А на матрицу В справа. В разд. 0.9.1 мы обсудим аналогичные наблюдения в случае, когда один из сомножителей является диагональной матрицей. 3. Если Л е Mm, „(F) и j;eF", то Ах есть линейная комби- комбинация столбцов матрицы А, где коэффициентами служат коор- координаты вектора х. 4. Если 4eAfm,n(F) и i/eF, то утА есть линейная комби- комбинация строк матрицы А, где коэффициентами служат координа- координаты вектра у. 0.3. Определители Часто в математике бывает полезно охарактеризовать объ- объект, определяемый многими параметрами, с помощью одной ве- величины. Определитель — пример такого рода. Он вводится только для квадратных матриц A eMn(F). Мы рассмотрим два важных способа его определения — различных, но, естественно, эквива- эквивалентных. Определитель матрицы ^eM,(F) обозначается через det Л. 0.3.1. Разложение Лапласа. Определитель матрицы А=[а{/] е eAfn(F) можно ввести, используя индукцию по п. Предполо- Предположим, что уже известно, что такое определитель матриц из •Mn_i(F). Для матрицы AeMn(F) рассмотрим подматрицы ^yG^n-i(F)> получаемые после удаления i-n строки и /-го столбца. Тогда для всех i^n, j^.n t (~U'+/ % det Ai} = t (-0'+/««/ det Аф и это число по определению есть det Л. Левая часть данного равенства представляет собой разложение Лапласа по t-й стро- строке, а правая — по у-му столбцу матрицы А (см. разд. 0.7.1). Лю- Любое из них можно использовать для выражения определителя. Это индуктивное построение начинается с того, что определите- определителем матрицы размера 1 X 1 называется значение единственного
20 Гл. 0. Обзор и разное ее элемента. Таким образом, 1 det I "«11 «12 a2i a22 «13 " «23 «33- , , f «n a det La2i a 1 j — aua22«33 J 12 j 22 J + al2c ana22~al2a2U «23«3i + ai3«2i«32 — *~~" Clj 1^23^32 ^12^21^'33 — ^13^'^2^'3i и т. д. Очевидно также, что det Ат = det А и det A* = det Л для /!еМя(С). 0.3.2. Альтернирующая сумма. В соответствии с приведен- приведенными выше примерами определителей 1-го, 2-го и 3-го порядка для произвольной матрицы А = [ац] е A4n(F) имеем п det А = X sgn a П ai0 ш, О 1 = 1 где о пробегает множество всех п\ перестановок из п чисел {1, ..., я}1) и sgn a есть знак перестановки ст, т. е. это +1 либо —1 в зависимости от того, четно или нечетно число транс- транспозиций (т. е. перемен местами какой-либо пары чисел), необ- необходимое для того, чтобы от расположения {1,2, ..., п} пе- перейти к а. Итак, каждое произведение flic A)^20B) • • • «rea(rt) входит в определитель со знаком + в случае четной переста- перестановки а и со знаком — в случае нечетной. Заменив sgn сг на какую-либо другую функцию, получим вместо det Л так называемую обобщенную матричную функ- функцию. Например, заменим sgn сг на постоянную, равную 1. По- Полученная функция называется перманентом, и перманент мат- матрицы А обозначается через per Л. 0.3.3. Элементарные преобразования. Используя три простых и основополагающих преобразования, можно любую матрицу привести к простой и однозначно определяемой канонической форме, очень удобной для таких задач, как решение систем ли- линейных уравнений, вычисление определителей, обращение мат- матрицы и нахождение ранга. Опишем эти типы преобразований, ориентируясь на действия со строками. ') Для числа, поставленного на г-е место, используется обозначение сг(()' Обычно функцию a (i) называют подстановкой. — Прим. перев.
0.3. Определители 21 /. Перестановка двух строк Для того чтобы в матрице поменять местами 1-ю и /-ю стро- строки, нужно умножить ее слева на матрицу 1 / -я строка j -я строка Г ' i -й столбец1 j -й столбец в которой лишь два внедиагональных- элемента отличны от нуля, они равны 1 и занимают позиции (i,/) и (/,/); элементы, не указанные явно, нулевые. 2. Умножение строки на ненулевое число Умножение t'-й строки матрицы А на число с можно выпол- выполнить с помощью умножения слева на матрицу / -я строка l-k столбец в которой с находится в позиции /, /. 3. Прибавление к строке другой строки, умноженной на число Чтобы к /-й строке матрицы А прибавить t-ю строку, пред- предварительно умноженную на число с, умножим А слева на мат- матрицу J -я строка " 1 1 1 j 1-Й столбец в которой число с расположено в позиции (/, i). Заметим, что матрицы любого из трех элементарных пре- преобразований получаются в результате применения соответст- соответствующего преобразования к единичной матрице /.
22 Гл, 0. Обзор и разное При выполнении преобразования 1-го, 2-го или 3-го типа определитель соответственно умножается на —1, умножается на с или не изменяется. Вследствие этого у матрицы, имеющей нулевую строку или две линейно зависимые строки, или k ли- линейно зависимых строк, определитель равен нулю. Матрица имеет нулевой определитель в том и только в том случае, когда множество ее строк линейно зависимо. 0.3.4. Ступенчатая форма. Всякой матрице А е Mm,n (F) соответствует каноническая форма в Мт, «(F)— (строчная) сту- ступенчатая форма матрицы А, к которой она приводится посред- посредством (неоднозначно определенной) последовательности эле- элементарных преобразований. Многие матрицы обладают одной и той же ступенчатой формой, но любая из них имеет един- единственную ступенчатую форму, не зависящую от последователь- последовательности элементарных преобразований, используемой для ее по- построения. Ступенчатая форма полностью определяется следую- следующими свойствами: (a) В любой ненулевой строке первый ненулевой элемент, называемый ведущим, равен 1. (b) Все остальные элементы столбца, содержащего ведущий элемент, равны нулю. (c) Любая строка, состоящая только из нулей, находится ниже всех ненулевых строк. (d) Ведущие «единицы» образуют ступенчатую конфигура- конфигурацию слева направо, т. е. ведущий элемент данной строки дол- должен находиться правее ведущего элемента строки, лежащей выше ее. Например, матрица г 0 1 —1 0 0 2т 0 0 -0 0 0 0 0 0 0 1 0 0 0 1 0 я 4 0 - является ступенчатой. Определитель матрицы А ^ Mn(F) отли- отличен от нуля в том и только в том случае, когда ее ступенчатая форма является единичной матрицей 1 О" 1 О 1 (определитель матрицы / равен 1). Чтобы вычислить опреде- определитель матрицы Л, достаточно проследить, как он изменялся
0.3. Определители 23 в ходе элементарных преобразований, приводящих матрицу к ступенчатой форме. Рассмотрим систему линейных уравнений Ах = Ь, где мат- матрица Л <s Mm,„(F) и вектор 6eF" заданы, а иеР — неиз- неизвестный вектор. Множество решений этой системы не изменит* ся, если одни и те же элементарные преобразования проводятся одновременно для матрицы А и для вектора Ь. Решение легко находится по ступенчатой форме расширенной матрицы [А Ь]. Две системы эквивалентны, или равносильны (т. е. имеют одно и то же множество решений), тогда и только тогда, когда их расширенные матрицы имеют одинаковую ступенчатую форму. Несколько позже мы обсудим роль ступенчатой формы при изучении рангов и обратных матриц. 0.3.5. Мультипликативность. Определитель является мульти- мультипликативной функцией, т. е. для A, BeM,(F) выполняется со- соотношение det AB = det A det В. Это одно из важнейших свойств определителей. Его можно до- доказать с помощью элементарных преобразований, приводящих к ступенчатому виду матрицы А к В. 0.3.6. Характеристические свойства определителя как функ- функции. Если зафиксировать все строки матрицы, кроме одной, и рассматривать определитель как функцию только одной этой строки, то это будет линейная функция элементов данной стро- строки. То же справедливо и в отношении столбцов. Линейность очевидна в силу разложения Лапласа: любой элемент строки входит в определитель с постоянным коэффициентом, равным дополнительному минору, взятому со знаком + или —• Функ- Функция называется полилинейной, если при некотором разбиении множества ее переменных она линейна по совокупности пере- переменных из каждого подмножества, входящего в это разбиение. Это довольно широкий класс функций. Например, функция f(*i, х2) — х\х2 полилинейна (соответствующее разбиение — это {*i}, {^г}). Определитель является полилинейной функцией эле- элементов матрицы по отношению, к разбиению их на подмноже- подмножества, отвечающие ее строкам (или столбцам). Естественно попытаться выделить какие-то свойства скаляр- скалярной функции от п2 переменных (т. е. от элементов матрицы А^Мп), которые в совокупности присущи определителю и только ему. Определитель есть единственная функция f: Mn(F)-*-F, которая является одновременно (a) полилинейной; (b) альтернирующей (т. е. перестановка пары строк изме- изменяет ее знак);
24 Гл. 0. Обзор и разное (с) нормированной, т. е. такой, что /(/)= 1,где/е Mn(F) — единичная матрица. Перманент также является полилинейной (как и другие обобщенные матричные функции) и нормированной, но не аль- альтернирующей функцией. 0.4. Ранг С любой матрицей ДеМП|n(F) связывается целое неотри- неотрицательное число, называемое ее рангом — для него мы исполь- используем обозначение rank Л. 0.4.1. Определение. Ранг матрицы А <= Мт>п (F)—это наи- наибольшее число ее столбцов, образующих линейно независимое множество. Такое множество столбцов, конечно, определяется неоднозначно, но каким бы оно ни было, число столбцов в нем неизменно. Примечательно, что всегда имеет место равенство rank AT = rank А. Поэтому можно предложить другое, но экви- эквивалентное определение ранга в терминах линейно независимых строк. Имея в виду эквивалентность двух определений ранга, часто используют следующую формулировку: строчный ранг равен столбцовому рангу. 0.4.2. Ранг и системы линейных уравнений. Система линей- линейных уравнений Ах = b (см. разд. 0.3.4) может иметь 0, 1 или бесконечно много решений — и других возможностей нет. Если су- существует хотя бы одно решение, то система называется совмест- совместной. Для совместности системы необходимо и достаточно, чтобы выполнялось соотношение rank [Л &] = гапкЛ. Матрица [А Ь] называется расширенной матрицей системы в отличие от А, на- называемой матрицей коэффициентов. То, что эти две матрицы имеют одинаковый ранг, означает не что иное, как возможность выразить вектор b в виде линейной комбинации столбцов мат- матрицы А. В этом случае при добавлении b к столбцам матрицы А ранг не увеличивается. Решением системы линейных уравне- уравнений Ах = b является вектор коэффициентов, с помощью кото- которых b записывается в виде линейной комбинации столбцов мат- матрицы А. 0.4.3. Ступенчатая форма и ранг. Элементарные преобразо- преобразования не изменяют ранг, и потому ранг матрицы А совпадает с рангом ее ступенчатой формы. В то же время ранг ступенча- ступенчатой матрицы равен числу ее ненулевых строк. При вычислении ранга путем преобразования к ступенчатой форме нужно учи- учитывать плохую обусловленность задачи: ошибки округления ре- результатов промежуточных вычислений могут нулевую строку
0.4. Ранг 25 сделать ненулевой и как следствие привести к неправильному определению ранга. 0.4.4. Характеризации ранга. В различных ситуациях оказы- оказываются полезными следующие эквивалентные утверждения от- относительно любой заданной матрицы Л ^ Mm, „(F): (a) rank Л = k\ (b) в матрице Л содержатся k линейно независимых строк и в ней не существует более чем k линейно независимых строк; (c) в матрице Л содержатся k линейно независимых столб- столбцов и в ней не существует более чем k линейно независимых столбцов; (d) в матрице А имеется подматрица размера k~X.k с нену- ненулевым определителем и все подматрицы размера (&+1)Х Х(? + 1) имеют нулевой определитель; (e) размерность области значений матрицы А равна k; (f) существует k и не больше чем k линейно независимых векторов Ь, таких, что система линейных уравнений Ах = Ь яв- является совместной; (g) k — n — (размерность нуль-подпространства матрицы А). 0.4.5. Неравенства для рангов. (a) rank Л <min{m, n} для ЛеМ^Д). (b) При вычеркивании каких-то строк и (или) столбцов получаем подматрицу, ранг которой не больше ранга исходной матрицы. (c) Если /leMffl)i(F) и BeMM(F), то (rank Л + rank В) — k ^ rank АВ <! min {rank Л, rank В]. (d) rank (Л + В) < rank Л + rank В (А, В<=Мт п (F)). (e) Если AeA(M(F), B<=Mk,p(F), С е AfPj „ (И, то rank АВ + rank ВС < rank В + rank ABC. Все эти неравенства можно получить как следствия послед- последнего неравенства, несколько более тонкого по сравнению с пре- предыдущими. Это неравенство Фробениуса. 0.4.6. Равенства для рангов. _ (a) rank А* = rank АТ = rank A = rank Л (Л е Мт> „ (С)). (b) Если Л е Мт (F) и С <= Мп (F) невырожденны и В^Мт> п (F), то rank AB = rank В ~ rank ВС — rank ABC, т. е. ранг не изме- изменяется при умножении слева и справа на невырожденную матрицу. (c) Если Л, В ^ Mmn{F), то rank Л— rankВ в том и только в том случае, когда существуют невырожденные матрицы AsMffl(F) и /<=Mn(F), такие, что B==XAY.
26 Гл. 0. Обзор и разное (d) rank A*A = rank A (A<= Mm, n (С)). (e) Для любой матрицы v4eMm>n(F) ранга k имеет место разложение') А = XBY, где IeMBpi(F), FeMt|n(F) и матрица BeMt(F) невы- рожденна. В частности, любая матрица А ранга 1 может быть записана в виде А = хуТ для некоторых xsF, i/eF". 0.5. Невырожденность Линейное отображение (или матрица) называется невырож- невырожденным (невырожденной), если в 0 переводится только 0. В про- противном случае отображение (или матрица) называется вырож- вырожденным (вырожденной). Если А е Mm, „(F) и m < л, то мат- матрица А заведомо вырожденная. Матрица A e!,(F) называется обратимой, если существует матрица ^-'eM,(F), такая, что А~1А=1. Матрица А-1 называется обратной к матрице А. Это эквивалентно тому, что линейное отображение, отвечающее мат- матрице Л, осуществляет взаимно однозначное соответствие, и по- потому существует обратное (тоже линейное) отображение. Если A<^Mn(F) и А~1А = 1, то ЛЛ-'=/; если матрица А-1 суще- существует, то она определяется однозначно. Полезно иметь различные способы распознавания невырож- невырожденности матрицы. Следующие утверждения относительно мат- матрицы А е Мп(?) эквивалентны: (a) матрица А невырожденна; (b) существует А-1; (c) rank А — п; (d) строки матрицы А линейно независимы; (e) столбцы матрицы А линейно независимы; (f) deM=^0; (g) размерность области значений матрицы А равна п; (h) размерность нуль-пространства матрицы А равна 0; (i) система линейных уравнений Ах = Ь совместна для лю- любого вектора Ъ е F"; (j) если система линейных уравнений Ах = Ъ совместна, то она имеет единственное решение; (к) система линейных уравнений Ах — Ь имеет единственное решение для любого вектора b e F"; A) система линейных уравнений Ах = 0 имеет единственное решение х = 0; ') Иногда такое разложение называется скелетным разложением матри« цы А. — Прим. перев.
0.6. Обычное скалярное произведение 27 (ш) число 0 не является собственным значением матрицы А (см. гл. 1). Все невырожденные матрицы в Mn(F) образуют группу по умножению, которая называется полной линейной группой и ча- часто обозначается через GL(n, F). 0.6. Обычнее скалярное произведение Условимся рассматривать элементы из F" как векторы- столбцы (т. е. F" = Mn, i(F)). При этом если *<=С", то хт и х* представляют собой векторы-строки. Заметим, что если х е R", то х* = хт. 0.6.1. Определение. Число у*х называется скалярным (или внутренним) произведением векторов х, у е С" и часто записы- записывается в виде <х, у} = у*х. Вследствие того что можно опреде- определить и другие скалярные произведения, приведенное здесь мы будем называть обычным или стандартным скалярным произ- произведением в векторном пространстве С". Заметим, что функция <•, • > линейна по первому аргументу ((ах\ + {5*2, У>= сс<*ь*/> + + $(х2, у} для всех aJeCajc,, х2е С") и сопряженно линейна по второму ((х, ау\ + Р#2> =а<х, у{) +Р<л;> Уг> для всех а,ре е=С и г/ь i/jeC), 0.6.2. Ортогональность. Два вектора х, у е С" называются ортогональными, если <«/, %> = 0. В случае двух или трех изме- измерений ортогональность векторов имеет естественную геометри- геометрическую интерпретацию — это обычная перпендикулярность. Мно- Множество векторов {л'ь ..., Xk}czCn называется ортогональным, если любая пара его векторов ортогональна. Всякое ортого- ортогональное множество векторов, не содержащее нулевого вектора, будет линейно независимым. 0.6.3. Неравенство Коши—Шварца. Неотрицательное число {х, хУ12 называется евклидовой длиной вектора ^еС". Вектор с евклидовой длиной, равной 1, называется нормированным, (или иногда единичным). Для произвольного ненулевого х е С вектор (х, ху~х12х является нормированным и имеет одинаковое направление с вектором х. В силу фундаментального неравен- неравенства Коши — Шварца \(у, х)\^(х,х)ш(у,уI12 для всех х, у е С", причем равенство достигается тогда и толь- только тогда, когда векторы хну линейно зависимы. Как обобще- обобщение понятия ортогональности вводится понятие угла между двумя ненулевыми векторами х, у е С, Это единственный угол
28 Гл. 0. Обзор и разное б, удовлетворяющий соотношениям cose =—1<у.*я , < <*.*>'%, </>1/2 2 0.6.4. Ортонормирование Грама— Шмидта. На интуитивном уровне вполне правдоподобной представляется возможность за- замены произвольной линейно независимой системы на ортонор- мированную (т. е. ортогональную систему, состоящую из норми- нормированных векторов), которая порождает то же векторное про- пространство, что и исходная система. В принципе такую замену можно выполнить бесконечно многими способами. Однако су- существует очень простой и важный алгоритм ее реализации — процесс ортонормирования Грама — Шмидта. Пусть {х\, ... ..., хп)—множество из п линейно независимых векторов в комплексном векторном пространстве и {гь .... г,,}—искомое ортогональное множество нормированных векторов. Тогда век- векторы zi можно вычислить рекуррентпо следующим образом. По- Положим y1=Xi и возьмем У\ z\ — {Уи </>>"" ' так что z\ — нормированный вектор. Далее построим вектор г/2 = х2 — (х2, Z\)Z\. Вектор у2 ортогонален вектору z\, и, норми- нормируя его, получаем (</2- #2/ так что 22 — нормированный вектор, ортогональный вектору zu Процесс продолжается по аналогии. В предположении, что уже построены векторы z\, ..., Zk-u находим Уk ~~z ^k \%k* *~k 1/^к 1 — \^ky ^к 2/ к 2 * • • \p^h* ~\/ It так что вектор ук ортогонален векторам z\, ..., zk~\. После нормирования получаем Zk = {Уv Ук){!2 ' Подобные действия выполняем до тех пор, пока не построим искомую ортонормированную систему z\, ..., zn. Заметим, что в бесконечномерном векторном пространстве посредством ана- аналогичной процедуры от бесконечной счетной линейно независи- независимой системы можно перейти к бесконечной ортонормированной системе. На любом шаге процесса Грама — Шмидта ортонормирован^ ные векторы z\, ..., Zk выражаются в виде линейных комбинат ций только первых k исходных линейно независимых векторов
0.7. Блочные матрицы 29 хи ..., хк (и наоборот). Образуем матрицы Z = [z1z2 ... zn] и Х — \х\Хч ... хп], в которых в качестве столбцов взяты соот- соответственно векторы Zi и xt. Тогда Z = XR. для некоторой невы- невырожденной матрицы R = [щ], которая является верхней тре- треугольной, т. е. щ = 0 при i > /. Наконец, обратим внимание, что процесс Грама — Шмидта можно применять к любой конечной или счетной не обязательно линейно независимой последовательности векторов. В случае линейно зависимого множества получаем уи = 0, где k— наи- наименьший номер, для которого множество {х\, ..., хк} линейно зависимо. В этом случае хк есть линейная комбинация векторов х\, ..., Xk-\. Чтобы продолжить процесс Грама — Шмидта, нужно вместо хк взять хк+\. В итоге мы найдем базис и размер- размерность линейной оболочки векторов Х\ хп. 0.6.5. Ортонормированные базисы. Ортонормированная си- система векторов — это ортогональная система нормированных векторов. Она не может содержать вектор 0 и всегда линейно независима. Ортонормированный базис — это базис, составляю- составляющий ортонормированную систему. С помощью процесса Гра- Грама — Шмидта любой базис преобразуется в ортонормирован- ортонормированный; поэтому любое конечномерное комплексное векторное про- пространство обладает ортонормированиым базисом. С такими ба- базисами работать особенно приятно, так как скалярное произ- произведение в них вычисляется просто как сумма произведений ко- координат с одинаковыми индексами. 0.6.6. Ортогональные дополнения. Для любого подмножества S cz С" его ортогональным дополнением называется множество SJ- = {xeC": х*у = 0 для всех i/eS}. Множество Sx всегда будет подпространством, даже если S таковым не является. Имеем (S1I = SpanS, и если S — подпространство, то (SX)-L = S. В любом случае dimSx + + dim(S-L)-L = п. Теперь рассмотрим линейную систему Ах — Ь, где А е Мт> „. Полезно иметь в виду, что область значений мат- матрицы А есть ортогональное дополнение к нуль-пространству матрицы Л*; таким образом, система Ах = Ь имеет решение (не обязательно единственное) тогда и только тогда, когда b*z = 0 для всех 2 e Ст, таких, что А*г = 0. 0.7. Блочные матрицы По аналогии с разбиением множества на подмножества под разбиением матрицы на блоки понимается полное расчленение ее на непересекающиеся подматрицы (блоки), при котором лкн
30 Гл. 0. Обзор и разное бой ее элемент попадает в одну и только одну из этих подмат- подматриц. Разбиение матрицы на блоки часто оказывается удобным средством, позволяющим прояснить особенности ее строения. 0.7.1. Подматрицы. Возьмем матрицу AeM^(F) и два набора индексов as{l т) и J3S{1, .... п}'1). Для под- подматрицы, лежащей в строках с номерами из а и столбцах с но- номерами из р, примем обозначение Л (а, Р). Например, Если т = п и a = р, то подматрица Л (a, a) называется глав- главной и обозначается через А (а). Любую подматрицу или глав- главную подматрицу можно получить из Л путем выбрасывания ка- каких-то ее строк и столбцов. Во многих случаях более удобно задавать подматрицу, указывая именно эти выбрасываемые строки и столбцы, а не те, в которых она лежит. Пусть а' и (У обозначают дополнения к подмножествам аир. Тогда Л(а', Р') представляет собой подматрицу, полученную из А выбрасыва- выбрасыванием строк с номерами из а и столбцов с номерами из р. Определитель любой квадратной подматрицы матрицы А на- называется минором матрицы А. Если подматрица главная, то и минор называется главным. Миноры, взятые с определенными знаками—подобно слагаемым вида (—1)<+/det Л,-/ в разложе- разложении Лапласа @.3.1), — называются алгебраическими дополне- дополнениями. Условимся пустой главный минор считать равным 1, т.е. deM@)=l. 0.7.2. Умножение блочных матриц. Если множества О], ..., а; и рь ..., Ps составляют разбиения соответственно множеств {1, ..., т) и {1, ..., п), то матрицы A{ait р;) A^/^/, lsS^/s^s) образуют блочное разбиение матрицы Л е Мт< „ (F). Если А «= Мт, „ (F) и В е Мп< р (F) разбиты на блоки с использованием одного и тог'о же разбиения множества {1, .,., п}, то эти их блочные разбиения будем называть со- согласованными. Пусть А (щ, рй) и В (pft, Y/) — блоки согласован- согласованных разбиений матриц А и В. Тогда [АВ] (щ, Y/) = Ilj ^ («*. Р*)в (Р*. Y/)- В левой части здесь записана подматрица произведения АВ, полученного обычным умножением матриц, в правой части—• ') Чтобы обозначить нестрогое включение, авторы часто пользуются и символом С. — Прим. ред.
0.7. Блочные матрицы сумма обычных произведений матриц. Таким образом, умноже- умножение блочных матриц с согласованными блочными разбиениями напоминают обычное матричное умножение. Для матриц с оди- одинаковыми блочными разбиениями очевидным образом опреде- определяется также и сложение. 0.7.3. Обращение блочной матрицы. В случае невырожден- невырожденной блочной матрицы Л бывает полезно получить соответствую- соответствующее блочное разбиение обратной матрицы. Это можно сделать многими различными, но эквивалентными способами в предпо- предположении, что некоторые подматрицы в AeM»(F) и Л-1 невы- рожденны. Для простоты рассмотрим следующее разбиение на блоки: \Ап Аа1 А А ' L Л21 -2 J где Аи <= МП[ (F) (/=1, 2) и щ + щ = п. Соответствующее раз- разбиение матрицы Л при этом имеет вид f -' I" л-i Г -I л I [Л22- при условии, что все вошедшие сюда обратные матрицы суще- существуют. В других обозначениях это можно записать следующим образом: Л (а) = [Л (а) - Л (а, а') А (а') Л (а', а)] -1 -1 Л (а, а') = Л (а) Л (а, а') [ А (а', а) Л (а) Л (а, а') - Л {а')} где снова предполагается, что использованные здесь обратные матрицы существуют. Возможны и другие представления. За- Заметим, что Л-1 (а) — это подматрица в А~1, в то время как Л (а)~' — это матрица, обратная к некоторой подматрице в Л,— в общем случае это не одно и то же. 0.7.4. Изменение обратной матрицы при малоранговой моди- модификации. В случае когда для какой-либо матрицы известна обратная, нередко приходится изучать, как изменится эта об- обратная матрица, если к исходной прибавить матрицу малого ранга. Существует простая формула, позволяющая легче вычис- вычислять новую обратную матрицу, чем если бы это надо было делать «на голом месте» (при условии, что прибавляется доста- достаточно простая матрица). Предположим, что матрица Л е М„{р)
32 Гл. 0. Обзор и разное невырожденна и матрица А~1 известна. Рассмотрим матрицу В = Л + XRY, где X, Y, R — матрицы соответственно размеров п X Л гУ^п, г X г, причем матрица R невырожденна. Если В невырожденна, то В~х = А'1 - А~1Х (/Г1 + YA~lxTl YA~\ Пусть г много меньше п. Тогда матрицы R и R-x + YA~lX обра- обратить существенно легче, чем В, и использование данной фор- формулы имеет преимущества по сравнению с прямым обращением матрицы В, если обратная матрица для А находится легко и в такой форме, которая позволяет упростить матричное умноже- умножение. Например, если добавляется матрица ранга 1, то матрицы X, Y, R имеют размеры п X 1, 1 X п, 1X1 соответственно, R = = [1] и формула приобретает вид В'1 = А~1 5-=т- A~lXYA~l (в этом случае AT = В — А). В частности, если где х, |/eF", /evWra(F), то получаем В-'=/ l-f-xyT l + y'x в предположении, что i/хф—1. 0.8. Скова определители Приведем для дальнейшего использования некоторые полез- полезные дополнительные сведения об определителях. Большинство из них нелегко найти в элементарных учебниках. 0.8.1. Ассоциированные матрицы. Для матрицы А еМш,„ (F) массив, составленный из всех ее миноров заданного порядка, называется ее ассоциированной матрицей. В случае когда бе- берутся миноры порядка k, говорят о k-й ассоциированной мат- рице. Она обозначается через Ck(A), имеет размер см:) и в позиции, отвечающей подмножествам а, ?$, содержит минор detA(a,$). Здесь as{l, •••, "*} и ре{1, ..., п}— подмноже- подмножества мощности k ^mm{m, п}, и они обычно упорядочиваются лексикографически, так что, в частности, {1,2,4} предшествует
0.8. Снова определители 33 {1,2,5}, {1,2,5} предшествует {1,3,4} и т. д. Например, пусть Г1 2 3 " А=\4 5 6. L7 8 9- Тогда С2(Л) = Г 1 21 Г131 Г2 31 detL4 Sj de44 6j detL5 6j det Г 1 21 7 8j 4 51 7 8J det det ] d4 2 3 8 9 5 6 8 9 ] r_3 _6 —3 -6 -12 —6 L_3 _6 —3 ] Для A = Mm<k(F), Be=Mk<n(F) имеем Cr (AB) = Cr (A) Cr (В), г < min {m, k, n}. Кроме того, Cr(tA) — trCr(A) для любого IgF; Ci(/) = /eM/»\ для / e= Mn; если матрица А е Мп невырожденна, то Ck(A)~l ~Ck(A~l); Ск {Ат) = С, {А)т для А е Mmt n (F); Ск(А') = Ск(А)" для ЛеМт>„(Р). 0.8.2. Присоединенная и обратная матрицы. В матрице A^Mn(F) заменим элементы на их алгебраические дополне- дополнения и затем перейдем к транспонированной матрице В = [&,•/] s gM«(F). Последняя определяется соотношениями обычно обозначается adj А и называется (классической) при- присоединенной ') матрицей для А. Заметим, что adj Л = ') В оригинале — adjoint. Иногда такую матрицу называют также взаим- взаимной. В западной литературе тот же термин adjoint используется по отноше- отношению к (эрмитово) сопряженной матрице А *. —Прим. перев.
34 Гл. 0. Обзор и разное где -1 -1 0 ±1_ В силу разложения Лапласа находим, что (adj A)A = A (adj Л) = (det A) I, и, следовательно, если матрица А невырожденна, то j A. det A Присоединенные матрицы, как правило, не играют какой-либо важной роли при вычислении обратной матрицы, но полезны для ее аналитического представления. 0.8.3. Правило Крамера. Правило Крамера — это один из способов представления единственного решения линейной си- системы Ах = Ь с невырожденной матрицей /4eMn(F). При чис- численном решении линейных систем правило Крамера имеет столь же малое значение, как и присоединенные матрицы при числен- численном обращении. Оно полезно в основном, когда нужно найти аналитическое выражение какой-либо компоненты решения. Если xi есть г-я компонента решения ^eF", то, согласно пра- правилу Крамера, det ГА <j- ъ\ Xi== Ш~А * Выражение А «-т— Ъ означает п X n-матрицу, в которой г-й стол- столбец равен Ь, а остальные столбцы совпадают с соответствую- соответствующими столбцами матрицы Л. Правило Крамера непосредственно вытекает из мультипликативности определителя. Систему Ах = Ь можно записать в виде Переходя к определителям, получаем det Л det (/«_*) = det (Л <j- b). Остается заметить, что det (/ <— х) = xt.
0.8. Снова определители 35 0.8.4. Миноры обратной матрицы. Приведем важное соотно- соотношение, обобщающее представление для обратной матрицы с по- помощью присоединенной. Оно связывает миноры матрицы Л-1 и миноры матрицы А е Mn(F), а именно В случае главных подматриц эта формула принимает более простой вид: v ' det A 0.8.5. Дополнения по Шуру и формулы для определителей. Пусть задана матрица AgMo(F), и пусть для некоторого мно- множества индексов as{l, ..., п) ее подматрица А(а) невырож- денна. Обратную матрицу для А(а) обозначим через Л (а). Рассматривая А как блочную матрицу блочного размера 2X2, получаем для det Л следующую важную формулу: det Л = det A (a) det [Л (а') - Л (а', а) Л (а) Л (а, а')]. Это обобщение похожей формулы для определителя 2Х2-мат- рицы (см. 0.3.1). Матрица Л (а') — Л (а', а) Л (а) Л (а, а') называется дополнением по Шуру подматрицы Л (а) в матрице Л. Приведенная выше формула проверяется вычислением мат- матричного произведения Г Ап Л121Г/ -Лп'Л12-1 1А21 А22\[о I J где Ап нужно отождествить с Л (а). Заметим, что дополнение по Шуру уже встречалось в блочном представлении матрицы Л-1 @.7.3). 0.8.6. Тождество Сильвестра. Зафиксируем множество ин- индексов ctsji, ..., п} мощности k и образуем матрицу В — = [bij]<=Mn-k(F), считая, что где /leMB(F), а индексы /, j е {1, ..., п} не входят в а. Еще одно полезное тождество для определителей таково: det В = [det A (a)]n~ft~' det A. 2*
36 Гл. 0. Обзор и разное 0.8.7. Формула Коши — Бине. Эту формулу легко запом- запомнить, так как она аналогична по форме правилу матричного умножения. Й это н« случайно, поскольку здесь выражается мультипликативность ассоциированных матриц @.8.1). Пусть AGAfm,i(F), В ^.Mktn(F) и С = АВ. Предположим, что 1 ^ г ^ min {m, к, п} и множества os{l, ..., m} и р s {1, ..., п} содержат по г индексов. Тогда справедливо следующее соот- соотношение: det С (а, р) = ? det А (а, у) det В (у, C), V где сумма берется по всем множествам у—{Ь •••> ^} мощ- мощности г. 0.8.8. Соотношения между минорами. Пусть заданы мат- матрица Л е Afffl| „ (F) и множество индексов ае{1, ..., т) мощ- мощности k. Миноры det А (а, ю), где ш?{1, ..., п) пробегает упорядоченные множества индек- индексов мощности k, не могут быть алгебраически независимыми, так как их больше, чем различных элементов во всех подмат- подматрицах. Между этими минорами имеют место квадратичные со- соотношения. Возьмем k различных индексов iu i2 ^е{1, ... ..., п), причем не обязательно в естественном порядке, и по- построим матрицу Л (а; /,, ..., /Д номера строк которой принадлежат множеству а, а в качестве /-го столбца берется столбец матрицы Л (а, {1, ..., п}) с но- номером if. Отличие от прежнего обозначения состоит в том, что теперь столбцы идут не обязательно в естественном порядке. Например, в матрице Л ({1,3}; 4,2) первый столбец состоит из двух элементов, которые в А занимают позиции A,4) и C,4). Для любого s = 1, ..., k и любых последовательностей различных индексов ./,,..., /*е={1, .... п) и /,,..., /ftе={1, .... л} справедливо соотношение det Л (а; /, ik) det А (а; /,, ..., /ft) = k = 11 det Л (а; h h-u it, 4+i h) * • det Л (а; /,, .... /t_b is, ]i+u ..., jk).
0.9. Матрицы специального вида 37 0.9. Матрицы специального вида Некоторые матрицы специального вида встречаются очень часто и обладают важными свойствами. Ряд таких матриц за- заслуживает того, чтобы перечислить их здесь и ввести термино- терминологию, нужную для дальнейшего. 0.9.1. Диагональные матрицы. Матрица Z) = [d,/]e Mn на- называется диагональной, если dt! = 0 при / Ф I. Для нее ис- используются обозначения Z) = diag(dn> ..., dnn) или D = diagd, где d — вектор, составленный из диагональных элементов матрицы D. Если все диагональные элементы диагональной матрицы являются положительными (неотрицательными) ве- вещественными числами, то будем говорить, что это положитель- положительная {неотрицательная) диагональная матрица. Обратим вни- внимание на то, что термин «положительная диагональная мат^ рица» означает, что матрица имеет положительные диагональ- диагональные элементы и в дополнение является диагональной; по отно- отношению к произвольной матрице с положительными диагональ- диагональными элементами этот термин не употребляется. Пример поло- положительной диагональной матрицы — единичная матрица 1^Мп. Диагональная матрица D называется скалярной, если все ее диагональные элементы равны между собой; следовательно, D = а/ для некоторого аеС. При умножении матрицы на ска- скалярную матрицу слева или справа получается тот же резуль- результат, что и при умножении ее на соответствующий скаляр. Определитель диагональной матрицы есть не что иное, как п произведение ее диагональных элементов: det D = Txdil. Таким образом, диагональная матрица невырожденна в том и только в том случае, когда ни один из ее диагональных элементов не равен нулю. При вычислении произведения DA, где А е Мп и D — диагональная матрица, т. е. при умножении А слева на D, строки матрицы А умножаются на диагональные элементы мат- матрицы D (/-я строка в Л умножается на число du, i= I, ..., п). При вычислении произведения AD, т. е. при умножении А спра- справа на D, столбцы матрицы А умножаются на диагональные эле- элементы матрицы D. Следовательно, любые диагональные мат- матрицы коммутируют, а для того чтобы диагональная матрица D коммутировала с какой-либо матрицей А=[ац]<=М„, необхо- необходимо и достаточно, чтобы выполнялось равенство ац = 0 для всех пар i, /, таких, что i-й и /-й диагональные элементы в D различны. Произведение диагональных матриц остается диаго- диагональной матрицей-—ее диагональные элементы суть попарные произведения соответствующих элементов сомножителей. Дна-
38 Гл. 0. Обзор и разное тональной матрицей будет и любая целая положительная сте- степень произвольной диагональной матрицы. 0.9.2. Блочно-диагональные матрицы. Матрица А е Мп, имеющая вид Ап 0 0 А hk- где Аа^Мп, (г = 1, ..., k) и Х/г(с=:/г> называется блочно- диагональной. Для такой матрицы часто используется обозна- обозначение Л = Ли © Л22© ... © Akk, или, короче, Л = ©?Л-г; она называется прямой суммой матриц Ли, ..., Akh. Многие свойства блочно-диагональных матриц, описанные в терминах блочного умножения, обобщают аналогичные свойства диаго- диагональных матриц. Например, так что матрица Л = © 2 Аи невырожденна в том и только в том случае, если Ан невырожденна для всех 1=1, ..., k. к к Далее, две прямые суммы Л = © 2 Аа и В = © У) Ва, где мат- матрицы в каждой паре Aiit Bti имеют одинаковые размеры, ком- коммутируют тогда и только тогда, когда коммутируют Аа и Вн для всех /=1, ..., k. Еще одно свойство: © Z Ац)= Z гапкЛн. i=i / i-i 0.9.3. Треугольные матрицы. Матрица Г = уеМ„ назы- называется верхней треугольной, если tu ==» 0 при / < /. Если ttj = 0 при j^.1, то Т называется верхней строго треугольной. Анало- Аналогично Т называется нижней треугольной (нижней строго тре- треугольной), если ее транспонированная матрица — верхняя тре- треугольная (верхняя строго треугольная) матрица. Треугольные матрицы сходны с диагональными в том смысле, что их опре- определитель равен произведению диагональных элементов. Однако
0.9. Матрицы специального вида треугольные матрицы (любого типа) не обязательно коммути- коммутируют с другими треугольными матрицами. Умножение матрицы А е Мп слева на нижнюю треугольную матрицу L заменяет i-ю строку матрицы А на линейную комбинацию ее строк с 1-й и по i-ю. Иногда вместо терминов «верхняя» и «нижняя» в отно- отношении треугольных матриц употребляют соответственно тер- термины «правая» и «левая». Ранг треугольной матрицы не меньше числа ее ненулевых диагональных элементов; на самом деле он может быть больше этого числа. 0.9.4. Блочно-треугольные матрицы. Матрица А е Мп, имею- имеющая вид А = 122 о Чк- (/=1 п), = n и * обозначает произ- где Аи е' вольные элементы, называется верхней блочно-треугольной. Ана- Аналогично определяются нижняя блочно-треугольная, нижняя строго блочно-треугольная и верхняя строго блочно-треугольная матрицы. Определитель блочно-треугольной матрицы равен про- произведению определителей диагональных блоков. Ранг блочпо- треугольной матрицы не меньше суммы рангов диагональных блоков и может быть больше этой суммы. 0.9.5. Матрицы перестановок. Матрица Р е Мп называется матрицей перестановки в том случае, когда в любой ее строке и в любом ее столбце в точности один элемент равен 1, а все остальные равны 0. Умножение на такую матрицу сводится к перестановке строк либо столбцов в зависимости от того, слева или справа производится умножение. Например, ГО 1 01 1 0 0 L0 0 1 J есть матрица перестановки, и равенство Р 2 = 1 - 2 3- = -2- 1 -3-
40 Гл. 0. Обзор и разное показывает, что Р переставляет строки, в данном случае ком- компоненты вектора [¦} а именно первая компонента становится второй, вторая — первой, а третья остается на своем месте. В общем случае при умножении матрицы А е Мт, п слева на матрицу перестановки Р е Мт переставляются строки матрицы А, а при умножении справа на РеМя в А переставляются столбцы. Матрица, выполняющая элементарное преобразование 1-го типа @.3.3), является примером специального вида мат- матрицы перестановки и называется транспозицией. Определитель матрицы перестановки равен ±1 (в формуле @.3.2) лишь одно слагаемое отлично от нуля, так что все мат- матрицы перестановки невырожденные). Матрицы перестановки, вообще говоря, не коммутируют между собой, однако их про- произведение остается матрицей перестановки. Поскольку единич- единичная матрица является матрицей перестановки и для любой мат- матрицы перестановки Р имеем Рт = Р~', все матрицы переста- перестановок образуют подгруппу в группе GL(n,C) всех невырожден- невырожденных матриц из М„. В этой подгруппе п! элементов. Любая мат- матрица перестановки есть произведение транспозиций. Матрица Р = Р~ переставляет столбцы точно так же, как Р е М„ переставляет строки. Поэтому преобразование А —> РАРТ осуществляет одинаковую перестановку строк и столбцов матрицы Л. В контексте системы линейных уравнений с матри- матрицей коэффициентов А это преобразование сводится к переупо- переупорядочению неизвестных1). Если матрица АеМп такова, что для некоторой матрицы перестановки Р матрица РАРТ стано- становится треугольной, то говорят, что матрица А в основном тре- треугольная. Такие матрицы имеют много общего с треугольными. 0.9.6. Циркулянтные матрицы. Матрица А е Мп, имеющая вид а2 ax называется циркулянтной матрицей или циркулянтом. Любая ее строка получается из предыдущей путем циклического сдвига 1) И одновременно уравнений, — Прим перев.
0.9. Матрицы специального вида 41 на одну позицию вправо, так что элементы любой строки пред- представляют циклическую перестановку элементов первой строки. Матрица перестановки С = называется основной циркулянтной матрицей перестановки. Мат- Матрицу А е Мп можно записать в виде ft-0 0 • ; 0 1 1 0 0 0 ... 1 • • • 0 • 0 1 0 в том и только в том случае, когда она является циркулянтной. Здесь С0 = / == Сп и коэффициенты аи а2, ..., ап — не что иное, как элементы первой строки матрицы А. Вследствие этого представления произвольная циркулянтная матрица имеет хо- хорошую структуру, которую можно связать со структурой мат- матрицы С. Поскольку С" = /, произведение циркулянтов есть снова циркулянт. Кроме того, циркулянты коммутируют относи- относительно умножения. Можно рассматривать также и обобщения циркулянтных матриц, например такие матрицы, где строки циклически сдвигаются не на одну, а на несколько позиций (влево или вправо). 0.9.7. Тёплицевы матрицы. Матрица A = [ai M n+i, имею- имеющая вид a0 a-i a_2 a n ai a-i a2 ап-\ 1-Х O-q называется тёплицевой матрицей. Она определяется последова- последовательностью а _„, а_А+1, .... а_ь ао, аи ..., an_u o,sC, причем #/у = а/_г. Элементы любой диагонали матрицы А, параллель-
42 Гл. 0. Обзор и разное ной главной, одинаковы. Тёплицевы матрицы "О 1 0 о 1 "о 0 1 • 0 О 1 0 называются соответственно сдвигом назад и сдвигом вперед из-за их действия на элементы стандартного базиса {е\, ,,. ,,,, en+i). Матрицу A eMn+i можно записать в виде в том и только в том случае, когда она тёплицева. Тёплицевы матрицы непосредственно возникают в связи с тригонометри- тригонометрической проблемой моментов. 0.9.8. Ганкелевы матрицы. Матрица А е Мп+и имеющая вид flo «i <h ап ~ а1 а2 a$ ... ап ап+[ а% (ц #4 • • • - ап ап+1 а/г+2 а2п называется ганкелевой матрицей. Она определяется последова- последовательностью а0, аи а2, ..., a2ra_i, a2n, причем а^ = аг+;_2. Эле- Элементы любой диагонали матрицы Л, перпендикулярной главной, одинаковы. Ганкелевы матрицы непосредственно возникают в связи со степенной проблемой моментов. Заметим, что перъеди- ничная матрица перестановки о 1 1 о такова, что матрица РТ ганкелева в том и только в том случае, когда Т тёплицева, и матрица РН тёплицева в том и только в
0.9. Матрицы специального вида 43 том случае, когда Н ганкелева. Равенство Р = Рт = Р~' и сим- симметричность ганкелевых матриц позволяют сделать вывод о том, что произвольная тёплицева матрица выражается произ- произведением двух симметричных матриц1) (Р и Н). 0.9.9. Хессенберговы матрицы. Матрица Д=[а|7]еМя на- называется верхней хессенберговой матрицей (или верхней мат- матрицей Хессенберга; говорят также, что матрица имеет верхнюю хессенбергову форму), если ац = 0 при i>y+ 1: А = ап а12 a2i а22 0 а32 1 0 .0 0 ... 0 аПлП_х ап, Матрица А е Мп называется нижней хессенберговой, если мат- матрица Ат верхняя хессенбергова. 0.9.10. Трехдиагональные матрицы. Матрица Л = [ац]<^ Мп называется трехдиагональной, если она одновременно верхняя и нижняя хессенбергова; для нее ац = 0 при |г — /|> 1: А-- «11 о «32 о • «/г-1,/1 «*,«-! «/г. п - Определитель трехдиагональной матрицы легко вычисляется по индукции, а именно, — aft+1>fe ak>k+l detЛ({1, ..., k — k = 2, .... n e*+i,*+idet/4({l 0.9.11. Матрицы, связанные с лагранжевой интерполяцией. Матрицей Вандермонда называется матрица AeMB(F), имею- ') Это верно для любой, не обязательно тёплицевой, матрицы — только сомножители уже могут не быть гаикелевыми. — Прим. перев.
44 Гл. 0. Обзор и разное щая вид где х{, x2, ..., что 1 х1 х\ х\ 2 2 2 1 У Т2 1 Хп Хп , т. е. Л = уП—\ где @.9.11.1) = x{~1. Известно, @.9.11.2) Поэтому матрица Вандермонда невырожденна в том и только в том случае, когда параметры Х\, ... хп различны. Матрица Вандермонда возникает в следующей задаче интер- интерполяции: найти многочлен р(х) = ап-\х"^1 + ап-2х"-2-f- ... ... + а\х + а0 степени не выше п—1 с коэффициентами из поля F, удовлетворяющий соотношениям ] + + «^Г' = ^ = aQ Р (^2) = а,*, а2х] @.9.11.3) Р (^„) = «о где хь х2 х„ и ^,, #2 «/„ — заданные элементы из F. Интерполяционные соотношения @.9.11.3) представляют собой систему п уравнений с п неизвестными Оо, аи ..., ап-и и ее можно записать в виде Аа = у, где а = [а0, щ i,./eF", У — \Уи Уъ ¦••. |//sF" и Л s Mn(F) — матрица Вандермонда @.9.11.1). Эта задача интерполяции всегда имеет решение, если точки х\, Xi, ..., хп различны, поскольку в этом случае матрица А невырожденна. Если точки х\, х2, ..., хп различны, то коэффициенты интер- интерполяционного многочлена в принципе можно найти, решая си- систему @.9.11.3). Однако удобнее представить интерполяцион- интерполяционный многочлен р(х) с помощью элементарных лагранжевых интерполяционных многочленов П (*-* !ф i ==1, 2, .... л.
0.10. Замена базиса 45" Каждый многочлен L,(x) имеет степень п—1 и обладает тем свойством, что Li(xk) = 0, если k^i,n L,(x,)=l. Таким обра- образом, получаем интерполяционную формулу Лагранжа l x), @.9.11.4) которая дает явное выражение для многочлена р(х), имеющего степень не более п—1 и удовлетворяющего уравнениям @.9.11.3). 0.10. Замена базиса Пусть V — некоторое n-мерное пространство над полем F и &\={v\,V2, ..., vn}—его базис. Поскольку множество 38 \ по- порождает V, любой вектор х е V имеет разложение x = a\V\ + + «2^2 + • • • + anvn- Если бы существовало какое-то другое разложение х = p^i + Р2У2 + ... + &nvn по тому же базису, то выполнялось бы равенство 0 = х — х = (щ — РО о, + (а2 — р2) v2 + • •. + (а„ — Р„) и„, откуда в силу линейной независимости множества 38\ получаем а,- — р, = 0. Линейное отображение ¦м, а, а2 , где х — ajDi + а2о2 + ... + а„о„, корректно определено, является взаимно однозначным и ото- отображает V на F". Числа он называются координатами вектора х в базисе 38\\ вектор-столбец [x]5}i является единственным ко- координатным представлением вектора х в базисе 381. Пусть задано линейное преобразование Т: V-*¦ V. Его дей- действие на произвольный вектор х е V полностью определяется заданием п векторов Tv\, 7Ъ2 единственное разложение х = линейности T(aiVi-\- ... + ал = a\Tvi + ... -\-anTvn- Таким Тх, достаточно знать [хЦ. Пусть 382={w\,W2, ..., wn} — другой базис в V. Предполо- Предположим, что координатные представления векторов Tvj в базисе 9&% имеют вид V '2/ , \=\, 2, .... П. Tvn, потому что ле V имеет + ... -\-anvn и вследствие „) = 7(aiUi)+ ••• +T(anvn) = образом, чтобы найти вектор
46 Гл, 0. Обзор и разное Тогда для любого х ^ V имеем /-1 Hi 'tn • Jnl •"tin' 9 ... L- • Массив [tij] размера nXn зависит от Т и от выбора базисов 91\ и ^2, но не зависит от х. Представлением линейного преоб- преобразования Т в паре базисов &и Шч будем называть матрицу 4n n\ • • • lni Мы уже установили, что [Гд:]^2 = ^J.T]^t [х]^ для любого j;e7. На практике наиболее часто полагают $2 —^?i'> матрицу $\T\Xi будем называть представлением линейного преобразования Т в базисе &х. Рассмотрим тождественное линейное преобразование /: V -*V (Ix = x для любого х). Для произвольного х s V Последовательно выбирая х равным wlt w2, ..., wn, получаем отсюда столбцы матрицы А[/]А А1ЛА и убеждаемся, что 0 о 1 _ ? в Мы допускаем обычную нестрогость в обозначениях, используя символ / и для единичной матрицы, и для тождественного ли- линейного преобразования. Записав аналогичные соотношения, начиная с [х]^ = [1х]^ ==..., находим, что Таким образом, матрица Л[/]Л1 является обратной к матрице «,?7W т- е- если 5=ssaWA» то 5==^17и,' Следовательно,
0.10. Замена базиса 47 любая матрица вида Л[/Ц обратима. В то же время любая обратимая матрица S = [$i s2 ... 5n]sAfrt(F) имеет видя[/]^ для некоторого базиса (Й. В качестве $ можно взять систему векторов {su s2 sn), определенных соотношениями [1,]^ = =±st (t==l, 2, ..., п). В силу обратимости матрицы 5 это мно- множество $ линейно независимо. Заметим, что так что матрица %[1]% выражает элементы базиса $\ через базис Ш2- Теперь возьмем неУи проведем следующие вычис- вычисления: Последовательно выбирая вектор х равным w\, ш2> ..., аУл, за- заключаем, что Это соотношение показывает, как представление линейного пре- преобразования в каком-либо базисе изменяется при переходе к другому базису. По этой причине матрица #[/]# называется матрицей перехода от $2 к $\. Произвольную матрицу А ^ Mn(F) можно рассматривать как представление некоторого линейного преобразования Т: V-*-V. Если Т определить равенством [Тх]я = А[х)я, то, как легко видеть, Л[Т]Х = А.
Глава 1 СОБСТВЕННЫЕ ЗНАЧЕНИЯ, СОБСТВЕННЫЕ ВЕКТОРЫ И ПОДОБИЕ 1.0. Введение В этой главе, как и в последующих, при обсуждении ряда ключевых понятий мы объясняем на примерах, каким образом они возникают в теории или приложениях. 1.0.1. Замена базиса и подобие. Всякая обратимая матрица есть матрица перехода для какой-то пары базисов, и всякая матрица перехода является обратимой (см. разд. 0.10). Таким образом, если в векторном пространстве V заданы линейное преобразование Т и базис $ и если А~@[Т]? есть представле- представление преобразования Т в базисе $, то множество всех возмож- возможных представлений этого преобразования имеет вид U'WTW'W #i~ базис в У} = =={5~'Л5: 5 —обратимая матрица из Mn(F)}. Это в точности множество всех матриц, которые подобны мат- матрице А. Как мы видим, подобные, но не совпадающие матрицы являются различными представлениями одного и того же ли- линейного преобразования. Естественно ожидать, что подобные матрицы обладают мно- многими важными общими свойствами — по крайней мере теми, ко- которые присущи соответствующему линейному преобразова- преобразованию — и это одна из важных тем в линейной алгебре. Часто, изучая свойства какой-либо матрицы, бывает полезно обратить- обратиться к исследованию каких-то свойств, характеризующих линей- линейное преобразование, для которого данная матрица является лишь одним из многих возможных представлений. Понятие подобия — ключевое в этой главе. 1.0.2. Условные экстремумы и собственные значения. Поня- Понятие собственного вектора и собственного значения — второе клю- ключевое понятие этой главы. Мы увидим, что ненулевые векторы х, такие, что вектор Ах пропорционален вектору х, играют глав- главную роль при анализе структуры произвольной матрицы или линейного преобразования. Однако такие векторы возникают в более элементарном контексте — в задаче о поиске максимума (или минимума) вещественной симметричной квадратичной формы при некотором геометрическом ограничении, которая формулируется так:
1.1. Определение собственных значений 49 Найти максимум функции хтАх при условии, что xTx=l, xe=R". Здесь А =АТ — заданная матрица из Mn{R). Чтобы решить эту задачу условной оптимизации, обычно вводят функцию Лаг- ранжа L = хтАх — Ххтх. Необходимое условие экстремума имеет вид О = VL = 2 (Ах — Кх) = 0. Поэтому для того чтобы экстремум функции хтАх достигался на векторе xeR", таком, что хтх = 1 (следовательно, хфО), не- необходимо, чтобы вектор х удовлетворял уравнению Ах == Хх. Дру- Другими словами, вектор Ах есть кратное ненулевого вектора х. Такая пара X, х называется собственной парой, в которой к — собственное значение, х — собственный вектор. Задачи 1. Объяснить, почему рассмотренная выше задача на услов- условный экстремум обязательно имеет решение. Вывести отсюда, что любая симметричная матрица обладает хотя бы одним ве- вещественным собственным значением. Указание. Применить тео- теорему Вейерштрасса (см. приложение Е) к непрерывной функ- функции f(x) = xTAx. 2. Пусть матрица ^eM»(R) симметричная (АТ = А). По- Показать, что максимальное значение квадратичной формы хтАх при условии, что хтх = 1, равно наибольшему собственному зна- значению матрицы А. 1.1. Определение собственных значений и собственных векторов 1.1.1. Обозначения. Как и раньше, Мп (F)—множество «X X «-матриц над полем F; как правило, в качестве F рассматри- рассматривается поле R вещественных чисел или поле С комплексных чи- чисел. Мы обсуждаем факты, которые за редкими исключениями справедливы для комплексных матриц; Мп(С) записывается со- сокращенно как Мп. Читатель, не интересующийся комплексными матрицами, может интерпретировать материал в терминах толь- только вещественных чисел — обычно это не потребует сколько-ни- сколько-нибудь существенного изменения изложения, выкладок или фор- формулировок. Однако здесь нужна осторожность, так как между R и С имеются важные различия — «более широкое» поле С обеспечивает существование корней многочленов и большую свободу при проведении выкладок. Часто вещественную мат- матрицу лучше рассматривать как комплексную матрицу с огра- ограничением на вид ее элементов. Напомним также, что множество
50 Гл. 1. Собственные значения, собственные векторы и подобие (векторное пространство) всех вещественных или комплексных векторов размерности п обозначается соответственно через R" или С. Векторы в R" и С" рассматриваются как векторы- столбцы. Наконец, для матрицы А = [сщ]^Mn(F) транспони- транспонированная матрица [а*;]е Мп{Р) обозначается через Ат (см. 0.2.5); в случае FeC сопряженная матрица [dji] — транспони- транспонированная матрица с комплексно-сопряженными к элементам а,/ элементами — обозначается через А*. Если xeF", to хт обо- обозначает вектор-строку с теми же координатами, что и у век- вектора х. Если Ff=C, то х* обозначает вектор-строку, коорди- координаты которой являются комплексно-сопряженными к соответ- соответствующим координатам вектора х. Черта сверху обозначает переход от комплексного числа к его комплексно-сопряженному (см. приложение А) или от матрицы (или вектора) к матрице (или вектору) с элементами, комплексно-сопряженными к ис- исходным. Матрицу А е Мп можно рассматривать как линейное пре- преобразование из С" в С" (в каком-либо базисе в С") или же — и это также полезно — как массив чисел. Оба подхода взаимо- взаимосвязаны, и сущность теории матриц, а также ключ к приложе- приложениям— это выяснение свойств линейного преобразования на ос- основе изучения именно соответствующего массива чисел. Воз- Возможно, понятие собственного значения является единственным важнейшим понятием теории матриц. Множество п собствен- собственных значений матрицы А обозначается через о(А). 1.1.2. Определение. Пусть А е Мп и х <= С". Рассмотрим урав- уравнение Ах = Кх, хфО, A.1.3) где Я— число. Если Я и ненулевой вектор х удовлетворяют дан- данному уравнению, то Я называется собственным значением мат- матрицы А, а х — собственным вектором матрицы Л, отвечающим Я. Заметим, что Я и х образуют неразделимую пару и собствен- собственный вектор не может быть нулевым. 1.1.4. Определение. Совокупность всех собственных значений Я е С матрицы А е Мп называется спектром1) матрицы А и обо- обозначается через а (А). Неотрицательное вещественное число р(Л)= тах{|Я|: Яес(Л)} называется спектральным радиусом матрицы А. Это есть не что иное, как радиус наименьшего круга с центром в начале координат на комплексной плоскости, который содержит все собственные значения матрицы А. ') Автор не оговаривает в этом определении, что собственные значения берутся с их кратностями, хотя в дальнейшем часто (но не всегда) употреб- употребляет термин «спектр» именно в таком смысле, — Прим. ред.
1.1. Определение собственных значений 51 Упражнение. Пусть х является собственным вектором матри- матрицы Л, отвечающим собственному значению Я. Показать, что лю- любое ненулевое кратное вектора х также представляет собой соб- собственный вектор. Согласно A.1.3), собственный вектор — это такой вектор, для которого умножение на матрицу Л описывается очень про- просто— это умножение на скаляр (собственное значение). Уже одно только это свойство собственных значений и собственных векторов, даже если бы с ними и не было связано ничего более важного, вызывает интерес к ним с алгебраической точки зрения. Пример. Рассмотрим матрицу -[I 1] \М2. Для нее 3ss(А), а соответствующий собственный вектор есть [g], так как Кроме того, 5ео(Л). Соответствующий собственный вектор предлагается найти читателю. Напомним, что значение многочлена р (t) = а/ + а*./ + ... + а,/ + ао при t = А, где А^М„, корректно определено, так как мы мо- можем возводить квадратную матрицу в целую положительную степень и составлять произвольные линейные комбинации мат- матриц одинакового размера. Таким образом, р (А) еэ акАк + а^И* + ... + а,А + ао1. A.1.5) Полезно заметить, что любая матрица, являющаяся значением какого-то многочлена при t — A, имеет те же собственные век- векторы, что и матрица А; существует также простая связь между собственными значениями этой матрицы и матрицы А. 1.1.6. Теорема. Пусть /?(•) —заданный многочлен, К — собст- собственное значение матрицы А е Мп их — соответствующий собст- собственный вектор. Тогда р{%) — собственное значение, а х — отве- отвечающий ему собственный вектор матрицы р(А). Доказательство. Рассмотрим вектор р(А)х. Во-первых, р (Л) * н= akAkx -f ak_{Ak~lx + ... + сцАх + OqX.
52 Гл. 1. Собственные значения, собственные векторь' .. подобие Во-вторых, А'х — А1 1Ах==А' хкх = кА! хх= ...= к'х — здесь последовательно применяется определение собственного векто- вектора и собственного значения. Таким образом, р(А)х = akkkx + ... + сцс = (аккк + ... + а0) х = р (к) х. П Упражнение. Найти о (А2), если о(Л) = {—1, 2}, Л е М2. Упражнение. Найти cr(D), где D — diag{du d2, ..., dj — диагональная матрица @.9.1). Для каждого собственного зна- значения построить отвечающий ему собственный вектор. Указа- Указание. Рассмотреть векторы е,- (i=\, ..., п) стандартного ба- базиса. 1.1.7. Утверждение. Матрица А^Мп вырожденка в том и только в том случае, когда 0 е а (А). Доказательство. Для вырожденности матрицы А необходимо и достаточно, чтобы равенство Ах = 0 выполнялось для неко- некоторого х ф 0. Это возможно в том и только в том случае, когда Ах = 0-х для некоторого хфО, т.е.тогда и только тогда, когда к = 0 является собственным значением. ? Задачи 1. Предположим, что матрица ЛеА) невырожденна. Со- Согласно 1.1.7, это равносильно тому, что 0 не является ее соб- собственным значением. Показать, что если к^о(А), то к~1 е ^а(А~1). Считая известными к и х ф 0, такие, что Ах = кх, найти собственный вектор матрицы Л-1, отвечающий собствен- собственному значению к~1. 2. Показать, что если сумма элементов любой строки мат- матрицы ^е Мп равна 1, то 1ес(Л). Указание. Рассмотреть век- вектор е = [1,1, ..,, 1]т и заметить, что суммы элементов любой строки матрицы А одинаковы в том и только в том случае, когда е является собственным вектором этой матрицы. Пока- Показать, что если матрица А невырожденна, то сумма элементов любой строки матрицы Л-1 одна и та же и равна 1. Доказать, что для любого многочлена p(t) суммы элементов любой стро- строки матрицы р{А) одинаковы. Чему равны эти суммы? 3. Пусть матрица AeM»(R) имеет собственное значение l,eR. Доказать, что существует вещественный собственный вектор х е R", отвечающий к. Далее, доказать, что для любого собственного вектора ieC его вещественная и чисто мнимая составляющие (они берутся покомпонентно) также являются (если они ненулевые) собственными векторами матрицы Л, от- отвечающими Я. Показать, что собственный вектор xeR" мат- матрицы ЛеУИ„(Я) отвечает непременно вещественному собствен-» ному значению.
1.1. Определение собственных значений 53 4. Показать, что собственные значения блочно-диагональной матрицы @.9.2) L о л22]- hi e МП[, совпадают с собственными значениями блоков Ац и Агг- Указа- ние. Для начала выразить собственные векторы матрицы А че- через собственные векторы матриц Ли и А%2. 5. Матрица ДеМ„ называется идемпотентной, если А2 = А. Доказать, что все собственные значения идемпотентной мат- матрицы равны 0 или 1. 6. Матрица А е Мп называется нильпотентной, если Aq = 0 для некоторого целого положительного числа q. Наименьшее значение.такого q называется индексом нильпотентности. Дока- Доказать, что все собственные значения нильпотентной матрицы равны 0. Привести пример ненулевой матрицы, все собственные значения которой равны 0. 7. В конечномерном случае — основном для этой книги — любая комплексная или вещественная матрица имеет комплекс- комплексное собственное значение (позже это будет доказано). Однако линейное преобразование бесконечномерного векторного про- пространства может не иметь ни одного собственного значения. Возьмем в качестве V векторное пространство всех формаль- формальных бесконечных последовательностей комплексных чисел: V = {(au а2, .... ak, ...): djsC, /=1, 2, ...} и определим линейное преобразование S на V таким образом: ь а2, ...) = @, а,, а2, ...). Это преобразование иногда называют оператором сдвига. Про- Проверить, что S есть линейное преобразование и показать, что оно не имеет собственных значений. Указание. Показать, что для того, чтобы вектор был собственным вектором, необходимо, чтобы все его компоненты были одинаковы и при этом они не могут быть ничем иным, кроме 0. Этот вектор, следовательно, нулевой и не может быть собственным вектором. 8. Матрица А е Мп называется эрмитовой, если А* = А (см. 0.2.5). Доказать, что любая эрмитова матрица имеет толь- только вещественные собственные значения. Указание. Взять про- произвольное число Хесг(Л) и отвечающий ему собственный век- вектор х. Тогда в силу A.1.3) х*Ах = Хх*х. В то же время х*Ах — — х*А*х = х*Ах, и, значит, число х*Ах вещественное. Поскольку число х*х положительно, К = х*Ах/х*х также вещественно.
54 Гл. 1. Собственные значения, собственные векторы и подобие 1.2. Характеристический многочлен В отношении собственных значений матрицы А е М„ есте- естественно поставить следующие вопросы: сколько их и как их можно охарактеризовать? Уравнение A.1.3), определяющее собственные значения и собственные векторы, эквивалентно уравнению A1 - А) х •-= 0, хфО. A.2.1) Таким образом, Хе о(А) в том и только в том случае, когда матрица Я/— А вырожденна, т. е. det (А/-Л) = 0. A.2.2) 1.2.3. Определение. Характеристический многочлен матрицы А е М„, рассматриваемый как формальный многочлен от /, оп- определяется выражением Замечание. Мы используем букву t как формальную пере- переменную характеристического многочлена для того, чтобы отли- отличать ее от буквы Я, которой обычно обозначается собственное значение или корень многочлена. Тем не менее иногда и для переменной, и для собственного значения используется одна и та же буква. 1.2.4. Утверждение. Характеристический многочлен рд(-) матрицы АеМп имеет степень п, и множество корней уравне- уравнения рА (t) — 0 совпадает с а (А). Доказательство. Тот факт, что рд(-) имеет степень п, полу- получается по индукции из разложения Лапласа для det(// — Л): каждая строка в tl— А вносит в разложение одну и только одну степень буквы t. Вторая часть утверждения равносильна A.1.3) и A.2.2). ? Упражнение. Показать, что уравнение det (Л — ^/) = 0 имеет те же корни, что и уравнение det (г1/— Л) = 0 и при этом det (Л — tl) = (— \)n d&t(tf — Л). Таким образом, характеристи- характеристический многочлен можно было бы. определить (и так иногда делают) иначе — как det (Л — tl). Показать, что принятое нами определение гарантирует, что (старший) коэффициент при t" всегда равен -f-1. Упражнение. Показать, что если Л = [°^], то /?л@=^2~~ {a + d)t + (ad-bc) и ( л\ J и"Г"з= у (а — dI + Abe а [л) —
1.2. Характеристический многочлен 55 Доказать, что собственные значения матрицы ЛеМг(^ веще- вещественны, если be ^ 0. Более того, они вещественны в том и только в том случае, когда (а — dJ -\-4bc &t0. He будучи ве- вещественными, они образуют пару комплексно-сопряженных чи« сел. Наконец, показать, что собственные значения различны, если (a — dJ b Упражнение. Показать, что если матрица Т е М„ треугольна: и ... tln- Т = 0 то <y(T) = {tu, t22 /„„} —множество диагональных элемен- элементов матрицы Т. Упражнение, Все элементы матрицы /,еМ„ равны 1: rl ... И Li ... iJ Каковы собственные значения матрицы /г? Показать, что все собственные значения матрицы /3 — это 0 (появляющийся дважды) и 3. Что будет в случае произвольного п? Указание. Рассмотреть вектор е = [1, 1 1]г. Упражнение. Найти все собственные значения и соответ- соответствующие собственные векторы матрицы - З—1-l-i Л= -1 3 -1 . .-1 -1 3J Указание. Записать А = 4/ — /3 и воспользоваться предыдущим упражнением. 1.2.5. Определение. Главная k У, k-под матрица в Ле7И„ — это подматрица, расположенная на пересечении k строк и столб- столбцов с одинаковыми множествами номеров (см. разд. 0.7.1); ее определитель называется главным минором порядка k. В мат- матрице А = [aij] e М„ существует (?) различных главных мино- миноров порядка k; их сумма обозначается через Ен{А). В частно- п сти, Ех (А) = ^ ан называется следом матрицы А и обычно обо- значается через tra. Заметим, что Еп(А)== detA.
56 Гл. 1. Собственные значения, собственные векторы и подобие Упражнение. Показать, что для А е М2 Один из фундаментальных и непростых фактов — так назы- называемая основная теорема алгебры (см. приложение С) — утверж- утверждает, что в множестве комплексных чисел любой многочлен сте- степени п с комплексными коэффициентами имеет в точности п корней с учетом их кратности. Опираясь на эту теорему, мы можем высказать следующее важное предложение. 1.2.6. Утверждение. Всякая матрица А^Мп имеет в точ- точности п (комплексных) собственных значений с учетом их крат- кратности. Замечание. Когда мы говорим о «кратности» собственного значения Я матрицы А е Мп, то имеем в виду кратность Я как корня характеристического многочлена рд(-). Более подробно о кратности собственных значений речь пойдет в разд. 1.4. Од- Однако полезно уже сейчас отметить взаимосвязь между произ- производными многочлена и кратностью его корня. Для любого мно- многочлена p(t) число Я является его корнем кратности k ^ 1 в том и только в том случае, когда p(t) можно записать в виде p(t) — (t — h)kq(t), где многочлен q(t) такой, что д(Х)фО. Дифференцируя это соотношение, получаем p'(t) = k(t—• — X)k-lq(t) + {t — l)kq'(t). Следовательно, р'(Я) = О в случае, когда k > 1, и ни в каком другом случае. Если k > 1, то p"(t) — k(k—1) (/ — 'k)k-2q(t)-\- [сумма одночленов с общим множителем (t — Я)т, где m^-k — 1], так что р//(Я) = О, когда k > 2, и ни в каком другом случае. Повторение этого вычисле- вычисления показывает, что Я есть корень кратности к многочлена p(t) в том и только в том случае, когда р(Х) = р'(к)= ... ... = р<*-1> (Я) = 0 и р^ (Я) Ф 0. 1.2.7. Примеры. Утверждение 1.2.6 по существу использует тот факт, что поле комплексных чисел алгебраически замкну- замкнуто — последнее означает, что в этом поле любой многочлен сте- степени п с коэффициентами из этого поля имеет п корней. Когда речь идет о матрицах над другими полями, например, такими, как вещественные или рациональные числа, в общем случае не очень много можно сказать о том, сколько у них будет соб- собственных значений из этого же поля. Задача 8 из разд. 1.1, од- однако, описывает ситуацию, когда это можно выяснить. Отметим, кроме того, что матрица над произвольным полем может иметь очень небольшое количество различных собственных значений.
1.2. Характеристический многочлен 57 Матрица Г 0 11 L-i oj A.2.7а) не имеет вещественных собственных значений, хотя и состоит из вещественных элементов. Матрица 1 1 1 1 О 1 1 О A.2.7Ь) имеет только одно собственное значение A кратности п) неза- независимо от ее порядка. Упражнение. Проверить утверждение из примера 1.2.7. Упражнение. Доказать, что если AeM»(R) и п нечетно, то матрица А обладает хотя бы одним вещественным собственным значением. Указание. Все невещественные комплексные корни многочлена с вещественными коэффициентами разбиваются на пары комплексно-сопряженных чисел. Для ЛеМ„(Я) много- многочлен рА (•) имеет вещественные коэффициенты. В соответствии с утверждением 1.2.6 для матрицы А^Мп мы можем составить последовательность ее собственных зна- значений A], %2t • • • > ЯП) выбирая произвольное их упорядочение и повторяя каждое соб- собственное значение столько раз, какова его кратность. Тогда, согласно утверждению 1.2.4, получаем Л»@ = ('-А,)(/-А2) ...(/-л„). A.2.8) 1.2.9. Определение. Элементарная симметрическая функция степени k от п величин Ль ..., %п (k ^ п) имеет вид k (Яь ..., Я„) = !<*,<. k 11 / 1 т. е. является суммой всех (?) й-членных произведений раз- различных величин, выбираемых среди Я1; ..., А„. Например, Si (Я, Я„) = Я! + • • • + Я„ — сумма всех ht и Sn(Xit ..., Я„) = Я! ... А,1 — произведение всех Яг. Вследствие A,2.8) и в силу того, что Рл(/) вводится с помощью некоторого
58 Гл. (. Собственные значения, собственные векторы и подобие определителя, имеется взаимосвязь между элементарными сим- симметрическими функциями 5й(Хи ..,, %п) собственных значений матрицы А и суммами Ek(A) ее главных миноров порядка k (см. разд. 1.2.5). Справедливы следующие тождества: К); A-2Л0) Они проверяются непосредственно (хотя и не без труда). Упражнение. Убедиться в справедливости тождеств A.2.10) и A.2.11). Первое можно проверить непосредственным вычислеч нием коэффициента при tn~k в произведении (t — Ai) ... (t — — кп)- Последнее можно доказать по индукции, используя раз- разложение Лапласа. Объединяя A.2.10), A.2.11) с A.2.8), получаем следующую теорему. 1.2.12. Теорема. Пусть hi, ..., %п — собственные значения матрицы А е М„. Тогда т. е. элементарная симметрическая функция степени k от соб- собственных значений матрицы А есть сумма всех главных мино- миноров порядка k в матрице А. В частности, tr Л = S Я.,, deM = f|>,. Задачи 1. Проверить утверждение 1.1.7, используя теорему 1.2.12. 2. Пусть Л е Мт, л, В<=Мп,т (см. разд. 0.2.1). Доказать прямым вычислением, что tr АВ = tr В А. Вывести отсюда, что для любой матрицы А е Мп и для любой невырожденной мат- матрицы S е Мп выполняется равенство tr S^AS = tr А. Матрица 5~'Л5 называется подобной матрице А, и то, что предлагается доказать, означает инвариантность следа при переходе к по- подобной матрице. Подобие изучается в следующем разделе, и там мы увидим, что все суммы ?^(Л) главных миноров суть инварианты подобия. Заметим, что определитель, очевидно, яв- является инвариантом подобия вследствие мультипликативности. 3. Вычислить характеристический многочлен po(t) диаго* нальной матрицы D&Mn и доказать, что Pd(D)==0. 4. Пусть АеМп и Ai = A({i}')^Mn-i — главная подмат- подматрица в А, полученная в результате вычеркивания строки и
1.2. Характеристический многочлен 59 столбца с номером i (i — 1, ..., п). Доказать, что d dt A.2.13) 5. Показать, что след нильпотентной матрицы (см. задачу 6 из § 1.1) равен 0. Каков характеристический многочлен ниль- нильпотентной матрицы? 6. Пусть А^М„ и Х^о(А) имеет кратность 1 (как корень уравнения pA(t) = O). Показать, что rank (Л — %!)'= = п—1. Обратное не всегда верно —достаточно рассмотреть матрицу A.2.7Ь). Указание. Воспользоваться соотношением A.2.13) и тем, что (d/dt)pA(t)=?*=O при t=*%\ вывести отсюда существование в Л — XI невырожденной главной подматрицы порядка п — 1. 7. С помощью теоремы 1.2.12 построить характеристический многочлен матрицы 110 0 0' 1110 0 0 1110 0 0 111 _0 0 0 1 1_ Попробовать эту же процедуру применить для вычисления ха- характеристического многочлена произвольной трехдиагональной п X n-матрицы (см. разд. 0.9.10). 8. Показать, что если матрица А е Мп имеет собственные значения \и ,.., %„, то для любого целого положительного k. Сумма справа называет- ея &-м моментом собственных значений матрицы А. 9. Явно выписать 52(ЯЬ ..., Яв) 53(ЯЬ ..., Я6), S4(ku ..., Я6) и S8(A,, ..., Я6). 10. Пусть V — векторное пространство над полем F. Соб- Собственное значение линейного преобразования Т: V->V — это число ^eF, такое, что для некоторого ненулевого вектора tieF имеем Tv = %v. Доказать, что если F есть поле комплекс- комплексных чисел и V конечномерно, то любое линейное преобразова- преобразование Т имеет собственное значение. Привести примеры того, что, исключив любое из условий — конечномерность пространства V или то, что F = C, — можно получить преобразование Т, не
60 Гл. 1. Собственные значения, собственные векторы и подобие имеющее собственных значений. Указание. Взять в V базис $ и рассмотреть матрицу Х[Т\Л. 11. Пусть p{t) -=ajn + an_1tn-1+.. .+alt + a0,an ==1,- не- некоторый многочлен со старшим коэффициентом 1 и А,, ... ..., А„ —его корни (с учетом кратностей); k-й момент корней обозначим через nA = Af + А| + ... + А* (й = 1, 2,...). Уста- Установить тождества Ньютона = 0, д = 1, ..., л, и объяснить, почему первые п моментов корней однозначно оп- определяют коэффициенты многочлена p{t) (а значит, и его кор- корни), и наоборот. Указание. Показать, что для некоторого R > 0 при \t\>R имеем (/— А,)" =С\+А/~2 +А?Г3+... и, сле- следовательно, / @ «¦ ? (t - М~' = пГ1 + tiir2 + ^2Г3 + ..., \t\>R. Доказать, что р'(t) = p (t) f (t); сравнение коэффициентов приво- приводит к тождествам Ньютона и к дополнительным соотношениям Л =!0- fe=»l, 2,..., для моментов более высокого порядка. 12. Пусть заданы матрицы А, ВшМп. Доказать, что для того, чтобы А и В имели одни и те же собственные значения, необходимо и достаточно, чтобы trAk = trBk для всех k (k =» = 1, 2 п). Указание. Установить совпадение характери- характеристических многочленов матриц А я В, а для этого воспользова- воспользоваться задачей 8 и тождествами Ньютона A.2.14). 1.3. Подобие Как уже отмечалось в § 1.0, преобразование подобия для матрицы из Мп соответствует представлению линейного преоб- преобразования пространства С в другом базисе. Таким образом, можно считать, что, изучая подобные матрицы, мы будем уста- устанавливать свойства, присущие соответствующему линейному преобразованию, или свойства, общие для всех его представле- представлений в различных базисах. 1.3.1. Определение. Матрица В^Мп называется подобной матрице А е Мп, если существует невырожденная матрица
1.3; Подобие 61 S е М„, такая, что = S~lAS. Преобразование Л-*-5-'Л5 называется преобразованием подо- подобия (или просто подобием), осуществляемым посредством транс- трансформирующей матрицы S. Отношение «В подобна Л» иногда записывается сокращенно В ~ А. 1.3.2. Утверждение. Подобие является отношением эквива- эквивалентности на Мп, а именно оно (a) рефлексивно: А ~ А; (b) симметрично: В ~ А влечет за собой А ~ В; (c) транзитивно: С ~ В и В ~ А влекут за собой С ~ А. Упражнение. Доказать утверждение 1.3.2. Как и любое отношение эквивалентности, отношение подо- подобия разбивает множество Мп на непересекающиеся классы экви- эквивалентности. Любой класс эквивалентности состоит из мно- множества всех матриц, подобных любой заданной входящей в него матрице — представительнице этого класса. Все матрицы из одного класса эквивалентности подобны и никакие матрицы из двух разных классов не являются подобными. В произволь- произвольной последовательности матриц, в которой соседние матрицы подобны, вследствие транзитивности подобия первая и послед- последняя матрицы принадлежат одному и тому же классу подобия. Наиболее существенно, что матрицы из одного класса эквива- эквивалентности обладают многими одинаковыми важными свойст- свойствами. Некоторые из них мы рассмотрим уже здесь, но более полное описание инвариантов подобия (например, канониче- канонической жордановой формы) будет дано позже, в гл. 3. 1.3.3. Теорема. Если матрица В^Мп подобна матрице Лё е Мп, то В имеет такой же характеристический многочлен, как и А. Доказательство. Для любого t = det {tSTlS - S~lAS) = det S~l (tl - A) S = = det S det (tl - A) det 5 = (det S)~l (det 5) det (tl - A) = = det (tl~ A) = pA(t). a 1.3A. Следствие. Любые подобные матрицы А и В (А, В е е Мп) имеют одинаковые собственные значения с учетом крат- кратности.
62 Гл. 1. Собственные значения, собственные векторы и подобие 1.3.5. Пример. Тот факт, что данные матрицы имеют одина- одинаковые собственные значения, является необходимым, но не до- достаточным условием подобия. Рассмотрим матрицы ГО 11 ГО 01 Lo or Lo oj* Каждая имеет собственное значение 0 кратности 2, но они не подобны. Упражнение. Показать, что единственная матрица, подобная нулевой матрице, есть она сама. Отсюда вывести утверждения из примера 1.3.5. Упражнение. Пусть матрицы А, В е М„ подобны и q(-) — любой многочлен. Доказать, что матрицы q{A) и q{B) подобны, в частности Л -f- а/ и В + а/ подобны для любого числа а. Упражнение. Пусть Л, В, С, D е Мп и подобия А ~ В и С ~ D осуществляются одной и той же матрицей S. Доказать, что А + С ~ В + D. Упражнение. Доказать, что если Л, Ss Mn и матрица 5 невырожденна, то Ek{S~lAS) = Ek{A), в частности detS~^S = = det Л и trS~MS —1гЛ, т. е. определитель, след и другие суммы главных миноров порядка k суть инварианты подобия. Упражнение. Доказать, что ранг также является инвариан- инвариантом подобия: если матрица В е Мп подобна матрице Л е Мп, то rank В = rank А. Указание. См. разд. 0.4.6. Поскольку диагональные матрицы особенно просты и обла-" дают многими приятными свойствами, интересно знать, для ка- каких А е Мп в классе эквивалентности матрицы А содержится диагональная матрица. Другими словами, какие матрицы по« добны диагональным матрицам? 1.3.6. Определение. Матрица ЛбМ„ называется диагонали- ауемой'), если она подобна диагональной матрице. 1.3.7. Теорема. Матрица ЛеМя диагонализуема тогда и только тогда, когда существует система п линейно независимых векторов, каждый из которых является собственным вектором матрицы А. Доказательство. Пусть Л имеет п линейно независимых соб- собственных векторов х<1\ , <., л:(п>. Составим из них, взяв их в ка« ') Такие матрицы называют также матрицами простой структуры. — Прим. перев. ч
f.3. Подобие 63 честве столбцов, невырожденную матрицу S. Тогда S-MS = S-'U*A) Ах<2) ... Л*(п)] = где Я, О А. г A, U -| .= • • . L о я„ J и Я-ь ..., %п — собственные значения матрицы А. Обратно, предположим, что имеется трансформирующая матрица S, такая, что матрица 5~'Л5 = Л диагональна. Тогда AS = 5Л, а это означает, что умноженный слева на А /-й столбец матрицы 5 (это есть /-и столбец матрицы AS) совпа- совпадает с /-м столбцом матрицы S, умноженным на /-й диагональ- диагональный элемент в Л (это есть /-й столбец матрицы 5Л), т. е. /-й столбец матрицы S есть не что иное, как собственный вектор матрицы Л, отвечающий j-uy диагональному элементу матрицы Л, Вследствие невырожденности матрицы 5 налицо система п линейно независимых собственных векторов. D Заметим, что доказательство теоремы 1.3.7 по существу уста- устанавливает алгоритм диагонализации произвольной диагонали- зуемой матрицы: найти собственные значения матрицы Л; найти соответствующие собственные векторы (с учетом кратности) и составить из них матрицу S. Если собственные векторы линейно независимы, то 5 осуществляет диагонализацию. Однако под- подчеркнем, что этот алгоритм нельзя считать практической вычис- вычислительной процедурой, за исключением его применений для аналитических примеров небольшого порядка. Замечание. Если матрица Л е Мп диагонализуема, то диаго- диагональные элементы любой диагональной матрицы, к которой она приводится преобразованием подобия, будут собственны ли зна- значениями матрицы Л (с соответствующими кратностями). Более того, линейно независимые собственные векторы (которые со- составляют трансформирующую матрицу) должны отвечать раз- различным собственным значениям с учетом кратности, т. е. если х{1\ ..., %<"> — линейно независимые собственные векторы и pA(t) = (t — Ki) ... (t — 'kn), то AxW = lX{i)X{i) для некоторой перестановки % индексов i. Упражнение. Доказать, что матрица Л= Q \ не диаго- диагонализуема. Рассуждать можно любым из следующих способов: с одной сторо«ы, будучи диагонализуемой, она была бы подобна нуле-
64 Гл. 1. Собственные значения, собственные векторы и подобие вой матрице — а это не так; с другой стороны, можно убедиться в том, что эта матрица имеет лишь один с точностью до нену- ненулевого множителя собственный вектор, отвечающий собствен- собственному значению 0. Упражнение. Показать, что если А диагонализуема и q(-) — какой-то многочлен, то q(A) тоже диагонализуема. Указание. (SAS*) S(A)SK Упражнение. Пусть задана матрица А е Мп и ее собствен- собственное значение К^а(А) имеет кратность т. Доказать, что если rank (А — Я/) > п — т, то А не диагонализуема. Имеется простое условие, обеспечивающее диагонализуе- диагонализуемость, — когда все собственные значения различны. Чтобы уста- установить этот факт, нам понадобится следующая важная лемма, имеющая также самостоятельное значение. 1.3.8. Лемма. Предположим, что Яь ..., Я&— попарно раз- различные собственные значения матрицы А&Мп и Jt((> — собствен- собственный вектор, отвечающий Яг (г'=1, ..., k). Тогда множество {хA), ..., Jc<*)} линейно независимо. Доказательство. Допустим от противного, что *('>, ..., в действительности линейно зависимы. Тогда для них суще- существует нетривиальная линейная комбинация, выражающая век- вектор 0, в частности такая, в которой наименьшее число ненуле- ненулевых коэффициентов. Предположим, что такое минимальное со- соотношение линейной зависимости имеет вид ... + агх'г) =» 0, Здесь г > 1, так как х('> ф О для всех и Для удобства мы взяли первые г векторов, чего всегда можно добиться перенумера- перенумерацией. Тогда А (а,*С) + ... + агх^) = а;Ах<» + ... + агЛ*(г) = ... + агАг*(г) = 0 и это еще одно соотношение линейной зависимости. Теперь пер- первое соотношение умножим на Кг и вычтем его из второго. Полу- Получаем ...+ аг_, (Яг_, - Я,г) х<'-" =* 0 и это есть третье соотношение линейной зависимости, причем с меньшим числом ненулевых коэффициентов, чем в двух пре- предыдущих. Последняя линейная комбинация нетривиальна, так как КфК (t = 1, ..., г—1). Это противоречит предположе- предположению о минимальности первого соотношения линейной зависи- зависимости и завершает доказательство. D
1.3. Подобие 65 1.3.9. Теорема. Если матрица А е Л4„ имеет п различных соб- собственных значений, то она диагонализуема. Доказательство. Пусть о(Л)=={Яь ..., Кп} и *<'> — собствен- собственный вектор, отвечающий %i (t=l, .... п). Поскольку соб- собственные значения все различны, то в силу леммы 1.3.8 множе- множество {хA), ..., х(п)) линейно независимо и вследствие теоремы 1.3.7 матрица Л диагонализуема. ? Упражнение. Привести пример диагонализуемой матрицы Л е М„, такой, что не все ее собственные значения различны. Упражнение. Напомним (см. разд. 0.9.5), что матрица пере- перестановки Р в любой позиции содержит 0 или 1 и в любой стро- строке и в любом столбце в точности один ее элемент равен 1; та- таким образом, РТ = Р~1. Показать, что если преобразование по- подобия матрицы Л е М„ осуществляется матрицей перестановки, то оно переупорядочивает диагональные элементы матрицы А. Показать, что от любой диагональной матрицы с помощью трансформирующей матрицы перестановки можно перейти к матрице, в которой те же диагональные элементы расположены в любом заданном порядке, в частности когда повторяющиеся диагональные элементы стоят подряд. В общем случае матрицы Л, Be Mn не коммутируют отно- относительно умножения. Однако если Л и В обе диагональные, то они всегда коммутируют. Это наблюдение можно в некото- некотором смысле обобщить; в этом отношении полезна следующая лемма. 1.3.10. Лемма. Пусть заданы матрицы ДеМя, В^.Мт и матрица С~Ю в есть прямая сумма матриц А и В. Тогда С диагонализуема в том и только в том случае, когда обе матрицы А и В диагона- лизуемы. Доказательство. Пусть невырожденные матрицы Si e Мп и S2 s Mm таковы, что матрицы Sf^Si и З^'вЗг диагональные. Тогда несложно проверить, что матрица S~lCS будет диаго- диагональной, если в качестве 5 взять прямую сумму матриц Si и S2: Наоборот, если С диагонализуема, то для некоторой невырож- невырожденной матрицы S^Mn+m матрица S~lCS = diag(^b l2, ••• 3 Р. Хорн, Ч. Джонсон
66 Гл. 1. Собственные значения, собственные векторы и подобие ..., Хп+т) диагональная. Запишем 5 в виде 5 = [si S2 ... sn+m], где 5< = [^]еСп+т, g{€=C\ Ti,eCm, /=1, ..., п + т. Тогда Csi = Км влечет за собой Л?; = %& и Br\i = fax}i для всех t = l, 2, ..., п + т. Если в множестве {gi, ..., |л+т} меньше /г линейно независимых векторов, то столбцовый (а зна- значит, и строчный) ранг матрицы меньше п. Аналогично если в множестве {щ, ..., цп+т} меньше т линейно независимых векторов, то столбцовый (а значит, и строчный) ранг матрицы hi Tfc ••• ¦Цп+т]^Мтг п+т меньше т. Если реализуется одна или обе из рассмотренных возможностей, то для матрицы I °1 " " ' Ьп+т I L Т|[ ... T|ra+m j строчный ранг (а значит, и ранг) будет меньше п -\- т, что не- невозможно вследствие обратимости матрицы 5. Таким образом, в множестве {h,h, ••-. Ъп+т} существует в точности п линейно независимых векторов, и поскольку каждый из них есть соб- собственный вектор матрицы А, то она должна быть диагонали- зуемой. По той же причине диагонализуема и матрица В. ? 1.3.11. Определение. Две диагонализуемые матрицы A, Be е Мп называются одновременно диагонализуемыми, если суще- существует трансформирующая матрица S е Мп, для которой обе матрицы S~lAS и 5~'55 диагональны, или, другими словами, если существует базис, в котором представления обоих соот- соответствующих линейных преобразований имеют диагональный вид. Упражнение. Доказать, что если А, В^Мп одновременно диагонализуемы, то они коммутируют. Указание. Записать А = SDS*1 и В — SES-1, где D и Е — диагональные матрицы. Затем вычислить АВ и ВА и воспользоваться тем, что диаго- диагональные матрицы коммутируют. Этот прием используется до- довольно часто. Упражнение. Доказать, что если А ёМя диагонализуема и XI — произвольная скалярная матрица в Мп, то А и XI одновре- одновременно диагонализуемы.
1.3. Подобие 67 1.3.12. Теорема. Пусть матрицы А, В&Мп диагонализуемы. Тогда А и В коммутируют в том и только в том случае, когда они одновременно диагонализуемы. Доказательство. Предположим, что А та В коммутируют, и применим к обеим этим матрицам преобразование подобия с одной и той же трансформирующей матрицей, такое, что А приводится к диагональному виду. Таким образом, не ограни- ограничивая общности, будем считать, что матрица А диагональная. Предположим далее, не ограничивая общности, что на главной диагонали в А кратные собственные значения расположены рядом. Поскольку АВ = ВА (при переходе к подобным матри- матрицам это равенство остается в силе, когда применяется одна и та же трансформирующая матрица), получаем где В = [b(j] и Хи ..., %п — собственные значения матрицы А. Поскольку (А; — %s) Ъц = 0, то 6г/ = 0, когда Яг ф Я/. Таким образом, для заданного упорядочения величин hi матрица В яв- является блочно-диагональной: В, О О Вь A.3.13) где блоки Bi соответствуют различным собственным значениям матрицы А. Для любого i блок 5,- квадратный, и его порядок равен кратности соответствующего ему собственного значения матрицы А. В силу леммы 1.3.10 вследствие диагонализуемости матрицы В каждый блок Bi является диагонализуём"ым. Пусть матрица Ti невырожденная и такая, что матрица TJlBiTi дна- тональна. Поскольку Л имеет блочную форму Я,/ о 0 я2/ A.3.14) где каждая скалярная матрица XJ имеет тот же размер, что и матрица Bi, мы видим, что матрицы Т~1АТ и Т~{ВТ обе 3*
68 Гл. 1. Собственные значения, собственные векторы и подобие тональные, если Т—прямая сумма матриц Т\, Т2 Tk: Г, О Т = О A.3.15) Заметим, что Т{ KilTt — XiL Обратное утверждение составляет содержание первого упражнения после определения 1.3.11. ? В заключительной части этого параграфа мы распростра- распространим теорему 1.3.12 на более широкое множество матриц и при- приведем некоторое более слабое утверждение для случая недиаго- нализуемых матриц. 1.3.16. Определения. Семейство &~^М„ матриц — это произ- произвольное (конечное или бесконечное) множество матриц; ком- коммутативное семейство — это такое семейство, в котором любые две матрицы коммутируют относительно умножения. Для мат- матрицы А е М„ подпространство feC называется А-инвариант- ным или инвариантным относительно А, если Aw e W для всех ю е W; для семейства SF ^ Мп подпространство W называется SF-инвариантным, если W является Л-инвариантным для всех Заметим, что для А е Мп любой ненулевой элемент одно- одномерного Л-инвариантного подпространства в С" — это собствен- собственный вектор матрицы Л. Упражнение. Пусть А ^ Мп, a W — инвариантное относи- относительно Л подпространство в С™ и его размерность не меньше 1. Доказать, что в W существует собственный вектор матрицы А. Указание. В W выбрать базис и рассмотреть матрицу, представ- представляющую в этом базисе линейное преобразование Т: w-^Aw, действующее в W. Доказать, что эта матрица имеет собствен- собственное значение. Главный вопрос — почему Т есть линейное пре- преобразование в W? Следующая лемма представляет собой одно из ключевых предложений. 1.3.17. Лемма. Пусть @~ <=: М„ — коммутативное семейство. Тогда существует вектор х е С", являющийся собственным век- вектором для каждой матрицы ДеУ, Доказательство. Пусть W s Cn — инвариантное относитель- относительно &~ подпространство наименьшей положительной размерности; такое подпространство существует, хотя и не обязательно един-
1.3. Подобие ' 69 ственно. Заведомо имеется ^-инвариантное подпространство размерности п, так как С" является ^"-инвариантным. Если су- существует ^"-инвариантное подпространство размерности п—1, то можно спросить, не найдется ли ^-инвариантное подпро- подпространство размерности п — 2 и т. д. В действительности — к этому мы и ведем — любой ненулевой вектор из W есть соб- собственный вектор для каждой матрицы ^Ef (и этого доста- достаточно, чтобы завершить доказательство). Если это не так, то для некоторой матрицы Ле J не каждый ненулевой вектор из W будет собственным вектором. Однако вследствие того что W ^-инвариантно, оно и Л-инвариантно, поэтому существует вектор х Ф О, такой, что Ах = Хх для некоторого собственного значения X. Образуем множество W0~{y^.W: Лг/==Яг/}, так что х е Wo и №0Е W есть подпространство. Согласно предпо- предположению относительно A, Wo Ф W, и, значит, Wo по сравнению с W имеет строго меньшую (положительную) размерность. Если ЯеЗ2", то Bx(=W при х<= Wo, так как Wo s W и IF —инва- —инвариантное относительно @~ подпространство. Однако @~ является коммутативным семейством и потому А (Вх) = (АВ)х = (ВА)х = = В(Ах) = Вкх = К(Вх), откуда следует, что Вхе Wo. Следо- Следовательно, подпространство Wo тоже ^"-инвариантно. Поскольку размерность подпространства WQ положительна и строго мень- меньше размерности подпространства W, мы приходим к противо^ речию, что и завершает доказательство. ? Лемма 1.3.17 справедлива для коммутативного семейства произвольной мощности. В частности, семейство @~ = {А, В} мо- может состоять только из двух матриц. Тогда лемма утверждает, что любая пара коммутирующих матриц обладает общим соб- собственным вектором. Теорема 1.3.12 говорит о том, что если А я В не только коммутируют, но еще и таковы, что каждая из них диагонализуема, то они являются одновременно диагона- лизуемыми. Следующий наш результат показывает, что фактиче- фактически то же справедливо и в том случае, когда диагонализуемые матрицы составляют коммутативное семейство произвольной мощности. 1.3.18. Определение. Одновременно диагонализуемое семей- семейство @~аМп — это такое семейство, в котором любая матрица /1е^" диагонализуется с помощью одной и той же невырож- невырожденной матрицы 5е7И„, т. е. матрица S~XAS диагональна для всех ЛеУ. 1.3.19. Теорема. Пусть @~аМ„ — семейство диагонализуе- мых матриц. Тогда ?Г является коммутативным семейством в том и только в том случае, когда оно одновременно диагона- лизуемо.
70 Гл. 1. Собственные значения, собственные векторы и подобие Доказательство. Если семейство ?Г одновременно диагона- лизуемо, то оно будет коммутативным согласно первому упраж- упражнению после определения 1.3.11. Обратное утверждение дока- докажем с помощью индукции по п. При п = 1 доказывать нечего, так как всякое семейство в данном случае состоит из диаго- диагональных матриц и является коммутативным. Теперь предполо- предположим, что п^2 и для k = \, 2, ..., л—1 утверждение дока- доказано по отношению ко всем коммутативным семействам диаго- нализуемых матриц порядка k. Если ST содержит только ска- скалярные матрицы, то доказывать нечего. Поэтому мы можем считать, что существует диагонализуемая п X «-матрица ДеУ, имеющая k различных собственных значений Х\, Я2> ..., Я*, где 2 ^ k <: п. При этом АВ = В А для любой матрицы 8е^ и всякая матрица Ве^" диагонализуема. Используя те же сооб- соображения, что и в теореме 1.3.12, мы можем ограничиться слу- случаем, когда матрица А в действительности диагональна, — пусть, как и там, ее кратные собственные значения расположены ря- рядом, все собственные значения упорядочены, так что А имеет вид A.3.14). Поскольку всякая матрица Bef коммутирует с А, то по тем же причинам, что и в доказательстве теоремы 1.3.12, В есть прямая сумма A.3.13) матриц, каждая из кото- которых имеет порядок л— 1 или меньше. Размеры и расположение блоков в A.3.13) полностью определяются кратностями и упо- упорядочением собственных значений матрицы А, и, следовательно, они одинаковы для всех Bef. Все матрицы Ве^" коммути- коммутируют между собой (а не только с Л), и любая из них имеет вид прямой суммы A.3.13); поэтому каждый из k блоков мат- матрицы из &~ коммутирует с соответствующим блоком любой дру- другой матрицы из SF, и каждый из этих блоков диагонализуем согласно лемме 1.3.10. В силу предположения индукции най- найдутся k трансформирующих матриц Ти Т2, ..., Tk подходящих размеров, которые диагонализуют соответствующие блоки вся- всякой матрицы из 5Г. Прямая сумма Т\ Ф ... @Tk (как в A.3.15)) диагонализует произвольную матрицу из 5Г. ? Замечания. С данным параграфом связаны два важных во- вопроса, которые мы отложим до гл. 3. Во-первых, как опреде- определить по двум заданным матрицам А, В е Мп, будут ли они по- подобны? Это повлечет за собой изучение канонических форм по отношению к подобию. Во-вторых, как узнать по заданной мат- матрице А е Мп, диагонализуема ли она, не вычисляя ее собствен- собственные векторы? Наконец, в качестве последнего замечания по поводу ком- коммутативности отметим, что, несмотря на то что матрицы АВ и ВА (если обе они определены), вообще говоря, разные (и даже могут иметь разные размеры), они предельно близки в том, что
1.3. Подобие 71 касается их собственных значений. Если матрицы А и В обе квадратные, то АВ и ВА имеют в точности одни и те же соб- собственные значения. 1.3.20. Теорема. Предположим, что А^Мт,п, В<=Мп<ти т ^ п. Тогда ВА имеет те же, с учетом кратностей, собствен- собственные значения, что и АВ и, кроме того, еще п — m собственных значений, равных 0. Таким образом, pBA(t) = tn-mpAB{t). Если m = n и хотя бы одна из матриц А или В невырожденна, то матрицы АВ и В А подобны. Доказательство. Рассмотрим следующие тождества (для блочных матриц из Мт+п): ГАВ 01 Г/ А1 Г АВ ABA 1 IB 0 J L 0 /J^LB ВА \' Г/Л1Г0 01 ГАВ ABA 1 L 0 1 \\_В ВА\\_ В ВА У Поскольку блочная матрица АЛ ¦М Г/ А1 Lo /J т + п невырожденна (все ее собственные значения равны +1), полу- получаем Г/ ЛГ'ГЛВ 01Г/ Л"! ГО 0 1 Lo/J [в о][о i I^Ib вау Таким образом, две (т + п)УС{т + п)-матрицы ГЛВ 01 Г001 Cl=L в о} C2==Lb ba\ подобны. Собственные значения матрицы Ci —это собственные значения матрицы АВ вместе с п нулями. Собственные значе- значения матрицы С2 — это собственные значения матрицы ВА вме- вместе с т нулями. В силу следствия 1.3.4 С\ и С2 имеют одни и те же собственные значения с учетом кратностей—отсюда и вытекает основное утверждение теоремы. Ее заключительное утверждение следует из соотношения АВ=А(ВА)А~Х, которое очевидным образом выполняется, если т = п и матрица А невырожденна. ? Задачи 1. Доказать, что если А, В^М„ и А и В коммутируют, то А коммутирует с любым многочленом от В. 2. Пусть А, В е Мп, а (А) = {Я„ ..., Я„}, а (В) = {^ цп}. Доказать, что если А а В диагонализуемы и коммутируют, то
72 Гл. 1. Собственные значения, собственные векторы и подобие A -f В имеет собственные значения где г'ь ;.., /„— некоторая перестановка индексов 1, ..., п. 3. Доказать, что если А^Мп, А — S~lDS, D = diag(di, ... ..., dn) и р(-)— произвольный многочлен, то р(А) = S~]p(D)S и p(D) = diag(p(di), ..., p(dn)). Этим обеспечивается простой способ вычисления значения р(Л) в случае, когда для А про- проведена диагонализация. 4. Привести пример двух коммутирующих матриц, которые не являются одновременно диагонализуемыми. Противоречит ли это теореме 1.3.12? 5. Доказать, что если матрица А е Мп имеет различные соб- собственные значения и коммутирует с заданной матрицей J5eMn, то В есть многочлен от А степени не выше п— 1. Указание. По- Показать (с помощью метода, примененного при доказательстве теоремы 1.3.12), что А и В одновременно диагонализуемы. За- Затем учесть, что для заданных различных чисел а\, ..., ап и (произвольных) чисел рь ..., |3„ существует многочлен р(-) степени не выше п—1, такой, что p(a;)=fSi (интерполяцион- (интерполяционный многочлен Лагранжа; см. разд. 0.9.11). 6. Для диагонализуемой матрицы А е Мп рассмотреть харак- характеристический многочлен Ра{г) и показать, что матрица рд(А) нулевая. 7. Матрица А е Мп называется квадратным корнем из мат- матрицы ВбМв, если А2~В. Доказать, что любая диагонализуе- мая матрица имеет квадратный корень. 8. Пусть матрицы Л, Be М„ таковы, что хотя бы одна из них имеет различные собственные значения (и ничего — даже диагонализуемости — не предполагается в отношении другой матрицы). Доказать, что А я В коммутируют тогда и только тогда, когда они одновременно диагонализуемы. Подсказка. В одну сторону утверждение доказывается легко; чтобы дока- доказать его в другую сторону, надо попытаться использовать сле- следующие рассуждения в отличие от тех, что применялись в до- доказательстве теоремы 1.3.12. Предположим, что В имеет раз- различные собственные значения, ieti(B) и Вх — Кх для хфО. Тогда В (Ах) — А (Вх) = АКх = КАх, и, значит, Ах есть также собственный вектор матрицы В, отвечающий X. Поскольку не может быть двух таких линейно независимых векторов (так как К имеет кратность 1), то Ах есть кратное вектора х, т. е. Ах — \ах. Таким образом, любой собственный вектор для В яв- является также собственным вектором для А, и А диагонализуема посредством той же самой матрицы из собственных векторов, которая диагонализует матрицу В. См. задачи 12 и 13 — в них осуществляется и^ной подход к тому же факту.
1.3. Подобие 73 9. Разобраться в деталях следующего (еще одного) дока- доказательства теоремы 1.3.20. (a) Сначала предположить, что из матриц А, В е Af „ хотя бы одна невырожденная. Показать, что АВ подобна ВА, и, сле- следовательно, характеристические многочлены для АВ и ВА со- совпадают. Указание. Если А невырожденна, то ВА = А~Х{АВ)А, вследствие чего а(АВ)= о (В А). (b) Рассмотреть вырожденные матрицы ^4 = [оо] и В — = [° °]. Показать, что АВ и В А не подобны, но имеют одни и те же собственные значения. (c) Доказать, что если А, В е Мп, то АВ и ВА обладают одинаковыми собственными значениями с учетом кратностей. Указание. Рассмотреть следующий аналитический подход. Для всех достаточно малых е >• 0 матрица Аг = А + е/ невырож- невырожденна; поэтому матрицы АеВ и ВАг подобны и их характери- характеристические многочлены одинаковы. При е->-0 в пределе подобие может не сохраниться, но равенство характеристических много- многочленов остается в силе, так как рА B(t) = det (tl — AaB) зависит непрерывно от е. Таким образом, матрицы АВ и ВА имеют оди- одинаковые характеристические многочлены и, следовательно, оди- одинаковые собственные значения с учетом кратностей. (d) Наконец, пусть /lsMffl, „ и В е Мп,т. Показать, что АВ и ВА имеют одни и те же собственные значения с учетом крат- кратностей, за исключением того, что . В А имеет дополнительно л— т собственных значений, равных нулю (в предположении, что л> т); другими словами, pBA(t)— tn-mpAE,{t). Указание. Дополнить А нулевыми строками, а В нулевыми столбцами с тем, чтобы в результате получились матрицы порядка п. К. но- новым матрицам применить последний результат и сравнить два новых произведения (при подходящем блочном разбиении) с двумя старыми произведениями. 10. Используя лемму 1.3.8, доказать следующее обобщение. Пусть задана матрица ЛеМ„и 1 , Xj-ee различные соб- собственные значения. Предположим, что для любого i=\, 2, ... ..., k множество Ы'\ х^\ ..., хЩ линейно независимо и со- состоит из tii ^ 1 собственных векторов матрицы А, отвечающих собственному значению !,¦. Доказать, что объединение множеств {х[1\ 4'\ • •., 4$и ... и{x[k\ xw,..., *w} линейно независимо. Указание. Пусть какая-то линейная ком- комбинация равна нулю, скажем k "ч и 0 = У У с х<{1 = У г/г> Используя лемму 1.3.8, показать, что у^> = О для всех и
74 Гл. 1. Собственные значения, собственные векторы и подобие П. Разобраться в деталях следующего (еще одного) дока* зательства леммы 1.3.17. (a) Показать, что если А, В^Мп коммутируют, то у них есть общий собственный вектор. Указание. Взять собственный вектор х матрицы А (х Ф О и Ах = Кх) и рассмотреть после- последовательность х, Вх, В2х, Въх, .... В ней должен быть первый элемент, линейно зависящий от своих предшественников,—¦ пусть это Bkx. Тогда подпространство S = Span {x, Вх, В2х, ... ..., Bk~lx} инвариантно относительно В и, следовательно, для некоторого ненулевого i/eS имеем By = \iy. Однако АВ'х = = В'Ах = В'Кх = КВ'х, так что каждый вектор из S является в то же время собственным вектором для А. (b) С помощью индукции показать, что в конечном комму- коммутативном семействе ST ={А\,А2, ..., Ат) все матрицы Л,- обла- обладают общим собственным вектором. Указание. Пусть уфО — общий собственный вектор для Ль Лг, ..., Ат~\. Рассмотреть последовательность//, Ату, А2ту, А3ту, ..., как и в п. (а). (c) Установить, что в коммутативном семействе &~ а Мп бес- бесконечной мощности не может быть больше чем л2 линейно не- независимых матриц. Выбрать максимальное линейно независи- независимое множество и использовать п. (Ь). Доказать, что общий собственный вектор для этого конечного множества является общим собственным вектором для всего семейства ST. 12. Пусть Л = diag(A,i,A,2, ..., К) имеет п различных диа- диагональных элементов. Использовать идеи из доказательства теоремы 1.3.12, для того чтобы доказать, что равенство Лб = ВЛ для некоторой матрицы в е М„ выполняется в том и только в том случае, когда матрица В сама диагональна (но не обязательно с различными диагональными элементами). 13. Предположим, что матрица А^.Мп имеет п различных собственных значений. Доказать, что если АВ — ВА для некото- некоторой матрицы В^Мп, то В диагонализуема и при этом Л и В одновременно диагонализуемы. Указание. Показать, что если матрица Л диагональна и Л=5Л5~', то Л коммутирует с S^BS. Использовать задачу 12. 14. Распространить результат задачи 13 на случай произ- произвольного коммутативного семейства @~аМп, содержащего хотя бы одну матрицу с различными собственными значениями. Сравнить этот результат с теоремой 1.3.19, в которой предпо- предполагается диагонализуемость каждой матрицы, входящей в се- семейство ST. Будет ли этот результат более сильным? 15. Рассмотреть блочно-диагональную матрицу Л = = diag (Я,/ь Я2/2 KkIk) <= Мп, где // е= М„}, h ф Я/ при / ф /, п\ + ni + •¦• +Wft==«. Показать, что равенство Л.В — ВА для некоторой матрицы В е Мп выполняется в том и только
1.4. Собственные векторы 75 в том случае, когда В имеет блочно-диагональный вид В = «=diag(B,, В2, ..., Bk), где В,е=МП} (/=1, 2 &)• Как этот- результат связан с задачей 12? 16. Предположим, что А, В е Мп и при этом А или В не- вырожденна. Показать, что если матрица АВ диагонализуема, то и матрица ВА диагонализуема. Рассмотреть матрицы Л = [2 j] и -S —[io] и показать, что это, вообще говоря, не- неверно, если обе матрицы А и В вырожденны. 1.4. Собственные векторы До сих пор собственным значениям уделялось больше вни- внимания, чем собственным векторам. Однако собственные векторы также важны не только ввиду их роли, связанной с диагона- диагонализуемостью, но и вследствие того, что они оказываются полез- полезными в различных прикладных вопросах. Здесь мы несколько продвинемся в изучении собственных векторов, но начнем с до- дополнительного замечания по поводу собственных значений. 1.4.1. Утверждение. Пусть Ае.Мп. Тогда: (а) с учетом крат- ностей Ат имеет те же собственные значения, что и А; (Ь) с учетом кратностей А* имеет собственные значения, являющиеся комплексно-сопряженными к собственным значениям для А. Доказательство. Поскольку det (tl — Ат) = det (tl — А)т = = det (// — Л), имеем Рлг@ = Рл@> т. е. предложение (а) уста- новлено. Аналогично det (?/ — A*) —det (tl — v4)* = det(// — Л), вследствие чего рл*@ = Рл@, что и доказывает предложе- предложение (b). D Упражнение. Показать, что если собственные векторы х, j/eC матрицы А еМп отвечают одному и тому же собствен- собственному значению К, то и любая линейная комбинация векторов х и у представляет собой собственный вектор, отвечающий тому же собственному значению К. Вывести отсюда, что множество всех собственных векторов, отвечающих одному Кеа(А), вме- вместе с вектором 0 образует подпространство в С". Упражнение. Показать, что подпространство, описанное в предыдущем упражнении, есть не что иное, как нуль-простран- нуль-пространство матрицы А — XI. 1.4.2. Определение. Пусть заданы /1еМ„ и Х^.о(А). Мно- Множество всех векторов х е С", удовлетворяющих соотношению Ах = Кх, называется собственным подпространством матрицы, А, отвечающим собственному значению %. Заметим, что всякий ненулевой элемент из собственного подпространства является собственным вектором для Л, отвечающим X.
76 Гл. 1. Собственные значения, собственные векторы и подобие Упражнение. Доказать, что собственное подпространство матрицы Л, отвечающее некоторому собственному значению Я, является Л-инвариантным; обратное неверно. Доказать, что любое минимальное Л-инвариантное подпространство (не содер- содержащее никакого нетривиального Л-инвариантного подпростран- подпространства строго меньшей размерности) представляет собой линей- линейную оболочку, натянутую на какой-то один из собственных век- векторов матрицы А. Указание. Использовать идеи из доказатель- доказательства леммы 1.3.17, считая, что &~ = {А} Пусть найдено какое-то собственное значение матрицы А е Мп. Тогда теоретически (хотя и не всегда практически) простой способ вычисления соответствующего собственного век- вектора заключается в отыскании решения линейной системы (Л — К1)х = 0. Множество всех ее решений составляет собственное подпро- подпространство. 1.4.3. Определение. Размерность собственного подпростран- подпространства матрицы Л <= Мп, отвечающего собственному значению Я, называется геометрической кратностью собственного значения К. Кратность числа % как корня характеристического много- многочлена Ра(-) (с этой кратностью мы постоянно имели дело до сих пор) называется алгебраической кратностью собственного значения X. Вообще говоря, это два разных понятия. Если тер- термин кратность используется без какого-либо уточнения, то обычно имеется в виду алгебраическая кратность. Мы будем придерживаться этой договоренности. Заметим, что геометрическая кратность есть не что иное, как максимальное число линейно независимых собственных век- векторов, отвечающих данному собственному значению. Упражнение. Доказать, что геометрическая кратность соб- собственного значения К для всех А е Мп никогда не превышает (и может быть меньше) его алгебраической кратности. Если алгебраическая кратность не меньше 1, то и геометрическая кратность не меньше 1. Указание. Обозначим через k геомет- геометрическую кратность собственного значения % и возьмем какую- либо невырожденную матрицу SeAln, в которой первые k столбцов составляют линейно независимые собственные век- векторы матрицы А, отвечающие К. С помощью рассуждений на- наподобие тех, что были использованы в доказательстве теоремы 1.3.7, показать, что матрица 5~'Л5 имеет вид [ 07- ] * ], где / е Mk. Вывести отсюда, что алгебраическая кратность X не меньше k.
1.4. Собственные векторы 77 1.4.4. Определения. Матрица А^Мп, для которой геометри- геометрическая кратность каких-то собственных значений строго мень- меньше их алгебраической кратности, называется дефектной. Если для= каждого собственного значения геометрическая кратность совпадает с алебраической кратностью, то А называется неде- недефектной. Если всякое собственное значение матрицы А е Мп имеет геометрическую кратность 1 (независимо от алгебраиче- алгебраической кратности), то А называется простой. Все эти определения являются классическими, но в настоящее время используются не очень широко. Заметим, что простая недефектная матрица — это матрица с различными собственными значениями. Далее, матрица диа- гонализуема тогда и только тогда, когда она является неде- недефектной. Это есть не что иное, как еще одна формулировка леммы 1.3.7, подчеркивающая необходимость существования для каждого собственного значения достаточного числа линей- линейно независимых отвечающих ему собственных векторов. 1.4.5. Пример. Несмотря на то что А и Ат имеют одни и те же собственные значения, их собственные векторы, отвечающие данному собственному значению, могут сильно различаться. На- Например, для матрицы О 4J имеется одномерное собственное подпространство, отвечающее собственному значению 2, и оно натянуто на вектор [„]. В то же время соответствующее собственное подпространство мат- матрицы Ат натянуто на вектор [_з/2]- Упражнение. Проверить утверждения примера 1.4.5. Ясно, что теорию собственных значений и собственных век- векторов, которую мы развивали до сих пор, можно было бы раз- развивать параллельно для умножения матриц слева на векторы- строки. Собственные значения при этом были бы те же самые, а собственные векторы, вообще говоря, другие (даже если стро- строки рассматривать как столбцы и наоборот). 1.4.6. Определение. Ненулевой вектор j/eC" называется ле- левым собственным вектором матрицы А е М„, отвечающим К е е о (А), если При необходимости вектор х из соотношения A.1.3) мы будем для ясности называть также правым собственным вектором.
78 Гл. 1. Собственные значения, собственные векторы и подобие Если контекст не допускает неоднозначного толкования, то мы будем, как и ранее, говорить об х как о собственном векторе. Упражнение. Показать, что любой левый собственный век* тор у, отвечающий собственному значению X матрицы А е Мп, является правым собственным вектором матрицы А*, отвечаю-" щим X, и при этом у есть правый собственный вектор матрицы Ат, отвечающий X. Показать на примере, что даже в случае /4eMn(R) правый и левый собственные векторы могут не co-i впадать. Напомним (см. разд. 0.6.2), что два вектора х, i/eC назы- называются ортогональными, если у*х — 0. Следующий результат известен как принцип биортогональности. 1.4.7. Теорема. Для матрицы А&М„ и чисел X, (де где X ф \i, любой левый собственный вектор, отвечающий ц, ортогонален любому правому собственному вектору, отвечаю- отвечающему X. Доказательство. Пусть i/eC° — левый собственный вектор матрицы А, отвечающий fi, и ^еС — ее правый собственный вектор, отвечающий X. Вычислим у*Ах двумя способами: у* Ах = {цу*) х = ц (у*х). Поскольку X ф |х, то получить равенство Ху*х = \ху*х возможно, лишь когда у*х — 0. Таким образом, векторы х и у ортого- ортогональны. D Упражнение. Показать, что если А* =Ае Мп, т. е. матрица А эрмитова, и все ее собственные значения различны, то А имеет п попарно ортогональных (правых) собственных векторов. На- Напомним, что, согласно задаче 8 из § 1.1, все собственные значе- значения матрицы А вещественны. Указание. Вследствие того что А* = А, левые собственные векторы совпадают с правыми соб- собственными векторами. Применить теорему 1.4.7. В следующей главе мы увидим, что в утверждении из этого упражнения предположение о том, что собственные значения различны, не является необходимым. Теперь отметим, что есть простой закон преобразования соб- собственных векторов при переходе к подобной матрице. Собствен- Собственные значения, конечно, при этом не изменяются. 1.4.8. Теорема. Пусть матрицы А, В е Мп таковы, что В по- подобна А и преобразование подобия осуществляется матрицей
1.4. Собственные векторы 79 5. Тогда если ieC" — собственный вектор для В, отвечающий к^о{В), то Sx — собственный вектор для А, отвечающий соб- собственному значению %. Доказательство. Вследствие равенств B = S~1AS и Вх = Лх имеем S~1ASx==kx, или ASx = kSx. Поскольку матрица 5 не- вырожденна и хфО, получаем БхфО и, следовательно, Sx есть собственный вектор матрицы А. ? Упражнение. Проверить, что е = [1,1,\]т есть собственный вектор матрицы Г1 2 3 Л 3 2 1 L2 3 1 ]¦ Пусть D = diag(l, 2, 3). Для матрицы D~lAD найти собствен- собственный вектор, имеющий положительные компоненты. В заключительной части этого параграфа мы покажем, что собственные векторы можно использовать для получения ин- информации о собственных значениях главных подматриц. Эта информация позволяет дать еще одно доказательство неравен- неравенства между геометрической и алгебраической кратностями соб- ственного значения. 1.4.9. Теорема. Пусть заданы матрица А е М„, ее собствен- собственное значение IgCd произвольное целое положительное k ^ 1. Рассмотрим следующие три высказывания: (a) % — собственное значение матрицы А геометрической кратности не меньше k\ (b) к является собственным значением любой главной под- подматрицы А е Мт матрицы А, если m > п — k; (c) к — собственное значение матрицы А алгебраической кратности не меньше k. Тогда (а) влечет за собой (Ь) и (Ь) влечет за собой (с). В частности, алгебраическая кратность собственного значения не меньше его геометрической кратности. Доказательство. Предположим, что (а) имеет место и рас- рассмотрим в А произвольную главную подматрицу А е Мт, счи- считая, что т~> п — k. He ограничивая общности, будем считать, что Л находится в левом верхнем углу матрицы А (с помощью перестановок можно перейти к подобной матрице и воспользо- воспользоваться теоремой 1.4.8). Пусть собственному значению к отве- отвечают линейно независимые собственные векторы vi, ..., и*. Матрицу А и каждый из векторов vi представим в блочном
80 Гл. 1. Собственные значения, собственные векторы и подобие Векторы w\, ..., wk линейно зависимы, так как это k векторов виде: '=1. 2, в пространстве размерности л— т<Сп — (п — k)=k. Значит, существуют скаляры оц, ..., а* е С, такие, что a\W\-\- ... ... + UkWk = 0, и при этом не все эти скаляры нулевые. Полу- Получаем o==a1w1+ ... +akvk = ["]^ О, где и = ахщ + ... ... -{- акикФ0 и Лу = %v. Последнее равенство запишем в блочной форме: Н. .JloJ-L. ]-*•-[ о]- Как видим, К есть собственное значение для Л, что и утверж- дается в п. (Ь). Теперь допустим, что (Ь) имеет место. Вспомним соотноше- соотношение A.2.13), связывающее производную характеристического многочлена pA(t) с характеристическими многочленами рА{ (/) для п главных подматриц Ль ..., Ап матрицы А. При k = \ доказывать нечего. Если k >¦ 1, то (Ь) утверждает, что К яв- является собственным значением для Л,- при всех i и потому Ра (^)==0 ДлЯ всех ' и Рл(^) = 0. Если k>2, то, дифферен- дифференцируя A.2.13), находим Рл(П= ZPaM A-4.10) Используя A.2.13), заменим каждую производную в правой части на сумму характеристических многочленов главных под- подматриц матриц Аи Поскольку любая главная подматрица в At, полученная вычеркиванием одной строки и одного столбца, является также главной подматрицей порядка п — 2 в Л, то предложение (Ь) и соотношение A.2.13), приме- применяемые ко всем подматрицам А-,, позволяют заключить, что Рд(Я) = 0. Повторное использование тех же доводов показы- показывает, что кратные производные р^ (к) обращаются в нуль для /=0, 1, ..., k—l. Следовательно, для Я алгебраическая крат- кратность не меньше k. D
1.4. Собственные векторы 81 Задачи 1. Доказать, что матрица A eiHn имеет ранг 1 в том и толь- только в том случае, когда А = ху* для каких-то ненулевых векторов х, у е С". Показать, что: (a) такая матрица А обладает, самое большее, одним ненуле- ненулевым собственным значением (алгебраической кратности 1); (b) это собственное значение есть у*х; (с) х и у — соответствен- соответственно правый и левый собственные векторы, отвечающие этому собственному значению. Какова геометрическая кратность соб- собственного значения О? 2. Доказать, что любую матрицу А е Мп ранга k можно записать в виде где х<~1\ {('"еС" (* = 1, ..., k), т. е. А выражается суммой k матриц ранга 1. Указание. Найти k линейно независимых строк и столбцов и использовать тот факт, что через них можно выразить все остальные строки и столбцы. 3. Предположим, что ГеМ„ — верхняя треугольная матри- матрица с различными собственными значениями tu, ..., ^„„, которые расположены на диагонали от левого верхнего угла к правому нижнему. Показать, что числу tu отвечает правый собствен- собственный вектор матрицы Т, в котором последние л— i компонент нулевые, и левый собственный вектор матрицы Т, в котором первые i— 1 компонент нулевые. Что будет, если не все tu раз- различны? 4. Показать, что для матрицы A.2.7Ь) (единственное) соб- собственное значение 1 имеет геометрическую кратность 1. Опи- Описать соответствующее собственное подпространство. 5. Рассмотреть блочно-треугол.ьную матрицу Аи А О А Доказать, что ее собственными значениями являются собствен- собственные значения матрицы Ли вместе с собственными значениями матрицы А22 с учетом кратностей. Пусть ieC"' — правый собственный вектор для Ли, отвечающий Я<=(т(Ли), и ja е С — левый собственный вектор для А22, отвечающий ц е е=<т(Л22). Доказать, что векторы [0*], [°] е= с+— правый и левый собственные векторы для А, отвечающие соответственно X и ц. Что можно сказать о левом и правом собственных век- векторах матрицы А, отвечающих соответственно Яиц? Нельзя ли
82 Гл. 1. Собственные значения, собственные векторы и подобие обобщить эти утверждения на случай блочно-треугольных мат- матриц с произвольным числом блоков на диагонали? 6. Предположим, что для какого-то собственного значения матрицы ЛеМ» геометрическая кратность равна 1 и ему от- отвечают левый и правый собственные векторы с положитель- положительными компонентами. Доказать, что А не имеет никаких других собственных векторов с неотрицательными компонентами, кро- кроме кратных данным. 7. В этой задаче мы набросаем схему степенного метода на- нахождения наибольшего собственного значения и соответствую- соответствующего собственного вектора для А е Мп. Мы сделаем некоторые упрощающие предположения и только упомянем аналитические детали, которые можно было бы описать вполне точно. Предпо- Предположим, что А е М„ имеет различные собственные значения ^i Хп и в точности одно из них — именно Хп — обладает наибольшим модулем, равным р(Л). Пусть вектор я@) е Сп не ортогонален левому собственному вектору, отвечающему Х„. Показать, что в этом случае последовательность 1А: = 0, 1, 2, ... сходится к собственному вектору матрицы А, а отношения одно- одноименных ненулевых компонент последовательных векторов Лх<*> и х(*> сходятся к %п. Указание. Не ограничивая общности, мож- можно считать, что Хп=\. Пусть «/<¦>, ..., у(га) — линейно независи- независимые собственные векторы, отвечающие Хи ..., %п. Вектор x<0> допускает единственное разложение где ап Ф 0. Заметим, что с точностью до скалярного множи- множителя вектор х(*> имеет вид a,XfyA)-j- ... + %Ъ*у{п). Поскольку \К{\<1, имеем \K{\k->0 (i — 1, ..., п — 1), и эта сумма схо- сходится к вектору, пропорциональному вектору у<п). 8. При помощи степенного метода можно вычислить не только максимальное, но и остальные собственные значения {и собственные векторы). Для этого используется редукция за- задачи, называемая понижением порядка или исчерпыванием; она приводит к некоторой квадратной матрице, которая имеет по- порядок на 1 меньше и собственные значения которой совпадают с остальными собственными значениями матрицы А е Мп. Пусть Хп и у<га> — собственное значение и собственный вектор для А (вычисленные посредством степенного метода или как-то иначе), и пусть матрица 5еМ„ невырожденна и ее первый
1.4. Собственные векторы 83 столбец есть «/<">. Доказать, что о | и А\ бМн имеет собственные значения Яь ,,., Яга_1 в обозна- обозначениях задачи 7. Другие собственные значения можно вычис- вычислить, работая с Л] и проводя повторное понижение порядка и т.д. 9. Пусть А еМп имеет собственные значения Яь ..., Яя_ь0, так что гапкЛ^л—1. Предположим, что последняя строка в А является линейной комбинацией остальных строк. (а) В случае когда А имеет вид Mil «12 I ' ~ L ат21 а22 У где Ац е Мп_х, показать, что для некоторого вектора выполняются равенства ¦>n-l Найти связь вектора b с левым собственным вектором матрицы А, отвечающим собственному значению 0. (Ь) Доказать также, что собственными значениями матрицы ^u + ai2bT s Мп-х являются Яь .... %п-\. Указание. Рассмот- Рассмотреть для А преобразование подобия, осуществляемое матрицей / О Заметим, что это еще один способ понижения порядка, так как здесь также строится матрица меньшего порядка, обладающая остающимися собственными значениями. Если найдено какое-то собственное значение Я матрицы А, то процесс, описываемый в этой задаче, можно применить к матрице Р(А — Я/)Р~1, где Р — подходящая матрица перестановки. 10. Пусть матрица Т^Мп невырожденна и ее столбцы яв- являются левыми собственными векторами матрицы А е Мп. До- Доказать, что столбцы матрицы (Г*)-1 — это правые собственные векторы для А.
Глава 2 УНИТАРНАЯ ЭКВИВАЛЕНТНОСТЬ И НОРМАЛЬНЫЕ МАТРИЦЫ Здесь изучается специальный тип преобразований подобия, тесно связанный с многими вопросами из области приложений матричного анализа. 2.0. Введение В гл. 1 мы провели первоначальное изучение подобия, осу- осуществляемого произвольной невырожденной матрицей S <= Мп. Теперь среди невырожденных матриц S мы выделим весьма спе- специфические—так называемые унитарные матрицы, для кото- которых обратная матрица выражается очень просто: S-1 = S*. По- Подобие Л-»-5*Л5 (Л е Мя), осуществляемое унитарной матри- матрицей, отличается не только тем, что его легче изучать по сравне- сравнению с общим преобразованием подобия (S* намного проще оп- определяется, чем S~l). Оно обладает, помимо этого, многими привлекательными особенностями, которые прояснятся в ходе изучения. Как правило, унитарное подобие предпочтительнее обычного подобия, и потому полезно знать, что же именно мож- можно получить при помощи унитарного подобия. Классы эквива- эквивалентности, связанные с унитарным подобием, однако, уже, чем для обычного подобия (две матрицы могут быть подобными и не быть унитарно подобными)-—в этом смысле обычное подо- подобие имеет более богатые возможности. По этой причине мы еще вернемся к дальнейшему его изучению в гл. 3 Преобразование A-*~S*AS (A<=Mn), где предполагается, что S невырожденна, но не обязательно унитарна, называется преобразованием эрмитовой конгруэнтности и будет изучаться в гл. 4. Это преобразование также задает на М„ некоторое от- отношение эквивалентности и обладает многими привлекатель- привлекательными свойствами (иными, чем подобие). Важно отметить, что преобразование подобия, осуществляемое унитарной матрицей, является одновременно преобразованием подобия и преобразо- преобразованием эрмитовой конгруэнтности, и любое преобразование, со- сочетающее в себе эти свойства, будет не чем иным, как уни- унитарным подобием.
2.1. Унитарные матрицы 85 2.1. Унитарные матрицы 2.1.1. Определение. Напомним, что векторы хь ..., ^еС образуют ортогональное множество, если х*1х/ = 0 для всех/, /, где 1 ^/ </^й. Если к тому же сами векторы нормированы, т. е. x*txt = 1 (/=1, ..., k), то такое множество называется ортонормированным. Упражнение. Доказать, что для любого ортогонального мно- множества {t/i у и) ненулевых векторов множество {хи .. .,xk}, где х( = (у'{У{)~112yt (г'=1 к), будет ортонормированным. 2.1.2. Теорема. Любое ортонормированное множество ли- линейно независимо. Доказательство. Возьмем ортонормированное множество {х\, ..., xk) и запишем 0 = «iXi+ ... -f- akxk. Вследствие ор- ортогональности векторов Xi получаем k о=о'о = Y. ap^xj = Y, | ai f x]xi и, поскольку векторы xt нормированы, находим, что k к Zi a 12 j.«x — У I а I2 — 0 (.=;1аН xtxi — (^Г(| ~~ • Таким образом, а, = 0 для всех i и, следовательно, множество {xi xk) линейно независимо. П Упражнение. Доказать, что любое ортогональное множество ненулевых векторов линейно независимо. Упражнение. Доказать, что для любой ортогональной си- системы Х\, ..., ^еС" либо k ^ л, либо по меньшей мере k — п векторов Xt равны нулю. Произвольное линейно независимое множество, конечно, не обязано быть ортонормированным. Однако, применяя процесс Грама — Шмидта (см. разд. 0.6.4), можно построить ортонор- ортонормированное множество, имеющее ту же линейную оболочку, что и исходное множество. Упражнение. Показать, что любое ^-мерное вещественное или комплексное векторное пространство имеет ортонормиро- ванный базис (т. е. базис, являющийся ортонормированным множеством). 2.1.3. Определение. Матрица С/еМ, называется унитарной, если U*U = I. Если к тому же U e Mn(R), то U называется вещественной ортогональной.
86 Гл. 2. Унитарная эквивалентность и нормальные матрицы Унитарные матрицы образуют в Мп весьма примечательное и важное множество. В теореме 2.1.4 мы перечислим некоторые условия, эквивалентные унитарности матрицы U. Упражнение. Пусть матрица А е М„ невырожденна и мат- матрица ВеМ» такова, что BA—I. Доказать, что: (а) В опреде- определяется однозначно; (Ь) имеет место равенство АВ = 1. Конечно, при этом мы пишем В=А~Х. Указание. Вследствие невырож- невырожденности матрицы А каждое из уравнений Ах = у и хтА=ут имеет единственное решение для любого вектора уеС". Рас- Рассматривая соответственно столбцы и строки, установить, что уравнения ABR = I и BLA = I имеют единственные решения BL, BR e Mn. Затем вычислить BLABR двумя способами и от- отсюда вывести, что BL = BR. 2.1.4. Теорема. Пусть U е Мп. Следующие предложения экви- эквивалентны: (a) U унитарна; (b) U невырожденна и U* = t/-1; (c) UU* = I; (d) U* унитарна; (e) столбцы в 0 образуют ортонормированное множество^ (f) строки в U образуют ортонормированное множество; (g) для любого вектора igC" евклидова длина вектора у = Ux равна евклидовой длине вектора х, т. е. у*у = х*х. Доказательство. Предложение (а) влечет за собой (Ь), так как матрица U~l (при условии, что она существует) — это един- единственная матрица, при умножении на которую слева получается /; определение унитарности гарантирует, что С*—именно та- такая матрица. Поскольку ВА=1 тогда и только тогда, когда АВ = / (ДВбМл), из предложения (Ь) следует (с). По- Поскольку (?/*)* = U, в п. (с) записано не что иное, как опреде- определение унитарности матрицы 11*. Поэтому (с) влечет за собой (d). Для каждой из этих импликаций обращение проводится аналогично. Итак, предложения (а) — (d) эквивалентны. Механика матричного умножения такова, что если u{i) обо- обозначает г-й столбец в U (i = 1, ..., п), то равенство U*U = I означает, что ( 0, если \ Ф i, (. 1, если ] = t. Таким образом, равенство U*U = I есть еще одно выражение факта ортонормированности столбцов матрицы U. Поэтому (а) эквивалентно (е). Аналогично (d) эквивалентно (f). Пусть имеет место (а) и y=Ux. Тогда у*у = x*U*Ux = = х*1х = х*х, так что (а) влечет за собой (g). Чтобы устано-
2.1. Унитарные матрицы 87 вить обратное, потребуются несколько более сложные вычисле- вычисления. Впрочем, впоследствии в нашей книге появится техника, которая поможет несколько проще установить этот факт. Сна- Сначала рассмотрим случай л = 2. Предположим, что имеет место '(g), и возьмем х =[J]. Имеем 1 = х*х — у" у = x*U*Ux и это есть не что иное, как элемент матрицы 11* U ь позиции A,1). Аналогично, полагая х = [, J, находим, что в позиции B,2) мат- матрица U*U также содержит 1. Значит, матрица U*U должна иметь вид Г1 al la 1У где а — скалярное произведение 1-го и 2-го столбцов и а — ска- скалярное произведение 2-го и 1-го столбцов матрицы U, Пола- Полагая * = [!], в силу (g) имеем 2 = х*х = у'у = x*U'Ux = 2-\-(a+a). Полагая *=[)•]. получаем 2 = 2 + i(а — а). Таким образом, a-|-a = 2Rea = 0 и а — a = 2ilma = Q. Следовательно, а = 0. Это означает, что если для всех х е С2 выполняется-равен- выполняется-равенство x'U*Ux = х*х, то U*U = I, т. е. матрица U унитарна (если U<=M2). Теперь рассмотрим л>2 и положим A~U"U. Возь- Возьмем вектор х е С", у которого все компоненты нулевые, кроме /-й и у-й (/ ^ у). Тогда (обозначения см. в разд. 0.7.1), и уже доказано, что (g) влечет за собой Л ({{',/})=/е М2. Поскольку / и у произвольные, за- заключаем, что в А любая главная подматрица порядка 2 совпа- совпадает с единичной матрицей порядка 2. Единственная матрица А е М„ с этим свойством — единичная матрица порядка п. Слу- Случай л = 1 очевиден. Таким образом, из (g) следует (а), что и завершает доказательство. ? 2.1.5. Определение. Предложение (g) теоремы 2.1.4 показы- показывает, что унитарные матрицы являются изометричными — так называют линейные преобразования, сохраняющие евклидову длину. В гл. 5 будут обсуждаться другие способы определения «длины» и отвечающие им другие типы изометричных преобра- преобразований. Упражнение. Рассмотрим матрицу [cosG sin в  -sine j где 9 — вещественный параметр.
88 Гл. 2. Унитарная эквивалентность и нормальные матрицы (а) Доказать, что матрица U e Af2(R) будет вещественной ортогональной тогда и только тогда, когда U = ГF) или TF) - o - для некоторого OsR. (b) Доказать, что матрица 11 е М2(Щ будет вещественной ортогональной тогда и только тогда, когда U = 7 @) или О 1 для некоторого 6eR. Таким образом, для вещественных орто- ортогональных 2 Х2-матриц получаем два разных представления, ис- использующих параметр 6. Найти для них геометрическую интер- интерпретацию 2.1.6. Утверждение. Для любых унитарных (вещественных ортогональных) матриц U, VeiW, произведение UV является также унитарной (вещественной ортогональной) матрицей. Упражнение. Доказать утверждение 2.1.6, используя предло- предложение (Ь) теоремы 2.1.4. Упражнение. Доказать, что если множество {х\, х2, ... ..., XjjeC" ортонормированное и матрица II е Мп унитарна, то множество {Ux\ Uxh} тоже ортонормированное. 2.1.7. Утверждение. Множество унитарных (вещественных ортогональных) матриц в Мп образуют группу. Обычно эту группу называют унитарной (ортогональной) группой размер- размерности п. Она является подгруппой в GL(n, С) (см. § 0.5). Упражнение. Напомним, что группа — это множество, зам- замкнутое относительно какой-то одной ассоциативной бинарной операции (умножения) и такое, что в нем содержится нейтраль- нейтральный элемент и обратные ко всем элементам этого множества относительно рассматриваемой операции. Доказать утвержде- утверждение 2.1.7. Указание. Замкнутость следует из утверждения 2.1.6; умножение матриц ассоциативно; матрица / е М„ унитарна; матрица U* = U~l также унитарна. Множество (группа) унитарных матриц из Мп имеет еще одно очень важное свойство. Мы будем использовать понятия «сходимости» и «предела» для последовательности матриц, со- соотнося их со сходимостью и пределом для числовых последова-.. тельностей, отвечающих каждой позиции (i,j). Более точно эти понятия будут определены в гл. 5. Из определения унитарности U*U = / вытекает, что в 11 каждый столбец имеет евклидову
2.1. Унитарные матрицы 89 длину 1 и потому любой элемент и,-, / матрицы U == [«,-,,] по мо- модулю не превосходит 1. Рассматривая множество унитарных матриц как подмножество в С"', приходим к выводу об огра- ограниченности этого подмножества. Пусть имеется последователь- последовательность унитарных матриц Uk = [u[f] (k=l, 2, ...) и для нее существуют пределы \\muf) = uf) для всех /, /—1, 2 п. Тогда так как равенство U*kUk = I выполняется для всех k = = 1, 2 то lim U'kUk = U*0U0 = I,rji&U0 = [u[0J]. Таким обра- образом, предельная матрица 170 также унитарна. Это говорит о том, что множество унитарных матриц является в С" зам- замкнутым подмножеством. Замкнутое и ограниченное подмножество в конечномерном евклидовом пространстве является компактным (см. приложе- приложение Е). Вследствие этого множество (группа) унитарных-мат- унитарных-матриц в Мп компактно. Для наших целей наиболее важное след- следствие этого факта — следующий принцип выбора для унитарных матриц. 2.1.8. Лемма. Пусть в Мп задана произвольная последова- последовательность унитарных матриц U\, U% .... Тогда в ней можно выбрать подпоследовательностьUk,, Uk2, .-., такую, что все эле- элементы матриц Uk. сходятся (как последовательности комплекс- комплексных чисел) при i^-oo к элементам некоторой унитарной мат- матрицы Но. Доказательство. Все, что здесь требуется, вытекает из того факта, что из произвольной бесконечной последовательности в каком-либо компактном множестве всегда можно выбрать схо- сходящуюся подпоследовательность. Как уже отмечалось, если по- последовательность унитарных матриц сходится к какой-то мат- матрице, то эта предельная матрица должна быть унитарной. ? В лемме ничего не говорится по поводу единственности полу- получаемой в пределе унитарной матрицы; в действительности она зависит от выбранной подпоследовательности. Упражнение. Рассмотреть последовательность унитарных матриц ГО 1 Г* _ 1.1 О J ' k = l, 2, ..., и показать, что здесь имеются два возможных предела подпо- подпоследовательностей. Упражнение. Принцип выбора 2.1.8 остается в силе и для ортогональной группы, т. е. всякая последовательность веще-
90 Гл. 2. Унитарная эквивалентность и нормальные матрицы ственных ортогональных матриц имеет подпоследовательность, сходящуюся к вещественной ортогональной матрице. Доказать это с помощью той же логической схемы, но для вещественного случая. Компактность унитарной группы понадобится при решении задачи 3 в следующем параграфе. В дальнейшем встретятся и другие возможности ее использования. Если U унитарна, то LJ-1 совпадает с U*. Рассмотрим такие матрицы U, для которых U~l подобна U* — это одно из обоб- обобщений понятия унитарной матрицы. Все множество таких мат- матриц можно легко охарактеризовать как область значений ото- отображения А-+А~1А* для всех невырожденных матриц А^Мп, 2.1.9. Теорема. Пусть матрица А^Мп невырожденна. Тогда А~х подобна А* в том и только в том случае, когда А =В~*В* для некоторой невырожденной матрицы В е Мп. Доказательство. Пусть матрица В е Мп невырожденна и— А = В~ХВ\ Тогда А~1 = (ВТ1В и ЯМ (В*) = В (ВТ' = = (В~1В*) = А*, так что А~1 подобна А' и это подобие осу- осуществляется трансформирующей матрицей В*. Обратно, если А~1 подобна • А', то 5Л~15"' = Л* для какой-то невырожденной матрицы S е М„. Положим Se = eieS, где 6eR, и заметим, что S%A~lSe1=el°SA-l{e-teS~i) = SA~lS~l = A\ Но тогда Sd = A*SQA и S*e = A'S*QA. После сложения этих двух равенств получим #9 = А*НвА, где матрица #9s=Se + S* эрмитова. Если матрица #9 вырожденна, то 0 = Hex = Sex + S"ex для некоторого ненулевого вектора хеС, так что — х = Se lS&x = = e~2ieS~lS'x и S~lS'x = — emx. Если выбрать е = 0ое[О, 2я] таким, чтобы число — е2'9» не являлось собственным значением для S~lS*, то соответствующая эрмитова матрица Я == #еа будет невырожденной и при этом Н = А*НА. Теперь возьмем любое комплексное число а, считая, что |а|=1 и а не является собственным значением для Л*. Поло- Положим В = Р(а/ — А*)Н, где комплексное число р =^= 0 — это па- параметр, который еще нужно определить. Заметим, что матрица В невырожденна. Мы хотим получить равенство А =В~1В*, или ВА = В*. Вычислим В* = Я(раГ/ —рЛ)и ВА =Р(а/ — А*)НА = = Р(аЯЛ— Л*ЯЛ)=Р(аЯЛ — Н) = Н(а$А — р/). Все будет доказано, если__мы сможем выбрать такое ненулевое р, для ко- которого р = —Ра. Если а = е% то р = е'(я-и»/2. ?
2.1. Унитарные матрицы 91 Задачи 1. Доказать, что если матрица U е Мп унитарна, то |det?/|=l. 2. Доказать, что если 1еи([/)и матрица U е Мп унитарна, то |Х|=1. Указание. Использовать свойство изометричности (п. (g) теоремы 2.1.4). 3. Показать, что для любых вещественных 9Ь 02, ..., 0„ матрица унитарна. 4. Охарактеризовать диагональные вещественные ортого- ортогональные матрицы. 5. Показать, что в Мп матрицы перестановок (см. разд. 0.9.5) являются ортогональными и образуют подгруппу (т. е. подмно- подмножество, которое само есть группа) в группе вещественных орто- ортогональных матриц. Сколько в Мп различных матриц переста- перестановок? 6. Нельзя ли получить какое-либо параметрическое пред- представление для ортогональной группы размерности 3? Вспомнить два представления для ортогональной группы размерности 21). 7. Разобраться в деталях следующего доказательства того, что в теореме 2.1.4 (g) влечет за собой (а). Показать, что вследствие (g) x*(U*U — 1)х = 0 для любого хеС". Поло- Положить Я е= U*U — / и заметить, что Н = Н*. Рассмотреть равен- равенство 0 = (х + е'ву)*Н(х -f- ету), справедливое для всех х, у е С* и для всех 6gR. Получить более общее равенство х*Ну = 0, справедливое для всех х, j/eC". Вывести отсюда, что Я —0 (при помощи подходящего выбора пар векторов х и у). 8. Матрица у1еМ„, такая, что ААТ = 1, называется ортого- ортогональной. Вещественная ортогональная матрица всегда унитарна, а невещественная ортогональная матрица может и не быть уни- унитарной. (а) Пусть Показать, что матрица A (/) = (ch t)I + /(sh t) /Ce M2 будет орто- ортогональной для всех (eR, но унитарной A(t) будет лишь при ^=0. Здесь сЫ=(е' + е~*)/2, sh t =>(<?' — е~*)/2 — так назы- называемые гиперболические функции. (Ь) Показать, что в отличие от унитарных матриц множе- множество комплексных ортогональных матриц не является ограни- ограниченным, а значит, не является и компактным. ') См. упражнение после определения 2.1.5.— Прим. дерев.
92 Гл. 2. Унитарная эквивалентность и нормальные матрицы (c) Показать, что, как и в случае унитарных матриц, мно- множество комплексных ортогональных матриц одного порядка об- образует группу. Несмотря на это, термин «ортогональная группа» обычно используется по отношению к менее широкой (и ком- компактной) группе вещественных ортогональных матриц одного порядка. (d) Доказать, что если матрица А е Мп ортогональна, то |det/l|=l, но А может иметь собственные значения к, такие, что | Я, 1=^=1. Указание. Рассмотреть матрицу A(t) из п. (а) и показать, что |А,@1 может быть как угодно большим. (e) Доказать, что если матрица А^Мп ортогональна, то матрицы А, Ат и А* тоже ортогональны и при этом матрица А невырожденна. Верно ли, что строки или столбцы матрицы А образуют ортогональное множество? (f) Охарактеризовать диагональные ортогональные матрицы. Ср. с задачей 4. Чтобы избежать путаницы, некоторые авторы, говоря об ор- ортогональных и не обязательно вещественных матрицах, назы- называют их комплексными ортогональными матрицами, хотя это и нельзя считать общепринятым. Термин ортогональная матрица иногда означает то, что здесь называется вещественной ортого- ортогональной матрицей. 9. Доказать, что если матрица U^Mn унитарна, то и мат- матрицы U, UT и U* унитарны. 10. Пусть матрица (УеМя унитарна. Доказать, что в этом случае для ортогональности векторов х, i/eC" необходимо и достаточно, чтобы векторы Ux, Uy были ортогональны. 11. Если матрица А е Мп такова, что А~1 =—Ат, то ее можно было бы называть косоортогональной. Доказать, что ко- соортогональность матрицы А эквивалентна ортогональности матрицы ±iA.' Более общо, показать, что для 6eR равенство А~1 = етАт выполняется в том и только в том случае, когда матрица ет/2А ортогональна. Что это за матрица, если 8 = я или 0=0? 12. Доказать, что если А е Мп подобна какой-либо унитар- унитарной матрице, то А-1 подобна А*. 13. Рассмотреть матрицу diagB,'/2)е Л12 и показать, что множество матриц, подобных унитарным матрицам, является собственным подмножеством множества матриц А, для которых А~1 подобна А*. 14. Показать, что в Мп пересечение группы унитарных мат- матриц с группой комплексных ортогональных матриц совпадает с группой вещественных ортогональных матриц. Указание. Запи- Записать U =A -\- iB, где U, А, В е Afrt и матрицы А, В веществен- вещественные. Показать, что если U — одновременно унитарная и комп-
2.2. Унитарная эквивалентность 93 лексная ортогональная матрица, то ВТВ—О и, следовательно, (Bei)T(Bei) = 0 для каждого единичного вектора е,-е R" из стандартного базиса. Поэтому любой столбец в В нулевой. Дополнительная литература Дальнейшие сведения об обобщенных унитарных матрицах, удовлетворяющих условиям теоремы 2.1.9, можно найти в ра- работе DePrima С. R., Johnson С. R. The Range of A~lA* in GL (n, C). —Linear Alg. and Appl., 1974, v. 9, p. 209—222. 2.2. Унитарная эквивалентность Для унитарной матрицы U преобразование A-*-U*AU, опре- определенное на Мп, является подобием, так как в силу унитарности Ц* = ?/-i. Этот специальный тип подобия называется унитар- унитарным подобием или унитарной эквивалентностью. 2.2.1. Определение. Матрица В е М„ называется унитарно эквивалентной матрице А^Мп, если найдется унитарная мат- матрица U е М„, такая, что В = U*AU. Если U можно выбрать ве- вещественной (а значит, вещественной ортогональной), то В на- называется (вещественно) ортогонально эквивалентной матрице Л. Упражнение. Доказать, что унитарная эквивалентность яв- является отношением эквивалентности. 2.2.2. Теорема. Для унитарно эквивалентных матриц А = — [dij] и В = [bij] из М„ имеет место равенство Доказательство. Заметим, что ^ ! аи l2== tr А"А (в силу опре- {, 1 деления матричного умножения). Таким образом, достаточно убедиться в том, что tr В*В = tr А*А. Поскольку B = U*AU, то tr В*В = tr U*A*UU*AU = tr U*A*AU = tr А*А (нужно учесть, что след является инвариантом преобразования подобия). D Упражнение. Теорема 2.2.2 показывает, что тгЛМ — это ин- инвариант унитарного подобия. Придумать другое доказательство теоремы 2.2.2, в котором не рассматривается матрица А*А, а вместо этого используется неизменность евклидовой длины при умножении вектора на унитарную матрицу (этот факт установ- установлен в § 2.1). Заметим, что если матрица умножается на какую- то матрицу слева, то в результате происходит умножение ее столбцов, а если она умножается справа, то происходит умно- умножение ее строк.
94 Гл. 2. Унитарная эквивалентность и нормальные матрицы Упражнение. Показать, что матрицы Г 3 11 Г1 11 L-2 OJ' LO 2J подобны, но не унитарно эквивалентны. Подобие следует из унитарной эквивалентности, но не на« оборот. Поэтому по отношению унитарной эквивалентности Мп разбивается на более мелкие классы, чем по отношению подо* бия. Унитарное подобие, как и обычное подобие, соответствует изменению базиса, но это изменение специального типа — от од- одного ортонормированного базиса к другому. При ортонормиро- ванном изменении базиса не изменяется сумма квадратов мо- модулей элементов матрицы, но она может изменяться при неор- тонормированном изменении базиса. С вычислительной точки зрения унитарная эквивалентность более проста для реализа- реализации по сравнению с подобием, так как транспонирование и комплексное сопряжение выполняются намного проще, чем об* ращение матрицы. При наличии ошибок округления при этом обеспечивается лучшая точность. Поэтому унитарная эквива- эквивалентность имеет преимущества и с точки зрения численной реа- реализации. Строгое объяснение здесь не приводится, однако ин- интуитивно понятно, что оно опирается на факт сохранения длины при умножении на унитарную матрицу. Рассмотрим два специальных (и очень простых) типа уни- унитарных матриц, которые осуществляют преобразования унитар- унитарной эквивалентности, весьма важные для вычисления собствен- собственных значений. 2.2.3. Пример: плоские вращения. Пусть U(Q;i,j) имеет вид i { о j О sin < ——•— cosfl О О 1 О ! О О s,n ... cos ^ О ! I I i J -й столбец J -й столбец / -я строка ¦ Ля строка Эта матрица отличается от единичной лишь элементами в пози? циях (t,i) и (/,/), которые заменяются на cos 9, и в позициях (*,/) и (/, 0» которые заменяются соответственно на sin0 и —§!п е.
2.2. Унитарная эквивалентность 95 Упражнение. Проверить, что U(Q; i, j) является ортогональ- ортогональной матрицей из Mn(R) для любой пары индексов 1 ^ i < / ^ п и любой величины угла 0 ^ Э ^ 2л. Матрица U(Q;i,j) просто осуществляет вращение (на угол 0) в плоскости координат /, /. Заметим, что если матрица умножается слева на U(Q;i,j), то в ней изменяются только i-я и /-я строки, а если она умножает- умножается справа, то изменяются только i-я и /-Й столбцы. Таким обра- образом, при переходе к унитарно эквивалентной матрице, осуществ- осуществляемом с помощью U(Q; i, j), происходит изменение только строк и столбцов с номерами i и /. Унитарная эквивалентность, осу- осуществляемая посредством плоских вращений, — это основной элемент схем Якоби и Гивенса (см. задачи 1 и 2), предназна- предназначенных для вычисления собственных значений. 2.2.4. Пример: преобразования Хаусхолдера. Возьмем про- произвольный ненулевой вектор шеС и образуем матрицу Uw = = / — tww* (Uw^Mn), где t = 2(w*w)-K Заметим, что ww* e М„ и вместе с тем w*w — это положительный скаляр. Если вектор w был нормирован (w*w = I), то t должно быть равно 2, а матрица Uw должна иметь вид UW=I — 2ww*. Ча- Часто образуют матрицу Uw, выбирая заранее именно нормиро- нормированный вектор w. Упражнение. Показать, что Uw оставляет на месте элементы дополнительного подпространства w1, а на одномерном подпро- подпространстве, натянутом на w, Uw действует как отражение, т. е. Uwx = х, если х J_ w, и Uww = —w. Упражнение. Показать, что матрица Uw одновременно уни- унитарна и эрмитова (U*w = Uwy Любая матрица Uw называется преобразованием Хаусхолдера. Иногда то же название исполь- используют и для преобразования унитарной эквивалентности, осу- осуществляемого при помощи Uw Эти преобразования возникают в различных ситуациях, в том числе при вычислении собствен- собственных значений по схеме Хаусхолдера (см. задачи 4 и 5) и при проведении других унитарных преобразований. Заметим, что преобразования Хаусхолдера, примененные к матрице или век- вектору, как правило, изменяют все их компоненты. Однако для ряда задач они обеспечивают исключительно эффективную и точную редукцию. Теорема 2.2.2 предлагает необходимое, но не достаточное условие унитарной эквивалентности двух заданных матриц. Од- Однако к нему можно присоединить дополнительные соотношения, которые в совокупности составят необходимые и достаточные условия. Ключевую роль здесь играет следующее простое поня- понятие. Пусть s, t обозначают две некоммутирующие переменные.
^96 Гл. 2. Унитарная эквивалентность и нормальные матрицы Рассмотрим произвольное конечное формальное произведение неотрицательных степеней переменных s, t W(s, t) = sm4nism4n* ... sm4nK mu nu ..., mk, nft>0 B.2.5) и будем называть его словом от s и f, Степень слова W(s, t)—¦ это неотрицательное целое число т\ + П\ + т2 + «2 + ... ... + пгк -+- пк, т. е. сумма всех его показателей. Для A s Л1 „ мы можем формально составить слово от А и А*: W(A, A') = Am4A'pAm»(A')n* ... АтЦАТк. Выражение для W(A,A*), вообще говоря, не упрощается, так как степени А и А* могут не коммутировать и поэтому перестав- переставлять сомножители в этом произведении нельзя. Пусть матрица А унитарно эквивалентна некоторой матрице В е М„." Тогда А — UBU* для какой-то унитарной U^Mn и в результате несложного вычисления находим W(A, A') = = UBm* (В*) ¦ • • Втк (В*)пь U" = UW (В, В*) U*. Таким образом, tr W(А, Л*) = tr UW(B, В*) U* = tr W(B, В*). Для слова W(s, t)=ts получаем соотношение из теоремы 2.2.2. Если рассматриваются все возможные слова W(s, t), то можно теперь предложить бесконечно много условий, необходи- необходимых для унитарной эквивалентности двух матриц. Теорема Шпехта, которая приводится ниже без доказательства, гаранти- гарантирует также и достаточность этого бесконечного множества не- необходимых условий. g.2.6. Теорема. Две заданные матрицы унитарно эквивалентны тогда и только тогда, когда tr W {A, A') =*trW (В, В*) B.2.7) для всех слов W(s, t) от двух некоммутирующих переменных. Теорему Шпехта можно использовать, чтобы показать, что какие-то две матрицы не являются унитарно эквивалентными, но, за исключением редких случаев (см. задачу 6), установить с ее помощью унитарную эквивалентность практически невоз- невозможно, так как требуется проверка бесконечного множества условий. К счастью, имеется теорема Пирси, которая улучшает теорему Шпехта и позволяет ограничиться проверкой соотноше- соотношений B.2.7) лишь для конечного набора слов.
2.2. Унитарная эквивалентность 97 2.2.8. Теорема. Две заданные матрицы А, ВёМл унитарно эквивалентны тогда и только тогда, когда tr W(A, Л*) = = tr W(B, В*) dfin всех слов W(s,t) степени не выше 2п2. Конечная оценка для числа слов в теореме Пирси — это су- существенное улучшение теоремы Шпехта, но и она, как известно, очень сильно завышена. В действительности при п = 2 доста- достаточно проверить соотношения B.2.7) только для трех слов W(s, t) = s, s2, ts — совсем не обязательно рассматривать все слова степени не выше 2 B2) = 8. При п = 3 можно ограни- ограничиться проверкой соотношений B.2.7) только для девяти слов W (s, /)==s, s2, Is, s3, ts'', t2s2, tsts, ts2ts, /s2/-'s и снова ненужно "перебирать все слова степени не выше 2C2)=-18. Задачи 1. Пусть матрица А = [ац] е Afn(R) симметрична (Ат = А) и не диагональна. Предположим, что индексы i Ф j выбраны таким образом, что обеспечивается максимально возможное значение |а,/|. Определим 9 из соотношения (ац — о//)/2а,/ = ==ctgB9) и рассмотрим плоское вращение U{Q;i, j), о котором говорилось в примере 2.2.3. Используя теорему 2.2.2, доказать, что если ? = ?/(8; I, j)'AU(Q; i, j) = [btl], то Z I ЬИ I2 < Z I atl |2. Показать, что повторные применения таких плоских вращений (выбираемых для В и последующих матриц по тому же прин- принципу) будут уменьшать суммы квадратов внедиагональных эле- элементов, сохраняя при этом суммы квадратов всех элементов; на каждом шаге матрица преобразуется в «более близкую к диагональной». Это и есть метод Якоби для вычисления соб- собственных значений вещественной симметричной матрицы. В нем строится последовательность матриц, сходящаяся к некото- некоторой диагональной матрице. Почему в пределе диагональ состоит из собственных значений матрицы Л? 2. Метод Гивенса для вычисления собственных значений ве- вещественной симметричной матрицы (или произвольной веще- вещественной матрицы) также использует плоские вращения, но по- другому. Показать, что всякая симметричная матрица А = = [a,v] e Afn(R) ортогонально эквивалентна некоторой трехдиа- гональной (симметричной) матрице и произвольная матрица /4eMn(R) ортогонально эквивалентна (нижней) хессенберго- вой матрице — преобразования проводятся с помощью плоских 4 Р. Хорн, Ч. Джонсон
98 Гл. 2. Унитарная эквивалентность и нормальные матрицы вращений. Определения трехдиагональных и хессенберговых матриц см. в разд. 0.9.9 и 0.9.10. Указание. Выбрать плоское вращение U\,3 таким образом, чтобы в позиции A,3) матрица [/*3ЛС/,3 имела 0. Выбрать другое плоское вращение, чтобы по- получить нуль в позиции A,4) и, продолжая таким же образом, получить нуль в позиции A,п). Затем вернуться к позиции B,4) и т. д. Убедиться, что последбвательность этих действий не портит уже полученные нули, а также что ортогональная эквивалентность сохраняет симметричность. Характеристиче- Характеристический многочлен трехдиагональной матрицы можно вычислить непосредственно и, чтобы получить собственные значения, нуж- нужно затем найти его корни. Обратить внимание на то, что мето- методом Гивенса после выполнения конечного числа шагов нахо- находятся не собственные значения или собственные векторы, а только лишь некоторая трехдиагональная матрица. Поэтому не- необходимы еще и дополнительные вычисления. Метод Якоби в общем случае требует бесконечно большого числа плоских вра- вращений, однако он приводит непосредственно к собственным зна- значениям и ортонормированному множеству собственных векторов. 3. Доказать, что всякая матрица А^Мп унитарно эквива- эквивалентна матрице с равными элементами на главной диагонали. Указание, (а) Для А е М2 рассмотреть Л—A/2) {\г АI и пока- показать, что достаточно изучить лишь случай tr<4—0. Доказать, что если вектор )сеС! нормирован, удовлетворяет условию х*Ах = 0 и матрица U = [х, у] е М2 унитарна, то матрица U*AU содержит нуль в позиции A,1), а вследствие равенства следов нуль будет и в позиции B,2). Чтобы найти такой вектор х, надо рассмотреть нормированные собственные векторы матрицы A, w и г, отвечающие собственным значениям К и ¦—К. Если %=0, то положить х = w. Если X ф 0, то рассмотреть xF)e= == e'ew -(- z. Показать, что х(§)ф0 для всех OeR и x(Q)*Ax(Q) — 0 для некоторого OeR; поэтому можно взять век- вектор х = x(Q)/[x(Q)*x(Q)]1/2, отвечающий этому Э. Замечание. Если А е. M2(R), то легко строится (вещественное) плоское вращение U = U(Q; 1, 2), которое обеспечивает в UTAU равен- равенство диагональных элементов, однако это не помогает в комп- комплексном случае1). (Ь) Для А=[ац]^Мп положим f(A)== = max{|a« — а„\: i, /== 1, ..., п) и 4 = [°jl!'J. где ин- индексы lt j таковы, что f(A) = \au — ац\. Пусть U2 e M2 — такая ') В буквальном смысле это верно. Однако в комплексном случае ничто не мешает использовать обобщенные плоские вращения — они опреде- определяются тремя вещественными параметрами 6, гЬ1( гЬ2 и в Mi имеют — вид cos о — е т sin о | Ь ¦ о -М>. о Г "" ПриМ" перев- 4 sin о в cos о J л Г L
2.2. Унитарная эквивалентность 99 унитарная матрица, для которой U*2A2U2 имеет равные диаго- диагональные элементы. Перейдем от нее к матрице U(i, /)e Мп, дей- действуя так же, как и в разд. 2.2.3, где матрица U(Q;i,j) строи- строилась на базе плоского вращения порядка 2. Показать, что если максимальной по модулю разности диагональных элементов от- отвечает только одна пара индексов /, /, то f(U(i,j)*AU{i,j))<. <Cf(A), в противном случае эту процедуру, возможно, придется повторить. В итоге обосновать существование унитарной мат- матрицы U^Mn, такой, что f(U*AU)<lf(A), при условии, что f(A) =5^0. Показать, что множество R{A) = {U*AU: U<^Mn — унитарная матрица} является компактным и f — непрерывная функция на R(A). Пусть матрица Cei?(,4) такова, что )'(С) = = min{/(fi): B^R(A)}. Доказать, что неравенство /(С)>0 невозможно. Поэтому /(С) = 0, откуда и вытекает то, что тре- требовалось доказать. 4. Показать, что с помощью преобразования Хаусхолдера любой вектор xeR" евклидовой длины г = (хтх)'/2 можно пе- перевести в любой вектор г/е R", уфх, той же длины. Указание. Построить Uw для w = х — у. Что молено сказать о случае, когда х,у<= С"? 5. Метод Хаусхолдера для вычисления собственных значений матрицы А ^ Mn(R), подобно методу Гивенса, сначала приво- приводит А к (верхней) хессенберговой форме (или к трехдиагональ- ному виду в симметричном случае). Пусть матрица имеет вид ¦ * * * * : * Ч о '••'. * 0 * * *- к -я строка *- if+1-я строка t к -я столбец где для всех / = 1, ..., k в /-м столбце ниже / —f— 1-й компо- компоненты идут нули. Построить преобразование Хаусхолдера, кото- которое осуществляет ортогональное подобие, преобразующее дан- данную матрицу в матрицу, имеющую ту же форму с заменой k на k-\-\. Вывести отсюда, что любую матрицу ieMn(R) можно привести к хессенберговой форме в результате выполне- выполнения п — 2 преобразований подобия Хаусхолдера. При этом сим- симметричная матрица А^.Мп{Щ преобразуется в трехдиагональ- ную. Указание. Для k + 1-го столбца нужно взять преобразова- преобразование Хаусхолдера иеМм, которое вектор размерности п — k, составленный из поддиагональных элементов, переводит в под- 4*
100 Гл. 2. Унитарная эквивалентность и нормальные матрицы ходящее кратное вектора [1,0, ..., 0]reR"-'. Для всей мат- матрицы подобие реализуется ортогональной матрицей / 0 0 U При этом получается именно то расположение нулей, которого мы добиваемся. 6. Пусть заданы матрицы Л е Л1„ и В, С^Мт. Используя теорему Шпехта 2.2.6 или теорему Ппрси 2.2.8, доказать, что В и С унитарно эквивалентны тогда и только тогда, когда выпол- выполняется любое из следующих условий: [А 0 1 Г А 01 о В и о С унитарно эквивалентны; (Ь) 0' о 0" о унитарно эквивалентны (обе матрицы представляют собой прямые суммы с одинако- одинаковым числом членов); (с) о о о о унитарно эквивалентны (в этих прямых суммах одинаковое число членов). 7. Показать, что имеется 2k различных слов W(s,t) вида B.2.5) заданной степени k. Вывести отсюда, что различных слов степени не выше 2п2 будет не больше 4"!. 8. Привести пример двух матриц порядка 2, которые удов- удовлетворяют соотношению из теоремы 2.2.2 и не являются уни- унитарно эквивалентными. Объяснить, почему. Дополнительная литература и комментарии Оригинальное доказательство теоремы 2.2.6 см. в статье: Specht W. Zur Theorie der Matrizen, II. —• Jahresbericht der Deut- schen Mathematiker Vereinigung 1940, B. 50, S. 19 — 23. Дока- Доказательство теоремы 2.2.8 см. в работе: Реагсу С A Complete Set of Unitary Invariants for Operators Generating Finite W*- Aigebras of Type I. — Pacific J. Math., 1962, v. 12, p. 1405—1416. Унитарная эквивалентность матриц малого порядка обсуждает-
2.3. Теорема Шура об унитарной триангуляризации 101 ся в работе: Реагсу С. A Complete Set of Unitary Invariants for 3X3 Complex Matrices. — Trans. Amer. Math. Soc, 1962, v. 104, p. 425—429. 2.3. Теорема Шура об унитарной триангуляризации Произвольная матрица А е М„ унитарно эквивалентна ка- какой-то верхней треугольной матрице Т (а также и какой-то ниж- нижней треугольной матрице) — и это, возможно, самый полезный и фундаментальный факт во всей элементарной теории матриц. Конечно, главная диагональ в Т содержит собственные значе- значения матрицы А. Несмотря на неединственность матрицы Т, она является наиболее просто устроенной матрицей, к которой всегда можно перейти посредством унитарной эквивалентности. 2.3.1. Теорема (Шура об унитарной триангулярнзацни). Пусть задана матрица А е М„ и зафиксирован какой-то поря- порядок ее собственных значений Ки ..., ?,„. Тогда существует уни- унитарная матрица U е Мп, такая, что — верхняя треугольная матрица с диагональными элементами tn = Xi (/ = ], ..., п). Таким образом, любая квадратная мат- матрица А унитарно эквивалентна треугольной матрице, в которой диагональные элементы представляют собой собственные значе- значения для А, записанные в произвольном заранее заданном по- порядке. Кроме того, если 4eAfn(R) и все ее собственные значе- значения вещественны, то U можно выбрать вещественной и ортого- ортогональной. Доказательство. Доказательство носит алгоритмический ха- характер и сводится к последовательности однотипных редукций. Пусть хA) — нормированный собственный вектор матрицы Л, отвечающий собственному значению К. Вектор хA> ненулевой и в С" его можно дополнить до базиса Применим процесс ортонормирования Грама — Шмидта (см. разд. 0.6.4) и перейдем в С* к ортонормированному базису x(l) z{2) г{3) # _ _ 2(Я)_ Эти векторы — в порядке слева направо — будем считать столб- столбцами унитарной матрицы U\. В матрице AU\ первый столбец есть AjXA), поэтому матрица и*(АиЛ имеет вид Г Я, ! * 1 U'.AU, = •¦¦¦¦•¦•:¦ . 1 ' L О j A, J
102 Гл. 2. Унитарная эквивалентность и нормальные матрицы Собственные значения матрицы А\^Мп-\ — это %2, ..., Яп. Пусть хМ е С"-1 есть нормированный собственный вектор для Аи отвечающий Я2. Далее все повторяется. Для некоторой уни- унитарной матрицы ?Л е Мп-\ ГА2|* I L'oTXJ1 и полагаем Матрицы 9 ' о j и2 и U1V2 унитарны и при этом ГXi * К L о !> Продолжаем редукцию и находим унитарные матрицы ?/; е е Мл-i+i (/ == 1, ..., п— 1) и унитарные матрицы I/,- е Л1,г (г = = 2 я—1). Матрица унитарна, и она обеспечивает треугольный вид матрицы U*AU. Если все собственные значения матрицы А^Мп(Ц) оказа- оказались вещественными, то отвечающие им собственные векторы тоже можно выбрать вещественными, т. е. все шаги, описанные выше, реализуются в вещественной арифметике, что и доказы- доказывает заключительное утверждение. D Замечание. Из доказательства теоремы 2.3.1 видно, что в ее формулировке можно говорить не о верхних треугольных, а о нижних треугольных матрицах. При этом, конечно, унитарная эквивалентность будет осуществляться другой матрицей U. 2.3.2. Пример. В теореме 2.3.1 неоднозначно определяются и U, и Т. Для Т неоднозначность связана не только с главной диагональю (ее элементы — собственные значения для А — можно расставлять в любом порядке). То, что находится выше главной диагонали, для унитарно эквивалентных верхних тре- треугольных матриц может различаться весьма сильно. Например, матрицы -( 1 0 0 1 2 0 4 2 3 1 г- 1 • 12 —  0 0 -1 1 0 Зд/2 V2 3
2.3. Теорема Шура об унитарной триангуляризации 103 унитарно эквивалентны и соответствующее преобразование осу- осуществляется матрицей [1 1 О' ¦ -I 0 0 0 2. В общем случае в один и тот же класс по отношению унитар- унитарной эквивалентности могут входить многие различные верхние треугольные матрицы. Замечание. Обратим внимание на то, что техника, использо- использованная при доказательстве теоремы 2.3.1, — это не что иное, как последовательное понижение порядка, о чем говорилось в за- задаче 8 из § 1.4. Упражнение. Если Л е Мп унитарно эквивалентна какой-то верхней треугольной матрице Г = [(,-(]еМл, то, несмотря на не- неоднозначность определения элементов ti/, величина 2_, | tlt P определяется уже однозначно. Выразить ее в терминах элемен- элементов и собственных значений матрицы А. Указание. Использо- Использовать теорему 2.2.2. Упражнение. Показать, что если матрицы А~[пц], В = [Ьц] ^ М2 подобны и при этом ? I ац I2 = X I Ьи |2, то Л и В унитарно эквивалентны. Показать на примере, что это не пере- переносится на случай более высокой размерности. Указание. Если А и В унитарно эквивалентны, то Л+Л* и В -4- В* тоже уни- унитарно эквивалентны. Рассмотреть матрицы [ 1 3 01 = 10 2 4 0 0 3J 5 = ¦ 1 0 -0 0 2 0 0" 5 3- Теорему 2.3.1 полезно дополнить утверждением о том, что матрицы, принадлежащие коммутативному семейству, можно привести к треугольному виду с помощью одной и той же мат- матрицы. 2.3.3. Теорема. Пусть семейство !F E Мп коммутативно. Тогда существует унитарная матрица U е Мп, такая, что матрица U*AU будет верхней треугольной для всех А^Ф". Доказательство. Вернемся к доказательству теоремы 2.3.1. На каждом его шаге происходит выбор собственного вектора [{а унитарной матрицы) и при этом, согласно лемме 1.3.17, для
104 Гл. 2. Унитарная эквивалентность и нормальные матрицы всех Ле^ можно выбрать общий собственный вектор (и уни- унитарную матрицу). Кроме того, унитарная эквивалентность со- сохраняет для матриц свойство коммутативности, и, как нетрудно проверить, если блочные матрицы VAn Al2l ГД„ 8I2 I L 0 А22_Г L 0 В22\ коммутируют, то блоки А22 и В22 тоже коммутируют. Таким образом, на каждом этапе редукции, осуществляемой в ходе до- доказательства теоремы 2.3.1, мы получаем коммутативное семей- семейство матриц Ai. Остается заметить, что все матрицы, используе- используемые для определения U, можно выбирать одинаковыми для всех членов коммутативного семейства; тем самым теорема 2.3.3 до- доказана. Обратим внимание на то, что теперь ничего не говорит- говорится о каком-либо упорядочении собственных значений для раз- различных членов семейства. Мы получаем их в том порядке, в ка- каком они появляются в результате применения леммы 1.3.17. D Ниже предлагается чисто вещественный вариант теоремы 2.3.1. 2,3.4. Теорема. Для любой матрицы /leMn(R) существует, вещественная ортогональная матрица QeMn(R), такая, что 0 Аь B.3.5) где для каждого i матрица At имеет размер 1 X 1 или 2X2, от- отвечая соответственно вещественному собственному значению или невещественной паре комплексно-сопряженных собственных зна- значений матрицы А. Блоки Ai можно расположить в любом задан- заданном порядке. В общем случае нельзя рассчитывать на то, что произволь- произвольную вещественную матрицу удастся привести к верхнему тре- треугольному виду с помощью вещественного преобразования по- подобия (не говоря уже о вещественном ортогональном подобии), так как диагональ должна состоять из собственных значений, а они могут и не быть вещественными. Матрица вида B.3.5) максимально близка к треугольной с точки зрения того, чего можно добиться с помощью вещественного ортогонального по- подобия. Если Л имеет невещественные собственные значения, то
2.3. Теорема Шура об унитарной триангуляризации 105 привести ее к верхней треугольной форме нельзя, однако в лю- любом случае мы получаем верхнюю хессенбергову форму. Упражнение. Доказать теорему 2.3.4, видоизменив рассужде- рассуждения, связанные с теоремой 2.3.1. Указание. Если X — веществен- вещественное собственное значение вещественной матрицы А, то имеется отвечающий ему вещественный собственный вектор и его мож- можно использовать для понижения порядка, как это было сделано в теореме 2.3.1. Пусть X = a -f- ф — невещественное собственное значение матрицы А и для x = u-\-iv=^=Q имеем Ах = Хх (ii,oeR"), Установить равенства Аи — аи — |3и, Ло = аи + Cгг и Ах = Хх и показать, что множество {х, х) линейно независимо. Убедиться в линейной независимости множества {и, v) и, приме- применяя к нему процесс ортонормирования Грама — Шмидта, полу- получить вещественное ортонормированное множество {гю, г}. Пусть Qi обозначает вещественную ортогональную матрицу с двумя первыми столбцами, совпадающими с w и г. Показать, что * * I 1 * * i * I L""o jl'J так что в данном случае порядок понижается сразу па 2. Остается убедиться в том, что блоки Л,-, каждый из которых от- отвечает вещественному собственному значению либо паре комп- комплексно-сопряженных собственных значений, можно расставить в любом заданном порядке. Имеется также вещественный вариант теоремы 2.3.3. 2.3.6. Теорема. Пусть семейство SrsMn(R) коммутативно. Тогда существует вещественная ортогональная матрица Q е SiVfra(R), такая, что матрица QTAQ имеет вид B.3.5) для всех Упражнение. Доказать теорему 2.3.6, видоизменив рассуж- рассуждения, относящиеся к теореме 2.3.3. Указание. Сначала для всех членов семейства ?F выполнить понижение порядка, используя общие вещественные собственные векторы. Затем рассмотреть общие невещественные собственные векторы и проводить пони- понижение порядка с помощью сразу двух столбцов (как в доказа- доказательстве теоремы 2.3.4). Обратим внимание на то, что разные члены семейства ?Г после выполнения преобразования ортого- ортогонального подобия могут иметь разное число блоков размера 2X2. Однако если какой-то член имеет в каком-то месте блок размера 2X2, то любой другой член, не обладающий таким блоком, должен в этом же месте иметь пару одинаковых блоков размера 1X1.
106 Гл. 2. Унитарная эквивалентность и нормальные матрицы Задачи 1. Пусть х е С — заданный единичный вектор (х'х = 1). Запишем х — [хи ут]т, где х{ с= С и i/eC". Выберем 0eR, такое, что етх{^0, и образуем вектор z = eiex = [гь ?Г]Г, где число Zy e R неотрицательно и ^еС". Доказать, что матрица ? I -• н- унитарна. Указание. Установить равенство V*V = V2 и убедить- убедиться в том, что матрица U = е~'вV = [хи2 ... ««] унитарна и ее первым столбцом служит заданный вектор X. Это дает кон- конструктивный метод нахождения унитарных матриц, необходи- необходимых для последовательного понижения порядка в доказатель* стве теоремы Шура. 2. Пусть задан вещественный единичный вектор х е R". При- Приспособить конструкцию, описанную в задаче 1, для нахождения вещественной ортогональной матрицы QeMn(R) с первым столбцом, равным х. Доказать, что эта конструкция будет ра« ботать. 3. Пусть /lejMn(R). Объяснить, почему невещественные соб- собственные значения для А (если они есть) можно разбить на Пары комплексно-сопряженных чисел. 4. Рассмотреть семейство К -1]} и показать, что коммутативность, предполагаемая в теореме 2.3.3, будучи достаточной для одновременного приведения се- семейства ~ЯГ к верхнему треугольному виду преобразованием унитарного подобия, не является необходимой. 5. Пусть задано семейство ff~—{А\, ..., Ak}czMn и рас» сматривается семейство 9 = {AtAt: i, /=1, 2,..., k), составленное из попарных произведений матриц, входящих в З7". Известно, что если ^ коммутативно, то одновременное приведе- приведение матриц из ^ к верхнему треугольному виду с помощью унитарного подобия возможно в том и только в том случае, когда каждый коммутатор AtAj — Л/Л,- имеет лишь нулевые соб- собственные значения. Показать, что предположение о коммута- коммутативности § является более слабым по сравнению с предположе- предположением о коммутативности @~. Показать, что для семейства OF из задачи 4 отвечающее ему семейство {? коммутативно и что ЗГ'
2.4. Некоторые следствия теоремы Шура 107 удовлетворяет также условию на собственные значения комму- коммутаторов. 6. Пусть заданы матрицы А, В <= Мп и одно и то же преоб- преобразование подобия приводит Л и В к верхнему треугольному виду, т. е. для некоторой невырожденной матрицы 5 е М„ обе матрицы 5-1Л5 и S~lBS верхние треугольные. Доказать, что все собственные значения матрицы АВ — ВА равны нулю. Указа- Указание. Пусть обе матрицы А;, Д2 е Мп верхние треугольные. Найти главную диагональ матрицы А1А2 — ДгДь 7. Каждая квадратная матрица приводится к верхнему тре- треугольному виду с помощью преобразования унитарного подобия, но это не верно по отношению к комплексному ортогональному подобию. Пусть матрица А е Мп записана в виде А = QAQr, где Q^Mn — комплексная ортогональная матрица и ДеА1„ — верхняя треугольная матрица. Доказать, что А имеет хотя бы один собственный вектор х е С", такой, что хтх ф 0. Рассмот- Рассмотреть Л = [1 _}] и показать, что не каждую матрицу А е Мп можно привести к верхнему треугольному виду, если использо- использовать для этого преобразования комплексного ортогонального подобия. 8. Пусть Q е М„ — заданная комплексная ортогональная матрица, и предположим, что ieC — ее собственный вектор, отвечающий собственному значению кф±\. Доказать, что хтх = 0. Указание. Обе части равенства Qx = Xx умножить на транспонированные к ним. См. задачу 8(а) из § 2.1—там при- приводится пример семейства комплексных ортогональных матриц размера 2X2, у которых оба собственных значения отличны от ±1. Показать, что ни одну из этих матриц нельзя привести к верхнему треугольному виду с помощью ортогонального по- подобия. Дополнительная литература Доказательство усиленного варианта теоремы 2.3.3, сформу- сформулированного в задаче 5, см. в работе: Hong Y. P., Horn R. А. On Simultaneous Reduction of Families of Matrices to Triangu- Triangular or Diagonal Form by Unitary Congruences.— Linear and Mul- Multilinear Algebra, 1985, v. 17, p. 271—288. 2.4. Некоторые следствия теоремы Шура Чтобы показать, какую пользу приносит теорема Шура, мы рассмотрим несколько ее элементарных следствий. Упражнение. С помощью теоремы 2.3.1 показать, что если А^Мп имеет собственные значения Ки ..., Хп (с учетом крат-
108 Гл. 2. Унитарная эквивалентность и нормальные матрицы ностей), то det Л = 1=1 Напомним, что это было доказано другим способом в гл. 1. Указание. Что касается следа, то полезно вспомнить равенство tr AB = tr BA, которое проверяется прямым вычислением. Как мы видим, след является инвариантом подобия. Что можно ска- сказать о других симметрических функциях от собственных зна- значений? Устанавливаемый теоремой 2.4.2 факт, что каждая матрица удовлетворяет своему характеристическому уравнению, следует из теоремы Шура и простого наблюдения, относящегося к умно- умножению треугольных матриц. 2.4.1. Лемма. Предположим, что матрицы R=[rtj], T=[tl}]<^.Mn верхние треугольные, г;/ = 0 при l^i, j^k < п и tk+ltk+i = 0. Пусть Г = [t'ti] = RT. Тогда ?ц = 0, где 1 < i, j < /г + 1 • Доказательство. Поскольку R({1, 2, ..., 6}) = 0 и /ft+lifc+1 = 0, матрицы R и 7' имеют вид i 0! * "* ¦ *' * ' о '• , j Id ! * * 0 1 о • . где в обеих матрицах левый верхний блок имеет размер & X &< В Т левый верхний блок размера ky(,k, очевидно, нулевой в силу правила умножения блочных матриц (см. § 0.7, где дают- даются обозначения и элементарные сведения). Далее, легко видеть, что первые k + 1 строк в R имеют нули во всех позициях, соот- соответствующих ненулевым элементам k-\- 1-го столбца в Г, и пер- первые k + 1 столбцов в 7 имеют нули во всех позициях, соответ- соответствующих ненулевым элементам &+1-Й строки в R. Если 7" разбить на блоки таким же способом, как R и Т, то в резуль* тате матричного умножения находим, что \ oh * 4 т. е. 7"'({1 , что и требовалось доказать. D
2.4. Некоторые следствия теоремы Шура . 109 Упражнение. Показать, что произведение двух верхних тре- треугольных матриц будет верхней треугольной матрицей и про- произведение двух блочных верхних треугольных матриц (с одина- одинаковым блочным разбиением) будет блочной верхней треуголь- треугольной матрицей. Упражнение. Обобщить лемму 2.4.1, показав, что если мат- матрицы /? и Т верхние треугольные и Т = RT, то T'({i,i+\, .... / + /}) = 2.4.2. Теорема (Кэли — Гамильтон). Если PaU) — характери- характеристический многочлен матрицы А е Мп, то Доказательство. Поскольку Ра{г) — это многочлен степени п со старшим коэффициентом 1 и корни уравнения /?,<](/) = 0 со- совпадают с собственными значениями Яь ..., Ял матрицы А (с учетом кратностей), то для рд (/) имеет место разложение Согласно теореме 2.3.1, запишем А = UTU*, где Т — верхняя треугольная матрица с Я, в i-й диагональной позиции (г' = 1, ..., п). Далее, рА (А) = рА (UTU*) = (UTU* - /Ц/) (UTU* - К21) ... {UTU* - КО = = [U(T- V) и*] [и (т - V) и*]... W (т - xj) и*] = = и[(т- я,/) (т - я2/)... (г - я„/)] и* = uPa (T) и: Заметим, что рА(А) = 0 тогда и только тогда, когда рА(Т) = 0. Последнее и вытекает из леммы 2.4.1. В матрице Г — %\1 левый верхний 1 X 1-блок есть 0, в матрице Т — Я2/ позиция B,2) со- содержит 0 и обе эти матрицы верхние треугольные, следователь- следовательно, в матрице (Т — Х\1) (Т — Я2/) левый верхний 2Х2-блок есть 0. По индукции, поскольку в матрице (Т — Я)/) ... (Т — ЯА/) левый верхний k X ?-блок нулевой и позиция (k-\-\,k-\-\) матрицы Т — Kk+\I содержит 0, заключаем, что левый верхний ,(*+ 1)Х(^ + 1)-блок матрицы (T — liI) ... (Т — Xk+1I) есть 0. Это построение проводим до тех пор, пока не придем к равен- равенству (Г — Я]/) ... (Т—Ял/) = 0, и теорема доказана. D Упражнение. Что не верно в следующем «доказательстве» равенства рд(Л) = 0? Для любого собственного значения Я мат- матрицы ДеМ„ имеем р,4(Я) = 0, и для любого многочлена q соб-
110 Гл. 2. Унитарная эквивалентность и нормальные матрицы ственные значения матрицы q(A) равны q(К). Отсюда выте- вытекает равенство нулю всех собственных значений матрицы рл(А). Следовательно, /Эд(Л) = 0. Это типичная ошибка при обоснова- обосновании теоремы Кэли— Гамильтона. Приведите пример, который ясно показывает, что же именно здесь ошибочно. Упражнение. Что не верно в следующем «доказательстве»? Так как pA(t)= det(tl— А), то pA(A) = det(AI — A) = det(A — ~— А) = detO = 0 и, следовательно, рА (Л) = 0. Если характеристический многочлен для А е М„ определяет- определяется как рл (/) = det{// — А), то характеристическое уравнение — это уравнение вида pA(t) — O. Корни характеристического урав- уравнения— это собственные значения матрицы А. Теорему Кэли — Гамильтона часто формулируют так: «всякая квадратная мат- матрица удовлетворяет своему характеристическому уравнению». Однако в действительности под этим понимается следующее: сначала мы вычисляем скалярный многочлен pA{t) — dei{tI — А) и только после этого, исходя из него, образуем матрицу рА(А). Теорема Кэли — Гамильтона установлена нами для матриц с комплексными элементами, а значит, она справедлива и по от- отношению к матрицам с элементами из какого-либо подполя поля комплексных чисел (например, для вещественных или рацио- рациональных чисел). В действительности теорема Кэли — Гамиль- Гамильтона без какого-либо изменения переносится и на случай мат- матриц с элементами из произвольного поля или, более общо, из произвольного коммутативного кольца. См. задачу 3. Одно из важных следствий теоремы Кэли — Гамильтона — это возможность записать при k ^ n степени Ak матрицы А е Мп в виде линейных комбинаций матриц /, А, А2, ,.., А"-1. Легко показать, что степени Ап' и выше выражаются в виде линейных комбинаций более низких степеней (вследствие того, что если Мп рассматривать как векторное пространство над по- полем комплексных чисел, то его размерность будет равна п2). Как мы видим, теорема Кэли — Гамильтона обеспечивает зна- значительное уточнение этого результата. 2.4.3. Пример. Положим L —2 0 J' Тогда pA(t) = t2 — 3/ + 2 и А2 —ЗА+ 21 = 0. Таким образом, Л2 = ЗА - 21, АЪ = А (А2) = ЗА2 - 2А = 3 (ЗА - 21) - 2 А = 7 А - — 6/, Ai — 7A2 — 6Л= 15Л — 14/ и т. д. В то же время по- постоянная в pA(t) равна определителю матрицы А и здесь он от- отличен от нуля; поэтому матрица А невырожденна и А-1 можно записать как многочлен от А. Действительно, вследствие равен*
2.4. Некоторые следствия теоремы Шура 111 ства рА (Л) — Л2 — ЗА + 2/ получаем 2/ «= —Л2 + ЗЛ = Л (—Л -J- + 3/) или Это означает, что А~1 *= —-^ А + -^1 = \\ /2] 3/2]• Упражнение. Пусть А&М„ имеет характеристический мно- многочлен Записать А" как многочлен от Л степени не выше п— 1. Проде- Проделать то же самое для нескольких последующих степеней. В пред- предположении, что матрица Л невырожденна (аофО), записать Л-1 как многочлен от Л степени не выше п—1. Мы сформули- сформулируем этот факт как следствие теоремы 2.4.2. 2.4.4. Следствие. Если матрица А е Мп невырожденна, то су- ществует многочлен q(t) степени не выше п—1 {его коэффи* циенты зависят от А), такой, что Л-1 = q(A). Упражнение. Показать, что если две матрицы А, В^Мп по- подобны, то и значение любого многочлена на одной из них по- подобно значению этого же многочлена на другой. В частности, если одна из этих матриц является корнем какого-то матрич- матричного многочлена, то корнем этого многочлена будет и другая матрица. Продумать возможность обратного утверждения: если для любого многочлена две матрицы одновременно являются или не являются его корнями, то эти матрицы подобны — верно это или нет? 2.4.5. Пример. Как установлено, любая матрица А е М„ яв- является корнем какого-то многочлена степени п, например ха- характеристического многочлена. Однако матрица А е Мп может быть корнем и какого-то многочлена степени меньше п. Так, матрица [1 0 0- 0 1 1 еМ3 0 0 1- удовлетворяет уравнению ^(Л) = 0, где многочлен q(t)=t2—• •—2^ + 1 имеет степень 2. Упражнение. Доказать, что любая диагонализуемая матрица является корнем многочлена степени, равной числу ее различ- различных собственных значений, и меньшую степень получить нельзя. Многочлен (со старшим коэффициентом 1) минимальной сте-
 Гл. 2. Унитарная эквивалентность й нормальные матрицы пени, которому удовлетворяет заданная матрица, — ее мини- минимальный многочлен — будет изучаться в гл. 3 в связи с жорда- новой канонической формой. Указание. Рассмотреть q (t) = (t — Xl)...(t — Kk), где А, ф К,. Еще одно применение теоремы Шура позволит нам устано- сить «почти» диагонализуемость любой матрицы, причем смысл этой фразы можно интерпретировать двумя способами. Первый: для любой матрицы существует сколь угодно близкая к ней диагональная матрица. Второй: любая матрица подобна верх- верхней треугольной матрице с произвольно малыми внедиагональ- ными элементами. 2.4.6. Теорема. Пусть А = [аи] е= Мп. Для любого е>0 су- существует матрица ^(е) = [а,-,(8)]еМя, имеющая п различных собственных значений, (и, значит, диагонализуемая) и такая, что п ? I о.ц — а-и (е) |2 < е. i /1 Доказательство. Пусть матрица V е М„ унитарна и такая, что U*AU = Г — верхняя треугольная матрица. Образуем мат- матрицу Е = diag(eb e2, ..., е„) и при этом числа еи ..., е„ вы- выберем таким образом, чтобы для всех i выполнялось неравен- неравенство и, кроме того, числа tn-\-e\, ^22 + е2, .... tnn-\-еп были раз- различны (нужно лишь небольшое усилие, чтобы увидеть, что это можно сделать). Матрица Т + Е имеет п различных собствен- собственных значений t\\-\-в\, ..., tnn-\- en и матрица А-\- UEU* тоже имеет п различных собственных значений, так как она подобна Т + Е. Положим A(e) = A + UEU\ так что А — А(е) = — UEU*. Согласно теореме 2.2.2, получаем 1,1 г=-1 Таким образом, матрица А(г) именно та, о которой говорится в теореме. ? Упражнение. Показать, что условие ? | ац — аИ (е) |2 < е в теореме 2.4.6 можно заменить условием max | ац — ац (е) | < е. Указание. Применить теорему 2.4.6, заменив е на е2, и восполь-
2.4. Некоторые следствия теоремы Шура 113 зоваться тем, что если сумма квадратов модулей каких-то ве- величин меньше е2, то каждая из этих величин по модулю меньше е. 2.4.7. Теорема. Пусть А е Мп. Для любого е > О существует невырожденная матрица Se e Мп, такая, что матрица верхняя треугольная и \tij(e) | < е для 1 ^ i < / ^ п. Доказательство. Сначала, согласно теореме Шура, запишем где U (= Мп — унитарная, а Ге Мп — верхняя треугольная матрицы. Образуем матрицу ?)a = diag(l, a, a2, ..., а"") для ненулевого числа а и положим / = max | t(t |. Предположим, что е < 1, — в действительности достаточно рассмотреть только этот случай. Положим Se = UDe, если /^1, и Se = t/Di/<De, если О 1. В обоих случаях S8 является искомой матрицей. Если /^1, то простое вычисление обнаруживает, что t{j{&) = = ttle~lef = ttte{~i и по модулю это не больше г!~1, а следова- следовательно, не больше, чем е, при i <C /. С другой стороны, если t> 1, то, произведя преобразование подобия с помощью транс- трансформирующей матрицы D[/t, мы приходим к матрице, внедиаго- нальные элементы которой по модулю не больше, чем 1. Упражнение. Доказать следующее видоизменение тео- теоремы 2.4.7: если А е Мп и е > 0, то существует невырожден- невырожденная матрица SeeAfn, такая, что матрица SelASe = Т& = [/</(е)] верхняя треугольная и 2Un(e)l<e- Указание. Применить' теорему 2.4.7, заменив е на B/(п(п—1)))е. Рассмотрим обобщение теоремы Шура, которое легко дока- доказывается с ее помощью и является важным шагом на пути к жордановой канонической форме, которой посвящается следую- следующая глава. 2.4.8. Теорема. Предположим, что А е Мп имеет различные собственные значения \\, ..., %и и кратность %i равна tit {1 = = I k). В этом случае А подобна матрице вида Т, О О
114 Гл. 2. Унитарная эквивалентность и нормальные матрицы где Tt^.Mn —верхняя треугольная матрица с диагональными элементами, равными %t (t = l, ..., k). Если /lsMa(R) и все собственные значения для А вещественны, то матрица, осуще- осуществляющая это подобие, может быть выбрана вещественной. Доказательство. Сначала применим теорему Шура, чтобы перейти от Л к (унитарно) подобной верхней треугольной мат- матрице 1 =\trs\, и предположим, что собственные значения на диагонали в Т упорядочены таким образом, что сначала идут равные К\, затем равные Яг и т. д. После этого мы выполним для Т последовательность простых (неунитарных) преобразова- преобразований подобия, чтобы получить желаемые внедиагональные нули, оставляя без изменения диагональ и сохраняя также верхнюю треугольную форму матрицы Т. Пусть Ers обозначает матрицу из Мп, имеющую нули всюду, кроме позиции (r,s), где стоит 1. Заметим, что для любого числа а матрица / -f- aErs невырож- денна, если г ф s, и (/ + aErs)~l — / — aErs. Далее, прямое вы- вычисление обнаруживает, что если при г ¦< s с помощью транс- трансформирующей матрицы / -J- aErs перейти от Г к подобной мат- матрице (/ + aErs)~l Т (I + аЕгя) = (/ - aErs) T (I + aErs), то в Т ничего не изменится, кроме элементов в r-й строке, рас- расположенных правее s-ro столбца, элементов в s-ш столбце, рас- расположенных выше r-й строки, и элемента trs, который станет равным trs-{-a(trr — tss), т. е. получится матрица вида [Ы Таким образом, если trr Ф tss, то выбор а._ ~frs trr — tss позволяет получить нуль в позиции (г, s), не изменяя при этом верхней треугольной формы и диагонали матрицы Т. Теперь для Т установим следующий порядок позиций: (л— 1, л), (л — 2, л — 1), (л — 2, п), (л —3,п —2), (л —3,л—1),, (л — 3,л), (л — 4, л — 3), ... . В каждой из них, если tSs?=trr, последо- последовательно будем получать нули, используя подобие указанного выше типа; уже полученные нули не будут портиться. В резуль- результате будет построена матрица, которая подобна А и имеет иско- искомую форму. ? Упражнение. Показать, что для матрицы 4eMn(R) с. ве- вещественными собственными значениями все операции, проводи- проводимые для доказательства теоремы 2.4.8, можно выполнить в ве«
2.4. Некоторые следствия теоремы Шура 115 щественной арифметике. Таким образом, в этом случае теорема гарантирует существование вещественной блочно-диагональной матрицы, к которой можно перейти с помощью вещественного подобия. Замечание. Предположим, что заданная матрица А е Мп верхняя треугольная, и пусть она (после выполнения преобра* зования подобия с матрицей перестановки в качестве трансфор- трансформирующей, если это необходимо) имеет вид О At где каждый блок Ац верхний треугольный и содержит на диаго- диагонали только Хс, предположим также, что h Ф%\ при i ф /. В до- доказательстве теоремы 2.4.8 предлагается алгоритм, показываю- показывающий, что А подобна матрице Аи О о At Таким образом, все внедиагональные блоки можно заменить на нулевые и при этом будет получена подобная матрица. Заме- Заметим, что если хотя бы один внедиагональный блок Ац ненуле- ненулевой, то такого результата нельзя достичь посредством унитар- унитарного подобия из-за того, что при унитарном подобии сохра- сохраняется сумма квадратов модулей всех элементов. Теперь обратимся к коммутативным семействам и теореме 2.3.3 (аналогу теоремы Шура), чтобы установить, что при сло- сложении коммутирующих матриц происходит «сложение» их соб- собственных значений — в определенном порядке. 2.4.9. Теорема. Пусть матрицы А, В <^Мп имеют собственные значения а\, ..., ап и pi, ..., рл соответственно. Если А и В коммутируют, то собственные значения для А-\- В имеют вид а1 + Р<,> а2 + Рг2 ая+Рг„> где г'ь ••-. in —некоторая пере- перестановка индексов 1, ..., п. В частности, для коммутирующих АВ имеем о(А + В)^о(А)+ а(ВI). '} Здесь под суммой множеств понимается множество чисел, получаемых путем сложения всевозможных пар чисел, взятых из множеств-слагаемых.— Прим. черев.
116 Гл. 2. Унитарная эквивалентность и нормальные матрицы Доказательство. Если А и В коммутируют, то, согласно тео- теореме 2.3.3, они приводятся к треугольному виду одновременно, т. е. существует унитарная матрица U е Мп, такая, что обе мат- матрицы U'AU = T, U'BU = R верхние треугольные с диагональными элементами а,, ..., ап и |3(. , ..., $. соответственно. Легко видеть, что и, значит, Т -J- Д имеет собственные значения Остается заметить, что A -f- В имеет те же собственные значе- значения, что и T-\-R, так как эти матрицы подобны. ? 2.4.10. Пример. Если А и В коммутируют, то это вовсе не означает, чю каждое из чисел а,- + р, будет собственным зна- значением для A -j- В. Рассмотрим диагональные матрицы 3 0 как видим, 1 + 4 -f- 5 ^{4, 6}= о (А -)- В). Таким образом, для коммутирующих А, В множество о {A -f- В) содержится в а(Л) + -\-а(В), но это, вообще говоря, несовпадающие множества. 2.4.11. Пример. Если А и В не коммутируют, то трудно гово- говорить о какой-либо связи а(А -f- В) с а(А) и а(В). В частности, g(A-\-B) может и не содержаться в а(Л)+ о(В). Возьмем мат- матрицы 0 1 1 ГО 0 "! oj1 B==[i о_Г Для них а (А -f-б) = {—1, 1}, в то время как a (A) = <тE) = {0}. 2.4.12. Пример. Можно ли обратить утверждение теоремы 2.4.9? Должны ли Л и В коммутировать, если их собственные значения складываются в каком-то порядке? Ответ отрицатель- отрицательный, причем даже в том случае, когда собственные значения складываются (в определенном порядке) для матриц аА и рВ с произвольно взятыми числами а, р. Это интересное явление, а полное описание всех таких пар матриц1) — нерешенная про- ') То есть таких пар матриц, при сложении которых собственные зна- значения тоже складываются — в определенном порядке. — Прим. перев.
2 4. Некоторые следствия теоремы Шура 117 -1 0 -0 4 2 0 5 ' 6 3 . ¦2 0 -0 1 3 0 2 3 4 блема! Положим А = Для них собственные значения складываются, хотя Л и В не коммутируют. Ясно, что возможность одновременного приведе- приведения с помощью преобразования подобия к верхнему треуголь- треугольному виду для суммируемости собственных значений доста- достаточна, но она вместе с тем необходимой не является. И уж, ко- конечно, верхние треугольные матрицы совсем не обязательно коммутируют. 2.4.13. Следствие. Предположим, что матрицы А,В^Мп ком- коммутируют и обладают соответственно собственными значениями ось • • •, осп и Рь ..., рл. Если шФ—Р/ для всех i, /'==1, ..., п, то матрица A -f- В невырожденна. Упражнение. Доказать это следствие, исходя из теоремы 2.4.9. Упражнение. Показать, что для любой пары матриц Л, В е &М„ (независимо от того, коммутируют они или не коммути- коммутируют) сумма всех собственных значений матрицы А -\- В есть сумма всех собственных значений матрицы Л плюс сумма всех собственных значений матрицы В. Указание. Найти 1г(Л + б). Мы рассмотрели для диагонализуемых матриц возможность их одновременной диагонализуемости — для нее коммутатив- коммутативность является легко проверяемым необходимым и достаточным условием. Мы изучили также возможность одновременного при- приведения к треугольному виду с помощью унитарного подобия — для нее коммутативность является достаточным условием, но необходимым это условие не будет. В то же время иногда бы- бывает полезно для двух заданных матриц установить невозмож- невозможность такого одновременного приведения к треугольному виду. Для этого нужны более сильные необходимые условия, чем сум- суммируемость собственных значений. Следующий пример указы- указывает путь к таким условиям. 2.4.14. Пример. Положим О 1 О "I ГО 0 01 0 0-1, В = \ 1 0 0 L0 0 0J L0 1 0J Обе матрицы Л и В имеют собственное значение 0 кратности 3, Если взять любую линейную комбинацию аА + ЬВ, то ее соб- собственные значения также нулевые, т. е. имеет место суммируе- л==
'18 Гл. 2. Унитарная эквивалентность и нормальные матрицы мость собственных значений, а это есть довод в пользу предпо- предположения о том, что А и В одновременно триангуляризуемые. Однако, если бы для некоторой невырожденной матрицы S е М3 обе матрицы SAS-1 и SBS-1 оказались верхними треугольными, то собственные значения матрицы (SAS-1) (SBS~l) = SABS~l были бы произведениями — в определенном порядке — собствен- собственных значений матриц А и В. Б данном случае собственные зна- значения для АВ составляют множество {—1,0, 1}, которое нельзя получить, перемножая числа из множеств {0} и {0}. Остается заключить, что для А и В одновременное приведение к верх- верхнему треугольному виду преобразованием подобия невозможно. Упражнение. Проверить утверждения, связанные с этим при- примером. В частности, показать, что если обе матрицы С, D ^Мп верхние треугольные, то собственные значения для CD суть про- произведения собственных значений для С и D (в определенном порядке), т. е. о (CD) <=о(С)о (D). Если рассматривать одновременное приведение к верхнему треугольному виду преобразованием подобия, не обязательно унитарным (см. 2.6), то оно полностью характеризуется сле- следующей теоремой Маккоя, доказательство которой мы опустим. Напомним, что можно говорить о многочленах от любого числа переменных; это просто какие-то линейные комбинации произ- произведений степеней нескольких переменных. Если переменные не коммутируют, то различные степени одних и тех же переменных в произведении могут встречаться несколько раз, чередуясь со степенями других переменных. 2.4.15. Теорема. Пусть А, В е Мп, а(А)== {щ, .. .,а,г} и <т(В)= = {рь ..., р„} (с учетом кратностей). Для существования не- невырожденной матрицы S е Мп, такой, что обе матрицы S~ AS и S~lBS верхние треугольные, необходимо и достаточно, чтобы для какой-то перестановки iu ..., in индексов 1, 2, ..., п выполня- выполнялось равенство о(р(А, В)) = {р(а;., |ЗЛ: /==1, ..., «} для всех многочленов р (t, s) с комплексными коэффициентами от двух некоммутирующих переменных. Упражнение. Установить, что условие для многочленов из теоремы 2.4.15 является необходимым для одновременного при- приведения к треугольному виду матриц А и В. Другими словами, показать, что если А, В^Мп коммутируют, то о(р(А, В)) = = {р(а;., Р, V /=1, ..., я} для всех многочленов р от двух пе- переменных. Каким образом теорема 2.4.15 объясняет пример 2.4.14?
2.4. Некоторые следствия теоремы Шура 119 Замечание. Утверждение теоремы 2.4.15 остается в силе для матриц и многочленов над произвольным полем, лишь бы оно содержало собственные значения рассматриваемых матриц. Ана- Аналогичный результат имеет место и для одновременной триангу- ляризуемости k = 3,4 ... матриц (в этом случае нужно рас- рассматривать многочлены от k переменных). Есть даже его обоб- обобщение, учитывающее только какую-то часть собственных значе- значений, а именно: pfa^ рЛео(р(Л, В)) (/ = 1, ..., г) для много- многочленов p(s,t) тогда и только тогда, когда А и В одновременно приводятся преобразованием подобия к блочно-треугольным матрицам, таким, что в каких-то позициях на диагонали в од- одной из них размещаются 1Х1-блоки, содержащие ось •••» яг, и в тех же позициях в другой — 1 X 1-блоки, содержащие Задачи 1. Предположим, что А, В<^Мп коммутируют и имеют соб- собственные значения а,, .,., а„ и ^ .,., р„ соответственно. (a) Доказать, что собственные значения для АВ имеют вид а^ , а2Р;. , ..., аяРг. для некоторой перестановки iv ..., in индексов 1, ..., п. (b) Доказать, что для произвольного многочлена р(/, s) от двух переменных матрица р (А, В) имеет собственные значения ( > (J (с) Наконец, показать, что последнее утверждение верно и при более слабом (по сравнению с коммутативностью) предпо- предположении об одновременной приводимости к верхнему треуголь- треугольному виду; коммутативность не является необходимой. 2. Показать, что ранг матрицы А^Мп не меньше числа ее ненулевых собственных значений1). Указание. Показать, что ранг верхней треугольной матрицы не меньше числа ненулевых эле- элементов на ее главной диагонали. Далее воспользоваться теоре- теоремой Шура. Используя матрицу А Lo oj1 объяснить, почему ранг матрицы А может оказаться больше, чем число ненулевых собственных значений. 3. Цель этой задачи — установить, что теорема Кэли — Га- Гамильтона справедлива и для матриц с элементами из любого ') В этом и аналогичных случаях нужно учитывать кратности собствен- собственных значений, — Прим. ред.
120 Гл. 2. Унитарная эквивалентность и нормальные матрицы коммутативного кольца (а не только из комплексного поля). Коммутативное кольцо — это математическая структура, в ко- которой выполняются все аксиомы поля, кроме существования об- обратных элементов по умножению. Таким образом, имеются ком- коммутативные операции «сложения» и «умножения», подчиняю- подчиняющиеся обычным законам ассоциативности и дистрибутивности. Мы предполагаем дополнительно, что в кольце имеется единица по умножению, т. е. элемент 1, такой, что \а = а для всех его элементов а. Один из примеров кольца, которое может и не быть полем, — это кольцо Zk целых чисел по модулю k. В Zk «сложение» и «умножение» выполняются как обычно, только результат приводится по модулю k. Кольцо Zk является полем тогда и только тогда, когда k простое. Другой пример — множе- множество многочленов с комплексными коэффициентами от k фор- формальных переменных. (a) Напомним, что если Л е М„, то adj A e М„ — это одно- однозначно определенная матрица, которая в позиции (г, /) содер- содержит алгебраическое дополнение к элементу матрицы А, стоя- стоящему в позиции (j,i) (см. разд. 0.8.2). Показать, что фунда- фундаментальное тождество A (adj A) = (adj A) A = (det A) I есть не что иное, как запись разложения Лапласа для опреде- определителя матрицы А с учетом того факта, что det Л =0, если в А совпадают какие-либо две строки или какие-то два столбца. В этой формуле участвуют только умножение и сложение, но деления в ней нет. Доказать, что эта формула справедлива для матриц с элементами из произвольного коммутативного кольца. (b) Используя п. (а), доказать, что равенство (// - A) [adj (// - А)] = [adj (tl - A)] {tl - А) = справедливо не только для любой матрицы А е Мп, но и для любой п X и-матрицы с элементами из произвольного комму- коммутативного кольца. Показать, что adj (^/ — А) — это матрица, эле- элементы которой являются многочленами от t степени не выше п— 1 и поэтому ее можно записать так: adj (// - Л) = Лга_/-1 + An_2tn~2 + ... + AJ + Аа, где элементы п X я-матриц Лk суть значения многочленов от элементов матрицы Л. Многочлен рл(() — это характеристиче-* ский многочлен матрицы Л. (с) Доказать, что для всех & = 0, 1, ... /*/ - Л* == (// - Л) (Itk~l + Atk~2 + ... + А"-Н + Л*-1) =
2.4. Некоторые следствия теоремы Шура 121 при условии, что А есть п X п-матрица с элементами из комму- коммутативного кольца. Вывести отсюда, что **/»= Л* =* Л*-f (//— A)Gk(A, t), /г = 0, 1, 2, (d) Показать, что многочлен pA{t) — antn -f an_xtn-x + ••• ... + axt + a0 = det(// — А), г. е. характеристический много- многочлен матрицы А (здесь ап = 1), определен корректно и в том случае, когда А есть ft X n-матрица с элементами из произволь- произвольного коммутативного кольца. Используя п. (с), установить ра- равенство Ра @ / = Z a/I = I ak [Ак + (tl - A) Gk (A, t)\ = где есть многочлен от / степени не выше п—1 и его коэффициен- коэффициентами являются матрицы, в которых каждый элемент представ- представляет собой многочлен от элементов матрицы А. Далее, исполь- используя п. (Ь), показать, что Ра (Л) = рА @ /-(//- A) G (A, t) = = (// - A) adj (tl - А) - (tl — A)G (A, t) = где Я (A, t) = Вп_/~г + Вп_4п~2 + ••• + B{t + Во и для всех 6 матрица Bft имеет размер п X л и любой ее элемент представ- представляет собой многочлен от элементов матрицы А, пе зависящий от t. Таким образом, QA(t) — это многочлен от t с матричными коэффициентами, имеющий степень не выше п. (е) Вычислить значение Qa{A) и вывести отсюда, что 4. Доказать, что любая матрица, коммутирующая с невы- невырожденной матрицей А<=Мп, коммутирует также и с Л-1. Укя- зание. См. разд. 2.4.4; привести также прямое доказательство. 5. Используя теорему 2.3.1, доказать, что если матрица имеет собственные значения Яь ..., Кп, то =\, 2,
122 Гл. 2. Унитарная эквивалентность и нормальные матрицы 6. Показать, что матрицы [1 О (Г 0 2 0, 0 0 3- не приводятся одновременно к верхним треугольным матрицам преобразованием подобия, однако а (аА-\-ЬВ) = {а — 2Ь, 2а — 2Ь, За + Ъ) для всех чисел a, ieC, 7. Доказать невозможность одновременного приведения к треугольному виду двух матриц из примера 2.4.14, используя условие из задачи 6 из § 2.3. Это же условие применить к двум матрицам из предыдущей задачи. 8. Следующее утверждение в духе теоремы (Маккоя) 2.4.15 иногда оказывается полезным для того, чтобы установить, что какие-либо две матрицы не являются унитарно эквивалент- эквивалентными. Пусть p(t, s) обозначает произвольный многочлен с комп- комплексными коэффициентами от двух некоммутирующих перемен- переменных и унитарная эквивалентность матриц А, В е Мп выражает- выражается соотношением А — UBU*, где U — какая-то унитарная мат- матрица. Доказать, что р(А, А*)= Up(B, B*)U*. Отсюда вывести, что если А и В унитарно эквивалентны, то tr р(А, А*) = = tr р(В, В*) для любого комплексного многочлена p(s,t) от двух некоммутирующих переменных. Как это связано с теоре- теоремой 2.2.6? 9. Пусть заданы матрицы А е Мп, В е Мт, и предположим, что они не имеют общих собственных значений, т. е. мно- множество а (А) П а (В) пусто. Используя теорему Кэли •—Гамиль- •—Гамильтона 2.4.2, показать, что уравнение АХ — KB — Соотносительно А'еЛ1„>т имеет только одно решение Х — 0. Вывести отсюда, что уравнение АХ — ХВ = С имеет единственное решение 1еА1ЛЯ1 для любой заданной матрицы СеМ„,т. Указание. Показать по индукции, что так как АХ = ХВ, то AkX = XBk для всех k = \, 2, ..., и потому р(А)Х = Хр(В) для любого многочлена p(t), В качестве p{t) взять характеристический многочлен для А и получить равенство рА (Л) X = 0 =¦ ХрА {В). Поскольку рА(В) = (В — KJ) ... {В — %п1), где Кь ..., %п~ собственные значения матрицы А, матрица Рд(В) невырожденна и уравнение ХрА(В) — 0 имеет единственное решение Х = 0. Существование решения уравнения АХ — ХВ = С для любой правой части вытекает из единственности решения однородного уравнения и утверждений (к) и A) из § 0.5, примененных к ли- линейному преобразованию Х-+Т{Х)~АХ — ХВ на Мп,т. 10. С помощью задачи 9 предложить доказательство тео- теоремы 2.4.8, основанное на редукции, проводимой не более ft — JLj
2.4. Некоторые следствия теоремы Шура 123 раз. Указание. Записать А в виде О Л22 о о л, о где каждый блок Аи верхний треугольный и на его главной диагонали находится только Я». Положим R\=[A\2 ... Л^], Рассмотрим матрицы o i о где X имеет те же размеры, что и /?t. Показать, что S AS [Ап 01 L о т\ при условии, что в качестве X выбрано решение уравнения АиХ — XT = — /?!• То же проделать со следующими строками и в итоге установить, что А подобна diag(An, A22, ..., Akk). 11. Для заданных Л, В^Мп рассмотрим их коммутатор С = АВ — В А. Доказать, что trC = O. На примере матриц /1 = [JJ], B = [°'] показать, что этот коммутатор может и не быть нильпотентным, т. е. какие-то его собственные значения могут быть отличными от нуля, несмотря на то что сумма всех его собственных значений равна нулю. 12. Для А, В<=Мп положим С — АВ — В А и предположим, что А коммутирует с С. Доказать, что матрица С нильпотен- тна. В этой связи прокомментировать ситуацию в задаче 11. Указание. Существует невырожденная матрица S ^ Мп, такая, что SCS~1 = diag{Cn, С22, ¦¦-, Ckk) = Clt для всех г=1, ..., k матрица Си^Мп верхняя треугольная, о (Си) = {Я,} и при этом П] + п2 + ... + nk и КгФ Kj, если i Ф /. Почему? Поло- Поло~l ~l жить Аг = SAS~l, Bi = SBS~l и рассмотреть блочные разбие- разбиения Л, = (Лг/) и В{ = (Bij), согласованные с блочно-диагональ- ным видом матрицы С:. Доказать, что AlCl = CxAi и —с по- помощью задачи 9 — что А1} — 0, если k> 1 и i ф }. Тогда при всех I для Са = АнВи — ВнАп имеем tr Си = 0, и, значит, А, = 0 и ^=1. 13. Получить в обозначениях задачи 9 еще одно доказатель- доказательство того факта, что уравнение АХ — ХВ = С имеет единствен-
124 Гл. 2. Унитарная эквивалентность и нормальные матрицы ное решение для любой матрицы С е Мп при условии, что А и В не имеют общих собственных значений. Для этого использо- использовать теорему 2.4.9. Указание. Рассмотреть линейные преобразо- преобразования Ти То'. Mn<m-*Mn< m, определенные соотношениями ТХ{Х) = АХ, Т2{Х) = ХВ. Доказать, что Т{ и Т2 коммутируют и, согласно теореме 2.4.9, собственные значения для Т суть раз- разности собственных значений для Т\ и Т%. Установить, что X бу- будет собственным значением для Т\ в том и только в том случае, когда АХ — XX = 0 для какой-то ненулевой матрицы Х^Мп,т, а это возможно в том и только в том случае, когда X является собственным значением для А (рассмотреть в X столбцы, от- отличные от нуля). Таким образом, множества собственных зна- значений для 7'i и А совпадают1) и то же справедливо по отно- отношению к Т2 и В. Итак, преобразование Т невырожденное при условии, что А и В не имеют общих собственных значений. Пусть х— собственный вектор матрицы А, отвечающий соб- собственному значению X, и у — собственный вектор матрицы Вт, отвечающий собственному значению ц. Показать, что если Х=-хут, то 7 (Х) — (Х — ц)Х, Отсюда вывести, что множество собственных значений для Т состоит из всех возможных разно- разностей собственных значений матриц А а В. 14. Пусть семейство ZF = {Аг. i & &~}czMn коммутативное. Доказать, что для 2Г возможно одновременное преобразование подобия к верхнему треугольному виду, причем таким спосо- способом, что некоторая произвольно выбранная матрица из &~ при- приводится к блочно-диагональному виду, описанному в теореме 2.4.8, и при этом все остальные матрицы из Остановятся блоч- но-диагональными верхними треугольными матрицами с анало- аналогичным блочным разбиением. Другими словами, для любой за- заданной матрицы ^е?" можно найти невырожденную мат- матрицу S е М„, такую, что At — S diag (т{1), ..., T(k}) S~l для всех е Т, матрица Г<'> е Мп (щ + Пг + ... + nk — n) верх- верхняя треугольная для всех / = 1, ..., k и для всех i^.W, все элементы на главной диагонали в 7^°' равны Х] и Я/ ф Xi при / ф i. Указание. Выбрать S таким образом, чтобы матрица S~!/1OS имела блочно-диагональный вид, описанный в теореме 2.4.8. Заметить, что семейство {S-'^-S: ie.3f~} будет коммута- коммутативным. Для всех матриц S~xAiS рассмотреть одинаковые блоч- блочные разбиения, согласованные с блочным разбиением матрицы S~lAaS. Используя коммутативность и результат задачи 9 или 13 (так же, как в задаче 12), показать, что все внедиагональ- ные блоки для каждой матрицы 5~'Л,5 должны быть нулевыми. Теперь теорему 2.3.3 можно применить для k семейств, состоя- состоящих из блоков, занимающих на диагонали одно и то же место. ') Но не их кратности, — Прим. перев.
2.5. Нормальные матрицы 125 За исключением матрицы 5-'Л05, уже нельзя, конечно, гаран- гарантировать, что все собственные значения одного диагонального блока в S-WiS равны или что собственные значения разных блоков обязательно различны. Дополнительная литература и комментарии Теорема 2.4.15 и ее обобщения доказаны в работе: McCoy N. Н. On the Characteristic Roots of Matrix Polynomials, — Bull. Amer. Math. Soc, 1936, v. 42, p. 592—600. См. также: Motz- kin T. S., Taussky O. Pairs of Matrices with Property L. — Trans. Amer. Math. Soc, 1952, v. 73, p. 108—114, где обсуж- обсуждается связь между собственными значениями и линейными комбинациями. Говорят, что любая пара матриц А, В^Мп, та- такая, что а (а А + ЬВ) = {аа; + Ь^>1 • /=1, ..., «} для всех a, b e е С, обладает свойством L, а условие, рассмотренное в теореме 2.4.15, называется свойством Р. Очевидно, что из свойства Р вы- вытекает свойство L, но не наоборот. Более слабое свойство L изучено еще не полностью; впрочем, известно, что любая пара нормальных матриц (см. § 2.5), обладающая свойством L, ком- коммутирует и поэтому одновременно диагонализуется с помощью унитарного подобия. 2.5. Нормальные матрицы Нормальные матрицы, возникающие естественным образом в связи с унитарной эквивалентностью, имеют важное значение для всего матричного анализа. Класс нормальных матриц вклю- включает в себя унитарные, вещественные симметричные и эрми- эрмитовы матрицы. 2.5.1. Определение. Матрица А <^Мп называется нормальной, если А*А =АА*, другими словами, если А коммутирует со своей сопряженной матрицей. Упражнение. Доказать, что для нормальности матрицы А е М„ необходимо и достаточно, чтобы любая унитарно экви- эквивалентная ей матрица была нормальной. Унитарная эквивалент- эквивалентность не выводит из класса нормальных матриц. 2.5.2. Примеры. (a) Если матрица U унитарна, то U*U — / = UU*; поэтому все унитарные матрицы нормальны. (b) Если Л* = Л, то очевидно, что А*А—АА*; поэтому все эрмитовы матрицы нормальные. (c) Если матрица А^Мп такова, что А* = —А, то она на- называется косоэрмитовой. В этом случае А*А =—А2 = АА*\ по- поэтому все косоэрмитовы матрицы тоже нормальны.
126 Гя. 2. Унитарная эквивалентность и нормальные матрицы (d) Матрица ^ = rj ~Л нормальна и не относится ни к одному из перечисленных выше классов. Упражнение. Охарактеризовать нормальные матрицы в Ms(R) с помощью каких-либо соотношений для их элементов. Представить результат, используя классы матриц из приведен- приведенных выше пп. (а), (Ь) и (с). Указание. Установить, что если нормальная матрица i4e_M2(R) имеет хотя бы один нулевой элемент, то А = АТ или А ——А7. Если в А все элементы нену- ненулевые, то или А=АТ, или ААТ = al для некоторого а > 0. Упражнение. Привести какой-либо пример вещественной мат- матрицы размера 2X2, которая не будет нормальной. Привести также пример вещественной 2Х2-матрицы, которая является нормальной, не будучи симметричной, кососимметричной (т. е. такой, что Ат = —А) или ортогональной. Упражнение. Доказать, что классы матриц, приведенные в пп. (а), (Ь) и (с), замкнуты относительно преобразования уни- унитарной эквивалентности. Упражнение. Доказать, что любая диагональная эрмитова матрица должна иметь вещественные элементы, а любая диаго- диагональная косоэрмитова — чисто мнимые. 2.5.3. Определение. Если матрица /1еМя унитарно эквива- эквивалентна какой-либо диагональной матрице, то А называется уни- унитарно диагонализуемой. Аналогично вводится определение орто- 'гональной диагонализуемости. Заметим, что унитарная (или ортогональная) диагонализуемость влечет за собой диагонали- диагонализуемость (но не наоборот). Упражнение. Рассмотреть доказательство теоремы 1.3.7 и установить, что матрица А е Мп будет унитарно диагонализуе- диагонализуемой в том и только в том случае, когда в С" можно найти п ортонормированных векторов, каждый из которых является соб- собственным вектором для А. Ниже мы перечисляем наиболее фундаментальные факты, относящиеся к нормальным матрицам. Один из них — эквива- эквивалентность утверждений (а) и (Ь) в следующей теореме — часто называется спектральной теоремой для нормальных матриц. 2.5.4. Теорема. Для матрицы А = [а,-,] ^Мп с собственными значениями %\, ..., Кп следующие утверждения эквивалентные (a) А нормальна; (b) А унитарно диагонализуема;
2.5. Нормальные матрицы 127 (с) 2>*/Р=Е1М2; «, / i=i (d) для А существует ортонормированное множество из соб- собственных векторов. [Утверждение (Ь) означает, что матрицу А можно предста- представить в виде А = UDU*, где D — диагональная, a U — унитарная матрицы, причем диагональные элементы матрицы D состав- составляют спектр матрицы А. Это разложение мы в дальнейшем бу- будем называть спектральным.— Перев.] Доказательство. Будем считать, что всюду здесь Г= [/^]еМп обозначает верхнюю треугольную матрицу, унитарно эквива- эквивалентную матрице А; ее существование обеспечивается теоремой Шура 2.3.1. Таким образом, Т = U*AU для некоторой унитар- унитарной матрицы U е М„. Поскольку Т унитарно эквивалентна А, утверждение (а) равносильно нормальности Т. Покажем, что (а) равносильно (b), (b) равносильно (с) и (с) равносильно (d). Чтобы установить, что (а) влечет за собой (Ь), проведем следующее вычисление. Если А нормальна, то и Т нормальна. Но треугольная нормальная матрица должна быть диагональ- диагональной, в чем можно убедиться, приравнивая диагональные эле- элементы матриц ТТ* и Т*Т. Равенство их элементов в позиции A,1) означает, что Уп = tjn + t2 Vi/ = I *u I2 + tjhi I2. Следовательно, — сумма неотрицательных членов равна нулю и поэтому каж- каждый из них должен быть нулем. Значит, /„ = 0, / = 2, .... я. Матрицы 7*Г и ТТ* имеют одинаковые элементы и в позициях B,2), т.е. t22tn=tj22 +1 kh=I '22 f + S1 t2l 12. /-3 /=3 Отсюда получаем, что h/ =: 0» 7 = 3,..., n. Действуя в том же духе, предположим, что мы уже установили равенства 0 1
1?3 Гл. 2. Унитарная эквивалентность и нормальные матрицы Тогда можно доказать, что имеют место также равенства Проводя аналогичные рассуждения последовательно для каж- каждого диагонального элемента, в конце концоз получим Учитывая также, что вследствие верхнего треугольного вида матрицы Т приходим к выводу о дпагональностн матрицы Т. Итак, утверж- утверждение (Ь) доказано. Поскольку диагональные матрицы, оче- очевидно, нормальны и это свойство сохраняется при унитарной эквивалентности, то из (Ь) также следует (а). Чтобы установить равносильность (Ь) и (с), обратимся к теореме 2.2.2. При диагонализации матрицы А мы получаем диагональную матрицу, в которой на диагонали располагаются (в каком-то порядке) собственные значения A,i, ..., "kn\ поэтому теорема 2.2.2 позволяет нам вывести (с) из (Ь). С другой сто- стороны, поскольку %i (i = 1, ..., п) являются в Т диагональ- диагональными элементами, в силу теоремы 2.2.2 получаем t K/l2=ZlM2 + IlM2. I, 1 = 1 i=l /</ В то же время (с) означает, что т. е. матрица Т диагональна. Отсюда следует (Ъ)\ Равносильность (Ь) и (d) составляет содержание предше- предшествующего этой теореме упражнения. П Упражнение. Показать, что если матрица Т е Мп треуголь- треугольная и 1-е диагональные элементы матриц Т*Т и IT* одинаковы для всех /=1, ..., п, то матрица Т диагональна. Объяснить, почему этот факт вместе с инвариантностью нормальности от- относительно унитарного подобия является главной причиной уни- унитарной диагонализуемости нормальной матрицы. Упражнение. Доказать, что нормальная матрица недефектна (для каждого собственного значения геометрическая кратность совпадает с алгебраической кратностью). Упражнение. Пусть матрица ЛеМ, нормальна. Доказать, что вектор леС является для А правым собственным векто*
2.5. Нормальные матрицы 129 ром, отвечающим собственному значению X, тогда и только тогда, когда х является левым собственным вектором, отвечаю- отвечающим X, т. е. Ах = Хх равносильно х*А = Кх*. Указание. Нор- Нормировать х и записать А = UAU*, взяв х в качестве первого столбца в U. Как выглядит А*} А*х? Другое доказательство см. в задаче 20 в конце этого параграфа. Упражнение. Доказать, что если матрица /1бМя нормальна и х и у— собственные векторы, отвечающие ее различным соб- собственным значениям, то х и у ортогональны. Указание. Исходя из Ах = Кх, Ау==цу, показать, что цх*у = х* (Ау) — (А*х)*у = = (Хх)*у = Хх*у. Если X Ф \\, то х*у = 0. Другое доказательство см. в задаче 21. Если собственные значения какой-либо нормальной матрицы известны, то можно провести ее унитарную диагонализацию, руководствуясь следующим общим предписанием. Определим все ее собственные подпространства и выберем в каждом из них ортонормированный базис (например, с помощью процесса Грама — Шмидта). Вследствие нормальности матрицы А и со- совпадения размерности каждого собственного подпространства с кратностью соответствующего собственного значения объедине- объединение этих базисов будет ортонормированным базисом всего про- пространства. Составим из этих векторов, располагая их по столб- столбцам, некоторую унитарную матрицу — она и будет осуществлять искомую диагонализацию. Теперь отметим, что коммутирующие между собой нормаль- нормальные матрицы одновременно диагонализуемы. 2.5.5. Теорема. Если Jf<=iMn— коммутативное семейство нор- нормальных матриц, то оно одновременно унитарно диагонали- зуемо, т. е. каждая матрица из JT превращается в диагональ- диагональную посредством одного и того же преобразования унитарного подобия. Упражнение. Доказать эту теорему, опираясь на теорему 2.3.3 и факт диагональное™ любой треугольной нормальной матрицы. Объяснить, почему и предположения, и утверждения теоремы 2.5.5 сильнее, чем предположения и выводы в тео- теореме 1.3.19. Теперь применим теорему 2.5.4 к случаю эрмитовых матриц. Это один из фундаментальных результатов, часто называемый спектральной теоремой для эрмитовых матриц. 2.5.6. Теорема. Если матрица А е Мп эрмитова, то (a) все ее собственные значения вещественны; (b) А унитарно диагонализуема. 5 Р. Хорн, Ч. Джонсон
130 Гл. 2. Унитарная эквивалентность и нормальные матрицы Если матрица ^eMn(R) симметрична, то она вещественно ортогонально диагонализуема. Доказательство. Любая диагональная эрмитова матрица имеет вещественные элементы, поэтому (а) следует из (Ь) и замкнутости множества эрмитовых матриц относительно преоб- преобразования унитарной эквивалентности. Утверждение (Ь) сле- следует из теоремы 2.5.4, потому что эрмитовы матрицы нор- нормальны. Если матрица А ^ Mn(R) симметрична, то она также и эрмитова. При этом все вычисления, необходимые для ее диа- гоиализации, выполнимы над вещественным полем. Веществен- Вещественность собственных значений матрицы А позволяет и собствен- собственные векторы выбрать вещественными. D Важно отметить, что в отличие от обсуждения диагонализуе- диагонализуемости в гл. 1 тот факт, что собственные значения различны, или что-либо ему подобное не играет роли в теоремах 2.5.4 и 2.5.6, а в теореме 2.5.5 не нужно предполагать диагонализуемости. Нормальность изначально гарантирует наличие полной системы собственных векторов (более того, ортонормированной системы). Это одна из причин, почему эрмитовы и нормальные матрицы так важны и почему они имеют такие приятные свойства. Мы рассмотрим теперь аналоги теорем 2.5.4 и 2.5.5 для ве- вещественных нормальных матриц. Такие матрицы диагонализуе- мы вследствие нормальности, но не обязательно при помощи именно вещественного унитарного подобия. Спрашивается, к какому же наиболее простому виду можно привести их посред- посредством вещественного ортогонального подобия? Поскольку мо- может случиться так, что вещественная нормальная матрица во- вообще не имеет вещественных собственных значений, то нет ни- никакой гарантии насчет ее диагонализуемости с помощью веще- вещественного подобия. С другой стороны, согласно теореме 2.3.4, любая вещественная матрица преобразованием вещественного ортогонального подобия приводится к специальному блочно-тре- угольному виду. Это наводит на соображения, что можно в этом плане сделать, если матрица также нормальна. Наше рас- рассуждение использует теорему 2.3.4 в том же духе, в каком тео- теорема 2.3.1 используется при доказательстве теоремы 2.5.4. Сле- Следующая лемма избавляет-нас от технических подробностей, ко- которые не фигурируют в доказательстве теоремы 2.5.4. 2.5.7. Лемма. Если матрица А е Мп эрмитова и х*Ах ^ 0 для всех х е С", то все собственные значения матрицы А неот- неотрицательны. Если к тому же tr А = 0, то А = 0. Доказательство. Согласно теореме 2.5.6, запишем A = UhU', где и—[щ «2... ия]еЛ4„—унитарная матрица, A=diag(Ab X2, ...
2.5. Нормальные матрицы 131 Тогда A = U'AU, так что %k = и'кАи предположению, и, следовательно, Kk^0 нец, trЛ = tr(/At/* = trAU'U = trЛ = ki + если tr Л = 0 и ЯА^0 для всех &, то Xk = чит, А = 0и Л = UAU* = ?/0/7* = 0. Q ^, согласно для всех k. Нако- Нако... +Я„. Поэтому для всех &, а зна- зна2.5.8. Теорема. Пусть А е Mrt(R). Тогда А нормальна в том и только в том случае, когда существует вещественная ортого- ортогональная матрица Q GMr,(R), такая, что QTAQ = 0" B.5.9) где для всех j блок А/ представляет собой вещественную 1 X 1 - матрицу либо вещественную 2 X 2-матрицу вида г- П -ъ L-P/ Щ У B.5.10) Доказательство. Прямое вычисление показывает, что всякая матрица вида B.5.10) нормальна (AjAj — diag (a? + Щ, а^ + Р/)= = АТ,А^; поэтому любая прямая сумма вида B.5.9) будет также нормальной. В силу теоремы 2.3.4 очевидно, что нам достаточно доказать нашу теорему для нормальной матрицы вида B.3.5). Так как блоки на главной диагонали в матрице B.3.5) можно располагать в любом заданном порядке, то мы будем считать, что матрица А — R Л A02 Al2 A22 Alk A2k о ¦Мп{Я) B.5.11) нормальна, причем 0 5*
132 Гл. 2. Унитарная эквивалентность и нормальные матрицы верхняя треугольная, Аои Л02, ..., Aok е MPj 2 (R) и Ац е М2 (R), если /, /= 1, 2, ..., ft и j^i. Мы покажем, что матрица R диагональна и Лг/ = О для всех / > /. Рассмотрим равенство АТА —ААТ. Приравнивая первые рХ^-блоки на главной диагонали, отвечающие блоку R в B.5.11), получаем rtR = /^ + АОХА1Х + ...+ AQkAlk. B.5.12) Заметим, что любая матрица В е Мр (С), имеющая вид В = ??* для какой-либо матрицы ?eAfP)(?, эрмитова, причем х*Вх — = х'ЕВ'х = (Е*х)* (Е*х) ^ 0 для всех х е С". Сумма таких матриц обладает тем же свойством. В силу общего принципа tr jRtR = tr RjRt и вследствие равенства B.5.12) tr RTR = tr RRT + tr A0lA^ + ... + tr АокАток. Поэтому 0 = 1гЛ01Л0г,+ -.. +bAohATk. Согласно лемме 2.5.7 и сделанному выше замечанию по поводу свойств вещественной матрицы fi = Ло/Л*; = Ло/Л^., получаем, что tr Д,,-Ду ^0. Поскольку их сумма равна нулю, каждый из ее членов тоже равен нулю и, следовательно, A0,AL==Q (/=-1, ..., k). В AojA^ i-н элемент на главной диагонали есть сумма квадратов (вещественных) элементов i-н строки матрицы ЛОу, поэтому все эти элементы должны быть нулями, т. е. Л0/ = 0 для всех /=1, ..., k и B.5.12) принимает вид RTR = RRT. В то же время мы знаем из доказательства теоремы 2.5.4, что треугольная нормальная матрица не может быть ничем иным, кроме диагональной матрицы. Поэтому /? = diag(Xi, ..., Хр), как и утверждалось. Теперь в равенстве АТА =ААТ приравняем 2 X 2-блоки глав- главной диагонали, отвечающие блоку Ли в B.5.11). С учетом того факта, что Л0/ = 0 для /= 1, 2, ..., k, получаем АГ1Ап = АпА{1 + А12АГ2+ ... + AlkA\k. B.5.13) Имеем tr(y4[,y4,,)== tr(y4u/4fj) и вследствие этого 1г(Л12Л[2)+ ...+tr(i!1Hf4)-O.
2.5. Нормальные матрицы 133 Так как tr (AXjATu) > 0, то tr (АиАти) — 0, а значит, Л1/Л[/ = 0 и Л]/ = 0, /==2, 3, ..., k (здесь, как и раньше, используется лемма 2.5.7). Таким образом, B.5.13) принимает вид Ат1ХАп = = АиАтп, т. е. 2 X 2-блок Ап нормален. Последовательно просматриваем 2 X 2-блоки на главной диа- диагонали в ААТ = АТА, отвечающие блоку Ац в B.5.11) A = 2, 3, ..., k—1). Проводя те же рассуждения, приходим к вы- выводу, что, как и утверждалось, все внедиагональные блоки ну- нулевые и все блоки Ац, расположенные на главной диагонали, нормальные. Мы показали, что любое вещественное преобразование орто- ортогонального подобия, приводящее вещественную нормальную матрицу к виду B.3.5), приводит ее в действительности к блоч- но-диагоналыюму виду B.5.9). Остается установить, что все блоки на диагонали имеют вид B.5.10). Если матрица Лу/ = [^] е Mn (R) нормальна, то, приравни- приравнивая в Л^.Луу = AjjAJ, элементы в позициях A.1) и A.2), полу- получаем Ь2 = с2, откуда с — ± Ъ, и ас + Ъй = аЬ + cd, откуда 26 (а — d) = 0, если с— — Ъ. Случаи с= -\-Ь и Ь = 0 можно исключить, так как матрица Ац при этом будет вещественной симметричной и все ее собствен- собственные значения будут вещественные. По нашему построению бло- блоки Ац имеют сопряженные пары невещественных собственных значений. Таким образом, с = —b, a = d и Ац имеет вид B.5.10). Как показывает вычисление, вещественная матрица [-6 а]имеет паРУ комплексно-сопряженных собственных значе- значений X = а + ib и К = а — ib. ? Как следствие этой теоремы для вещественных нормальных матриц легко получаются вещественные канонические формы для вещественных матриц специального типа: симметричных, кососнмметричных или ортогональных. 2.5.14. Следствие. Пусть A gM,(R). Тогда (а) Л = Ат в том и только в том случае, когда для некото- некоторой вещественной ортогональной матрицы QgjM^R) имеем о 0 где %i ен R. для всех /;
134 Гл. 2. Унитарная эквивалентность и нормальные матрицы (Ь) А=—Ат в том и только в том случае, когда для неко- некоторой вещественной ортогональной матрицы QeMn(R) имеем ¦О О QTAQ = Л, _0 Л, где At ^ M2(R) для всех j и при этом (с) ААТ = I в том и только в том случае, когда для неко- некоторой вещественной ортогональной матрицы QeMrt(R) имеем 0 где X этом 0 = ± 1 0"=1, ..., р), А (i = 1, ..., k) и при [COS 0/ Sin 0/ "I — sin e7 cos©/]'1 Доказательство. В любом случае исходное предположение обеспечивает нормальность вещественной матрицы А. Поэтому Л можно записать в виде B.5.9), B.5.10). Если А = АТ, то At = = Лу для всех /; поэтому C/ = 0 и матрица QTAQ оказывается диагональной. Если Л = — Ат, то Я/ = — Я/ и Л/ = — Л/; поэтому Я, = 0 и а, —0 для всех /. Если ААТ = 1, то Х,Х,= 1 и Л/Л/ = /; поэтому Я/ = 1 и а/ + Р/ = 1 для всех /; в этом слу- случае получаем Я; = ± 1 и а; = cos 8/, р; = sin 0/. П Если имеется какое-либо коммутативное семейство веще- вещественных и нормальных матриц, то для них одновременная ве-
2.5. Нормальные матрицы 135 щественная диагонализуемость может и не иметь места; однако все эти матрицы можно одновременно привести к блочно-диаго- нальной форме B.5.9). 2.5.15. Теорема. Для любого коммутативного семейства [/VSiWrt(R) вещественных нормальных матриц существует ве- вещественная ортогональная матрица Q, такая, что QTAQ имеет вид B.5.9), B.5.10) для всех A<=jf. Доказательство. Согласно теореме 2.3.6, все матрицы из JT одновременно приводятся к виду B.3.5) с помощью одной и той гке вещественной ортогональной матрицы Q. Рассуждения, при- приведенные в доказательстве теоремы 2.5.8, показывают, что все матр.ицы вида B.3.5) должны иметь вид B.5.9). ? Задачи Можно составить намного более длинный, чем в теореме 2.5.4, список условий на матрицу А^Мп, эквивалентных ее нормальности. Некоторые из таких условий включены в задачи. 1. Доказать, что матрица А^.Мп нормальна в том и только в том случае, когда векторы Ах и А*х имеют одинаковую евкли- евклидову длину для любого х е С". Напомним, что для i/gC" евкли- евклидова длина есть (у*у)'/2. 2. Доказать, что нормальная матрица является унитарной в том и только в том случае, когда все ее собственные значе- значения по модулю равны 1. 3. Доказать, что нормальная матрица является эрмитовой в том и только в том случае, когда все ее собственные значения вещественны. 4. Доказать, что нормальная матрица является косоэрмито- вой в том и только в том случае, когда все ее собственные зна- значения чисто мнимы. 5. Показать, что если матрица А^Мп косоэрмитова (эрми- (эрмитова), то матрица [А эрмитова (косоэрмитова). 6. Доказать, что матрица А е Мп является нормальной в том и только в том случае, когда она коммутирует с какой-либо нормальной матрицей с различными собственными значениями. 7. Рассмотрим матрицы А е М„, представимые в виде А — = В~!В* для каких-то невырожденных матриц В е Мп (см. тео- теорему 2.1.9). (a) Доказать, что унитарность А равносильна нормально- нормальности В. (b) Доказать, что если В имеет вид В = HNH, где N и Я соответственно нормальная и эрмитова матрицы (обе невырож- невырожденные), то А подобна унитарной матрице. 8. Для АеМ„ определим эрмитову часть Н{А) — {А -\-А*)/2
135 Гл. 2. Унитарная эквивалентность и нормальные матрицы и косоэрмитову часть S(A) = (A — Л*)/2. Тогда А=Н(А) + -\-S{A). Доказать, что А нормальна в том и только в том слу- случае, когда Н(А) и S(A) коммутируют между собой. 9. Доказать, что если две нормальные матрицы коммути- коммутируют, то их произведение нормально. Показать на примере, что произведение двух нормальных матриц может быть нормаль- нормальным и без условия коммутативности сомножителей. 10. В обозначениях задачи 8 доказать, что А будет нормаль- нормальной, если любой собственный вектор для Н(А) будет также собственным вектором для S(A) (соответственно для А). 11. Показать, что для любого комплексного числа zeC можно найти число 6gR, такое, что z = emz. При этом мат- матрица [e'9]eAfi унитарна. Как выглядят диагональные унитар- унитарные матрицы U е М„? 12. Обобщить задачу 11 и показать, что для всякой диаго- диагональной матрицы Л = diag(Xi,X2, ¦-., Хп)^Мп можно найти диагональную унитарную матрицу ?/, такую, что /V = VA = AV. 13. Используя задачу 12, доказать, что матрица А ёМ, нор- нормальна в том и только в том случае, когда A* — AV для неко- некоторой унитарной матрицы V е Мп. Как-это связано с задачей 7? 14. Доказать, что если все собственные значения матрицы A eMn(R) вещественны, то нормальность А эквивалентна ее симметричности. 15. Доказать, что две нормальные матрицы одного порядка подобны (на самом деле унитарно эквивалентны) в том и толь- только в том случае, когда они имеют одинаковые характеристиче- характеристические многочлены. Верно ли это для матриц, не являющихся нор- нормальными? Указание. Рассмотреть [J J] и [Ор]. 16. Показать, что произведение АВ нормальных матриц А, В^Мп может не быть нормальным и потому невырожден- невырожденные нормальные матрицы одного порядка не образуют группу по умножению. Однако унитарные нормальные матрицы обра- образуют группу. Будет ли мультипликативной группой множество невырожденных эрмитовых матриц? 17. Пусть матрица А^Мп нормальна и p(t) — заданный многочлен. Используя определение 2.5.1, доказать нормальность матрицы р(А). Придумать также другое доказательство, исполь- использующее теорему 2.5.4. 18. Пусть матрица А^Мп такова, что для какого-то нену- ненулевого многочлена p(t) матрица р(А) оказалась нормальной. Будет ли А нормальной? Указание. Рассмотреть ^ = [20] и ^~. 19. Пусть заданы Л е Л4„ и sgC. Доказать, что А нор- нормальна в том и только в том случае, когда A -j- al нормальна. 20. Пусть матрица А ёЛл нормальна и вектор х е С" удов- удовлетворяет соотношению Ах — Кх. Используя задачи 1 и 19, по-
2.5. Нормальные матрицы 137 казать, что А*х = Хх. Указание. Установить, что если евклидова длина вектора (А — XI) х равна нулю, то и евклидова длина век- вектора (А — Х1)*х равна нулю. 21. Используя теорему 2.5.4, доказать, что если матрица А е Мп нормальна и Ах — Хх, Ау -¦= \ху при X Ф \л, то х и у орто- ортогональны. Указание. Записать A—UAU*, где A=diag (Аь . . ., Хп) и U^Mn — унитарная матрица. Пусть U'x = х' = [х^1 и U'y — = у' = \у'^. Показать, что Ax' — kxf, и отсюда вывести, что х', = 0 для любого индекса i, такого, что ХЬФХ; то же про- проделать с у'. Установить ортогональность х' и у' и отсюда вы- вывести ортогональность х и у. 22. Используя теорему 2.5.6, доказать, что характеристиче- характеристический многочлен эрмитовой матрицы имеет вещественные коэф- коэффициенты, даже если не все элементы в А вещественные. 23. Показать, что комплексные матрицы [\ '] и [) [] сим- симметричны (А — Ат) и при этом одна из них нормальна, а дру- другая—нет. Таким образом, имеется существенное различие ме- между вещественными симметричными и комплексными симмет- симметричными матрицами (см. § 4.4). 24. Показать, что если матрица А е Мп одновременно нор- нормальна и нильпотентна, то А = 0. 25. Пусть задана матрица А е Мп. Доказать, что, для того чтобы А была нормальной, необходимо и достаточно, чтобы для некоторого многочлена p(t) степени не выше п—1 выполнялось равенство А* = р(А). Указание. Используя интерполяцию Лаг- ранжа, построить для Л == diag(A,i, ..., Хп) такой многочлен p(t), для которого /?(Л) = Л. Затем обратиться к теореме 2.5.4. Как это «объясняет», почему нормальная матрица коммутирует со своей сопряженной? Показать дополнительно, что если А ве- вещественна, то интерполяционный многочлен Лагранжа р(-), обеспечивающий равенство А* — р(А), имеет вещественные коэффициенты. Таким образом, Ат = р(А); для вещественной нормальной матрицы А имеем Ат — р(А) для некоторого веще- вещественного многочлена р(-). См. формулу @.9.11.4). 26. Привести пример вещественной нормальной матрицы, ко- которая унитарно подобна диагональной матрице и не приводится к диагональному виду никаким вещественным ортогональным подобием. Показать, что вещественная матрица А вещественно ортогонально подобна диагональной матрице в том и только в том случае, когда А симметрична (А — Аг). 27. Доказать, что заданная матрица Л еЛ4л нормальна в том и только в том случае, когда
138 Гл. 2. Унитарная эквивалентность и нормальные матрицы для всех х, у е С". Геометрически это означает, что угол между векторами Ах и Лг/ тот же самый, что и между векторами А*х и А*у для всех х, ^еС", Как это связано с задачей 1? 28. Доказать, что если матрица А^Мп нормальна, то ра- равенство Ах = 0 равносильно А*х — О. Это означает, что нуль- пространства матриц А и А* совпадают. Рассмотреть [JJ] и Г j gl и показать, что это неверно в общем случае. 29. Рассмотрим систему линейных уравнений Ах = у, где г/еС" и А^Мп заданы, и предположим, что А вырожденна. Заданная система имеет (неединственное) решение в том н только в том случае, когда y*z = О для всех z e С", таких, что A*z — Q (см. разд. 0.6.6). Показать, что если А нормальна, то заданная система имеет решение в том и только в том случае, когда y*w = 0 для всех w е С", таких, что Aw = 0, т. е. когда вектор у ортогонален нуль-пространству матрицы А. Если нужно найти все решения вырожденной системы Ах — у, то более экономичные вычисления будут отвечать именно случаю нор- нормальной матрицы А. Объяснить, почему! 30. Пусть пь п2, ..., nk — заданные целые положительные числа, и пусть А; е Мп. (j = 1 k). Доказать, что прямая сумма Л = Л, ©...©Л/г нормальна в том и только в том случае, когда Af нормальна для всех /. 31. Доказать, что две нормальные матрицы подобны тогда и только тогда, когда они унитарно эквивалентны. Указание. Установить, что UA.U* и J/AV* унитарно эквивалентны, если U и V унитарные. Привести пример двух (не являющихся нор- нормальными) матриц, которые подобны, но не являются унитарно эквивалентными. 32. Заметим, что вещественная ортогональная матрица А е eAI3(R) имеет одно или три вещественных собственных значе- значения. Используя теорему 2.5.14, показать, что если определитель матрицы А положителен, то она ортогонально эквивалентна прямой сумме матрицы [l]eAfi и какого-то плоского враще- вращения. Это преобразование геометрически интерпретируется как вращение на угол 0 вокруг некоторой неподвижной оси, прохо- проходящей в R3 через начало координат. Продумать эту интерпре- интерпретацию. Она представляет собой часть теоремы Эйлера из ме- механики: любое движение твердого тела есть композиция парал- параллельного переноса и вращения вокруг какой-то оси. 33. Доказать, что если коммутативное семейство состоит из нормальных матриц, то существует эрмитова матрица В, та- такая, что каждая матрица Аа е SF имеет вид Аа — ра{В) Для какого-то многочлена pa(t) степени не выше п—1. Обратить внимание на то, что В фиксирована для всего &~, но много*.
2.6. <?#-разложение и <3/?-алгоритм 139 члены могут зависеть от элементов" семейства &г. Указание. Пусть унитарная матрица U е М„ одновременно диагонализует любой член семейства ЗГ. Положить В = U diag(l, 2, ..., n)U*, Аа = UAaU*, где Aa = diag(xia), ..., Я^'), и взять в качестве pa(t) интерполяционный многочлен Лагранжа, обеспечивающий равенства pa(k) — X{k* (k—l, 2, . .., п). 34. Доказать, что матрица А е М„ нормальна в том и толь- только в том случае, когда всякий собственный вектор для А яв- является также собственным вектором для А*. Указание. Пусть U е М„ — унитарная матрица с первым столбцом, совпадаю- совпадающим с собственным вектором для А (и, следовательно, для А*). Рассмотреть вместе U*AU и U*A*U =(U*AU)* и продолжить доказательство. 35. Проверить следующее усиление теоремы 2.2.8 для слу- случая нормальных матриц А, В^Мп: матрица А унитарно экви- эквивалентна В тогда и только тогда, когда tr Ak = tr Bk для k = \, 2, ..., п. Указание. Использовать задачу 15 и задачу 12 из § 1.2. 36. Пусть A i= Mn(R), и предположим, что ААТ = АТА, т. е. А — вещественная нормальная матрица. Доказать, что если все собственные значения для ААТ различны, то А симметрична. Указание. Использовать теорему 2.5.8. 2.6. Q-R-раэложение и Q-R-алгоритм Q^-алгоритм — это особый способ реализации теоремы Шура 2.3.1 об унитарной триангуляризации заданной матрицы А е Мп и популярный численный метод вычисления собственных значе- значений (при некоторых предположениях). Его основу составляет так называемое Q^-разложение произвольной матрицы А <= Мп, т. 2.6.1. Теорема (о Q/^-разложении). Если А е Мп, т и п ^ т, то существуют матрица Q e Mn, m с ортонормированными столб- столбцами и верхняя треугольная матрица R e Mm, такие, что А = QR. Если m = п, то Q унитарна; если к тому же А невы- рожденна, то R можно выбрать таким образом, что все ее диа- диагональные элементы будут положительны, и в этом случае Q и R определяются однозначно. Если А е Мп, m(R), то Q и R можно выбрать вещественными. Доказательство. Если А е Мп, m и rank Л = пг, то QR-разло- жение матрицы А есть не что иное, как матричная запись ре- результата применения процесса 0.6.4 Грама — Шмидта к столб- столбцам матрицы А, образующим в С линейно независимое множе- множество. Естественное обобщение алгоритма Грама — Шмидта поз- позволяет таким же способом записать его применение в общем
140 Гл. 2. Унитарная эквивалентность и нормальные матрицы случае, когда столбцы матрицы А могут быть зависимы. Пусть A = [ax ... ат] имеет столбцы af е С. Если а{ = О, то поло- положим <7i = 0, в противном случае ^ = aI/(aja1)I/2. Для каждого k — 2, 3, ..., т вычислим точно так же, как в обычном процессе Грама — Шмидта. Если ук = 0 (а это может произойти в том и только в том случае, когда а/г есть линейная комбинация векторов аи а2, ¦¦., cik-i), то положим <?? = 0, в противном случае qk — Ук1{укУкУ12- Век- Векторы с/ь ..., q т, таким образом, составляют ортогональное множество, каждый элемент которого является единичным (т.е. нормированным) или нулевым вектором. Каждый вектор q/ — это линейная комбинация векторов ah ..., а$, и, обратно, сог- согласно построению, каждый столбец ajt — это линейная комби- комбинация векторов <7ь •••» <7/. Следовательно, найдутся числа Гк/, такие, что / a/=Z rkjqk, /=1, 2 т. B.6.2) При k > j положим гй/ = 0, и пусть /-,•/ = 0, если q{ = 0 (/'= = 1, . . ., т). Таким образом, исходя из аи а2, ..., ат, с помощью описанной процедуры мы определим верхнюю треугольную матрицу R = [r{j] e Мп и векторы qu q2, ..., qm. Матрица Q==\ql ... (/ш)еМЛ|И имеет ортогональные столбцы (некото- (некоторые из них могут равняться нулю), и в силу B.6.2) A = QR. Если гапкЛ = /?г, то Q имеет ортонормированные столбцы, и мы получаем разложение с нужными свойствами. В частно- частности, если т = п и матрица А невырожденна, то Q должна быть унитарной в силу утверждения (е) теоремы 2.1.4, и все диаго- диагональные элементы невырожденной матрицы R = Q*A отличны от нуля. В этом случае вследствие того, что матрица R верхняя треугольная, вектор q\ есть кратное вектора а.\ и при i — 2, 3, ... ..., т вектор qi лежит в одномерном пространстве, которое яв- является ортогональным дополнением линейной оболочки векто- векторов а\ о,-_1 в линейной оболочке векторов аи ..., а;. Сле- Следовательно, каждый вектор qi определяется однозначно с точ- точностью до скалярного множителя, по модулю равного 1. По- Поэтому, заменяя R на R' — diag(|rn \/rn, ..., \rmm\/rmm)R и Q на Q's= Qdiag(rn/]rn|, ..., гтт/\гтт\), получаем то един- единственное разложение А = Q'R', о котором говорится в утверж- утверждении георемы.
2.6. <3/?-разложение и <3/?-алгоритм 141 Если столбцы в А зависимы, то возьмем (ортонормирован- ное) множество ненулевых столбцов в Q и дополним его до ортонормированного базиса в С"; новые векторы, полученные этим способом, обозначим через z\, 22, ..., гр. Теперь заменим первый нулевой столбец в Q на г\, второй — на z2 и т. д. до тех пор, пока не будут заменены все нулевые столбцы. Получен- Полученную в результате матрицу обозначим через Q'. Она имеет орто- нормированные столбцы, и QR = Q'R, потому что новые столбцы в Q' соответствуют нулевым строкам в R. Итак, А = Q'R — раз- разложение нужного вида. Если А — вещественная матрица, то все необходимые опера- операции можно выполнить в вещественной арифметике, и тогда Q и R получаются вещественными. D Упражнение. Доказать, что если А е Мп, т и п ^ т, то для А существует разложение А — LP, где матрица L е Мп нижняя треугольная и матрица Р е Мп, т имеет ортогональные строки, и по отношению к этому разложению справедливы утвержде- утверждения, аналогичные остальным утверждениям из формулировки теоремы 2.6.1. Упражнение. Доказать, что любая матрица В <= М„ вида В—А*А (Ае.Мп) представима также в виде B — LL*, где матрица Leln нижняя треугольная с неотрицательными диа- диагональными элементами. Доказать, что если А невырожденна, то это разложение единственно. Оно называется разложением Холецкого для В и имеет место для любой положительно опре- определенной матрицы (см. гл. 7). Указание. Записать A — QR. Q^-разложение имеет исключительно важное значение для вычислительной практики (см. разд. 2.6.3), но оно также весьма интересно и как теоретический инструмент. Например, для за- заданной матрицы А е Мп ее приводимость к верхней треугольной форме посредством унитарного подобия следует непосредствен- непосредственно из ее приводимости к такой форме посредством обычного подобия. Пусть S~lAS = T — верхняя треугольная матрица п 5 — QR — разложение, описанное теоремой 2.6.1. Тогда R~lQ*AQR = Т и матрица Q*AQ = RTR-1 верхняя треугольная, так как она есть произведение верхних треугольных матриц. Та- Таким же способом можно установить, что теоремы (типа 2.4.15) 06 одновременной триангуляризации в действительности яв- являются также теоремами об одновременной унитарной триангу- триангуляризации. Другими словами, если заданное семейство матриц из Мп одновременно триангуляризуемо каким-либо преобразо- преобразованием подобия, то оно также одновременно триангуляризуемо каким-то преобразованием унитарной эквивалентности.
142 Гл. 2. Унитарная эквивалентность и нормальные матрицы Теперь мы сформулируем Q^-алгоритм вычисления собствен- собственных значений и вкратце расскажем о некоторых его свойствах (без доказательства). 2.6.3. ф/?-алгоритм. Пусть задана матрица Ло е Мп. В соот- соответствии с теоремой 2.6.1 запишем Ао = QoRo и образуем мат- матрицу А\ = RoQo. Снова запишем А\ = QiRi, где Q\ — унитарная, a R\ — верхняя треугольная матрицы, и продолжим по анало- гни. Итак, на каждом шаге выполняется Q-R-разложение А к = = QkRk и вычисляется матрица Ak+\ = RkQk- Упражнение. Доказать, что все матрицы Ak, полученные с помощью QR- алгоритм а, унитарно эквивалентны Ао (k = = 1,2, ...)• При определенных условиях (например, если все собствен- собственные значения матрицы Ло различаются по модулю) Q^-алго- ритм вырабатывает последовательность матриц Ак, при k -*¦ оо сходящуюся к верхней треугольной матрице. Поскольку эта верхняя треугольная матрица унитарно эквивалентна Ао, то мы получаем в то же время собственные значения матрицы Ао. Если матрица Ло вещественна, то Q^-алгоритм можно реа- реализовать в вещественной арифметике. Однако, если Ао имеет невещественные собственные значения, то нет никакой надежды на то, что Q^-итерации сойдутся к какой-либо верхней тре- треугольной матрице, так как в пределе должна получиться веще- вещественная матрица. При определенных условиях, тем не менее, итерации Ak могут быть осуществлены таким образом, что бу- будет обеспечена их сходимость к вещественной верхней блочно- треугольной матрице, имеющей на главной диагонали блоки размеров 1X1 и 2X2. Для этого достаточно, чтобы все соб- собственные значения различались по модулю, за исключением не- невещественных комплексно-сопряженных пар собственных значе- значений, имеющих, разумеется, одинаковые модули. Поскольку соб- собственные значения блочно-треугольной матрицы — это совокуп- совокупность собственных значений блоков на диагонали, собственные значения матрицы Ао — это элементы блоков размера 1 X 1 (на диагонали в предельной блочно-треугольной матрице) вместе с собственными значениями блоков размера 2X2. Последние можно вычислить, используя вещественную арифметику и фор- формулу для корней квадратного уравнения. 2.6.4. Пример. Покажем, что Q^-алгоритм не всегда сходит- сходится к треугольной матрице. Возьмем =4 ° Ч L-i oj-
2,6. <?#-разложение и QR-апгориш 143 Тогда а(Л) = {±1} и собственные значения не различаются по модулю. Полагаем Ло — А и, следуя Q^-алгоритму, строим одну из возможных последовательностей ГО 1 ]Г-1 0] Л=1_1 0 J L 0 U' Ч-Г° ~Ч_Г° ЧГ oj Li oj Li oJL 1 01Г o — l JL Возможна и другая реализация: А> = А> [ о j J = А>. В обоих случаях происходит циклическое повторение и последо- последовательность {Ак} не сходится к верхней треугольной матрице. Однако можно так выбрать последовательность {Ак}, чтобы она сходилась к верхней блочно-треугольной матрице. Задачи 1. Пусть в С" заданы векторы xlt ..., хт и Х = [х{х2 ... *mJe ёМЛ1„. Предположим, что процесс Грама — Шмидта (см. разд. 0.6.4) применяется к векторам хи ..., хт и производит ортонормированную систему гх гт. Пусть Z^\zx ... zm\ e М (a) При k =={,.. .,т положим Zk = [z{z2 ... Zkxk+\xk+i- • • хт]> где zk — единичный вектор, полученный на k-ш шаге процесса ортогонализации Грама — Шмидта. При этом Zm = Z. Дока- Доказать, что ZX = XAU Z2 = ZlA2, ..., Zm = Zm_,Am, где А;— -невы- -невырожденная верхняя треугольная матрица, отличающаяся от / лишь г-м столбцом. (b) Положим ГЙ^А,А2 ...Ai (fe==l, 2 т). Показать, что Тк — верхняя треугольная матрица и Zk=XTk (k — = 1, 2, ..., m). Пусть T = Tm, так что Z = XT. (c) Какова связь между этой матрицей Т и верхней тре- треугольной матрицей R из доказательства теоремы 2.6.1? (d) Показать, что первые k столбцов в Z/ и Г/ не изменяют' ся при ;' = k + 1, к -\- 2, ..., ш, так что k-н шаг процесса Гра- Грама — Шмидта вырабатывает k-e столбцы в окончательных мат- матрицах Z и Т. 2. Пусть в С" заданы линейно независимые векторы хь ..., хт и Х = [х{ ... хт] е Мп> т. Рассмотрим следующий алгоритм.
144 Гл. 2. Унитарная эквивалентность и нормальные матрицы I. Положим Z^X, и пусть Z = \zx ... zm], т. е. в начале zt = xt (г— 1, . .., т). II. Для k — \, 2, ..., т выполняем следующее: (i) сначала заменяем столбец zk на zk/(zk, zk)ll2; затем (И) для / = k + 1, k + 2, . .., т заменяем каждый столбец z, на Zj — {zh zk)zk. Здесь (х, У)^у*х — обычное скалярное произведение в С". (a) Доказать, что в итоге этого процесса будет получена матрица Z с ортонормированными столбцами, и это та же самая матрица Z, которая строится с помощью процесса Грама — Шмидта в задаче 1. (b) Пусть Zk обозначает содержимое матрицы Z после выполнения k-то шага алгоритма (& —1, 2, ..., пг). Показать, 4toZ( =XA1, Z2 = ZiA2, . . ., Zm = Zm_,Am, где каждая матрица Аг невырожденная верхняя треугольная, отличающаяся от / только i-ii строкой. (c) Пусть ГА = Л1Л2 ... Д* (k = l, 2, ..., m). Показать, что Тк — верхняя треугольная матрица и Zk = XTk (k = 1, 2, . . ., m). Проверить, что первые k столбцов в каждой Tk такие же, как и в матрице Tk из задачи 1, хотя соответствующие матрицы Д% и Zk могут различаться. Положим Г = ГШ. (d) Доказать, что первые k столбцов в Z/ и Т/ не изменяют- изменяются при / = k -f- I, k + 2, ..., m, так что на k-u шаге алгоритма вырабатываются k-e столбцы в окончательных матрицах Z и Т. Этот алгоритм известен как модифицированный процесс Гра- Грама— Шмидта. Он приводит к тому же самому результату, что и обычный процесс Грама — Шмидта — различие лишь в по- порядке вычислений. Несмотря на то что модифицированный и обычный процессы Грама — Шмидта математически эквивалент- эквивалентны, первый имеет преимущество с точки зрения численной реа- реализации, потому что требует меньше памяти и в трудных си- ситуациях, когда столбцы в X почти параллельны, здесь выраба- вырабатывается Z со столбцами, более близкими к ортогональным, чем в Z, полученной в обычном процессе Грама — Шмидта. Чтобы еще улучшить характеристики процесса в сложных ситуациях, можно ввести стратегию выбора ведущего столбца: прежде чем выполнять предписание II (i), выберем в качестве Zk из остав- оставшихся столбец Zj (j ^ k) с наибольшим квадратом длины z]zj- При численной реализации на самом деле ДГ1 находятся на каждом шаге (не требуется выполнять обращения) и накап- накапливаются произведения этих матриц, с тем чтобы вычислить треугольный сомножитель в Q^-разложении матрицы X. 3. Получить Q/?-pизложение с помощью последовательности умножений на преобразования Хаусхолдера. Показать, что по- потребуется п—1 преобразований Хаусхолдера и Q будет их про-
2.6. Qft-разложение и Q/^-алгоритм 145 изведением. Известно, что этот метод с вычислительной точки зрения предпочтительнее по сравнению с процессом Грама — Шмидта, использованным в доказательстве теоремы 2.6.1. 4. Пусть Q^-алгоритм для Ао е Мт сходится к верхней тре- треугольной матрице. Как вычислить собственные векторы для Ло? Указание. Нужно решить (вырожденную) треугольную систему с нулевой правой частью. 5. Пусть Qi^-алгоритм применяется к заданной матрице А е Мп и последовательность Q^-итераций {Ak} сходится: lim Ak = В. Используя принцип выбора 2.1.8, объяснить акку- k ->00 ратно, почему В унитарно эквивалентна А. Почему это важно? Дополнительная литература Дальнейшие сведения и детальное описание эффективных вычислительных реализаций обычного и модифицированного процессов Грама — Шмидта и других процедур ортогонализа- ции можно найти на с. 146—169 в [GV 1]. Обсуждение Q^-алго- ритма, доказательства и дополнительные ссылки см. в обзоре: Watkins D. Understanding the QR Algorithm. —SIAM Rev., 1982, v. 24, p. 427—440, или в [Ste].
Глава 3 КАНОНИЧЕСКИЕ ФОРМЫ 3.0. Введение Когда две заданные матрицы подобны? Мы знаем, что у подобных матриц одинаковы следы, определители, характери- характеристические многочлены и собственные значения. Однако есть мат- матрицы, например, ГО 1 1 ГО 01 А=[о о! Но о! которые имеют один и тот же след, определитель и т. д., не бу- будучи подобными. Если бы Л и В были подобны, то для какой-то невырожденной матрицы 5 е М2 выполнялось бы равенство A =5S5~! = SOS~l = 0, а этого не может быть, так как А ф 0. Упражнение. Вычислить след, определитель, характеристи- характеристический многочлен и собственные значения двух матриц C.0.1). Показать, что А2 = 0. Две матрицы, внешне ничем не похожие, могут, тем не ме- менее, быть подобными. Поэтому, чтобы определить, подобны ли две заданные матрицы, можно пойти по такому пути: описать какое-то множество матриц «простой» формы и затем для за- заданных матриц смотреть, приводятся ли они преобразованием подобия к одной и той же «простой» форме. Если они приво- приводятся, то они подобны (вследствие симметричности и транзитив- транзитивности отношения подобия). Какие же «простые» формы отве- отвечали бы этой цели? Произвольная комплексная матрица А (унитарно) подобна некоторой верхней треугольной матрице, в которой диагональ- диагональные элементы (собственные значения для А) можно располо- расположить в любом заданном порядке (см. теорему 2.3.1). Поэтому две матрицы подобны, если они подобны одной и той же верх- верхней треугольной матрице. Однако две верхние треугольные мат- матрицы с одной и той же главной диагональю и разными внедиа- гональными элементами, тем не менее, могут быть подобными. Таким образом, если какие-то две матрицы нам удалось при- привести к двум не равным верхним треугольным матрицам с од- одной и той же главной диагональю, то мы не можем утверждать,
3.0. Введение 147 что матрицы не подобны. Неопределенность здесь слишком ве- велика; любая верхняя треугольная матрица имеет п{п-\- 1)/2 не- ненулевых элементов (точнее, элементов, которые могут быть от- отличны от нуля), и это слишком много для того, чтобы по ним легко распознавалось подобие. Все дело в неединственности тре- треугольной формы. Для наших целей класс верхних треугольных матриц оказы- оказывается слишком широким. А что если обратиться к классу диа- диагональных матриц? Если каждая из двух заданных матриц по- подобна какой-либо диагональной матрице, то подобие исходных матриц имеет место в том и только в том случае, когда эти диа- диагональные матрицы имеют одни и те же диагональные элементы с учетом кратностей, но без учета их упорядочения. Причина со- состоит в том, что подобие вида PDPT, где Р — матрица переста- перестановки, позволяет расставить в любом заданном порядке диаго- диагональные элементы любой диагональной матрицы D. Теперь снимается проблема неоднозначности, возникавшая для верхних треугольных матриц, но вместе с тем возникает проблема су- существования: не всякая комплексная матрица подобна какой- либо диагональной матрице. Упражнение. Показать, что матрица А из C.0.1) недиагона- лизуема. Указание. Если А = 5Л5~', то Л = В. Если наш поиск будет ограничен верхними треугольными матрицами, которые близки к диагональным настолько, на- насколько это возможно, и которые при этом можно получить с помощью преобразования подобия из любой матрицы, то в ре- результате мы придем к жордановой канонической форме, кото- которая изучается в следующем параграфе. До сих пор мы говорили о подобии двух заданных матриц ,4, Bg Mn. Однако в теории матриц представляют интерес и не- некоторые другие отношения эквивалентности. Например, можно интересоваться, преобразуется ли А в В с помощью унитарного подобия или, скажем, только с помощью элементарных преобра- преобразований строк и столбцов. Для вещественных А и В можно по- попытаться узнать, будут ли они вещественно подобны. Если мат- матрицы А и В эрмитовы, то можно спросить, существует ли не- невырожденная матрица S е Мп, такая, что A—SBS*. Если мат- матрицы А и В симметричны, то можно поставить вопрос, суще- существует ли невырожденная матрица 5 е Мп, такая, что A —SBST. В каждой из этих ситуаций мы имеем какое-то отношение эквивалентности на множестве матриц и ставим вопрос, будут ли две заданные матрицы находиться в одном классе эквива- эквивалентности. Один из подходов к решению этой проблемы заклю- заключается в выделении «простого» набора матриц-представителей определенного типа по одной из каждого класса эквивалентно-
148 Гл. 3. Канонические формы сти и в попытке преобразовать любую заданную матрицу к од- одной из этих выделенных. Для того чтобы этот подход оказался успешным, нужно в каждом классе эквивалентности иметь пред- представитель выделенного типа (это не так, если рассматривать диагональные матрицы и отношение подобия) и весьма жела- желательно иметь только один «представитель» (или, возможно, не- небольшое и легко описываемое множество эквивалентных пред- представителей) в каждом классе (это не так, если рассматривать отношение подобия и верхние треугольные матрицы). Такой на- набор представителей часто называется канонической формой. Не- Несколько примеров канонических форм мы рассмотрим в этой главе, другие появятся в соответствующих разделах последую- последующих глав. 3.1. Жорданова каноническая форма: доказательство Жорданова каноническая форма — это набор «почти диаго- диагональных» матриц, называемых жордановыми матрицами. Сюда входят и все диагональные матрицы. На множестве квадратных комплексных матриц каждый класс эквивалентности (по отно- отношению подобия) содержит какую-то жорданову матрицу и лю- любые две жордановы матрицы из одного класса эквивалентности одинаковы с точностью до тривиального различия. Жорданова матрица, подобная какой-либо заданной матрице, называется жордановой канонической формой (иногда — жордановой нор- нормальной формой) этой матрицы. Если для какой-то матрицы найдена ее жорданова каноническая форма, то можно считать, что об этой матрице (или линейном преобразовании) известно все, чем обычно интересуются в линейной алгебре, и, чтобы получить необходимую информацию, достаточно лишь взглянуть на жорданову каноническую форму. 3.1.1. Определение. Жордановым блоком или жордановой клеткой Уй(А,) называется верхняя треугольная матрица раз- размера ky^k, имеющая вид /*(*) = Я 1 Я 1 О О" 1 я C.1.2) Над главной диагональю k—1 раз ставится 1; на главной диа- диагонали k раз повторяется число К. Все остальные элементы равны нулю. По определению J\(X) — [X]. Жордановой матри-
3.1. Жорданова каноническая форма: доказательство 149 цей J е Мп называется любая прямая сумма жордановых кле- клеток О" О , п, + «2 + ... + 'h C.1.3) где порядки ni каких-то клеток могут совпадать и числа А.,- не обязательно различны. Заметим, что если каждая жорданова клетка /„. (Xi) в C.1.3) имеет порядок 1, т. е. т = 1 для всех / и k — п, то жорданова матрица / диагональна. Если для какой-то жордановой клетки Jm(X) в C.1.3) т > 1, то мало того, что / не является диаго- диагональной,— она вообще не диагонализуема. Если Jm(X) = SAS~l и Л — диагональная матрица, то обязательно Л = diag(A,, А,, ... ,.., Х) = Х1. Таким образом, Jm(X)—XI = SAS~l — XI = %I — — XI = о, а это невозможно при т ~> 1. Однако обратим внима- внимание на то, что для каждой жордановой клетки имеется один отвечающий ей собственный вектор матрицы / — это вектор стандартного базиса, соответствующий первому диагональному элементу этой клетки ]т{Х). Собственными векторами матрицы / являются лишь кратные этих векторов1). Основной результат этого параграфа заключается в том, что всякая комплексная матрица подобна по существу единственной жордановой мат- матрице. Мы проведем доказательство в три этапа. Этап 1. Заметим, что всякая комплексная матрица подобна верхней треугольной матрице с собственными значениями, рас- расположенными на главной диагонали в произвольном заданном порядке, — это теорема 2.3.1 Шура о триангуляризации. Этап 2. Далее, для любой верхней треугольной матрицы существует преобразование подобия, превращающее ее в блочно- диа'гональную матрицу, в которой каждый диагональный блок имеет верхнюю треугольную форму и на его главной диагонали располагаются равные элементы (наподобие жордановой клетки C.1.2)). Это теорема 2.4.8. Этап 3. Наконец, покажем, что любая верхняя треуголь- треугольная матрица с равными элементами на главной диагонали по- подобна прямой сумме жордановых клеток вида C.1.2). Как только будет установлено последнее предложение, мы сможем для любой комплексной матрицы построить ее жорда- ') А для дефектных матриц и линейные комбинации некоторых из этих векторов. — Прим. ред.
150 Гл. 3. Канонические формы нову форму, сочетая преобразования подобия, отвечающие каж- каждому этапу. Было бы хорошо, если бы вещественная матрица с веще- вещественными собственными значениями приводилась к жордано- вой канонической форме с помощью вещественного подобия, Чтобы обосновать эту возможность, заметим, что, согласно тео- теореме 2.3.1, для любой вещественной матрицы Л, имеющей толь- только вещественные собственные значения, существует веществен- вещественная унитарная (вещественная ортогональная) матрица U, та- такая, что матрица UTAU верхняя треугольная и ее элементы, оче- очевидно, вещественные. Далее, доказательство теоремы 2.4.8 поз- позволяет утверждать, что если верхняя треугольная матрица А вещественна, то подобие можно осуществить вещественной мат- матрицей S, причем матрица S~*AS будет вещественной блочно- диагональной и каждый ее блок будет верхней треугольной мат- матрицей с равными элементами на главной диагонали. Таким об- образом, достаточно убедиться в реализуемости этапа 3 и в том, что если на этом этапе верхняя треугольная матрица веществен- вещественная, то и матрица, осуществляющая преобразование подобия ее в прямую сумму жордановых клеток, может быть выбрана веще- вещественной. Следующая лемма поможет доказать выполнимость этапа 3. Она устанавливается с помощью прямого вычисления. 3.1.4. Лемма. Пусть заданы k 0 1 1 и жорданова клетка 0" . 1 о о = 0 при p>k. = е„ i=\, 2 k-l; Тогда Кроме того, Здесь h-\ <= М/г-i обозначает единичную матрицу, ei есть i-й единичный вектор стандартного базиса ихё С". Теперь докажем, что редукция на этапе 3 всегда осуще- осуществима. Напомним, что верхняя строго треугольная матрица —
3.1. Жорданова каноническая форма: доказательство 151 это верхняя треугольная матрица с нулями на главной диаго- диагонали. Обратим внимание на то, что любая верхняя треугольная матрица с равными элементами на главной диагонали есть ка- какое-то кратное единичной матрицы плюс верхняя строго тре- треугольная матрица. 3.1.5. Теорема. Пусть матрица А^Мп строго верхняя тре- треугольная. Существуют невырожденная матрица S е М„ и целые числа гц, «2, . • •, Пт, такие, что П\~^ п2^ ... ^ пт ^ 1, п\ + + «2 + ... + Пт — П U МО) о (Г s. C.1.6) Если А вещественна, то и S можно выбрать вещественной. Доказательство. Если п= 1, то Л = [0] и утверждение оче- очевидно. Проведем индукцию по п и предположим, что п > 1 и утверждение уже доказано для всех строго верхних треуголь- треугольных матриц порядка меньше п. Представим матрицу А в виде ГО аМ Lo а{\' А где а е С"-1 и матрица Ах е Мп-Х строго верхняя треугольная. Согласно предположению индукции, для некоторой невырож- невырожденной матрицы S\ e Мп-\ матрица Sf AiS\ имеет искомую форму C.1.6), т. е. -.-1 О /ft, о г/», от LO i\' C.1.7) где/г, /*. k2+ ... + k, = n— 1, о о /*.
152 Гл. 3. Канонические формы Заметим, что порядок любой жордановой клетки на диагонали в / не выше k\\ поэтому, согласно лемме 3.1.4, Jkl = 0. Простое вычисление показывает, что Г 1 0 1 Г 1 0 1 ГО aTS CU) Запишем aTSl = о?], считая, что это разбиение согласовано с блочным строением правой части в C.1.7); таким образом, й[ g CS|, a2<= C"'~k'~l и соотношение C.1.8) принимает вид ° o s o s rO aj 0 /ftl LO 0 0 / J Теперь рассмотрим следующее преобразование подобия: [ 1 - aUL / 0 О О / ¦ C.1.9) Здесь использовано равенство (/—¦/^/й)х = (х ei) ei из леммы 3.1.4. В зависимости от того, выполняется или не выполняется равенство а[е, = 0, существуют две возможности. Если а[е, =5^ 0, то 1/afe, 0 0 0 / 0 0 0 -0 0 -0 (of е,) е\ /ft. 0 al~ 0 / - - ате 0 0 0 / 0 о - 0 а\ех1_ Loo / J Заметим, что = /fel+i@) есть жорданова клетка порядка k\ + 1 с нулевой главной диа- диагональю. Если учесть, что 7ei+x = ei (i— 1,2, ..., k\), то легко
3.1. Жорданова каноническая форма: доказательство 153 проверяется Г/ е, Lo f][ соотношение 7 eial I Г / — е о / JLo '2^2 I __ J i + ex Sodi J  / ' Действуя аналогично, получаем следующую серию преобразо ваний подобия: [r T tI —1 ~i г 7 T ,i— 1 T Г г / ei+la2J J eia2J I 0 / JLo / JLo ' Поскольку Jk' = 0, то, самое большее, после &i шагов в этой се- серии внедиатональный блок станет нулевым. Значит, матрица А подобна матрице / 01 о /J' и это верхняя строго треугольная жорданова матрица искомого вида. Если а[е1==0, то в силу C.1.9) матрица А подобна матрице гО 0 0 0 aT2-i 0 /ft, 0 , 0 0 / J от которой с помощью матриц перестановок можно перейти к подобной матрице г'*, о о о о L0 0 ]¦ C.1.10) По предположению индукции для некоторой невырожденной матрицы S2 e Mn-k, SI1 Г0 аП где / — жорданова матрица с нулями на главной диагонали.
154 Гл. 3. Канонические формы Таким образом, матрица вида C.1.10), а значит, и матрица А, подобна матрице , ' Г*' ? Lo / которая является жордановои матрицей искомого вида, за ис- исключением того, что жордановы блоки на диагонали располо- расположены не обязательно по убыванию их порядка. Требуемое рас- расположение можно обеспечить, используя при необходимости по- подобие, осуществляемое блочными матрицами перестановок. Наконец, заметим, что если А вещественна, то все преобра- преобразования подобия, использованные в этом доказательстве, мож- можно выбрать вещественными. Поэтому А вещественно подобна искомой жордановои матрице. ? Теорема 3.1.5 по существу завершает этап 3 намеченной нами программы выявления жордановои канонической формы. Заметим, что если "Я — верхняя треугольная матрица, в которой все диагональные элементы равны Я, то матрица А0 = А — %1 будет верхней строго треугольной. Если матрица S е Мп невырожденна и матрица S~lA0S является прямой суммой жордановых клеток Jnt @) в со- согласии с теоремой 3.1.5, то S~lAS = S^AoS + XI— это прямая сумма жордановых клеток ]П{ (X). Этапы 1 и 2, изученные в § 2.3 и 2.4, вместе с этапом 3 доказывают половину общей теоремы о жордановои канонической форме, а именно утверждение о существовании такой формы. 3.1.11. Теорема. Пусть задана комплексная матрица А^Мп, Существует невырожденная матрица S е Мп, такая, что (Г is=SJS~l, C.1.12) 0 hk{U _ где п\ + П2 + ..,+«* = «. Жорданова матрица J для матрицы А определяется однозначно с точностью до перестановки жор- жордановых клеток на ее главной диагонали. Собственные значе-
3.1. Жордансва каноническая форма: доказательство 155 ния h (t = l, ..., k) не обязательно различные. Если матрица А вещественна и обладает только вещественными собственными значениями, то подобие может быть реализовано с помощью ве- вещественной матрицы S. Доказательство. Все, что здесь утверждается, за исключе- исключением единственности, уже установлено. Чтобы доказать един- единственность, возьмем две подобные жордановы матрицы и по- покажем, что они имеют один и тот же набор жордановых клеток с учетом кратностей (нескольких экземпляров одной и той же клетки). Поскольку для подобных матриц собственные значе- значения с учетом кратностей совпадают, то достаточно убедиться в совпадении жордановых клеток (с учетом кратностей) для двух подобных жордановых матриц, обладающих единственным соб- собственным значением. Вследствие совпадения числа диагональ- диагональных блоков, отвечающих какому-то собственному значению, с его геометрической кратностью (она одинакова для любых по- подобных матриц) эти две жордановы матрицы должны иметь одно и то же число жордановых клеток. Пусть клетки распо- расположены таким образом, что их порядки не возрастают. Тогда нужно доказать, что последовательность порядков для обеих матриц в точности одна и та же. Итак, положим /я, (Я) 01 Г'«.W О" 0 Jnb (Я) 7(Я) = 0 (Я) считая, что 1(К) подобна 7 (Я) и при этом п\ ^ п2 ^ ... ^ rik Hffli>m2^ ... ^mh, п\ + ... + nk = п и гп\ + • • ¦ + tnk = = п. Если п\ = гп\, то первые клетки совпадают; тогда их можно исключить из рассмотрения и перейти к двум матрицам, начинающимся со второй клетки. Повторяя это рассуждение, в конце концов мы установим, что все соответствующие пары клеток имеют одинаковый порядок, либо встретится первая пара клеток разных порядков. Итак, достаточно рассмотреть неравен- неравенство п\ > т\. В этом случае G(Я) — Я/)т' = 0, так как тх ~^т^ . .. ^ mk, но (/ (Я) — Я/)т' Ф 0. Подобие двух жордановых мат- матриц означает существование невырожденной матрицы S е Мп, такой, что /(Я) =SJ(l)S~\ /(Я) - Я/ = S[/(Я) - ll]S~l. Сле- Следовательно, [/ (Я) - Я/]т' = 5 [7~(Я) - Я/]1 S~l = SOS'1 = 0, и по- полученное противоречие завершает доказательство. ? . Чтобы ввести какое-то стандартное представление жордано- вой канонической формы C.1.12), обычно принимается согла- соглашение о том, что при выборе какого-то упорядочения собствен»
'56 Гл. 3. Канонические формы ных значений Яь ..., кп матрицы А в жордановой матрице сна- сначала идут клетки, отвечающие Хи затем — отвечающие А,2, и т.д. Для каждого собственного значения отвечающие ему жорда- новы клетки располагают по убыванию (невозрастанию) их порядка — сначала самая большая клетка, затем следующая по размеру и т. д. Если какому-то собственному значению отве- отвечают несколько клеток одного размера, то эти клетки ничем не отличаются. Поэтому мы получаем представление жордановой формы, определенное однозначно с точностью до заданного пер- первоначального упорядочения собственных значений. В каждом классе эквивалентности (относительно подобия) матриц из Мп содержится одна и только одна (с точностью до перестановок совокупностей клеток, отвечающих разным собственным значе- значениям) такая жорданова каноническая форма. Наш вывод жордановой канонической формы содержит яв- явный алгоритм, который в принципе можно использовать для нахождения жордановой формы произвольной заданной мат- матрицы. Однако это не тот алгоритм-, который можно рекомендо- рекомендовать для численной реализации на компьютере. С сожалением приходится констатировать, что здесь дело не в том, что именно этот алгоритм может приводить к каким-то подозрительным ре- результатам. В действительности вообще не существует численно устойчивого способа вычисления жордановых канонических форм. Простой пример сделает это утверждение совершенно ясным. Пусть е^=0 и Ле = [?!!]. Тогда A = SJESel, где Se = [? "] и/е = [оЕ]. Если е—>0, то /E-»[J0]. Однако ясно, что эта матрица не может быть жордановой формой ненулевой матрицы Ло = [° °]. На самом деле Ло имеет жордаиову форму [о о]- Жорданова форма матрицы не является непрерывной функцией ее элементов. Поэтому малые изменения элементов матрицы могут приводить к большим изменениям элементов ее жордановой формы. Обеспечить устойчивость при вычислении такого объекта — дело безнадежное. Именно поэтому жорда- новы формы редко используют в вычислительной практике1). ') Вычислительно устойчивая модификация жордановой канонической формы обсуждается в работах: Арнольд В. И. О матрицах, зависящих- от параметров. — УМН, 1971, т. 26, № 2, с. 101 — 114; Галин Д. М. О вещест- вещественных матрицах, зависящих от параметров. — УМН, 1972, т. 27, № 1, с. 241—242; Галин Д. М. Версальные деформации линейных гамильтоновых систем. — Труды сем. им. И. Г. Петровского, 1975, вып. 1, с. 63—74; Pate- Patera J., Rousseau С, Schlomiuk D. Versal deformations of elements of real classical Lie algebras.— J. Phys. A: Math. Gen., 1982, v. 15, p. 1063—1086; Patera J., Rousseau C, Schlomiuk D. Dimension of orbit and strata in complex and real classical Lie algebras. — J. Math. Phys., 1982, v. 23, № 4, p. 490— 494. — Прим. ред.
3.1. Жорданова каноническая форма: доказательство 157 Вопреки этому ограничению, теория жордановой канониче- канонической формы, бесспорно, заслуживает изучения и дает богатые возможности для понимания свойств матриц. Что касается об- общего подхода, то, чтобы доказать что-то о матрицах, сначала стоит посмотреть, верно ли это для диагональных матриц, а уже затем, если ответ положительный, попытаться установить ре- результат в общем случае с помощью предельного перехода (ис- (используя тот факт, что любая комплексная матрица может быть как угодно точно приближена диагонализуемой матрицей). Если этого сделать не удается или же желательно избежать обраще- обращения к математическому анализу, можно попытаться доказать рассматриваемый результат для верхних треугольных или жор- дановых матриц. Иногда бывает полезно иметь в виду, что произвольная мат- матрица подобна матрице вида C.1.12), где в каждой жордановой клетке число 1 над диагональю заменено на 8=^=0, причем е можно взять сколь угодно малым. 3.1.13. Следствие. Пусть заданы произвольная комплексная матрица А е Мп и число е ф 0. Тогда существует невырожден- невырожденная матрица S — 5(е)е Мп, такая, что ¦Ц (Я,, е) о о (Я2, е) /„(Я, е) = я, + ... + /1й = я, C.1 Л4) Я е О Я 8 0 . 8 Я ¦мт. Если матрица А вещественна и е вещественно, то и S можно выбрать вещественной. Доказательство. Сначала найдем невырожденную матрицу S] е Мп, такую, что S7 AS{ есть жорданоза каноническая форма (считая, что S, вещественна, если А вещественна и имеет вещественные собственные значения). Затем возьмем
1S8 Гл. 3. Канонические фермы Z)e = diag(l, е е") и вычислим матрицу De l (Si lAS{)De — она имеет вид C.1.14), так что S = S(e) — SiDe удовлетворяет всем требованиям теоремы. ? Задачи 1. Провести вычисления, доказывающие лемму 3.1.4. 2. Реализовать три этапа, отвечающие доказательству тео- теоремы 3.1.11, и найти жорданову каноническую форму матриц 3 1 21 [111 0 3 0 L0 0 3 J 3. Пусть матрица А е Мп комплексна, но с вещественными собственными значениями. Показать, что А подобна некоторой вещественной матрице. Можно ли это подобие осуществить с помощью вещественной матрицы? 'Дополнительная литература Наше доказательство теоремы 3.1.11—в духе работы: Flet- Fletcher R., Sorensen D. An Algorithmic Derivation of the Jordan Canonical Form. —Amer. math. Monthly, 1983, v. 90, p. 12—16; там же можно найти дополнительные ссылки. В [Ste] жорда- жорданова каноническая форма обсуждается с точки зрения числен- численных методов и на примерах показывается ее чувствительность к возмущениям элементов исходной матрицы. Прекрасное дока- доказательство приводится в [Strj. 3.2. Жорданова каноническая форма: некоторые свойства и приложения 3.2.1. Структура жордановой матрицы. Жорданова матрица о tlk = П, C.2.1.1) имеет вполне определенную структуру, которая делает нагляд- наглядными некоторые из основных свойств этой матрицы и всех мат- матриц, ей подобных.
3.2. Жорданова каноническая форма: некоторые свойства 159 1. Число k ее жордановых клеток (с учетом повторов одних и тех же клеток) равно максимальному числу ее линейно неза- независимых собственных векторов. 2. Матрица / диагонализуема тогда и только тогда, когда k = n. 3. Число жордановых клеток, отвечающих какому-то одному собственному значению, совпадает с его геометрической крат- кратностью, т. е. с размерностью соответствующего собственного подпространства. Сумма порядков всех жордановых клеток, от- отвечающих одному собственному значению, совпадает с его алгеб- алгебраической кратностью. 4. Знание собственных значений вместе с их алгебраиче- алгебраическими и геометрическими кратностями в общем случае не дает полной информации о жордановой матрице. Необходимо еще выяснить, каковы размеры жордановых клеток для каждого собственного значения. Порядок наибольшей жордановой клет- клетки, отвечающей собственному значению X, — это кратность чис- числа % как корня минимального многочлена (см. теорему 3.3.6), 5. Размеры жордановых клеток, отвечающих какому-то од- одному собственному значению, определяются по рангам некото- некоторых степеней вспомогательной матрицы. Например, для " 2 0 0 I 2 0 0 0 2 0 2 i: -?-4 i 2 i: 10 2* К вычисляем следующие матрицы: J-2I = ооо о i: о о i ;0 I !о о (J-2/I = (/ - 2/K = 0. 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 j j—
160 Гл. 3. Канонические формы Таким образом, мы располагаем следующими данными; матрица / — 2/ имеет размер 8X8; (/ _ 2/K = 0; rank(/-2/J=l; rank (/-2/) = 4. Этой совокупностью данных строение матрицы / определяется полностью. Равенство (/ — 2/K = 0 позволяет утверждать, что наибольшая клетка имеет порядок 3. Ранг матрицы (/ — 2/J совпадает с числом клеток порядка 3, в данном случае полу- получаем одну клетку. Ранг матрицы / — 2/ есть удвоенное число клеток порядка 3 плюс число клеток порядка 2. Как видим, должно быть две клетки порядка 2. Число клеток порядка 1 равно 8 — BX2) — 3=1. Аналогичную процедуру можно при- применить и по отношению к прямой сумме жордановых блоков произвольных размеров, если все блоки отвечают одному и тому же собственному значению. Пусть / есть прямая сумма жорда- жордановых клеток, отвечающих собственному значению К. Тогда са- самая большая клетка имеет порядок k\, где k\ есть наименьшее целое число, такое, что (/— KI)kl = 0. Ранг матрицы (/ — XI) 1~1 равен числу клеток порядка k\, ранг матрицы (/ — Х1)к'~2 есть удвоенное число клеток порядка k\ плюс число клеток порядка k\ — 1 и т. д. Последовательность рангов матриц (/ — К1)к'"\ где ( = 0,1,2, ..., &1 —1, позволяет рекурсивно определить по- порядки всех клеток в матрице /. 6. Размеры всех жордановых клеток в жордановой матрице общего вида C.2.1.1) определяются по рангам некоторых степе- степеней вспомогательных матриц. Если %i является одним из соб- собственных значений жордановой матрицы /, то, образуя матрицы (/ — KJ), (J — "к\1J, ..., мы сможем превратить в нулевые лишь клетки, отвечающие Х\, вследствие того, что все другие клетки / — Х\1 будут иметь ненулевую диагональ. В конечном счете ранг матрицы (/ — X\I)k с ростом k перестанет убывать (очевидно, нет нужды рассматривать k>n); наименьшее зна- значение k, минимизирующее ранг матрицы (/ — %il)k, равно по- порядку наибольшей клетки, отвечающей Я,ь Такое минимальное значение k называется индексом собственного значения К\. Для того чтобы определить размеры и число жордановых клеток, от- отвечающих ^i, достаточно проанализировать ранги последова- последовательности степеней матрицы / — МЛ Затем то же нужно про- проделать по отношению к Я,2, ^з и т. д. — для каждого собствен- собственного значения клетки ищутся одним и тем же способом. Несмотря на то что во всех этих утверждениях речь идет о жордановой матрице /, любое из них справедливо, если за-
3.2. Жорданова каноническая форма: некоторые свойства 161 меннть / на произвольную подобную ей матрицу. Таким обра- образом, для любой заданной матрицы /1еМл ее жорданову ка- каноническую форму (без выяснения, каким именно преобразова- преобразованием подобия она достигается) можно определить, выполняя следующие действия: 1. Найти для А все ее различные собственные значения — например, как корни характеристического многочлена. 2. Для каждого из различных %i образовать степени (Л —• — А,7)'е, где k = 0,1, ..., м, и, анализируя последовательность рангов этих матриц, установить для А размеры и число жорда- новых клеток, отвечающих собственному значению "hi. Этот алгоритм бывает полезен для обработки вручную не- небольших матриц простого вида, но он непригоден для машинных вычислений в силу неустойчивости самой задачи определения ранга матрицы. Последнее очевидно, если взять, например, мат- матрицу ЛЕ = [д J» имеющую ранг 2 при всех е^О и 1 при е = 0. Чтобы показать ситуацию, в которой этот алгоритм оказы- оказывается полезным, рассмотрим построение жордановой канони- канонической формы для квадрата какой-либо жордановой клетки У@)М 0 1 0 0 0 1 О 0 1 о о Для А все собственные значения равны нулю; Ат — 0 при m — [(k+ l)/2] (это наибольшее целое число, не превосходящее (/г + 1)/2) и АрФ0 при р = \, 2 т — 1. Для каждого р = = 1, 2, ...,т — 2 ранг степени Ар на 2 меньше, чем ранг предыдущей степени А"; для Ат~х ранг равен 2, если k четно, и 1, если k нечетно. Таким образом, для Л = Л@) жорданоза каноническая форма имеет вид «@) о если k = 2m четно, : = 2m — 1 нечетно. 6 Р. Хоры, Ч. Джонсон
162 Гл. 3. Канонические формы Это наблюдение полезно, когда для некоторой заданной мат- матрицы нужно выяснить, имеет ли она квадратный корень. Напри- Например, отсюда вытекает, что ни для какой матрицы А е Л1г не мо- может быть получено равенство ^2 = [0 J]. 3.2.2. Линейные системы обыкновенных дифференциальных уравнений. Одно из приложений жордановой канонической фор- формы— исключительно важное для теории — связано с анализом решений системы обыкновенных дифференциальных уравнений с постоянными коэффициентами. Пусть задана матрица А е Мп и вектор хо и для системы дифференциальных уравнений пер- первого порядка рассматривается задача Коши х' (/) = Ах (О, хО)-х C-2Л) X (V) — Хо, где x{t) = [xi(t), x2(t), ¦¦¦, xn{t)]T и «штрих» обозначает диф- дифференцирование по /. Если матрица А не является диагональ- диагональной, то эта система уравнений будет связанной, т. е. x'^t) зави- зависит не только от Xi(t), но и от других компонент вектора х(t). Связанность затрудняет решение задачи. Если же привести А к диагональному (или почти диагональному) виду, то связан- связанность исчезает (или степень связанности уменьшается) и пре- преобразованная задача решается проще. Запишем А = SJS~\ где /—жорданова каноническая форма матрицы А. Тогда задача C.2.2.1) преобразуется к такому виду: У @) = Уо, где x(t) = Sy(t) и заданным считается вектор г/о = 5~'хо. Если найдено решение задачи C.2.2.2), то каждая компонента реше- решения x(t) задачи C.2.2.1) есть не что иное, как линейная ком- комбинация компонент решения задачи C.2.2.2), причем коэффи- коэффициенты линейной комбинации определяются матрицей S. Если матрица А диагонализуема, то / есть диагональная матрица и C.2.2.2) представляет собой несвязанное множество уравнений вида yk(t)==Xkyk(t), имеющих решения УкA) = == Ук@)e"ht. Это простая экспоненциальная функция, если соб- собственное значение Кк вещественное, и это осциллирующая функция у„ @ = ук @) eakf [cos (bkt) + / sin {bkt)\, если Kk = ak + ibh комплексное. В случае недиагональной матрицы / решение несколько усложняется. Несвязанными будут такие группы компонент век- вектора y(t), которые отвечают различным жордановым клеткам
3.2. Жорданова каноническая форма: некоторые свойства 163 в /. Поэтому достаточно рассмотреть случай, когда / представ- представляет собой одну жорданову клетку '% 1 О" 0 Система C.2.2.2) принимает вид Мт. и может быть решена прямой подстановкой, выполняемой снизу вверх. Начиная с последнего уравнения, получаем вследствие чего Решая это уравнение, находим Следующее уравнение после подстановки в него этого выраже- выражения принимает вид У'т-2 @ = *>Ут-2 @ + Ут @) teu + Ут^ @) е«. Отсюда Ут-2 @ = Ут @) X е" + Уиг-1 @) ^« + Ут_2 @) в», и т. д. Ясно, что каждая компонента решения имеет вид где qk{t) — многочлен степени не выше т — k, k = \, ..., т. Как следствие этого анализа делаем вывод о том, что для любого начального условия хо компоненты решения x(t) задачи C.2.2.1) выражаются в виде Х/ (t) = Pl (t) ex«' + р2 (() ех>( +..,+Pk(t) /*<, где %\, %2, .... hk суть различные собственные значения для А и для любого i многочлен pi{t) имеет степень, строго меньшую, чем порядок наибольшей жордановой клетки, отвечающей %i. 6*
164 Гл. 3. Канонические формы Вещественным собственным значениям соответствуют чисто экс- экспоненциальные члены в этой сумме, а комплексным — члены с про- произведениями экспоненциальных и осциллирующих сомножителей. 3.2.3. Подобие матрицы и ее транспонированной матрицы. Любая жорданова клетка — это матрица, подобная своей транс- транспонированной матрице, причем подобие осуществляется мат- матрицей перестановки следующим образом: О 1 о А, 1 О (Г 1 к о 1 о 1 О о 1 Следовательно, если задана матрица ЛеЛ1„ и / — ее жорда нова каноническая форма, то А== SJS~l, т. е. А подобна / но / подобна /г и JT подобна Ат, так как Ат = (ST)~1JT(ST). По- Поэтому любая комплексная матрица подобна своей транспо- транспонированной матрице- Отсюда следует, что строчный ранг (максимальное число линейно независимых строк) комплекс- комплексной матрицы совпадает со столбцовым рангом (максималь- (максимальным числом линейно независимых столбцов), так как ранг яв- является инвариантом подобия. Отсюда также вытекает, что А и Ат имеют одни и те же собственные значения. Впрочем, все эти следствия можно установить непосредственно—-и такой путь будет более простым. Верно также и то, что для любого поля F всякая матрица из M,,(F) подобна (подобие осуществляется некоторой матри- матрицей из Mn(F)) своей транспонированной матрице. Совсем не обязательно ограничиваться предположением F = С. В действи- действительности это подобие можно осуществить с помощью симмет- симметричной матрицы. 3.2.4. Коммутирующие и простые матрицы. Если p(t)—лю- p(t)—любой многочлен и ЛеМл — некоторая матрица, то р(А) комму- коммутирует с А. Это полезное, хотя и очевидное утверждение. Нельзя ли его обратить? Пусть заданы матрицы А, Б е М„ и известно, что А коммутирует с В. Обязательно ли В будет многочленом от Л? Очевидно, нет, так как можно взять А = I и тогда А бу-
3.2. Жорданова каноническая форма: некоторые свойства 165 дет коммутировать с любой матрицей, а р{1)= р(\I не может дать нескалярную матрицу. Дело тут в том, что, с одной сто- стороны, вид матрицы А позволяет ей коммутировать с многими матрицами, а с другой стороны, совсем не много имеется мат- матриц, представимых в виде р(А). Чтобы получить какой-либо результат в этом направлении, нужно найти компромисс ме- между этими двумя аспектами. 3.2.4.1. Определение. Матрица ЛеМя называется простой, если любое ее собственное значение имеет геометрическую крат- кратность 1. Геометрическая кратность собственного значения жордано- вой матрицы равна числу отвечающих ему жордановых клеток. Поэтому матрица является простой в том и только в том слу- случае, когда для всякого ее собственного значения имеется в точ- точности одна жорданова клетка. Матрица А^Мп проста, если, например, она имеет п различных собственных значений или же собственное значение только одно и его геометрическая крат- кратность равна 1. Скалярная матрица — это антипод простой мат- матрицы. 3.2.4.2. Теорема. Пусть А е Мп — данная простая матрица. Матрица В е Мп коммутирует с А в том и только в том слу- случае, когда В — р{А) для какого-то многочлена р(-) степени не выше п — 1. Доказательство. Если В = р(А), то, конечно, А коммутирует с В. Чтобы установить обратное, положим A = SJS~\ где / — жорданова каноническая форма матрицы А. Если АВ = ВА, то BSJS-l = SJS~lB и (S~1BS)J = J(S-lBS). Если мы докажем, что S^BS = /?(/), то будет B=Sp(J)S=:p(SJS~1)=p(A). Итак, достаточно считать, что А есть жорданова матрица. Вследствие ее простоты можно записать О о где %i, %2, ¦ • •, hk суть k различных собственных значений мат- матрицы А. Для В рассмотрим блочное разбиение В — [в/у], согла- согласованное с данным разбиением матрицы А. Тогда соответствую- соответствующие этим разбиениям внедиагональные блоки матрицы АВ — ВА имеют вид lnt (h) Вц — BijJnj (Ay) = О,
166 Гл. 3. Канонические формы Так как собственные значения А,,- и X,- различны, отсюда можно вывести, что В„ = О есть единственное решение этих уравнений (см. задачу 9 из,§ 2.4). Значит, матрица В имеет блочно-диаго- нальный вид в, О в2 о в k- где Bi^Mn.. В силу предположения о коммутативности •б,/п>.(Я,-) = /п>(Я;Mг для всех i=\, 2, ...,k. Запишем /ni(A/) = = Я,/ +#„ где о 1 О' О 1 о ; Мп.. Тогда BiNi = NiBi (г = 1,2, ..., k). Непосредственное вычис- вычисление показывает, что вследствие специального вида матрицы Ni для любого i матрица В,- должна быть верхней треугольной тёплицевой матрицей (см. раздел 0.9.7), т. е. - ь\1) В,= о Ьп, b\l C.2.4.3) где элементы постоянны на каждой из диагоналей. Если мы для каждого / построим многочлен pt(t) степени не выше п— 1, такой, что Pi{Jnj{X,)) = O при 1Ф\ и pt(Jnt{ki)) = Bt, то много- многочлен
3.2. Жорданова каноническая форма: некоторые свойства 167 будет искомым. Положим 7/@ = Ш-Я,)П/, deggt(t) = n-nt, и заметим, что ^(/rt/(^)) = 0 при /=?/, потому что Grt.(^/) — — Л//)"/ = 0. Хотя #, (/„. (Я,-)) может и не совпадать с Б,-, это невырожденная матрица (потому что все Я,,- различны), которая, как и всякий многочлен от Jn{(^i), сохраняет вид C.2.4.3). Для любой невырожденной матрицы вида C.2.4.3) обратная матрица имеет ту же форму и произведение матриц этого вида остается матрицей такого же вида. Поэтому матрица {K))Yl в, есть верхняя треугольная теплицева матрица вида C.2.4.3). Лю- Любую такую матрицу можно записать как многочлен от /(Я) например, в, = ь\1) (int(Kt) - V)° + Й° (Jni(K) - я,/I + ... Таким образом, имеется многочлен n(t) степени не выше т— 1, такой, что ]1 () Если теперь положить pi(t)= qi(t)rt(t), то это будет многочлен степени не выше п — 1 и для него при i ф j и, кроме того, pi(Jni(li)) = qi(Jnl(K))ri(Jni(li)) = Bl. ? Справедливо обращение этой теоремы, позволяющее охарак- охарактеризовать простые матрицы, а именно: матрица А^Мп проста в том и только в том случае, когда любая коммутирующая с А матрица является многочленом от А. 3.2.5. Сходящиеся матрицы. Матрица А е М„, для которой все элементы матрицы Ат стремятся к нулю при т->оо, назы- называется сходящейся. Такие матрицы играют важную роль при изучении алгоритмов численной линейной алгебры. Если мат- матрица А диагональная, то, очевидно, она будет сходящейся в том и только в том случае, когда все ее собственные значения по модулю строго меньше 1. То же справедливо и по отношению к диагонализуемым матрицам.
168 Гл. 3. Канонические формы Чтобы распространить этот результат и на общий случай не обязательно диагонализуемых матриц, можно было бы рассмот- рассмотреть доводы, связанные с малыми возмущениями. Однако не- неясно, что они могут дать при выполнении предельного пере- перехода. Во всяком случае, мы можем использовать жорданову каноническую форму. Если A = SJS~1 (J — жорданова форма матрицы А), то Ат = SJmS~l и, значит, Лт->0 при т-*-оо тогда и только тогда, когда 1т ->- 0 при т->-оо. Поскольку / является прямой суммой жордановых клеток, достаточно рас- рассмотреть поведение степеней одной жордановой клетки A, 1 О Так как Л О' . 1 К о- 0 К _ 0 1 0 (У 1 о : О для всех т ^ k'~ то 1-/ i-m-k+l Все диагональные элементы равны Хт. Поэтому для того, чтобы /т-»-0, необходимо, чтобы %т ->- 0, а это означает, что |А,|< 1. Наоборот, если |Я[ < 1, то достаточно доказать, что т tn 1J при т-> оо, / = 0, 1,2, ..., k — 1. Но т - т(т~\)(т-2) ... (n- ЦК1 так что достаточно установить, что m'|A,|m->-0 при т->оо. На- Наверное, проще всего перейти к логарифмам и заметить, что при т -> оо / log m + /и log | Я | -> — оо, потому что log|X|<0 и (log*)/;«;->-0 при д:->-оо в силу пра- правила Лопиталя.
3.2. Жорданова каноническая форма: некоторые свойства 169 В этом рассуждении, как видим, существенна роль жорда- новой канонической формы. Доказано, что Лт->-0 при т-*-оо в том и только в том случае, когда все собственные значения матрицы А по модулю строго меньше единицы. Еще одно до- доказательство— без какого-либо использования жордановой фор- формы— будет приведено в разд. 5.6.12. 3.2-6. Неравенство между геометрической и алгебраической кратностями. Для заданной матрицы А е Мп геометрическая кратность любого ее собственного значения совпадает с числом отвечающих ему жордановых клеток. Это число не больше сум- суммы порядков всех жордановых клеток для этого собственного значения. Эта сумма равна алгебраической кратности. Таким образом, геометрическая кратность любого собственного значе- значения не выше его алгебраической кратности — для сравнения см. разд. 1.4.9. 3.2.7. Диагонализуемые и нильпотентные матрицы. Матрица А е Мп называется нильпотентной, если Ак — О для какого-то целого положительного k. Любую жорданову клетку Jk(X) можно записать в виде Jk(X)— XI + Nk, где (Nk)k=*0. Таким образом, произвольная жорданова клетка есть сумма двух мат- матриц — диагональной и нильпотентной. В более общем случае жорданову матрицу C.2.1.1) можно записать в виде / = D -f- N, где матрица D диагональная и ее главная диагональ такая же, как ив/; при этом N = J — D. Матрица N нильпотентна: Nk = О, если k равно порядку наи- наибольшей жордановой клетки в /. Наконец, пусть задана произвольная матрица А е М„ и по- построена ее жорданова форма /. Тогда А = SJS-1 = 5DS~"' -4- + SNS~] = AD-\-AN, где AD диагонализуема, AN нильпотентна и ADAN = ANAD, так как обе матрицы D и N являются блочно- диагональными с соответствующими блоками одинакового раз- размера и блоки в D суть скалярные матрицы. Итак, любая матрица А^Мп представима в виде суммы двух матриц — диагонализуемой и нильпотентной, причем таким образом, что эти две матрицы коммутируют. Задачи 1. Пусть задано какое-то семейство матриц &г = {Аа: ае е^"}с:Л1„, где индексы принадлежат множеству индексов 9~, и предположим, что существует простая матрица Ао е @~, та- такая, что АаАо — А0Аа для всех а е д~. Доказать, что для каж- каждого а е W можно указать многочлен pa(t) степени не выше п—1, такой, что Аа = ра(Ао), и, следовательно, семейство У коммутативно.
170 Гл. 3. Канонические формы 2. Пусть задана матрица А е Мп и А,«— какое-то ее соб- собственное значение. Доказать, что для А порядок наибольшей жордановой клетки, отвечающей kt, — индекс собственного зна- значения %i — равен наименьшему ft = 1,2, ..., п— 1, для кото- которого rank (А — XJ) * = rank (A — XJ) k+K 3. Показать, что если Ак = 0 (ЛеМя) для некоторого ft >> п, то Аг = 0 для какого-то г ^ п. Поэтому любая нильпо- тентная матрица обращается в нуль при возведении ее в такую степень, которая не превышает порядок матрицы. Указание. Установить, что для А единственное ее собственное значение есть 0. Как выглядит жорданова каноническая форма матрицы Л? Далее рассмотреть ее степени. 4. Пусть задана жорданова клетка /*@). Определить в том же духе, как и в конце разд. 3.2.1, три возможных типа жорда- жордановой канонической формы для /| @). 5. Пусть матрица А е М„ нильпотентна, так что Ak — 0 для некоторого k. Показать, что характеристический многочлен мат- матрицы А имеет вид pA(t)= tn. в. Линейное преобразование d/dt: p(t)-*- p'{t), действующее на векторном пространстве всех многочленов степени не выше 3, в базисе В ={l,t,tz, t3} имеет представление гО 1 0 О 0 0 2 0 0 0 0 3 -0 0 0 0J Какова жорданова каноническая форма этой матрицы? 7. Каковы возможные жордановы формы матрицы А е Мп, такой, что Л3 = /? 8. Каковы возможные жордановы канонические формы мат- матрицы /1еМ6 с характеристическим многочленом /?д(^) = (? + + 3)М^4J? , )М) 9. По методу, описанному в разд. 3.2.1, определить жорда- нову каноническую форму матрицы 10. Проверить утверждение из доказательства теоремы 3.2.4.2 о том, что произведение матриц вида C.2.4.3) имеет такой же вид. Указание. Для А обратная матрица является многочленом от А. 11. Пусть А, В^Мп. Показать, что невырожденные блоки в жордановых формах матриц АВ и ВА одинаковы. При этом использовать равенства из доказательства теоремы 1.3.20. By-
3.2. Жорданова каноническая форма: некоторые свойства 171 дут ли АВ и ВА подобны? Если АВ и ВА не подобны, то на- насколько они далеки от подобия? 12. Пусть заданы матрицы Аи ..., Ak, где Л; е ЛЦ (t = *=1, ..., k), и они имеют соответственно жордановы формы Ji, ..., Jk. Доказать, что прямая сумма о О At Мп, п2 пк = п, имеет (с точностью до перестановки диагональных блоков) жорданову каноническую форму h О о 13. Пусть Лб/И„ и В, С^Мт. Показать, что прямая сумма [04°]е/М„+т подобна прямой сумме [^ с] в том и только в том случае, когда В подобна С. 14. Пусть В, СеМл. Показать, что две А-членные прямые суммы В О в О в Mb О о ¦¦Мь подобны тогда и только тогда, когда В и С подобны. 15. Пусть А е Мп и В, С е Мт. Показать, что прямые суммы В О о в \М n+km> А О О подобны тогда и только тогда, когда В я С подобны.
172 Гл. 3. Канонические формы 16. Пусть матрица ЛеМ„ имеет жорданову каноническую форму /n,(A.i)©... @Jnk(^k)- Показать, что если А невырож- денна, то А2 имеет жорданову каноническую форму /цДя,?)© ... . • ¦ © Jnk (а1), т> е- жорданова каноническая форма для Л2 со- состоит в точности из такого же набора жордановых клеток, что и для А, а соответствующие собственные значения возводятся в квадрат. Справедливо ли аналогичное утверждение для про- произвольных степеней Ак, k ;> 2? Показать на примере матрицы размера 2X2, что для вырожденной матрицы это уже не верно. Указание. Доказать, что если X ф О, то для квадрата /* (А.) про- простой жордановой клетки жорданова каноническая форма имеет вид Ik(K2). Установить, что при X Ф О rank [Jh (A) - А/Г «= rank []\ (А) - А2/], т = 1, 2, .... /г. 17. Доказать, что если А^Мп, то гапкЛ = гапкЛ2 в том и только в том случае, когда геометрическая и алгебраическая кратности собственного значения X = 0 равны, т. е. в жордано- жордановой канонической форме матрицы Л любая клетка, отвечающая % = О, имеет размер 1 X 1. Дополнительная литература Доказательство утверждения о том, что для любой заданной матрицы ее преобразование подобия в транспонированную к ней матрицу осуществимо с помощью симметричной матрицы, см. в работе: Taussky О., Zassenhaus H. On the Similarity Trans- Transformation between a Matrix and Its Transpose. — Pacific J. Math. 1959, v. 9, p. 893—896. В [Ш] имеется доказательство того об- обращения теоремы 3.2.4.2, которое упоминалось в конце разд. 3.2.4. 3.3. Многочлены и матрицы: минимальный многочлен Пусть задан произвольный многочлен p(t)— tk + ak-\tk~x +" + ... + a\t + «о. Тогда для любой матрицы Лей, можно определить матрицу р (Л) а Ak + ak_xAk~' + ak_2Ak~2 + ¦ ¦ ¦ + М + щ1. Имеется важная взаимосвязь между многочленами и матри- матрицами. В этом плане роль характеристического многочлена уже отмечалась, однако есть и другие многочлены, связанные с про- произвольной квадратной матрицей. Один из них — минимальный многочлен.
3.3. Многочлены и матрицы: минимальный многочлен 173 Согласно теореме Кэли — Гамильтона 2.4.2, для любой мат- матрицы А е Мп можно указать многочлен (характеристический многочлен) РаЦ) степени п, такой, что -рд(Л) = 0. Если много- многочлен принимает на А значение 0, то говорят, что он аннулирует матрицу А. Возможно, А аннулируется также каким-то много- члэном степени п—1 или, скажем, п — 2; однако ясно, что для каждой матрицы А е Мп существует аннулирующий ее много- многочлен минимальной степени (в силу конечного числа возможно- возможностей) и степень этого многочлена не выше п. Если р(Л) = 0, то ср(А) — 0 для любого се С, а стало быть, понятно, что любой нетривиальный аннулирующий многочлен всегда можно норми- нормировать таким образом, чтобы старший коэффициент был равен + 1. Многочлен .со старшим коэффициентом +1 называется нор- нормированным. Заметим, что нормированный многочлен не может быть тождественно нулевым. 3.3.1. Теорема. Пусть задана матрица А^Мп. Существует единственный нормированный многочлен qA{t), имеющий мини- минимальную степень среди аннулирующих А многочленов. Степень этого многочлена не выше п. Любой многочлен p{t), такой, что р(А) = 0, делится на <7л(/). Доказательство. Матрица А аннулируется, в частности, ха- характеристическим многочленом, имеющим степень п. Поэтому найдется минимальное положительное целое m =sj n, для кото- которого существует нормированный многочлен q(t) степени пг, та- такой, что q(A) = 0. Если p(t) аннулирует А и q(t) есть аннули- аннулирующий А нормированный многочлен минимальной степени, то степень многочлена q(t) не выше степени многочлена p(t). Сле- Следовательно, согласно алгоритму Евклида, существуют много- многочлены h(t) и r(t), такие, что p(t)= q(t)h{t)-\- r(t) и степень r(t) меньше, чем степень q(t). Тогда 0 — р(А) = q{A)h(A)-\- + г(А) = 0А(Л) + г(Л), и, значит, г(А) = 0. Если r{t)&0, то после его нормирования мы получили бы нормированный анну- аннулирующий А многочлен, степень которого меньше, чем степень q{t). Поскольку это противоречит минимальности многочлена q(t),ne остается ничего другого, кроме как считать, что г(^)==0. Следовательно, p{t) делится на q(t) и при этом частное есть h{t). Таким образом, любые два нормированных аннулирующих А многочлена, имеющие минимальную степень, обязаны делить- делиться один на другой, а так как их степени одинаковы, каждый из них есть не что иное, как скалярное кратное другого. Вслед- Вследствие нормированное™ обоих многочленов этот скалярный множитель должен быть равен +1, а значит, эти многочлены совпадают. ? 3.2.2. Определение. Пусть задана матрица А еМ„. Един- Единственный нормированный многочлен <7х(/), имеющий минималь-
1-'} Гл. 3 Канонические формы ную степень среди аннулирующих А многочленов, называется минимальным многочленом матрицы А. 3.3.3. Следствие. Подобные матрицы имеют один и тот же минимальный многочлен. Доказательство. Если А, В, S ^ Мп и A = SBS~l, то qB{A) = = qgiSBS'1) = SqB(B)S~l = 0, поэтому степень qB(t) не меньше степени q^it). Запись В = S~1AS позволяет в силу тех же дово- доводов утверждать, что степень qA(t) не меньше, чем степень qeit). Таким образом, эти два нормированных многочлена имеют одну и ту же минимальную степень и оба аннулируют матрицу А. По теореме 3.3.1 они должны совпадать. ? 3.3.4. Следствие. Для всякой матрицы А е Мп минимальный многочлен qA{t) является делителем характеристического много- многочлена рА (t). Кроме того, qA (X) = 0 тогда и только тогда, когда К есть собственное значение матрицы А, т. е. каждый корень уравнения pA(t) = O является корнем уравнения qA(t) = O. Доказательство. Имеем рЛ(А)=0; поэтому из теоремы 3.3.1 вытекает существование многочлена h(t), такого, что /?д(?) = = h{t)qA{t). Из этого разложения ясно, что каждый корень уравнения qA(t) = O есть также корень уравнения рлA) = 0, и, следовательно, каждый корень уравнения <7д@ = 0 является собственным значением матрицы А. Пусть матрица А имеет собственное значение К и отвечающий ему собственный вектор хфО. Тогда Ах = Кх и, значит, 0 = qA(A)x<= qA{h)x, а стало быть, и qA (К) = 0. ? Это последнее следствие показывает, что если характеристи- характеристический многочлен pA{t) полностью разложен на множители, т.е. Рл@ = Ш-Я,)'<, 1<^<п, s1 + s2+...+5m = n, (З.З.ба) i—i где Хь А2, ..., Лт различны, то минимальный многочлен q&{t) имеет вид m qA{t) = H{t-K)ri, i<rt^Sl. (з.з.бь) В принципе на этом можно основать следующий алгоритм по- построения минимального многочлена произвольной заданной мат- матрицы А. 1. Сначала для А вычисляем собственные значения вместе с их алгебраическими кратностями (возможно, для этого при- придется определить характеристический многочлен и найти его
3.3. Многочлены и матрицы: минимальный многочлен 175 полное разложение на множители), т. е. тем или иным спосо- способом получаем разложение C.3.5а). 2. Теперь имеется конечное число многочленов, представи- мых в виде C.3.5b). Начиная с произведения, в котором п= 1 для всех /, прямым вычислением определяем такой многочлен наименьшей степени, который аннулирует матрицу А. Это и бу- будет минимальный многочлен. С вычислительной точки зрения это не очень хороший алго- алгоритм, если по ходу дела нужно искать разложение характери- характеристического многочлена какой-либо большой матрицы. Однако он очень эффективен при вычислениях вручную для небольших матриц простого вида. Есть и другой подход к вычислению ми- минимального многочлена, где не требуется находить характери- характеристический многочлен или собственные значения. Он указывается в задаче 5 в конце этого параграфа. Минимальный многочлен матрицы А и ее жорданова кано- каноническая форма весьма тесно связаны между собой. Запишем A =SJS-\ где / — жорданова каноническая форма для А, и сначала предположим, что / — это в точности одна жорданова клетка: "Я, 1 О" О 1 я ¦ м Характеристический многочлен матрицы А имеет вид (/ — Я)", и так как (/ — Я/)* =5^0 при k < п, минимальный многочлен тоже есть (t — X)n. Если Г /п. (Я.) 0 I /=Ч 0 /„,(A.)JeAf- где л,^л2, то характеристический многочлен для / по-преж- по-прежнему имеет вид (/ — Я)", но теперь (/ — Я/) = 0 и матрица / — Я/, возведенная в любую степень, меньшую пь отлична от нуля. Следовательно, минимальный многочлен есть (/ — Я). При еще большем числе клеток получаем по существу то же самое: минимальный многочлен матрицы / имеет вид (t — К)г, где г равно порядку наибольшей жордановой клетки, отвечаю- отвечающей К. Минимальный многочлен произвольной жордановой мат- матрицы J разлагается на множители (/ — Яг)г', отвечающие всем различным собственным значениям Я,-, и степень п равна по- порядку наибольшей жордановой клетки для Яг. Чтобы аннулиро
176 Гл. 3. Канонические формы вать все клетки, отвечающие Kt, большей степени не требуется, но никакой меньшей степенью этого добиться невозможно. Так как подобные матрицы имеют один и тот же минимальный мно- многочлен, мы сейчас доказали следующую теорему. 3.3.6. Теорема. Пусть матрица А е Мп имеет различные соб- собственные значения Ль к2, ..., Лт. Тогда минимальный много- многочлен матрицы А имеет вид ft C.3.7) где г) равно порядку наибольшей жордановой клетки матрицы А, отвечающей собственному значению Л(. Для практического вычисления минимального многочлена этот результат не очень полезен, так как построение жордано- жордановой канонической формы какой-либо матрицы обычно является задачей более трудной, чем получение ее минимального много- многочлена. Кроме того, если известны только собственные значения матрицы, то минимальный многочлен можно построить просто методом проб и ошибок. Однако нужно отметить важные теоре- теоретические следствия. Так, диагонализуемость матрицы равно- равносильна тому, что все ее жордановы клетки имеют порядок 1, и, следовательно, для диагонализуемости необходимо и доста- достаточно, чтобы п = 1 для всех i в C.3.7). 3.3.8. Следствие. Пусть матрица А е Мп имеет различные собственные значения Ль Яг, ..., Лт. Тогда А диагонализуема в том и только в том случае, когда q(A) = 0, где д(() = A-Х{)((-Х2) .... (t-lj. C.3.9) Этот критерий действительно удобен для выяснения диагона- диагонализуемости заданной матрицы: если для матрицы известны соб- собственные значения, то легко образовать многочлен C.3.9) и по- посмотреть, аннулирует ли он матрицу А. Если да, то это мини- минимальный многочлен матрицы А, так как никакой многочлен меньшей степени не может в качестве корней иметь m различ- различных собственных значений матрицы А. Иногда бывает полезна та или иная эквивалентная формулировка этого результата. 3.3.10. Следствие. Пусть задана матрица А е Мп. Необходи~ мым и достаточным условием ее диагонализуемости является каждое из следующих свойств: (a) минимальный многочлен qA{t) разлагается на различные линейные множители; (b) все корни уравнения дд@ = 0 имеют кратность 1;
3.3. Многочлены и матрицы: минимальный многочлен 177 (с) для любого t, такого, что qA(t) = O, выполняется нера- неравенство q'A(t)^O (q'A(t) — производная многочлена q'A(t)). До сих пор мы рассматривали проблему определения по за- заданной матрице А <= Мп нормированного аннулирующего ее мно- многочлена минимальной степени. Теперь обсудим обратную за- задачу. Пусть задан нормированный многочлен РЙ='Ч^ЛЧил"!+...т^ + % (з.з.п) Спрашивается, существует ли такая матрица А, для которой р(t) является минимальным многочленом? Если да, то порядок матрицы А не меньше п; в действительности такой матрицей может быть А е М„ и она ищется без труда. Положим заметим, 1ех = ех = Аех =62 = Ае2 = ег = Аег = е4 = что = А°еи = Аех> = ^2е!( = А'еи 0 1 0 0 1 • ' 0 1 0 «п-2 : М C.3.12) u Аеп = — ап_хеп — а„_2е„_, = — ап_хАп~хех — ап_2 Таким образом, р (Л) ех = (аое, + ахАех + а2А2ех + ... + ап_хА = [р (А) - Ап] ех + [Ап - р (А)] ех = 0. п~' ех) + Апех = Далее, p(A)ek = p(A)Ak~lei = Ak~xp{A)e\ = Ak~l0 = 0 для всех k = 1,2, ..., п. Так как p{A)ek — 0 для каждого базисного век- вектора ek, получаем р(А) = 0. Значит, p(t) — это нормированный многочлен степени п, аннулирующий матрицу А. Если А анну-
178 Гл. 3. Канонические формы лируется также многочленом q{t) = tm + bm-\tm-1 + ... + b\t-\- -f- &o степени т <. n, то получаем 0 = q (A) ei = Лтв, + fcm_, Am~xex + ... + 6, Ле, m~xex + .. = 0, а это означает, что базисный вектор ет+\ линейно зависит от ба- базисных векторов е\, e% ..., ет. Это невозможно. Поэтому p(t) не может быть ничем иным, кроме единственного нормирован- нормированного аннулирующего А многочлена минимальной степени. Кроме того, степень многочлена p(t) равна п и АеМп, поэтому с уче- учетом того, что характеристический многочлен рл{г)— это также нормированный аннулирующий А многочлен степени п, нахо- находим, что многочлен C.3.11) есть не что иное, как характеристи- характеристический многочлен матрицы C.3.12). 3.3.13. Определение. Матрица C.3.12) называется сопровож- сопровождающей матрицей1) многочлена C.3.11). Нами уже доказано следующее утверждение. 3.3.14. Теорема. Любой нормированный многочлен является одновременно характеристическим и минимальным многочленом своей сопровождающей матрицы. Впоследствии мы изучим методы определения областей, со- содержащих собственные значения матрицы. Ввиду того что кор- корни многочлена являются собственными значениями его сопро- сопровождающей матрицы, эти методы можно использовать и для ло- локализации корней многочлена. См. 5.6. Для заданной матрицы А^М„ можно определить характе- характеристический многочлен рл @ и его сопровождающую матрицу C.3.12). Если матрица А подобна этой сопровождающей мат- матрице, то (поскольку для подобных матриц минимальные много- многочлены одинаковы), согласно теореме 3.3.14, минимальный мно- многочлен <7л@ матрицы А совпадает с ее характеристическим многочленом PaU). В общем случае это не так, но если для матрицы А^Мп минимальный многочлен <7л@ и характери- характеристический многочлен pa (t) совпадают, то ее жорданова кано- каноническая форма C.1.12) должна содержать в точности по одной жордановой клетке для каждого из ее различных собственных значений. Размер каждой жордановой клетки равен кратности соответствующего собственного значения как корня характери- ') Нередко используют и другие определения сопровождающей матри- матрицы — см. задачу 11 в конце параграфа; иногда называют ее также матри- матрицей Фробениуса. В любом случае это простая матрица такого же типа и в ней явным образом содержатся коэффициенты ее характеристического многочлена (совпадающего с минимальным многочленом), — Прим. перев.
3.3. Многочлены и матрицы: минимальный многочлен 179 стического (минимального) многочлена матрицы А. Однако жорданова каноническая форма сопровождающей матрицы мно- многочлена Ра(() имеет в точности такую же структуру жорда- новых клеток1), а стало быть, сопровождающая матрица по- подобна матрице А. Это рассуждение доказывает следующую теорему. 3.3.15. Теорема. Матрица А<=Мп подобна сопровождающей матрице своего характеристического многочлена тогда и только тогда, когда характеристический и минимальный многочлены совпадают. Упражнение. Показать, что матрица А е М„ подобна сопро- сопровождающей матрице своего характеристического многочлена в том и только в том случае, когда А проста. Задачи 1. Пусть матрицы А, В е М3 нильпотентны. Доказать, что Л и В подобны тогда и только тогда, когда они имеют один и тот же минимальный многочлен. Верно ли это для матриц из Л44? 2. Предположим, что известны собственные значения Х\, ht, ..., Xm матрицы АеМп. Используя теорему 3.3.6, показать, что минимальный многочлен C.3.7) определяется по следую- следующему алгоритму: для 1 = 1, 2, ..., tn найти {А — %il)k при k = 1,2, ..., п и положить г,- равным наименьшему значению k, для которого гапк(Л— UI)k = гапк(Л—KJ)k+l. Число п — это индекс собственного значения X;. 3. Матрица Л е Л4„ называется идемпотентной, если А2 = А, Используя следствие 3.3.10, доказать, что любая идемпотентаая матрица диагонализуема. Указание. Показать, что А аннули- аннулируется многочленом t2— t = t(t—1). Каким будет минималь- минимальный многочлен для А? Что можно сказать по поводу трипотент- ной матрицы А, т. е. такой, что А3 = А? А что будет, если 'Ak = Л? 4. Доказать, что если Л е М„ и Ak = 0 для какого-то k > п, то Аг = 0 для некоторого г ^ п. Таким образом, всякая ниль- потентная матрица обращается в нуль при возведении в неко- некоторую степень, не превосходящую ее порядка. Указание. Если многочлен p(t)=tk аннулирует А, то как он связан (см. тео- теорему 3-.3.1) с ее минимальным многочленом? 5. Доказать, что следующее применение процесса Грама — ') Для каждого собственного значения сопровождающей матрицы гео- геометрическая кратность (а значит, и число жордановых клеток), как легко Видеть, равна 1. — Прим. перев.
180 Гл. 3. Канонические формы Шмидта позволяет вычислить минимальный многочлен задан- заданной матрицы А^Мп непосредственно — без определения харак- характеристического многочлена или собственных значений. (a) Определим отображение Т: Мп->Сп следующим пра- правилом: любую матрицу А е Мп со столбцами аи а2, ..., ап запишем в виде A = [aia2 . . . ап\ и обозначим через Т{А) един- единственный вектор из С", в котором первые п компонент — это элементы первого столбца а\, компоненты с п+ 1-й по 2/г-ю — это элементы второго столбца а2 и т. д. Доказать, что отобра- отображение Т есть изоморфизм (отображение линейное, взаимно од- однозначное и «на») векторных пространств Мп и С". (b) Рассмотреть векторы считая, что они из С" и k = 0, 1, 2, ..., п. Используя тео- теорему Кэли— Гамильтона, установить линейную зависимость множества {v0, vt vn}. (c) Применить процесс Грама — Шмидта для последователь- последовательности vo, vu ..., vn — вплоть до его остановки при получении первого нулевого вектора. Почему обязательно будет получен нулевой вектор? (d) Показать, что если процесс Грама — Шмидта произво- производит нулевой вектор впервые на k-м шаге, то степень минималь- минимального многочлена матрицы А равна k— 1. (e) Показать, что если на k-м. шаге процесса Грама — Шмидта вычисляется вектор ао«о + aiUi + ... + oik-iVk-i —Q, то Вывести отсюда, что qA (t) — (aft_,^-' + ... + «2/2 + a^ + ao)/aft_! есть минимальный многочлен матрицы А. Почему ak_\ ф 0? 6. Проводя вычисления, указанные алгоритмом задачи 5, найти минимальные многочлены матриц [i 2]> [о i ]> [о ?]• 7. Рассмотреть матрицы Л = [.„ „], В = [„ °] и показать, что минимальные многочлены для АВ и ВА не обязательно оди- одинаковы. Между тем характеристические многочлены для АВ и ВА всегда совпадают. Объяснить, почему наблюдается это раз- различие в свойствах характеристических и минимальных много» членов. 8. Пусть Лг = М„г (/=1, 2, ..., k) и qt(t) обозначает ми- минимальный многочлен для At. Доказать, что для прямой
3.3. Многочлены и матрицы: минимальный многочлен 181 суммы л, О О Ч- миннмальный многочлен равен наименьшему общему кратному многочленов q\(t), qi(t), ..., qk{t). Это единственный нормиро- нормированный многочлен наименьшей степени, делящийся на qi(t) для каждого /. Обратим внимание на то, что это рассуждение по- новому доказывает лемму 1.3.10. 9. Матрица ЛеМ5 имеет характеристический многочлен pA(t) = (t — 4K(^ + CJ и минимальный многочлен Яа{.г)=* = (t — 4J(/-j-6). Какова жорданова каноническая форма для Л? 10. С помощью прямого вычисления убедиться в том, что многочлен C.3.11) является характеристическим многочленом сопровождающей матрицы C.3.12). Указание. Чтобы вычислить определитель, использовать алгебраические дополнения. П. Сопровождающая матрица многочлена C.3.11) иногда определяется по-другому — как матрица вида о о 1 1 О или О 1 о ' о _— по —а, . о Доказать, что каждая из этих двух матриц, как и C.3.12), об- обладает тем свойством, что многочлен C.3.11) является для нее одновременно характеристическим и минимальным. 12. Доказать, что не существует вещественной 3 X 3-матрицы с минимальным многочленом х2-\- 1, но имеются вещественные 2Х2-матрицы, а также комплексные ЗХ 3-матрицы, обладаю- обладающие именно таким минимальным многочленом. Указание. Ис- Использовать следствие 3.3.4. 13. Показать, что матрицы, имеющие один и тот же харак- характеристический многочлен и один и тот же минимальный много- многочлен, тем не менее могут не быть подобными — рассмотреть матрицы порядка 4 или более высокого порядка. Указание.
182 Гл. 3. Канонические формы Взять матрицы  0 0 _0 1 0 0 о 0 0 0 о 0" 0 1 0_ »  0 0 .0 1 0 0 о 0 0 0 о 0" 0 0 0_ Доказать, что 4— наименьший порядок, для которого может на- наблюдаться это явление. ( 14. Если матрицы А, В<=Мп подобны и p(t)—произволь- p(t)—произвольный многочлен, то р(А) = 0 тогда и только тогда, когда р(В) = «=0. Показать, используя пример из предыдущей задачи, что возможна ситуация, когда для любого многочлена p(t) имеет место эквивалентность равенств р(А) = 0 и р(В) = 0, но мат- матрицы Л и В не подобны. Как это может быть? .15. Пусть задана матрица А^Мп и образовано множество Р(А) = {р(А): p(t) — произвольный многочлен}. Доказать, что Р(А) в Мп является подпространством и даже подалгеброй (Р(А) замкнуто относительно умножения). Доказать, что раз- размерность подпространства Р(А) равна степени минимального многочлена матрицы Л. 16. Матрицы А, В^Мп имеют один и тот же характеристи- характеристический многочлен и один и тот же минимальный многочлен. Доказать, что если их характеристические многочлены совпа- совпадают с минимальными многочленами, то они подобны. Исполь- Используя этот факт, установить, что различные формы сопровождаю- сопровождающей матрицы, отмеченные в задаче 11, подобны матрице C.3.12). 3.4. Другие канонические формы и разложения Одно из разложений матрицы связано с ее жордановой ка- канонической формой. Однако в различных ситуациях бывают по- полезны и некоторые другие разложения. Мы начнем с изучения варианта жордановой канонической формы C.1.12) для матрицы А с вещественными элементами. В этом случае все невещественные собственные значения раз- разбиваются на комплексно-сопряженные пары. Более того, если матрица А вещественная, то rank (Л — U)k = rank (Л — %1)к = = rank (Л — XI)k для всех ?,еСв всех k = 1,2, ..., и, следо- следовательно, структура жордановых клеток, отвечающих любому собственному значению К, в точности такая же, как и структура кордановых клеток, отвечающих комплексно-сопряженному соб- собственному значению Я. Таким образом, жордановы клетки всех размеров (а не только 1 X 1)> отвечающие невещественным соб-
3.4. Другие канонические формы и разложения 183 ственным значениям, разбиваются на «сопряженные» пары мат- матриц одного порядка. Например, пусть X — невещественное собственное значение вещественной матрицы А. Тогда если в жорданову канониче- каноническую форму для А клетка /г(Х) входит с какой-то кратностью, то клетка /г (Я) входит в нее с такой же кратностью. Блочная матрица Я ПО 0" Г/2(Я) 0 1 L о /2(Я) J 0 МО 0 о о о о я 1 о я C.4.1) перестановочно1) подобна (достаточно переставить строки и столбцы с номерами 2 и 3) блочной матрице "Я Oil 0 0 Я 0 0 -0 0| 0 1 я о о я L 0 D(X)\' где В общем случае жорданова матрица вида [/ftW 0  О /*(Я)J перестановочно подобна блочной матрице D(X) / О ?>(Я) / о C.4.2) Л^2Ъ где на главной диагонали находятся k блоков D(X), а на сосед- соседней с ней k— 1 единичных матриц размера 2X2. ') Матрицы перестановочно подобны, когда они подобны и подобие осу- осуществляется матрицей перестановки, -~ Прим. перев.
184 Гл. 3. Канонические формы Каждый 2Х2-блок D(X) подобен вещественной 2Х2-мат- рице SD(X)S Г а ъ 1 = \_b \ зев С (а, Ь), C.4.3) где Я = R и 5 = j j ~М- Поэтому любая блоч- блочная пара сопряженных жордановых клеток C.4.1) размера 2X2 с невещественным % подобна (подобие осуществляется матрицей [0 ^]) вещественной 4Х4-матрице, имеющей вид а Ь \ 1 О' \С(а,Ь) 1 L 0 С(а,Ь)У В общем случае любая блочная пара сопряженных жордановых клеток C.4.2) размера k X k с невещественным К подобна ве- вещественной 2k X 2&-матрице ¦С(а, b) I 0 С (a, b) I — ь 0 0 а 0 0 0 а — Ь 1 Ь а Ck(a,b) = О С (а, Ь)_ C.4.4) Эти наблюдения приводят нас к вещественной жордановой кано- канонической форме. 3.4.5. Теорема. Любая вещественная матрица A eMn(R) по- подобна блочно-диагональной вещественной матрице вида СпЛаи by) О Сщ («2, Ь2) (ар, Ьр) •ЧДЧ) О где Kk = ak-\- ibk — невещественные собственные значения матри- матрицы А при k = 1, 2 P,<*k>t>b вещественны^ а ее вещественные
3.4. Другие канонические формы и разложения 185 собственные значения — это %ч, ..., Хг. Каждая вещественная блочно-треугольная матрица Cnk (ak, ?A) e М2пк имеет вид C.4.4) и в жордановой канонической форме C.1.12) для А соответ- соответствует паре сопряженных жордановых клеток Jnk (hk), Jnk (Kk) e e Mnk с невещественным %k. Вещественные жордановы клетки Iпи i^k) в C.4.6) в точности совпадают с жордановыми клетками в C.1.12), отвечающими вещественным %k. Вещественную жорданову каноническую форму веществен- вещественной матрицы мы получили как следствие общей (комплексной) жордановой канонической формы C.1.12). Преимущество та- такого подхода — в точном указании связи размеров и числа ве- вещественных блоков Сп (ak, bk) со структурой комплексных жор- жордановых клеток матрицы А. Однако в таком подходе есть и не- недостаток — неясно, можно ли подобие, преобразующее А в мат- матрицу C.4.6), выполнить с помощью вещественной матрицы. В действительности если матрица А вещественная, то всегда найдется вещественная невырожденная матрица 5, такая, что матрица S~lAS есть вещественная жорданова форма C.4.6). Это можно доказать, следуя тем трем этапам, которые состав- составляли наше доказательство теоремы о жордановой канонической форме (см. § 3.1), только начать нужно именно с веществен- вещественного варианта (теорема 2.3.4) триангуляризации по Шуру, а не с комплексного (теорема 2.3.1). На этапах 2 и 3 можно повто- повторить те же построения, что и в комплексном случае, — при этом нужно показать, что возможно использование только веществен- вещественных преобразований подобия и с их помощью будут получены модифицированные треугольные или жордановы диагональные блоки, в которых на главной диагонали могут находиться ве- вещественные 2 X 2-матрицы С(а, Ь) вида C.4.3). Комплексная жорданова каноническая форма C.1.12) — это прямая сумма верхних треугольных матриц. Вещественная жор- жорданова форма C.4.6) —это прямая сумма хессенберговых, или «почти треугольных», матриц, так как каждый вещественный блок С{а,Ь) имеет порядок 2 и в нем только один элемент на- находится ниже главной диагонали. Можно также развить теорию канонических форм, являю- являющихся прямыми суммами сопровождающих матриц. Такие фор- формы можно строить для всех комплексных матриц, но их пре- преимущество состоит в том, что они применимы и для полей, от- отличных от С, когда жордановой канонической формы просто нет. Пусть задана матрица А е Мп и ее жорданова каноническая форма имеет вид C.1.12). Для всех различных собственных значений соберем вместе все жордановы клетки, отвечающие
136 Гл. 3. Канонические формы общему собственному значению. В каждой группе клеток выбе- выберем клетку наибольшего порядка и исключим ее из своей груп- группы. Пусть Bi обозначает прямую сумму всех этих исключенных клеток. В прямой сумме В\ будет столько слагаемых, сколько у А имеется различных собственных значений. Теперь из остав- оставшихся клеток в каждой группе выберем жорданову клетку наи- наибольшего порядка и снова исключим ее из своей группы. Пусть В2 обозначает прямую сумму всех этих клеток. Прямая сумма В2 может состоять из меньшего числа слагаемых, чем В<, по- поскольку теперь какие-то группы клеток могли оказаться пу- пустыми, т. е. каким-то собственным значениям для А отвечает только одна жорданова клетка. Продолжим эту процедуру по- получения прямых сумм Si, B%, В3, ..., Bs до тех пор, пока все группы жордановых клеток не сделаются пустыми. Размеры мат- матриц Bk монотонно не возрастают. Матрица В{ ф В2 ® ... Ф Bs перестановочно подобна исходной жордановой форме C.1.12) матрицы А. Вследствие способа определения прямых сумм Bk для каж- каждого k матрица Ви имеет совпадающие характеристический и минимальный многочлены. Для В\ характеристический (мини- (минимальный) многочлен на самом деле есть не что иное, как ми- минимальный многочлен матрицы А. Таким образом, согласно тео- теореме 3.3.15, для каждого k матрица Ви подобна сопровождаю- сопровождающей матрице своего характеристического (минимального) мно- многочлена. Характеристические (минимальные) многочлены матриц Bk известны как инвариантные множители fk(t) матрицы А. Обра- Обратим внимание на то, что их степени монотонно не возрастают и fk(t) делится на fk+i(t) для каждого k = 1, 2, ..., s — 1. Пер- Первый инвариантный множитель f ((t) = qB (t) — это минимальный многочлен матрицы А, а произведение всех инвариантных мно- множителей равно характеристическому многочлену матрицы А. Инвариантные множители однозначно определяются структурой жордановых клеток матрицы А, а последняя в свою очередь — собственными значениями X; и последовательностью рангов сте- степеней матриц А — KJ. Таким образом, для подобных матриц ин- инвариантные множители одни и те же. К тому же они полностью определяют структуру жордановых клеток, и поэтому две мат- матрицы с одинаковыми инвариантными множителями должны быть подобны. Итак, последовательность инвариантных множи- множителей матрицы (в нее входит минимальный многочлен и по ней определяется характеристический многочлен) является полным набором многочленов—инвариантов подобия: две матрицы А, В <= М„ подобны тогда и только тогда, когда они имеют одина- одинаковые инвариантные множители.
3.4. Другие канонические формы и разложения 187 Рассмотрим еще один способ, позволяющий охарактеризовать инвариантные множители матрицы А. Пусть /, (/) = (/ — Хх)г* ... ... (/ — Хт) т — минимальный многочлен матрицы А. Из жор- дановой формы матрицы исключаем жордановы клетки, соот- соответствующие множителям (/ — Лг) ' многочлена f{(t) (это в точ- точности те жордановы клетки, которые составляют матрицу BJ, и рассмотрим f2@ = (/ — ^1) ' ... (t — Яот) т — минимальный мно- многочлен матрицы с оставшимися жордановыми клетками. Теперь исключим по одному блоку, соответствующему каждому мно- множителю (/ — к{) ', и обозначим через /3@ минимальный много- многочлен новой матрицы после исключения блоков и т. д. Инва- Инвариантные множители fk{t) — это не что иное, как минимальные многочлены серии матриц, порядок которых на каждом шаге последовательно понижается за счет исключения некоторых жордановых клеток. Характеризация подобных матриц в терминах инвариантных множителей, привлекает в теоретическом плане, так как с оче- очевидностью показывает, почему минимального и характеристи- характеристического многочленов недостаточно для того, чтобы распознать подобие. В то же время она по существу ничего нового не до- добавляет к тому, что мы уже знаем: две матрицы подобны тогда и только тогда, когда одинаковы их жордановы канонические формы. С другой стороны, эта характеризация приводит к новой ка- канонической форме матрицы А, известной как рациональная фор- форма, вследствие того, что инвариантные множители можно вы- вычислить, используя только рациональные операции над элемен- элементами матрицы А. 3.4.7. Теорема. Любая матрица А е М„ подобна прямой сум- сумме сопровождающих матриц ее инвариантных множителей. Для комплексных матриц мы уже располагаем жордановой канонической формой, и потому может показаться, что рацио- рациональная форма из теоремы 3.4.7 не обладает никакими преиму- преимуществами. Причина, по которой рассматривается рациональная форма, заключается в возможности ее использования для мат- матриц над произвольным полем, а не только в случае комплекс- комплексных чисел. Любая матрица над полем F подобна над F прямой сумме сопровождающих матриц своих инвариантных множите- множителей— однозначно определенных многочленов с коэффициентами из F. Проиллюстрируем это для вещественного поля. Произвольная заданная вещественная матрица А ^ Мп(Щ' подобна (возможно, преобразование осуществляется комплекс- комплексной матрицей) прямой сумме Вх ф ВгФ ... ФBs,которая в свою
188 Гл. 3. Канонический формы очередь подобна прямой сумме сопровождающих матриц своих инвариантных множителей (характеристических многочленов мат- матриц Вк, где h = 1, .,., s). Жордановы клетки матрицы А, отве- отвечающие невещественным собственным значениям, разбиваются на сопряженные пары. Следовательно, если какая-то клетка, со- соответствующая невещественному собственному значению, вхо- входит в матрицу Вк, то сопряженная клетка должна принадле- принадлежать той же самой матрице Вц (k = 1, ..., s). Таким образом, каждая матрица Вк имеет вещественный характеристический многочлен, что согласуется с вещественностью формы, обеспечи- обеспечиваемой теоремой 3.4.7. Это рациональная форма вещественной матрицы, и в действительности она достигается с помощью ве- вещественного подобия — доказательство мы опускаем. 3.4.8. Теорема. Любая вещественная матрица А е Mn(R) no- добна над R прямой сумме сопровождающих матриц веществен- вещественных нормированных многочленов pi{t), /?г@> •••> /?Л0> где Pk{t) делится на Pk+\{t) при k=l, 2 s—1. Многочлен Pi (t) является минимальным многочленом для А над R, произ- произведение pi(t) ... ps(t) есть характеристический многочлен мат- матрицы А и для каждого k многочлен pk(t) — это инвариантный множитель матрицы А над R. Многочлены Pk{t) определяются однозначно, так что две матрицы подобны над R в том и только в том случае, когда они имеют одни и те же инвариантные мно- множители. Подчеркнем, что теорема такого же типа справедлива и в случае поля Q рациональных чисел или какого угодно другого поля. Свое название рациональная форма получила благодаря тому, что любая матрица А ^ Mn(R) приводится к этой форме в принципе с помощью конечного числа рациональных вычис- вычислений над элементами матрицы А, не выводящих из поля F. Так, если F есть поле рациональных чисел, то будут использо- использоваться многочлены с рациональными коэффициентами и подо- подобия, осуществляемые матрицами с рациональными элементами. С сопровождающими матрицами связана еще одна канони- каноническая форма, к которой тоже можно прийти, исходя из жорда- новой канонической формы C.1.12). Заметим, что любой от- отдельно взятый жорданов блок обладает тем свойством, что его характеристический и минимальный многочлены совпадают. Значит, каждый жорданов блок /„. (Я,,-) подобен сопровождаю- сопровождающей матрице своего характеристического многочлена (/ — Аг) '. В целом жорданова каноническая форма, следовательно, по- подобна прямой сумме сопровождающих матриц многочленов (/ — hiI*1', эти многочлены известны как элементарные делители матрицы А. Обратим внимание на то, что в общем случае этот.
3.4. Другие канонические формы и разложения 1 89 способ разложения матрицы Л приводит к большему числу сла- слагаемых в прямой сумме, чем рациональная форма; каждый инвариантный множитель может порождать несколько элемен- элементарных делителей. Произведение всех элементарных делителей совпадает с характеристическим многочленом матрицы Л. Пусть А^Мп{Я). Построим для А жорданову форму и элементарные делители над С и заметим, что они разбиваются на сопряженные пары. Если клетки Jni (Я) и 1П[ (Я) объединить в прямую сумму, то в результате будет получен блок, для которого вещественный многочлен (t — Я)"' (/ — Я)"' будет ха- характеристическим и одновременно минимальным многочленом. Следовательно, этот блок подобен вещественной сопровождаю- сопровождающей матрице многочлена (t2 — B Re Я) t + I Я |2)"' — вещественного элементарного делителя матрицы А. Для каждого веществен- вещественного собственного значения матрицы А элементарными делите- делителями будут степени вещественных линейных множителей. Каноническую форму, связанную с элементарными делите- делителями, во избежание путаницы называют обычно рациональной канонической формой. 3.4.9. Теорема. Любая матрица /4eMn(R) подобна над R прямой сумме сопровождающих матриц своих (вещественных) элементарных делителей. Результат такого же типа справедлив по отношению к про- произвольному полю F: любая матрица А е Mn(F) подобна над F прямой сумме сопровождающих матриц своих элементарных делителей, являющихся многочленами с коэффициентами из F. В качестве примера рассмотрим матрицы 0 -41 ГО—9 1 Г401 и положим А = Л, © Л2 ф Л3 © Л3 ф Л4 е М9. Тогда рациональ- рациональная каноническая форма для Л над R имеет вид Л = Л)ф © Л2 ф Л3 © Л3 © [4] © [4] и элементарные делители таковы: х — 1, (х — 2J, х2 + 9, х2 + 9, х — 4, х — 4. Над С рациональ- рациональная каноническая форма для Л имеет вид Л, ф Л2 © [Зг] © © [3/] © [—Зг] © [—Зг] © [4] © [4], а элементарными делителями будут многочлены х — 1, (х — 2J, х — Зг, х — Зг, х + Зг, х + 3/, х — 4, х — 4. Рациональная форма матрицы Л над R есть прямая сумма сопровождающей матрицы, подобной матрице Ai Ф А-2 © Л3 ф [4], и сопровождающей матрицы, подобной матрице Л3 ф [4]. Инвариантные множители таковы: h @ = (/-!)(*- 2J (t2 + 9) (/ - 4), U (/) = (*2 + 9) (t - 4).
"О Гл. 3. Канонические формы Рациональная форма матрицы А над полем С есть прямая сумма сопровождающей матрицы, подобной матрице А{ ф ФЛФ [Щ © [—3^] © [4], и сопровождающей матрицы, подоб- подобной матрице [3/] ф [—3/] ф [4]. Заметим, что два слагаемых прямой суммы и инвариантные множители получаются одина- одинаковыми независимо от того, рассматривается ли А как матрица из Mn(R) или из М„(С). Это не так, если речь идет о рацио- рациональной канонической форме и элементарных делителях. См. задачи 2 и 3 в конце этого параграфа. Вещественная жорданова форма, рациональная форма, ра- рациональная каноническая форма, инвариантные множители и элементарные делители — все зто по существу не будет исполь- использоваться в оставшейся части этой книги. Мы рассмотрели их здесь исключительно из-за их исторического значения, а также имея в виду потребности матричного анализа в случае полей, отличных от С. Имеется много других полезных канонических форм и мат- матричных разложений. Вот некоторые из них. (a) Полярное разложение. Любую матрицу А е М„ можно записать как A — PU, где Pel» — положительно полуопре- полуопределенная матрица такого же ранга, как и А; матрица U е Мп унитарна. См. следствие 7.3.3. Всякую невырожденную матрицу А е М„ можно также записать как А = GQ, где G е Мп — (комп- (комплексная) симметричная матрица (G=GT) и Q е М„—(комп- М„—(комплексная) ортогональная матрица (QQT = /). (b) Сингулярное разложение. Всякую матрицу А е Мп мож- можно записать как А — VZW*, где V, W <= Мп— унитарные мат- матрицы и 2 е Мп — диагональная матрица с неотрицательными элементами главной диагонали и такого же ранга, как и А. См. теорему 7.3.5. (c) Треугольное разложение1). Любую матрицу А^Мп можно записать как А = URU*, где U е Мп— унитарная мат- матрица, a R е М„—верхняя треугольная матрица. Всякую веще- вещественную матрицу /leM,(R) можно записать как А — QRQT, где Q, R e Mn(R) — соответственно ортогональная и верхняя хессенбергова матрицы специального строения. См. формулу B.3.5). (d) Для любой эрмитовой матрицы А е М„ имеет место раз- разложение А = Sf(A)S*, где матрица S е М„ невырожденная, а матрица /(Л)еМ„ диагональная с диагональными элемен- элементами, равными +1. —1 или 0. При этом элементов, равных -И и —1, столько, сколько имеется соответственно положительных ') В § 3.5 рассматривается другое треугольное разложение (^-разло- (^-разложение), в котором матрица записывается как произведение нижней и верх- верхней треугольных матриц. — Прим. перев.
3.4. Другие канонические формы и разложения 191 и отрицательных собственных значений матрицы А; число ну- нулевых диагональных элементов равно п — rank Л. См. тео- теорему 4.5.8. (e) Для любой нормальной матрицы А е М„ справедливо разложение Л = UAU*, где U е Мп — унитарная матрица, а Л е Мп — диагональная матрица с диагональными элементами, равными собственным значениям матрицы Л. Всякую веществен- вещественную нормальную матрицу А е Mn(R) можно записать как Л = QDQT, где Q, D e Mn(R)—соответственно ортогональная и блочно-диагональная матрицы специального строения. См. разд. 2.5.8. (f) Всякую матрицу А е Мп, такую, что А*=АТ, можно записать как A =SK(A)ST, где S е М„ — невырожденная мат- матрица, а К(А)& Мп — диагональная матрица с диагональными элементами, равными +1 или 0, и такого же ранга, как и А. См. теорему 4.5.12. (g) Всякую матрицу А е М„, такую, что А=АТ, можно записать в виде A = UI,UT, где U е Mn — унитарная матрица, а 2—диагональная матрица с неотрицательными элементами главной диагонали. Ранг матрицы 2 равен рангу матрицы А. См. следствие 4.4.4. (h) Всякую унитарную матрицу ?/еЛ4„ можно записать в виде U = QeiE, а всякую (комплексную) ортогональную мат- матрицу Р е М„ можно записать в виде Р = QeiF, где Q, E, Fs eAfn(R), Q — вещественная ортогональная матрица (QQT=I)> Е — вещественная симметричная матрица (Е — Ет) и F — веще- вещественная кососимметричная матрица (F = —FT). (i) Всякую матрицу А е Мп можно записать как А =» = SUI,UTS-\ где S — невырожденная матрица, U — унитарная матрица, а 2 — диагональная матрица с неотрицательными диагональными элементами. См. следствие 4.4.10. Задачи ,1. Для матриц 0 0 -1 1 -10 0 -1 0 0J [cos 8 sin G "I — sin 8 cos 8 J найти минимальный и характеристический многочлены, инва- инвариантные множители, элементарные делители, рациональную форму и рациональную каноническую форму над R и С. 2. Пусть А е Mn(R). Предположим, что q{t)—минималь- q{t)—минимальный многочлен для А над R и f(t) —минимальный многочлен для А над С, Почему степень f(t) не выше, чем степень q(tI.
192 Гл. 3. Канонические формы Почему q(t) делится на [(()? Показать, что f(t) = q(t), исполь- используя запись f(t) = Р\ (t) -f- ipi(t), где многочлены p\{t) и p2(t) с вещественными коэффициентами. Почему р\(А) = р2(А) = О? 3. Используя теорему 3.4.7, доказать, что если А, В е Mn(F) и F есть подполе в С (например, F = R или Q), то А и В по- подобны над F тогда и только тогда, когда они подобны над С. Указание. Убедиться в том, что рациональные формы матрицы А над F и над С одинаковы и что то же справедливо и по от- отношению к матрице В. Как это обобщает задачу 2? 4. Пусть /4eAfn(R), и предположим, что А2 = — /. Пока- Показать, что п должно быть четным и что существует вещественная невырожденная матрица S е Мп, такая, что где 1<=М„12. Дополнительная литература Рациональные формы, которых мы коснулись в этом раз- разделе, являются вполне классическими, и о них очень подробно написано в работе [НКи]. Вещественная жорданова канониче- каноническая форма с некоторого времени, по-видимому, тоже известна специалистам по теории матриц, но не столь широко распро- распространена. Ее изложение можно найти, например, в [Kow]1). В [New] рассматриваются канонические формы матрице рацио- рациональными или целыми элементами. Дополнительные сведения о специальных канонических формах см. в [Gan], т. 2, [Gant] и [HJ]. 3.5. Треугольные разложения Если система линейных уравнений Ах = Ь имеет невырож- невырожденную треугольную (см. разд. 0.9.3) матрицу коэффициентов А е Мп, то ее единственное решение х вычисляется с замеча- замечательной легкостью. Например, пусть А имеет верхний треуголь- треугольный вид: ~п ... а1п а22 о l) См. также книгу: Шилов Г. Е, Математический анализ. Конечномер» ные линейные пространства.—М.: Наука, 1969, § 6.6 — Прим. перев.
3.5. Треугольные разложения 193 Тогда detA = ana22 ... аппФ0 и применяется обратная подста- подстановка: уравнение аппхп = Ь„ определяет неизвестную хп; после этого уравнение ara_i,/t-i*rt-i + ап-и пхп — Ьп-\ становится урав- уравнением с одной неизвестной и позволяет найти хп-\\ в общем случае ?-е уравнение для каждого i в последовательности урав- уравнений га Y.ctijX^bi, l = n,n—l 2,1, j = i имеет только одну неизвестную (так как xi+u • • ¦. хп уже опре- определены) и позволяет вычислить xi. Упражнение. Подсчитать число операций скалярного умно- умножения и деления, необходимых для того, чтобы решить систему Ах~Ь, где матрица А&.Мп невырожденная верхняя треуголь- треугольная, при условии, что используется обратная подстановка. Упражнение. Описать прямую подстановку как способ реше- решения системы Ах = Ь с невырожденной нижней треугольной мат- матрицей А е М„. Обратим внимание на то, что если матрица А^М„ невы- невырожденная, но не треугольная, то решение системы Ах = Ь почти так же удобно вычислять, если для А найдено разложе- разложение A = LU, где L—'нижняя треугольная, a U ~ верхняя треугольная мат- матрицы. Упражнение. Показать, что если матрица А невырожденна и, как выше, А = LU, то обе матрицы L и U обязаны быть не- невырожденными и, следовательно, должны обладать ненулевыми диагональными элементами. Для того чтобы решить систему Ах = Ь, сначала выполним прямую подстановку, чтобы решить систему Ly = Ь, а затем — обратную подстановку для системы Ux = у. При этом вычислительные затраты будут только в два раза превосходить необходимые для простого треугольного случая. Таким образом, разложения типа LU могут быть полезны при решении линейных систем, если стоимость их построения не окажется слишком высокой. Мы говорим об этих разложениях именно в данной главе потому, что их можно рассматривать 7 Р, Хорн, Ч. Джонсон
194 Гл. 3. Канонические формы как специальные формы представления матриц — только моти- мотивировка теперь связана не с собственными значениями, а с ли* нейными системами. 3.5.1. Лемма. Предположим, что матрица А^Мп может, быть представлена в виде где L е М„— нижняя треугольная матрица, a U е Мп — верх- верхняя треугольная матрица. Тогда для любого блочного разбиения 21 A22\' L lLn L22\' U~[ 0 U22 где Au, Lu, UneMk, k^n, справедливы соотношения L\\U\2 = Al2, Ь21С/ц — A2U ^21^12 ~T" ^22^22 ^^ ^22* В частности, верхние левые блоки матриц L и U образуют раз- разложение такого же типа для соответствующего блока матрицы А. Упражнение. Проверить лемму 3.5.1, выполнив умножение блочных матриц. 3.5.2. Теорема. Предположим, что А е Мп и rank Л = k. Если detЛ({1, .... /})?=0, у = 1, ..., k, то для А справедливо разложение A = LU, где L, U е Мп — соответственно нижняя треугольная и верхняя треугольная матрицы. Более того, возможно и такое разложе- разложение, в котором одна из матриц L или И невырожденная; L и U обе невырожденны в том и только в том случае, когда А невы- рожденна. Доказательство. Покажем сначала, что вследствие условия на ведущие миноры подматрицу ^4({1, ..., k}) можно предста- представить произведением L({\, ..., k})U({l, ..., k}) с невырожден- невырожденными сомножителями. Это можно сделать, последовательно оп- определяя соответствующие элементы матриц L и U. Пусть L = = [/,•;] и U = [uij]. Положим «ц==1 a In = пц (/=1, ..., k). Тогда «i/ = -j^-, /==2, ..., k.
3.5. Треугольные разложения 195 Продолжаем. Положим и22=1 и//2 —fl« — ^iwi2 0' = 2, ..., k). Тогда получаем а2{ ~ 121иЦ Продолжаем. Диагональные элементы матрицы U последова- последовательно полагаем равными 1, затем определяем очередной стол- столбец в L({\, ..., k}) и после этого — очередную строку в U{{\, ..., k}). Каждый раз нужно решить одно уравнение с одним неизвестным. Разрешимость этих уравнений обеспечи- обеспечивается отличием от нуля элементов 1ц вследствие равенства detL({l, ..., i})-dett/({l t}) = det-4({1, .... /}), вытекаю- вытекающего из леммы 3.5.1. Итак, разложение для Л({1, ..., k}) по- построено. Разобьем матрицу Л на блоки так же, как в лемме 3.5.1. По- Поскольку rank A = k = rank Лц, то строки подматрицы [А2\ Л2г] однозначно выражаются как линейные комбинации строк под- подматрицы [ЛцЛ12], так что А2\==ВАц, Л22 == BAi2, где матрица В е Mn-ki k определяется единственным образом. Теперь разобьем на блоки искомые матрицы L и И так же, как в лемме 3.5.1. При этом Ln и U\\ уже получены. Вновь обра- обращаясь к лемме 3.5.1, находим = Ln Л12, L21 = A21U11 . Теперь получаем An = Ll\U\2 + L22U22 = A21UU Lu Л12 + L22U22 = = ВАцАц Аи + L22U22 = Л22 + ^22^22 и, чтобы завершить разложение, необходимо и достаточно обес- обеспечить равенство L22?/22 = 0. В качестве L22 (или ?/22) можно взять, например, совершенно произвольную невырожденную нижнюю (или верхнюю) тре- треугольную матрицу из Mn-k, и тогда ?/22 (или L22) будет нуле- нулевой матрицей. Вследствие невырожденности матриц L\\ и 1)ц одну из матриц L или U всегда можно выбрать невырожден- невырожденной. Если k = п, то матрицы L — Ьц и U = Uu обе невырож- невырожденные; если k < n, то одновременно невырожденными мат- матрицы L и U быть не могут в силу вырожденности матрицы А. Теорема доказана. ? 7*
196 Гл. 3. Канонические формы 3.5.3. Пример. Не для всякой матрицы существует LU-разло- жение. Пусть Если бы А имела вид i I22 J L 0 ы22 то равенство /цИп = 0 означало бы вырожденность одной из матриц L или U, а это противоречит невырожденности мат- матрицы А = LU. Упражнение. Доказать, что невырожденная матрица, в ко- которой какая-то левая верхняя главная k X ^-подматрица вы- вырожденная, не может иметь LtZ-разложения. 3.5.4 Пример. Матрица А^Мп может иметь LiZ-разложение, не удовлетворяя условиям теоремы 3.5.2 на ведущие миноры. Так, матрица ГО 01 ГО 01Г1 11 Ll 2j Ll 1 J L 0 Ij имеет ранг 1, но ее позиция A,1) содержит 0. Упражнение. Для матрицы из приведенного выше примера ??/-разложение неединственно, даже если в U диагональные элементы считать равными 1. Построить несколько различных разложений матрицы [j 2]. Теперь уже должно быть ясно, что Lfy-разложение в одних случаях существует, в других — не существует, причем для лю- любой заданной матрицы ее /,?/-разложение может быть в выс- высшей степени неединственным. Однако в основном неопределен- неопределенность вызывается вырожденностью самой матрицы А или ее ведущих подматриц. На базе леммы 3.5.1 и теоремы 3.5.2 тем не менее можно дать полное описание для невырожденного случая, в котором с помощью нормирования удается добиться единственного (канонического) разложения. 3.5.5. Следствие. Предположим, что матрица А е Мп нееы- рожденна. Тогда она представима в виде где L, U е Мп — соответственно нижняя и верхняя треугольные матрицы, в том и только в том случае, когда <1еЫ({1 П)ФО, /=1, .... я.
3.5. Треугольные разложения 197 Кроме того, матрицы L и U невырожденны и разложение по существу однозначно. Для А справедливо представление A = L'DU', где L' и U' — нижняя и верхняя треугольные матрицы из Мп с диагональными элементами, равными 1, a D — невырожденная диагональная матрица, определенная соотношениями det?>({l /}) = detA({1, ...,/}), /— I, ..., п. Матрицы U, U' и D по А определяются однозначно. Упражнение. Продумать детали доказательства этого след- следствия, опираясь на лемму 3.5.1, теорему 3.5.2 и предыдущие упражнения. Возвращаясь к решению системы линейных уравнений Ах~Ь, предположим, что матрицу А е Мп нельзя представить в виде LU, но можно — в виде PLU, где Р^Мп— матрица переста- перестановки (см. разд. 0.9.5), a L и U — как и раньше, нижняя и верх- верхняя треугольные матрицы. Это отвечает переупорядочению урав- уравнений перед выполнением LtZ-разложения. Решение системы Ах=Ь и в этом случае находится достаточно просто — путем решения двух треугольных систем Ly = PTb и Ux = y. Важно отметить, что такое разложение выполнимо для любой невырожденной матрицы А е Мп. К тому же совершенно произ- произвольную матрицу А е Мп можно разложить в произведение PLUQ, где матрица Q е Мп также реализует перестановку. 3.5.6. Лемма. Пусть матрица А е Mk невырожденна. Тогда существует матрица перестановки Р е Mk, такая, что det(PM)({l, .... ]})Ф0, /=1 k. Отметим, что матрица РтА есть не что иное, как матрица А с переставленными строками. Доказательство. Проведем индукцию по k. Если k = 1 или 2, этот результат проверяется непосредственно. Предположим, что он уже установлен для всех порядков вплоть до k— 1 вклю- включительно. Рассмотрим невырожденную матрицу А е Mk и вы- черкнем ее последний столбец. Оставшиеся k—1 столбцов бу- будут линейно независимы и, следовательно, содержат k—1 ли- линейно независимых строк. Сделаем эти k — 1 строк первыми и применим предположение индукции к невырожденной ведущей
198 Гл. 3. Канонические формы подматрице порядка k—1. Мы описали нужную нам полную перестановку. Для завершения доказательства остается ааме- тить, что матрица РТА невырожденна. D 3.5.7. Теорема. Пусть А е Мп. Существуют матрицы пере- перестановок Р, Qg Мп, нижняя треугольная матрица L е М„ и верхняя треугольная матрица U е Мп, такие, что А = PLUQ. Если А невырожденна, то можно выбрать Q = / и тогда A = PLU. Доказательство. Если гапкЛ=&, то в Л имеется невырож- невырожденная подматрица размера k X k (см. свойство 0.4.4.2), кото- которую перестановками строк и столбцов можно переместить в левый верхний угол. Теперь применение леммы 3.5.6 и теоремы 3.5.2 обеспечивает построение разложения первого типа. Если матрица А невырожденна, то, согласно лемме 3.5.6, перестав- переставлять столбцы не потребуется. После перестановки мы можем применить теорему 3.5.2, которая приводит к разложению вто- второго типа и завершает это доказательство. ? Задачи 1. В этом разделе была развита теория LtZ-разложения, где L и U — нижняя и верхняя треугольные матрицы. Показать, что параллельно можно развить теорию t/L-разложения. Сомно- Сомножители в этих разложениях, вообще говоря, будут разными. 2. Напомним, что, согласно задаче 3 из § 2.6, <2/?-разложение произвольной матрицы А^Мп (см. разд. 2.6.1) эффективно строится с помощью п—1 преобразований Хаусхолдера. Здесь Q — унитарная, a R — верхняя треугольная матрицы.' Описать способ решения системы Ах = Ь, основанный на Q^-разложе- нии матрицы А. 3. Доказать, что для любой матрицы А е Мп имеет место разложение А = LP0U, где L, U е Мп — невырожденные соответственно нижняя и верх- верхняя треугольные матрицы, а Р$ есть матрица субперестановки (получаемая из матрицы перестановки заменой некоторых еди- единиц на нули, причем замен столько, на сколько ранг матрицы А меньше, чем п). Указание. Использовать элементарные пре- преобразования строк и столбцов. 4. Пусть все ведущие миноры матрицы Ае.Мп отличны от нуля. Описать способ построения ее 1?/-р.азложения, основан-
3.5. Треугольные разложения 199 ный на строчных элементарных преобразованиях типа 3, позво- позволяющих получить нули на месте поддиагональных элементов. 5 (алгоритм трехдиагонализации Ланцоша). Пусть заданы матрица АеМп и вектор хеС". Образуем матрицу X = = [хАхА2х ... Ап-1х]; ее столбцы составляют так называемую последовательность Крылова. Предположим, что X невырож- денна. (a) Доказать, что Х~1АХ — сопровождающая матрица вида C.3.12) характеристического многочлена матрицы А. (b) Доказать, что если R е М„ — произвольная заданная невырожденная верхняя треугольная матрица и S = XR, то матрица S~XAS имеет верхнюю хессенбергову форму. (c) Пусть jeC", и пусть У = [уА*у {А*Jу ... (А*)п-1у]. Предположить, что Y невырожденная и Y*X = LDU, где L и U—нижняя и верхняя треугольные, a D — диагональная мат- матрицы и все три они невырожденны, и доказать существование невырожденных треугольных матриц R и Т, таких, что (XR)~l = = T*Y* и матрица T*Y*AXR трехдиагональна и подобна мат- матрице А. (d) Пусть матрица А е Мп эрмитова. На базе изложенных выше идей сформулировать алгоритм построения трехдиаго- нальной эрмитовой матрицы, подобной матрице А. 6. Две матрицы Д, Be Mmn называются эквивалентными, если для каких-то невырожденных матриц S e Mm и Т е Мп выполняется соотношение B = SAT. (a) Показать, что это есть отношение эквивалентности на множестве Мт, п. (b) Доказать, что любая матрица ЛеЛ/ш>„ эквивалентна матрице вида [^ °] е Мт „, где I <= Mk и &<min{m, n}. Ука- Указание. С помощью элементарных преобразований над строками от А перейти к ступенчатой матрице. Затем использовать эле~ ментарные преобразования над столбцами. (c) Доказать, что две матрицы из Мт> „ эквивалентны тогда и только тогда, когда они имеют одинаковый ранг. (d) Предположим, что матрица ЛеМт>„ эквивалентна матрице специального вида, указанной в п. (Ь). Пусть S[,J]r=A. Развить теорию решения системы линейных уравнений Ах~Ь в терминах эквивалентности. Дополнительная литература Задачу 5 мы почерпнули из [Ste]. Там же имеется дополни^ тельная информация о численных применениях /,?/-разложения%
Глава 4 ЭРМИТОВЫ И СИММЕТРИЧНЫЕ МАТРИЦЫ 4.0. Введение 4.0.1. Пример. Если /: D -*¦ R — дважды непрерывно диффе- дифференцируемая функция в некоторой области D с R", то веще- вещественную матрицу = М называют гессианом1) этой функции. Гессиан сам является функцией от х. Это понятие играет важную роль в теории опти- оптимизации, поскольку с его помощью можно определить, является ли некоторая критическая точка локальным максимумом или минимумом (см. § 7.0). Для наших целей здесь существенно лишь одно свойство гессиана, связанное с важным фактом равенства смешанных производных: д2! d2f • • 1 л -дГЦ^Ш^Г Для всех t, , = 1, 2, ..., п. Для гессиана Н = [/zt/] это означает позументное равенство hij — hji для всех индексов /, /=1, 2, ..., п; другими словами, Н — Нт. Матрицу А е Мп, удовлетворяющую условию А = Ат, называют симметричной. Таким образом, гессиан дважды не- непрерывно дифференцируемой вещественной функции всегда бу- будет вещественной симметричной матрицей. 4.0.2. Пример. В качестве второго примера рассмотрим неко- некоторую матрицу А = [atj] e M„ с вещественными или комплекс- комплексными элементами и связанную с этой матрицей квадратичную форму на R" или С" i, i ") Иногда эту матрицу называют матрицей Гессе, а гессианом — ее оп- определитель, — Прим. перев.
4.0. Введение 201 Из приведенных равенств видно, что матрицы А и A/2) (A -f- Ат) приводят к одной и той же квадратичной форме. Однако по- последняя матрица симметрична, поэтому при изучении веществен- вещественных или комплексных форм достаточно ограничиться только формами, связанными с симметричными матрицами. Веществен- Вещественные квадратичные формы естественным образом возникают в физике, например, как выражение для энергии физического тела. 4.0.3. Пример. Для третьего примера возьмем линейный диф- дифференциальный оператор L второго порядка с частными произ- производными, определенный выражением Предположим, что коэффициенты а.ц(х) и функция {(х) опре- определены в некоторой области D с R". Функция / должна быть дважды непрерывно дифференцируемой в D. Оператору L есте- естественным образом сопоставляется матрица его коэффициентов. Эта матрица А = [а,/(х)] не обязательно симметрична, однако в силу равенства смешанных частных производных функции / имеем дх.дх. = Z Т К/(Х) дх.дхЛ аИ М дх. дх. I = Следовательно, симметричная матрица A /2) (А -\- Ат) приводит к тому же оператору L, что и матрица А, и при изучении веще- вещественных или комплексных линейных дифференциальных опе- операторов с частными производными вида D.0.4) без ограничения общности можно рассматривать лишь случай симметричной матрицы коэффициентов. 4.0.5. Пример. Рассмотрим неориентированный граф Г, т. е. граф Г, состоящий из набора N вершин {Pi, Р2, ..., Рп} и на- набора Е неупорядоченных пар вершин, называемых ребрами,
202 Гл. 4. Эрмитовы и симметричные матрицы рц _ ( 1, 11 \ 0 Этот граф Г можно описать очень кратко, если воспользоваться [Так называемой матрицей смежности А = [ац\, где1) если {Pt, Pj}^E, в противном случае. Поскольку Г—неориентированный граф, вещественная мат- матрица А будет симметричной, т. е. Ат = А. 4.0.6. Пример. Пусть А — [а,-/] е Мп— вещественная матрица. Рассмотрим вещественную билинейную форму п Q (х, у) = утАх = Х_ ааУ1х1> х' У s R"» <4-°-7> которая переходит в обычное скалярное произведение при А=1, Условие симметричности этой билинейной формы (Q(x, у)=* ^=Q(y,x) для всех векторов х, у) эквивалентно условию сим- симметричности матрицы A (a,-,- = a,t для всех индексов i, j = = 1, ..., п). Чтобы убедиться в этом, достаточно заметить, что при х = е,- и y = ei имеют место равенства Q(e/, et) = ац и Q(ei, ?/)= ац. Таким образом, симметричные вещественные би- билинейные формы естественным образом связаны с симметрич- симметричными вещественными матрицами. Пусть теперь А =[а,/]е Мп — вещественная или комплекс- комплексная матрица. Рассмотрим комплексную форму H(x,y) = y'Ax=fLallylx,, x,y€=Cn, D.0.8) I, j — 1 которая, подобно D.0.7), сводится к обычному скалярному про- произведению при А =* I. Эта форма уже не является билинейной, но она линейна по своему первому переменному и полулинейна ;(«сопряженно линейна») по второму (Н(ах, by) = abH(х, у)), как и комплексное евклидово скалярное произведение. Такие формы иногда называют полуторалинейными. Если мы хотим, чтобы, как и для скалярного произведения, имело место равен- равенство Н(х,у) = Н(у, х), то обязательно придем к условиям aij = uij, т. е. А=АТ = А*. Обоснованием служат те же аргу- аргументы, что и приведенные выше для симметричных форм. Заме- Заметим, что если А — вещественная матрица, то А* = АТ. Класс матриц А е М„, подчиненных условию А — А*, оказы- оказывается во многих отношениях естественным обобщением на случай пространства Мп(С) класса вещественных симметрич- ') Если ребро {Pi, P)} встречается k раз в наборе Е, то обычно пола- полагают ац = k. Тогда матрица смежности А однозначно определяет неориен- неориентированный граф Г.—*Прим. перев.
4.t. Определения, свойства и характерные особенности 203 ных матриц. Такие матрицы называют эрмитовыми. Отметим, что вещественная эрмитова матрица — это просто вещественная симметричная матрица. В классе комплексных невещественных симметричных матриц теряются многие важные свойства, ха- характерные для вещественных симметричных матриц. В данной главе мы изучим комплексные эрмитовы и симметричные мат- матрицы и укажем особенности случая вещественных симметрич- симметричных матриц. 4.1. Определения, свойства и характерные особенности эрмитовых матриц 4.1.1. Определение. Матрицу А = [а,-,-] е Мп называют эрми- эрмитовой, если Л = Л*, где А* — Ат = [я,,], и косоэрмитовой, если А=— А*. Перечислим некоторые утверждения о матрицах А, В е Мп: 1. Матрицы А + А*, АА*, А*А эрмитовы для любой матрицы А €= М„. 2. Если матрица А эрмитова, то ее степень Ak эрмитова для всех k— 1, 2, 3, ... . Если матрица А также невырождениа, то и обратная к ней матрица Л~' эрмитова. 3. Если Л и В — эрмитовы матрицы, то матрица аА -f- ЬВ эрмитова для любых вещественных чисел а, Ь. 4. Матрица Л—Л* косоэрмитова для любой матрицы Л е= Мп. 5. Если матрицы А и В косоэрмитовы, то матрица аА -f- &B косоэрмитова для всех вещественных чисел а, Ь. 6. Если Л эрмитова, то /Л косоэрмитова. 7. Если Л косоэрмитова, то 1А эрмитова. 8. Любую матрицу А е Мп можно записать в виде А = ± (А + А') + ~(А- А')^ Н (А) + S(A), где Н (А) = A/2) (Л + Л*) — эрмитова часть матрицы Л, a S(A) = = A/2) (Л — Л*) — косоэрмитова часть матрицы Л. 9. Если матрица Л эрмитова, то все элементы на ее главной диагонали вещественны. Для того чтобы задать все п2 элемен- элементов матрицы Л, достаточно указать п вещественных чисел (эле- (элементов главной диагонали) и п(п—1)/2 комплексных чисел (внедиагональных элементов). 4.1.2. Теорема. Любую матрицу А е М„ можно записать един- единственным образом в виде А = 5 + И, где обе матрицы S и Т эрмитовы. Имеется также единственное представление вида
204 Гл. 4. Эрмитовы и симметричные матрицы А = В + С, в котором матрица В эрмитова, а матрица С косо- эрмитова. Доказательство. Запишем Л = A/2) (А + A*) + i[(—i/2)(A—А*)] и заметим, что обе матрицы 5 = A/2) (Л + Л*) иГ=(— //2)(Л—Л*) эрмитовы. Утверждение о единственности основано на следую- следующем замечании. Если А = Е + IF, где матрицы Е a F эрмитовы, то 2S = А + А' = (Е + /F) + (? + iF)' = ? + IF + Е* - /Г = 2?, следовательно, E = S. Аналогично можно установить равенство F = Т. Тем же способом доказывается существование единствен- единственного представления вида А = В + С. ? Если провести аналогию между пространством Мп и комп- комплексными числами, то приведенные выше наблюдения наводят на мысль, что аналогами вещественных чисел окажутся эрми- эрмитовы матрицы. Операции комплексного сопряжения чисел в С тогда соответствует операция * сопряжения матриц в простран- пространстве Мп- Вещественное число — это комплексное число z, такое, что z = z; эрмитова матрица — это матрица А е Мп, удовлетво- удовлетворяющая равенству Л = Л*. Подобно тому как каждое комплекс- комплексное ч::сло z может быть записано в форме z = s + it, где s, /geR, каждая комплексная матрица А единственным обра- образом представима в виде А = S -{- if, где матрицы S и Т эрми- эрмитовы. Эта аналогия подкрепляется следующими свойствами. 4.1.3. Теорема. Пусть матрица А ^М„ эрмитова. Тогда (а) функция х*Ах принимает вещественные значения для всех аег.торов х ен С"; (!>,) все собственные значения матрицы А вещественны: (с) матрица S*AS эрмитова для любой матрицы S е Мп. Д( казательство. Выкладки (х*Ах) = (х*Ах) * = х*А*х = х*Ах убеждают нас, что величина х*Ах совпадает со своей комп- комплексно-сопряженной и, следовательно, является вещественной. Если Ах = Хх и х*х = \, то число А. = Кх*х = х*Хх = х*Ах ве- вещественно в силу уже доказанного утверждения (а). Наконец, (S*AS)* = S*A*S = S*AS; следовательно, матрица S*AS всегда будет эрмитовой. ? Упражнение. Что означают приведенные выше свойства эрмитовой матрицы Л е Мп при п = 1? Каждое из свойств в теореме 4.1.3 на самом деле (почти) характеризует эрмитовы матрицы.
4.1. Определения, свойства и характерные особенности 205 4.1.4. Теорема. Пусть задана матрица А = [а,,] <= Мп. Мат- Матрица А эрмитова тогда и только тогда, когда выполнено хотя бы одно из следующих условий: (a) функция х Ах принимает вещественные значения для всех векторов хе С"; (b) матрица А нормальна и все ее собственные значения вещественны; (c) матрица S*AS эрмитова для любой матрицы S е Мп. Доказательство. Только достаточность каждого условия еще не обоснована. Если число х*Ах вещественно при всех хеС", то число (х + у)' А(х + у) = (х'Ах + уАу) + (х*Ау + у*Ах) вещественно для любых х, у е С". Поскольку х*Ах + у*Ау ве- вещественно по предположению, величина х*Ау -f- у*Ах прини- принимает вещественное значение для любых векторов х, у е С". Вы- Выбирая х = е/г и у = е/, убеждаемся в вещественности суммы aki-{- a\k\ следовательно, 1таы = —1та,-4. Выбирая x — ieu и у = ie!t видим, что число —iak! -f- ш/й также вещественно, по- поэтому Reafe/ = Rea/fc. Это равенство вместе с полученным ранее означает, что ak\ = й/*. Поскольку индексы / и k произвольны, приходим к требуемому заключению А —А*. Нормальная матрица А унитарно подобна диагональной мат- матрице: А= UAU*, где Л = diag(A.i, X2, ¦ • •, К) составлена из соб- собственных значений матрицы А. В общем случае справедливо ра- равенство А* = VAU*, но матрица Л вещественна по предполо- предположению; тогда Л*= UAU* = А. Если в последнем условии положить S — I, то матрица А окажется эрмитовой. ? Эрмитова матрица, очевидно, является нормальной (АА* = = А2 — А*А), и к ней применимы все результаты гл. 2 о нор- нормальных матрицах. Например, собственные векторы, отвечаю- отвечающие различным собственным значениям, ортогональны; суще- существует базис из ортонормированных собственных векторов; эрмитова матрица унитарно диагонализуема и т. д. Для дальнейших ссылок сформулируем следующий важный результат: 4.1.5. Теорема (о спектральном разложении эрмитовых мат- матриц). Пусть задана матрица А е Мп. Матрица А эрмитова в том и только в том случае, когда существуют унитарная матрица U е Мп и вещественная диагональная матрица А е Мп, такие, что справедливо равенство А = UAU*. Кроме того, матрица А вещественна и эрмитова (симметрична) в том и только в том случае, когда существуют вещественная ортогональная мат-
206 Гл. 4. Эрмитовы и симметричные матрицы рица Р е Мп и вещественная диагональная матрица Л е Мп, такие, что А = РАРТ. Линейные комбинации эрмитовых матриц с вещественными коэффициентами всегда эрмитовы, однако в общем случае комп- комплексных коэффициентов это уже не всегда так. Например, если матрица А эрмитова, то матрица iA эрмитова, только когда А = 0. Далее, если матрицы А и В эрмитовы, то выполнены ра- равенства (АВ)* = В*А* — ВА; следовательно, произведение АВ эрмитово тогда и только тогда, когда матрицы А и В комму- коммутируют. Одним из наиболее известных результатов о коммутирующих эрмитовых матрицах (поскольку его обобщение для операторов важно в квантовой механике) является следующий частный слу- случай теоремы 2.6.5. 4.1.6. Теорема. Пусть @~ — заданное семейство эрмитовых матриц. Унитарная матрица U, такая, что UAU* — диагональ- диагональная матрица для всех матриц ief, существует тогда и толь- только тогда, когда А В = В А для любых матриц A, Be J, Определяющее свойство эрмитовой матрицы А состоит в том, что матрица А равна своей сопряженной А*. Одна из возмож- возможностей обобщения понятия эрмитовой матрицы заключается в рассмотрении класса матриц, в котором каждая матрица А по- подобна своей сопряженной А*. В следующей теореме перечис- перечислены некоторые свойства, характеризующие этот класс с раз- различных сторон. Первое свойство гласит, что каждая такая мат- матрица должна быть подобна (но не обязательно унитарно по- подобна) вещественной (но не обязательно диагональной) мат- матрице. 4.1.7. Теорема. Пусть задана матрица А е Мп. Следующие утверждения эквивалентны: (a) матрица А подобна некоторой матрице BeA (b) матрица А подобна своей сопряженной А*; (c) матрица А подобна своей сопряженной А*, причем подо- подобие осуществляется с помощью эрмитовой матрицы; (d) имеет место разложение А=НК, в котором матрицы Я, К е Мп эрмитовы и хотя бы одна из них невырожденна; (e) имеет место разложение А = НК, в котором матрицы И, К е Мп эрмитовы. Доказательство. Сначала докажем эквивалентность утверж- утверждений (а) и (Ь): если выполняется условие (а),.то S~lAS = В == Т~1ВТТ = Т~1В'Т = Г~'5'Л* (S~1)' T,
4.1. Определения, свойства и характерные особенности 207 а это означает, что A* = (ST~iS*) A(ST~lS*). Следовательно, (b) выполнено. Если предположить, что выполняется (Ь), то жордановы канонические формы матриц А и А* совпадают. По- Поскольку матрицы А и Ат всегда подобны, это означает, что жор- данова матрица / матрицы А должна быть подобна матрице 7. Следовательно, каждому жорданову блоку //г(А.) в матрице / соответствует жорданов блок /*(А.) (таких же размеров) в мат- матрице 7. Это утверждение не несет новой информации, когда соб- собственные значения Я вещественны. Если же собственное значе- значение Я не является вещественным, отсюда следует, что жорда- жордановы блоки матрицы А, отвечающие каждому невещественному собственному значению и сопряженному к нему, должны распо- располагаться парами. Используя аргументы, которые ранее привели к теореме 3.4.5, заключаем, что жорданова форма / подобна прямой сумме вещественных матриц вида C.4.4); тем самым утверждение (а) доказано. Проверим, что (Ь) влечет за собой (с). Предположим, что S~lAS= А*, и заметим, что T~lAT = А*, если Т = aS для произ- произвольного ненулевого числа a=re'6eC. Таким образом, АТ=ТА* или, что эквивалентно, АТ' — Т*А*. Складывая эти два равен- равенства, получаем А (Т -f- Т*) = (Т + 7") А'. Если матрица Т + Г* невырожденна, последнее соотношение будет означать, что матрица А подобна своей сопряженной матрице А*, причем трансформирующей будет эрмитова матрица Т-\-Т*. Чтобы матрица Т -f T" была невырожденной, следует удачно выбрать параметр а. Матрица Т + Т* является невырожденной тогда и только тогда, когда невырожденна матрица Т~1 (Т + 7") = = / + Т Т*. Последняя же матрица невырожденна в том и только в том случае, когда —1 ф а (Т~1Т"). Однако 7'~'7"* = = е~'* S~ S*. Поскольку допускаются значения параметра a с произвольным аргументом 9е[0, 2я), следует только выбрать этот параметр так, чтобы — е2гВ ф a (S~lS"). Таким образом, из (Ь) следует (с). Теперь предположим, что выполнено (с) и R~lAR = A*, где матрица R е Мп невырожденна и эрмитова. Тогда R~lA = = A*R~l и A = R(A'R-1). Но (Л'7ГТ = R~lA = Л7Г1, и, сле- следовательно, матрица А является произведением двух эрмитовых матриц R и A*R~l и сомножитель R невырожден. Тем самым (d) выполняется. Если имеет место (d) и матрица Н в представлении А = НК невырожденна, то Н-]АН — КМ = (НК)* = А*, и мы приходим к (Ь). Аналогичное рассуждение применимо, когда невырож* денна матрица К.
203 Гл. 4. Эрмитовы и симметричные матрицы Из утверждения (d), очевидно, вытекает (е); осталось пока- показать, что (е) влечет за собой (а). Пусть в представлении А = НК сомножители Я и К эрмитовы и вырожденны. Рассмот- Рассмотрим матрицу U*AU=(U*HU)(U*KU), где Ue=Mn — это та унитарная матрица, которая приводит матрицу Н к диагональ- диагональному виду: D 0 и А с некоторой невырожденной диагональной матрицей D e Mk, k <C п. Разобьем матрицу U*KU на блоки в соответствии с раз- разбиением матрицы #'; тогда [D0irK'*l Г DK' * 1 = [0 0J[, .]-[ 0 0J. Матрица DK'е Mk является произведением двух эрмитовых матриц, одна из которых невырожденна; следовательно, в силу эквивалентности утверждений (d) и (а) эта матрица подобна некоторой вещественной матрице В е Mk. Обозначим жорда- нову каноническую форму для В через / е Mk\ тогда матрица А подобна некоторой матрице С вида Г/ *-\ с"[о о]; Множество всех собственных значений верхней треугольной мат- матрицы С состоит из собственных значений жордановои формы / и п — k нулевых собственных значений. Для любых ненулевых собственных значений структура жордановых блоков канониче- канонической жордановои формы матрицы С должна быть такой же, как в /. В самом деле, при КФО (столбцовый) ранг каждой сте- степени (С — К1)г, очевидно, равен числу п~ A + rank(/ — XI)r, r= 1, 2 п. В частности, жордановы блоки матрицы С, от- отвечающие произвольным невещественным собственным значе- значениям, будут встречаться соответствующими сопряженными па- парами; таким образом, жорданова каноническая форма матрицы С подобна некоторой матрице вида C.4.6) с вещественными эле- элементами. ? Задачи 1. Показать, что каждая главная подматрица эрмитовой мат- матрицы сама эрмитова. Сохраняется ли это свойство для косоэр- митовых матриц? Для нормальных матриц? 2. Пусть матрица /1еМ„ эрмитова и 5 е Мп. Убедиться, что произведение SAS* будет эрмитовой матрицей. Что можно сказать о матрице 5Л5 (если S невырожденна)?
4.J. Определения, свойства и характерные особенности 209 3. Пусть матрицы А, В е Мп эрмитовы. Доказать, что А и В подобны в том и только в том случае, когда они унитарно по- подобны. Указание. Полагая А = SBS~\ показать, что А = UAU* и В = VAV*, где матрицы U и V унитарны; тогда U*AU = Л = = V*BV. 4. Проверить свойства 1—9, следующие за определением 4.1.1. 5. В некоторых случаях тот факт, что все собственные зна- значения данной матрицы вещественны, удается установить, дока- доказывая, что эта матрица подобна эрмитовой. Приведем следую- следующий классический пример. Пусть матрица А = [ац] е Mn(R) трехдиагональна, т. е. ац = 0 при \i — /|>1. Предположим, что ее внедиагональные элементы подчиняются условию1) a,-, i+ia,+i, i > 0 для всех индексов г'=1, 2, ..., п—1, которое можно рассматривать как весьма слабый аналог условия сим- симметричности. Найти такую вещественную диагональную мат- матрицу D с положительными элементами, чтобы матрица DAD~l стала симметричной. Вывести отсюда, что все собственные зна- значения матрицы А вещественны. На примере матрицы [_°о] объяснить, почему предположение о согласовании знаков вне- диагональных элементов является необходимым. Использовать соображения непрерывности для доказательства того, что соб- собственные значения остаются вещественными, когда выполняют- выполняются нестрогие неравенства a,, i+lai+\,t ^ 0. 6. Доказать, что каждая матрица А^Мп определяется связанной с ней эрмитовой формой х*Ах единственным обра- образом в следующем смысле. Если заданы матрицы A = [ai{], В = [Ьц] е Мп, то равенство эрмитовых форм х"'Ах = х*Вх для всех векторов ^еС" возможно в том и только в том случае, когда А = В. Указание. Пусть х*Ах = 0 для всех х е С". Рас- Раскрыть скобки в выражении (х + у)" А (х + у) и установить равенство х'Ау + у*Ах = 0 для всех х, у е С . Выбрать х = ek, у = еюе{, 6eR, и установить, что akje2i& — — ajk для всех 6eR и всех /, k — 1, 2, . . ., п. 7. Убедиться, что матрица А е М„ (более того, даже мат- матрица с вещественными элементами. — Перев.) не определяется полностью связанной с ней квадратичной формой хтАх при п ^ 2, т. е. при « ^ 2 найдутся две матрицы А, В^М„, не равные друг другу и удовлетворяющие равенству хтАх = хтВх для всех векторов х е С". Указание. Что представляет собой квадратичная форма хтСх, когда С = —Ст? 8. Показать, что матрица ЛеЛ1„ не определяется одно- однозначно абсолютной величиной связанной с ней эрмитовой формы ') При этом условии трехдиагональные матрицы принято называть яко- биевыми. — Прим. перев.
210 Гл. 4. Эрмитовы и симметричные матрицы Указание. Положить ^4 = [oi] и проверить равенство |a-Mxj==jxMtx| для произвольных векторов хеС2. 9. Доказать, что абсолютная величина эрмитовой полутора- линейной формы, связанной с матрицей А е М„, до некоторой степени определяет эту матрицу в следующем смысле. Для двух заданных матриц А, В^Мп равенство | х'Ау | = | х'Ву | для всех векторов х, jeC выполнено тогда и только тогда, когда эти матрицы связаны соотношением А = е№В при неко- некотором 8gR. Указание. Пусть A = [ait] и В — [Ьц\. Выбор х = et и г/ = еу- приводит к равенству | % | = | й/;-1 для всех индексов /, /= 1, . . ., п, а выбор x = eit y = se[ + tek — к равен- равенствам | sa{/ + taik f = | sblf + tbik |2. Следовательно, Re (si [аца1к — — bi]biii]) = O при всевозможных s, t e С. Вывести отсюда, что Oij/Ьц = a{k/blk, если 6,y6,ft ^= 0. 10. Доказать, что матрица А е Мп эрмитова в том и только в том случае, когда матрица iA косоэрмитова. Почему собствен- собственные значения косоэрмитовой матрицы все чисто мнимые, а соб- собственные значения квадрата косоэрмитовой матрицы все веще- вещественные и неположительные? П. В предположении, что матрицы А, В^М„ эрмитовы, обосновать неравенство ir(ABJ ^ tr A2B2. Указание. Проверить, что разность АВ — ВА косоэрмитова, и рассмотреть величину iv(AB-BAJ. 12. Убедиться, что ранг эрмитовой матрицы А^Мп равен числу ее ненулевых собственных значений, но для неэрмитовых матриц это, вообще говоря, неверно. Указание. Рассмотреть ГО П матрицу [00J. 13. Пусть матрица А^Мп эрмитова и Л^О. Установить неравенство \п А}2 в котором равенство имеет место тогда и только тогда, когда А = aUU*, где U = [и\ ... иг\ е Мп, г— матрица с ортонормиро- ванными столбцами и ае R — некоторое число, т. е. матрица А с точностью до вещественного множителя совпадает с матрицей унитарной проекции. Указание. Обозначив через A,i, ..., Кг все ненулевые собственные значения матрицы А и привлекая нера- неравенство Коши — Шварца, приходим к соотношениям t в которых нестрогое неравенство обращается в равенство, когда все числа %i совпадают, и только тогда.
4.2. Вариационные описания собственных значений 211 14. Кососимметричная матрица А е Мп удовлетворяет усло- условию А =—А*. Доказать, что если 6eR, то А = етА* тогда и только тогда, когда матрица е~'в/2А эрмитова. Что будет при 6 = я? При 8 = 0? Объяснить, почему класс косоэрмитовых матриц можно трактовать как один из бесконечного множества классов «обобщенно эрмитовых» матриц, и описать структуру каждого такого класса. 15. Пусть эрмитова матрица А = [«,¦,] еМ„ записана в блоч- блочном виде lx A J где ^еСи и А^Мп_х. Показать, что det А = ап det А — х* (adj А) х, где adj А — присоединенная матрица для А (см. разд. 0.8.2). Какие более слабые условия на матрицу А являются достаточ- достаточными для того, чтобы эта формула оставалась в силе? Указа- Указание. Использовать формулу Лапласа 0.3.1 для разложения оп- определителя матрицы по первому столбцу, а затем для разложе- разложения полученных алгебраических дополнений по первой строке. 4.2. Вариационные описания собственных значений эрмитовых матриц В случае произвольной матрицы А^М„ по существу един- единственное описание ее собственных значений состоит в том, что это решения характеристического уравнения рлA) = 0. Для эрмитовых матриц, однако, собственные значения можно также охарактеризовать как решения ряда задач оптимизации. Поскольку все собственные значения эрмитовой матрицы А е М„ вещественны, условимся в дальнейшем упорядочивать их по возрастанию (неубыванию): Наименьшее и наибольшее собственные значения допускают простое описание как решения соответственно некоторой задачи минимизации и некоторой задачи максимизации с ограниче- ограничениями. Это описание связано с именами двух известных физи- физиков—Рэлея и Ритца, и выражение х*Ах/х*х, играющее ключе- ключевую роль, известно как отношение Рэлея — Ритца (чаще упо- употребляется название «отношение Рэлея». — Перев.). 4.2.2. Теорема (Рэлея — Ритца). Пусть матрица А^МП эрми- эрмитова и ее собственные значения упорядочены, как в D.2.1).
212 Гл. 4. Эрмитовы и симметричные матрицы Тогда Х{х'х < х'Ах ^ Хпх*х для всех х е С", х*Ах А,тах = кп — max —;— = max x Ax, X ф О Х Х Х*Х=\ х'Ах — ^min = А,[ = min —;— = min x Ax. х Ф О х Х х*х = 1 Доказательство. Матрица А эрмитова, поэтому существует такая унитарная матрица U е Мп, что А = UAU*, где Л = = diag(A,i,A,2i •••> ^«). При любом векторе д;еС" верны ра- равенства п х'Ах = x'UALTx = (f/*x)' Л (f/*x) = Z Л| | (C/'x)j I2. (=1 Каждый сомножитель [ {U*x)l |2 неотрицателен, поэтому Лт,„ 11 (СГ*), I2 < x'Ax =t^\ (Wx)t I2 < lmax 11 (Vx)t I2. t=l i=l i=l Поскольку матрица U унитарна, имеют место равенства Тем самым получены соотношения х < A,maxx*x = Я,„л:*х. D.2.3) Оценки здесь точны. В самом деле, если х—'Собственный век- вектор матрицы А, отвечающий собственному значению А,ь то х Ах = х*\\х = %\х*х. Точность оценки сверху устанавливается аналогично. Остальные утверждения оказываются простыми следствиями соотношений D.2.3). При х=?0 выполнено неравенство х*Ах ^ „ которое обращается в равенство, когда х является собственным вектором матрицы А, отвечающим собственному значению Хп. Следовательно, г* Ay i V D.2.4) х х Наконец, при хФО можно перейти к нормированному вектору; х*Ах ( х V . / х
4.2. Вариационные описания собственных значений 213 Таким образом, равенство D.2.4) эквивалентно следующему: тахх'Ах = Хп. D.2.5) х*х=1 Рассуждения для минимального собственного значения Xi ана- аналогичны. D Геометрическая интерпретация равенства D.2.5) состоит в том, что число кп есть наибольшее значение функции х*Ах, когда вектор х пробегает единичную сферу в пространстве С* (которая является компактным множеством). Соотношение D.2.3) служит основанием для следующего ре- результата о локализации собственных значений. 4.2.6. Следствие. Пусть заданы эрмитова матрица А е Мп и ненулевой вектор х е С", и пусть а = x*Ax/x*x. Тогда в каждом из полуинтервалов (—оо, а] и [а, оо) найдется по крайней мере одно собственное значение матрицы А. Упражнение. Доказать следствие 4.2.6. Упражнение. Для минимального собственного значения A,i выписать утверждение, аналогичное D.2.5), и дать его геомет- геометрическую интерпретацию. В теореме Рэлея —¦ Ритца приводится вариационное описа- описание наибольшего и наименьшего собственных значений эрмито- эрмитовой матрицы А. Что же можно сказать об остальных собствен- собственных значениях? Запишем разложение А = UAU*, в котором U =\ui иг ... мп]; столбцы матрицы U являются ортонормиро- ванными собственными векторами матрицы А (отвечающими собственным значениям с теми же индексами — Перев.). Рас- Рассматривая только те векторы хеС", которые ортогональны собственному вектору щ, приходим к следующей модификации основного равенства теоремы 4.2.2: х'Ах = Z I. | (U'x)i |2 = Е XЛ и\х I2 = Е Я. I и'.х I2. Следовательно, имеют место соотношения х'Ах = t Ki I u> ? > h t2 [ u*x f = k211 (jTx)t |2 == \хшх, так как прктоп х ортогонален первому столбцу матрицы U. Не- равенство ; ,.:, ь становится равенством при х = и2; таким обра-
214 Гл. 4. Эрмитовы и симметричные матрицы зом, получаем формулу х* Ах * min —;— = min х Ах = Я2 D.2.7) ХфО Х Х Х*Х=1 X ± U, X ± И, для второго собственного значения. Упражнение. Обобщая эти рассуждения, обосновать фор- мулу х*Ах • min ~РТ-~ ml'n х Ах = Кк, k = 2,3, ...,n. хфй х х х*х-=1 х -1- «г и2 "k-l X -1 "Р  4-Х D.2.8) Упражнение. Показать, что max x'Ax хфО Х*Х х*х=1 x±uw nn_1 un_k+] х±ип, «„_,,.... "n-k+! k=l, 2, ..., п-\. D.2.9) К сожалению, практическая ценность этих формул невелика, поскольку в них явно участвуют некоторые собственные век- векторы, а собственные векторы обычно неизвестны. Однако пред- представление D.2.7) и более общие представления D.2.8) и D.2.9) станут отправной точкой для нахождения полезного на прак- практике описания собственных значений. Пусть задан некоторый вектор w & С". Тогда п sup x'Ax= sup x"UAU'x= sup 2 ki\(U*x)if = x*x=i x*x = \ x*x=\ i—l X ± W X ± W X X W = sup lMzJ2= sup i.bt\z,\2> г*г=1 i — l z*z=\ i = l x=Uz _L w г _L U*w n > sup ?Mz<I2 = г*г = 1 i-1 г±?/*а> г,-г2- ... =гп_2=0 = SUp Я„_1|2„_,|2+Я,/г|2л|2>Я,„_1; D.2.10) Во второй строке в этих выкладках введено обозначение г = U*x; равенство г*г = 1 следует из х*х == 1 в силу унитар- унитарности матрицы U. Первое неравенство объясняется тем, что наибольшее значение не может возрасти при сужении того мно-
4.2. Вариационные описания собственных значений 215 жества, по которому берется супремум. Заключительное нера- неравенство следует из того, что Хп ^ Xn-i- В предыдущих рассуждениях вектор ш был произвольным фиксированным вектором. Теперь можно взять инфимум по все- всевозможным векторам w в D.2.10) и получить тем самым нера- неравенство inf sup х"Ах^Хп_х. вес"*'''1 х ± w Однако формула D.2.9) при k = 1 означает, что неравенства в D.2.10) становятся равенствами, когда w = ип. Таким образом, последнее утверждение можно уточнить: inf sup х'Ах — кп_1, И)<=сге х*х=1 х х а» Это описание собственного числа несколько сложнее по виду по сравнению с D.2.7), но здесь не требуется знания каких-либо собственных векторов матрицы А. Чаще можно встретить запись с «max» вместо «sup» и с «min» вместо «inf», поскольку1) х*Ах = Xn-i при х=ип-\. Та- Такая замена используется на последнем этапе доказательства следующей теоремы «о мннимаксе» Куранта — Фишера. 4.2.11. Теорема (Куранта — Фишера). Обозначим собствен- собственные значения эрмитовой матрицы А е М„ через Х\ ^ Я2 ^ ... ... ^ Я,л. Пусть задано натуральное число k, I ^ k ^ п. Тогда min max ^-^=ik D.2.12) т., ш, w. teC J^O, Jec" U max . min ?-??. = а,л. D.2.13) Замечание. При k = n в D.2.12) и при fc = l в D.2.13) внеш- внешнюю задачу оптимизации не следует принимать во внимание, поскольку множество, по которому проводится оптимизация, ста- становится пустым. Для этих двух случаев утверждения D.2.12) и D.2.13) уже присутствовали в теореме 4.2.2 Рэлея — Ритца. Доказательство. Приведем обоснование только для утверж- утверждения D.2.12); для D.2.13) рассуждения аналогичны. Выпишем ') Более точно, возможность указанной замены терминов, начиная уже с соотношений D.2.10), обусловлена тем, что проводится оптимизация не- непрерывных функций на компактных, по существу, множествах (не ограни- ограничивая общности, всюду можно ввести дополнительное условие нормировки, например w*w = 1), — Прим. перев.
216 Гл. 4. Эрмитовы и симметричные матрицы представление А = UAU*, в котором матрица U унитарна и Л = diag(Xi,A,2, ,.., %п), и будем считать, что 1 <. k ^ п. Для вектора хфО х'Ах ^ (U'xY Л (U*x) _ (Ц'х)' Л (U*x) х*х х*х ~ (U*x)*(U*x) и {U*x: л;еС", х ф 0} = {у е Сп: у Ф 0}. Таким образом, если заданы векторы wx, w2, ..., ш„_4 е С, то справедливы соот- соотношения sup ~?Г^ SUP "Vf" = x^wi wn-k VlV*wl V*wn_k n n = sup Hh\Uif> sup Z^|«/«I2 = г/±и*да, u*wn_k yxu*wi u*wn_k o sup ? Яг|г 11^+.12+"-+|Уп12=1'"-А УХ У'и>, V*wn_k Таким образом, справедливы неравенства sup PF «J-1"! Wn-k для любых п — k векторов w{, ..., wn_k. Однако, согласно D.2.9), это неравенство при некотором выборе векторов до,, например до, = ы„_/+1, где un_i+l — столбец матрицы f/= = [«! ... ы„], обращается в равенство: inf sup W, В. t. 1^0 Мы можем заменить здесь «inf» и «sup» на «min» и «max», по- поскольку экстремальные значения достигаются. Как уже отмеча- отмечалось, доказательство D.2.13) проводится аналогично. 1 Упражнение. Провести детальное доказательство утвержде- утверждения D.2,13).
4.2. Вариационные описания собственных значений 217 Задачи 1. Пусть ЛеА1„ — эрмитова матрица с собственными значе- ниями Xi ^ А,2 ^ ... ^ Я„. Используя теорему 4.2.11, прове- проверить, что х* Ах Kk= min max—г—, k = \, 2, .... п, х* Лх ЯА= max min —;—, k = \, 2, ..., n, n-k+l где через S/ обозначено подпространство размерности / и внеш- внешняя оптимизация проводится на множестве всевозможных под- подпространств указанной размерности. 2. Доказать, что для эрмитовой матрицы А е М„ следующие три задачи оптимизации приводят к одному и тому же решению, (a) max x* Ах, х*х=1 (b) i (с) max —j—, если хотя бы одно собственное значение ма- х*Ах=\ х х трицы А положительно. 3. Показать, что если ЛеМ» — эрмитова матрица и х*х = = 1, то 4. Убедиться в необходимости предположения теоремы 4.2.2, что матрица А эрмитова, на примере матрицы Л = [^ ,]. Чему равны max {хтАх/хтх: х Ф 0, х <= R"}, maxRe{x*Ax/x'x: x^O, x e± R"}? 5. Пусть задана матрица А е М„ с собственными значениями {Xi}. Показать, что для их абсолютных величин имеют место оценки min хфО х'Ах х"х хфй у* Л v XX = l, 2, .... п, даже если матрица А не является эрмитовой. Указание. Поло- Положить вектор х равным собственному вектору матрицы А. На примере А = [ lQ J ] удостовериться, что каждая из этих оценок может быть грубой.
218 Гл. 4. Эрмитовы и симметричные матрицы 4.3. Некоторые приложения вариационных описаний Среди многочисленных важных приложений теоремы Куран- Куранта— Фишера одно из простейших связано с задачей сравнения собственных значений матриц А -\- В и А. Собственные значения матрицы А обозначим через А,,(Л). 4.3.1. Теорема (Вейля). Пусть матрицы А, В^Мп эрмитовы и собственные значения Xi(A), ki(B) и Xt(A-\-В) упорядочены по возрастанию, как в D.2.1). Тогда при каждом 6=1,2 п выполняются неравенства МЛ)+МЯ)<МЛ + Я)<МЛ) + МЯ). D.3.2) Доказательство. Для любого ненулевого вектора хеС от- отношение Рэлея —• Ритца можно оценить при помощи неравенств Следовательно, при любом k = \,2, ..., п Xk(A + B) = min max w „, b6=Cn *^° X*X 1 »-* X 1 0),, ..., !»„_? [л:*Ллг jc*S W w , e Ь - # - г n —й jc x ^i» •• •• ^«_ь min max Оценка сверху доказывается аналогично. П Упражнение. Показать, что каждое из неравенств в D.3.2) может обращаться в равенство. Указание. Пусть {ыь и2, ... ..., Un)—ортонормированное множество собственных векторов матрицы Л и Aui = ii(A)iii. Рассмотреть B = auiu"i для а>0 и затем для а < 0. В теореме Вейля установлены двусторонние границы для собственных значений суммы А -\- В произвольных эрмитовых матриц А и В. Эти границы можно уточнить, рассматривая в качестве В только матрицы специального вида, например поло- положительно определенные матрицы, матрицы ранга 1, матрицы ранга k или окаймленные матрицы. Матрица В е Мп, подчиненная неравенству х*Вх ^ 0 для всех векторов х е С", называется положительно полуопределен- полуопределенной. Это эквивалентно условию, что матрица В эрмитова и все
4.3. Некоторые приложения вариационных описаний 219 ее собственные значения неотрицательны (см. гл. 7). Приведен- Приведенный ниже результат, известный как теорема о монотонности, яв- является непосредственным следствием теоремы Вейля. Он гла- гласит, что собственные значения эрмитовой матрицы не умень- уменьшаются, если к ней прибавить положительно полуопределен- полуопределенную матрицу. 4.3.3. Следствие. Пусть матрицы А, В <= М„ эрмитовы. Пред- Предположим, что В положительно полуопределена и что собственные значения матриц А и А -\- В упорядочены по возрастанию, как в D.2.1). Тогда Xk(A)< Kk(А + В) для всех /г = 1, 2, ..., п. Доказательство. Надо привлечь оценку снизу в D.3.2) и учесть, что A,i(B):=s 0. Q Если В — матрица ранга 1, то оценки собственных значений матрицы А + В через собственные значения матрицы А форму- формулируются как теорема о разделении: между каждыми последо- последовательными собственными значениями матрицы А -\- В с чет- четными (или нечетными) номерами содержится по меньшей мере одно собственное значение матрицы А. 4.3.4. Теорема. Пусть матрица А е Мп эрмитова и задан век~ тор г е С". Если собственные значения матриц А и А ± гг* упо- упорядочены по возрастанию, как в D.2.1), то имеют место нера- неравенства (a) Xk(A±zz')<=Xk+1(A)^Xk+2(A±zzt), k = 1, 2, ..., п -2, (b) h№<lk+l(A±zz)^Xk+2(A), A = l, 2 л-2. Доказательство. Пусть 1 ^ & ^ п — 2; используя представ- представление D.2.12), получаем АА+2 (Л ± г*') = min max x*{A f*z'] * > х* (А ± гг") х mm max —5—; — пкг x'Ax min max -pj- min max n-k-2 »-ft-i XXWi wnk
220 Гл. 4. Эрмитовы и симметричные матрицы Теперь пусть 2 s^ k ^ п— 1. При помощи представления D.2.13) получаем Хк(А±гг") = max min х*(Л f zz*} x < max min = max min w. wk ,ес" >"?а fei7 "I-wi wk-vwk x* Ax max min -^— = lk+ {(A). XX Эти два семейства неравенств эквивалентны указанным в утвер- утверждении теоремы. ? Для эрмитовой матрицы В е Мп имеется разложение В = = UAU*, в котором матрица U = [щ и2 ... ип] унитарна и Л = diag(Pi, р2, ••-, Рп). Следовательно, ранг матрицы В сов- совпадает с числом ненулевых собственных значений. Если он не превосходит г, то можно положить pr+i = ... = р„ = 0. Если ранг строго меньше, чем г, то некоторые из чисел (Зь Рг, •••, Рг будут также равны нулю. Представление г В=ЕРЛ«г D.3.5) можно воспринимать как другую форму записи разложения В = UAU*. В обратную сторону, ранг любой матрицы вида D.3.5), когда все р, отличны от нуля ui и векторы линейно не- независимы, равен г. Если же допускается линейная зависимость векторов т, то можно утверждать лишь, что ранг матрицы В не превосходит г. Следующий результат, первоначально полу- полученный Вейлем в рамках теории интегральных уравнений, поз- позволяет найти границы для собственных значений суммы А + В, когда ранг матрицы В равен г. Это простое обобщение теоремы 4.3.4 об одноранговом возмущении. 4.3.6. Теорема. Пусть матрицы А, В^Мп эрмитовы. Предпо- Предположим, что ранг матрицы В не превосходит г. Тогда (ул 5 (А\ <^ % (А -Л- в\ <^L X (A} k ==z 12 ti 2v (с) если задано разложение А = UAU", в котором U — г=[щ и2 ... ип]&Мп — унитарная матрица и A=diag(Ai, ..., Х„),
4.3. Некоторые приложения вариационных описаний 221 еде А[ ^ Я2 ^ ... <! Я„, и возмущение имеет вид В = VX + VA-X-1 + • • • + K-r+lUn-r+iUn-r+l> mo Доказательство. Пусть В = a1vlv*l-{- ... + arvrv*r, где век- векторы Vi 5,еС" не обязательно линейно независимы. Неравенства в (а) и (Ь) доказываются так же, как и соответ- соответствующие им неравенства в теореме 4.3.4 со следующими изме- изменениями. Прежнее условие x.Lz теперь заменяется на г усло- условий xJLvu ..., xA-Vr и доказательство завершается с учетом этой замены. Чтобы доказать п. (с), заметим, что все векторы Mi, ..., ип являются собственными векторами матрицы А— В и что (А — B)uk = 0, k = п — /" + 1, п — г + 2 п и {А — — B)uk = 'kkUk, k=l, 2, ..., п — г. В силу неравенств Кп-, ^ ^ Xn-r-i ... ~^"к\ наибольшим собственным значением матрицы А — В будет число %п-.г. ? Упражнение. Подробно доказать утверждения (а) и (Ь) тео- теоремы 4.3.6. Теперь наших знаний достаточно, чтобы установить следую- следующий общий результат Вейля о собственных значениях суммы эрмитовых матриц. 4.3.7. Теорема (Вейля). Пусть заданы эрмитовы матрицы Л, Se М„, и пусть собственные значения матриц А, В и А + В упорядочены по возрастанию, как в D.2.1). Если пара индексов j, k подчинена условиям 1 ^ /, k ^ п и j -)- k ^ n -f- 1, то если пара индексов /, k подчинена условиям 1 j + k ^ п + 1, то k_l(A + В). Доказательство. Пусть индексы /, k подчинены первым условиям. Запишем разложения А — UA (A) U* и В = VA (В) V, в которых матрицы 0 = [и, и2 . . . ип] е Мп и V = [v{ v2 . ¦ ¦ vn] e е Мп унитарны, Л (А) = diag (Л, (А), ...,К (А)) е= М„, Л (В) = diag (Я,, (В), ...,1п (В)) е= Мп. Тогда ранг матрицы не превосходит п — /, ранг матрицы
222 Гл. 4. Эрмитовы и симметричные матрицы не превосходит п — k и ранг суммы As + Bk не превосходит 2п — j — k. Далее, в силу утверждения (с) теоремы 4.3.6 и кп{А-А, + В- Вк) = кп(А + В- {А, + Вк)) > > Xn-vn-i-k) {А + В) = Xj+k-n (A + В) в силу утверждения (Ь) теоремы 4.3.6 (при k -\- г = п и г = = 2п — / — k). Кроме того, неравенство D.3.2) (с k = п) в данном случае принимает вид К (А -А,+ В - Вк) < К(А ~ А,) + К(В- Вк). Таким образом, приходим к соотношениям Л,(Л) + 1к{В) = К(А- At) + K(B~ Bk)^ln(A - А; + В - Bk)= = К ((А + В) - {А, + Bk)) > Ki+k_n (A + В). Первое утверждение теоремы доказано. Второе утверждение непосредственно следует из первого, примененного к матрицам —Л и —В. П Упражнение. Подробно обосновать вывод второго утвержде- утверждения теоремы 4.3.7 из первого. Указания. Получить оценку сверху для Xj+k-n(—А — В) и использовать равенство А,,(—Л) = = —Xn-i+i(A), которое верно для эрмитовой матрицы А е Мп. Как заключительный результат о разделении собственных значений матрицы А -\- В приведем теорему, в которой матрицы А я В имеют весьма специальный вид, а именно теорему о раз- разделении собственных значений для окаймленных матриц. Утверждение этой теоремы аналогично утверждению теоремы 4.3.4, где в качестве В бралась матрица ранга 1. 4.3.8. Теорема. Пусть заданы эрмитова матрица А ^ М„, век- вектор i/eC" м число aeR. Рассмотрим эрмитову матрицу А е е Mn+i — результат окаймления матрицы А вектором у и чис- числом а: A^[ , У j< Предположим, что собственные значения {Я;} ы {Я,} матриц -А и Л соответственно упорядочены по возрастанию:
4.3. Некоторые приложения вариационных описаний 223 (Тогда <Яге+1. D.3.9) 'Доказательство. Зададим натуральное число k, такое, что ^ k ^ п. Докажем неравенства Я* ^ Xk ^ ^k+i- Пусть wt eC", о <= С. Применяя вариационный принцип D.2.12) теоремы Куранта—? Фишера, получаем * . Г Alt ^ ^•ft+i — min max ~FF^ mm max min max о». а>„ te Чтобы оценить Я* снизу, используем вариационное представле- представление D.2.13): Ak — max min ¦ .,. ^ max min ... = max min .,. =ЯЙ. П Мы уже видели два примера теорем о разделении собствен' ных значений: если заданная эрмитова матрица изменяется путем прибавления однорангового возмущения или посредством окаймления, то новые и старые собственные значения переме- перемежаются. Верно ли обратное? Если заданы два множества пере- перемежающихся вещественных чисел, можно ли рассматривать их как собственные значения некоторой эрмитовой матрицы и
224 Гл. 4. Эрмитовы и симметричные матрицы ее подходящей модификации? Ответ положительный1), и мы приведем пример утверждения, обратного к теореме 4.3.8. 4.3.10. Теорема. Пусть заданы натуральное число п и два набора вещественных чисел {К,: /=1, 2, .... п}, {kt: I = 1, 2, ..., п, п+ 1}, подчиненных условию А\ ^ Л] €^ Ао ^ Л2 ^ . . . ^ Яп_2 ^ лге ^ Лге ^ Яп + 1« 'Пусть Л = diag(A,i,A,2, ..., Яга). Тогда существуют вещественное число а и вектор у е R" с вещественными компонентами, такие, что каждое число из множества {Я1Д2, ¦.., ^n+i} является соб- собственным значением вещественной симметричной матрицы yT\a Доказательство. Множество {МДг, ..., Яп}, очевидно, со- содержит все собственные значения матрицы Л, и в силу равен- равенства tr A = tr Л + а п+ 1 п а == tr А — tr Л = Е it — Z ^г- i=i <=1 Несложно вычислить характеристический многочлен р% (/) матрицы Л: det(//- Л) = Л ! Г tl — Л! —у 1 L — if \t —а л I 10 [р/-лгЧг|1 7/ - Л I 0 1 . i i i. . . . ... i = det I | . I = L о \{t-a)-yT{tI-h)-xy\ = [(t -a)-f {tl - Л)-1 у] det (// - Л) = У ¦ I 101Г//-Л! -y If/K//- =det« " ¦-¦' --! I. -Г7ТГГ - J L 61— 1=1 J 1=1 ') Более того, существует единственная трехдиагональная матрица с по- положительными внедиагональными элементами, имеющая заданный спектр и допускающая трехдиагональное окаймление также с заданным спектром. Из- Известны явные формулы для всех элементов такой матрицы и такого окайм- окаймления. См. § 7.12 книги: Парлетт Б. Симметричная проблема собственных значений. — М.: Мир, 1983. — Прим. перев.
4.3. Некоторые приложения вариационных описаний 225 Мы уже определили единственно возможное значение величины а; осталось найти такие п вещественных чисел yi для D.3.11), что р% (in) — 0 при к = 1, 2 п + 1. Введем в рассмотрение многочлены ге+1 Пи n+l, D.3.12) П(и Ш n. D.3.13) Алгоритм Евклида приводит к разложению в котором с — вещественное число и г(t) — многочлен степени п + 1 не выше п—1. Несложно явно определить значение с= Д] Я^ — п — 2 А,,- = а. Кроме того, f(^)==g(^)(^-fl) + r(^) = r(^), k = l, 2, ..., /г, поскольку g-(^ft) = 0. Таким образом, многочлен r(t) задан своими значениями в п точках и может быть выписан явно с помощью интерполяционных многочленов Лагранжа, если среди узлов интерполяции A-i, ..., Яге нет кратных. При этом предпо- предположении все корни многочлена g(t) простые и интерполяцион- интерполяционная формула Лагранжа для r(t) имеет вид 1=1 Следовательно, J № _ и _. „ч l. / @. _ п . _ „ч V ~ПЯг) _ 1 Из условий f(ik) = O, k= I, 2, ..., n+ 1, обязательно вытекает ' =0, А = 1, 2, ...,«+1.D.3.14) Заметим, что при Kk = Xt для t = fe — 1 либо i = k коэффициент при соответствующем члене l/(t — Kt) равен нулю и в точке 8 Р. Хорн, Ч. Джонсон
226 Гл. 4. Эрмитовы и симметричные матрицы t = bh нет особенности1). Если подставить выражения у]^ Ез — /[Ki)jgr(A,), /=1, 2, ..., п, в уравнение D.3.11), то Pa (^k) ~ ®> чт0 и требовалось. Следовательно, осталось уста- установить неравенство f{h{)/g'(Xi)^O для i = 1, 2, 3 п, и именно теперь следует привлечь предположение о разделении. Исполь- Используя определения многочленов f(t) и g(t) и предположение о разделении, получаем, что ге+1 л а это показывает, что числа /(Я,) и g'(Ki) всегда имеют проти- противоположные знаки. В случае когда некоторые из чисел Я,- совпадают, рассужде- рассуждения лишь немного видоизменяются. Пусть для определенности %i = Я2 = ... = kk < Яй+1 ^ ... для некоторого k ^ 2; тогда Я2= ... =A.ft=Xi. Многочлен /(/) в D.3.12) содержит сомно- сомножитель (t — X\)k~l{t — Х\), многочлен g(t) в D.3.13) содержит сомножитель (t ¦—Xi)k, причем кратность корня Я1 в многочлене g(t) в точности равна k. Следовательно, можно разделить каж- каждый из многочленов /(/), g(t) и r(t) на (t — Я1)*-1. Для моди- модифицированного таким образом многочлена g(t) точка Х\ будет простым корнем. Все кратные корни многочлена g(t) аналогич- аналогичным образом преобразуются в простые, последующие рассужде- рассуждения можно продолжать, как и ранее, и заключение сохраняет силу. ? В предшествующих результатах эрмитова матрица «окайм- «окаймляется» снизу и справа новыми строкой и столбцом, однако можно также считать, что в этих результатах описывается по- поведение собственных значений эрмитовой матрицы при исклю- исключении из нее последних строки и столбца. Необязательно, ко- конечно, привязываться к последним строке и столбцу. Если в тео- теореме 4.3.8 в матрице А вычеркиваются t-e строка и столбец вме- вместо последних, то в доказательстве векторы еп+\ и ei просто ме- меняются ролями и заключительные неравенства разделения D.3.9) остаются в силе. Теоремы 4.3,8 и 4.3.10 позволяют утверждать, что неравен- неравенства разделения D.3.9) полностью описывают связь между соб- собственными значениями эрмитовой матрицы и собственными зна- ') Другими словами, в D.3.14) величина %^ — Xt присутствует не только в знаменателе, но и в числителе — она входит как сомножитель в f(A,(), см. D.3.12). Поэтому при кк = Xt не возникает никаких неприятностей.— Прим. перев.
4.3. Некоторые приложения вариационных описаний 227 чениями любой ее заданной главной подматрицы порядка п— 1. Если одновременно рассматривать все п главных подматриц по- порядка п—1 матрицы А, то можно установить более тонкие ре- результаты. Обозначим через Л/ главную подматрицу, полученную отбрасыванием /-х строки и столбца матрицы А, /== 1, 2, ..., /г, и упорядочим собственные значения матриц А и Л/ по возраста- возрастанию. Тогда при каждом г = 1,2, ..., п— 1 min Kl<n , 9 ч 1/2 max *„_,(/!;)- min ^(^)>(^—?) [Я,„И) - X, (А)]. КК КК \ п J Если все собственные значения матрицы А неотрицательны, т. е. если матрица А положительно полуопределена, то первое из этих трех неравенств позволяет заключить, что по крайней мере для одной главной подматрицы А/ справедливо неравенство Таким образом, спектральный радиус каждой главной подмат- подматрицы положительно полуопределенной эрмитовой матрицы не может быть «маленьким». Как изменятся собственные значения, если исключить из эрмитовой матрицы несколько строк и соответствующих столб- столбцов так, чтобы оставшаяся матрица являлась главной подмат- подматрицей основной? Следующий результат можно получить много- многократным применением неравенств разделения D.3.9), однако прямое доказательство с использованием теоремы Куранта — Фишера оказывается более простым. Этот результат иногда называют принципом вложения. 4.3.15. Теорема. Пусть А^Мп — эрмитова матрица, г — на- натуральное число, такое, что 1 ^ г ^ п, а Аг — произвольная главная г X r-подматрица матрицы А (полученная отбрасыва- отбрасыванием п — г строк и соответствующих столбцов исходной мат- матрицы) . Тогда при любом целом k, таком, что 1 ^ k ^ г, спра- справедливы неравенства Доказательство. Пусть подматрица Ar e М„ дополняется до Делой матрицы строками и столбцами с номерами ti, ..., in-r- 8*
228 Гл. 4. Эрмитовы и симметричные матрицы Используя вариационный принцип D.2.12), получаем, что .(Л)== min max x, х~^ w,, ..., ш.ьеС хфО, леС x±wv .... шг_д, fe min max —;;—== x±wl wr-k max У У ¦¦¦°r-k При помощи D.2.13) получаем max min max min —sr— /l /г Л X i к — i . == max min ^4^- = %k(Ar). П r. vk ,sCr уфй,уевСг УУ Следующее простое следствие теоремы 4.3.15 известно как теорема Пуанкаре о разделении и может применяться в таких ситуациях (например, в квантовой механике), когда имеется информация о величине скалярных произведений u\Aus некото- некоторой системы векторов и\, ..., иг ')• 4.3.16. Следствие. Пусть заданы эрмитова матрица А^Мп, натуральное число г, \^г ^п, и набор ии ,.., ur e С1 из г ортоноржированных векторов. Положим Вг = Г«*Лм;.] е Мг. Если собственные значения матриц А и Вг упорядочены по возраста- нию, как в D.2.1), то справедливы неравенства lh (А) < Я* (Вг) < lk+n.r (А), А = 1, 2, .... г. D.3.17) ') Если в линейной оболочке векторов щ, ,.., и, имеются хорошие при- приближения к некоторым собственным векторам матрицы А, то соответствую» щие им собственные значения будут весьма точно аппроксимироваться не- некоторыми из собственных значений матрицы Вг, описанной в следствии 4.3.16. Вычисление элементов матрицы Вг и определение ее собственных зна« чений, рассматриваемых как приближения к некоторым собственным значе- значениям матрицы А, составляет содержание классического метода Рэлея—Рит- ца — одного из основных методов нахождения собственных значений само* сопряженных операторов..— Прим. перев.
4.3. Некоторые приложения вариационных описаний 229 Доказательство. Если г < п, выберем п — г дополнительных векторов ur+i, ..., ип так, чтобы множество {щ иг, иг+и ..., ип} было ортонормированным базисом, и образуем мат- матрицу U = [щ ... ип]еМп. Матрица U унитарна, собственные значения матриц U*AU и А совпадают, и в матрице U*AU мат- матрица Вг является главной подматрицей, полученной вычеркива- вычеркиванием последних п — г строк и столбцов. В такой формулировке требуемое утверждение вытекает из теоремы 4.3.15. ? Матрицу 8feM, в предыдущем результате можно записать в виде Вг = О*AU, где UeMn,r — матрица с г ортонормиро- ванными столбцами. Суммируя неравенства D.3.17) по индексу k и учитывая равенство ivBr — Х\(ВГ)+ ... + К(ВГ), приходим к следующему вариационному описанию суммы собственных значений. 4.3.18. Следствие. Пусть матрица А е Мп эрмитова, задано натуральное число г и 1 ^ г ^ п. Тогда Х1{А)+ ... +А,Г(Л)= min trU'AU, > D.3.19) >[/sM K-r+i(A)+ ¦¦¦ +Я„(Л)= max tr IT AU. | n'r' D.3.20) U*U-IeMr ) Минимум в D.3.19) достигается, когда столбцы матрицы U совпадают с ортонормированными собственными векторами, от- отвечающими г минимальным собственным значениям матрицы А. Аналогичный выбор обеспечивает максимум в D.3.20). Можно считать, что эти два утверждения обобщают теорему Рэлея — Ритца 4.2.2. С их помощью можно получить многочисленные ин- интересные неравенства. Иногда известны границы изменения квадратичной формы х*Ах на некотором подпространстве. В этом случае можно опре- определить границы для собственных значений матрицы А при по- помощи теоремы Куранта — Фишера. 4.3.21. Теорема. Пусть матрица А еМл эрмитова, задано на- натуральное число k, такое, что 1 ^ k ^ п, и k-мерное подпро- подпространство Su в С". Собственные значения матрицы А предпо- предполагаются упорядоченными по возрастанию, как в D.2.1). Если существует такая константа с%, что х*Ах ^ с2х*х для всех век- векторов х <= Sk, то Если существует такая константа сь что х"Ах^.с{х*х для всех векторов jce5t, то
230 Гл. 4. Эрмитовы и симметричные матрицы Доказательство. Пусть векторы щ, ..., un-k образуют орто- нормированный базис подпространства Si. Используя вариа- вариационный поинцип D.2.13). получаем Ш Щ ^^ fj 11 Л Л Л *_/ ^J MJ \ы* Л ¦ Л ¦ М^Л. Л • Х^ Ъ*- U ж ¦¦ Ч' * ¦¦ **S f *\ ж * f-' ^^ ^^ B f-' ч^Ь *-* ционный принцип D.2.13), получаем . х'Ах . х'Ах mm—j—•«* min —т— х х хфО * * max min -^- = Л„_,+ 1. D.3.22) Аналогично, применяя D.2.12), получаем max хфО min max 4.3.23. Следствие. ?сли матрица А е Л1Я эрмитова и нера- неравенства х*Ах ^ 0 выполняются для всех векторов х некоторого k-мерного подпространства, то по меньшей мере k собственных значений матрицы А неотрицательны. Если неравенство строгое, т. е. х*Ах >¦ 0 для всех ненулевых векторов х некоторого k-мер- k-мерного подпространства, то матрица А имеет не менее k положи- положительных собственных значений. Доказательство. Первое утверждение следует из предыду- предыдущей теоремы при с2 = 0. Второе утверждение докажем от про- противного. Если Xn-k+i = 0, то неравенство в D.3.22) обращается в равенство 0= min-^?.= min х'Ах. х х «•*¦=! Однако подпространство S* конечномерно, следовательно, мно- множество D ={x e Sb х*х = 1} компактно (см. утверждение 5.5.8) и непрерывная функция х*Ах принимает минимальное значение на множестве D в некоторой точке Хо е 5*, подчиненной усло- условию х*охо=1. Но тогда хо ф 0, и равенство х*0Ах0~0 противо- противоречит предположению, что неравенство х*Ах >¦ 0 строгое для всех векторов x&Sk при х ф 0. ? Собственные значения и элементы на главной диагонали эрмитовой матрицы являются вещественными числами, и сумма всех собственных значений равна сумме всех диагональных эле- элементов (следу матрицы). Точная связь между элементами глав-
4.3. Некоторые приложения вариационных описаний 231 ной диагонали и собственными значениями задается понятием мажоризации. 4.3.24. Определение. Пусть заданы векторы a = [a(]eR'! и Р — [р,] е R". Говорят, что вектор р мажорирует вектор а, если min| 2 min \ 2] аг-,: 1 </,<...< 4 < я > для всех k= 1, 2, ..., я, причем при & = гс неравенство обра- обращается в равенство. Если упорядочить компоненты векторов а и р по возрастанию: то определяющее неравенство можно записать в эквивалентной форме Ia^Ia- D>з-25) где й = 1,2, ..., пи при k =¦ п должно выполняться равенство. Таким образом, вещественный вектор р мажорирует веще- вещественный вектор а, если сумма k наименьших компонент век- вектора C не меньше суммы k наименьших компонент вектора а при k=l, 2, ..., п—1, и суммы всех компонент векторов р и а совпадают. Отметим, что произвольные перестановки ком- компонент векторов р и а не оказывают влияния на факт мажори- мажоризации вектором р вектора а. Понятие мажоризации во многих разделах теории матриц играет важную роль — устанавливает точное взаимоотношение между двумя множествами вещественных чисел. Следующая теорема Шура A923) является тому примером. 4.3.26. Теорема. Пусть матрица А е Мп эрмитова. Тогда век- вектор ее диагональных элементов мажорирует вектор, составлен- составленный из ее собственных значений. Доказательство. Проведем доказательство по индукции, па- параметром индукции послужит размерность. При п = 1 утверж- утверждение теоремы тривиально. Предположим, что оно верно для эрмитовой матрицы порядка k для всех значений k^.n—1. Пусть А = [а,/]е Мп — данная эрмитова матрица, и пусть А\ е е Мп-1 — ее главная подматрица, полученная исключением тех строки и столбца, на пересечении которых расположен наиболь- наибольший диагональный элемент матрицы Л. Обозначим через
232 Гл. 4. Эрмитовы и симметричные матрицы А-1 ^ ... ^ А,„ собственные значения матрицы Л, через К\ <: .., ^ к'п_х собственные значения матрицы Л1 и через аг , ^ <а. . ^...«^а, , диагональные элементы матрицы А, рас rS!2 ln'n положенные по возрастанию. По предположению индукции k к Тла< I ^ТиК Для всех k=\, ..., П— 1. В силу теоремы 4.3.8 и, следовательно, ^1 К^ Л ^i Для всех А = 1, , .., д — 1. Таким образом, ft ft и при k = n это неравенство становится равенством, потому что след равен сумме собственных значений. ? Понятие мажоризации также полезно для выражения связи между собственными значениями слагаемых и суммы. 4.3.27. Теорема. Пусть матрицы Л, йеМп эрмитовы. Через обозначим вектор-столбцы в R", компоненты которых являются собственными значениями матриц А, В, А + В, упорядоченными по возрастанию, как в D.2.1). Тогда вектор Х(А + В) мажори- мажорирует вектор Я(Л)+ Х(В). Доказательство. При любом k = 1, 2, ,.., п, используя след- следствие 4.3.18, получаем Ея,(Л + б)= min 1 = 1 U*U=I^ = min (tr U'AU + tr U*BU) > > min tr IT AU+ min tr U'BU== t ЫА) + Z h () t i-\ i-1 i-l t ЫА) + Z h (B) = t (K (A) + h (B)). i\ i1 il
4.3. Некоторые приложения вариационных описаний 233 При k — п здесь фактически имеет место равенство, поскольку Мы утверждали, что понятие мажоризации точно описывает связь между элементами главной диагонали эрмитовой матрицы и ее собственными значениями, но доказали в теореме 4.3.26 только половину этого утверждения. Чтобы обосновать его до конца, потребуется следующая лемма технического характера. 4.3.28. Лемма. Пусть п~^2 и заданы вещественные числа «1<а2< • •• <а„, р,<р2< ... <р„. Если вектор р = [р,]г мажорирует вектор а = [а{]г, то найдутся вещественные числа Yi> •¦•. Yn-i. такие, что и что вектор p' = [fJi, .... Pj./eR* мажорирует вектор Доказательство. При п = 2 имеем щ ^Pi и щ-\-а2 = Р\ + р2, или Таким образом, выполняются неравенства «i ^ Pi ^ а% по- поэтому можно положить 7i = Pi и утверждение леммы будет справедливо. Теперь пусть п ^г 2. Обозначим через Д={[6Ь ... ,.., 6rt_i] r}c: R"-1 множество точек, подчиненных неравенствам ! ^а„, D.3.29а) Ze*<ZP/, А = 1, 2, .... n-2. D.3.29b) Поскольку вектор Р мажорирует вектор а, точка 6 = а = [а|, •••. ап-Ат всегда принадлежит Д; следовательно, множество А непусто. Множество А, очевидно, ограничено, замкнуто и, таким образом, компактно. Легко убедиться в его выпуклости. Если 6 = [6 , 6я.,]геД, положим /(б)ззб1 + 62+... +6„_,. Заметим, что / (а) = ctj + ... + ъп_х ^ pj + • • • + P«-i- Если мы сможем указать некоторую точку 6еД, удовлетворяющую нера- неравенству f(o)>P!+... + Р„_1( то в силу выпуклости множе- множества А в него будет входить целый отрезок: /а + A—/)беД для всех t е [0, 1), и непрерывная функция {t)f{tJ + A —t)b) будет подчиняться условиям Отсюда можно заключить, что в некоторой точке to<^[O, 1] будет иметь место равенство g {t0) = Pi + ... + Pn_i. Тогда
234 Гл. 4. Эрмитовы и симметричные матрицы вектор y = [yt]T = toa-\-(l —toN будет удовлетворять заключению леммы. Функция /(•) непрерывна на компактном множестве А; тогда существует точка йеА, для которой max/F) =/(б). D.3.30) без Д Докажем справедливость неравенства f (б)^ $х + • •. + Pn-i- Экстремальная точка бе А удовлетворяет неравенствам D.3.29а), D.3.29Ь); следовательно, **+i. 6 = 1,2 л—I, D.3.31а) ?й/<?р„ k = l,2,...,n-2. D.3.31b) i=i t-i Пусть все неравенства D.3.31b) строгие. Если хотя бы одно из неравенств D.3.31а) было строгим, то по меньшей мере одна компонента вектора б могла бы возрастать и при этом увели- увеличивалось бы значение /(б). Поскольку такая возможность про- противоречит свойству D.3.30), заключаем, что все нестрогие не- неравенства D.3.31а) должны быть просто равенствами; тогда 6 = [а2, а3, ..., ап]т и /F) = а2 + ... + а„ == (а, + а2 + ... + а„)— -ai = (Pi+P2+ ... +рЛ)-а, = (Р,+ ... +pn_!) + Pn-ai> XPi + • • • + Pn_i) + Pi — «i > Pi + • • • + P«_i, что и требова- требовалось доказать. Теперь пусть не все неравенства D.3.31Ь) строгие; таким об- образом, найдутся такие индексы k, при которых в D.3.31Ь) имеют место равенства. Обозначим через г наибольший такой индекс. Тогда ?<Ер< «=.1 »=1 k k Efii<I!p», k=r+i, ...,n-2. Повторяя приведенные в предыдущем абзаце рассуждения, при- приходим к равенствам bk = ak+i для k = r-\-l, ..., п—1. Сле- Следовательно, / (б) = F,+ ...+бг) + (бг+1+...+$„_,) = = (Pi+ ... + Рг) + (аг+2+ -..+«„) = i) +(<*,+ ...+ая)-
4.3. Некоторые приложения вариационных описаний 235 -(«,+ ...+ аг+1) - (рг+1 + ... + р„_,) = = (Р, + ... + Р„_,) + [(р, + ... + р,+1)-(а, + .. + (Р,+з + • • • + Р„) - (Pr+i + • • • + P,-i) > >(Р, + ... + р„_,) + (рг+2 - рг+1) + + (Рг+З - Рг+2) + • • • + (Ря - Р„_,) > Р, + . ¦ • + Ря-1. П Теперь мы можем доказать утверждение, обратное к утвер" ждению теоремы 4.3.26. 4.3.32. Теорема. Пусть п~^\, и пусть заданы вещественные числа а, ^ а? ^ ... ^ а„ и A,i ^ Я2 ^ ... ^ А,„. ?сли вектор а -« = [аг]г мажорирует вектор X = [А,г]г, то существует такая веще- вещественная симметричная матрица А = [аи] е Afn(R), чго au = ai для / = 1, 2, ..., пи каждое число из множества {А(} является собственным значением матрицы А. Доказательство. При и = 1 утверждение тривиально. Пред- Предположим, что оно уже доказано для всех векторов а и X с не более чем и—1 компонентами. По лемме 4.3.28 существуют ве- вещественные числа 7i ^ 72 ^ ... ^ Уп-и такие, что и вектор а' = [аь ..,, an_i]T мажорирует вектор y = [YiF^R'* • По предположению индукции найдется вещественная симмет- симметричная матрица В = [Ьц]е. Мп_х с диагональными элементами bii = al при /=1, 2, ..., п—1, такая, что множество ее соб- собственных значений совпадает с {yt}. Введем матрицу собствен- собственных значений r = diag(Yi, Y2> •••> Yra-i) e M/t-i(R); тогда имеет место разложение В = QTQT, в котором Q е eAln-i(R)—¦ некоторая вещественная ортогональная матрица. В силу теоремы 4.3.10 найдется вещественная симметричная матрица - Гг L у о. собственными значениями которой являются Яг. Положим Q 0 1 rf QT 0 1 Г ФГ^Г СУ 1 Г В <& ' I J^L 0 lJ4(Q# a J==L(Q# a Множество {Xi} — это множество всех собственных значений матрицы 4, у которой на главной диагонали расположены числа
236 Гл. 4. Эрмитовы и симметричные матрицы Оь «2. ..., fln-i, а. Однако из условия мажоризации следует, что tr А «= «! + ... + а„_, + а = А,! + • • • + К = «i + • • • + ««• Таким образом, а = ап и главная диагональ матрицы Л состав- составлена из требуемых чисел. D Предыдущий результат не только завершает круг рассужде- рассуждений о связях между элементами главной диагонали и собствен- собственными значениями эрмитовой матрицы, но также позволяет про- прояснить геометрический смысл собственно понятия мажоризации. Двояко стохастической называют матрицу А е М„, все п2 эле- элементов которой неотрицательны, причем сумма элементов в каждой строке и в каждом столбце равна +1. По теореме Биркгофа 8.7.1 каждая двояко стохастическая матрица является выпуклой комбинацией конечного набора матриц перестановок; верно и обратное утверждение. 4.3.33. Теорема. Пусть заданы два вещественных вектора аж= [at]T gR"«P = [рг-]ге R". Следующие условия эквивалентны: (a) вектор р мажорирует вектор а; (b) существует двояко стохастическая матрица SeM,,, под- подчиненная равенству 6 = Sa: С N У \ N (c) ре {?/>*<* я. [, где 1 < W < оо, /?, > О, Е/),= 1 ы ая eR" — вектор, компоненты которого совпадают с некото- некоторой перестановкой компонент данного вектора а. Доказательство. Если предположить, что выполняется (а), то по теореме 4.3.32 существует вещественная симметричная матрица В = [&,/] еМ„ с элементами й,7 = Р,на главной диаго- диагонали и собственными значениями А,(В) = а,-. В силу спектраль- спектральной теоремы найдется такая унитарная (даже вещественная ортогональная) матрица U = [ui{\ е М„, что В = UAU*, где A = diag(aj, ..., a2). Вычисляя элементы на главной диаго- диагонали матрицы В, пользуясь этим разложением, приходим к ра- равенству р = 5а, в котором матрица 5 = [s,/] e М„ задается фор- формулами stj =|ыг;|2. У такой матрицы 5 сумма элементов в каж- каждой строке и в каждом столбце равна единице, поскольку каж- каждая строка и каждый столбец матрицы U представляют собой единичный вектор; значит, матрица 5 двояко стохастическая (специального типа, известного как ортостохастическая мат- матрица). Таким образом, (а) влечет за собой (Ь). Доказательство обратного к предыдущему утверждению на- намечено в задаче 9 в конце данного параграфа.
4.3. Некоторые приложения вариационных описаний 237 Если предположить (Ь), то в силу теоремы Биркгофа 8.7.1 справедливо представление N N где рг>0, ?р*=1 и Pi — матрицы перестановок. Следовательно, JV N Р = Sa = E PiPfl = Z Р&п,> где Рга = ая , т. е. условие (с) выполняется. Последнее равенство служит также обоснованием того, что из (с) следует (Ь). ? Итак, множество всех векторов Р = [pi, ..., Рл]г. мажори- мажорирующих заданный вектор а. = [а\, ..., ап]т, можно получить следующим образом: вычислим п\ векторов (не все из них раз- различны, если некоторые числа а; совпадают), образованных все- всевозможными перестановками п компонент вектора а, и затем построим выпуклую оболочку этих векторов. Замечание. Есть общее признание важности идеи мажори- зации, однако нет общепризнанного понятия мажоризации. Не- Некоторые авторы определяют мажоризацию, меняя знак в нера- неравенствах D.3.25) на обратный, другие используют упорядоче- упорядочение по убыванию. По этой причине следует проявлять осторож- осторожность, используя или цитируя результаты по мажоризации из разных источников. Наш выбор определения мажоризации обос- обоснован в задаче И. Задачи 1. Напомним, что спектральный радиус матрицы А е Мп равен Пусть матрицы Л,ВеЖ„ эрмитовы. Используя теорему Вейля 4.3.1, установить справедливость неравенств Я,, {В) < К (А + В) - Xk (Л) < 1п (В) и тем самым неравенства для всех k = 1,2, ..., п. Этот простой пример теоремы о воз- возмущениях собственных значений эрмитовой матрицы (ср. с ре- результатами § 6.3). 2. В первой цепочке соотношений из доказательства теоре- теоремы 4.3.4 были получены правые неравенства утверждения (а)
238 Гл. 4. Эрмитовы и симметричные матрицы этой теоремы. На основе этих неравенств вывести все остальные неравенства из теоремы 4.3.4. Указание. Принять во внимание равенство А =(Л ± zz*) =F zz*. 3. В теореме 4.3.6 дать подробное доказательство эквива- эквивалентности (а) и (Ь). 4. В доказательстве теоремы Вейля 4.3.7 использовалось только одно неравенство из теоремы 4.3.6, а именно %п(А-{-В)'^ ^ %п-г{А), где ранг матрицы В не превосходит г. Убедиться, что это неравенство можно проверить, не прибегая к вариационному принципу Куранта — Фишера, восстановив детали следую- следующего рассуждения. Пусть В = Р^г/* + ... + $ryry*r и А = UA.U*, где U = [щ ... ип]— унитарная матрица. Найдутся такие числа ап_г, а„_г+1, ..., а„, что вектор х = ап_гип_г + ... + а„м„ удов- удовлетворяет следующим условиям: х _1_ у{ для всех /== 1, 2 г и х'х = \ая_г? + ... +К|2=1. Тогда i-n-r 5. Получить утверждение теоремы 4.3.15, применяя п — г раз теорему 4.3.8. 6. Показать, что простые неравенства Вейля D.3.2) могут потерять силу, если матрицы А и В не являются эрмитовыми. Указание. Рассмотреть матрицы A = [J J] и В = [°о]. 7. Пусть А, В е М„ — эрмитовы матрицы, собственные зна- значения которых упорядочены по возрастанию, и пусть 1 ^ k ^ п. Проверить неравенство lk(A + fi)<min{%i(A) + Я/(В): i + j = k + п). 8. Подробно рассмотреть случай совпадения собственных значений hi в доказательстве теоремы 4.3.10. Указание. Пусть число %\ является решением кратности k уравнения §@ = 0 и k ^ 2. Показать, что сомножитель (t — Я1)*-1 имеется как у функции g'{t), так и у функции f(t), поэтому в числителе и знаменателе слагаемых левой части уравнения D.3.14) такие сомножители сокращаются. 9. Пусть S = [Si,]^Mn — двояко стохастическая матрица (см. § 8.7), и пусть ^eR" — вещественный вектор. Показать, что вектор Sx мажорирует х. Указание. Пусть у = Sx. Пусть вы- выполнены неравенства yi ^... ^уп и х\ ^ ... ^хп; в против- противном случае можно было бы рассмотреть векторы Ру и Qx для соответствующих матриц перестановок Р и Q, ведь матрица PSQT тоже двояко стохастическая. Положим w\k) = У, s,,; тогда
4.3. Некоторые приложения вариационных описаний 239 1 и Yi wik) — k. Доказать, что i (yt t) i fj ~ i Xt+*k( i -SO- <]) (** "*/)+. t wf (*, - xk) и что все слагаемые в последних суммах неотрицательны. 10. Предложить другое доказательство теоремы 4.3.26, осно- основанное на следующих соображениях. Для эрмитовой матрицы ^ = [fli,-]eJH« имеет место разложение А = UAU*, в котором матрица U = [и-,]] е Мп унитарна и Л = diag (Я.ь ¦••, kn) — ве- вещественная диагональная матрица. Пусть а = [ац, а22, ••¦ ¦ ¦¦, апп]т — вектор, состоящий из элементов главной диагонали матрицы А, и х = [?ц, %2, ..., Кп] т- Установить равенство а=Рх, где Р= [pij] Щ [\иц\2]. Убедиться, что матрица Р двояко сто- стохастическая, и использовать результат задачи 9. 11. Пусть заданы два вектора х = [хи ..., хп]т и у =» — [уи •••, Уп]т с неотрицательными компонентами, и пусть век- вектор у мажорирует х. Доказать, что у\ ... уп ^ х\ ... хп. Указа- Указание. Применяя теорему 4.3.32, построить вещественную симмет- симметричную матрицу А = [а,/]е Mn(R) с элементами а,-,-^ «/,• на главной диагонали и собственными значениями Я,(Л) = х«. То- Тогда из неравенства Адамара 7.8.1 следует, что ап ... апп~^ ^ det A = X\ ... %п- Замечание. Именно этот результат служит обоснованием нашего выбора определения 4.3.24 понятия мажо- мажорирования. Если в определении 4.3.24 взять противоположное неравенство, то это вызовет замену и неравенства из задачи 11 на противоположное. Таким образом, если у «мажорирует» х в этом смысле, то произведение компонент tji оказывается мень- меньше, чем произведение компонент Xt. Мы предпочитаем опреде- определение, при котором неравенство для произведений компонент направлено в ту же сторону, что и неравенство из самого опре- определения мажоризации. 12. Пусть задана эрмитова матрица А е Мп с положитель- положительными собственными значениями 0 < Ai ^ Я2 ^ ... ^ %п и на- натуральное число г, 1 ^ г ^ п. Используя результат задачи 11, установить вариационный принцип Я,,Я2 ... lr = min {u\Atii) (u'2Au2) ... (u*Aur), где минимум, берется по всевозможным наборам ортонормиро- ванных векторов {щ, и2, ..., иг}сСп. Объяснить, почему этот результат можно считать мультипликативным аналогом пред- представления D.3.19), обобщением неравенства Адамара 7.8.1 или
240 Гл. 4. Эрмитовы и симметричные матрицы трактовать как цепочку неравенств, связывающих теорему Рэ- лея — Ритца 4.2.2 с неравенством Адамара. Указание. Утверж- Утверждение задачи в случае г — п эквивалентно неравенству 7.8.1. А в случае г— 1? При 2 ^ г ^ п, привлекая D.3.19), показать, что вектор [ы*Ли1( и*2Аи2, ..., и*гАиЛт мажорирует вектор [ц,, ц2, .. ., \ir]T, где 'iii = l[ при /= 1, 2, ..., г — 1 и Теперь при помощи неравенства из задачи 11 убедиться, что Я, ... br._lu'Aur^~\Jti*Atil. 13. Пусть Л == [а,/]е Мп — эрмитова матрица с неотрица- неотрицательными собственными значениями 0 ^ Ai ^ Я2 ^ ... ^ А,п. Проверить, что для каждого г =1,2, ..., п произведение Xi ... %г не превосходит произведения г наименьших элементов главной диагонали матрицы А. 14. Пусть матрицы Л,Ве М„ эрмитовы и все собственные значения матрицы А — В неотрицательны. Установить неравен- неравенство Xi(A)^: ki(B) для любого /=1,2, ..., п. 15. Использовать следствие 4.3.18 для обоснования теоре- теоремы 4.3.26. Указание. Переставляя строки и столбцы, перейти к матрице A=[ati], у которой аи ^ сцч ^ ¦•• ^ апп. Полагая U = [в\ е2 ... ег] е Мп, г, получим соотношения Я, (А) + ... + Kr (A) < tr U*AU = аи + ... + агг. 16. Пусть матрица А^Мп эрмитова, A,i ^ ... ^Я„ — ее собственные значения и X,/, i ^ ... ^ fa, n-\ — собственные зна- значения ее главной (п—1)Х(гс—1)-подматрицы А({1}'). Пока- Показать, что Aj ^^ Л^ j ^^ /*2 ^^ r»i 2 ^^ • • • ^: A*/ rt—1 ^^ ^Л' Эти неравенства разделения часто приписывают Коши. Удосто- Удостовериться также, что из этих неравенств следуют неравенства теоремы 4.3.15. Указание. Использовать теорему 4.3.8 или тео- теорему 4.3.15. 17. Пусть А = [а,у]е Мп — эрмитова матрица, и пусть йц = %п для некоторого номера L Установить, что а,& = а« = 0 для всех k = 1,2, ..., п, {гфп Проверить аналогичное утверж- утверждение в случае аи = Х\. Указание. Провести явные вычисления при п = 2 и применить идею разделения. 18. Пусть А е М„ — эрмитова матрица и a^det А ({1, 2, ... .... 0)>' — 1 > 2, ..., и. Доказать, что у матрицы А столько отри- отрицательных собственных значений, сколько раз меняется знак
4.3. Некоторые приложения вариационных описаний 241 в последовательности +l,ai,a2» •••» о,п при условии, что все пц отличны от 0. В частности, отрицательные собственные зна- значения вообще отсутствуют, если все эти главные миноры поло- положительны. Что происходит в случае, когда некоторые из опре- определителей at равны нулю? Указание. Использовать разделение. 19. Показать, что среди собственных значений нормальной матрицы Л=[а,/]еМ„ обязательно присутствуют «малые», если А содержит «малые» столбцы или строки. Дадим более точную формулировку. Рассмотрим множество {|^;|2: i = = 1, ..., п} квадратов модулей собственных значений мат- матрицы А. Элементы этого множества упорядочим по неубыванию и обозначим через vi ^ v2 ^ vz ^ ... ^ vn. Множество \t \aik\2: i=\, .... п\ сумм квадратов модулей элементов в строках также упорядочим по неубыванию и обозначим его элементы через Ri ^ R2 =SS ... ...</?„. Тогда E"i< Z Ri> /г= 1, ..., п. (=i t"i Получить такую же оценку сверху, привлекая столбцовые сум- суммы. Указание. Числа и,- являются собственными значениями эр- эрмитовой матрицы АА*. Чему равны элементы главной диаго- диагонали матрицы АА*? Использовать мажоризацию и теоре- теорему 4.3.26. В случае столбцовых сумм рассмотреть матрицу АА*. Дополнительная литература 1) Дальнейшие результаты о мажоризации можно найти в книге [MOI]. Общие неравенства разделения с участием собственных значений главных подматриц (приведенные вслед за теоремой 4.3.10) обсуждаются в работе: Johnson С. R., Robinson H. А. Eigenvalue Inequalities for Principal Submatrices. — Lin. Alg. AppL, 1981, v. 37, p. 11—22. В рассуждениях, намеченных в за- ') Обратная задач на собственные значения, разрешимость которой уста- устанавливает теорема 4.3.10, рассматривается в книге: Шилов Г. Е. Математиче- Математический анализ. Конечномерные линейные пространства.— М.: Наука, 1969, с. 324— 325. Дополнительные результаты для частного случая трехдиагональных матриц содержатся в книге: Парлетт Б. Симметричная проблема собствен- собственных значений.—М.: Мир, 1983. Явные формулы для квадратов компонент окаймляющего вектора из доказательства теоремы 4.3.10 неожиданно на- нашли применения в теории методов типа Ланцоша, см. монографию: Кня- Князев А. В. Вычисление собственных значений и векторов в сеточных задачах: алгоритмы и оценки погрешности, — М.: ОВМ АН СССР, 1986. — Прим. перев.
242 Гл. 4. Эрмитовы и симметричные матрицы даче 4, мы следовали оригинальному доказательству из работы: Weyl H. Das asymptotische Verteilungsgesetz, der Eigenwerte linearer partieller Differentialgleichungen (mit einer Anwendung auf die Theorie der Hohlraumstrahlung. — Math. Annalen, 1912, v. 71, p. 441 ff; см. доказательство леммы на с. 444—445. Вейль сформулировал и доказал свой результат для интегральных уравнений, однако перевод на язык линейной алгебры не вызы- вызывает затруднений. 4.4. Комплексные симметричные матрицы Матрица А^Мп симметрична, если А == Ат. Во многих слу- случаях изучаемые матрицы не только симметричны, но и веще- вещественны, следовательно, это вещественные эрмитовы матрицы, к которым применимы все приведенные выше в этой главе ре- результаты. Однако в некоторых ситуациях приходится сталкиваться с комплексными симметричными матрицами, например при изу- изучении регулярных аналитических отображений единичного круга в комплексную плоскость. Если f(z) — регулярная аналитическая функция на единичном круге, нормированная условиями /@)=0 и f/@)=l, то для однолистности функции /(г) необходимо и достаточно, чтобы неравенство zizi f(zi)-f(zi) V D.4.1) выполнялось для всех точек z\, •••> г„ЕС при |г«|< 1, всех точек jti, ..., jtnsC и всех п = 1, 2 ... / Если г,- = г/, то от- отношение разностей в правой части следует заменить на произ- производную f'{Zi). Эти громоздкие неравенства, известные как не- неравенства Грунского, допускают очень простую алгебраическую запись х'Ах>\хтВх\, D.4.2) где x = MrC" A Заметим, что А — эрмитова, а В — комплексная симметричная матрицы. Другой пример, когда естественно возникает комплексная симметричная матрица, связан с проблемами моментов. Пусть
4.4. Комплексные симметричные матрицы 243 заданы последовательность комплексных чисел {а0, аи а2, .. .} и натуральное число п. Положим Л2л = [a,,] s [а1+/] е Л^г» и заметим, что А2п является комплексной симметричной матрицей. Матрицы такого вида называют ганкелевыми. Рассмотрим комп- комплексную квадратичную форму хтАгпХ для х <= С2п и зададимся вопросом, существует ли такая фиксированная константа с>0, что I хтА2пх | ^ сх'х для всех х з С2п и всех п = 1, 2 Согласно теореме Нехари, это условие выполнено тогда и толь- только тогда, когда существует измеримая по Лебегу и почти всюду ограниченная функция F(t): R->C, коэффициенты Фурье ко- которой совпадают с данными числами а0, а\, а2, ... . Существен- Существенная граница для F(t) в точности равна константе с в предыду- предыдущих неравенствах. Комплексные симметричные матрицы, по-видимому, встре- встречаются в приложениях значительно реже, чем комплексные эр- эрмитовы (или вещественные симметричные) матрицы, однако они все-таки встречаются, в чем убеждают предшествующие примеры. Комплексная симметричная матрица может не быть диагонализуемой (см. задачу 15 в конце данного параграфа), тем не менее комплексные симметричные матрицы допускают разложения, аналогичные разложению в спектральной теоре- теореме 4.1.5 для эрмитовых матриц, и логическая схема доказатель- доказательства остается той же. Вначале мы докажем аналог теоремы Щура 2.3.1 об унитарной триангуляризации, гласящий, что лю- любая матрица из некоторого класса, содержащего и симметрич- симметричные матрицы, всегда может быть представлена' в виде А = *= UAUT, где U — унитарная матрица, а А — верхняя треуголь- треугольная матрица. Симметричная верхняя треугольная матрица обя- обязана быть диагональной. 4.4.3. Теорема. Пусть задана матрица А е М„. Необходимым и достаточным условием существования унитарной матрицы U е Мп и верхней треугольной матрицы А е Мп, таких, что А = = UkUT, является неотрицательность собственных значений матрицы АА. При этом условии можно подобрать диагональную матрицу Д с неотрицательными диагональными элементами. Доказательство. Если А = UAUT, то AA==UAUTUAU'=UAAir, поскольку матрица U унитарна и Ur = U*. Элементы главной диагонали верхней треугольной матрицы АА неотрицательны, какова бы ни была верхняя треугольная матрица А, а матри- матрица АА унитарно подобна матрице ДД. Тогда необходимость условия теоремы следует из того факта, что собственные зна-
244 Гл. 4. Эрмитовы и симметричные матрицы чения верхней треугольной матрицы в точности равны элемен- элементам ее главной диагонали. Обратно, пусть все собственные значения матрицы АА неот- неотрицательны. Пусть х — собственный вектор матрицы АА, т. е. ААх = Хх, где Х^О и х^О. Имеются две возможности: (a) векторы Ах и х линейно зависимы либо (b) векторы Ах и х линейно независимы. В первом случае (он обязательно реализуется '), если X — простое собственное значение матрицы ЛЛ)_существует такое число цеС, что Ах = у,х. Следовательно, ААх = Лр,х = fiAx = = lilix==\n\2x = Xx и имеет место равенство \\if = X. Во вто- втором случае (который может осуществиться при кратном соб- собственном значении X матрицы АА) вектор у = Ах -f- \х.х является ненулевым для всех цеС, Выберем в качестве \i произволь- произвольное комплексное число, удовлетворяющее условию | ц |2 = ц\1 = Х, Тогда Ау = А(Ах + р,х) = ААх + &Ах = Хх р црр = р, {Ах + у-х) = [iy. В каждом из вариантов (а) и (Ь) мы дока- доказали существование некоторого ненулевого вектора v = С" и некоторого числа аеС, подчиненного условию \а\2 = Х, та- таких, что Av = av. Поскольку это равенство сохраняет силу при умножении вектора v на произвольный положительный скаляр, можно считать вектор v единичным. Кроме того, при каждом вещественном 6eR справедливы равенства e~'eAv = A(eiQv) — = e~idav —(e~ma) (ewv) и вектор emv будет единичным векто- вектором, если v — единичный вектор. Можно выбрать 0 так, чтобы e~2iea ^ 0; тогда последнее равенство позволяет прийти к сле- следующему заключению. Если задана матрица ДеМл и X — не- неотрицательное собственное значение матрицы АА, то существует такой единичный вектор v, что Av — av, где <т = + лД ^0. Теперь дополним этот вектор v до ортонормированного ба- базиса {v, V2, • • •, vn) пространства С" и обозначим через Vi уни- унитарную матрицу, столбцы которой совпадают с векторами этого базиса. Элементы первого столбца матрицы У[ЛУ1 равны v\Av — av\v = сгбп в силу ортонормированности базиса и соотно- соотношения Av = OV. Таким образом, все элементы в первом столбце матрицы У[ЛУ1, кроме первого, должны обращаться в нуль (первый элемент также может быть нулевым). Если записать эту матрицу в следующем блочном виде: , D.4.3а) ') См. задачу 9 в конце данного параграфа. — Прим. перев.
4.4. Комплексные симметричные матрицы 245 ТО ,—т _ . ,==—=-г , _ Г от2 awT + wTAr, I (VTiAVi)(v\AVi)--*=ViAAVi = \ n - L 0 ЛоЛо J 2А2 Таким образом, множество всех собственных значений (неотри- (неотрицательных по предположению) матрицы АА составлено из числа а2 и множества собственных значений матрицы А2А2. Отсюда заключаем, что матрица A2G Mn~i, полученная в этом процессе редукции, также обладает тем свойством, что все соб- собственные значения произведения А2А2 неотрицательны. Процесс редукции теперь может быть продолжен с матри- матрицей А2 и ее преемниками, самое большее, п — 1 раз (как в до- доказательстве теоремы Шура 2.3.1 об унитарной триангуляри- зации), и в результате получится равенство Vl-x ... V\v\AViV2 ••• Vn-\ = о где Д — верхняя треугольная матрица с неотрицательными эле- элементами at на главной диагонали. Полагая U—V\V2 ... Vn-i, получаем требуемое представление А = UAUT. ? Упражнение. Провести явно выкладки доказательства тео- теоремы 4.4.3 для матрицы А = [ _\ J ] и убедиться, что А = UШт, где О 2П ! Г 1 М о о]- u = Mi iJ- При п^2 не каждая матрица А е М„ обладает тем свой- свойством, что все собственные значения произведения АА неотри- неотрицательны, простой пример тому — матрица ^ = [_iJ]- Таким образом, теорема 4.4.3 является только частичным аналогом теоремы Шура 2.3.1 об унитарной триангуляризации. Каждая матрица А е Мп может быть приведена к треугольному виду преобразованием A-+-UAU* с унитарной матрицей 11<=Мп, но только матрицы А е М„, у которых собственные значения про- произведения АА неотрицательны, могут быть триангуляризованы преобразованием вида A-+UAUT с унитарной матрицей U^Mn. Для каждой симметричной матрицы А е Мп, однако, все собственные значения матрицы АА = АА* будут неотрицатель- неотрицательны. Утверждение, в которое переходит теорема 4.4.3 в этом .частном случае, обычно приписывают Шуру A945 г.), но еще
246 Гл. 4. Эрмитовы и симметричные матрицы ранее его доказали Хуа A944 г.), Зигель A943 г.) и Якобсен A939 г.) Исторический приоритет следует, по-видимому, отдать Такаги A925 г.). 4.4.4. Следствие (разложение Такаги). Если матрица А^Мп симметрична (А=АТ), то существуют унитарная матрица U е М„ и неотрицательная диагональная матрица 2 = = diag@i, ..., о„), такие, что А = UI,UT. Столбцы матрицы U образуют множество ортонормированных собственных векторов матрицы АА, и соответствующие диагональные элементы мат- матрицы 2 являются неотрицательными квадратными корнями из собственных значений матрицы АА, отвечающих этим собствен- собственным векторам. Доказательство. Если А — Ат, то А —А* и АА — АА*. Пусть х ф 0 — произвольный собственный вектор эрмитовой ма- матрицы АА*, т. е. АА*х = кх. Тогда х'Хх = X (х*х) — х*АА*х = = (А*х)* (А"х). Поскольку у'у^О для всех векторов у е С" и у*у = 0 тогда и только тогда, когда у = 0, то Я = (А*х)* (А*х)/х*х~^ ^ 0. Таким образом, все собственные значения матрицы АА неотрицательны, какова бы ни была симметричная матрица А. В силу предыдущей теоремы существуют унитарная матрица Uе Мп и верхняя треугольная матрица АеМл вида А = 0 . аяЛ где все элементы <т,- ^ 0, такие, что справедливо разложение А = UAUT. Но тогда UAUT = А = AJ = UATUT. Следовательно, выполняется равенство А = Аг, которое может иметь место только для диагональной матрицы А, и эта диагональная мат- матрица неотрицательна по построению. Наконец, разложение Л/1= UI,UTUI.U* = UI,2U* осуществляет унитарную диагонали- зацию эрмитовой матрицы А А; тогда столбцы матрицы U совпа- совпадают с собственными векторами произведения АА. ? Любая матрица вида UAUT с диагональной (не обязательно неотрицательной) матрицей Л, очевидно, симметрична; таким образом, необходимым и достаточным условием того, чтобы данная матрица А е Мп допускала разложение А = UAUr = — UAU* = UAJJ*1 с унитарной матрицей U и диагональной мат- матрицей Л, является ее симметричность. В теореме 4.6.11 приво- приводятся условия, при которых матрица А записывается в виде про- произведения А = SAS'1 с диагональной матрицей Л и невырож- невырожденной (но необязательно унитарной) матрицей 5.
4.4. Комплексные симметричные матрицы 247 Каждую комплексную матрицу А е М„ можно записать в форме A = VLW*, где матрицы V,W^Mn унитарны и Б — диагональная матрица с неотрицательными элементами. Это сингулярное разложение, обсуждаемое в § 7.3. Диагональные элементы матрицы 2 называют сингулярными числами матри- матрицы А. Разложение Такаги А = VZU7 симметричной (быть мо- может, комплексной) матрицы можно рассматривать как частный случай сингулярного разложения симметричной матрицы, в ко- котором V = W. Алгоритм вычисления разложения Такаги комплексной сим- симметричной матрицы по существу описан в доказательстве тео- теоремы 4.4.3. Получаемая матрица Д автоматически окажется диагональной вследствие симметричности матрицы Л. См. за- задачу 9 в конце данного параграфа. Упражнение. Провести явно вычисления из доказательства теоремы 4.4.3 для матрицы Л = Г) J] и показать, что A—UAUT, где _ 4_Г^ » 1 ., ¦ Р + ^ ' 1 L 0 д/2 J V4 + 2 -\/2~ L i 1 + V2 J Матрица Д получается здесь диагональной сама собой. Поскольку столбцы унитарного сомножителя U в разложе- разложении Такаги A = VZUT совпадают с собственными векторами эрмитовой матрицы АА, напрашивается следующее предположе- предположение: если задана унитарная диагонализация ЛЛ= UT,2U*, то А = U1,UT. Это предположение неверно, в чем можно убедиться на примере матрицы Л = [° J]. Имеем АА==Г, тогда разложе- разложение АА = QI2QT справедливо для произвольной вещественной ортогональной 2Х2-матрицы Q, однако QIQT = / фА. Суть дела здесь в том>.что матрица АА имеет кратное собственное значение, поэтому произшльный собственный вектор х мат- матрицы АА может не подчиняться условию Ах — ах. Наличие та- такого собственного вектора не позволяет получить желаемую ре- редукцию матрицы Л. Например, рассмотрим базисный вектор е\\ тогда ААв\ = 1е\ = \е\, но Л<?1 = Ле1 = б>2. Тем самым мы при- приходим к варианту (Ь) в доказательстве теоремы 4.4.3. В соответ- соответствии с последующими рассуждениями в этом доказательстве можно положить w = Аё\-{-\е\ —е2-{-е\ и получить вектор v = Vi = (ei + e2)/V2> который позволяет провести редукцию матрицы А. Учитывая ортогональность векторов u2==(ei — < и i>i, можно взять yfLi -1
248 Гл. 4. Эрмитовы и симметричные матрицы и получить Следовательно, полагая -.]¦ V2" приходим к подходящему разложению А = UILF матрицы А. Заметим, что в разложении Такаги (см. следствие 4.4.4) веще- вещественной симметричной матрицы сомножители могут не быть вещественными. Только что рассмотренный пример иллюстрирует трудности, связанные с наличием у матрицы АА кратных собственных зна- значений. Пусть теперь все собственные значения матрицы АА раз- различны. Если использовать метод из доказательства теоремы 4.4.3 для вычисления разложения Такаги комплексной симметричной матрицы Л, то всегда будет осуществляться вариант (а). (См. задачу 9.) В этом случае каждый собственный вектор х мат- матрицы АА удовлетворяет равенству Ах = ах для некоторого чи- числа аеС, такого, что а = ое2Ш, 0 е R и ААх= агх. Таким об- образом, если задано разложение AA — VL2V*, т. е. унитарная диагонализация эрмитовой матрицы АА, то AV = V2ZJ, где ?>2s=diag(e~'e> eui>n); это равенство можно использовать для нахождения диагональных элементов матрицы D2, отвечаю- отвечающих ненулевым диагональным элементам матрицы 2, по задан- заданным матрицам V и 2 (т. е. неотрицательному квадратному кор- корню из 22). Элементы матрицы D2, отвечающие нулевым элемен- элементам матрицы 2, произвольны и их можно положить равными + 1. Наконец, А = AVVT = V1D'2VT = (VD) 2 (VD)T = UWT, если положить Us^VD и D — diag(ete>, ..., elb"). Теперь сфор- сформулируем результаты этих наблюдений в виде следствия. 4.4.5. Следствие. Пусть матрица А е Мп симметрична и собственные значения матрицы АА различны. Если АА = УБ2У* — унитарная диагонализация матрицы АА, где 2 = diag@i, ...,an) и все о{ больше или равны 0, то существует такая диагональ- диагональная матрица D = diag(e*81, ..., е'8/г), где все Q; лежат в R, что справедливо разложение А = U2XJT с матрицей U = VD. Диаго- Диагональные элементы множителя D, отвечающие ненулевом нальным элементам 2, определяются соотношением AV =
4.4. Комплексные симметричные матрицы 249 диагональные элементы матрицы D, отвечающие нулевым диа- диагональным 'элементам 2, можно положить равными +1. Симметричную матрицу А е Мп можно при помощи след- следствия 4.4.4 записать в виде А = ?/2?/г. Это разложение допу- допускает также такую эквивалентную запись: А = ([/21/2) (f/S1/2;r, где 2l/2 = diag(+ л/аи + л/а2, ..., + л/ап). Тем самым дока- доказано 4.4.6. Следствие. Пусть А е Мп. Матрица А симметрична тогда и только тогда, когда существует матрица S е Мп, такая, что А — SST. Воэмоокен_выбор S = UJD, где матрица U унитарна, D = diag (+ V^b + Va2. • • • > + V°7t) u {°i} — множество всех сингулярных чисел матрицы А; в этом случае rank S = rank A. Хотя вещественная симметричная матрица нормальна, неве- невещественная комплексная симметричная матрица может не об- обладать этим свойством. Если А — В + /Се М„, где матрицы В и С вещественны, то матрица А симметрична в том и только в том случае, когда В и С — вещественные симметричные мат- матрицы. Если матрица А одновременно симметрична и нормальна, то АА' = (В2 + С2) + i (СВ - ВС) = (В2 + С2) + / (ВС - С В) = А'А, откуда вытекает, что матрицы В и С коммутируют. В этом случае В и С одновременно диагонализуемы посредством ве- вещественной ортогональной матрицы Q. Запишем разложения B = QDlQr, C~QD2Qr, где Dx и D2 — вещественные диагональ- диагональные матрицы. Тогда А = B+iC=QDlQT+iQD2QT=Q Ф\+Ш2) QT= — QAQT, где A = Di + iD2. Обратно, если матрицу А е Мп можно записать в виде A—QAQT с некоторой вещественной ортогональной матрицей Q и некоторой -диагональной матри- матрицей Л, то А = Ат и АА* = QAQTQAQT =Q\ Af^^QA^QTiQ7^ = А*А, т. е. матрица А одновременно симметрична и нор- нормальна. Тем самым доказана следующая теорема. 4.4.7. Теорема. Пусть задана матрица А е М„. Она одновре- одновременно симметрична и нормальна тогда и только тогда, когда существуют вещественная ортогональная матрица QeA и диагональная матрица А е Мп, такие, что А = QAQJ. Приведем полезный пример комплексной матрицы простого вида, которая одновременно симметрична и нормальна:
250 Гл. 4. Эрмитовы и симметричные матрицы Здесь В — перъединичная матрица: 0 И 1 0 которая возникла при доказательстве того, что каждая матрица подобна своей транспонированной, см. разд. 3.2.3. В силу равенства В2 — I SS ==4" Ul - iB + iB + В2) = /. Таким образом, матрица 5 одновременно симметрична и уни- унитарна. Теперь рассмотрим обычный жорданов блок Jk{0) с нулевой главной диагональю при k ^ 2; запишем его в виде Легко показать, что О 1 О 'О 1 О О BN- 1 . О О' 1 о О 1 о О" • 1 .о 1 0 "О 1 о- О
4.4. Комплексные симметричные матрицы 251 Следовательно, жорданов блок N унитарно подобен матрице SNS = SNS = ~ (I + iB) N(I- iB) = = -i (N + BNB) + -i (BN - NB) = О 1 1 • , о О" • 1 1' о , i *" Y 0 -1 ' 0 1 -1 • • ¦ 0 1 0 которая, очевидно, является симметричной. Произвольный жор- жорданов блок Jk(X) при k^2 имеет вид XI-\-N; тогда матрица SJk (X) S~l = S(XI + N)S'1 = XI + SNS'1 симметрична, так как симметрична SNS~l. Каждая матрица А е Мп подобна жордановой канонической форме J вида C.1.14) при 8 = 2. Эта форма J — Лг, (Х\, 2) ф .. . • • • ф Jnk(Xk, 2) есть прямая сумма модифицированных жорда" новых блоков Jnt (Xi, 2). Если ввести в рассмотрение п X п~ матрицы Sn, = (l/V2)(/ + iB) е МП{ типа D.4.8) при п{ ^ 2 и матрицу Si==[l] и положить Г = 5П] ф ... ® Snk, то преды- предыдущее рассуждение показывает, что TJT~l = TJf= (Sn/ni (Я,, 2) S»,) © ... © (SnkJnk (Xk, 2) Snk). Последняя матрица есть прямая сумма симметричных матриц/ и, следовательно, сама симметрична. Матрица Т унитарна, по/ скольку унитарно каждое слагаемое Sn- Таким образом, мы доказали, что каждая матрица, записанная в канонической жор- жордановой форме, унитарно эквивалентна симметричной матрице. Поскольку любая матрица подобна своей жордановой форме, приходим к следующей теореме. / 4.4.9. Теорема. Каждая матрица А е -М„ подобна некоторой симметричной матрице. Фактически мы доказали, что каждая матрица подобна симметричной жордановой канонической форме Sn, (X\) © ... .. • © Snk (Л*), где Sk (X) = SJk (X, 2SNS.
252 Гл. 4. Эрмитовы и симметричные матрицы Поскольку эта форма получена из жордановой канонической формы, она определяется единственным образом в том же смы- смысле, что и каноническая жорданова форма. Из этого результата, в частности, следует, что спектр, жор- дановы блоки, минимальный и характеристический многочлены или инвариантные множители симметричных комплексных мат- матриц не имеют никакой специфики. Возможные значения этих ве- величин для симметричных матриц те же, что и для произвольных комплексных матриц такого же порядка. Каждый класс подо- подобия в М„ содержит симметричную матрицу, каждому линейному преобразованию пространства С" соответствует симметричное представление в некотором базисе. Наличие симметрии в мат- матрице— просто случайное явление, вызванное конкретным выбо- выбором базиса для представления данного линейного преобразова- преобразования. Другой вывод из приведенного выше результата заключа- заключается в том, что каждая матрица «диагонализуема» в некотором смысле. 4.4.10. Следствие. Пусть задана матрица А е Мп. Тогда най- найдутся такие невырожденная матрица S и унитарная матрица U, что (US) A (OS)-1 будет диагональной матрицей с неотрицатель- неотрицательными диагональными элементами. Доказательство. По теореме 4.4.9 существует невырожден- невырожденная матрица SeM,, при которой матрица 5Л5~' симметрична. Далее, в силу следствия 4.4.4 имеется такая унитарная матрица U^Mn, что матрица U(SAS~1)UT диагональна и неотрицатель- неотрицательна. ? Из теоремы 4.4.9 следует также, что каждая комплексная матрица подобна своей транспонированной и может быть пред- представлена как произведение двух комплексных симметричных матриц. Оба этих результата сохраняют силу для матриц над произвольным полем, но теорема 4.4.9 для произвольных полей уже неверна. 4.4.11. Следствие. Пусть задана матрица А е Мп. Тогда су- существуют такие матрицы В, С е Мп, что В = Вт, С = Ст и А = = ВС. Одну из матриц В или С можно выбрать невырожденной. Доказательство. Теорема 4.4.9 гласит, что А = SES, где ? = ?ги5 невырожденна. Тогда А = {SEST) {STTl S~' = (SEST) {SST)~l = ВС, где обе матрицы B = SEST и C = (SSr)-1 симметричны. В силу равенства A =(SST) (S-1)TES-1 один из сомножителей В или С можно выбрать невырожденным. ?
4.4. Комплексные симметричные матрицы 253 При изучении нормальных матриц широко применяется про- процесс Гамма-Шмидта. Имеется аналогичный процесс, полезный при изучении комплексных симметричных матриц. 4.4.12. Лемма. Пусть заданы векторы хи ..., xk^C" и k^n. Тогда найдутся такие векторы уь ..., yk, что Span{xj xk) = Sv&n{yv ..., уп), yTlyj = Q для всех i, / = = 1, 2, ..., k, 1ф\, yTtyt=l для i= i, 2, ..., г и yTiyi = Q для i=r + 1, ..., k, где r=rank ХТХ и столбцы матрицы Х=[х{ ... хк]е *= Mntk — это данные векторы {xt}. Доказательство. Матрица ХТХ симметрична и следствие 4.4.4 позволяет записать ее разложение Такаги ХТХ = ?/2?/-г, в ко- котором матрица (/ g М„ унитарна и Е = diag (ctl ..., ak), <*i s> CT2 s^ • • • ^ ur s?1 ®r+1 = 0 = ... = ok> где r = rank XTX_. Вводя в рассмотрение матрицу Z) = diag(Vtfi VCTr> 1, ..., l)eAfft и матрицу /r = diag(l 1, 0 0) e Afft, в которой на диагонали г единиц и k — г нулей, получаем разложение ХТХ — (UD) Ir(UD)T = STIrS, в котором матрица S = DUT невырожденна. Таким образом, {XS~lf {XS'1) = /f. Следовательно, в матрице векторы-столбцы уи ..,, yk обладают всеми требуемыми свой- свойствами, поскольку YTY = U, ? В предыдущей лемме установлено правило, аналогичное по форме процессу Грама — Шмидта, с той разницей, что произ- произведения вида Х*Х теперь заменены на ХТХ. Однако в процессе Грама — Шмидта каждый вектор у,- может быть получен как линейная комбинация векторов х\, ..., л:/ при /=1,2, ..., k, что не всегда возможно в данном аналоге. Еще одно различие проявляется в том, что число векторов у{, для которых y"lyi— 1, в процессе Грама — Шмидта равно rankX (т. е. максимальному числу линейно независимых векторов xt), что всегда совпадает с rankX*X. В симметричном аналоге процесса Грама — Шмид- Шмидта, однако, число векторов у и для которых yjyt=h равно тапкХтХ, что может быть меньше, чем rankX. Пример. Пусть 6 = 1 и лг, = X = [' ]. Тогда ХТХ = 0; сле- следовательно, 0 = rankXrX, что строго меньше, чем rankZ=l. Вектор г/] может отличаться от вектора хх только скалярным множителем; поэтому нельзя выбрать у{ так, чтобы Span{x,} = S{} \
254 Гл. 4. Эрмитовы и симметричные матрицы Пример. Пусть & = 2 и Х — [хи х2] = [\ ,']. В этом случае тапкХтХ = 2 и существуют векторы уь у2, такие, что Span {ух, у2) = Span {xv х2}, yTlyl = 1 = y\yv Поскольку х\хх — О, нельзя выбрать вектор у{ так, чтобы он отличался от Ху лишь скалярным множителем. Формулируя лемму, мы имели в виду применить ее к част- частному случаю диагонализуемых комплексных симметричных мат- матриц. Если А — Ат ^ М„ и задано разложение А = 5Л5~' с диа- диагональной матрицей Л ^ Мп и невырожденной матрицей S^Mn, то по нему трудно установить, будет ли матрица А симметрич- симметричной. Однако когда комплексная матрица 5 ортогональна, то S~! = ST и матрица A "=SAS~' = SAST, очевидно, симметрична. В следующей теореме показано, что всегда можно выбрать мат- матрицу S комплексной ортогональной. 4.4.13. Теорема. Пусть матрица Д е М„ симметрична. Тогда она диагонализуема в том и только в том случае, когда она комплексно ортогонально диагонализуема, т. е. А = SAS-1 с диагональной матрицей Л е Мп и невырожденной матрицей S е Мп тогда и только тогда, когда А = QAQT, где матрица QgМп подчинена условию QTQ = /. Доказательство. Предположим, что А = АТ, и обозначим через х, jeCn собственные векторы матрицы А, такие, что Ах = Хх, Ау — цу. Если Я Ф \i, то утАх = утХх — Хутх, утАх = = (Ау)т х — (цу)т х — цутх. Таким образом, Кутх = цутх и утх — 0, поскольку Я Ф (г. Здесь просто применяется принцип биортогональности 1.4.7 для симметричных матриц. Если матрица А диагонализуема и /4 = SAS~', то, не теряя общ- общности, можно считать равные собственные значения матрицы А сгруппированными вместе. Тогда Л = Ai © ... © Л^, где Лг = = УёЛ1„., «i+ ... +nd = rt и К[фк] при 1ф). Произве- Произведем разбиение столбцов матрицы S = [Si ... sn] = [SiS2 ... Sd] в соответствии с представлением Л = Л1ф...®Л<!, так что Mnni, i=\, 2 d. В силу свойства биортогональности / = 0eAfn n при 1ф]. Кроме того, каждая матрица 5[5(, 1=1, 2, ..., d, невырожденна, поскольку блочно-диагональная матрица STS невырожденна. Таким образом, каждая матрица Si имеет полный ранг; поэтому, согласно лемме 4.4.12, ее столбцы можно заменить их линейными комбинациями, представляю- представляющими ортонормированную систему (в смысле скалярного произ- произведения {х, у) = утх). Другими словами, найдутся такие не- невырожденные матрицы Ri e Мп>, что произведения Qt s SR
4.4. Комплексные симметричные матрицы 255 будут подчиняться условию QTiQt = RTiSjSiRl = / е Мп . Учиты- Учитывая равенства Q^Qj = RTiSTiS]Rj = О для всех i ф j и /4Qi=« = AStRi — itSiRi = liQi для всех i=l, 2 d, заключаем, что матрица Q = [Qj ... Qd] e Afn комплексная ортогональная и Л = <ЭЛ<ЭГ. D Представляет интерес формулировка данного результата, объединенного с теоремой 4.4.7: симметричная матрица А диа- гонализуема тогда и только тогда, когда возможно разложение А = QAQT с комплексной ортогональной матрицей Q, и нормаль- нормальна тогда и только тогда, когда в этом разложении можно вы- выбрать Q вещественной ортогональной матрицей. Теорема 4.4.13 допускает следующее обобщение. Если мат- матрицы А,В^Мп симметричны, то они подобны в том и только в том случае, когда это подобие осуществляется посредством ортогональной матрицы. В действительности это верно при бо- более слабых условиях существования такого многочлена p(t), что Ат = р(Л), Вт = р(В). См. [HJ]. Задачи 1. Пусть матрица ДеМ» симметрична и А = В + iC, где обе матрицы В,С^Мп вещественны. Показать, что матрица А нормальна тогда и только тогда, когда матрицы В и ^комму- ^коммутируют, а также тогда и только тогда, когда матрица АА веще- вещественна, и тогда и только тогда, когда матрицы А и А комму- коммутируют. Привести пример симметричной матрицы, не являю- являющейся нормальной. 2. Восполнить детали в следующем наброске другого дока- доказательства следствия 4.4.4. Используются обозначения и пред- предположения этого следствия. Если матрица А вырожденна, обо- обозначим через {и\, ..., uk) ортонормированный базис ее нуль- пространства и выберем унитарную матрицу и = [щ ... ukuk+x ... и„] е= Мп. Тогда О 0 1 0 А, ], А'<=Мя_к, где А' — невырожденная и симметричная матрица. Таким обра- образом, без потери общности можно предположить невырожден- невырожденность матрицы А. Пусть в разложении Л = В -f- iC матрицы В и С вещественны, и пусть задан вектор z = х + iy e С", где х,уе= R". Положим F = [ вс _св ], z = [ _* ] е R2n. (а) В, С и F — вещественные симметричные матрицы. Уста- Установить связь между векторами Az = (B 4- iC) (x+ iy) и Fz.
255 Гл. 4. Эрмитовы и симметричные матрицы (b) Матрица F невырожденна. Указание. Если Fz = 0, то чему равен вектор Лг? (c) Если ^[_у] = ^[_у]> то ^[^J^— ^[*]- Тем самым ненулевые собственные значения матрицы F можно объединить в пары: в каждой паре будут числа, равные по абсолютной ве- величине, но с противоположными знаками. (d) Ортонормированные собственные векторы матрицы F, отвечающие положительным собственным значениям Кь ..., Яп, ' gR'", i=l, 2, ..., п, и введем в рассмотрение матрицы X = [xi...xn], Y =з[у{ ... у„], 2 = diag(/l1, ..., yeilr По спектральной теореме для ве- вещественных симметричных матриц F = VAVT, где V = [ _у Yx~\, Л = [^_^], причем V — вещественная ортогональная матрица (почему?). Положим U = X — IY. Убедиться, что матрица U унитарна и что WLUT — A. 3. Что утверждается в следствии 4.4.4 для вещественной симметричной матрицы Л? Как это утверждение соотносится с обычной спектральной теоремой для вещественной симметрич- симметричной матрицы? Указание. Пусть A — QAQ7, где Л — веществен- вещественная диагональная матрица и Q-—вещественная ортогональная матрица. Запишем Л = 2D2, и пусть U = QD. В каком случае все сомножители в разложении Такаги A — WELt7 можно счи- считать вещественными? 4. Пусть Л = WE UT e М„, где матрицы U и 2 подчинены требованиям следствия 4.4.4. Проверить прямыми вычислениями, что числа о2{ (квадраты диагональных элементов матрицы 2) являются собственными значениями матриц АА и АА и что эти матрицы эрмитовы. Показать, что столбцы щ матрицы U и числа d удовлетворяют условиям Ащ = ом, i—l, 2, ..., п. Вероятно, в связи с последним фактом величины ot иногда на- называют обобщенными собственными значениями, однако термин сингулярные числа, по-видимому, употребляется чаще. 5. Пусть матрица А^Мп симметрична, задано разложение с матрицами 2 и ?/, как в следствии 4.4.4, и сингулярные числа ot упорядочены по возрастанию: 0 ^ cti ^ о2 ^ ... ^ оп. (а) Модифицируя доказательство теоремы Рэлея — Ритца 4.2.2, установить справедливость равенства IхтАхI которое является комплексным симметричным аналогом оценки сверху в теореме 4.2.2. Привлекая к рассмотрению первый стол-
4.4. Комплексные симметричные матрицы 257 бец матрицы V, убедиться в том, что максимум здесь дости- достигается на некотором ненулевом векторе х, удовлетворяющем условию Ах = апх. (Ь) Взяв матрицу Л = /еМ2 и вектор х = [1 i]T, проверить, что в общем случае ! оч =И= min x х , т. е. нижняя граница в теореме 4.2.2 не имеет комплексного симметричного аналога. (с) Показать, что при А= I^М2 и w = [\ i]T верно равен- равенство IxTAxI a max . =0. x _L w x^d1 Вывести отсюда заключение, что для сингулярных чисел комп- комплексных симметричных матриц при k > 1 отсутствует аналог принципа минимакса Куранта — Фишера D.2.12). (d) Что можно сказать о симметричном аналоге формулы D.2.13) для максимина? (e) Пусть из матрицы Л = [|{] с сингулярными числами gj = a2 = V2 образована путем вычеркивания последних строки и столбца матрица Л=[1] с сингулярным числом Oi = 1. По аналогии с D.3.9) можно выписать неравенства разделения 5i ^ (Ti ^ &2, однако здесь они теряют силу. Таким образом, теорема 4.4.8 не переносится на сингулярные числа комплекс- комплексных симметричных матриц. (f) Сингулярные числа окаймленной симметричной матрицы все же можно оценить. Пусть из матрицы А е Мп+\ с сингуляр- сингулярными числами 5] ^ ... ^(Хл+i матрица А^Мп с сингуляр- сингулярными числами (Ti ^ ... ^ оп получена исключением строки и соответствующего столбца. Используя теорему 7.3.9, доказать, что 5„+1>(т„>5п_1, 5„><Тп-1>б«-2,,.. ., 03>or2>ai, 02>ст,> ^0. Проверить последнее из этих неравенств для примера из (е). Сопоставить эти соотношения с неравенствами разделения D.3.9) для собственных значений окаймленной эрмитовой мат- матрицы. 6. Пусть матрица /4еМя симметрична и задано разложение A = UI,UT с унитарной матрицей U и диагональной матрицей 2 — diag(CTb сг2, , ап), где все числа сг,- больше или равны 0. Показать, что rank Л равен числу ненулевых значений сг,-. Ука- Указание. Если матрицы В, С^Мп невырожденны, то rank A = к#ЛС
258 Гл. 4. Эрмитовы и симметричные матрицы 7. Пусть А = В + iC e Л1„, где матрицы В, С вещественны, _ Г D Г1 П - - [ (а) Показать, что Л Л = В2 + С2 + / (ВС — СВ) и В2 + С2 ВС — СВ СЯ) В2 + Г В + С ВС СВ I = L J' (b) Показать, что матрица S = (l/V2)[_/7 "'/] унитарна. (c) Установить равенство SF2S* = Г — . (d) Вывести заключение, что множество квадратов соб- собственных значений матрицы F составлено из собственных зна- значений матрицы А А, повторенных дважды. (e) Доказать для случая комплексной симметричной мат- матрицы Л, что матрица F вещественная симметричная с веществен- вещественными собственными значениями, что все собственные значения матрицы F2 неотрицательны и что множество квадратов соб- собственных значений матрицы F совпадает с множеством соб- собственных значений эрмитовой матрицы АА. 8. Пусть задана комплексная симметричная матрица А е Мп и рассматриваются связанные с ней квадратичная форма qA(x,x) = xTAx и билинейная форма Ьд(х, у) = хтАу. Привлекая следствие 4.4.4, установить равенства s\ip\qA(x, x)\= sup \bA(x, г/)| = сттах(Л), x*x=l х*х=\ Уу-1 где <Ттах(Л)—наибольшее сингулярное число матрицы Л (рав- (равное арифметическому квадратному корню из наибольшего соб- собственного числа матрицы АА). 9. Доказать следующие два утверждения, сформулирован- сформулированные в обозначениях доказательства теоремы 4.4.3. (i) В случае простого собственного значения X матрицы АА всегда осуществляется вариант (а) доказательства теоремы 4.4.3. Указание. Пусть вектор хфО удовлетворяет условию ААх — %х, и пусть <T= + V^ и w = Ах — ох. Установить ра- равенства Aw = —ow, AAw — Xw, означающие, что вектор w от- отличается от х лишь скалярным множителем. (И) Если А = Ат, то К[Л1Л = [а] © Л2, т. е. вектор-строка wT в варианте (а) доказательства теоремы 4.4.3 нулевая. Осно- вываясь на этом факте, доказать, что матрица Vn-i • • • Vi ЛК1У2 • •. ... Vn_\ = U'AU = Д автоматически оказывается диагональной. 10. Пусть для матрицы А^Мп существует такая невырож- невырожденная матрица 5 е Мп, что Л = SAS~l, где A = diag(?i,i> ...
4.4. Комплексные симметричные матрицы 259 ,.., %п). Убедиться, что матрица АА диагонализуема, все ее собственные значения неотрицательны и rank A = rank AA. Ка- Какое отношение это имеет к следствию 4.4.4? Проверить, что ни одна из матриц [JD], [j ~,j не может быть записана в указан- указанной форме. 11. Пусть задана матрица S е Мп. Установить справедли- справедливость неравенства rank STS =?^ rank S и удостовериться, что оно может быть строгим: rank STS < rank S. Что будет в случае вещественной матрицы S? Указание. Для примера взять матрицу 5 = Г101 ° It or 12. Показать, что собственные векторы х, (/еС комплекс- комплексной симметричной матрицы А^М„, отвечающие различным собственным значениям, удовлетворяют соотношению хту = 0. Означает ли это ортогональность векторов х и г/? Указание. Привлечь равенство хт(Ау) = (Ах)ту. 13. Дать прямое доказательство того, что симметричная мат- матрица А е М„ с п различными собственными значениями допу- допускает разложение вида А = SDST с невырожденной матрицей 5еЛ„и диагональной матрицей D. Указание. Матрица А при- приводится к диагональной Л = 5Л5". В силу утверждения задачи 12 матрица (S)TS~l также диагональна, а тогда и произведе- произведение E~')М5-1 ==(S-')rS-1A = D — диагональная матрица н А = SDST. Провести дополнительные рассуждения, показываю- показывающие, что имеет место разложение типа А = QAQT с комплекс- комплексной ортогональной матрицей Q. 14. Убедиться, что для симметричной невырожденной мат- матрицы А^Мп обратная к ней А~х также симметрична. 15. Вещественная симметричная матрица эрмитова и, следо- следовательно, диагонализуема. Показать, что комплексная симмет- симметричная матрица может не быть диагонализуемой. Указание. Рассмотреть матрицу Л = [; _[] и вычислить А2. 16. Пусть А<=Мп. Доказать, что матрица А одновременно симметрична и унитарна тогда и только тогда, когда она до- допускает разложение вида А = QAQT, в котором QeMn(R)- вещественная ортогональная матрица и A = diag(A,b ...,Xn) — = diag(e"\ ..., ею>1), где \Xk\=l и Qk e R при /г = 1, 2, ..., п. 17. Применяя результат задачи 16, доказать, что матрица U е Мп одновременно унитарна и симметрична тогда и только тогда, когда U = VVT с некоторой унитарной матрицей V е Мп. 18. Мы доказали ранее, что каждая матрица Ае.Мп по- подобна некоторой симметричной. Подобна ли каждая матрица некоторой эрмитовой? Нормальной? 19. Опираясь на теорему 4.4.9, установить, что каждая мат- матрица подобна своей транспонированной. 9*
260 Гл. 4. Эрмитовы и симметричные матрицы 20. Убедиться, что теорема 4.4.9 неверна в случае поля ве- вещественных чисел, т. е. не каждая вещественная матрица /4eAin(R) подобна некоторой вещественной симметричной мат- матрице. 21. Собственный вектор v комплексной симметричной мат- матрицы А может быть изотропным, т. е. подчиняться условию vTv = 0. Пусть Av = Kv, v ф 0, vTv = 0 и матрица А диагона- лизуема. Показать, что собственное значение % не может быть простым. Указание. Записать разложение /4=SAS~\ где пер- первый столбец матрицы S есть вектор и. Заключить, что матрица STS вырожденна, поскольку ее первая строка содержит только нули. В частности, если ogC — произвольный ненулевой век- вектор, подчиненный условию vTv — 0, то симметричная матрица (ранга 1) А = vvT не приводима к диагональному виду. См. за- задачу 15. 22. Заново доказать следствие 4.4.4, развивая следующие идеи (по существу это набросок доказательства Зигеля A943 г.)). Здесь сохранены обозначения и предположения следствия 4.4.4. (a) Матрица АА эрмитова, поэтому существуют унитарная матрица V е Мп и вещественная диагональная матрица Л е Мп, при которых AA = VAV*. (b) Матрица V*AV = В одновременно симметрична и нор- нормальна; тогда в силу теоремы 4.4.7 найдутся вещественная ортогональная матрица QeMrt(R) и диагональная матрица АеМ„, такие, что B — QAQT. (c) A = (VQ)A(VQ)T. Теперь представление Л = ЕЪЕТ, где матрицы Е, S диаго- нальны и 2 неотрицательна, приводит к равенству A = UHUT, в котором матрица U = VQE унитарна. 23. Пусть z = [z\, z2, ..., Zn]T — вектор с п комплексными компонентами и f(z)—комплекснозначная аналитическая функ- функция, заданная в некоторой области D cz С". Вследствие равен- равенства смешанных частных производных матрица Н = {d2f/dzidz,\ симметрична в каждой точке геС В обсуждении примера 4.0.3 показано, что матрицу A=[atj] коэффициентов в линей- линейном дифференциальном операторе с частными производными общего вида можно считать симметричной. Убедиться, что для каждой точки 20е?) существует унитарная замена переменных г->-?/?, после которой оператор Ц записывается в точке гй в диагональной
4.4. Комплексные симметричные матрицы 261 форме, т. е. ?? ^^ .. >стп>0 при г = 20. 24. Применяя теорему 4.4.13 и используя индукцию по об- образцу доказательства теоремы 1.3.19, установить справедли- справедливость следующего аналога теоремы 4.1.6 об одновременной унитарной диагонализации семейства эрмитовых матриц. Пусть задано семейство ?ГаМп диагонализуемых симметричных мат- матриц. Необходимым и достаточным условием существования комплексной ортогональной матрицы Q, такой, что QAQT диаго- нальна для каждой матрицы Лё^", является коммутативность семейства матриц SF. 25. Привлекая рассуждения доказательства теоремы 4.4.7, убедиться, что матрица А е М„ одновременно кососимметрична (А = ¦—Ат) и нормальна тогда и только тогда, когда существует вещественная ортогональная матрица Qe.Mn(R), для" которой QTAQ = 0 © 0 © ... 0 0 © А{ © А2 © .. . © Ак, где каждая матрица As e М2 имеет вид Л/=[_з о']' Z/SC, /«1, 2 k. D.4.14). Указание. Рассмотреть вещественную и мнимую части матрицы Л и применить теорему 2.5.15. Когда в указанной прямой сум- сумме отсутствуют нулевые 1 X 1-слагаемые? 26. При помощи рассуждений из задач 22 и 25 обосновать кососимметричный аналог разложения Такаги комплексной сим- симметричной матрицы из следствия 4.4.4: матрица А е Мп косо- симметрична (А = —Ат) в том и только в том случае, когда существует унитарная матрица U е М„, такая, что где каждая матрица Л/ е М2 имеет вид D.4.14). Вывести, в ча- частности, заключение о четности ранга произвольной кососиммет- рйчной матрицы. 27. Пусть задана унитарная матрица W е Мп. Доказать существование такой унитарной матрицы 1/еМ„, что V2=W и VTA — AV, какова бы ни была матрица А^Мп, подчинен- подчиненная условию WTA = AW. Указание. Пусть W = UAU*, где U — унитарная матрица, и Л = diag (У8', ..., ею"-), Рассмотреть квадратный корень
262 Гл. 4. Эрмитовы и симметричные матрицы и положить V = UA'/2U*. Убедиться, что равенство WTA=AW имеет место в том и только в том случае, когда матрицы Л и UTAU коммутируют. Далее использовать аргументы из доказа- доказательства теоремы 1.3.12 или показать, что матрица V является многочленом от W. Вывести отсюда, что матрицы Л'/2 и UTAU коммутируют и, следовательно, VTA —AV. 28. Дать еще одно подробное доказательство следствия 4.4.4, руководствуясь приведенным ниже наброском доказатель- доказательства Хуа A944 г.). Обозначения и предположения следствия 4.4.4 сохраняются. Пусть матрица А невырожденна. (a) Матрица АА эрмитова и положительно определена (х*ААх~(АхУ(Ах)^О для всех х е С"), следовательно, няй- дутся унитарная матрица ZeI, и положительная диагональ- диагональная матрица ЕеМ, для которых AA = Z1?Z*. (b) Матрица W = %~lZ*AZ унитарна, a 2W симметрична, поэтому m = WTZ. (c) Используя результат задачи 27, доказать существование унитарной матрицы V ^Мп, подчиненной соотношениям V2=W и 2V = VTI. (d) В силу равенств Z"AZ =--Ш =W2=BV)V=УГ2У спра- справедливо представление A ~{ZVr)'Z(ZVT)T. Положить U = ZVT, (e) В случае вырожденной матрицы А перейти к невырож- невырожденной, привлекая рассуждения из задачи 2. Пополнительная литература и комментарии Исходный вариант доказательства следствия 4.4.4 см. в статьях: Takagi T. On an Algebraic Problem Related to an Ana- Analytic Theorem of Caratheodory and Fejer and on an Allied Theo- Theorem of Landau.— Japan. J. Math., 1925, v. 1, p. 83—93, а также Schur I. Ein Satz tiber Quadratische Formen mit Komplexen Koeffizienten.—Amer. J. Math., 1945, v. 67, p. 472—480. Иные доказательства даны в работах Siegel С. L. Symplectic Geo- Geometry.—Amer. J. Math., 1943, v. 65, Lemma 1, pp. 12,14—15; Hua L.-K- On the Theory of Automorphic Functions of a Matrix Va- Variable I — Geometric Basis.— Amer. J. Math., 1944, v. 66, p. 470—488; Jacobson N. Normal Semi-Linear Transforma- Transformations.— Amer. J. Math., 1939, v. 61, p. 45—58. Доказательство, основанное на приведении к треугольному виду, как в тео- теореме 4.4.3, содержится в статье: Hong Y. P., Horn R. A. On the Reduction of a Matrix to Triangular or Diagonal Form by Consi- milarity.— SIAM J. Algebraic and Discrete Metods., 1986, v. 7, № 1, p. 80—88. Обобщение следствия 4.4.11 на случай произ- произвольных полей имеется в работе Taussky О. The Role of Sym- Symmetric Matrices in the Study of General Matrices.— Linear Al- Algebra Appl., 1972, v. 5, p. 147—154.
4.5. Конгруэнтность и одновременная диагонализация 263 4.5. Конгруэнтность и одновременная диагонализация эрмитовых и симметричных матриц Произвольный вещественный линейный дифференциальный оператор L второго порядка с частными производными можно записать в виде L] = V atl {х) дх д* + члены меньшего порядка, D.5.1) Здесь коэффициенты щ,(х) определены в области DcR" и функция / предполагается дважды непрерывно дифференцируе- дифференцируемой в D. Как указывалось в примере 4.0.3, не ограничивая общности, можно считать вещественную матрицу коэффициен- коэффициентов A {x) = [ciij(x)] симметричной в каждой точке ieu Под «членами меньшего порядка» подразумеваются слагаемые, со- содержащие только саму функцию / и ее частные производные первого порядка. Если произвести невырожденную замену независимых пере- переменных на новые переменные s = [s,] e D cz R", то каждая ком- компонента Si есть функция st[x] = Si(xi, ..., хп) и невырожден- невырожденность замены означает невырожденность якобиана в каждой точке области D. Невырожденность гарантирует ло- локальное существование обратной замены переменных x — x(s). Прямое применение правила дифференцирования сложной функции приводит к следующему выражению оператора L в но- новых координатах: Lf== h\ L -дГаРч-дГ\-Шд17 + члены меньшего порядка- п = V Ьц -0—^- + члены меньшего порядка. D.5.2) i, /=i ' ' Таким образом, новая матрица коэффициентов В (в перемен- переменных s =[s/]) связана со старой матрицей А (в переменных х = = [xi]) соотношением B = SAST, D.5.37) в котором 5 — вещественная невырожденная матрица.
264 Гл. 4. Эрмитовы и симметричные матрицы Пусть оператор L связан с некоторым физическим законом (например", таковы лапласиан L = V2 и электростатические по- потенциалы). Выбор системы координат для независимых пере- переменных не может привести к отмене этого закона, хотя вид опе- оператора L, очевидно, изменяется. Тем самым возникает вопрос об инвариантах множества всех матриц В, связанных с данной матрицей А соотношением D.5.37). Формула типа D.5.3Г) возникает также в теории вероятно- вероятностей и статистике. Рассмотрим такой пример. Пусть Х\, Х2, ... .,., Хп—вещественные или комплексные случайные величины с конечными вторыми моментами на некотором вероятностном пространстве с оператором математического ожидания Е. Через \i.i = E(Xi) обозначим математические ожидания соответствую- соответствующих случайных величин. Эрмитова матрица А = [ац] =(E[(Xi — — И,-) (К,—р,у)]) s= Cov(Z) есть матрица ковариации случай- случайного вектора Х = \Х\, ..,, Хп]т. Если задана матрица S — = [sn] e Мп, то компоненты случайного вектора SX являются линейными комбинациями компонент вектора X. Средние зна- значения компонент вектора SX равны ? s«?(**) = ? slkVLk ft-i fe=i и выражение для матрицы ковариации вектора SX имеет вид Cov (SX) = (Е [((SX), - Е ((SX),)) ((SX), - Е ((SX),))]) = slpE [(Xp - цр) (Xq - ц,)] 5 p, 9-1 Z *,&„§,„} =SAS*. Таким образом, справедливо равенство Cov (SX) = S Cov (X)S*. D.5.3*) Следовательно, формула преобразования матрицы ковариации случайного вектора почти не отличается от D.5.3Г) и просто совпадает с D.5.3Г), если матрица 5 вещественна. В качестве заключительного примера рассмотрим квадратич- квадратичную форму Qa(x)= ? п i.l-i и эрмитову форму
4.5. Конгруэнтность и одновременная диагонализация 265 где А — [а,ц] и В = [Ьц]. Если S — заданная матрица, то QA (Sx) = (Sxf A (Sx) = хт (SMS) x = Qstas (x), НА (Sx) = (Sx)* В Eл) = х* (S*BS) x = Hs*bs (x). Здесь не имеет значения, являются матрицы А, В, S и вектор х вещественными или комплексными. Итак, на практике возникают два похожих, хотя и различаю- различающихся типа преобразований. Это служит обоснованием для сле- следующего определения. 4.5.4. Определение. Пусть заданы матрицы А, В е Мп. Если существует такая невырожденная матрица S, что (a) B=SAS*, то матрицу В называют эрмитово конгруэнт- конгруэнтной (или *конгруэнтной) к А; (b) В — SAST, то матрицу В называют конгруэнтной (или тконгруэнтной) к А. Ясно, что эти два понятия конгруэнтности тесно связаны ме- между собой; в случае вещественной матрицы S они совпадают. В тех ситуациях, когда различия в этих понятиях не играют роли, мы будем употреблять термин1) «(эрмитова) конгруэнт- конгруэнтность». Упражнение. Показать, что (эрмитово) конгруэнтные мат- матрицы имеют одинаковый ранг. Отметим следующие два факта. Если матрица А эрмитова, то эрмитовой будет и матрица Sj4S* (даже когда S вырожден- на). Если А симметрична, то SAST будет также симметричной. При изучении эрмитовых и симметричных матриц обычно при- привлекают тот тип конгруэнтности, который не выводит из дан- данного класса матриц: эрмитову конгруэнтность для эрмитовых матриц, конгруэнтность для симметричных матриц. В случае вещественной симметричной матрицы А, однако, возможен вы- выбор, поскольку она одновременно эрмитова и симметрична и матрица SAS* эрмитова, a SAST симметрична. Тип конгруэнт- конгруэнтности здесь можно выбрать в зависимости от контекста. Оба отношения конгруэнтности обладают важным свойством, присущим и отношению подобия. 4.5.5. Теорема. Отношение (эрмитовой) конгруэнтности есть отношение эквивалентности, т. е. для любой матрицы А е Мп (а) А (эрмитово) конгруэнтна себе самой; ') В оригинале всегда используются мнемонические названия * конгруэнт- конгруэнтность и тконгруэнтность, а если различия несущественны, говорится просто о конгруэнтности. При переводе эти названия заменялись на общепринятые в отечественной литературе. — Прим. перев.
266 Гл. 4. Эрмитовы и симметричные матрицы (b) если А {эрмитово) конгруэнтна В, то В (эрмитово) конг- конгруэнтна А; (c) Если А (эрмитово) конгруэнтна В и В (эрмитово) кон- конгруэнтна С, то А (эрмитово) конгруэнтна С. Доказательство. Рассмотрим случай эрмитовой конгруэнт- конгруэнтности. Свойство (а) имеется в силу очевидного равенства A — 1AI*. Чтобы доказать (Ь), запишем A — SBS*, где матрица S невырожденна; тогда В = S~lA(S)*. Наконец, если Л = = Sjj3S; и B = S2CS*2, to A = (SlS2)C(SlS2)*. Доказательство для конгруэнтности проводится аналогично. ? Из этой теоремы заключаем, что множество всех п X «-мат- «-матриц разбивается на классы эквивалентности относительно (эр- (эрмитовой) конгруэнтности. Можно поставить задачу определе- определения канонического представителя произвольного класса эквива- эквивалентности для каждого из двух видов конгруэнтности. Для эрми- эрмитовой конгруэнтности эта теоретическая задача сложнее, и мы рассмотрим ее в первую очередь. Практическая задача определения типов и классификации дифференциальных операторов посредством выявления инва- инвариантов отношения конгруэнтности сводится к задаче описания канонического представителя класса эквивалентности веществен- вещественных симметричных матриц, конгруэнтных (конгруэнтность осу- осуществляется посредством вещественной матрицы 5) заданной матрице. Решение последней задачи оказывается весьма про- простым: достаточно подсчитать число положительных, отрицатель- пых и нулевых собственных значений данной матрицы. В связи с этим введем следующий термин. 4.5.6. Определение. Пусть А е.Мп — эрмитова матрица. Ее инерция есть упорядоченная тройка чисел где f+ (A) — количество положительных собственных значений матрицы A, i_ (А) — отрицательных и /0 (А) — нулевых с учетом их кратности. Заметим, что rank A — г+ (Л) + «'_ (А). Разность /+ (А) — i__ (А) называют сигнатурой матрицы А. Упражнение. Убедиться, что инерция эрмитовой матрицы А е Мп однозначно определяется ее сигнатурой и рангом и на- наоборот. Для заданной эрмитовой матрицы ЛеМл имеется представ- представление А = UXV*, в котором Л = diag(Xb ..., Кп) и матрица U унитарна. Не ограничивая общности, можно предположить, что первые диагональные элементы матрицы Л суть все ее положи-
4.5. Конгруэнтность и одновременная диагонализация 267 тельные собственные значения, затем расположены отрицатель- отрицательные и, наконец, нулевые, т. е. что Яь Я2, ... , Я(+ > О, Л<+ + 1, . ¦. , ^г++/_ < 0. ^i++t_+i = • • • ...=Я„ = 0. Положим . +V-^++i,-.., + V—*-! + + <_, 1 1). Тогда D — невырожденная вещественная диагональная матрица и имеет место разложение 1 0" 1 -1 -1 0 о D, в котором на диагонали выписанной матрицы расположены i+(A) элементов «+1», i-{A) элементов «—1» и г'0(Л) элемен- элементов «0». Следовательно, матрицу А можно записать в виде 1 0" -1 S*=SI{A)S*t 0 • о_ D.5.7) где S s= UD — невырожденная матрица и 1(А) называется мат- матрицей инерции для А. Таким образом, каждая эрмитова мат-
268 Гл. 4. Эрмитовы и симметричные матрицы рица эрмитово конгруэнтна диагональной матрице очень про- простого вида, которая определяется лишь инерцией исходной мат- матрицы. Было бы заманчиво использовать матрицу инерции в ка- качестве канонического представителя класса эквивалентности матриц, эрмитово конгруэнтных заданной, но для этого необхо- необходима уверенность в том, что инерция эмитово конгруэнтных эрмитовых матриц одинакова. Последнее утверждение, извест- известное как закон инерции Сильвестра, составляет содержание сле- следующей теоремы. 4.5.8. Теорема. Пусть А, В^Мп — эрмитовы матрицы. Не- Необходимым и достаточным условием существования невырож- невырожденной матрицы S е Мп, подчиненной равенству А = SBS*, яв- является совпадение инерции матриц А и В, т. е. равное количе- количество положительных, отрицательных и нулевых собственных значений у этих матриц. Доказательство. Если инерция матриц А и В одинакова, то. каждая из этих матриц представима в виде D.5.7) с одной мат- матрицей инерции, но, быть может, с различными матрицами S. Та- Таким образом, матрицы А и В эрмитово конгруэнтны одной мат- матрице и вследствие транзитивности эрмитовой конгруэнтности друг другу. Доказательство обратного утверждения менее тривиально. Пусть матрицы Л и В эрмитово конгруэнтны, т. е. A = SBS* при некоторой невырожденной матрице S е Мп. Эрмитово кон- конгруэнтные матрицы имеют одинаковый ранг, поэтому /0(Л) = = го(В) и остается только обосновать равенство /+ (А) = г+ (В). Пусть t»i, t>2, ¦¦¦ , V{ (Л) — ортонормированные собственные век- векторы матрицы А, отвечающие положительным собственным значениям КХ(А) Аг+(л)(Л), и пусть 5+ (А) = Span {vu ... • • • » vi+ И)}- Размерность подпространства S+ (А) равна i+ (Л). Если то х*Ах = А, (Л) | а, |2 + .. . + К+ W) (А) \ al+ (A) f > 0. Но тогда x*SBS*x = (S*x)* В (S*x) > 0. Следовательно, у*By > 0 для всех ненулевых векторов у из подпространства Span {S*ob ... , S*vt +<Л)} размерности /+ (Л). В силу следствия 4.3.23 справедливо неравенство /+ (B)^i+ (A). Однако в приведенных выше рассуждениях Л и В можно по- поменять ролями; поэтому /+ {В) = /+ (Л). ?
4.5. Конгруэнтность и одновременная диагонализация 269 Упражнение. Пусть матрица ЛеМ, эрмитова. Установить, что необходимым и достаточным условием эрмитовой конгруэнт- конгруэнтности матрицы А и единичной матрицы является положитель- положительность всех собственных значений матрицы А. Упражнение. Пусть Л, Be Mn — вещественные симметрич- симметричные матрицы. Доказать, что они эрмитово конгруэнтны тогда и только тогда, когда они конгруэнтны и конгруэнтность осу- осуществляется посредством вещественной матрицы. Упражнение. Пусть А, В^Мп — вещественные симметрич- симметричные матрицы. Показать, что матрицы А и В конгруэнтны, при- причем конгруэнтность осуществляется посредством вещественной матрицы, в том и только в том случае, когда инерция матриц А и В одинакова. Упражнение. Сколько различных классов эквивалентности по отношению эрмитовой конгруэнтности имеется на множестве комплексных эрмитовых га X "-матриц? На множестве веще- вещественных симметричных п X п-матриц? Теорема Сильвестра 4.5.8 позволяет полностью решить во- вопрос выбора представителя в каждом классе эквивалентности эрмитовых матриц по отношению эрмитовой конгруэнтности на основе того, что знаки собственных значений эрмитовой мат- матрицы не изменяются, когда эта матрица подвергается преобра- преобразованию эрмитовой конгруэнтности. Пока неясно, однако, на- насколько изменяются величины собственных значений при пере- переходе к эрмитово сопряженной матрице. Использование простей- простейшего варианта теоремы Вейля 4.3.1 позволяет подкрепить закон инерции Сильвестра необходимыми количественными характе- характеристиками. 4.5.9. Теорема (Островский). Пусть заданы матрицы A, S е е Мп, причем А эрмитова, a S невырожденна. Упорядочим соб- ственые значения матриц А и SS* по возрастанию, как в D.2.1). Тогда для каждого номера k—\, 2, ..., п существует положи- положительное число 0fc, такое, что К\ (SS*) ^ Qk ^ Xn(SS*), при кото- котором (SS) = Qk\k(A). D.5.10) Доказательство. Сначала заметим, что условия SS*x = Хх и х ф 0 влекут за собой соотношения X = x*SS*x/x*x = (S*x)* {S*x)/x*x > 0. Следовательно, все собственные значения матрицы SS* положи- положительны. Пусть k — заданное натуральное число и 1 ^ k ^ п. Рассмотрим эрмитову матрицу А — %k(A)I с k-м собственным
270 Гл. 4. Эрмитовы и симметричные матрицы значением, равным нулю. По теореме Сильвестра 4.5.8 k-e соб- собственное значение матрицы 5 (Л — Я* (Л)/M* = 5Л5* — U(Л) 55* также равно нулю. В силу неравенств Вейля D.3.2) это соб- собственное значение допускает следующую двустороннюю оценкуг %k (SAS*) + А,, (- Kk (Л) 55*) < Xk (SAS* - Kk (Л) 55*) = 0 < < %k (SAS*) + Я„ (— Kk (A) 55*). Отсюда выводим соотношения Хк (SAS*) < - М- К (А) 55*) = К (%k (А) 55*) = Я* (Л) Я„ E5*), если Я^(Л)>0, Kk (А) Я, (S5*), если ^(Л)<0, , (SAS*) > - Я„ (- Яй (Л) S5*) = Я, (А* (Л) 5S*) == %k(A)Ky E5*), если Я&(Л)>0, Aft (Л) Я„ E5*), если Яй(/ Независимо от знака собственного значения (Kk(A)^O или ^k (Л) ^ 0) эти соотношения влекут за собой равенство к EЛ5*) = Q^k (Л) при некотором значении 9ft, таком, что NE5). П Если положить Л = / е М„ в теореме Островского, то все кк{А)=\ и 8& = Я&E5*). Если матрица 5 е М„ унитарна, то Я, E5*) == А„ E5*) = 1 и все Qk — 1 — здесь равенство D.5.10) выражает инвариантность собственных значений относительно унитарного подобия. Таким образом, оценки для 0^, в теореме 4.5.9 точны как на классе всевозможных эрмитовых матриц Л, так и на классе всевозможных невырожденных матриц 5. Простые рассуждения типа продолжения по непрерывности позволяют обобщить теорему Островского на случай вырож- вырожденной матрицы 5. Для этого выберем е>0 и применим тео- теорему 4.5.9, заменяя матрицу 5 на невырожденную матрицу 5 + е/. Получим Kk((S + е/)ЛE + el)*) = QkXk(A), гда Я1(E + е/)E + е/)*)<9А<ЯЛE + е/)E + е/)*). Прие->0 по- последние неравенства переходят в неравенства О^0А^ ^,„E5*). Этот результат можно трактовать как расширение области при- применимости закона инерции Сильвестра на эрмитову конгруэнт- конгруэнтность, осуществляемую матрицей, которая может быть вырож- вырожденной. 4.5.11. Следствие. Пусть А, 5 е Мп и матрица А эрмитова. Расположим собственные значения матриц А и 55* по возра- возрастанию, как в D.2.1). Тогда для каждого номера k — 1, 2, ... , п найдется неотрицательное число Qk, такое, что h(SS*)^Q^ ^ Кп E5*), при котором
4.5. Конгруэнтность и одновременная диагонализация 271 В частности, количество положительных (отрицательных) соб- собственных значений не возрастает при переходе от матрицы А к матрице SAS*. Задача описания канонических представителей классов экви- эквивалентности комплексных симметричных матриц по отношению конгруэнтности решается еще проще: достаточно вычислить ранг. 4.5.12. Теорема. Пусть заданы (вещественные или комплекс- комплексные) симметричные матрицы Л, бе М„. Необходимым и доста- достаточным условием существования невырожденной матрицы S е М„, при которой А = SBST, является совпадение рангов матриц А и В. Доказательство. Если A =SBST и 5 невырожденна, то ранги матриц А и В совпадают в силу 0.4.6. В обратную сторону, из следствия 4.4.4 имеем разложение л . . // у цт и 11У \ п2пт (и Г) \ г /у \ A1 п \т А — UfyUl — U{1 (^,) UXUX — (ихих) 1 ^2,,] [y^U^ , в котором /(Ei)—матрица инерции типа D.5.7) для матрицы Si, определяемая единственным образом по величине ранга мат- матрицы А, матрица U\ унитарна, 2,= diag@i, a2, ..., ап), причем все Gi ^0, Di = d\ag(du d2, ..., dn), где ( -y/oi, если Gi > 0, d{ = i l I, если Gi = 0. Отметим невырожденность матрицы D\. Проводя подобные рас- рассуждения, можно также записать разложение В = = (?/2?J)/B2) (U2D2)T с аналогичными определениями сомно- сомножителей. Пусть rank A = rankS, тогда 1A,^ = 1A,2) и / B.) = (СААГ1 А [(?/,О,)г]-' = / B2) = (U2D2Tl В [( Следовательно, Приходим к заключению о конгруэнтности матриц А и В. D Упражнение. Сколько различных классов эквивалентности по отношению конгруэнтности имеется на множестве комплексных симметричных п X я-матриц? На множестве вещественных сим- симметричных п X п-матриц? Упражнение. Пусть матрица /1еМ, симметрична. Дока- Доказать, что необходимым и достаточным условием существования
272 Гл. 4. Эрмитовы и симметричные матрицы невырожденной матрицы 5 <= Мп, для которой А = SST, яв- является невырожденность матрицы А. Упражнение. Пусть матрицы А, В е Мп симметричны. Пока- Показать, что две невырожденные матрицы X, FeMn, такие, что A = XBY (это означает эквивалентность матриц А и В), суще- существуют в том и только в том случае, когда существует невырож- невырожденная матрица 5 е М„, такая, что А = SBST (это означает конгруэнтность матриц А и В). Указание. Установить связь ме- между рангами матриц А и В, когда А = XBY. Предыдущий результат аналогичен теореме Сильвестра об инерции 4.5.8. В следующем результате на случай конгруэнтно- конгруэнтности симметричных матриц переносятся также теорема Остров- Островского 4.5.9 и следствие 4.5.11. 4.5.13. Теорема. Пусть A, SeMn и А — Ат. Введем разло- оюение Такаги (см. следствие 4.4.4) A=--UWT и SAST = VMVT матриц А и SAST с унитарными сомножителями U, V и диаго- диагональными сомножителями S = diag (оь о2> ¦ ¦ ¦ , ®п), М — diag ({iu Й2. • • ¦ , ^п). все °i> Vi s^ 0. Обозначим через Яг (SS*) соб- собственные значения матрицы SS*. Пусть числа oiy |1г и Xi(SS*) упорядочены по возрастанию, как в D.2.1). Тогда для каждого номера k — \,2. ... , п существует неотрицательное 9Ь такое, что Kl(SS*)^.Qk^.Xn(SS*), при котором ц& = e&crfe. Если допол- дополнительно S невырожденна, то все 8ft > 0. Доказательство. Величины ц2{ являются собственными зна- значениями матрицы ВВ*, где В — SAST. Следовательно, ц| = яА (ВВ*) = %к {SASTSAS*) = lk (S [ASTSA~]S*) = Qklk(ASTSA) для некоторого Qk, такого, что h\ (SS*)^ 6fe^Xn(SS*). Послед- Последнее равенство здесь получено на основе следствия 4.5.11. По- Поскольку собственные .значения произведения не зависят от по- порядка сомножителей в силу теоремы 1.3.20, имеем также равен- равенства И* = 6 A (ASTSA) = QkXk (SAAST) = ЬкКк {SAAS% учитывая вещественность собственных значений %ь. Применяя еще раз следствие 4.5.11, приходим к равенствам с некоторым дк, удовлетворяющим условию Я( E5*) ^ §& ^ . Таким образом, цк = */вк®к ак = %аь и величины
4.5. Конгруэнтность и одновременная диагонализация 273 Bk = yQk^k удовлетворяют требуемым в формулировке теоремы оценкам. ? Из теоремы 1.3.19 известно, что две диагонализуемые мат- матрицы можно привести к диагональному виду одним преобразо- преобразованием подобия в том и только в том случае, когда они комму- коммутируют. Имеется ли аналогичный результат для одновремен- одновременной диагонализации преобразованием конгруэнтности? По-видимому, первые постановки задач об одновременном приведении к диагональному виду посредством преобразования конгруэнтности связаны с изучением «малых колебаний» около точки равновесия в механике. Если состояние динамической си- системы описывается в обобщенных (лагранжевых) координатах Q\, (J2, ...> <Jn и начало координат есть точка равновесия, то в малой окрестности нуля потенциальная энергия V аппрокси- аппроксимируется вещественной квадратичной формой У— Ё atlq,q, i, /=-1 в обобщенных координатах qi. Кинетическая энергия Т аппрок- аппроксимируется вещественной квадратичной формой в обобщенных скоростях q~i. Поведение системы определяется уравнениями Лагранжа А. ( дТ \ — дТ л. дУ — п dt \^ dq{ ) dqi dq. Это система обыкновенных дифференциальных уравнений вто- второго порядка с постоянными коэффициентами. Вещественные матрицы коэффициентов A = [aij] и B = [bi,] этих квадратич- квадратичных форм можно считать симметричными. Если они не являют- являются диагональными, то уравнения системы взаимосвязаны (и, сле- следовательно, решить их не так просто). Пусть найдена вещественная невырожденная матрица S = = [si;] e М„, приводящая матрицы Л и В к диагональному виду SAST и SBST. Используя эту матрицу для введения новых обоб- обобщенных координат1) pi в соответствии с равенствами п % Qi=Li Sifpi, D.5.14) ') И, аналогично, новых обобщенных скоростей pi. — Прим. перев.
274 Гл. 4. Эрмитовы и симметричные матрицы заключаем, что в новых координатах квадратичные формы ки- кинетической и потенциальной энергии Т и V принимают диаго- диагональный вид. В такой ситуации система уравнений Лагранжа распадается на п отдельных линейных дифференциальных урав- уравнений второго порядка с постоянными коэффициентами. Легко найти явные выражения решений каждого из этих уравнений через экспоненты и тригонометрические функции1) и затем оп- определить при помощи D.5.14) решение исходной системы. Таким образом, ряд важных задач механики допускает су- существенные упрощения, если уметь одновременно приводить две вещественные симметричные матрицы к диагональному виду преобразованием конгруэнтности. По физическому смыслу кинетической энергии соответствующая ей квадратичная форма положительно определена и это оказывается достаточным (но не необходимым) условием одновременной диагонализации по- посредством преобразования конгруэнтности. Можно рассматривать несколько различных типов одновре- одновременной диагонализации; например, взять две эрмитовы матрицы А и В и искать такую унитарную матрицу U, чтобы UAU* и UBU* имели диагональный вид, либо, ослабляя условия, искать невырожденную матрицу S, для которой матрицы SAS* и SBS* имеют диагональный вид. Аналогично для симметричных мат- матриц Л и В мы могли бы интересоваться диагональностью мат- матриц вида UAUT и UBUT либо SAST и SBST. Можно поставить даже задачи смешанного типа — искать для эрмитовой матрицы А и симметричной матрицы В матрицы UALJ* и UBUT, либо SAS* и SBST диагонального вида. В каждом случае естественно рассматривать тот тип конгруэнтности, при котором сохраняется специальное алгебраическое свойство соответствующей матрицы. Все перечисленные ситуации встречаются в приложениях. К счастью, имеется единая методика их исследования. Простей- Простейшая для изучения возможность — когда одна из двух данных матриц невырожденна. В таблице 4.5.15Т приводится перечень эквивалентных необходимых и достаточных условий для каж- каждого случая. Эти условия расположены и занумерованы так, чтобы подчеркнуть существующую между ними аналогию. 4.5.15. Теорема. Пусть заданы матрицы А,В^Мп. Обозна- Обозначим через U некоторую унитарную матрицу и через S некоторую невырожденную матрицу, U, S е Мп. Тогда справедливы резуль- результаты, указанные в табл. 4.5.15Т. Доказательство. В каждой из шести групп условия в своем большинстве эквивалентны по определению. Эквивалентность условий C) и D) в группе 1,(а) объясняется тем, что произве- ') А также их произведения на многочлены. — Прим. перев.
Таблица 4.5.15Т Предположения относительно А а В Матрицы, которые должны быть диагональными Эквивалентные необходимые и достаточные условия одновременной днагонализации А невырожденна, AlB (a) UAU* и UBU* A) Существует унитарная матрица V е М„, при ко- которой матрица V*CV ве- вещественная диагональная. B) Матрица С унитарно диа- гонализуема и все ее соб- собственные значения веще- вещественны. C) Матрица С эрмитова. D) Матрицы А и В коммути- коммутируют, т.е. АВ = ВА. (b) SAS* и SBS* A) Существует невырожден- невырожденная матрица R, при кото- которой матрица R~lCR веще- вещественная диагональная. ;B) Матрица С диагонализуе- ма и все ее собственные значения вещественны. II. А = Ат, В=ВТ, А невырожденна, (a) UAW и UBU1 (b) SAST и SBST A) Существует унитарная мат- матрица V е М„, при которой матрица V*CV диагональ- на. B) Матрица С унитарно диа- гонализуема. C) Матрица С нормальна. A) Существует невырожден- невырожденная матрица R е М„, при которой матрица R-^CR диагональна. B) Матрица С диагонализуе- ма. III. A = А*, В = ВТ, если А денна, то если В денна, то невырож- невырож= А~'В, невырож- невырожВ'А (a) UAlf и UBUT A) Существует унитарная матрица W е М„, при ко- которой матрица W~lCW диагональна. C) Матрица С симметрична. D) Справедливо равенство АВ = ВА. (b) SAS и SBS A) Существует невырожден- невырожденная матрица R е М„, при которой матрица R~iCR диагональна. jE) Существует невырожден- невырожденная матрица R е Мп, при которой матрица R~iCR симметрична.
276 Гл. 4. Эрмитовы и симметричные матрицы дение АВ эрмитовых матриц Л и В эрмитово тогда и только тогда, когда А и В коммутируют, и что матрица А эрмитова в том и только в том случае, когда эрмитова ее обратная А~х. Эквивалентность условий C) и D) в III (а) обосновывается аналогично, поскольку матрица В симметрична тогда и только тогда, когда симметрична ее обратная В~х и для эрмитовой матрицы А справедливо равенство АТ=А. Необходимость условия A) в каждой из шести групп выте- вытекает непосредственно из предположения, что соответствующие преобразования конгруэнтности приводят к диагональной фор- форме. Например, в варианте П(Ь), если матрицы SAST — Л и SBST = М обе диагональные, то А-1 В = EгЛ-'5) [S-'M (ST'I = ST (Л-'Af.) (sT'> следовательно, матрица R — ST будет осуществлять диагонали- зацию матрицы С = А~1В. Подобным же образом в случаях I(b) и III (b) следует положить R = 5*. Если S унитарна, соот- соответствующая матрица R в каждом из этих случаев также будет унитарна. Рассмотрим вариант I, в котором матрицы А и В эрмитовы и А невырожденна. Предположим выполненным условие A) в I(b), т. е. существуют невырожденная матрица R = [г, г2 ... гп] е= Мп с вектор-столбцами г,-е С" и диагональная матрица с вещественными элементами hi, такие, что R~lA~lBR = Л. Сле- Следовательно, BR = ARA и R*BR = R*ARA. He теряя общности, можно считать, что одинаковые значения hi объединены в груп- группы, т. е. что матрица Л записывается в блочном виде "Л, О л2 Л= • # , D.5.16) О " Л, ? где все числа in вещественны и \ц Ф щ, i ф \. Пусть не все чи- числа hi совпадают; тогда выберем индексы i, j так, чтобы 1 ^ i, j ^ п и Тыф h/, и рассмотрим элемент в позиции (/, /) в обеих частях матричного равенства R*BR = R*ARA. Приходим к соот- соотношениям = r\Bri = r'Br. = r)Arjhi = r\
4.5. Конгруэнтность и одновременная диагонализация 277 в которых используются эрмитовость матриц А и В (в равен- равенствах типа х*Ау — у*Ах для всех х, г/еС") и вещественность чисел К и Я.. Поскольку К.ФК., заключаем, что r'iArj = 0 и, следовательно, r*Art — r*iBri = r*Brl = 0. Это означает, что обе матрицы R*BR и R*AR блочно-диагональны и их блочная структура согласована со структурой D.5.16), т. е. в2 0 0 Вь 0 _0 где Bit At^Mn. при 1=\, 2, ... , k. Такое частичное приве- приведение к диагональной форме является полным при k = n, т. е. когда все Аг различны. При k < п имеется блок размера nt > 1. В равенстве Bt = \i[At матрицы Bt и At эрмитовы и по спект- спектральной теореме 4.1.5 имеет место разложение Ai = UfiJU], в котором U\, Di^Mn., матрица Ut унитарная, a Dt вещест- вещественная диагональная. Тогда аналогичное разложение для Bt записывается в виде В( = \ilAl = Ut {y-fi^ U]. Положим 'U, 0 0 и„ г\ 0 0 где Ui = [l] при щ = \. Матрица U унитарная, a D вещест- вещественная диагональная, и справедливы равенства *, R*AR = UDU*. Наконец, отсюда получаем требуемые представления А = [(/Г1)' U] D l(R-lT U)', В = [(R-lT U] (DA) [(/Г1)' ?/]'. Отметим, что в случае предположения A) в 1(а) рассужде- рассуждения аналогичны, но дополнительно известно, что матрица R унитарна. Тогда матрица (R~1)*U = RU также унитарна и до- достаточность условия A) в 1(а) тем самым доказана.
278 Гл. 4. Эрмитовы и симметричные матрицы Идеи приведенного доказательства используются и в осталь- остальных четырех случаях. При соответствующих предположениях выписываются блочно-диагональные конгруэнтные матрицы и затем окончательное приведение к диагональному виду осуще- осуществляется при помощи спектральной теоремы для эрмитовых матриц или следствия 4.4.4 о разложении Такаги для симмет- симметричных матриц. Приведем необходимые подробности. В случае II матрицы А и В симметричны и невырожденны. Примем условие A) в II (Ь), что существуют невырожденная матрица R = [г{ г2 ... rn] e Мп, такая, что каждый вектор-столбец п лежит в С", и диагональ- диагональная матрица A di( Я2 Кп) (не обязательно вещественная), при которых верно равенство R-\A-lBR=A. Получаем BR=ARA и RTBR = RTARA. Пред- Предположим, как и ранее, что совпадающие числа Xi сгруппиро- сгруппированы так, что матрица Л имеет вид D.5.16) и все щ различны. Пусть не все числа Xi равны между собой; выберем индексы i, /, такие, что 1 ^/, }^п и Xi=^=X,-, и рассмотрим (г,/)-элемент матричного равенства RTBR = RTARA. Получаем соотношения rTiArJkj = rTiBrl = r]Brt = rJArtX. = г\Аг^г, в которых используется симметричность матриц А и В (т. е. равенства вида хтА у = утАх для произвольных векторов х, у е С"). Поскольку Я( Ф %j, приходим к заключению, что г\Аг, = 0 и, следовательно, rJAr. — rTiBrj = rJBri — 0. Это озна- означает, что матрицы RTBR и RTAR имеют блочную структуру, согласованную со структурой в D.5.16), т. е. В2 0 0 в„ о О где Bt, Ai^Mn.. При k — n получаем тем самым требуемое приведение. При k < п имеется блок размера п1 > 1. В равен-
4.5. Конгруэнтность и одновременная диагонализация 279 стве Bi = ixiAi матрицы Bt и At симметричны. Привлекая след- следствие 4.4.4, запишем разложение Такаги Ai = Ui2iUTi, где Uit 2,еЖп., U{ — унитарная матрица, 2,— диагональная матрица с неотрицательными элементами. Тогда разложение Такаги для Bt есть Bt — yiiAi = Ui (ц.2,ЛЩ. Положим О о ut 2 = О о где ?/,- = [1] при щ = \. Матрица U унитарна, матрица 2 диа- тональна (с неотрицательными элементами) и справедливы раз- разложения Отсюда выводим требуемые представления А = [(/Г У U] 2 [(R-l)T U]T, В = [(R-У U] 2Л [(/?"'/ и]т. При условии A) в П(а) дополнительно известно, что матрица R унитарна. Следовательно, матрица (R~l)TU — RU также уни- унитарна, поэтому достаточность условия A) в II (а) доказана. В случае III рассуждения несколько меняются. Пусть А,В^Мп, эрмитова матрица А невырожденна и В симметрич- симметрична. Предположим выполненным условие A) в III (b), т. е. су- существуют невырожденная матрица R = [г{г2 ... г„] е= Мп и диагональная матрица A = diag(Klt A2, . при которых R-lA~lBR = A. Тогда B —R'ARA. Теперь сгруппируем числа что матрица Л принимает вид 'Л, = ARA и R'BR=:RTBR = i, равные по модулю, так, О Л, о
280 Гл. 4. Эрмитовы и симметричные матрицы где Л,= О для t=l, ...,k, причем внутри каждого блока [ ц'/'| = | ц{*'[, /, k = l, 2, ...,«{, и Ыр) | =?Ч Ц*/" I ПРИ *Фи Если модули |Лг| не все совпадают между собой, выберем индексы /, / так, чтобы 1^г, j^n, | Kt |Ф| Kj |. Рассмотрим в матричном равен- равенстве RTBR = #*Л/?Л (г, /)-элемент. Это rjArjhj = rf Bf / = r]Brl = r*-Artki = г\Аг{К{. (Здесь используются эрмитовость матрицы А и симметричность матрицы В.) Приходим к соотношению | r\Art 11 К/1 = | r\Arj 11 Kt |. В силу | Kt \ф | Я/1 имеем г}Аг! = 0 и, следовательно, = fTiBfl = rjBri — Q. Таким образом, матрицы RTBR и являются блочно-диагональными вместе с Л, т. е. о О в ft- = R'ARA = О где все Вг, Аи О с (Тг>0 и 0j; e= R. При k — n это требуемое приведение к диагональной форме. При k<.n найдется некоторый блок размера nt> 1. Для него Bt = Л2Л/ = а^^], матрица Ог одновременно диаго-
4.5. Конгруэнтность и одновременная диагонализация 231 нальна и унитарна (о] = Dt ==?»[ = Dt ') и, следовательно, 5[б Д == (Г4Х)М А- D.5.17) В левой части последнего равенства стоит симметричная матрица DiBtDi, а в правой части эрмитова матрица e{D'tAtDi ( ) Е О р ti р (величина а{ вещественна). Если а^О, то заключаем, что матрица О\АгОг одновременно симметрична и эрмитова. Эти два свойства сочетаются только для вещественных матриц, следовательно, матрица D\AlDl вещественная симметричная (при о{=?0). Если <7( = 0 (что может произойти в каком-либо одном блоке), то матрица D\AiDl эрмитова, но не обязательно вещественна. По спектральной теореме для каждого номера г = 1 k существует унитарная матрица U{^Mn{ и веще- вещественная диагональная матрица /И(еМл., при которых D'iAfii — UiMiU'i. Если сгг=?О, то матрицу И{ можно выбрать вещественной ортогональной и тогда 1]\ = U* и DtBtDt = otD\AtDt = U, (otMt) U\. Если at = 0, то утверждение U] = ilj может1 быть неверно; тем не менее приведенные выше равенства остаются в силе, по- поскольку все их части обращаются в нуль. Таким образом, для всех { = 1,2, ..., k At=*(DtUt)Mt(DtU,)m и В^ Полагая U = DJJn О О D,U, О м2 О М, получаем искомые представления A = [(R-l)*U]M[U'R], B = \ 'ad О О
282 Гл. 4. Эрмитовы и симметричные матрицы При условии A) в III (а) матрица R здесь унитарна, и тогда (R~1)' U = RU и матрица (R~i)TU = RU также унитарна. Тем самым доказана достаточность условия A) в Ш(а). Мы доказали утверждения случая III в предположении не- невырожденности матрицы А. Пусть теперь невырожденна мат- матрица В. Условие A) в III (b) гласит, что существует невырож- невырожденная матрица R е Мп, такая, что матрица R^B^AR ==¦ Л диагональна. Тогда AR = BRA и R*AR = RTBRA. Далее рас- рассуждения аналогичны приведенным выше для случая невырож- невырожденной матрицы А. Матрицы А и В просто меняются ролями и для приведения матрицыDTiBiDt к диагональному виду исполь- используется следствие 4.4.4 о разложении Такаги вместо спектраль- спектральной теоремы. D Теорема 4.5.15 об одновременной диагонализации в слу- случаях I и II (табл. 4.5.15Т) содержит традиционное условие на матрицу А~1В, а именно что А-1 В — диагонализуемая матрица (возможно, с вещественными собственными значениями), т. е. что она представима в виде RAR~l с диагональной (возможно, вещественной) матрицей Л. Это условие поддается в принципе проверке. Достаточно выяснить, распадается ли минимальный многочлен матрицы А~1В на различные линейные (возможно, вещественные) множители. В случае III, однако, возникает не совсем обычное условие — требуется представимость матрицы А~1В в виде произведения RAR~X с диагональной матрицей Л. Можно сказать, что это условие диагонализуемости матрицы Л~'В преобразованием псевдоподобия вместо обычного подобия. Псевдоподобие обсуж- обсуждается в § 4.6, и в теореме 4.6.11 доказана эквивалентность усло- условия A) случая III(b) теоремы 4.5.15 тому, что матрица СС диагонализуема, все ее собственные значения вещественны и неотрицательны и rank С = rank СС. Предположение о невырожденности удобно в теореме 4.5.15, но в случаях унитарной конгруэнтности 1(а), II(а) и III(а) оно может быть исключено. Для 1(а) такое исключение приводит к новому доказательству классического результата теоремы 4.1.6 об одновременной унитарной диагонализации коммутирующих эрмитовых матриц. 4.5.18. Следствие. Пусть заданы матрицы А,В^М„. (а) Если обе матрицы А и В эрмитовы, то необходимым и достаточным условием существования унитарной матрицы U^Mn, такой, что обе матрицы UAU* и UBU* диагональны, является эрмитовость матрицы АВ (что эквивалентно равенству АВ = ВА).
4.5. Конгруэнтность и одновременная диагонализация 283 (b) Если обе матрицы А и В симметричны, то необходимым и достаточным условием существования унитарной матрицы UeMn, такой, что обе матрицы UAUT и UBUT диагональны, является нормальность матрицы АВ (т. е. равенство АВВА = = ВААВ). (c) Если А эрмитова и В симметрична, то необходимым и достаточным условием существования унитарной матрицы Uе М„, такой, что обе матрицы UAU* и UBUT диагональны, является симметричность матрицы АВ (т. е. равенство АВ—ВА ). Доказательство, (а) Если обе матрицы UAU* = A и UBU* = М диагональны, то А = U*AU, В = U*MU и АВ = U'AUU'MU = U'AMU = U*MAU = U'MUU'AU = В А. В обратную сторону, если АВ = ВА, то матрица Ле = Л4-е/ невырожденна при некотором е>0 и эрмитова; тогда АгВ = = (Л + el) В = АВ + гВ = ВА + еВ = В (А + el) = ВАВ. Таким об- образом, матрица В коммутирует с Ае и ЛГ1; следовательно, матрица А71В эрмитова. По условию C) случая 1(а) теоремы 4.5.15 (см. табл. 4.5.15Т) существует унитарная матрица Ue, при которой обе матрицы UeAeUl = U&AUl + e/ = Ле и UBBUl — Ме диагональны. Тогда диагональны и обе матрицы UeAUl = Ae-eI и UbBU\ = M%. (Ь) Если диагональны обе матрицы UAUT = A и UBUT — М, то справедливы равенства A — U'AU, B — U*MU. Таким обра- образом матрица ЛВ = U'\UUTMU =-- ?/' (ЛМ) С/ унитарно диагонализуема и, следовательно, нормальна. В об- обратную сторону, пусть АВ нормальна. Предположим, что матрица А невырожденна. Тогда матрица АВ = (Л~1)~1 В нор- нормальна и из условия C) случая II (а) теоремы 4.5.15 вытекает, что две симметричные матрицы Л" и В одновременно унитарно диагонализуемы. Это означает существование унитарной матрицы U ^Мп и диагональных Л, М <= Мп, таких, что А~' = = UAUT и B = UMUT. Тогда приходим к равенствам Л = — UA~lUT и B — UMUT, т. е. матрицы Л и В одновременно приводятся к диагональному виду преобразованием требуемого типа. В случае вырожденности матрицы Л требуются дополни- дополнительные аргументы. В силу следствия 4.4.4 найдется унитарная матрица 0^Мп, при которой матрица UAUT диагональна. Пе- Переставляя при необходимости столбцы матрицы U, приходим
284 Гл. 4. Эрмитовы и симметричные матрицы к представлению Е 0 в котором матрица 2 диагональна и невырожденна. Матрицу UBUT разобьем на блоки того же размера: Подматрицы Вц и В22 симметричны, и справедливы равенства 0 "I Г Вп 512] Г25„ 25^ Однако матрица UABU* нормальна, поэтому 2fi,2 —0 (см. зада- задачу 20 в конце данного параграфа), тогда В12 = 0, ведь матрица 2 невырожденна. Следовательно, 0 1 ГВ„ 0 1 _ 25,! 0 Вспоминая предыдущие рассуждения для невырожденного слу- случая, заключаем, что существуют унитарная матрица Vx^.Mk и диагональные матрицы Л,, А2^Мп, такие, что 2=К,Л,К[ и ВП = У,Л2УГ. Для симметричной матрицы В22 также существуют, как известно, унитарная матрица V2 е Мл_& и диагональная матрица Л3 е Л1„_й, такие, что 522= V2A3Vl. Положим Л = Л,ф0еМ„, М = = Л2фЛ3 и К = У,еУ2; тогда UAUT = VAVT, Таким образом, матрицы А = (U'V) Л (U*V)T и S = (f/T одновременно диагонализуются одним преобразованием требуе- требуемого типа. (с) Пусть диагональны обе матрицы UAU* = A и UBUT = М, причем матрица Л обязательно вещественна. Имеем А = U*AU, В = U'MU-, тогда АВ = U'AUVMU = U* AMU = LTMAU = = U*MUUTAU = (f/*Mf/) (?/'Л?/) =
4.5. Конгруэнтность и одновременная диагонализация 235 Обратно, пусть АВ = ВА. Матрица Лен=Л + е/ невырожденна при некотором е > 0 и эрмитова. Справедливы соотношения АгВ — АВ + еВ = ВЛ + гВ=-ВА&, Таким образом, условие D) случая III (а) теоремы 4.5.15 выполнено и существует унитар- унитарная матрица Ue e Мп, такая, что обе матрицы UeAEUl = UBAUl + + e/ = i\e и игВО'е = Мг диагональны. Следовательно, диаго- нальны такл<е обе матрицы UeAUt = Ле — е/ и UsBUl — Me. Q Проблема одновременной диагонализации двух вырожденных эрмитовых матриц преобразованием эрмитовой (не обязательно унитарной) конгруэнтности рассматривается в задаче 8. Как мы уже убедились, преобразованием эрмитовой конгру- конгруэнтности эрмитова матрица может быть приведена к на удивле- удивление простой форме (диагональной с числами ±1 или 0 на диа- диагонали). Пару эрмитовых матриц можно при некоторых усло- условиях одновременно привести к диагональному виду преобразо- преобразованием эрмитовой конгруэнтности. Возникает естественный воп- вопрос: к какой канонической форме можно одновременно приве- привести пару произвольных эрмитовых матриц преобразованием эр- эрмитовой конгруэнтности? Иначе говоря, какую каноническую форму может иметь пара матриц С АС и С ВС с одной осуществляющей конгруэнтность матрицей С? Хотя от- ответ на этот вопрос известен для произвольных эрмитовых пар (обе матрицы могут быть вырожденными), его общая формули- формулировка слишком сложна, не говоря уже о доказательстве. По- Поэтому здесь мы приведем без доказательства ослабленный ва- вариант теоремы о канонической форме пары эрмитовых матриц в предположении невырожденности хотя бы одной из этих мат- матриц. Частный случай, когда возможна одновременная диагона- диагонализация преобразованием эрмитовой конгруэнтности, уже рас- рассматривался ранее. 4.5.19. Теорема. Пусть матрицы А,В^Мп эрмитовы и А не- невырожденна. Тогда существуют число k^n и невырожденная матрица С <= М„, при которых справедливы представления О "В. О с*вс= о О вь
286 Гл. 4. Эрмитовы и симметричные матрицы где каждая пара блоков А{, вид О а . 1 а 1 О Ц, г= 1, 2, ..., k, имеет ГО П 1 О с вещественным числом а и е = ± I, либо вид 0 а 0 1 а 1 0 0 а • 1 0 а 1 0 л. — О Г О L 1 с комплексным числом а и четным числом щ (изображенные подматрицы блока Bt одного размера п,-/2). Замечания 1. Если а вещественно, то допускается значение п; = 1; тог- тогда указанные два блока — это ±а, ±1. Несколько A X ^-бло- ^-блоков, отвечающих одному значению а (и одному значению е=1, например), объединяются в блок вида а/ в С*ВС и вида / в С*АС. 2. При комплексном а в случае я, = 2 блоки принимают вид О а 1 ГО а О}' At = [ I i 3. В условиях последней теоремы блочная структура пары матриц точно соответствует канонической жордановой форме матрицы А~ХВ. Жордановы блоки матрицы А~1В в точности совпадают с ATlBt. Отметим, что (С АС)'1 (С ВС) = С (А-1 В) С, а это означает, что матрица С осуществляет также преобразо- преобразование подобия, приводящее матрицу А~1В к жордановой кано-
4.5. Конгруэнтность и одновременная диагонализация 287 нической форме. Таким образом, канонический вид пары мат- матриц из предыдущей теоремы можно найти с помощью жордано- вой канонической формы матрицы А-1 В (множители инерции — величины е — определяются дополнительно). 4.5.22. Замечание. Точно так же как каноническое представ- представление из теоремы 4.5.19 для пары эрмитовых матриц А и В по отношению к эрмитовой конгруэнтности аналогично канони- канонической жордановой форме матрицы А~1В, имеется каноническое представление для пары вещественных симметричных матриц А и В по отношению к вещественной конгруэнтности, аналогичное вещественной канонической жордановой форме матрицы А~'В. В последнем представлении блоки Bi вида D.5.21) заменяются на естественные аналоги блоков вида C.4.4) жордановой фор- формы, а вид остальных блоков остается прежним. Задачи 1. Пусть А,Ве.Мп и матрица В невырожденна. Доказать существование такой матрицы Се=М„, что А = ВС. Кроме того, для каждой невырожденной матрицы 5 е Мп справедливо ра- равенство SAS* =(SBS*)C, в котором матрица С подобна С. Единственная нетривиальная часть доказательства закона инерции Сильвестра (теорема 4.5.8)—проверка того, что кон- конгруэнтность я X «-матрщ инерции Du D2 (см. D.5.7)) влечет за собой совпадение количества положительных диагональных элементов. Приведенные выше в тексте рассуждения основаны на следствии теоремы Куранта — Фишера. Провести подробное доказательство, руководствуясь следующими соображениями. Пусть D2 = S*D]S и матрица D\ содержит ровно s положитель- положительных диагональных элементов и по крайней мере один отрица- отрицательный. Предположим, что положительны первые s диагональ- ¦ ных элементов матрицы D\ и первые t диагональных элементов матрицы D2 и 1 sg s, / < п. Показать, что если s < t, то най- найдется ненулевой вектор х = [xi\ e С", подчиненный условиям */+i = *t+2 = ¦ ¦ • = хп = 0, (Sx)i = (SxJ ==...= (Sx)s = 0. Затем установить неравенства x'D2x > 0 и Eл:)' Z), Eл:) < 0, противоречащие друг другу. 3. Пусть матрицы А и В эрмитовы. Доказать эквивалент- эквивалентность следующих четырех условий:
288 Гл. 4. Эрмитовы и симметричные матрицы (a) Матрицы А и В одновременно диагонализуемы посред- посредством преобразования эрмитовой конгруэнтности. (b) Для некоторых отличных от нуля вещественных чисел а и b матрицы аА + ЬВ и В одновременно диагонализуемы по- посредством преобразования эрмитовой конгруэнтности. (c) Обе матрицы А и В одновременно эрмитово конгруэнт- конгруэнтны некоторой паре коммутирующих матриц. (d) Матрица А + 1В эрмитово конгруэнтна нормальной мат- матрице. 4. Привлекая доводы из доказательств теоремы 4.5.15 и тео- теорем 1.3.19 и 4.1.6 о коммутативном семействе, доказать следую- следующее обобщение случая I(b) теоремы 4.5.15. Пусть заданы эр- эрмитовы матрицы А\,А% ..., Ak^Mn и А\ невырожденна. Тогда необходимыми и достаточными условиями существования такой невырожденной матрицы ГеМй, что матрицы T*AtT диаго- нальны сразу для всех г = 1,2, ..., k, являются (а) подобие матрицы ЛГ'/1? некоторой вещественной диагональной матрице для каждого i — 2, ..., k и (b) коммутативность семейства мат- матриц {А^1А{: i = 2, ..., k}. Указание. Пусть Ci = ATlAi и SCfS'1 — вещественная диагональная матрица для каждого / = = 2, ..., k. Положить Bi = (S*)-1AiS~1 и показать, что множе- множество {Bi} есть коммутативное семейство эрмитовых матриц. То- Тогда найдется унитарная матрица U, такая, что матрица UBiU* диагональна для каждого i = 2, ..., k, и произведение Т = = S~lU будет осуществлять требуемую конгруэнтность. Что представляет собой соответствующее обобщение случая II (Ь) теоремы 4.5.15? 5. Дифференциальный оператор L, заданный формулой D.0.4) с вещественной симметричной матрицей коэффициентов A{x)='[aij{x)], называют эллиптическим в точке xeflcR", если матрица коэффициентов невырожденна и все ее собствен- собственные значения одного знака. Оператор L называют гиперболиче- гиперболическим в точке х, если матрица А (х) невырожденна и знак одного из ее собственных значений противоположен знаку всех осталь- остальных. Объяснить, почему эллиптический (гиперболический) в не- некоторой точке оператор сохраняет свой тип при замене коорди- координат. Примером эллиптического оператора служит оператор Лапласа ' дх2 ду2 дг2 а гиперболического — волновой оператор n2f = ^L -4- -?L — —^-
4.5. Конгруэнтность и одновременная диагонализация 289 Оба записаны здесь в декартовых координатах и выглядят со- совершенно иначе в сферических, цилиндрических и др. коорди- координатах. 6. Пусть Х = [ХЬ ...,Хп]т и Y = [YU ...,Yn]T — два вектора с вещественными случайными компонентами, у которых конеч- конечны моменты второго порядка. Известно (см. гл. 7), что соб- собственные значения матриц ковариации каждого из векторов X и У неотрицательны. Пусть хотя бы одна из матриц ковариации невырожденна. Доказать существование такой вещественной не- невырожденной матрицы S е М„, что обе матрицы ковариации векторов SX и SY диагональны. На языке статистики это озна- означает существование единственного такого линейного невырож- невырожденного преобразования S, что компоненты каждого из векто- векторов SX и SY не коррелируют. 7. Используя результат задачи 4, сформулировать условия для трех или большего числа случайных векторов, при которых существует единственное невырожденное линейное преобразо- преобразование, переводящие все эти векторы в векторы с некоррелируго- щими компонентами. 8. В случае I(b) теоремы 4.5.15 рассматривается задача од- одновременной диагонализации двух эрмитовых матриц, хотя бы одна из которых невырожденна, преобразованием эрмитовой конгруэнтности. В следствии 4.5.18(а) об одновременной диаго- диагонализации преобразованием унитарной эрмитовой конгруэнтно- конгруэнтности допускается вырожденность обеих матриц. Если обе матри- матрицы вырожденны, то решение задачи об одновременном приведе- приведении их к диагональному виду преобразованием (не обязательно унитарной) эрмитовой конгруэнтности сводится в конечном счете к теореме 4.5.15, но необходимо изучить поведение данных мат- матриц на ортогональном дополнении к пересечению их ядер. Обо- Обозначим две вырожденные эрмитовы матрицы через А,В<=Мп, а их ядра через jV (Л) и N (В) соответственно. (a) Рассмотреть матрицы Л = ["] и В = ['°] как пример двух вырожденных эрмитовых матриц, поддающихся одновре- одновременной диагонализации преобразованием эрмитовой конгруэнт- конгруэнтности. (b) Пусть N(A)f\N(B) — {0} и матрицы А я В можно одно- одновременно диагонализовать преобразованием эрмитовой конгру- конгруэнтности. Доказать существование вещественного числа а, при котором матрица аА -f- В невырожденна. Указание. Пусть мат- матрица С^Мп невырожденна и CMC = Ль С*ВС = Л.2, где Ах и Лг — диагональные матрицы. Показать, что в Л] и Лг нулевые элементы на главной диагонали расположены в разных пози- позициях. Можно ли выбрать число а так, чтобы все элементы глав- главной диагонали матрицы аА.\ + Л2 оказались ненулевыми? 10 Р. Хорн, Ч. Джонсон
290 Гл. 4. Эрмитовы и симметричные матрицы (с) Привлекая результат п. (Ь), убедиться, что матрицы Л = ГО 1 0 1 L0 101 ГО 0 01 О 0 и В= 0 0 1 а о J L о 1 о J йельзя одновременно диагонализовать преобразованием эрмито- эрмитовой конгруэнтности. (d) Предполагая, что N (А) (] N(В) = {0} и что матрица пА -\- В невырожденна при некотором ненулевом а е R, дока- доказать на основе результата п. (Ь) задачи 3, что матрицы А и В одновременно диагонализуемы преобразованием эрмитовой кон- конгруэнтности тогда и только тогда, когда матрица (аА + В)~1В диагонализуема и все ее собственные значения вещественны. (e) Пусть dim N (А) [) N (В) = k ^2 1 и {щ, иъ ..., ип} — орто- нормированный базис в R", первые векторы {щ, м2, ..., uk] которого образуют базис пересечения N (A)[]N (В). Пусть ?/ = = [щи2 ... ы„] е Мп. Показать, что 0 i 0 1 Г 0 ! 0 где Л', В' е Мп_ь N (А') Л N (Вг) = {0} и нулевые блоки в верх- верхнем левом углу имеют размер ky^k. Показать, что пара мат- матриц А и В одновременно диагонализуема преобразованием эрми- эрмитовой конгруэнтности тогда и только тогда, когда одновремен- одновременно диагонализуемы подматрицы А' и В'. Хотя обе матрицы А' и В' могут быть вырожденными, их ядра имеют нулевое пере- пересечение. (f) Суммируя результаты пп. (а) — (е), сформулировать и доказать общую теорему об одновременной диагонализации двух эрмитовых матриц посредством преобразования эрмитовой конгруэнтности. 9. Пусть А,ВеМп и матрица В невырожденна. Установить, что матрица Л коммутирует с В в том и только в том случае, когда Л коммутирует с В~1. 10. Проверить, что матрицы [j 0] и [0 Д] можно одновре- одновременно привести к диагональной форме посредством преобразо- преобразования унитарной конгруэнтности, но нельзя одновременно диа- диагонализовать преобразованием эрмитовой конгруэнтности. Ис- Использовать рассуждения из доказательства случая II(Ь) тео- теоремы 4.5.15 для явного приведения и указать подходящую уни- унитарную матрицу, осуществляющую конгруэнтность. 11. Удостовериться, что матрицы [} р] и [° 0] невозможно одновременно диагонализовать преобразованием (эрмитовой)] конгруэнтности,
4.5. Конгруэнтность и одновременная диагонализация 29! 12. Пусть А,В^Мп и матрица А невырожденна. Показать, что каждое из условий, приведенных в следующей таблице, яв- является необходимым и достаточным для того, чтобы матрицы А и В одновременно приводились к диагональному виду посред- посредством преобразования конгруэнтности, причем в каждом случае имеется в виду такой же тип приведения и условия, как в одно- одноименном случае теоремы 4.5.15 (см. табл. 4.5.15Т). Случай Необходимое и достаточное условие I (а) Существует эрмитова матрица F е М„, при которой В = AF. I (Ь) Существует диагонализуемая матрица FeM, с вещественными собственными значениями, при которой В = AF. II (а) Существует нормальная матрица F е Мп, при которой В = AF. II (Ь) Существует диагоиализуемая матрица F е Мп, при которой В = = AF. III (а) Существует симметричная матрица F е Мп, при которой В = AF III (b) Существует псевдодиагонализуемая (см. определение 4.6.2) мат- матрица F е Мп, при которой В = AF. 13. Пусть матрицы А, В е Мп симметричны (и обе могут быть вырожденными) и существует такая унитарная матри- матрица U& Мп, что UAUT = A, UBUT = М — диагональные матри- матрицы. Установить существование такой унитарной матрицы Ке М„, что ВА = AVВ. Указание. Пусть A = diag(^i,ta, ¦•., Ю- До- Доказать существование унитарной диагональной матрицы D, для которой Л = DA = AD. Затем обосновать равенства В А = U'MAU = U*ADXD2MU = A (t/rD,D2?/) Ъ, где D] и ?>2 — унитарные диагональные матрицы. 14. Используя необходимое условие из задачи 13, показать, что две симметричные матрицы в задаче 8 (с) не приводятся одновременно к диагональному виду преобразованием унитар- унитарной конгруэнтности. Указание. Вычислить первый столбец мат- матрицы В А и матрицы AUB. Используя следствие 4.5.18 (Ь), выве- вывести это же утверждение более простым способом. 15. Пусть матрицы А, В е Мп симметричны. Доказать, что в задаче 13 необходимое условие одновременной диагонали- зации этих матриц будет также и достаточным, если_ только обе матрицы А я В невырожденны. Указание. Если ВА = AUB с невырожденными_матрицами А и В, то A~iBAB~l == U и /== *=UU%. Тогда Л5~15~1Л==ВЛЛВ~1. Сравнение обратных 10*
292 Гл. 4. Эрмитовы и симметричные матрицы к матрицам в левой и правой частях этого равенства убеждает нас, что матрица А~1В нормальна. 16. Пусть матрицы А,ВёМп симметричны (быть может, обе они вырожденны) и существует унитарная матрица U—Mn, приводящая их к диагональному виду. Показать, что матрицы АА и ВВ коммутируют. Удостовериться, что это необходимое условие одновременной диагонализации преобразованием уни' тарной конгруэнтности не является достаточным, рассматривая две матрицы из задачи 8(с). Проверить, что это необходимое условие будет достаточным, если каждая из матриц АА и ВВ имеет простой спектр. 17. Пусть А, В е М„, матрица А эрмитова и В симметрична и существует такая унитарная матрица U ^ Мп, что LJAU* = =Л, UBUT =_М—диагональные матрицы. Показать, что А ком- коммутирует с ВВ. Убедиться, что это необходимое условие одновре- одновременной диагонализации (посредством такого преобразования сме- смешанного типа) не является достаточным, рассматривая две мат- матрицы из задачи 11. При помощи следствия 4.4.5 проверить, что это необходимое условие оказывается достаточным, если все собственные значения матрицы В В различны. 18. Пусть Л,Ве Мп, матрицы А и В симметричны и А невы- рожденна. Доказать, что матрицы А и В одновременно приво- приводимы к диагональному виду преобразованием конгруэнтности, когда все п корней обобщенного характеристического многочле- многочлена рд, e(t) = det(tA — В) различны. Указание. Чему равны соб- собственные значения матрицы Л-'В? 19. Дать новое подробное доказательство закона инерции Сильвестра (теорема 4.5.8) по следующей схеме. Пусть матрица Л е Л*!,, эрмитова и невырожденна и матрица S^Mn невырож- денна. Пусть имеется разложение S = QR с унитарной матрицей Q е М„ и верхней, треугольной матрицей R е Мп с положитель- ¦ ными элементами на главной диагонали. Показать, что матрица S(t) = tQ + (l — t)QR невырожденна при 0^/^1. Положить A (t) == S(t)AS(t)*. Что представляет собой матрица Л@)? Мат- Матрица ЛA)? Учитывая невырожденность матрицы A(t) и непре- непрерывную зависимость от параметра t на отрезке от нуля до еди- единицы, привести доводы в пользу совпадения числа положитель- положительных (отрицательных) собственных значений у матриц А @) и ЛA). Включить сюда и общий случай1), рассматривая матрицу А + е/ при е->0. 0 0 J е Мп, где В е Mk, 1 г^ k < п. Показать, что матрица А нормальна в том и только в том случае, когда нормальна матрица В и С = 0. Указание. ') Когда матрица А вырожденна, — Прим. перев.
4.5. Конгруэнтность и одновременная диагонализация 293 Вычислить произведения АА* и А*А. Если С*С = 0, то имеем (Сх)*(Сх) = 0 для всех векторов х е Cn~ft и, следовательно, Сх = О для всех л; е Сге~\ 21. Убедиться, что способ доказательства утверждения (Ь) следствия 4.5.18 также подходит-Для доказательства утвержде- утверждений (а) и (с) этого следствия. 22. Пусть задано семейство комплексных симметричных матриц Т = {А{ Ak}czMn, и пусть <В = {Л.-Л,: I, \ = 1, .. . ...,k}. Показать, что если существует унитарная матрица U е Мп, такая, что матрицы UAtUT диагональны для всех t=l к, то семейство матриц <§ коммутативна. Рассмот- Рассмотреть частный случай k = 2 и установить связь с утверждением (Ь) следствия 4.5.18. На самом деле верно и обратное: комму- коммутативность семейства *& обеспечивает возможность одновремен- одновременной диагонализации матриц из множества #" посредством пре- преобразования унитарной конгруэнтности (см. статью Хокга и Хорна, указанную в конце этого параграфа). 23. Пусть задано семейство Э~ = {АЬ ..., Ak} cz Mn ком- комплексных симметричных матриц и семейство 36 = {Ви ..., Вт} с~ с:Ж„ эрмитовых матриц, и пусть <§-={AlAf. /,/=l, ...,/г}. Показать, что если существует такая унитарная матрица [/е,Мл, что каждая из матриц U'A-JJ7 и UB(U* диагональна, то оба семейства 'S и Ж коммутативны и каждая матрица BjAi симметрична для всех i= 1, ..., k и у = 1, ..., т. К чему сводится это утверждение при k = tn— 1 и как оно согласуется с утверждением (с) следствия 4.5.18? Хонг и Хорн доказали (см. ссылку в конце этого параграфа) справедливость обратного утверждения. Дополнительная литература Доказательство теоремы 4.5.9 и связанные с этим резуль- результаты содержатся в работе: Ostrovski A. A Quantitative For- Formulation of Sylvester's Law of Inertia, Proc. Nat. Acad. Sci., 1959, v. 45, p. 740—744. Иной вариант теоремы 4.5.19 установ- установлен в [GLR 82]; тщательное доказательство с учетом возможной вырожденности обеих матриц содержится в неопубликованных заметках Р. Томпсона. Одновременная диагонализация более чем двух матриц исследуется в статье: Hong Y. P., Horn R. А. On Simultaneous Reduction of Families of Matrices to Triangular or Diagonal Form by Unitary Congruence. — Linear and Multi- Multilinear Algebra, 1985, v. 17, № 3-4, p. 271-288.
294 Гл. 4. Эрмитовы и симметричные матрицы 4.6. Псевдоподобие и псевдодиагоналмзация Основанием для материала данного раздела служат три ре- результата из двух предыдущих параграфов. В теореме 4.4.3 оха- охарактеризованы все матрицы вида UAUT, где Д — верхняя тре- треугольная, a U—унитарная матрицы. Теперь нам будет удоб- удобней иная запись этого разложения: UAUT = ?/Д?/"~'. В след- следствии 4.4.4 охарактеризованы все матрицы вида UY>UT=UY.U~l, где Б—диагональная матрица. Наконец, в случае III теоре- теоремы 4.5.15 требуется информация о том, когда заданную квад- квадратную комплексную матрицу А можно привести к диагональ- диагональной форме преобразованием Л-^Л.!?-1 для некоторой невырож- невырожденной матрицы S *). 4.6.1. Определение. Две матрицы А и В называют псевдопо- псевдоподобными, если существует невырожденная матрица S е Мп, связывающая их равенством А = SBS'1. Если матрицу S здесь можно выбрать унитарной, то говорят об унитарном псевдопо- псевдоподобии матриц А и В. Если А = SBS~l и матрица S = U унитарна, то Л = SBS~l — = UBUT; если матрица S — Q комплексная ортогональная, то А = SBS~l — QBQ*; если матрица S = R вещественная невырож- невырожденная, то Л = SBS~l = RBR~K Таким образом, конгруэнтность, эрмитова конгруэнтность и обычное подобие являются частными случаями псевдоподобия. Как и обычное подобие, псевдоподобие задает отношение эквивалентности на Мп, и можно задаться вопросом о выделе- выделении классов эквивалентности, содержащих треугольные или диа- диагональные представители. 4.6.2. Определение. Говорят, что матрица А <= Мп приво- приводится к треугольному виду преобразованием псевдоподобия или просто псевдоподобием (является псевдотриангуляризуемой), если существует невырожденная матрица SeMn, такая, что матрица S~lAS верхняя треугольная, и что она приводится к диагональному виду псевдоподобием (является псевдодиаго- нализуемой), если матрицу S можно выбрать так, чтобы мат- матрица S-1AS была диагональной. Если матрицу S здесь можно выбрать унитарной, то А называют унитарно псевдотриангуля- псевдотриангуляризуемой или унитарно псевдодиагонализуемой. Если матрица А е Мп приводится псевдоподобием к верхней треугольной матрице S~lAS = Д, то элементы главной диагонали ') Здесь используются новые обозначения А и S для матриц С и R~l соответственно из условия A) случая III теоремы 4.5,15 (см, табл. 4.5.15Т),—• Прим. перев.
4.6. Псевдоподобие и псевдодиагонализация 295 произведения ДА = S-'(/l/4)S неотрицательны, как показывают явные вычисления. Следовательно, неотрицательны все соб- собственные значения матрицы АА. Но тогда в силу теоремы 4,4.3 существует унитарная матрица U, такая, что UAUT = UAU~l — верхняя треугольная матрица. Таким образом, мы уже научи- научились определять, приводится ли заданная матрица к треуголь- треугольному виду псевдоподобием. 4.6.3. Теорема. Пусть задана матрица А е Мп. Следующие утверждения являются эквивалентными: (a) матрица А приводится к треугольному виду псевдопо- псевдоподобием; (b) матрица А приводится к треугольному виду унитарным псевдоподобием; _ (c) все собственные значения произведения АА вещественны и неотрицательны. Если матрица А^Мп унитарно псевдодиагонализуема, то А = UAU~1 = UAUT с некоторой унитарной матрицей U е Мп и диагональной матрицей A = diag(A1, ..., %п). Таким образом, Ат = (UAUT)T = UATUT = UAUT = А и, следовательно, матрица Л симметрична. В силу следствия 4.4.4 верно и обратное, причем диагональную матрицу здесь всегда можно выбрать неотрица- неотрицательной. Тем самым мы также решили проблему унитарной псевдодиагонализации. 4.6.4. Теорема. Матрица А е Мп унитарно псевдодиагонали- псевдодиагонализуема тогда и только тогда, когда она симметрична. Среди вопросов, связанных с приведением к треугольному и диагональному виду псевдоподобием, без ответа остался только вопрос практичной характеризации псевдодиагонализуе- мых матриц, когда унитарность псевдоподобия не предпола- предполагается. Пусть матрица А о Мп приводится к диагональному виду S~M5 = A = diag(A1, ...,ln); тогда AS — SA. Вводя обозна- обозначения S = [S[ ... sn], где S; e С", запишем это равенство для каждого столбца: A§i = 'kiSi, i=\, ..., п. Собственные значе- значения и векторы связаны похожим образом, однако имеющееся отличие оказывается существенным. 4.6.5. Определение. Пусть задана матрица А е Мп. Ненуле- Ненулевой вектор ieC, подчиненный условию Ах = %х с некоторым кеС, называют псевдособственным вектором матрицы А, а со- соответствующее число % — псевдособственным значением мат- матрицы А. Равенство AS = $A означает, что каждый ненулевой стол- столбец из S есть псёвдособственный вектор матрицы А. Столбцы
296 Гл. 4. Эрмитовы и симметричные матрицы матрицы S линейно независимы в том и только в том случае, когда S невырожденна. Поэтому матрица А е Мп псевдодиаго- нализуема тогда и только тогда, когда у нее имеется п линейно независимых псевдособственных векторов. В этом отношении теория псевдодиагонализации полностью параллельна теории обычной диагонализации. Но каждой матрице соответствует по меньшей мере одно собственное значение и общее число ее различных собственных значений конечно. При переходе к псевдособственным значениям эти утверждения теряют силу. В самом деле, если Ах = Кх, то е~тАх = А (Л) = е~тХх = {е~тх) (Л) для всех 9eR. Таким образом, одновременно с псевдособст- псевдособственным значением X у матрицы А имеются псевдособственные значения е1 X для всех 8eR. С другой стороны, равенство Ах = Хх влечет за собой ААх = А (Ах) = А (Хх) = ХАх = ХХх — = | X | х. Следовательно, число X есть псевдособственное зна- значение матрицы А, только когда | X f есть собственное значение произведения АА. Пример А = [° ~^\, когда произведение АА = = —2/ не имеет неотрицательных собственных значений, убеждает в том, что существуют матрицы, у которых вообще нет псевдособственных значений. Известно, однако, что если А е Мп и п нечетно, то у матрицы А имеется по крайней мере одно псевдособственное значение — результат, аналогичный тому факту, что произвольная вещественная матрица нечетного по- порядка имеет хотя бы одно вещественное собственное значение. Итак, в отличие от положения с обычными собственными значениями матрица может иметь бесконечно много различных псевдособственных значений или не иметь их вовсе. Если из- известно псевдособственное значение матрицы и тем самым опре- определен бесконечный набор псевдособственных значений с одним модулем, то в этом наборе в качестве представителя иногда удобно взять единственное неотрицательное псевдособственное значение. Указанное выше необходимое условие существования псев- псевдособственного значения оказывается также достаточным. 4.6.6. Предложение. Пусть заданы матрица А е Мп и число X ^ 0. Тогда % есть собственное значение произведения АА в том и только в том случае, когда число -f- л/Х есть псевдо- псевдособственное значение матрицы А. Доказательство. Если X ^0, *Jx >0и Л^ = л/х х при неко- некотором векторе хфО, то ААх = А (Ж) = А (УХ д;) = *JXAx = Хх.
4.6. Псевдоподобие и псевдодиагонализация 297 В обратную сторону, пусть ААх = Хх для некоторого х ф 0. Имеются две возможности: (a) векторы Ах и х линейно зависимы, либо (b) векторы Ах и х линейно независимы. В первом случае имеем равенство Ах = \х,х для некоторого jj, e С, которое означает, что ц, — псевдособственное значение матрицы А. Но тогда Хх = А Ах = А (Ах) = А (цх) = р, Ак = Дц* = = |(x|2x, т. е. | (д, | =-|-лД- Поскольку псевдособственному зна- значению е~ 1 ц отвечает псевдособственный вектор е' х для лю- любого 6eR, приходим к заключению, что число + *J~X является псевдособственным значением матрицы А. Отметим, что АА(Ах) = А(ААх) = А(Хх) — Х(Ах) и ААх — Хх, а это означает, что в случае простого собственного значения X матрицы АА всегда реализуется случай (а). В другом случае (Ь) (который может осуществиться, если X— кратное собственное значение матрицы АА) линейная ком- комбинация у — Ах -j- л/х л; является ненулевой и оказывается псев- псевдособственным вектором, отвечающим псевдособственному зна- значению + л/х, поскольку Ау = ААх+ л/Х Ах == Хх + л/х Ах == л/х(Ах + -у/хх) === л/ху. ? Мы убедились, что каждому неотрицательному собственному значению произведения А А соответствует псевдособственнып вектор матрицы А. В этом факте вновь проявляется аналогия с обычной спектральной теорией. Такая аналогия до некоторой степени развивается следующим результатом. 4.6.7. Предложение. Пусть задана матрица А^Мп со своими псевдособственными векторами х\, х2, .... хи, отвечающими псевдособственным значениям ХХ,Х2, ..., Xk. Если \Xi\?=\X/\ при 1 =SC i, j ^ k и i Ф j, то множество {х\, ..., хн) линейно не- независимо. Доказательство. Каждый вектор xi является собственным для АА и ему соответствует собственное значение \Xi\2. Век- Векторы Х\, ..., xk линейно независимы в силу теоремы 1.3.8 как собственные векторы матрицы АА, соответствующие различным (по предположению) собственным значениям |^i|2, ..., \Хк\2. ? Это предложение вместе с предыдущим позволяет оценить снизу число линейно независимых псевдособственных векторов заданной матрицы и приводит к достаточному условию псевдо- диагонализации, аналогичному известному достаточному уело-
298 Гл. 4. Эрмитовы и симметричные матрицы вию диагонализации. Более общее условие мы дадим в тео- теореме 4.6.11. 4.Р.8. Следствие. Пусть задана матрица А е Мп. Если суще- существуют k различных неотрицательных собственных значений произведения АА, то матрица А имеет по крайней мере k ли- линейно независимых псевдособственных векторов. При k = n матрица А псевдодиагонализуема. При k = О матрица А вообще не имеет псевдособственных векторов. Эти границы числа линейно независимых векторов точны, Положим А =/„A), где 1 1 О" 1 . О — элементарный жорданов блок. Тогда произведение АА — = /пA) имеет единственное неотрицательное собственное зна- значение, равное единице. Легко видеть, что уравнение Ах = х для псевдособственного вектора допускает только вещественные ре- решения. Тогда каждый псевдособственный вектор является так- также собственным, а собственное подпространство будет одномер- одномерным. Образуя прямую сумму элементарных жордановых бло- блоков, можно, таким образом, получать примеры матриц А е Мп с любым заданным числом k (l^fe^n) линейно независи- независимых псевдособственных векторов, причем произведение А А бу- будет иметь точно k различных неотрицательных собственных зна- значений. Наша цель — найти простое условие псевдодийгонализуемо- сти произвольной заданной матрицы. В качестве первого шага докажем лемму, мотивированную следующим фактом. Если данная матрица А<= Мп псевдоподобна скалярной матрице, то Матрицы с таким свойством (что произведение АА — скалярная матрица) будут теми кирпичиками, из которых мы построим псевдодиагонализуемые матрицы. _4.6.9. Лемма. Матрица А е М„ удовлетворяет равенству АА = I тогда и только тогда, когда существует невырожденная матрица S э М„, такая, что А = SS~K Доказательство. Необходимость данного условия уже была установлена ранее. Чтобы доказать достаточность, положим
4.6. Псевдоподобие и псевдодиагонализация 299 Se = е'вА + е~'е/, где 9eR произвольно, и заметим, что AS, = A (е~юА+ею1) = е~1вАA+et%A = е'еЛ+e~ieI = Se. D.6.10) Число собственных значений матрицы А конечно, поэтому су- существует Go e R, при котором величина —е2'9" не является соб- собственным значением матрицы А. Выбирая б = 8о, заключаем, что матрица Seo — e \A-\-e I) невырожденна и Л = 5е„5ё'о1 в силу D.6.10). П Теперь мы готовы установить необходимое и достаточное условие псевдодиагонализуемости. 4.6.11. Теорема. Пусть А^Мп. Тогда невырожденная мат- матрица S^Mn и диагональная матрица АеМл, такие, что А — = Si\S~\ существуют в том и только в том случае, когда мат- матрица А А диагонализуема, все ее собственные значения неотри- неотрицательны и rank Л =гапкЛЛ. Доказательство. Необходимость указанных условий не вы- вызывает сомнений, поскольку АА = SAS~1SAS~1 = S\ A f S~l и ранг каждой из матриц АА и А совпадает с числом ненулевых диагональных элементов в Л. Обратно, если матрица АА диаго- диагонализуема и ее собственные значения неотрицательны, то най- найдутся невырожденная матрица SeMa и неотрицательная диа- диагональная матрица ЛеМл, такие, что АА = SAS~l. He теряя общности, предположим, что равные между собой диагональные элементы в Л сгруппированы вместе, т. е. Л = kiln, ф Ып2 ф ... ф khlnk, где 1п. ^МП{ и Xi > l2 > h > ¦ • • > К > 0. Тогда S^AAS = S~lASS~lAS = (S~lAS) (S~lAS) = Л. Если положить B = S~1AS, то достаточно будет показать (поскольку псевдоподобие есть отношение эквивалентности), что матрица В псевдодиагонализуема при ВВ = А. В силу вещественности Л имеем Л = Л = (ВВ) = ВВ ==_ВВ, т._ е. матрицы В к В коммутируют. Тогда ВА = В (ВВ) = ВВВ = т. е. матрицы В и Л также коммутируют.
300 Гл. 4. Эрмитовы и симметричные матрицы Запишем матрицу В в блочном виде: Вп В12 ... в кк. Размеры блоков здесь согласованы с размерами блоков в матрице А == о nk -J , lntezMnt, /=1, 2, .... к. Равенство ВЛ = KB на языке блоков означает, что 'kiBii = XjBfj для всех г —1, 2, ..., &. Поскольку Х{ФХ] при t =й=/, прихо- приходим к заключению, что Вц — 0 при i=r=j, T- е- матрица В блочно-диагональная: 3,1 01 О . , . о в, кк и размеры диагональных блоков совпадают с размерами соот- соответствующих блоков в Л. Равенство ВВ = А означает, что ВиВи==Х11 для i—\, 2, ..., k. Отметим невырожденность блока В и при Kt > 0. Если Kt > 0, то последнее равенство записывается в виде Применяя лемму 4.6.9, убеждаемся в существовавши невы- невырожденной матрицы Si e МП{, такой, что Вц = (V )l Если Хк = 0, то rank Вп + rank В22 + ••• +rankBAfe = = гапкБ== In{)STl. Отсюда видно, что rankBftft = 0, т.'е. при lk = 0 блок B^k нуле- нулевой. В этом случае можно записать 0 = Bkk = Sk (V^a /) 5JJ, где Sa e Afrtft — произвольная невырожденная матрица. Поло- Положим S = Sl@ ...@Sk. Поскольку мы уже рассмотрели все
4.6. Псевдоподобие и псевдодиагонализация 301 возможные случаи, приходим к искомому разложению Необходимые и достаточные условия псевдодиагонализуемо- псевдодиагонализуемости можно применить в случае III (b) теоремы 4.5.15, что приво- приводит к следующему утверждению. Пусть заданы матрицы А, В е Мп, причем А эрмитова, В симметрична и одна из этих матриц невырожденна. Положим С = А~1В либо С = В~1А в зависимости от того, какая из матриц вырожденная. Тогда не- невырожденная матрица S е М„, такая, что матрицы SAS* и SBST диагональны, существует в том и только в том случае, когда матрица Сс диагонализуема, все ее собственные значения не- неотрицательны и rank С — rank CC. Частный случай комплексной симметричной матрицы А легко укладывается в рамки теоремы о псевдодиагонализации. В са- самом деле, произведение АА = АА* в этом случае эрмитово и, следовательно, диагонализуемо. Далее rank A = rank АА* для любой матрицы А е Мп, т. е. для комплексной симметричной матрицы А все условия теоремы 4.6.11 выполнены. Тогда из этой теоремы следует, что каждая комплексная симметричная мат- матрица псевдодиагонализуема. Однако здесь не отражается непо- непосредственно тот факт, что псевдодиагонализация такой матри- матрицы может осуществляться унитарным преобразованием. См. за- задачу 22 в конце настоящего параграфа. Эти замечания помогают с другой точки зрения рассмотреть разложение Такаги (следствие 4.4.4) комплексной симметрич- симметричной матрицы и приведение к треугольному виду посредством преобразования унитарной конгруэнтности в теореме 4.4.3. Тео- Теорема 4.4.3 гласит, что каждая матрица А е Мп, такая, что все собственные значения произведения АА неотрицательны, допус- допускает приведение к треугольному виду унитарным псевдоподо- псевдоподобием. Результат Такаги состоит в том, что каждая комплексная симметричная матрица унитарно псевдодиагонализуема. Среди псевдособственных значений бессмысленно выделять «вещественные» и «невещественные»'), поэтому не различаются понятия «унитарная псевдодиагонализуемость с вещественными {или положительными) псевдособственными значениями» и «унитарная псевдодиагонализуемость с комплексными псевдо- псевдособственными значениями», которые могли бы быть аналогами соответственно понятий эрмитовости (или положительной опре- определенности) и нормальности. Таким образом, комплексные сим- симметричные матрицы можно считать аналогом (для псевдоподо- ') Поскольку вместе с псевдособственным значением X псевдособствен- псевдособственными значениями являются все комплексные чилса того же модуля \Х\.— tlpuju. nepee.
302 Гл. 4. Эрмитовы и симметричные матрицы бия) всего класса нормальных матриц (для обычного подобия), и разложение Такаги можно рассматривать как аналог спек- спектрального разложения нормальных матриц в теореме 2.5.4 (а, Ь). Теория обычного подобия возникла в результате исследова- исследования линейных преобразований в различных базисах. Понятие псевдоподобия аналогичным образом связано с полулинейными преобразованиями. Полулинейное преобразование Т есть ото- отображение Т: V-+W одного комплексного векторного про- пространства в другое, которое является аддитивным (т. е. Т(х-{- -+- у)— Тх -\- Ту для всех векторов х, у е V) и сопряженно-одно- сопряженно-однородным (т. е. Т(ах) = аТ(х) для всех йеС 8 всех xeF; это свойство иногда называют антиоднородностью). Такие преобра- преобразования возникают в квантовой механике при изучении эффек- эффектов обращения времени. Класс псевдодиагонализуемых матриц достаточно обширен. В него входят все вещественные диагонализуемые матрицы с вещественными собственными значениями, все (вещественные и комплексные) симметричные матрицы и все матрицы вида H2S, где Н эрмитова, a S симметрична (см. задачи 10 и 11 в конце параграфа). Последнее наблюдение лежит в основе до- доказательства второго утверждения в следствии 4.6.12. Положи- Положительно определенная матрица А е Мп есть невырожденная эр- эрмитова матрица, подчиненная условию1) х*Ах>0 для всех ненулевых векторов х е С". Это эквивалентно условию, что эр- эрмитова матрица А обладает положительным спектром, либо что А — Н2 с некоторой невырожденной эрмитовой матрицей Н |см. гл. 7). 4.6.12. Следствие. Пусть А,В^Мп, причем матрица А эрми- эрмитова и положительно определена. (a) Если В эрмитова, то существует невырожденная мат- матрица S е Мп, при которой SAS* = I и SBS* — вещественная диагональная матрица. (b) Если В симметрична, то существует невырожденная мат- матрица S^Mn, при которой SAS* = I и SBST — вещественная диагональная с неотрицательными элементами. Доказательство. Пусть Л = Н2, где Н е Мп — невырожден- невырожденная эрмитова матрица. (а) Положим С s= А'1В = ЯВ; тогда С подобна матрице НСН~1 = Н(Н~2В)Н~1*=Н~1ВН~\ которая является эрмито- эрмитовой и, следовательно, диагонализуемой с вещественным спек» тром. Это означает, что матрица С обязана быть также диагона- диагонализуемой и обладать вещественным спектром. Тогда матрицы А ') Из этого условия на самом деле вытекает эрмитовость матрицы,—* Прим.. перев.
4.6. Псевдоподобие и псевдодиагонализация 303 и В одновременно диагонализуемы посредством преобразова- преобразования эрмитовой конгруэнтности по теореме 4.6.16, случай I(b) B). Если H~lBH~l = UAU* с унитарной матрицей U и диагональ- диагональной матрицей Л, то невырожденная матрица S = U*H~l обеспе- обеспечит справедливость равенств SAS* = /, SBS* = Л. _ _ (Ь) Положим С=А~ХВ=*Н~2В; тогда матрица СС=Н~~2ВН~2В подобна матрице н (сс)н~1 «= н~хвн~2вн~х = (н~1вн-1) (н^вИ'1)*, которая является эрмитовой и положительно полуопределен- полуопределенной ') и, следовательно, диагонализуемой с неотрицательным спектром. Однако _ _ _ rank(CC) — rank (H~lBH~l) (Н~ХВН~Х)* — rank (Н~ХВН ~1) в силу 0.4.6 (d) и rank (H~lBH~l) =~ rank (Н~2В) = rank С в силу 0.4.6(Ь). Поэтому из теоремы 4.6.11 вытекает выполнение условия случая Ш(Ь)A) теоремы 4.5.15. Таким образом, суще- существует невырожденная матрица SsMn, такая, что матрицы SAS* и SBST диагональны. Отметим симметричность матрицы (У ()()Т = Н-ХВ(Н1)Т; тогда по след- стврю 4.4.4 существуют унитарная матрица U и неотрицатель- неотрицательная диагональная матрица 2, такие, что Н~1В(Н" ) = откуда Полагая S = U*H~\ приходим также к равенству SAS*~I. ? Мы рассмотрели приведение псевдоподобием к диагональ- диагональному виду, однако не каждая матрица псевдодиагонализуема и естественно задаться вопросом о некоторой простой форме, к которой можно было бы свести псевдоподобием произвольную матрицу. Такая нормальная форма по отношению к псевдоподо- псевдоподобию существует, и ее роль аналогична той, которую играет жор- данова форма по отношению к обычному подобию. Прнвлекая- эту форму, можно для каждой матрицы А<=Мп доказать такие утверждения: матрицы А, А, А* и Ат псевдоподобны (ср. с ут- утверждением разд. 3.2.3); матрица А псевдоподобна некоторой эрмитовой матрице (ср. с теоремой 4.4.9) и некоторой всщэ- ственной матрице; существуют невырожденные симметричные матрицы SuS2^Mn и эрмитовы матрицы ЯьЯ2еМ„, такие, ') Положительная полуопределенность матрицы А е М„ определяется условием х*Ах ?3= 0 для всех векторов х е С (см. гл. 7), — Прим. переев
304 Гл. 4. Эрмитовы и симметричные матрицы что Л = SiHi<= H2S2 (ср. со следствием 4.4.11). На самом деле вопрос установления псевдоподобия допускает решение в более привычных понятиях: две матрицы А,В^Мп псевдоподобны тогда и только тогда, когда (а) матрицы ЛЛ_и ВВ подобны и (b) rank Л — rank В, rank АА=тгпкВВ, гапкЛЛЛ=гапк ВВВ, ... и так далее для всех п таких произведений с не более чем п чередующимися сомножителями. Задачи 1. Показать, что псевдоподобие задает отношение эквива- эквивалентности на Мп- 2. Провести подробно доказательство теоремы 4.6.3. 3. Пусть заданы матрица Л е Мп и ее псевдособственное значение X. Проверить, что множество отвечающих к псевдо- псевдособственных векторов матрицы Л не обязано быть подпростран- подпространством в С" над полем С, но всегда будет подпространством над полем R. Сравнить с ситуацией для обычных собственных век- векторов. 4. В теореме 4.6.11 приводятся необходимые и достаточные условия псевдодиагонализуемости одной заданной матрицы. Что изменится, если необходимо привести к диагональному виду посредством псевдоподобия одновременно несколько матриц? Пусть задан набор матриц {Ль А2, ...,Ак} а Мп. Предположим, что невырожденная матрица 5 е Мп удовлетворяет равенствам Aj = SAiS для i=l, ..., k, где каждая матрица Л, диаго- нальна. Доказать, что (a) каждая матрица Л,- псевдодиагонализуема; (b) каждое произведение AtAj диагонализуемо; (c) семейство произведений {AiAf. i, /=1, ..., k} комму- коммутативно; (d) сумма AjAj + A}At обладает вещественным спектром, а разность AtA, — А.А^ — чисто мнимым спектром для всех i, /=1, .... к. Рассмотреть частный случай k = 1. Приведенные необходи- необходимые условия на самом деле являются также достаточными, что доказано в работе Хонга и Хорна, на которую мы ссылались в конце § 4.5. 5. Произведение ЛЛ играет важную роль в теории псевдопо- псевдоподобия. Показать, что для произвольной матрицы Л е Мп харак- характеристический многочлен матрицы АА имеет вещественные ко- коэффициенты. Вывести отсюда, что комплексные собственные значения матрицы АА образуют сопряженные пары. Указание, det(tA~ AAA)= detA det(tl—AA) = det(tl-AA)detА. Таким образом, если Л невырожденна, то характеристические много-
4.6. Псевдоподобие и псевдодиагонализация 305 члены произведений АА и АА = (АА) совпадают. В общем слу- случае ввести в рассмотрение матрицу АЕ = А-\- el. Более точный результат для произведения АА см. в задаче 8. 6. При наличии у произведения АЛ неотрицательных соб- собственных значений у матрицы А существуют псевдособственные векторы, однако важны и остальные собственные значения этого произведения. Пусть А е М„ и ААх=%х, где х ф 0 и >.еС подчинено условию А, ^ [0, оо). Обозначим через а е С любой квадратный корень из А, и определим вектор у равенством Ах = ау. Убедиться, что А у = ах, ААу — Ху и векторы х, у линейно независимы. Указание. В случае их линейной зависи- зависимости вектор х должен быть псевдособственным и 1>0. По- Показать, что все комплексные собственные значения произведе- произведения АА встречаются сопряженными парами и любое отрицатель- отрицательное собственное значение этого произведения имеет геометри- геометрическую кратность не меньше двух. Ср. с задачей 5. 7. Пусть А е Мп, К — отрицательное собственное значение матрицы АА и ААх — кх, хфО, а2 = Х, Ах = ау, Ау — ах. Согласно задаче 6, векторы х и у линейно независимы. (a) Пусть х' = х + $у, у' = у — $х. Показать, что Ах' = ауг, Ау' = ах при любом выборе реС. (b) Показать, что параметр р можно выбрать так, чтобы векторы х' и у' стали ортогональными. (c) Пусть нормирующий множитель s > 0 выбран так, чтобы вектор l, = sx' был единичным, и пусть r\ = sy'. Установить равенства Л| = ат), Ац = а?, 1*т) = 0. (d) Пусть нормирующий множитель г > 0 выбран так, чтобы вектор гц был единичным, и пусть U = [| гх\ и3 ... ип] е М„ — унитарная матрица. Доказать, что 0 а/г 0 га 0 * А' где А' е М, п-Ь и, следовательно, V (АА) U = Л 0| о я! 0 \А'А' ^) Показать, 4jro каждое отрицательное собственное зна- значение матрицы АА имеет четную алгебраическую кратность. Ср. с задачей 6.
305 Гл. 4. Эрмитовы и симметричные матрицы 8. Для произвольной матрицы АеМ, установить следую- следующую явную формулу подобия: / -л лтГллоТг/ лт го о I /JL А 0 J L 0 I \ = 1а АА У Вывести отсюда, что имеется взаимно однозначное соответствие между жордановыми блоками матриц АА и АА, отвечающими ненулевым собственным значениям. Учитывая равенство АА = ~ АА, показать, что жордановы блоки матрицы АА, отвечаю- отвечающие комплексным собственным значениям, встречаются сопря- сопряженными парами. Вывести отсюда, что матрица АА подобна некоторой вещественной матрице. Указание. См. обсуждение вещественной жордановой формы в § 3.4. Фактически можно утверждать нечто большее, а именно что матрица АА всегда подобна квадрату некоторой вещественной матрицы. Что мож- можно сказать тогда о собственных значениях матрицы АА} 9. Доказать следующее утверждение (и обратное к нему). Если матрица А е Мп подобна какой-нибудь вещественной мат- матрице, то матрица А подобна А. Используя этот факт и результат задачи 8, показать, что матрицы АА и АА подобны для любой А е Мп. Проверить, что произведения АВ и ВА в общем случае не обязаны быть подобными. 10. Убедиться, что множество псевдодиагонализуемых мат- матриц в Мп включает в себя следующие подмножества: (a) Все вещественные диагонализуемые матрицы с веще- вещественным спектром. (b) Все диагонализуемые матрицы с набором из п линейно независимых вещественных собственных векторов. (c) Все симметричные матрицы. (d) Все положительно определенные эрмитовы1) матрицы. Указание. Если матрица А положительно определена, то спра- справедливо представление А — НН = H(HHT)H~l, где матрица Н эрмитова и невырожденна. (e) Все произведения АВ, в которых А — положительно определенная эрмитова матрица, а В — симметричная, или, что то же самое, всевозможные произведения Н2В, в которых Н — эрмитова невырожденная матрица, а В — симметричная. Указа- Указание. Н2В = Н{НВН)ТН-К П. Проверить, что множество CDn псевдодиагонализуемых матриц2) в Мп обладает следующими свойствами: ') Как уже указывалось в примечании, эрмитовость матрицы в Мп яв- является следствием ее определенности. — Прим. перев. 2) Обозначение CD образовано из букв термина «condiagonalization», который мы переводим как «псевдодиагонализация»,— Прим. перев.
4.6. Псевдоподобие и псевдодиагонализация 307 (a) Если ЛеСО„ и матрица SeMn невырожденна, то SAS~l <= SDa. (b) Нулевая матрица входит в CDn. (c) Если А <= CDn ийеС, тоаЛе CDn. (d) Если матрица А е С?>„ обратима, то Л~'еСО„. 12. Проверить, что (a) матрицу [„ (] нельзя привести к диагональному виду обычным подобием, но она псевдодиагонализуема; (b) матрица [ \ ~\ ] диагонализуема в обычном смысле, но не является псевдодиагонализуемои; (c) матрица [JJ] не приводится к диагональному виду ни подобием, ни псевдоподобием. _ 13. Пусть задана такая матрица Ае.Мп, что ЛД = Л = = V*, © • • • 0 МпА, где Kt ф Я/ при 1Ф] и все к{ > 0. Дока- Доказать существование такой унитарной матрицы U е Мп, что Л = = UAUT, где A = A!0...©Aft и каждая матрица AiejH^ является верхней треугольной. 14. Лемма 4.6.9 гласит, что матрица А е М„ допускает разложение Л = 55~' с некоторой невырожденной матрицей SsMn тогда и только тогда, когда АА — /. Привлекая след- следствие 4.4.4, показать, что А = UU~l = UUT, где матрица U е_Мя унитарна, в том и только в том случае, когда А~ = А и матрица А симметрична. Как это согласуется с теоремой 4.4.7? 15. Пусть АевМп и A = B + iC, где B,CeMn(R). Убе- Убедиться, что число 1еС будет псевдособственным значением матрицы А тогда и только тогда, когда ±\к\ суть (веществен- (вещественные) собственные значения блочной матрицы В С Указание. Переписать равенство Ах = гх, где г = \Х\, исполь- используя разложение x — u-\-iv, a,t)GR". Таким образом, если у матрицы F нет вещественных собственных значений, то у мат- матрицы А не существует псевдособственных значений. 16. Установить, что собственные и псевдособственные зна- значения диагональной или верхней треугольной матрицы Л е М„ обладают следующим свойством. Если %— собственное значе- значение матрицы А, то е'вХ — ее псевдособственное значение при 'любом 8gR; если ц — псевдособственное значение матрицы А, то е*вц — ее собственное значение при некотором 8eR. 17. Пусть /4eMn(R). Доказать, что каждое вещественное .собственное значение матрицы А будет также ее псевдособ-
308 Гл. 4. Эрмитовы и симметричные матрицы ственным значением и что псевдособственное значение \х ^ 0 матрицы А либо само будет собственным значением, либо соб- собственным значением будет противоположное к нему —ц. Ука- Указание. Выделить в равенстве Ах = \ах вещественную и мнимую части, привлекая разложение i = « + w,u,oe R". Рассмотреть матрицу ^ = [_°J] как пример вещественной матрицы с невещественными собственными значениями, кото- которые не связаны ни с какими псевдособственными значениями. 18. Во что переходит утверждение леммы 4.6.9 при п = 1? Комплексное число 2 лежит на единичной окружности комплекс- комплексной плоскости, если zz = \. В применении к матрицам обычное обобщение этого условия записывается в виде АА* = /. Подчи- Подчиненные ему матрицы суть унитарные матрицы, имеющие фунда- фундаментальное значение в матричной теории. Другое обобщение !(при п = 1 совпадающее с предыдущим) — это условие АА = 1, которому подчинены матрицы, характеризуемые в лемме 4.6.9 как псевдоподобные единичной. Предполагая, что для матрицы А е Мп выполняется условие АА = /, доказать, что (a) матрица А невырожденна; (b) А'Х = А; (c) |det Л |==!Ла ... й,„|=1; (d) если Ах — lx, х Ф 0, то Ах — A/Х)х, т. е. число 1/А, является собственным значением матрицы А вместе с числом К. Проверить, что произведение А = ВВ~\ где В = [_^], 2eR, гф ± 1, имеет спектр Г *-1 1±±\ \ 2+1 ' г-\ Г Матрица А является примером того, что не у всех матриц ин- интересующего нас типа спектр принадлежит единичной окруж- окружности. 19. Известно, что каждая комплексная матрица АеМп до- допускает разложение вида A — RE, в котором R, Е е Мп, мат- матрица R подобна некоторой вещественной матрице и ЕЕ = /. Доказать это, опираясь на тот факт, что произвольная матрица А е М„ псевдоподобна некоторой вещественной матрице. Объ- Объяснить, каким образом здесь обобщается представление комп- комплексного числа 2 в форме z = re'9, где г и 8 — вещественные числа. 20. Убедиться, что теорему 4.6.11 можно доказать на основе общих необходимых и достаточных условий псевдоподобия двух матриц, приведенных в последнем абзаце данного параграфа. Указание. Проверить эти условия для матрицы А и диагональ- диагональной матрицы Л.
4.6. Псевдоподобие и псевдодиагонализация 309 21. Привлекая тот факт, что произвольная матрица А <= Мп псевдоподобна некоторой вещественной, доказать существова- существование по меньшей мере одного псевдособственного значения мат- матрицы А, если порядок п нечетен. Указание. Вещественная мат- матрица R нечетного порядка имеет хотя бы одно вещественное собственное значение. Что при этом можно сказать о спектре ее квадрата_/?2? Если матрица А псевдоподобна R, то как про- произведение АА связано с R2} 22. Пусть матрица А <= Мп симметрична. В рассуждениях, следующих за теоремой 4.6.11, было показано, что матрица А псевдодиагонализуема, т. е. существуют невырожденная мат- матрица SeM, и диагональная матрица Л е Мп, такие, что А = = SAS~l. Проверить, что матрицу S здесь можно выбрать уни- унитарной (и тем самым вывести из теоремы 4.6.11 следствие 4.4.4). Указание. Симметричность матрицы А гарантирует справедли- справедливость равенств (S*S)A = A(S*S) = A(S*S)T. Используя поляр- полярное разложение из теоремы 7.3.3, записать S = UP, где мат- матрица U^Mn унитарна, Р<=М„ эрмитова и P — p(S*S) для не- некоторого многочлена p(t) (см. доказательство теоремы 7.2.6). Вывести отсюда равенства РЛ = АР = АРТ и, следовательно, SAS-1 = UAUT. Дополнительная литература Более подробные сведения о псевдоподобии и задаче одно- одновременной псевдодиагонализации семейства матриц имеются в статьях Хонга и Хорна, ссылки на которые даны в конце § 4.4, 4.5, а также в отчете этих же авторов: Hong Y. P., Horn R. А. A Canonical Form for Matrices under Consimilarity. Technical Report № 415. — Department of Mathematical Sciences, Johns Hop- Hopkins University, Baltimore, October 30, 1984. Понятие псевдопо- псевдоподобия можно обобщить, заменив поле комплексных чисел на произвольное поле; при этом роль комплексного сопряжения играет какой-либо автоморфизм данного поля, см. [Jac], p. 27.
Глава 5 НОРМЫ ВЕКТОРОВ И МАТРИЦ 5.0. Введение Что могут означать слова «малый» или «большой», когда речь идет об отдельных векторах в С" или матрицах в Мп? При каких обстоятельствах можно говорить о том, что два вектора расположены «по соседству» или «на значительном расстоянии» друг от друга? Чтобы установить «величину» и «близость» вещественных векторов в двух- или трехмерном пространстве, обычно обра- обращаются к евклидову расстоянию. Вектор zeR" имеет евкли- евклидову длину (zTz)i/2 = (]С 2?I/2- Если это неотрицательное число мало, то вектор z называют «малым» (по отношению к данной мере длины). Кроме того, заданные векторы х и у считают «близкими», если мала евклидова длина их разности z = x — y. Что можно сказать о «величине» матриц, которые можно рассматривать как векторы в пространстве большей размерно- размерности? О «длине» векторов в бесконечномерных пространствах или векторов, имеющих комплексные компоненты? Имеются ли полезные способы измерения «величины» вещественных векто- векторов, помимо их евклидовой длины? Один из подходов к ответу на эти вопросы основан на изу- изучении норм, или мер величин, матриц и векторов. Нормы можно рассматривать как обобщения евклидовой длины, однако их ис- исследование не сводится просто к упражнению в математическом обобщении. Изучение норм необходимо для правильной форму- формулировки таких понятий, как степенные ряды матриц. Нормы играют большую роль при анализе и оценивании качества чис- численных методов. Кроме того, в разных случаях могут больше подходить различные допустимые нормы. Таким образом, умест- уместно исследовать общие для всех норм свойства, прежде чем со- сосредоточить внимание на какой-либо конкретной норме. В следующих примерах обрисовано несколько ситуаций, в которых требуется понятие нормы. 5.0.1. Пример (сходимость). Если комплексное число х по модулю меньше единицы, jxj<Cl, то имеет место известное разложение 1
5.0. Введение 311 Это подсказывает формулу для вычисления обратной матрицы к квадратной матрице / — Л, но когда эта формула верна? Оказывается, достаточно потребо- потребовать, чтобы норма матрицы Л была меньше единицы, и любая такая матричная норма будет здесь подходящей! Подобным же образом при помощи норм можно доказать сходимость и мно- многих других степенных рядов, а также то, что они корректно определяют матричнозначные функции от матрицы, такие, как Нормы можно также применять для определения числа членов степенного ряда, необходимых для вычисления конкретного значения функции с заданной точностью. Подобные замечания можно сделать об анализе сходимости итерационных схем ре- решения систем уравнений. 5.0.2. Пример (точность). Если в точке х = хо известно зна- значение вещественной дифференцируемой функции / веществещюй переменной х, то ее значение в близлежащей точке х — х0 + h можно оценить при помощи первой производной h)—f (х0) _ ^f ^ Следовательно, можно оценить относительную ошибку при вы- вычислении значения функции / в точке х0, если фактически нахо- находится значение / в близлежащей точке х0 + h. Та же самая ситуация возникает в матричных расчетах. Пусть требуется вычислить А~1 (или некоторую другую функ- функцию от Л), но элементы матрицы А получены из эксперимента, путем анализа других данных или как результаты предвари- предварительных вычислений, и точные значения их неизвестны. Мат- Матрицу А можно представить в виде суммы «истинной» матрицы Ао и матрицы ошибок Е. Хотелось бы определить возможную «от- «относительную ошибку» (через «величину» матрицы Е), возни- возникающую при замене точного значения Ло на вычисленное зна- значение А~х = (Л0 + Е)~х. Границы различия между А~1 и Ло~1 бывает так же важно знать, как саму матрицу Л~'. Системати- Систематический подход к изучению подобных ситуаций дает теория норм. 5.0.3. Пример (границы). Нормы часто привлекаются при выводе оценок для важных величин, связанных с матрицей, на-
312 Гл. 5. Нормы векторов и матриц пример собственных значений. Если матрицы подвергаются воз- возмущению, то границы возможных изменений этих ве'личин так- также можно выразить посредством норм. 5.1. Определяющие свойства векторных норм и скалярных произведений Рассмотрим сначала нормы на векторном пространстве. По- Поскольку множество Мп является векторным пространством, все рассуждения будут также применимы к нормам матриц. Отталкиваясь от знакомого понятия абсолютного значения (вещественного или комплексного) числа, можно определить свойства, присущие функции, рассматриваемой в качестве нор- нормы. Конечно, важное отличие заключается в том, что абсолют- абсолютное значение является вещественнозначной функцией от одной переменной (вещественной или комплексной), тогда как норму требуется определить как вещественнозначную функцию от не- нескольких переменных, описывающих вектор. Евклидова длина (z*z)x/2 оказывается одной из таких функций на С", но есть и другие, сохраняющие некоторые основные свойства евклидовой длины. В ряде случаев они могут быть более уместны, инфор- информативны или более удобны в каком-то отношении. "В данной главе будут рассматриваться только вещественные или комплексные векторные пространства1). Все основные ре- результаты верны для обоих типов пространств, однако внутри каждого утверждения необходима согласованность с используе- используемым полем. Таким образом, результаты часто будут формули- формулироваться в терминах поля F (подразумевается, что F = R или F = C), и по ходу рассуждений мы будем оперировать именно с этим полем F. 5.1.1. Определение. Пусть У— векторное пространство над полем F (R или С). Функция |]-Ц: У-^R является векторной нормой, если для всех х, у е У выполняются следующие усло- условия2) : A) ||#||^0 (неотрицательность); Aа) ||л|| = 0 тогда и только тогда, когда х = 0 (положительностьK); ') Векторное пространство называется вещественным (комплексным), если оно определено над полем R вещественных чисел (полем С комплекс- комплексных чисел).—Прим. перев. 2) Отметим, что неотрицательность следует нз неравенства треугольника и абсолютной однородности. — Прим. перев. 3) Точнее, невырожденность, — Прим. перев.
5.1. Определяющие свойства векторных норм 313 B) Ik* || = | с 11| * || для всех чисел ceF (абсолютная одно- однородность); C) IU+z/||<|U|| + ||t/|| (неравенство тре- треугольника). Это привычные свойства евклидовой длины на плоскости. Ев- Евклидова длина обладает и другими свойствами, независимыми от приведенных аксиом (например, выполнено тождество парал- параллелограмма E.1.8)). Подобные дополнительные свойства ока- оказываются несущественными для общей теории норм и поэтому не причисляются к аксиомам. Функцию, для которой выполнены аксиомы A), B) и C), но не обязательно Aа), называют векторной полунормой. Это более общее понятие, чем норма. Некоторые векторы, отличные от нулевого, могут иметь нулевую длину в смысле полунормы. 5.1.2. Лемма. Если || • || является векторной полунормой на V, то III* 11-11 У\\\<\\х-у II для всех х, уеУ. Доказательство. Поскольку у = х-\-{у— х), то из неравен- неравенства треугольника C) и аксиомы абсолютной однородности B) выводим Отсюда следует неравенство 1|0||-!!*1К11*-$М!- Однако с таким же успехом х = у-\-{х — у), откуда получаем используя опять неравенство треугольника C). Тогда 11*11 Следовательно, что эквивалентно утверждению леммы. ? В комплексном пространстве С" евклидовой длине1) соот- соответствует обычное евклидово скалярное произведение у*х (ино- (иногда называемое естественным скалярным произведением). Ска- Скалярное произведение связано с «углом» между векторами: х и у ортогональны, если у*х = 0. Точно так же как в случае ') Определяемой на векторе геС" формулой (z*zI/r2 = B| z{ |2)''2, см. далее пример 5.2.1. — Прим. перев.
314 Гл. 5. Нормы векторов и матриц векторной нормы, можно выделить несколько существенных свойств евклидова скалярного произведения и принять их за аксиомы в общей теории скалярных произведений. 5.1.3. Определение. Пусть V — векторное пространство над полем F (R или С). Функция (•, •): VX.V-+F является ска- скалярным произведением, если для всех х, у, г e V выполняются следующие условия: A) (х, х)^0 (неотрицательность); Aа) (х, х) = 0 тогда и только тогда, когда х — О (положительность); B) (х + у, г) = (х, г) + {у, z) (аддитивность); C) (сх, у) = с(х, у) для всех чисел ceF (однородность);> D) (х, «/) = (#, х) (эрмитовость) Упражнение. Показать, что для евклидова скалярного произ- произведения (х, у) = у*х справедливы все указанные выше аксиомы скалярного произведения. Упражнение. Пусть D = diag(di, dz dn). Рассмотрим функцию (х, у) = y*Dx. Какие из аксиом скалярного произве- произведения справедливы для этой функции? При каких условиях на матрицу D функция (•,•) задает скалярное произведение? Упражнение. Вывести следующие свойства скалярного про- произведения из аксиом определения 5.1.3: (a) (х, су) = с{х, у); (b) (x, y + z) = (x, у) + (х, г); (c) {ах + by, cw + dz)—ac(x, w)-\-bc(y, w)-\-ad,{x, z)-\-bd(y, z); (d) (x, y) — 0 для всех у е V тогда и только тогда, когда х = 0; (е)<х, (х, у)у) = \(х, у)\\ Важное свойство, общее для всех скалярных произведений, выражается неравенством Коши — Шварца. 5.1.4. Теорема (неравенство Коши — Шварца). Если функ- функция < •, • > является скалярным произведением на векторном про- странстве V над полем F (R или С), то справедливо неравен' ство \{х, У)\2<(х, х)(у, у) для всех х, у е V. Равенство здесь имеет место тогда и только тогда, когда ее/с- торы х и у линейно зависимы, т. е. х = ау или у — ах для не- некоторого числа а е F.
5.1. Определяющие свойства векторных норм 315 Доказательство. Пусть заданы векторы к, y^V. Если г/ = 0, то утверждение теоремы тривиально, поэтому далее считаем, что у =?= 0. Рассмотрим функцию \y, y)=> вещественной переменной t e R, которая является веществен- вещественным квадратным многочленом с вещественными коэффициен- коэффициентами. В силу аксиомы A) из определения 5.1.3 имеем p(t)^O для всех вещественных t, поэтому многочлен p(t) не может иметь простых вещественных корней. Следовательно, дискрими- дискриминант соответствующего квадратного уравнения p(t) = Q должен быть неположительным: BRe<*. у)J-4(у, у)(х, х><0; тогда (Re<jc, y)J<(x, х)(у, у). E.1.5) Поскольку это неравенство должно выполняться для любой пары векторов, оно будет верно, если заменить вектор у на вектор (х,уУу. При такой замене неравенство E.1.5) переходит в неравенство (Re<x, (x, y)y)J<(x, х)(у, у)\(х, у)?. Но Re(x, (х, у) у) = Re(x, у)(х, у) = Re | (х, у)? = \ {х, у) |2; поэтому \(х, г/)|4<(х, х)(у,у)\(х, у)\\ E.1.6) В случае когда <х, г/> = 0, утверждение теоремы тривиально, в противном случае можно разделить обе части неравенства E.1.6) на число \(,х,у}\2, что приводит к желаемому резуль- результату. Вследствие аксиомы Aа) многочлен p(t) может иметь вещественный (двукратный) корень только при х+ ty = 0 для некоторого [eF. Это означает, что равенство в E.1.5) (и, сле- следовательно, в утверждении теоремы) выполняется тогда и толь- только тогда, когда векторы х и у линейно зависимы. ? 5.1.7. Следствие. Если функция <•, •> является скалярным произведением на V, то функция ||хЦз= ((я, х}I12 задает век- векторную норму на V. Упражнение. Доказать следствие 5.1.7. Указание. Проверка не совсем тривиальна только для неравенства треугольника. Преобразовать выражение Цд; + у\\2 и использовать неравенство К.оши — Шварца.
Гл. 5. Нормы векторов и матриц Если векторная норма Ц-11 связана равенством \\х\\= (х, х)и2 с некоторым скалярным произведением, то говорят, что норма || • | порождена скалярным произведением (а именно, произведе- произведением <•, •>). Задачи 1. Обозначим через е,- единичный i-ш координатный вектор в С" и предположим, что на С" задана полунорма ||-||. Пока- Показать, что справедливо неравенство 2. Показать, что если || • [|— векторная полунорма на V, то множество Vo={ye V: Ifг^!j ===== 0} является подпространством пространства V. Его называют нуль-подпространством или ядром полунормы || -Ц. |а) Показать, что полунорма ||-|| становится нормой на лю- любом подпространстве Fi в V, удовлетворяющем условию Vo П Vi== = {0}. (b) Рассмотреть отношение х ~ у, определенное следующим образом: х ~ у тогда и только тогда, когда \\х — «/|| = 0. Показать, что оно будет отношением эквивалентности на V, что классы эквивалентности в данном случае задаются равенствами х—{х-\- t/е V: у е Vo} и что множество этих классов эквива- эквивалентности образует естественным образом векторное простран- пространство (называемое факторпространством). Проверить коррект- корректность определения функции ||х|| = {||х||: «ef} и показать, что она является векторной нормой на факторпространстве. (c) Объяснить, почему каждая векторная полунорма есте- естественным образом индуцирует норму. (d) Задает ли определение ||л;||=0 полунорму? (e) Привести пример нетривиальной (отличной от тожде- тождественного нуля) полунормы, которая не является нормой. 3. Определим «угол» между ненулевыми векторами х и у как величину') .1 (*!_уП Л I)I'2)' arccos ') Точнее сказать, что эта величина характеризует угол между одно< мерными подпространствами, порожденными этими векторами х и у. —• Прим. перев.
5.1. Определяющие свойства векторных норм 317 изменяющуюся в пределах от 0 до л/2. Показать корректность этого определения для произвольного скалярного произведения 4. Проверить, что для любой нормы, порожденной скаляр- скалярным произведением (как в следствии 5.1.7), имеет место тожде- тождество параллелограмма ^{\\х + yf + \\х - yf)=\\x\f + \\у\?. E.1.8) Чем вызвано такое название соотношения E.1.8)? Наличие тож- тождества параллелограмма E.1.8) фактически оказывается необ- необходимым и достаточным условием того, что данная норма по- порождается некоторым скалярным произведением. См. задачу 10. 5. Показать, что функция i|x|L = max | xt | на С" является векторной нормой, которая не порождается скалярным произ- произведением. 6. Пусть норма \\ • Ц порождена скалярным произведением (•, ¦). Показать, что (\\x + y\\2\\xyf) E.1.9) Это соотношение известно как тождество поляризации. Пока- Показать также справедливость равенства Re<x, y) = j{\\x + y\f-lUH2 -\\y\f). 7. Показать, что для /j-нормы || * ||, = | дс, | + ... + 1*п1 на пространстве С" справедливы аксиомы нормы из определе- определения 5.1.1, но тождество поляризации E.1.9) не имеет места. Сле- Следовательно, /i-норма не порождается скалярным произведе- произведением. 8. Если векторная норма || • || на V порождена скалярным произведением, то верно неравенство для всех векторов х, у е V. В каких случаях оно превращается в равенство? Верно ли это неравенство для всех векторных норм? Дать ему геометрическую интерпретацию. 9. Пусть заданы векторы х и у в пространстве V с нор- нормой || • ||, порожденной скалярным произведением, и пусть век- вектор у ненулевой. Показать, что величина \\х — ау\\ принимает минимальное по а значение при ао = (х, y)/\\y\f и что векторы х — (цу и у ортогональны. 10. Наличие тождества параллелограмма является достаточ- достаточным условием того, что заданная норма порождается некото-
318 Гл. 5. Нормы векторов и матриц рым скалярным произведением. Проверить это утверждение не- несложно, но требуется некоторая изобретательность. Начнем со случая векторного пространства V над полем вещественных чи- чисел R. Норму на V обозначим через ||-||. (а) Пусть l±ZwLML Показать, что для этой функции <•, •> справедливы аксиомы A), Aа) и D) из определения 5.1.3 и что верно равенство (х, x>=IWI2. (b) При помощи соотношения E.1.8) проверить равенства 4(х, у) + Цг, у) = 2\\х = 4(x + z, у) и вывести заключение о справедливости аксиомы B) в опреде- определении 5.1.3. (c) Используя аксиому аддитивности, показать, что т(т~1пх, у) = (пх, у) = п{х, у), каковы бы ни были натуральные т и п. Опираясь на соотноше- соотношения E.1.8) и E.1.10), обосновать равенство <—х,у}——(х, уУ и сделать вывод, что для любого рационального а верна аксиома однородности ') (ах, у) = а(х, у}. (d) Пусть p(f) = t2\\xf + 2t(x, y) + \\y\\\ /eR. Показать, что р (/) — I! tx + у I!2 для всех рациональных/. Учитывая непре- непрерывность функции /?(/). Доказать неравенство р @^0 для всех leR. Вывести неравенство Коши — Шварца \(х, у) f^.\\x\f \\у||2 из факта неположительности дискриминанта квадратного урав- уравнения р (/) = 0. (e) Пусть теперь задано число а е R. Показать, что \(ах,у)-а{х,у)\^=\{{а-Ь)х, у)+(Ь-а)(х, г/>|< (b~a)(x, при-любом рациональном Ь. Последнее выражение можно сде- сделать сколь угодно близким к нулю, следовательно, аксиома од- однородности C) в определении 5.1.3 справедлива. Таким обра» зом, функция <•, •> является скалярным произведением на V, '') В силу непрерывности по (sR функций ||ta+(/ll и \\tx-y\\ из оп- определения E.1.10) и тождества E.1.8) убеждаемся в непрерывности функции (tx, (/>. Следовательно, аксиома однородности верна не только для рацио- рациональных t = а, но и для всех /sR. Это доказательство, более простое, чем предлагаемое в пп. (d) и (е), приведено в книге: Иосида К. Функциональ- Функциональный анализ, —М,: Мир, 1967, с, 64. — Прим. перев.
5.2. Примеры векторных норм 319 Внимательный читатель заметит, что неравенство треуголь- треугольника для нормы ||-|| (аксиома C) в определении 5.1.3) не ис- использовалось в этих рассуждениях. Таким образом, справедли- справедливость аксиом A), Aа) и B) из определения 5.1.1 при наличии тождества параллелограмма E.1.8) позволяет заключить, что функция || • || является нормой, порожденной скалярным произ- произведением. Неравенство треугольника возникает уже как след- следствие. (f) В случае комплексного векторного пространства V поло- положим . ,л.,., Д* + уИ»-Я*1Р-11у11' . f V*, у] — 2 -г Вещественная часть функции (х, у} определяет скалярное про- произведение на множестве V, если его рассматривать как веще- вещественное (над полем R) векторное пространство1), Используя этот факт и тождество E.1.8), показать, что функция <•, ->есть скалярное произведение на векторном пространстве V над по- полем С. Дополнительная литература П. Жордан и Дж. фон Нейман в статье: Jordan P., von Neu- Neumann J. On Inner Products in linear metric spaces. —Ann. Math., 1935, v. 36B), p. 719—723, по-видимому, первые доказали, что наличие тождества параллелограмма необходимо и достаточно, чтобы заданная векторная норма порождалась скалярным про- произведением. В наброске доказательства этого результата из за- задачи 10 мы следовали работе: Fearnley — Sander D., Sy- mons J. S. V. Apollonius and inner products — Amer. Math. Monthly, 1974, v. 81, p. 990-993. 5.2. Примеры векторных норм Приведем несколько примеров часто встречающихся век* торных норм. 6.2.1. Евклидова норма (или /2-норма) на С* г»- возможно, наиболее известная векторная норма, поскольку величина ||х — y\\i определяет стандартное евклидово расстоя- расстояние между двумя точками х, у е С". Эта норма также порож- ') Например, поле комплексных чисел С является двумерным веществен» ным векторным пространством. — Прим. перев.
320 Гл. 5. Нормы векторов и матриц дается обычным евклидовым скалярным произведением, т. с. II *!!; = <*, х) = х'х. Упражнение. Проверить, что функция ||-|1г является вектор- векторной нормой на пространстве С". Упражнение. Норму || • || называют унитарно инвариантной, если равенство ||?/х[| = ||х|| верно для всех векторов хеС" и всех унитарных матриц U е Мп. Показать, что евклидова норма N - II2 унитарно инвариантна. 5.2.2. 1гнорма на С" называется также первой нормой. Образно можно сказать, что это манхеттен-норма, поскольку измерения длины производятся только по прямым вдоль координатных осей '). Упражнение. Проверить, что /[-норма ||-||i действительно яв- является векторной нормой на С", но не порождается скалярным произведением. Указание. Использовать тождество E.1.8). 5.2.3. loo-норма на С" — это xJ, ..., \хп\). Упражнение. Проверить, что /оо-норма IHU действительно является векторной нормой на С". Упражнение. Порождается ли /оо-норма INI» каким-либо ска- скалярным произведением? 5.2.4. lp-норма, или норма Гёльдера с показателем р, на С — это где р ^ 1. Упражнение. Проверить, что /р-норма действительно является векторной нормой на С" при любом показателе р^1 и что ||x|L= lim || л: ||р для каждого вектора х е С". Указание. Про- р-><х> верка нетривиальна только для неравенства треугольника, ко- которое в случае /„-нормы совпадает с классическим неравенством Минковского2). ') Манхеттен — один нз районов Нью-Йорка с прямоугольной планиров- планировкой (подобно шахматной доске).—Прим. перев. 2) Оно доказывается в приложении В. — Прим. перев.
5.2. Примеры векторных норм 321 Упражнение. Привести пример векторной нормы, которая не является гёльдеровой. В приведенных выше примерах все векторные нормы заданы на конкретном пространстве С", однако при помощи этих норм можно определить нормы на произвольном конечномерном ве- вещественном или комплексном векторном пространстве V. Если имеется базис & = {Ь<-1\ ..., bw} пространства V, то, как из- известно, отображение х-*[х] Сп, х осуществляет изоморфизм V на С". Легко показать, что для любой векторной нормы || • || на С" функция п lrll у—V будет векторной нормой на V. Упражнение. Проверить последнее утверждение. Матрицу В е Мп называют изометрией для векторной нормы И-II на С", если || Вх || = || х || для всех х е С". Упражнение. Показать, что изометрия для любой векторной нормы должна быть невырожденной матрицей. Упражнение. Показать, что множество изометрий для дан- данной нормы образует группу (которую называют группой изомет- изометрий этой нормы). Имеются ли для нормы ||-||2 другие изомет- изометрий, кроме унитарных матриц? Упражнение. Показать, что группа изометрий /i-нормы есть множество (группа) всех матриц, похожих на матрицы переста- перестановок с тем только отличием, что элементы «+1» заменяются на произвольные комплексные числа единичного модуля. Упражнение. Что представляет собой группа изометрий /оо-НОрМЫ? В определении векторной нормы на пространстве V не тре- требуется конечномерности этого пространства. Пространство V может быть, например, линейным пространством С[а,Ь] всех
322 Гл. 5. Нормы векторов и матриц непрерывных вещественных или комплексных функций, задан- заданных на вещественном отрезке [а, Ь]. 5.2.5. Пример. Некоторые нормы на пространстве С [а, Ь\ аналогичны уже введенным векторным нормам на С". Напри- Например, нормами на С [а, Ь] являются все следующие функштональп г- Ь -.1/2 ^ Hi/(Of Л A2-норма), ь (Lj-норма), Up , р > 1 (/.р-норма), II/IL — тах (I / (х) к x^[a,b]} (L^-норма) ')• Задачи 1. Показать, что при 0 < р < 1 для функции ||-||р на про- пространстве С" (см. пример 5.2.4) справедливы все аксиомы век- векторной нормы, кроме одной 2). Какая аксиома нарушена? При- Привести соответствующий пример. 2. Показать, что ||f ||ю= lim ||f ||p для произвольной функ- функции /еС[0, 1]. 3. Как выглядит неравенство треугольника для нормы ||-||р на С[0, 1]? Предложить способ его доказательства, основанный на неравенстве Минковского (приложение В) для нормы ||-||р на С". 4. Пусть имеются положительные числа pi, р2, ..., рп. Ка- Какие из следующих выражений задают векторную норму на С? п (с) lUl^maxtoUil, ..., рп\хп\}. ') Эту норму иногда называют нормой равномерной сходимости. Именно ей наделяют, как правило, множество С[а, Ь], поскольку полученное таким образом нормированное пространство оказывается полным (см. § 5.4).— Прим. перев. 2) Здесь следует исключить тривиальную возможность п = 1. — Прим. перев.
5.3. Алгебраические свойства векторных норм 323 5. Пусть задана точка х0 е [а, Ь]. Показать, что функцио- функционал [| / ||Ло = | f (х0) | на С [а, Ь] является полунормой, ноне нормой. 6. Показать, что любая унитарно инвариантная векторная норма || • || на С" задается формулой || • || = а|| • ||2 при некотором а> 0 и что норма \\ • ||2 — единственная унитарно инвариантная норма на Сп, для которой || ех || = 1. 7. Показать справедливость соотношений \\у\\ае = тах\у'х\ и 11x11!= max \хшу\. 8. Используя результат предыдущей задачи, показать, что матрица А является изометрией для /оо-нормы, если матрица А* является изометрией для /i-нормы, и наоборот. 9. Что представляет собой пересечение групп изометрий всех /р-норм? Дополнительная литература Детальное обсуждение классических неравенств Минков- ского и Гёльдера имеется в [ВВ]. 5.3. Алгебраические свойства векторных норм Исходя из заданной нормы или нескольких норм, новые нор- нормы можно определить различными способами. Например, легко видеть, что сумма векторных (полу) норм является векторной (полу) нормой, так же как и произведение векторной полу (нор- (нормы) на положительное число. Другого рода пример: легко также видеть, что для векторных норм ||-||о и ||-||& функция ||-||, опре- определенная равенством опять будет нормой. Упражнение. Показать, что при замене «max» на «min» в последнем определении результирующая функция не обязана быть нормой. Следующее утверждение охватывает как частные случаи все предыдущие. 5.3.1. Теорема. Если || • П , ..., ([ • Ца — нормы на векторном пространстве V над полем F (R или С) и || • ||р — векторная норма на Rm, то функция || • ||: V -> R, определенная как супер- суперпозиция является векторной нормой на V.
324 Гл. 5. Нормы векторов и матриц Упражнение. Доказать теорему 5.3.1. Упражнение. Показать, что утверждение теоремы 5.3.1 оста- остается в силе, если термин «векторная норма» заменить на «век- «векторная полунорма». Упражнение. Убедиться, что утверждения о возможности по- построения норм при помощи операций суммирования или взятия максимума двух векторных норм есть частные случаи тео- теоремы 5.3.1. Другая возможность образовывать новые нормы связана со следующим результатом. 5.3.2. Теорема. Если \\-\\—векторная норма на С" и матрица Т^вМп невырожденна, то функция \\-\\т, определенная соотно- соотношением также будет векторной нормой на О. Упражнение. Доказать теорему 5.3.2. Упражнение. Что произойдет с утверждением теоремы 5.3.2 в случае вырожденной матрицы Г? Упражнение. Почему функция || х || = A1хх — Зх2 f + | х2 РI/2 должна быть нормой на С2 (пожалуйста, без вычислений!)? Новые нормы можно конструировать из старых при помощи понятия двойственности. Этот метод обсуждается в конце сле- следующего параграфа. Задачи 1. Показать, что для векторной полунормы Ц-|| на С" функ- функция ||л:]|г==||Тх\\ также является векторной полунормой при лю- любом выборе матрицы ГеМ„. Если ||«||—в действительности векторная норма, то ядро полунормы II - IIу совпадает с ядром матрицы Т. 2. Показать, что произвольную векторную полунорму можно представить в виде \\-\\т для некоторой векторной нормы ||-|| и некоторой матрицы Т^Мп. 5.4. Аналитические свойства векторных норм Из примеров двух предшествующих параграфов становится ясно, что существует большое разнообразие функций ||-||: V -*¦ R, которые удовлетворяют аксиомам нормы. Полезно иметь широ-
5.4. Аналитические свойства векторных норм 325 кий выбор функций, пригодных в качестве норм, поскольку в приложениях одна норма может быть более уместна или удоб- удобна, чем другая. Например, /2-норму часто бывает удобно приме- применять в задачах оптимизации из-за того, что она непрерывно диф- дифференцируема (всюду, кроме нуля). Другой пример — это 1\- норма, которая популярна в статистике, хотя она дифферен- дифференцируема на более узком множестве. Популярность /i-нормы вы- вызвана тем обстоятельством, что она приводит к более робастным оценкам по сравнению с классическими, основанными на рег- регрессии. Часто наиболее естественно употреблять /«,-норму, с по- помощью которой можно непосредственно контролировать поко- покоординатную сходимость, однако ее аналитические и алгебраиче- алгебраические свойства могут вызвать затруднения. На практике норма, наиболее естественная с теоретической точки зрения, может не совпадать с нормой, которую проще всего вычислить в данной ситуации Следовательно, важно знать, какие связи можно уста- установить между двумя различными нормами. К счастью, в конеч- конечномерном случае все нормы «эквивалентны» в некотором точ- точном смысле. Основное понятие в анализе — сходимость последовательно- последовательности, и векторные нормы можно использовать для установления факта сходимости последовательности векторов. 5.4.1. Определение. Пусть V — векторное пространство над полем R или С с нормой ||-||. Последовательность {х{к)} векто- векторов в V называют сходящейся к вектору хеУ по норме || • || тогда и только тогда, когда \\х<-к) — x||->0 при /г-»-оо. Факт сходимости последовательности {x(*>} к вектору х по норме ||-|1 записывают в следующем виде: xw->x или limx-(ft) = x по норме || • ||. II-и *->°° Необходимо явно указывать, в смысле какой нормы пони- понимается сходимость рассматриваемой последовательности. Дело в том, что заданная последовательность векторов может схо- сходиться по одной норме и расходиться по другой. Такая дву- двусмысленная ситуация возникает в бесконечномерных линейных пространствах. 5.4.2. Пример. Рассмотрим последовательность {fk} функций в С [0, 1] (линейном пространстве всех вещественнозначных или комплекснозначных непрерывных функций на [0,1]), заданных равенствами /*(*) = 0, ^
326 Гл. 5. Нормы векторов и матриц при А = 2, 3, 4 Можно убедиться, что всех k, \\fkh> = km->oo при ft->oo. Таким образом, lim /^ = 0 только по Lj-норме среди трех выб- ранных. Упражнение. Изобразить схематически графики функций из предыдущего примера и проверить приведенные утверждения о величине L\-, Li- и Loo-норм этих функций. Упражнение. Пусть x(ft'-»x и xih)->y, где векторная 11-11 HI норма || • 11 задана. При помощи неравенства треугольника по- показать, что х — у. Таким образом, если существует предел по- последовательности, то он единственный, т. е. можно говорить об определенном пределе последовательности по заданной норме. К счастью, явление, отмеченное в примере 5.4.2, невозможно в случае векторного пространства конечной размерности. Чтобы убедиться в этом, нам потребуется общая лемма о свойствах непрерывности норм. 5.4.3. Лемма. Пусть || • || — норма на векторном простран- пространстве V над полем F (R или С), и пусть заданы векторы х{1), х{2) j|mleF. Тогда функция g: Fm->R, определенная фор- формулой ) <i> <2) является равномерно непрерывной. Доказательство. Пусть m m U=YiUix<i> и V=YtV, 1=1 i-1 Проведем следующие выкладки: \g(uu ..., uj — g(vu ..., 0тI = П1и|| —ll Z(ul-vi)xm^Z\tii-vi\U(i>l\<C max | u, - v, |, » = 1 U i-l l<i<
5.4. Аналитические свойства векторных норм 327 где С = от шах ||x('Ml- Первое неравенство вытекает из леммы 5.1.2. Отметим, что конечная константа С зависит только от выбора нормы || • || и т векторов хA) х(т). Если исклю- исключить тривиальный случай, когда все векторы х^ нулевые, то С> 0. Чтобы имело место неравенство \g(ult ..., ит) — — g (v i. • • •. vm) I < e. достаточно обеспечить условие \ut — vt\< <e/C. D В этой лемме пространство V не обязано быть конечномер- конечномерным, но важно, чтобы конечным было число векторов х'-'К Упражнение. Вывести из леммы 5.4.3 заключение, что каж- каждая векторная норма на пространстве R" или С" является рав- равномерно непрерывной функцией. Конечномерность пространства У, однако, существенна в следующем фундаментальном факте. 5.4.4. Теорема. Пусть ft и /2 — две вещественнозначные функции на конечномерном векторном пространстве V над по- полем F (R или С) и система $ — {х^\ ..., х(п>} образует базис пространства V. Предположим, что функции f{, i=l, 2, удо- удовлетворяют следующим условиям: (a) положительность: f{(х)^0 для всех jceF; ft(x) = 0 тогда и только тогда, когда х = 0; (b) абсолютная однородность: ft (ах) = [ а | /((х) для всех oeF и всех х е V; (c) непрерывность: ft (x (z)) непрерывна на F™, где z = [г, znf еР и Х(г)вш z,xW + ... + *„*<»>. Тогда существуют конечные положительные константы Ст и См, такие, что для всех xeF, Доказательство. Определим отношение h (z) = f2 (x (z))/fl (x (z)) на евклидовой единичной сфере S = {zeFra: f|гг ff2 = I}, которая является компактным множеством в F". Заметим, что знамена- знаменатель в h(z) не обращается в нуль на S по условию (а), следо- следовательно, функция h(z) непрерывна на 5 в силу условия (с). По теореме Вейерштрасса (см. приложение Е) у непрерывной функции h на компактном множестве 5 существуют конечное положительное максимальное значение См и положительное') минимальное значение Ст; следовательно, ') Напомним, что h(z) > 0 при г е 5. Именно по этой причине констан- константы См и Ст положительны. — Прим. перев.
328 Гл. 5. Нормы векторов и матриц для всех ге^. Поскольку для любого z e 5 имеем z/||z||2 e 5, то условие (Ь) гарантирует, что эти неравенства выполнены для всех ненулевых zeF" (случай z =0 тривиален, так как /,@) = = 0). Но любой вектор х е У можно представить в виде х = = x(z) для некоторого z e F", потому что система $ образует базис; таким образом, требуемые неравенства верны для всех векторов к е V. О Определение. Пусть V—вещественное или комплексное век- векторное пространство. Функцию /: V-»-R, которая удовлетво- удовлетворяет трем условиям теоремы 5.4.4: положительности, абсолют- абсолютной однородности и непрерывности, называют квазинормой1}. Конечно, векторные нормы представляют собой наиболее важный пример класса квазинорм. Условие (с) теоремы 5.4.4 (непрерывность) для векторных норм выполнено в силу лем- леммы 5.4.3. Если для квазинормы верно неравенство треугольника, то она является векторной нормой. Учитывая важность этого класса, сформулируем утвержде- утверждение теоремы 5.4.4 для случая векторных норм в виде следствия. 5.4.5. Следствие. Пусть \\-\\а и ||-||р — две произвольные нормы в конечномерном вещественном или комплексном век- векторном пространстве V. Тогда существуют конечные положи- положительные константы Ст и См, такие, что Cm\\x\\a ^lUllp ^ Сл*1М1а для всех векторов х е V. Упражнение. Как нарушается следствие 5.4.5 в случае век- векторных полунорм? Упражнение. Пусть х=[х1, %]rGR!, и рассматриваются следующие нормы на R2: ||*|1аМ1[10*„ JC2HL И HxHpMlfo, 10*2]F|L. Показать, что функция / (х) = (||#1!а||л:||рI/2 является квази- квазинормой, но не нормой на R2. См. задачу 15 в конце данного параграфа. Указание. Рассмотреть значения f([l, 1]г), / ([0, 1]г) /aiof) Упражнение. Пусть || • Щ. •••» II' Lfe — векторные нормы на пространстве V. Показать, что функции \xak\\y'k и являются квазинормами на V, но не обязательно нормами. !) В оригинале — pre-norm. Употребляемому нами термину «квазинорма» иногда придается другой смысл, например, см. Иосида К. Функциональный анализ, — М,: Мир, 1967, с. 53. — Прим. перев.
5.4. Аналитические свойства векторных норм 329 Из следствия 5.4.5 вытекает, в частности, тот вывод, что факт сходимости (по норме) последовательности векторов в ко- конечномерном векторном пространстве не зависит от того, какая норма используется. 5.4.6. Следствие. Если || • ||а и || • ||р — векторные нормы в ко. нечномерном вещественном или комплексном векторном про- пространстве и {x{k)} — заданная последовательность векторов", то lim xw = x no норме || • ||„ тогда и только тогда, когда fe-»eo lim x(ft) = x по норме || • ||3. Доказательство. Поскольку для всех k верны неравенства Ст II *<*> - х \\а < || *<*> - х ||р < См | то \\xik) — х\\а->0 тогда и только тогда, когда ||л;'^ — x\L->0 при й-> оо. ? 5.4.7. Определение. Две нормы называют эквивалентными, если любая сходящаяся по одной из этих норм последователь- последовательность сходится к тому же пределу по другой из этих норм. Та- Таким образом, в следствии 5.4.6 утверждается, что в конечномер- конечномерных вещественных или комплексных векторных пространствах все нормы эквивалентны. В бесконечномерном пространстве раз- различные нормы могут не быть эквивалентными, как уже было показано в примере 5.4.2. Поскольку в пространстве R" или С" все векторные нормы эквивалентны норме II • IL, сходимость lim xSk) = x по произ- вольной векторной норме имеет место тогда и только тогда, когда lim x(ik) = xi для всех /=1, ..., п, ft-»oo где *№ = [*<*>, ..., х^у и * = [*, XJ. Покомпонентная сходимость (в любом базисе) эквивалентна сходимости по любой норме. Другое важное следствие эквивалентности всех векторных норм в конечномерном случае — компактность единичного шара и единичной сферы для каждой векторной нормы. Отсюда мож- можно заключить, что непрерывная комплекснозначная функция ограничена на единичном шаре любой векторной нормы и что непрерывная вещественнозначная функция на единичном шаре достигает своих наибольшего и наименьшего значений.
330 Гл. 5. Нормы векторов и матриц 5.4.8. Следствие. Обозначим через V пространство R" или С", Пусть f (•) — квазинорма на V. Множества {х: / являются компактными. В частности, в случае векторной нормы 11-]| замкнутый единичный шар {jc:|U||^ 1} и единичная сфера {х: \\х\\= 1} являются компактными множествами1). Доказательство. По теореме 5.4.4 существует некоторая кон- константа С > 0, при которой Ыг^ Cf(x) для всех x^V. Таким образом, множество {х: f(x)^\} ограничено и содержится в обычном евклидовом шаре радиуса С с центром в начале коор- координат. Каждое из множеств {х: f(x)=l] и {х: /(х)<1} замкнуто вследствие непрерывности функции /(•). Поскольку в пространстве R" или С" замкнутое ограниченное множество компактно, получаем требуемое утверждение. ? Ситуация, когда требуется выяснить сходимость заданной последовательности {х^} к заданному вектору х, возникает редко. Чаще нужно определить, сходится ли вообще данная по- последовательность {x(ft)} хоть к какому-нибудь вектору. В связи с этим возникает необходимость иметь такой критерий сходи- сходимости последовательностей, в котором предельный вектор х явно не принимает участие. Если предел х существует, то имеют место соотношения || л-tfe) — Л-(/> || = || xw — х + х — x(i) || < || х^ — х || + |1 х — *<» || -* о при k, /—>-oo. Этот факт побуждает ввести следующее опреде- определение. 5.4.9. Определение. Последовательность {x(k)} в векторном пространстве V с нормой ||-|| называют последовательностью Коша, если для любого е >• 0 существует такое натуральное число N(e), что ||(М <W|| при всех ku k2~^ N (e). 5.4.10. Теорема. Последовательность {xw} векторов в конеч- конечномерном вещественном или комплексном пространстве V с нор- нормой || • || сходится к некоторому вектору в V тогда и только тогда, когда она является последовательностью Коши. ') В пространстве R" или С" компактными являются замкнутые ограни- ограниченные множества. Точные определения этих понятий приводятся в следую- следующем параграфе. — Прим. перев.
5.4. Аналитические свойства векторных норм 331 Доказательство. В пространстве V можно выбрать базис <S и рассмотреть эквивалентную норму || [л;].# II <»• Таким образом без потери общности можно считать, что V = R" или С" для не- некоторого натурального п и что норма есть IHI». С одной сто- стороны, если {xw}—последовательность Коши, то каждая после- последовательность компонент Dft)}> г'=1> ••¦> п, является последо- последовательностью Коши вещественных или комплексных чисел. Од- Однако числовая последовательность Коши обязана иметь предел. Это означает, что для каждого i'=l, ..., п существует число х{ = lim xf\ Легко проверить, что lim x(k) = x, где х = [хи ..., хп]т. С другой стороны, если последовательность векторов имеет предел lim xSh)-=x, то справедливо неравенство К <*> № || < || *<*') — х\\ +1| х — которое показывает, что мы имеем дело с последовательностью Коши. ? Фундаментальное свойство поля вещественных или комплекс- комплексных чисел (оно использовалось при доказательстве предыдущей теоремы) состоит в том, что числовая последовательность яв- является последовательностью Коши в том и только в том слу- случае, когда она сходится к некоторому (вещественному или комп- комплексному соответственно) числу. Его называют свойством пол- полноты поля вещественных или комплексных чисел, и мы только что показали, что свойство полноты распространяется на конеч- конечномерные вещественные или комплексные векторные простран- пространства с любыми нормами. К несчастью, бесконечномерные век- векторные пространства могут быть и неполными. 5.4.11. Определение. Векторное пространство V с нормой ||-|| называют полным, если каждая последовательность Коши имеет в пространстве V предел. Упражнение. В линейном пространстве С [0, 1] с ?,-нормой II/Hi — \l f{t)\dt рассмотреть последовательность функций {fk}, о определенных равенствами -^,
332 Гл. 5. Нормы векторов и матриц Изобразить графики функций fk. Показать, это {/^} есть по- последовательность Коши, однако не существует функции /<=С[0, 1], являющейся пределом этой последовательности, т. е. такой, что lim fk = f по норме || • 111- Основываясь на факте компактности единичного шара лю- любой векторной нормы или квазинормы в R" или С, можно ввести другой полезный метод построения новых норм из старых. 5.4.12. Определение. Пусть f(-) — квазинорма на простран- пространстве V — R" или Сп. Функцию fD (у) == max Re y'x называют двойственной нормой к f. Прежде всего отметим корректность определения двойствен- двойственной нормы как функции на V. Функция Re y*x при каждом фикси- фиксированном векторе г/е V непрерывна по х и множество {x:f(x) = = 1} компактно в V в силу следствия 5.4.8. Тогда по теореме Вейерштрасса максимальное значение функции Rey*x дости- достигается в некоторой точке х0 е{л;: f(x)— 1}. Если числовой параметр с удовлетворяет условию |с[=1, то из свойства абсолютной однородности функции / выводим, что max | у"х\= max max Re cy'x = max max Re у9 {сх) = = max max Re y'x = max Re y'x. Следовательно, можно дать эквивалентное и более удобное в некоторых случаях определение двойственной нормы: fD(y) = max\y'x\. E.4.12а) Наконец, необходимо отметить, что функция fD действительно заслуживает название двойственной нормы. Функция /"(•)> оче- очевидно, абсолютно однородна; она положительна, ибо при уФ используя абсолютную однородность функции /(•), получаем У f(y) f(y) Замечательная особенность двойственной нормы fD(-y состоит в том, что она всегда подчиняется неравенству треугольника, даже когда для исходной функции Д») неравенство треуголь-
5.4. Аналитические свойства векторных норм 333 ника не имеет места: < max \у'х\ + max | г'* | = /° (у) + fD (г). Поэтому двойственная норма к квазинорме является на самом деле нормой. Таким образом, построение двойственной нормы к любой квазинорме приводит уже к норме. Чаще всего описанная кон- конструкция применяется в ситуации, когда квазинорма фактически есть норма. Простые неравенства с двойственной нормой даны в следую- следующей лемме. Мы увидим, что это естественные обобщения нера- неравенства Коши — Шварца. 5.4.13. Лемма. Пусть f (•) — квазинорма на V — Cn urn R". Тогда для всех векторов х, у<= V. Доказательство. При х ф О имеют место соотношения У' Цх) max \у'г\ = р> {у); следовательно, \у*х\^ f{x)fD(y). Последнее неравенство также справедливо при х = 0, что доказывает первое утверждение леммы. Второе утверждение вытекает из первого, поскольку \у*х\ = \х*у\. П Легко найти двойственные к некоторым простейшим вектор- векторным нормам. При х, j/eC" можно выписать следующий част- частный случай неравенства Гёльдера: * Zj I У**/1 *%! max \у1\1_1\х1\ = E.4.14) Для любого фиксированного вектора у равенство в E.4.14) на- наступает, когда х является единичным (по норме |ЫЬ) вектором, у которого все компоненты нулевые, кроме одной компоненты я/ —1, где номер / определяется условием |г/<| = Цг/IU. Анало- Аналогично, для любого фиксированного вектора х в соотношении E.4.14) имеет место равенство, когда у выбирается единичным
334 Гл. 5. Нормы векторов и матриц (по норме II'IU) вектором с компонентами yt*a xi/\xi\ для всех номеров i, таких, что xi ф О, и yi = 0 для остальных номеров. Таким образом, {\\y\\\)D= max | #ш*|= max ||уL\\х||, = ||у \]м, ii*iii=i 11*и>=1 (II«/UI)= max \y*x\= max ||«/Hil|^L = l|i/lli. Значит, (||.|li)D = 11-11.0 и fl|-IL)D = ll-!li. Для евклидовой нормы IMU» при заданном ненулевом векто- векторе у и произвольном векторе х в силу неравенства Коши — Шварца '<\\у\Ш\\г. E.4.15) Равенство достигается, когда х = у/Wyh- Проводя рассуждения, подобные использованным выше для /;- и /оо-норм, находим, что |0=||г/||2, т. е. евклидова норма двойственна к себе самой. Упражнение. Объяснить, почему неравенства из леммы 5.4.13 можно считать обобщениями неравенства Коши — Шварца E.1.4). Отметим, что в каждом из трех рассмотренных случаев (/р, /2- и /оо-норм) двойственная к двойственной норме совпадает с исходной нормой. Это не случайность — в теореме двойствен- двойственности 5.5.14 из следующего параграфа утверждается, что та- такое совпадение имеет место во всех случаях. Среди данных трех норм своей двойственной равна лишь евклидова норма. Нетрудно показать, что это также не слу- случайно '). 5.4.16. Теорема. Пусть || • || — векторная норма на простран- пространстве V = Rn или С", а || • ||° — двойственная к ней, и пусть за- задано число с > 0. Тогда равенство \\х || = с || х \\D для всех леГ имеет место тогда и только тогда, когда || • ||= Vе II ' Ik- В част- частности, равенство || • II = II ¦ \\D верно тогда и только тогда, когда норма || • || совпадает с евклидовой нормой \\ ¦ ||>. ') И вызвано тем, что в определении E.4.12а) двойственной нормы под знаком модуля стоит выражение у*х — евклидово скалярное произведение векторов х и у. Таким образом, это определение двойственности относитель- относительно евклидова скалярного произведения. В более общем определении двой- двойственности под знаком модуля можно поставить скалярное произведение {к, у} = у*Кх, где К = К* > 0, /Се Мп. Тогда двойственной к себе окажется Корма || • || еэ < •, • I/2, порожденная этим скалярным произведением.— Прим. перев.
5.4. Аналитические свойства векторных норм 335 Доказательство. Если \\ • \\ = -у'с Ц • \\2, то справедливы нера- неравенства = max I л: г/] = max II У 11 = 1 Ilwll,=l/V max -=r max \xy\ = —j=- 11° 4 при любом векторе ле7, В обратную сторону, если H-ll513 = с || • ||D при некотором с>0 и х е V, то из леммы 5.4.13 видим, что Таким образом, \\х\\^ус \\х\\2. Чтобы получить оценку с дру- другой стороны, можно использовать это неравенство, рассматри- рассматривая при х Ф О цепочку соотношений I |> it (I jif 1 max max УФй \х х' У II 1 = у yh max \\yh II у II * \\y\\ <max = X* II г/Ik * = X т=- = \\Х | II* Иг Vc Здесь применено неравенство ||г/||2/|| г/11^ l/Vc> верное для любого вектора у ф 0, и учтено то обстоятельство, что макси- максимум модуля евклидова скалярного произведения заданного не- ненулевого вектора и вектора единичной евклидовой длины до- достигается, когда единичный вектор параллелен данному (это гарантируется неравенством Коши — Шварца). Следовательно, (I х || <[ Vе IIх Иг Для всех х е V. Принимая во внимание ранее доказанное неравенство ||*||^VC ||х||2, заключаем, что факти- фактически || х || = V^ II * 1Ь Для любого вектора х е V. Выбирая с = 1, получаем последнее утверждение теоремы: только евклидова норма совпадает со своей двойственной. ? В заключение укажем, что можно придать разумный смысл понятию двойственного к вектору (так же, как и к векторной норме). 5.4.17. Определение. Пусть заданы вектор х е С" и норма || • || на С". Множество \v ^ * И УII Jl x |] —- у х — l $ называют двойственным к вектору х по отношению к норме \\ ;J|.« Упорядоченную пару векторов (^^бС'ХС" называют двои-
336 Гл. 5. Нормы векторов и матриц ственной парой по отношению к норме ||-||, если вектор у при- принадлежит множеству, двойственному к х по отношению к ||-||. В следствии 5.5.15 устанавливается, что множество, двойст- двойственное к произвольному1) вектору jeC по отношению к век- векторной норме | • |, всегда непусто. Оно может содержать один элемент или более. Например, в случае евклидовой нормы ||-|| = ||-||2 двойствен- двойственным к каждому вектору х е С" будет только один вектор — сам вектор х. В случае нормы ||-11 = 11-И», однако, лишь один вектор является двойственным к л; == [0, 1]г, но бесконечно много век- векторов двойственно к х — [1, 1]г. См. задачу 13 далее. Задачи 1. Неравенство из следствия 5.4.5 можно записать в следую- следующем эквивалентном виде: где С,„(-, •) и См(-, •) —наилучшие возможные значения кон- констант в неравенстве из 5.4.5, связывающем соответствующие нормы. Показать, что Сп(\\ ¦ ||3, II • L) = (CM(\l • IL II • lip)). 2. Оценить величину Ст(|| • ||а, || ¦ Ц,) через Ст(|| • ||а, || - ||р) и Ст(|| • ||р, II • \\у), где константы не обязательно наилучшие. При- Привести аналогичную оценку для См. 3. В таблице, приведенной ниже, приводятся значения наи- наилучших констант См (|| • ||а, || • ||р) для /г /2- и /,^-норм, т. е. констант из неравенств || х \\а ^ См II х |L для всех векторов х е С", где а, Р = 1, 2, оо. Проверить правильность этих значений. Показать их неулучшаемость, подбирая такой ненулевой век- вектор х, при котором верно равенство || х \\а = См|| х ||р. оо 1 1 V« п. 2 1 1 V« оо 1 1 1 Как выглядит таблица значений наилучших констант из нера- неравенств ||jc||o ^ Cm||je||p? Указание. См. задачу 1. ., ') Не равному нулю. — Прим. перев.
5.4. Аналитические свойства векторных норм 337 4. Показать, что эквивалентность двух норм на веществен- вещественном или комплексном векторном пространстве означает, что имеют место неравенства, связывающие эти две нормы при по- помощи двух констант, как в следствии 5.4.5. Указание. Рассмот- Рассмотреть функцию f{x)= l/IU||a на единичной сфере S нормы Ц-Цр. Если функция / неограниченна на S, то существует такая после- последовательность {xN}<=S, что Holies < 1/N и IUjvIIp = 1. Это про- противоречит эквивалентности норм ||-||„ и ||-Ц|3- Отметим, что по- понятия конечномерности или компактности не привлекаются. 5. Показать, что функции fk из примера 5.4.2 имеют сле- следующие свойства: fk(x)->0 при ?->оо для каждого значения аргумента х, || fk — // Hi -> 0 при k, /->оо и \\fk — //L=l Для всех k ф \. Таким образом, последовательность функций может одновременно сходиться в некотором смысле (например, пото- поточечно), являться последовательностью Коши относительно од- одной нормы и не являться последовательностью Коши относи- относительно другой нормы. 6. Пусть V — полное вещественное или комплексное вектор- рое пространство с нормой \\ ¦ ||, и пусть задана последователь- последовательность {х^Ц элементов из V. Показать, что последователь- п ность {у{п)} частичных сумм у{п) = 2 хт сходится в V, если fti существует такое М^О, что J) ||x(ft)||^M для всехя=1, 2, .... 4 = 1 Какую теорему о сходимости рядов с вещественными членами обобщает это утверждение? 7. Показать, что || jc IL = lim || x ||р для каждого вектора 8. Полагая || • ||a = a|| • |], a > 0, показать, что (||-|la)D = = (l/a)||-||D. 9. Показать, что ^-норма является двойственной к /р-норме при любом р^ 1, где величина q определяется из равенства 1/р + 1/9= 1- Указание. Заменить неравенство E.4.14) на бо- более общее неравенство Гёльдера. 10. Пусть на С" заданы две векторные нормы || • ||а и |[ • ||р. Предположим, что существует такая константа С > 0, что || х ||а < С [| х ||р для каждого вектора леС". Показать, что для всех ^еС" верно неравенство ||х||^<С||х||°. Указание. Ис- Использовать соотношения = max \у*х\ = = тах / ,| ^тах If „ =7^ тах
338 Гл. 5. Нормы векторов и матриц 11. Показать, что группа изометрий нормы \\-\\D всегда вклю- включает в себя множество матриц, каждая из которых сопряжена к некоторой изометрий исходной нормы ||-||. Вывести отсюда заключение, что группа изометрий нормы || • \\D в точности яв- является множеством всевозможных матриц, каждая из которых сопряжена к некоторой изометрий нормы ||-||. Когда изометрий норм || • II и [| • IIй совпадают? 12. Пусть || • || — векторная норма на С" и Те.Мп. Пока- Показать, что || • ||° = || • ||°, если Т — изометрия исходной нормы. 13. Пусть на С" задана некоторая норма Ц-11- (a) Показать, что множество, двойственное к нулевому век- вектору по отношению к норме || -Ц, не определено. (b) Пусть норма || ¦ || совпадает с евклидовой нормой ||-||2. Показать, что множество, двойственное к ненулевому вектору х е С" по отношению к норме || -1|2, есть в точности множество {х}, состоящее только из самого вектора х. Указание. Использо- Использовать тот факт, что неравенство Крши — Шварца обращается в равенство тогда и только тогда, когда соответствующие два век- вектора линейно зависимы. (c) Пусть норма || • || совпадает с || • ||«>. Показать, что по от- отношению к норме If - Поо двойственным к вектору х = [О, 1]Г яв- является множество {х}, но двойственным к вектору л: = [1,1]г будет множество {[а, 1 -а]г: 0<а<1}. (d) Пусть норма ||-|| совпадает с II-Ць Что представляет со- собой множество, двойственное к вектору х==[0,1]т по отноше- отношению к норме ||-Hi? (e) Пусть х — заданный ненулевой вектор и вектор у яв- является двойственным к нему по отношению к норме ||-||- Пока- Показать, что вектор х будет двойственным к вектору у по отношению к норме ||-W0. (f) Показать, что множество, двойственное к произвольному ненулевому вектору х по отношению к норме || • ||, состоит из самого вектора х, если || -1| == )j - Па» и только в этом случае. 14. Пусть функция /: R2-»-R определена равенством f{x) = = \xix2t12. Показать, что множество {х: /(л;)=1) не является компактным. Вступает ли это в противоречие со следст- следствием 5.4.8? 16. Пусть Рассмотрим пример квазинормы / (х) = (|| х ||„ \\х ||рI/2, приведен- приведенный ранее в упражнении. Показать, что та часть «единичного шара» {х е R2; f(#Xl}, которая находится в первом квад-
5.4. Аналитические свойства векторных норм 339 ранте, ограничена отрезками пр_ямых *2=l/-\/l0 и atj = l/д/То и дугой гиперболы х1х2= l/д/Ю- Изобразить это множество и показать, что оно не является выпуклым. Почему при после- последовательном отражении этого множества относительно коорди- координатных осей получаются недостающие куски «единичного шара» в трех остальных квадрантах? Показать, что пересечение еди- единичного шара двойственной нормы {х е R2: fD(x)^l} с пер- первым квадрантом ограничено отрезками прямых jq/10 + х2 = л/\О и Х\ + х2/10 = VlO и что весь единичный шар нормы \° можно построить, последовательно отражая эту часть относи- относительно осей. Убедиться, что единичный шар нормы fD является выпуклым. Показать, что часть единичного шара нормы fDD, ле- лежащая в первом квадранте, ограничена отрезками прямых х2= l/УТО, jq^l/УТо и Xi -Ь дг2== 11/A0 VTo) и что остав- оставшиеся четверти получаются последовательным отражением этой части относительно осей. Наконец, сравнить единичные шары нормы fDD и квазипормы / и проверить, что первый является замкнутой выпуклой оболочкой последнего. 16. Пусть 11-11—векторная норма на V = R" или С". Пока- Показать, что max i^=max max (jjfX (тплг ) II * Иг I 11*11=^0 II*11 11*11-1 UjHI-1 V "  ' ^пУ"*' II x 11 и что ^>[ \\\\2fm ХфО 11-41 11*11 = 1 Вывести отсюда, что для любого вектора л:е V справедливы не- неравенства Cm|U||^IU||D ^ CmIUII. Таким образом, каждая нор- норма эквивалентна своей двойственной и константы в соответ- соответствующих неравенствах эквивалентности имеют геометрический смысл '). 17. Пусть /(•) — квазинорма на R" или С". Показать, что fD(y)= max ^^ f(l E.4.18) Другой пример использования подобных равенств приводится в упражнении, которое следует за определением 5.6.1. ') Они равны квадратам радиусов минимального кольца (в евклидовой норме), содержащего единичную сферу нормы II • It (см. § 5.5), — Прим. перев.
340 Гл. 5. Нормы векторов и матриц Дополнительная литература Двойственные нормы обсуждаются в [Нои 64]. Идею, что по- нятие двойственности в применении к квазинорме приводит к норме, впервые высказал, по-видимому, Дж. фон Нейман. Он изучал «калибровочные функции» (то, что мы называем век- векторными нормами) в статье: Von Neumann J. Some Matrix-Ine- Matrix-Inequalities and Metrization of Matric-Space. — Изв. ин-та ма- тем. и мех. Томск, ун-та, 1937, т. 1, с. 205—218, которая также содержится в т. 4 собрания работ фон Неймана (von Neu- Neumann J. Collected Works, ed. A. H. Taub. — Macmillian New York 1962). 5.5. Геометрические свойства векторных норм Основной геометрической характеристикой векторной нормы является единичный шар, рассматривая который можно лучше понять, что представляет собой данная норма. 5.5.1. Определение. Пусть ||-||—векторная норма на веще- вещественном или комплексном векторном пространстве V, и пусть заданы точка х из V и число г > 0. Шаром радиуса г с центром в точке х называют множество Bl.l{.r;x)^{y^V: \\у-х\\^г}. Единичным шаром для нормы || • || называют множество fi|.|sBM(l;0) = {?sl': II if IK 1}. Упражнение. Показать, что для любых г > 0 и jjeF спра- справедливы представления В{г,х) = {у + х: уе=В(г, Щ = х + В(г; 0). Шар данного радиуса с центром в точке х имеет тот же вид, что и шар такого радиуса с центром в нуле, и может быть по- получен параллельным переносом последнего в точку х '). Еди- Единичный шар является геометрическим досье нормы и полностью характеризует эту норму в силу свойства абсолютной однород- однородности2) (фактически можно обойтись только границей шара fin. и). В настоящем параграфе мы точно установим, какие под- подмножества из С могут играть роль единичного шара какой- либо векторной нормы. Упражнение. Изобразить единичные шары для 1\-, 12- и 1^-норм на R2. Можно ли установить какие-нибудь включения? ') Например, продолжая предыдущее упражнение, можно записать так- также представление В (г. х) = х + г • Вй. Ц — Прим. nepie. 2) Две нормы совпадают тогда и только тогда, когда совпадают их единичные шары. — Прим. перее.
5.5. Геометрические свойства векторных норм 341 Какие точки принадлежат одновременно границам единичных шаров всех /р-норм на R2? Изобразить несколько единичных шаров для других /р-норм. Упражнение. Пусть || • \\а и || • Ц^ —две нормы на векторном пространстве V. Показать, что неравенство ||х\\а<|]х||р имеет место для всех х е V в том и только в том случае, когда JBj. и с: Вц . и . Таким образом, естественное отношение частич- Р а ного порядка на векторных нормах можно выразить в терми- терминах геометрических включений. Что происходит с единичным шаром, когда норма умножается на положительную константу? Упражнение. Пусть ||-Ц—векторная норма на V, а — неко- некоторое число и д:е V. Показать, что условие ||ax||=|U|| влечет за собой равенство х = 0 или joc|= 1. Вывести отсюда заключе- заключение, что каждый «луч» {ах: а > 0} пересекает границу единич- единичного шара в точности один раз. 5.5.2. Определение. Векторную норму называют полиэдраль- полиэдральной, если ее единичный шар является многогранником1}. Упражнение. Какие из /Р-норм полиэдральны? Упражнение. Если норма ||-|| полиэдральна и матрица SgM» невырожденна, будет ли норма ||-[|s полиэдральной? В векторном пространстве с нормой очень легко определить основные топологические понятия открытого и замкнутого мно- множеств. 5.5.3. Определение. Пусть ||-Ц—норма в вещественном пли комплексном векторном пространстве V и S — подмножество в V. Точку JteS называют внутренней точкой множества S, если существует такое число е > 0, что Вц.ц(е; х) с: S. Множе- Множество S называют открытым, если каждая точка из S является внутренней. Множество S называют замкнутым, если дополне- дополнение к нему — открытое множество. Предельная точка множе- множества S есть такая точка хе V, что lim x{k) = x (по норме ||-||) k-><x> для некоторой последовательности {x^k)}czS. Замыканием мно- множества S называют объединение S с множеством всех его пре- предельных точек. Границу множества S образует пересечение за- замыкания множества S с замыканием дополнения к 5. Множе- Множество S ограничено, если существует число М >» 0, при котором ') Здесь и далее рассматриваются лишь выпуклые многогранники. Вы- Выпуклым многогранником называется выпуклая оболочка конечного множе- множества точек (или, эквивалентно, ограниченное пересечение конечного числа замкнутых полупространств), см. приложение В. — Прим.. перев.
342 Гл. 5. Нормы векторов и матриц S с: В||. и(М; 0). Множество 5 компактно1), если из любого его покрытия U 5а гэ S открытыми множествами Sa можно выбрать а конечный набор множествSai, ..., Sajv, образующий подпокры- подпокрытие U Sa. => S. i = \ l Упражнение. Показать, что единичный шар В\\. g является замкнутым ограниченным множеством для любой векторной нормы || • || на произвольном векторном пространстве V. Упражнение. Пусть V—конечномерное вещественное или комплексное векторное пространство и S cz V — ограниченное замкнутое множество2). Используя тот факт, что пространство V изоморфно R" или С" при некотором п, показать, что S ком- компактно (см. приложение Е). 5.5.4. Утверждение. Если векторная норма || • || задана на не- нетривиальном (т. е. ненулевой размерности) вещественном или комплексном векторном пространстве V, то точка 0 будет вну- внутренней для единичного шара Вц. ц. Этот факт обусловлен свойствами абсолютной однородности и положительности нормы || • ||, которые влекут за собой вклю- включение Вц. цA/2; 0) с= Вц. цA, 0). Первый шар вместе со своей границей лежит внутри единичного. 6.5.5. Утверждение. Единичный шар векторной нормы яв- является уравновешенным множеством, т. е. любая точка х еди- единичного шара лежит в нем вместе со всеми точками вида ах, где | а | = 1. Это вытекает из свойства абсолютной однородности вектор- векторной нормы. 5.5.6. Утверждение. Единичный шар векторной нормы в ко- конечномерном векторном пространстве компактен. ') Можно показать, что компактное (по этому определению) множество в нормированном пространстве обязательно замкнуто. Такие множества ино- иногда называют бикомпактными пли компактами, а компактными множествами называют в этом случае множества с бикомпактным замыканием — Прим. перев. 2) В произвольном конечномерном векторном пространстве V (в частно- частности, в R" или С") две различные нормы в силу их эквивалентности задают одну топологию, а именно ту единственную топологию на V, в которой не- непрерывны определенные в V операции сложения и умножения на скаляр. Таким образом, топологические понятия в V по существу не связаны с нормами. Например, замкнутое {в смысле определения 5.5.3) в некоторой норме мно- множество из V неизбежно замкнуто в любой другой норме на V. Это позво- позволяет употреблять топологические понятия в V без указания какой-либо кон- конкретной нормы. — Прим. перев.
5.5. Геометрические свойства векторных норм 343 Он является ограниченным в силу абсолютной однородности векторной нормы и замкнутым, поскольку норма — всегда не- непрерывная функция. В конечномерном случае замкнутое ограни- ограниченное множество компактно, но это не всегда верно в бесконеч- бесконечномерных пространствах'). Из свойств компактных множеств мы чаще всего будем использовать теорему Вейерштрасса (см. приложение Е), гласящую, что непрерывная вещественнознач- ная функция на компактном множестве ограничена и достигает своих точной верхней и точной нижней граней на этом множе- множестве. Учитывая последний факт, точные грани такой функции мы обычно называем ее «максимумом» (max) и «минимумом» (min) соответственно. Упражнение. Определим комплексное векторное простран- пространство h векторов х = {xi) со счетным набором компонент, обоб- обобщая на этот случай понятие /2-нормы в конечномерном про- пространстве: .и (^ ¦ ¦¦Л'/2 Показать, что ||ek — е}||2 = у 2 для любой пары единичных базисных2) векторов ek и еу при k ф j и k, j — 1, 2 Таким образом, никакая подпоследовательность из {ek} не может быть последовательностью Коши; значит, последовательность {ек} не содержит сходящихся подпоследовательностей. Вывести отсюда, что единичный шар в /2 не может быть компактным. 5.5.7. Утверждение. Единичный шар векторной нормы яв- является выпуклым множеством. Доказательство. При IU||s?^ I, ||t/||^ 1 и cte[0, 1] выполнены соотношения (l —a)=l. Значит, точка ах-\-(\-—а)у лежит в единичном шаре вместе с х и у. D ') Более того, нормированное векторное пространство, в котором какой- либо шар компактен, обязательно конечномерно. — Прим. перев. 2) Подразумевается, что все указанные векторы — просто координатные: е. = @, ..., 0, 1, 0, 0, ...), /=1,2 «-1 — Прим. перев.
344 Гл. 5. Нормы векторов и матриц Наличие приведенных выше свойств единичного шара ока- оказывается не только необходимым, но и достаточным условием характеризации нормы. 5.5.8. Теорема. Множество В в конечномерном вещественном или комплексном пространстве тогда и только тогда есть еди- единичный шар некоторой векторной нормы на V, когда это мно- множество (I) компактно, (II) выпукло, (III) уравновешено, (IV) содержит О в качестве внутренней точки. Доказательство. Необходимость условий (I) — (IV) уже была отмечена. Убедимся, что выполнения этих условий достаточно, чтобы определить норму. Рассмотрим произвольную ненулевую точку (вектор) ieN построим отрезок {ах: О ^ а ^ 1} луча от начала координат через точку х. Этот луч пересекает гра- границу единичного шара в единственной точке. Длина отрезка луча от начала координат до этой точки служит единицей при измерении расстояний вдоль луча. «Длина» вектора х опреде- определяется как длина отрезка луча от начала координат до х, выра- выраженная с помощью такой единицы. Более формально, опреде- определим величину ||л;|| равенствами || х || = 0, если * = 0, ||*|| = min ¦[¦]-: / > 0 и /xe=fij, если х ф 0. Эта функция от х корректно определена, конечна и положи- положительна для каждого ненулевого вектора х, поскольку множе- множество В компактно и включает в себя 0 как внутреннюю точку. Используя предположение об уравновешенности, легко увидеть, что функция || ¦ || абсолютно однородна. Остается проверить только неравенство треугольника. Если х и у — заданные ненулевые векторы, то векторы х/\\х\\ и у/\\у\\ будут единичными и попадут на границу множества В. В силу выпуклости множества В вектор 1 11*11 • 11*11 + И(/11 \\y\\ также должен лежать в В. Следовательно, выполнено неравен- неравенство ЦгЦ^ 1, которое, как легко проверить, эквивалентно нера- неравенству ||дс + г/IKIUH + lli/ll. D Упражнение. Провести детальное доказательство теоремы 5.5.8, тщательно указывая, в каких рассуждениях используется каждое из четырех предположений. Все уже знакомые нам /р-нормы обладают следующим свой- свойством: норма ||х|| зависит только от абсолютных значений ком-
5.5. Геометрические свойства векторных норм 345 понент вектора х. Кроме того, каждая /р-норма является воз- возрастающей функцией абсолютных значений компонент данного вектора. Эти два свойства связаны между собой. 5.5.9. Определение. Если л: = [л;,]ге F" (R" или С"), то по- полагаем \х\ ез [|л:;|]г. Говорят, что \х\ ^ |у\, если |л:,|^ yt\ для каждого t = l, ..., п. Векторную норму II-II на F" называют (a) монотонной, если неравенство |*|^|г/| влечет за собой неравенство норм |U||^|!i/|| для всевозможных векторов х.г/eF"; (b) абсолютной, если равенство IU'|| = il |х||| верно для всех векторов х е F". 5.5.10. Теорема. Векторная норма [| ¦ [[ на F" (R" или С") мо- монотонна тогда и только тогда, когда она абсолютна. Доказательство. Пусть норма || • || монотонна, ieF* и у==\х\. Тогда одновременно |г/|^|*| и |л:|^|г/|, поэтому || у IK || х || и || х |К || у ||, следовательно, норма || • || абсолютна. Пусть теперь норма || • || абсолютна. Зададим некоторый век- вектор х = [Xif e F", натуральное k в пределах 1<6<п и число ое[0, 1]. Тогда || [хи ... , -Vj(,_i, axk, Xk+i, ••• , хп] || = — A a) [xi, ... , л;^_|, — xk, x^+j, ... , xn] + l xk+l *n]rll + y(l — a) || x || +a|| x || = *—¦ q v / N II 1 "o~ \ ^ "y t X [ | —p (X || X I ll-^l* 10.0,11) Предположение о том, что норма абсолютна, используется толь- только в предпоследнем равенстве. Повторяя выкладки E.5.11) для различных компонент, можно показать, что абсолютная норма удовлетворяет неравенству || [а,*,, ... , aAf||<||[xb ... , xnY\\ E.5.12) при каждом ieF* и всевозможных аАе[0, 1], k = \, ... , п. Наконец, если |х|<||г/|, то для каждого номера й = 1, ..., п найдутся такие вещественные ak, ak е [О, 1], и 9Ь что хк = = o.ketQkyk. Используя определяющее свойство абсолютной нормы, приходим к соотношениям которые показывают, что норма должна быть монотонной. П
346 Гл. 5. Нормы векторов и матриц Неравенство в E.5.11) наводит на мысль о возможности введения несколько более слабого понятия монотонности. Б.5.13. Определение. Векторную норму || • || на Fre (Rre или С") называют слабо монотонной, если неравенство «•• > Хп\ II верно для всех векторов х = [xt]T e F" и чисел k = \, ... , п. Если векторная норма || • \\ слабо монотонна и ае [0, 1), то II [xi, • • • , Xji_\, а,хк, хк+\, ... , хп\ || = = ||A— а) [хх хк_ъ 0, хк+1 хп]т + ах || < k_u 0, Таким образом, слабо монотонная норма удовлетворяет также на вид более сильному неравенству E.5.12). Следовательно, если у заданной точки на единичной сфере слабо монотонной нормы абсолютное значение одной из коор- координат уменьшать до нуля, то построенный таким способом пря- прямолинейный отрезок должен лежать в единичном шаре. Моно- Монотонная норма, очевидно, является слабо монотонной, но обрат- обратное неверно, как станет понятно из следующих упражнений. Упражнение. Доказать, что параллелограмм с вершинами в точках ±[2, 2]г и ±[1,—1]г является единичным шаром не- некоторой векторной нормы на R2, не обладающей свойством сла- слабой монотонности. Упражнение. Можно ли считать функцию f(x) — \xi—л:г| + -J-|jt2| векторной нормой на R2? Является ли она монотонной? Слабо монотонной? Изобразить единичный шар этой нормы. Упражнение. Пусть || • ||—абсолютная норма на R2. Пока- Показать, что вместе с точкой х — [xi,x2]T границы единичного шара на этой границе лежат также точки [±хи ±х2]т (для всех че- четырех возможных способов выбора знаков). Проиллюстриро- Проиллюстрировать это геометрическое свойство рисунком. Изобразить единич- единичный шар какой-либо нормы на R2, обладающей свойством аб- абсолютности. Что происходит в R"? Упражнение. Изобразить многоугольник на R2 с вершинами в точках rfc[o, if, ri=[i, OF и ±[i, IF.
5.5. Геометрические свойства векторных норм 34? Объяснить, почему этот многоугольник можно трактовать как единичный шар некоторой слабо монотонной векторной нормы на R2, но не монотонной или абсолютной векторной нормы; Выпуклость единичного шара векторной нормы — это факт, имеющий многочисленные глубокие, а в некоторых случаях по- поразительные следствия. Одно из них приводится ниже в виде теоремы двойственности, которая формулируется в общем виде в терминах квазинорм. Ключевые идеи доказательства имеют очень естественный геометрический смысл. А именно, наимень- наименьшее замкнутое выпуклое множество, содержащее заданное мно- множество S (замкнутая выпуклая оболочка CoS, см. приложе- приложение В), рассматривается как пересечение всех замкнутых полу- полупространств (полупространство — все то, что лежит по одну сторону гиперплоскости), содержащих 5. Кроме того, если имеется точка х, лежащая в любом полупространстве, в кото- котором лежит S, то точка х должна принадлежать замкнутой вы- выпуклой оболочке множества 5. Эти простые представления не- непосредственно приводят к важному факту, что двойственная к двойственной векторной норме совпадает с изначальной нормой. 5.5.14. Теорема (двойственности). Пусть /(•)— квазинорма на V = R" или С", fD — двойственная к ней норма и fDD — норма, двойственная к fD. Через обозначим «единичный шар» квазинормы f и единичный шар нормы fDD соответственно. Тогда В с= 5" = СоВ и, следовательно, fDD (х) <[ / (х) для всех х е V. Если f — век- векторная норма на V, то В —В" и fDD = f. Доказательство. При заданном векторе х<= V в лемме 5.4.13 утверждается, что \* для любого jgF. Следовательно, г/*х|< max f(x)fD(y) D Таким образом, fDD {x) s^. f (х) для всех векторов х е V, что эквивалентно геометрическому утверждению о включении В с В". Для доказательства равенства 6" = СоВ удобно ис- использовать характеризацию {5.4.18) двойственной нор- нормы и то обстоятельство, что множество {t e V: Re/*& ^ 1} яв-
348 Гл. 5. Нормы векторов и матриц ляется замкнутым полупространством общего вида, содержа* щим начало координат. Привлекая определение двойственной нормы, заметим, что для заданной точки и е В" u e {^: Re/*o ^ 1 для каждого а, такого, что /°(й)^1} = = {/:Re^*y^l для каждого v, такого, что Кеи*ш<[1 для каждого w, такого, что /(гв)<1}=з = {/:Re/*y^l для каждого v, такого, что Rew*v^l для всех w e В}. Это означает, что точка и лежит в каждом замкнутом полу- полупространстве, содержащем любую точку из В, т. е. содержащем множество В. Поскольку пересечение всех таких замкнутых по- полупространств образует Со В — замкнутую выпуклую оболочку множества В, заключаем, что и <= Со В. Но точка и е В" была выбрана произвольно, поэтому B"czCoB. С другой стороны, выпуклая оболочка Со В есть пересечение всевозможных выпук- выпуклых множеств, содержащих В; тогда Со В с: В". Следовательно, верно равенство В" = Со В. Если квазинорма / фактически является нормой, то ее замк- замкнутый единичный шар В есть выпуклое множество, поэтому В = Со В, и тогда мы получаем В с= В" с В и В = В". По- Поскольку единичные шары норм f и fDD совпадают, то совпадают и сами эти нормы. ? В качестве одного из приложений теоремы двойственности приведем следующий полезный результат. Это частный случай конечномерного варианта важного и весьма общего результата из функционального анализа, известного как теорема Хана — Банаха. 5.5.15. Следствие. Пусть заданы вектор jeC u векторная норма || • || на С". Тогда существует такой вектор у0 е С", что (a) |(i/o)**KIUII для всех ^еС", (b) (Уо)*У = \\У\Ъ Вектор г/о удовлетворяет помимо п. (Ь) равенству || у0 \\D = 1, но он не обязательно единствен. Доказательство. Как известно, Цг/1| = (||г/1П°= max\y*z\ I|2||D=1 по .теореме двойственности. В^ силу компактности единичной сферы векторной нормы ||-||D максимум здесь действительно до- достигается на некотором (не обязательно единственном) векторе z = г/о, для которого ||г/оII° = 1. Следовательно, ||«/|| = |i/*i/o|. За счет умножения вектора уо на подходящее число модуля 1 ска-
5.5. Геометрические свойства векторных норм 349 лярное произведение у*уо можно сделать положительным. Тем самым приходим к утверждению (Ь). Из леммы 5.4.13 известно, что IЫ* * КII #о 11° 11*11 = 11*11 Для всех х е С. Поэтому для вектора г/о утверждение (а) также верно. Заме- Заметим, что свойство (а) обеспечивает справедливость неравенства IIг/оIID ^ 1, а свойство (Ь) приводит к равенству \\yo\\D = 1. ? Задачи 1. Показать, что множество S замкнуто тогда и только тогда, когда оно содержит все свои предельные точки. 2. Показать, что каждую точку из S можно считать предель- предельной точкой этого множества, поэтому замыкание множества просто совпадает с множеством всех его предельных точек. 3. Привести пример множества, которое открыто и замкнуто одновременно. Привести пример множества, не являющегося ни открытым, ни замкнутым. 4. Пусть 5 — компактное множество в вещественном или комплексном векторном пространстве V с нормой ||«||. Показать, что S замкнуто и ограничено. Доказать, что из любой заданной бесконечной последовательности {л;а}с:5 можно выделить под- подпоследовательность {xai} с {*аЬ сходящуюся к некоторой точке ле5. Показать, что любое замкнутое подмножество компакт- компактного множества также компактно. 5. Что происходит с утверждением 5.5.4 в случае простран- пространства V нулевой размерности? 6. Как можно было бы определить единичный шар вектор- векторной полунормы? Как по виду отличить его от единичного шара нормы? Привести какой-нибудь пример и пояснить его рисунком. 7. Пусть || • ||а и || • ||р — нормы на векторном пространстве и векторная норма || • || определена равенством IUH = max{|U||a> lUHp}. Показать, что ВН| = Яц-иаЛ Яц-iip. 8. Доказать, что векторная норма || • || на Fn (R.n или С") абсолютна тогда и только тогда, когда равенство ПК*,, <ихг art*n]rll = ll[*i> хъ ... , xn]r|| верно для всех векторов [д:,, хъ ... , xJeF" и всех чисел а,, Ог, ... , aneF°, подчиненных условиям | о^ |= ... =| а„ |= 1. В шести оставшихся задачах используются следующие обо- обозначения. Пусть || • ||—векторная норма на вещественном или
350 Гл. 5. Нормы векторов и матриц комплексном векторном пространстве V и х, г/е V. Через Их, y)^{z(t) = x + t(y-x): 0</<1} обозначается обычный (по отношению к линейным алгебраиче- алгебраическим операциям) прямолинейный отрезок между точками х и у, а через С(х, у; \\.\\) = {zsV: IU-z|| + ||z-*/|| = ||*-г/||} обозначается выпуклая (метрическая) оболочка точек хну относительно нормы ||-||. 9. Показать, что L(x, y)czC(x, у; || • ||) для всех х, y^V при любой векторной норме || • ||. 10. Показать, что для V = Cn с /2-нормой С(х, у; ||.||2)=з = L (х, у) для всех х, у е С", т. е. что тогда и только тогда, когда z = x-\-t(y — х) при некотором /е=[0, 1]. 11. Показать, что множество С(х,у; \\-\\) всегда выпукло (в обычном смысле), т. е. что /2, + A-0г2еС(*, у; ц.ц) для всех fe[0, 1], если гь z2^C(x, у; || • ||). 12. Показать, что множество С(A, 0), @, 1); || • ||() в про- пространстве V = R2 над полем R заполняет квадрат с верши- вершинами в точках @, 0), @, 1), A, 1) и A, 0). Указание. Прове- Проверить, что точки @,0) и A,1) лежат в этом множестве, и ис- использовать задачу 11.Показать, что,однако,множество С(A,0), @,1); ||-Ц°°) совпадает с прямолинейным отрезком L((l,0), @,1)). 13. Рассматривая вновь пространство V = R2 над полем R, показать, что множество С(A, 1), A,—1); IHU) заполняет на плоскости квадрат с вершинами в точках @,0), A, 1), B,0) и A,—1). Указание. Проверить, что точки @,0) и B,0) лежат в этом множестве. Показать, что, однако, множество С(A, 1), A,—1); Il-Hi) совпадает просто с прямолинейным отрезком L((l,l), A,-1)). 14. Выпуклую метрическую оболочку множества ScV из k точек, k ^ 2, можно определить как множество всех таких ге1/, что каждая точка г принадлежит выпуклой метрической оболочке двух точек, каждая из которых в свою очередь при- принадлежит выпуклой метрической оболочке некоторой пары то- точек из 5. Показать, что при k = 2 это определение согласуется с приведенным выше. Описать выпуклую /i-оболочку множества единичных ортонормированных базисных векторов {ей е2, ,.., е„}
5.6. Матричные нормы 351 в R". Что представляет собой выпуклая /2-оболочка этого мно- множества? Как выглядит выпуклая в обычном смысле (по отно- отношению к линейным алгебраическим операциям) оболочка этого множества? Дополнительная литература Более подробное обсуждение геометрических аспектов век- векторных норм имеется в [Нои 64]. Основная идея доказатель- доказательства теоремы двойственности (отождествление единичного шара нормы, двойственной к двойственной норме, с пересечением всех полупространств, содержащих единичный шар исходной нормы) использовалась фон Нейманом в работе, на которую мы ссы- ссылались в конце § 5.4. Детальное обсуждение выпуклых мно- множеств, выпуклых оболочек, полупространств и т. п. можно найти в [Val]. 5.6. Матричные нормы Поскольку множество М„ само является векторным про- пространством размерности п2, «величину» матрицы можно изме- измерять при помощи любой векторной нормы на С4'. Однако Мп—¦ ие просто векторное пространство большей размерности; на нем имеется естественная операция умножения, и при выводе оце- оценок часто бывает полезным связать «величину» произведения АВ с «величинами» сомножителей А я В. Функцию || • ||: Mn—>-R называют матричной нормой, если для всех матриц А, В е Мп она удовлетворяет следующим пяти аксиомам '): (неотрицательность); (положительность); (абсолютная однород- ность); (неравенство треуголь- треугольника); (кольцевое свойство). Заметим, что свойства A) — C) идентичны аксиомам векторной нормы из определения 5.1.1. Векторную норму на множестве матриц, т. е. функцию, удовлетворяющую A) — C) и не обяза- A) (la) B) C) 4) Мп: Mll = 1|сЛ|| >o = 0 да = | лексных M4 \\AB{ ¦fill К тогда и только тог- , когда Л = с ||| Л || для чисел с <Ш + |М II Л |||| fill = 0 всех комп 311 ') В оригинале используется обозначение || • || для векторной нормы и ||| • I для матричной нормы на Мп. Мы использовали привычное обозна- обозначение || • || в обоих случаях, поскольку это не приводит к путанице. Обозна- Обозначения некоторых конкретных норм в переводе также приведены в соответ- соответствие с традицией. — Прим. мрев.
352 Гл. 5. Нормы векторов и матриц телыго D), часто называют обобщенной матричной нормой. От- Отбрасывая аксиому da), можно также определить понятие ма- матричной полунормы и обобщенной матричной полунормы. Поскольку || А2 \\ = || А А ||< || А || || А || = || А \? для любой матрич- матричной нормы, то неравенство ||Л||^1 должно быть выполнено для любой ненулевой матрицы А, такой, что А2 —А. В частности, ||/||^1 для любой матричной нормы. Если \ 1 матрица А обратима, то 1 = АА~\ поэтому ||/|1 = || 1 J А |||| Л  Приходим к нижней границе 1ИЦ для любой матричной нормы Упражнение. Доказать справедливость неравенства ||Л*||^ <![| A f при любом 6 = 1, 2, ... и произвольной матрице А&Мп, где || • || — матричная норма. Показать на примере, что это, вообще говоря, неверно для векторных норм на мно- множестве матриц. Некоторые из векторных норм, введенные в § 5.2, являются матричными нормами в применении к векторному пространству Мп, а некоторые — нет. Наиболее известны примеры /р-норм при р=1,2, оо. Мы уже знаем, что это векторные нормы, поэтому проверки требует только аксиома D). Пример. Для матрицы А е Мп 1{-норму определим равен- равенством \\A\\ ^ t |я,/1; 1 I, /=1 это матричная норма, поскольку I.T-1 t k n Z_l I aik°kj I ^55 n \ / n . Z I aik |) ( Ц Первое неравенство вытекает из неравенства треугольника. Вто- Второе неравенство объясняется тем, что к сумме добавляются но- новые неотрицательные слагаемые.
5.6. Матричные нормы 353 Пример. Для матрицы А е Мп евклидову норму или 12-норму определим равенством нлцяЦ Z К/Р • Это матричная норма, поскольку = ( t \aik\2)( t \t, k = l J \m, / Данное неравенство — просто неравенство Коши — Шварца. В применении к матрицам такую норму иногда называют нор- нормой Фробениуса, нормой Шура или нормой Гильберта — Шмид- Шмидта. Если записать матрицу А = [а&г ... ап] е= Мп через ее векторы-столбцы at e С", то Поскольку /2-норма па С" унитарно инвариантна, приходим к следующему важному утверледению: II СМ |? = || ?/а, ||] + ... + II С/а„ || = || а, ||] + • ¦ • + 11ап||] = || А \\\, где U ^ Мп может быть произвольной унитарной матрицей. В силу равенства || fi* \\Е = || В \\Е для всех В ^ Мп эго влечет за собой утверждение || UAV h = II AV \\Е = || V*А* \\в = || Л* ||в = || А \\Е, где матрицы С/, Ve Mn унитарны. Таким образом, /г-норма на Мп будет унитарно инвариантной матричной нормой. Пример. Для матрицы А е Мп определим loo-норму равен- равенством || Л || на max |a;/|. Это векторная норма на векторном пространстве Мп не яв- является матричной нормой. Рассмотрим матрицу / = [{ J s M2 и проведем следующие вычисления: /2 = 2/, ||/|| =1, ||Я|| =112/11, =211/11, =2. В этом случае неравенство ||/2||, ^||/||? неверно и поэтому норма || • || не обладает кольцевым свойством. Однако если
354 Гл. 5. Нормы векторов и матриц ПОЛОЖИТЬ то получим \\АВ\\=*п max .n max <« max 2 || Л ||f ЦДЦ, =л|И||, n||B||; = К',/<»i=l °° °° °° °° = 11 л IIII я II; таким образом, требуется только незначительная модификация, чтобы превратить векторную норму Ц ¦ ||, в матричную. С каждой векторной нормой || • || на С" связана естествен- естественная матричная норма || • ||, «индуцированная» нормой || • || на Мп. Матричная норма || • || строится на основе векторной || • ||; процесс такого построения дополняет перечень способов кон- конструирования одной нормы из другой. 5.6.1. Определение. Пусть || • ||—векторная норма на С". Определим матричную норму || • || на Мп формулой || Л [| = max | В данном определении оправдано употребление символа «max» (вместо «sup»), поскольку функция \\Ax\\ непрерывно зависит от х и единичный шар В$. g является компактным множеством (см. приложение Е). Упражнение. Показать, что матричную норму из определе- определения 5.6.1 можно также вычислить при помощи следующих экви- эквивалентных формул: = max || Ас ||= max (| Ax\\ 11 1 11*11 С1 хфО "хп В* 11 = 1 ||Л|1 где || • || — любая векторная норма. 5.6.2. Теорема. Функция || • || из определения 5.6.1 является матричной нормой на Мп, || Ах || ^ || А || || х || Оля всех матриц А^Мп и всех векторов ^еС° и ||/||=1. Доказательство. Аксиома A), приведенная в начале данного параграфа, вытекает из того, что величина ||Л|| определена как максимум функции с неотрицательными значениями. Аксиома Aа) следует из того, что равенство Ах=*0 верно для всех век-
5.6. Матричные нормы 355 торов х тогда и только тогда, когда А = 0. Аксиома B) под- подтверждается следующими выкладками ') || с А || = max || с Ах || = max | с 11| Ах || = | с | max || Ах || = | с 11| А ||. Аналогично неравенство треугольника C) унаследовано от век- векторной нормы, поскольку Ц Л + В || = max || (Л + б) * || = max || Лх + Вх ||< < max (|| Ах || + || Вх || )< max || Ак || + max || Вх || = ||Л || + || В ||. Наличие кольцевого свойства D) обусловлено тем фактом, что Здесь предполагается без потери общности, что максимум бе- берется только по векторам х, не входящим в ядро матрицы В. Переходя к обоснованию следующего утверждения теоремы, заметим, что при хфО имеет место неравенство || Дя/И^ШК! ^|| A |j, поскольку данная норма определялась как максимум отношения из левой части. Привлекая свойство абсолютной однородности векторной нормы, получаем неравенство ||Лдс||^ ^||Л||!|х||, которое также верно при х = 0. Наконец, || /1| = max ||/я || == max || л: || ==1. ? iijc||=i lUll-i 5.6.3. Определение. Матричную норму || • || из определения 5.6.1 называют матричной нормой, подчиненной данной вектор- векторной норме ||-||. Иногда употребляют также название оператор- операторная норма или индуцированная норма по отношению к вектор- векторной норме || • ||. Доказательство того, что операторная норма является мат- матричной нормой, основано на общих свойствах всех векторных норм. Поэтому одна из возможностей убедиться, что некото- некоторая функция на Мп задает матричную норму, заключается в проверке того, что данная функция индуцирована некоторой векторной нормой. Мы будем придерживаться такой стратегии при изучении одной важной матричной нормы, а именно так на- называемой спектральной нормы. Неравенство из теоремы 5.6.2 означает, что подчиненная матричная норма ||-|| является согласованной с соответствую- соответствующей векторной нормой ||-||. Из теоремы следует, что любой век- векторной норме на С" соответствует согласованная матричная ') Здесь и далее в доказательстве максимум берется на множестве {х ез С" : || х || = 1}. — Прим. перев. 12*
356 Гл. 5. Нормы векторов и матриц норма на Мп. Кроме того, в ней дается необходимое условие ||/||= 1 того, чтобы матричная норма || • || могла быть под- подчинена некоторой векторной норме. К сожалению, это необхо- необходимое условие не является также достаточным. Теперь приведем несколько важных примеров матричных норм, подчиненных известным /р-нормам. Мы получим явные формулы для этих норм, позволяющие вычислить их непосред- непосредственно, не прибегая к определению 5.6.1. В каждом случае счи- считаем, что задана матрица А = [ац]^М„. 5.6.4. Матричная норма Ц-lli, которую будем называть мак- максимальной столбцовой нормой, определяется на Мп формулой п ||А||, = max ? \ац\. 1 < / < и i - 1 Норма || • Id подчинена векторной /,-норме и поэтому должна быть матричной нормой. Докажем это следующим образом. Запишем матрицу А е Мп через ее столбцы: А = [ах ... ап]. Тогда || А ||, = max ||аг||,. Для вектора х = [xtf получаем соот- ношения || Ах ||, == || л-,а, + ... + хпап ||, < Е II xtat ||, = S | xt \ \\ а, ||, i i Таким образом, тах^ц,», || Ах\\{ ^|| А \\г. Если теперь выбрать х = ek (k-n координатный вектор), то при любом k = 1, 2 п имеем max || Ах ||, > || \ak ||, = ||ak ||, II X ||, = 1 и, следовательно, max || Ах И, > max \\ак\\х -=\\А\\{. I|JC||,= 1 l<fe<U Поскольку мы доказали, что матричная норма, подчиненная векторной /i-норме, служит одновременно верхней и нижней границей для нормы ||Л Hi, приходим к требуемому утверждению. Упражнение. Проверить непосредственно из определения, что функция ||-Hi является матричной нормой. 5.6.5. Матричная норма IHU, называемая в дальнейшем мак- максимальной строчной нормой, определяется на Мп формулой п = max E|a«|.
5.6. Матричные нормы 357 Норма ||-II» подчинена векторной /оо-норме и поэтому должна быть матричной нормой. Доводы аналогичны приведенным выше в доказательстве для максимальной столбцовой нормы. Прове- Проведем выкладки |Лл:||оо= max max 1< i<r max Приходим к неравенству тахц Случай Л = 0 тривиален, поэтому далее можно принять АФО. Допу- Допустим, что k-'A строка матрицы А ненулевая, и определим вектор z = [ziY e Сп равенствами Тогда Таким 2/ = 2; = | z |L — 1, a,.,zt ГПЭХ || Л.Х x'°° образом, max ||. г x li = i = i = LI fit n i 11,. kt 1 la*/ >IM если если для всех ap.i Ф ««< = 2 |L == max n / = 1 n max 2 1 ^ /г ^ п /=1 n I «ft/2/ «*/! = 0 0 = 2, .... и и > - Ilj «A/ !• /-I I A |L, что и доказывает требуемое. Упражнение. Проверить, исходя непосредстзеино из опреде- определения, что функция ||-Исо действительно является матричной нормой на М„. 5.6.6. Спектральная норма \\-\\2 определяется на Мп форму- формулой || Л ||2s= max{V^- ^ — собственное значение матрицы Л*Л}. Отметим, что в случае, когда А*Ах — Хх и х=^0, справедлив!-,! равенства л;*Л*Лд; = || Лд: ||| = Я, || д; |||, из которых следуют неот- неотрицательность чисел Я и тем самым существование неотрица- неотрицательных квадратных корней л/х. Упражнение. Для нормальной матрицы В, такой, что В = = U*AU, где U унитарна и A = diag(X1( ..., Я.„), показать
358 Гл. 5. Нормы векторов и матриц справедливость неравенства | х*Вх | ^ max {| X |: А— собственное значение В} ||.v|lj. Упражнение. Доказать равенство || Ах\\^ = х*А*Ах для всех векторов х е С" и, используя предыдущее упражнение, пока- показать, что функция ||-Иг является матричной нормой, подчинен- подчиненной евклидовой векторной норме jj -1|2. Вывести отсюда, что спек- спектральная норма — действительно матричная норма. Упражнение. Показать, что ||?Л4Ц1г =1И||2 Для любой мат- матрицы А е М„ и произвольных унитарных матриц U, V е Мп. Та- Таким образом,спектральная норма является унитарно инвариант- инвариантной матричной нормой. Теперь докажем, что при помощи фиксированного подобия одну матричную норму можно преобразовать в другую. 5.6.7. Теорема. Если || • ||—матричная норма на М„ и если матрица S е Мп невырожденна, то формула \\ Ае=Мп, задает матричную норму. Доказательство. Аксиомы A), Aа), B) и C) для нормы II-IU проверяются непосредственно. Кольцевое свойство для нормы ||-Us следует из соотношений || АВ \\s = ||S~lABS | = I (S~lAS) (S~lBS) \\ <| S^AS ||\ S~lBS \\ == Теорема 5.6.7 может широко применяться для выбора мат- матричной нормы в конкретной ситуации. Некоторые применения такого рода рассматриваются далее в этом и следующем параг- параграфах. Одна важная область использования матричных норм — опре- определение границ спектра матрицы. 5.6.8. Определение. Спектральным радиусом р{А) матрицы А е Мп называют число р(Л)н= max {| X |: Я — собственное значение матрицы А}. Заметим, что любое собственное значение % матрицы А удов- удовлетворяет неравенству \%\ ^ р(А); кроме того, имеется по мень- меньшей мере одно собственное значение Я,для которого \Ц = р(А), Пусть Ах = Кх, хфО, и |Л| = р(Л). Рассмотрим матрицу .X е М„, все столбцы которой равны собственному вектору х;
5.6. Матричные нормы 359 тогда справедливо равенство АХ =* XX. Если || • матричная норма, то имеют место соотношения |— произвольная и, следовательно, |А.|= р(Л)^||Л||. Это доказывает следующую теорему. 5.6.9. Теорема. Для любой матричной нормы || • || и любой матрицы А^М„ выполнено неравенство Л|| Упражнение. Привести пример векторной нормы || • || на мно- множестве матриц и такой матрицы A <se М„, чтобы выполнялось строгое неравенство ||Л||<;р(Л). Упражнение. Пусть || • ||—матричная норма на М„. Рассмот- Рассмотрим отображение F: Сп->-Мп, определенное равенством F(x) = = [хх ... х], где [х х ... х] — матрица, все столбцы которой просто совпадают с вектором х. Показать, что функция ||-|1, заданная на Ся формулой ||л;|| = ||/:'(л:) ||, является нормой на С" и что справедливо неравенство ||Ла;||^||Л||||х|| для всех векторов ieC" и всех матриц Л е М„. Это неравенство означает, что матричная норма || • || согласована с векторной нормой ||-||. Дан- Данное упражнение показывает, что для любой матричной нормы на Мп можно найти согласованную с ней векторную норму на С'\ Спектральный радиус как функция от матрицы сам не мо- может служить матричной или векторной нормой на М„ (см. за- задачу 19). Однако спектральный радиус каждой фиксиропанной матрицы АевМп оказывается точной нижней гранью значений всех матричных норм этой матрицы. 5.6.10. Лемма. Пусть АевМп и задано число е > 0. Суще- Существует по крайней мере одна матричная норма ||-|], для которой имеют место оценки р (Л) ^ ||Л || ^ р (Л) + е. Доказательство. В силу теоремы Шура 2.3.1 об унитарной триангуляризации найдутся такая унитарная матрица U и верх- верхняя треугольная матрица А, что Л = UAU*. Положим Dt = di( 2 3 ) = diag(U2,*3, .... tn) и ' Хх t 0 0 0 0 вычислим dn а2 0 0 0 r2di: t dz Лз 0 0 ,-n+l . i • ¦ • ' «2/1 ... rn+3d3n J ... A-
360 Гл. 5. Нормы векторов и матриц Таким образом, можно быть уверенным, что сумма модулей всех наддиагональных элементов матрицы Dt ADf1 при доста- достаточно большом t > 0 не будет превосходить е. В частности, при достаточно большом t, несомненно, выполнено неравенство jDtADr J, ^р (Л) + е. Определим матричную норму || • || при по- помощи формулы Таким образом, выбирая значение t достаточно большим, полу- получаем матричную норму, для которой ||Л||^ р{А) + е. Поскольку неравенство ||Л||^р(Л) верно для любой матричной нормы, утверждение теоремы полностью доказано. ? Упражнение. Объяснить, почему из предыдущей леммы следует, что р(Л) = inf {|| А ||: || • || — матричная норма}. Интересно дать полное описание всех матриц А, для которых Л*-^-0 при /г—>-оо. Чтобы атаковать эту проблему, осталось по- пополнить наш арсенал следующим результатом. 5.6.11. Лемма. Пусть задана матрица А^Мп. Если сущест- существует матричная норма || • ||, для которой \\ А || < I, то Hindoo Ak=Q, т. е. все элементы матрицы А стремятся к нулю при 6—>оо. Доказательство. Если || Л || < 1, то || Ak ||<|| Л ||й -> 0 при fe-*oo. Это означает, что ЛА—>-0 по норме || • \1 Однако в силу экви- эквивалентности всех векторных норм на пространстве Мп раз- размерности п2 отсюда следует, что Ак->0 по векторной нор- норме || • || . ? °° Упражнение. Подобрать матрицу Л и две матричные нормы И ¦ IL и II - Ир так> чтобы одновременно выполнялись неравенства ЦЛ||а< 1 и ||Л||р> 1. Вывод? Матрицы А^Мп, для которых ПтЛА = 0, называют схо- дящимися. Они играют большую роль во многих приложениях, например, при анализе итерационных процессов. По этой при- причине важно найти описание сходящихся матриц. 5.6.12. Теорема. Пусть ЛеМ„. Тогда ПтАк = 0втоми k->°o только в том случае, когда р(Л)< 1. Доказательство. Пусть Ак —>-0. Рассмотрим собственный век- вектор хфО, такой, что Ах — 1х; тогда Акх — ккх -*¦ 0 только при
5.6. Матричные нормы 361 |Я|<1. Поскольку это неравенство должно выполняться для каждого собственного значения матрицы А, заключаем, что р(Л)<1. В обратную сторону, если р(Л)<1, то по лемме 5.6.10 существует некоторая матричная норма || • ||, такая, что || Л ||< 1. Тогда Ак-^>-0 при ft->oo по лемме 5.6.11. ? Упражнение. Для матрицы А = [ g2 ^j e М2 явно вычис- вычислить Л*ир (Ак) для /? = 2, 3 Показать, что р (Ак) = [р (A)f. Что происходит при А-»оо с элементами матрицы Л* и вели- величинами ||Л*1|„ \\Ak\L, ||Л*||2? Упражнение. Пусть Л = [_11|8! ^J и последовательность век- векторов {#'}ёС! задана рекуррентным соотношением x{k+]) = = Лл;(&), & = 0, 1 Показать, что x{k)->0 при /е -> оо неза- независимо от выбора начального приближения х@). Иногда требуется знать границы значений элементов мат- матрицы Л* при k-*-cx>. Одна полезная оценка является непосред- непосредственным следствием предыдущей теоремы. 5.6.13. Следствие. Пусть зафиксирована матрица А е М„ и задано число е > 0. Тогда существует такая константа С = = С (А, е), что все* 6 = 1, 2, 3, ... « вее* i, /=1, 2, 3, ... , п. Доказательство. Поскольку спектральный радиус матрицы А = [р(Л) + е]~' А строго меньше единицы, она является схо- сходящейся; таким образом Лй—>0 при fe-»oo. В частности, эле- элементы последовательности {Ак} ограничены, поэтому найдется такая конечная константа С > 0, что | (Л*)^ |^С для всех ft = = 1, 2, 3, ... и всех I, /= 1, 2,, ... , п. Последнее неравенство эквивалентно требуемому. ? Упражнение. Пусть Л = [" ^]. Вычислить Ак явно и пока- показать, что в неравенстве из следствия 5.6.13 не всегда можно положить е = 0. Утверждение, что геометрическая прогрессия р(Л)й при А^-оо в точности определяет порядки величин конкретных эле- элементов матрицы Ак, неверно, однако аналогичное утверждение об асимптотическом поведении последовательности {||ЛЙ||} спра- справедливо для любой матричной нормы |[-||.
362 Гл. 5. Нормы векторов и матриц 5.6.14. Следствие. Пусть \\-\\—матричная норма на Мп. Тогда р(Л)=Нт||Д*Г* к-> оо для всех матриц А е Мп. Доказательство. Из соотношений р (Л)* ==р (Ak) <![[ Ak || выте- вытекает неравенство р (А) ^ [| Л* ||1/ft при всех ? = 1, 2, .... Если задано число е > 0, то спектральный радиус А = [р(Л) + е] Л строго меньше 1; значит, эта матрица сходящаяся. Таким образом, [|ЛА||—>-0 при k -> оо и существует такой номер JV = = N (е, А), что неравенство ||Л*||<1 верно для всех степеней k^N. Это просто означает, что || Ak |]<[р(Л) + e]k для всех k^N или, эквивалентно, || Л*||''*^р(Л) + е для всех k^N. Поскольку величина е > 0 произвольна, вспоминая неравенство р(Л) ^|| Л*||1/А, приходим к заключению, что предел lim || Л& |jI/ft существует и равен р(Л). П Вопросы сходимости последовательностей или рядов матриц можно изучать при помощи векторных норм по аналогии со случаем последовательностей или рядов векторов. Упражнение. Пусть {Ak} с: Мп — заданная последователь- 00 ность матриц. Показать, что ряд 2 Ак сходится к некоторой ft-o матрице в пространстве Мп, если найдется такая векторная сю норма || • || на Мп, что числовой ряд Ц||ЛА|| сходится (до- ft-0 статочно предположить, что частичные суммы этого последнего ряда ограничены в совокупности). Указание. Установить, что ча- частичные суммы матричного ряда образуют последовательность Коши. Один частный случай для матриц, который не имеет анало- аналогов в теории векторных рядов, — это случай степенных матрич- матричных рядов. Однако, привлекая кольцевое свойство матричных норм, легко дать простое достаточное условие сходимости та- таких матричных рядов. 00 5.6.15. Теорема. Степенной ряд ? akAk, еде А&Мп, схо- fe=O дится, если существует такая матричная норма || • || на Мп, что оо числовой ряд ? | ак 11| Л ||* сходится или хотя бы его частичные суммы образуют ограниченную последовательность.
5.6. Матричные нормы 363 Упражнение, Доказать теорему 5.6.15. Упражнение. Показать на примере, что ряд Y ak^k может k=0 сходиться, в то время как ряд ? I a* III ЛII* расходится. В теории числовых рядов в такой ситуации говорят об условной сходи- сходимости (когда сходящийся ряд не является абсолютно сходя- сходящимся). Упражнение. Пусть функция f(z) определена степенным оо рядом / (г) = X akzk с радиусом сходимости R>0, и пусть || • ||—матричная норма на Мп. Показать, что матричная функ- со , ция / (А) = Y flfe-4* корректно определена для всех матриц АеМ„, таких, что \\A\\<R. В бо.г:еэ общей формулировке показать, что функция f (А) корректно определена для всех матриц А <= Мп, таких, что p(A)<R. Упражнение, Если матрица А диагонализуема и А — S~ AS, то иногда полагают f{A)s=S~lf(A)S, где /(Л)з= diag(f (л,), fi^-i), ¦•• , f(hn)). Показать, что это определение функции f (А) согласуется с определением на основе степенных рядов из пре- предыдущего упражнения, если матрица А диагонализуема. Яв- Является ли одно из этих двух определений более общим по срав- сравнению с другим? Упражнение. Показать, что матричная экспонента, задавае- задаваемая степенным рядом оо ЛЛ_^ 1 ft! ' корректно определена для каждой матрицы А е М„, Упражнение. Как можно было бы определить функцию cos (А)? Для каких матриц А это возможно? 5.6.16. Следствие. Матрица А е Мп обратима, если сущест- существует такая матричная норма \\ • ||, что \\ I — А || < 1. При этом условии k=o
364 Гл. 5. Нормы векторов и матриц Доказательство. Если [|/ — Л||<1, то ряд t (/ - А? сходится к некоторой матрице С, поскольку радиус сходимости числового ряда 2^z равен 1. Учитывая соотношение A t (I-A)k = [I-(I-A)]j?, U-A)k = I-(I-Af+i-*I k = 0 ft<-J при N—><x>, выводим, что С = А~[. ? Упражнение. Показать, что предыдущий результат эквива- эквивалентен следующему утверждению. Если || • ||—матричная норма и если ||.4||< 1, то матрица / — А обратима и Упражнение. Пусть || • ||—матричная норма на М„. Предпо- Предположим, что заданная матрица А^М„ имеет «приближенно об- обратную» матрицу В <se Мп с тем свойством, что \\ВА—/||<С 1. Показать, что обе матрицы А и В обратимы. Упражнение. Пусть матричная норма || • || обладает свой- свойством ||/||= 1 (которое обязательно бы имело место в случае операторной нормы). Для матрицы А е Мп, такой, что ||Л||< 1, доказать справедливость неравенств 1 + 1И11 ^IIVi "' »¦** 1-Ми ¦ Указание. Чтобы получить оценку сверху, использовать нера- венство 1 (/ — Л)" [^ ^ || А ||\ Для вывода оценки снизу прив- лечь неравенство типа \\В~1\\~^. 1/Ц5Ц и неравенство треуголь- треугольника. Упражнение. Для произвольной матричной нормы || • Ц имеет место лишь неравенство ||/||^ 1. Показать в этом случае, что II/11 всякий раз, когда ||Л[|< 1. Упражнение. Пусть А, В е Мп, матрица А обратима и мат« рица А + В вырожденна. Показать, что справедливо неравен-
S.6. Матричные нормы 365 ство \\B\\Zss l/ЦЛ-'Ц с любой матричной нормой ||-[|. Таким об- образом, имеется естественный предел возможности хорошей аппроксимации невырожденной матрицы вырожденной матри- матрицей. Указание. Использовать соотношение А + В =АA + А~1В). В случае ||Л~'Б||<; 1 матрица / + Л~'В была бы обратимой, сле- следовательно, верно противоположное неравенство ||Л-'В||^ 1. Основываясь на предыдущем следствии, нетрудно предло- предложить один полезный и просто проверяемый критерий обрати- обратимости матрицы. 5.6.17. Следствие. Пусть Л=[аг7]еЛ4„, и предположим, что выполнены условия п Kil> ? \Щ;\, '= 1, 2, ... , П 1 огда матрица А обратима. Доказательство. По условию все элементы ац на главной диагонали ненулевые. Если положить D = diag(an, ..., апп), то диагональная матрица D будет- обратимой и матрица D~XA на главной диагонали будет иметь только единицы. Тогда у матрицы В = [bij} = I — D~XA на главной диагонали стоят толь- только нули и б,-/ = —сщ/ац при i ф /. Рассмотрим норму ||B!L этой матрицы. Из условия на элементы матрицы А вытекает, что ||fi||oo<l; следовательно, матрица I — B = D-XA обратима в силу следствия 5.6.16. Поэтому и матрица А обратима. D Матрица, удовлетворяющая условию из следствия 5.6.17, на- называется матрицей со строгим диагональным преобладанием. Приведенное достаточное условие обратимости известно как теорема Леви — Деспланка и может быть несколько усовершен- усовершенствовано (см. § 6.1, 6.2, 6.4). Теперь рассмотрим более детально подчиненные матричные нормы из определения 5.6.1. Это один из самых известных клас- классов матричных норм с важным свойством минимальности. Чтобы установить, что данная матрица Л является сходящейся, часто используется критерий ||Л||< 1, в котором естественно отдать предпочтение таким матричным нормам, которые равномерно принимают как можно меньшие значения. Как мы убедимся, каждая подчиненная матричная норма обладает этим желатель- желательным свойством, и это свойство характеризует весь класс подчи- подчиненных матричных норм. Любые две нормы на конечномерном пространстве эквива- эквивалентны, следовательно, для каждых двух матричных норм ||-||а и II "Ир существует наименьшая конечная положительная кон-
355 Гл. 5. Нормы векторов и матриц станта См(а,C), такая, что неравенство \\А\\а ^ См(а, р справедливо для всех матриц А е Мп. Эту константу можно определить равенством С„ (a, P) = АФ> Если а и р поменять ролями, то получим аналогичное опреде- определение наименьшей конечной положительной константы См($, а), такой, что неравенство IIЛ Ир ^ См (Р, а) |[Л||а имеет место для всех матриц Л <se М„. Связь между этими константами См (а, Р) и С/ц(C, а), вообще говоря, неочевидна. Однако, рассматривая таблицу задачи 23 в конце настоящего параграфа, можно убе- убедиться, что ее верхний левый угол, отвечающий всевозможным парам из трех матричных норм [|-j|i, j| • j[2, !! ¦!!<*>, симметричен, т. е. С/И(а, р) = СМ(Р, а) для каждой пары указанных норм. Все эти три матричные нормы являются подчиненными, и такая симметрия оказывается свойством всех подчиненных норм. 5.6.18. Теорема. Пусть \}-\\а и ||-||р — две заданные векторные нормы на пространстве С". Эти же обозначения сохраним для соответствующих подчиненных матричных норм на Мп, т. е. || Л ||а = max-,—7j—, || Л ||р ^ max-тг-],— . Определим константы Тогда В частности, max-!?^-. E.6.19) -Mil». = 00. F.6.20) /К «ОП E.6.21) Доказательство. Пусть Ае.Мп и л: е С". Предположим, что х=Ф0 и Лх=^0. Тогда имеем _ НА:||а ИЛдсПр И*Ир IIЛ*||р п || л: ||a И* Up II* Ир II* Ha Это неравенство верно и при Ллг = О. Таким образом,
5.6. Матричные нормы 3 67 Следовательно, <*.,*,. E-6-22) для всех ненулевых матриц А е Мп. Каждый из двух максимумов в соотношениях E.6.19) до- достигается на некотором ненулевом векторе, т. е. найдутся такие векторы у, геС», что ||у\\2 = \\г\\2 = 1, ||у||а = Яар||у%, ||г||р = = ^pall^'lc В силу следствия 5.5.15 существует вектор гоеС, такой, что (а) | z'"yx I ^ || х ||д для всех jc e С"; Введем в рассмотрение матрицу Л0 = г/г*. Используя свойство (Ь), получаем II Vila поэтому имеем оценку снизу С другой стороны, можно использовать свойство (а), чтобы по- получить, что 11 У lip 1у44 И У Ир 1*0*1 ^ Иу11р11*Пр II* Ир 11*% II* 113 ^ II* IIP Таким образом, приходим к оценке сверху IIЛ lip < IIУ Пр. Учитывая обе полученные оценки, получаем неравенство которое показывает, что в соотношении E.6.22) возможно ра- равенство. Тем самым утверждение E.6.20) доказано. Второе утверждение теоремы E.6.21) вытекает из первого, поскольку аир входят в правую часть равенства E.6.20) симметрично. П Могут ли две различные векторные нормы на С" индуциро- индуцировать одинаковые матричные нормы на Л1л? Согласно приведен- приведенному ниже следствию, это может произойти в том и только в том случае, когда одна из этих векторных норм получена из другой умножением на некоторый скаляр.
348 Гл. 5. Норл<ы еектороз и матриц 5.6.23. Следствие. Пусть \\-\\а и ||-||р— векторные нормы на С". Для соответствующих подчиненных матричных норм на Мп сохраним те же обозначения. Тогда равенство \\А\\а =||ЛИр для всех матриц А е М„ имеет место в том и только в том случае, когда имеется положительная константа с, связывающая нормы векторов равенством \\х\\а = с\\х\\& для всех векторов х <se С. Доказательство. Заметим, что п II* Пр Г . И* На Т'^Ггпяу l]xlla Г' ' Rna = max -тг-if- = I mm ц—п~ ^ и м ' I ==о—• Таким образом, 1 ^5624) Это неравенство обращается в равенство тогда и только тогда, когда min-7—г- = max- Последнее имеет место в том и только в том случае, когда функция |U'||a/||;t||g принимает постоянное значение для всех векторов х ф 0. Следовательно, при ||л:||а = с||л;||р, несомненно, выполнено равенство /?ар/?ра =1, и тогда из E.6.21) заключаем, что ЦЛ||а<||Л||э и ||Л||р<||Л||а для всех ЛеЛ1„, т. е. ||Л||а = = ||Л|1е для всех матриц А еЛ„. В обратную сторону, если две подчиненные матричные нормы совпадают, то Ra$ = /?ра == 1 в силу E.6.20). Значит, в соотношении E.6.24) имеет место ра- равенство. В этом случае отношение ||A'||a/!|xi|p постоянно, как уже отмечалось ранее. 5.6.25. Следствие. Пусть \\-\\а и \\ ¦ \\ р — векторные нормы на С". Эти же обозначения сохраним для соответствующих подчи- подчиненных матричных норм на Мп. Тогда ||Л||О ^||Л||р для всех А^Мп в том и только в том случае, когда ||Л||а =||ЛЦр для всех матриц А е Мп. Доказательство. Если || А \\а ^ || Л ||р для всех матриц А<ееМп, то Ra^R^^.\. Вследствие E.6.24) это влечет за собой равен- равенство /?ар#ра —1- Следовательно, в силу E.6.21) для всех мат- матриц А^Мп справедливы неравенства || А ||„ ^|| А ||р и || А ||р ^ Л На- ? Последнее следствие показывает, что ни одна подчиненная матричная норма не может равномерно превосходить другую. Что произойдет, если допустить сравнение с не обязательно подчиненными матричными нормами?
5.6. Матричные нормы 369 5.6.26. Теорема. Пусть на Мп заданы матричная норма || • || и подчиненная матричная норма П ~ IIее- Тогда (a) существует подчиненная матричная норма N(-) на Мп, такая, что N(A)^.\\A\\ для каждой матрицы А^Мп; (b) неравенство |]Л||^||Л||а верно для любой матрицы А(=Мп тогда и только тогда, когда ||Л|| = ||Л||а для любой мат- матрицы А е Мп. Доказательство. Определим векторную норму || • || на С" ра- равенством Х = [хх ...х]<=Мп E.6.27) и рассмотрим матричную норму N(-) на Мп, которая подчи- подчинена норме || -||. Для любой матрицы А е Л1 „ лг / л\ \\Ax\\ ЩАхАх ... Ах]\\ N (Л) е= max ±-J- = max iLLTT- -т^ = 1|Л|| E.6.28) хф0 IIА || (где неравенство справедливо потому, что || • ||—матричная норма), что приводит к утверждению (а). Чтобы доказать (Ь), предположим, что ||Л||^||Л||а для всех Ае.Мп. Тогда из (а) вытекают неравенства для всех А еМл. Однако обе нормы N(-) и II -1!ос. являются под- чиненными, поэтому из следствия 5.6.25 заключаем, что N(A)s= = \\А\\а. Таким образом, ||Л||==||Л||а для всех матриц A ge М„. D Предыдущий результат побуждает ввести следующее опре- определение. 5.6.29. Определение. Матричную норму ||-|| на Мп называют минимальной матричной нормой, если единственная матричная норма N(-) на Мп, удовлетворяющая неравенству Л^(Л)^|1Л|| для всех матриц А е М„, — это данная норма, т. е. Лг(-) = ||-||. Утверждение (Ь) теоремы 5.6.26 гласит, что каждая под- подчиненная норма на Мп минимальна. Из утверждения (а) непо- непосредственно вытекает, что каждая минимальная норма является подчиненной. Таким образом, если хотят использовать матрич- матричную норму, которая не может быть улучшена (в смысле равно- равномерного уменьшения значений на всех матрицах), то берут под- подчиненную норму, и любая норма с этим свойством оптималь- оптимальности должна быть подчиненной нормой. Векторная норма E.6.27) представляет собой лишь одну из целого семейства векторных норм, которые можно построить,
370 Гл. 5. Нормы векторов и матриц исходя из заданной матричной нормы. Пусть заданы матричная норма H-II на Мп и ненулевой вектор i/eC", Положим \\х\\у^\\ху*1 уе=С", уфО. E.6.30) Тогда функция Ц-Ц,, является векторной нормой на Сп и обла- обладает следующим свойством: || Ах \\у = || А (ху*) ||< || А || || ху* 1| = || А || || х \\у для всех матриц А^М„. Если выбрать у = [11 ... \}т, то фор- формула E.6.30) переходит в E.6.27). Обозначим через Ny{-) мат- матричную норму на М„, подчиненную норме \\-\\у; тогда из по- последнего неравенства следует, что Л'^Л) - max ^< max 1^^ = 11 ^И. ^Al, E.6.31) хф>1 II* Hi/ хфО "Х»У Это утверждение, очевидно, обобщает утверждение (а) тео- теоремы E.6.26). Если данная матричная норма || • li минимальна, то E.6.31) влечет за собой равенство ||Л||=Л^(Л) для всех матриц А еА)л. Поскольку вектор у, используемый в этих рассуждениях, может быть произвольным ненулевым вектором, то должны выпол- выполняться равенства Ny( •) =|| • ||= Nz(-) для всех ненулевых век- векторов у, z e С". 5.6.32. Теорема. Пусть ||-|1—матричная норма на М„, и пусть Ny(-) — подчиненная матричная норма, определяемая соотноше- соотношениями E.6.31) и E.6.30). Следующие условия эквивалентны: (a) II • II — подчиненная матричная норма; (b) и • II — минимальная матричная норма; (c) II • \\ = Ny (•) для всех ненулевых векторов у е С\ Доказательство. Утверждение, что (а) влечет за собой (Ь), просто совпадает с частью (Ь) теоремы 5.6.26. Как уже было отмечено, если норма ||-|| минимальна, то \\-\\= Ny(-); поэтому из (Ь) следует (с). В предположении (с) норма || • || будет под- подчиненной, потому что норма Ny(-) является подчиненной по оп- определению. ? Из этих утверждений можно почерпнуть нечто большее. В самом деле, если Ny(-)=\\-\\ для всех ненулевых у е С", то равенство Ny(-) = Nz(-) верно для всех ненулевых у, гЕр, Но в следствии 5.6.23 утверждается, что векторная норма, кото- которой подчинена заданная матричная норма, является единствен- единственной с точностью до скалярного множителя; следовательно, имеет место равенство ||-||» = с„г||-||г с некоторой положитель- положительной константой cvz-
5.6. Матричные нормы 371 Упражнение. Пусть матричная норма || • \\ на Мп подчинена векторной норме || • || на С". Показать справедливость равенств \\уг*\\ = \\у\\\\г\)Р, ||-|1г==М!1|2||°, cyz^\\y\\D/\\z}\D для всех век- торов у, zeC". Векторная норма || • |jD является двойственной к векторной норме || • || в смысле определения 5.4.12. 5.6.33. Теорема. Пусть на Мп задана матричная норма ||-||, и пусть векторная норма \\-\\y на С" определена формулой E.6.30). Тогда следующие два утверждения эквивалентны: (a) для каждой пары ненулевых векторов у, г е С" суще- существует такая положительная константа cyz, что \\x\\y — cyz\\x\\z для всех векторов ieC"; /t_\ II * и I!хг* IIII гУ* II -I (b) равенство \\ ху* || = -—?,—!V]f— верно для всех векторов х, у, геС" при гфО. В случае подчиненной матричной нормы \\ • [| равенство (Ь) вы- выполнено, и векторные нормы, построенные в соответствии с E.6.30), обладают свойством (а). Доказательство. Если предположить, что (а) выполнено, то = II * Ml z II* = 11*0* || || zz* ||. В обратную сторону, в предположении (Ь) утверждение (а) имеет место с константой cyz = \\zy*\\l\\zz*\\. При Nу {•) — []• \\ мы уже обосновали (а) (следовательно, и (Ь) также должно выполняться). По теореме 5.6.-32 так будет в случае, когда ||-|| — подчиненная матричная норма. П Упражнение. Любая матричная норма, отличающаяся от под- подчиненной матричной нормы лишь постоянным положительным множителем, удовлетворяет (Ь) из теоремы 5.6.33. Показать, что каждая из матричных норм Ц • \\t и || • ||? удовлетворяет этому условию, хотя ни одна из них не входит в указанный класс матричных норм. В теореме 5.6.2 для подчиненной матричной нормы || • || дока- доказана справедливость равенства ||/||= 1. К сожалению, наличие этого равенства для некоторой матричной нормы еще не озна- означает, что это подчиненная матричная норма. Легко видеть, что функция IIЛ || - max {И Л ||„ ML} E.6.34) определяет матричную норму на Мп, для которой выполнено равенство ||/Ц=1. Но поскольку ||Л||1^||Л|| для всех А^Мп
Гл. 5. Нормы векторов и лиатриц и неравенство || Л ^ < || Л || при А = [[ °] строгое, норма || ¦ || не является минимальной и, следовательно, не может быть подчиненной матричной нормой. Упражнение. Проверить, что E.6.34) определяет матричную норму. В более общей формулировке, показать, что для задан- заданных матричных норм || • ||,,„ . .. , || • \\к, на Мп формула || Л IM max {|| ЛЬ ||Л|и,} определяет матричную норму на М„. Подчиненные нормы являются минимальными среди всех матричных норм. Рассмотрим важный класс унитарно инва- инвариантных матричных норм, т. е. матричных норм ||-||, удовлет- удовлетворяющих равенству ||Л[| = |Ц/ЛV|| для всех матриц А^Мп и всех унитарных матриц U, V е Мп. В этом классе оказывается только одна минимальная матричная норма — спектральная норма. 5.6.35. Следствие. Если |] • || — унитарно инвариантная мат- матричная норма, то для всех А е Мп справедливо неравенство ЦЛ||2 =^||Л||. Спектральная норма ||.-||2 является единственной подчиненной унитарно инвариантной матричной нормой на Мп. Доказательство. Пусть задана унитарно инвариантная мат- матричная норма ||-II- Из части (а) теоремы 5.6.26 известно, что Л/(Л)г?;||Л|| для всех матриц А е М„, где матричная норма А'(Л) подчинена векторной норме ||-||, определенной формулой E.6.27). В случае произвольной унитарной матрицы U е М„ имеем ра- равенства ||Ux\\ ==||UX\\ = ||^|| = IUII; следовательно, векторная нор- норма || -|| оказывается унитарно инвариантной. Если задан нену- ненулевой вектор же С", то существует унитарная матрица U, для которой Ux = ||я||2еь Таким образом, \\x\\ = |||W|2L/*ei|| = =IUIl2ll^*eill=IUII2||ei|| для всех векторов х^С". Это означает, что векторная норма || • || отличается от евклидовой нормы лишь скалярным множителем. Тогда следствие E.6.23) показывает, что норма iV(-) (матричная норма, подчиненная норме ||-||) со- совпадает со спектральной нормой ||-||2 (матричной нормой, под- подчиненной норме ||-||2). Итак, || • ||2 = N (А) *^\\А\\ для всех мат- матриц Л е Мп. Если норма || • || предполагается подчиненной, то она будет минимальной, и тогда ||Л||2=||Л|| для всех матриц А<=Мп. U Если || 41—матричная норма на Мп, то функция ||-||*, опре- определенная формулой II л н* в у л* и,
5.6. Матричные нормы 373 также является матричной нормой на М„. Прямые вычисления показывают, что || Л |Г, = || Л* ||/а = || A \\lt, || А \\1 = || А* ||л = || А ||/( для всех матриц А е Мп. Однако не каждая матричная норма обладает подобным свойством, например || Л||* = || А Ц^ Ф || А ||г Матричную норму, такую, что II • II* =11 ¦ II. называют самосо- самосопряженной. Евклидова матричная норма и матричная /j-норма самосопряженные. В силу равенств || Л* ]|] = р (ЛЛ*) = р(Л*Л) = || Л Ц спектральная норма также будет самосопряженной. На самом деле все унитарно инвариантные нормы на Мп оказываются са- самосопряженными (см. § 7.4, задача 2). Выясняется, что спектральная норма — единственная само- самосопряженная норма среди подчиненных матричных норм. 5.6.36. Теорема. Пусть на Мп задана матричная норма \\-\\. Тогда (a) норма ||-|1* является подчиненной тогда и только тогда, когда || • ||—подчиненная норма; (b) если матричная норма || • II подчинена векторной норме 11-11, то норма || -||* подчинена двойственной норме \\-\\°- (c) спектральная норма \\ ¦ [|2 является единственной матрич- матричной нормой на М,„ одновременно подчиненной и самосопря- самосопряженной. Доказательство. Если для некоторой матричной нормы N(-) справедливо неравенство N (А) ^||Л ||* =||Л*|| для всех матриц А<=М„, то N(A)* = Л^(Л*)^||Л|| для всех /!еМ», В случае минимальной матричной нормы || • || имеем равенство N(-)* = = 11 ¦ || и, следовательно, УУ(-)=|| • ||*. Поэтому матричная норма II-||* будет также минимальной. Утверждение (а) следует из теоремы 5.6.32. Теперь предположим, что матричная норма ||-Ц подчинена векторной норме ||-||. Используя теорему двойственности 5.5.14, приходим к соотношениям II Л ||* = || Л* || = max|| А*х || = max (-|| A*x \\D)D = max max | (A*x)* z | = max тах|л;*Л2| U J= 11—1 llzliD=l ||г1,д=1 ||х|| = 1 = max || Az ||°, показывающим, что матричная норма || • ||* подчинена вектор- векторной норме 1| • ||D.
374 Гл. 5. Нормы ве.гторов и магриц Для доказательства последнего утверждения отметим сле- следующее обстоятельство. Если матричная норма || • || подчинена векторной норме ||-|| и имеет место равенство II • 11 = 11'И*, то норма || • || также подчинена векторной норме ||-||D, как установ- установлено в (Ь). Однако в следствии 5.6.23 утверждается, что вектор- векторная норма, которой подчинена заданная матричная норма, опре- определяется единственным образом с точностью до положительного постоянного множителя. Следовательно, существует некоторое число с > 0, при котором || ¦ ||° = с|| • ||. Тогда по теореме 5.4. i6 обязательно выполнено равенство || • || = || • У Vе ¦ Поскольку данная векторная норма пропорциональна евклидовой норме, соответствующие им подчиненные матричные нормы совпадают, т.е. II-11 = 11-Иг. ? Упражнение. Показать, что норма ||-||* будет матричной, когда || • ||—матричная норма. Упражнение. Показать на примере, что самосопряженная матричная норма не обязана быть унитарно инвариантной. Из векторных норм наиболее широко применяются абсолют- абсолютные и монотонные векторные нормы, определенные в § 5.5. Имеется простая и полезная характеризация матричных норм, подчиненных монотонным векторным нормам. 5.6.37. Теорема. Пусть || • ||—векторная норма на Сп, которой подчинена матричная норма || • || на М„. Следующие условия эквивалентны: (a) || • || — абсолютная норма, т. е. \\\ х\\\~\\х\\ для всех век- векторов х е С"; (b) норма || • || монотонна, т. е. \\х\\^.\\у\\ для всех \х\^\у\; (c) для любой матрицы O = diag(rf1, d2, ... , dn) e Mn спра- справедливо равенство \\D\\= max|rf,|. i < t <« Доказательство. Эквивалентность (а) и (Ь) составляет со- содержание теоремы 5.5.10. Пусть норма ||-|| монотонна. Положим rf= max \di\, d = \dk\. 1 < i < n Тогда |Dx|^|d*| и, следовательно, ||Dx\\^d||x||, где равен- равенство достигается при x = ek. Таким образом, т. е. условие (Ь) влечет за собой (с).
5.6. Матричные нормы 375 Теперь предположим выполненным (с). Пусть заданы век- торы х, у е С", удовлетворяющие неравенству . Суще- | ствуют такие комплексные числа а*, что \Xk\- k=l, ..., п. Таким образом, полагая D = diag(di, ..., dn), приходим к соотношениям Dy =\х\ и ||D||^ 1. Поскольку норма || • || должна быть монотонной. ? Задачи 1. Привести пример обобщенной матричной нормы, для кото- которой Ц/1К 1. 2. Матрицу А, совпадающую со своим квадратом Л2=Л, называют идемпотентной. Привести пример идемпотентной 2Х2-матрицы, отличной от / и 0. Показать, что только числа 0 и 1 могут выступать в качестве собственных значений идемпо- идемпотентной матрицы. Показать, что идемпотентную матрицу А всегда можно привести к диагональному виду и что для нее справедливо неравенство ||Л||^1 для любой матричной нормы II • II. если только А ф 0. 3. Пусть || • II—матричная норма на Мп. Показать, что функ- функция с||-|| является матричной нормой для всех значений с^1, однако функции сЦ-^ или с|| • ||Zi не будут матричными нор- нормами, каково бы ни было значение с < 1. 4. В определении 5.6.1 одна и та же векторная норма играет две разные роли. Можно дать более общее определение нормы II - Dec, g, а именно IIЛILя = max \\Ax\L, где И -1|ее и II* Нр — две (возможно различные) векторные нормы. Будет ли такая функция || • ||а, э матричной нормой? Какими ин- интересными свойствами может обладать эта функция? Заметим, что это понятие нормы || • lie», э может быть применено в случае m X n-матриц, поскольку норму || • ||а можно выбрать как век- векторную норму на Ст и норму ||-||р можно выбрать как вектор- векторную норму на С". Какие свойства в этой ситуации имеет функ- функция || • Па, э» рассматриваемая как аналог подчиненной матрич- матричной нормы? 5. Показать, что евклидова норма ||-|Ь и спектральная нор- норма ||-Иг — унитарно инвариантные нормы на М„, т. е. нормы матриц А и UAV совпадают, каковы бы ни были унитарные матрицы U и V. Сравнить матричные нормы ||-||? и ||-||2 по всем возможным признакам. Проверить равенство ||Л||
376 Гл. 5. Нормы векторов и матриц 6. Убедиться, что наличие аксиом A) — C) для нормы || • || наследуется функцией ||-|!s из теоремы 5.6.7. Таким образом, в условиях и заключении теоремы 5.6.7 можно заменить термин «матричная норма» на «обобщенная матричная норма». 7. Если ||-||—подчиненная матричная норма на М„ и мат- матрица 5 <= Мп невырожденна, показать, что матричная норма II- Us (определенная в теореме 5.6.7) будет также подчиненной матричной нормой. Если матричная норма || • || подчинена век- векторной норме ||-||, показать, что матричная норма ||-||s будет подчинена векторной корме ||-||s (определенной в теореме 5.3.2). 8. Доказать, что множество невырожденных матриц из М„ плотно в Мп, т. е. что каждая матрица в Мп является пределом некоторой последовательности невырожденных матриц. Будет ли также плотным в Мп множество вырожденных матриц? 9. Убедиться, что множество векторных норм на Ст вы- выпукло для всех т ^ 1, но множество матричных норм на Мп не выпукло ни для какого п ^ 2. Показать, что матричные нормы Ni(-) и Л72(-) на Мп определяют при помощи формулы #(•)== = [Ni (¦)+ AM •)] /2 матричную норму в том и только в том случае, когда [iVi (Л) - iV2 (A)] [Nl (В) - N,2 (В)] < 2 [JV, (A) N, (В) - tf, (AB)] + + 2[N2(A) NoAB) - N2(AB)] для всех матриц А, В <= Мп. Указание. Рассмотреть нормы N, (¦) = II • 1^,, iV2 (•) = || ¦ ||я и матрицы А = [° [], В = АТ. В при- примере 7.4.54 указывается важное подмножество матричных норм, которое является выпуклым. 10. Проверить, что на пространстве Мп векторная ^-норма и II АII/ s 2 I «с/1 оказывается матричной нормой, но не подчи- нена никакой норме на С". 11. Показать пригодность всех последующих выражений для вычисления спектральной нормы 5.6.6: || Л ||, = max || Лх Ц2 = max || Лл: ||2 == 11*||2<1 = max \y*Ax\ — = max \.y*Ax\. 1!х|/2<1 Ili/ll2<l Используя эти соотношения, убедиться в справедливости ра- равенства || А ||2 = || А* ||2 для всех матриц А^Мп. Затем доказать равенства || ЛЛ*||2 = || Л*Л||2 = || Л ||г, основываясь на том, что II • Ik ~ матричная норма и матрица А*А эрмитова.
5.6. Матричные нормы 377 12. Установить в случае р(Л)< 1, А<=Мп сходимость ряда / + А + Л2-f- ... к матрице (/ — Л)-1. 13. Доказать справедливость неравенства ||/ — Л||^ 1 для любой матричной нормы || • || в предположении, что матрица Л <= М„ вырожденна. 14. Пусть на Мп заданы матричные нормы ||-||а и ||* lip- Показать, что формула ||Л||== тах{||Л||а, ||Л||р} определяет матричную норму на Мп. Когда эта норма будет подчиненной? 15. Привести пример матрицы Л, удовлетворяющей строгому неравенству р(Л)<||Л|| для каждой матричной нормы ||-||. 16. Пусть А = [аи]<=Мп. Проверить, что функция || • ||, оп- определенная на Мп формулой || А || = п max | а{, |, является мат- ричной нормой, но не подчинена при п ^2 никакой векторной норме. 17. Применить результат задачи 12 к вычислению обратной для матрицы 1 -2 1 О 1 3 L0 0 1 Указание. Только три первых члена соответствующего ряда не- ненулевые. 18. Обобщить методику, примененную в задаче 17, на случай вычисления обратной к произвольной невырожденной верхней треугольной матрице Л <= Мп. Указание. Выбрать диагональную матрицу D так, чтобы матрица DA на главной диагонали имела только единицы. 19. Показать, что спектральный радиус является непрерыв- непрерывной и абсолютно однородной функцией на Мп, но не будет1) ни матричной, ни обобщенной матричной нормой на Мп, поскольку (a) для некоторых матриц Л =^= О имеет место равенство р(Л) = 0, (b) может выполняться неравенство р (Л + В) > р (Л) + Р (В), (c) неравенство р(Л?) > р(А)р(В) может быть справедливо даже при ненулевых значениях р(Л) и р(В). Указание. Рассмотреть матрицы [„ 10], [° „], [° „], [д {]. 20. Показать, что || АВ\\Е <|| Л ||2|| й||я, || ЛВ||Я<|1 Л ||в ||В||2 для всех матриц /1, Be Mn. 21. Доказать неравенство || Л \\j ^ || Л ||, |f Л Ц^ для всех Л е Мп. Как этот результат согласуется с оценкой, которую можно получить непосредственно из таблицы в задаче 23? Почему имеется различие? Указание. р(Л*Л)<|| Л*Л ||ь || Л* ||, = || Л \\т. ') При п ^ 2, — Прим. Перев.
378 Гл. 5. Нормы векторов и матриц 22. Пусть на С" задана векторная норма || • \\а и определена двойственная к ней норма || -||р = (II -lla)D. Эти же обозначения сохраним для соответствующих подчиненных матричных норм на Мп. При помощи теоремы 5.6.36 установить равенства ||Л*||р = =||Л||а для всех А е Л1„. Вывести заключение о справедливости неравенства \\A\\\ ^||Л||а||Л||р для всех /1еМ„. Объяснить, по- почему этот результат обобщает соответствующий результат за- задачи 21. Как данное неравенство соотносится с утверждением леммы 5.4.13 при х — у? 23. Проверить, что элементы следующей таблицы представ- представляют собой наилучшие значения констант См, удовлетворяющих неравенству \\А \\а sg: См11Л||р для всех матриц Л е М„. Все ука- указанные в таблице нормы являются матричными. Каждое ука- указание, приведенное вслед за таблицей, пронумеровано индексами (г, /) и отвечает соответствующему неравенству с константой, расположенной в г-й строке и /-м столбце таблицы. Указание завершается ссылкой на одну из тех матриц, для которых не- неравенство \\А\\а ^ С.и|И||р обращается в равенство при данном значении константы См. Ц.||а\1Ы1р 11-11, II • ||2 М1м И • Ид я II • II/ оо 11-11, 1 -\j п п It v« п II • II, 1 ¦\/п „3/2 ¦s/n п II • "со п ¦\fn 1 It ¦\Jn It II • II/, 1 1 1 1 1 « II-"я л/п 1 V« п 1 п п II • II/ ОО 1 1 1 п 1 1 Используются следующие обозначения для матриц из мно- множества Мп: I — единичная матрица, / — матрица, составленная только из единиц, А[ — матрица, у которой первый столбец образован только из единиц, а все остальные элементы нулевые, Л2 —матрица, единственный ненулевой элемент которой рас- .положен в верхнем левом углу и равен единице. Указания A.2) вытекает из B,1) в силу соотношений E.6.21). A.3) МЦ^ИЛО^пНЛ^; Л,. A,4) Л;.
5.6. Матричные нормы 379 [п "j2 п г п "}2 г и -1 г п -| Zk;i <Z Zlfli/l < ZM Z i«//i2 i-i J /=iu«i J L/=i JLi./=i J (неравенство Коши — Шварца); Аи п A,6) max ZU</lO max | alt |; /. B,1) следует из B,5) и E,1); А\. B.3) следует из B,5) и E,3); Л,. B.4) следует из B,5) и E,4); Л2. B.5) И ЛI = р(Л*Л)< Z Яг(Л*Л) = ^Л*Л = || Л |||; А,. B.6) следует из B,5) и"E,6); /. C.1) следует из A,3) в силу E.6.21); А\. C.2) следует из B,3) в силу E.6.21); Л*. (з,4) л;. C.5) аналогично A,5); Л*. C.6) аналогично A,6); /. п п п D.1) Z ZK7|<n max Z I аи \\ J. / 1 il l</<n i \ D.2) вытекает из неравенств, соответствующих константам с индексами D,5) и E,2); каждое из этих двух неравенств обра- обращается в равенство при следующем выборе матрицы: положим п-\ а==ечш[п и заметим, что (а)к = а~1г и что сумма Z °-к1 равна нулю при / Ф 0 и равна п при / = 0; тогда в качестве (k, /)-элемента матрицы А выступает число ак' и справедливы равенства А*А = п/, \\А\\2 = л/п, \\А\\и^п\ \\А\\в = п. D.3) аналогично D,1); /. |2 п п D5) И] \а\ J] 1%Н^1< Г п -|2 п ,5) И] \аи\ == J] 1%Н г, /, р, </=1 + 1яр<?12] (неравенство между арифметическим и геометриче- геометрическим средними); /. п D,6) Z K/K«2 max \ац\; J. 1,1 = 1 1<1. 1<п E.1) t t\at,?<t\t \at,\] <яГ max Zl^ll; /. E.2) Z I % P = tr Л* A = th (A*A) < пЯтах ИМ); /.
380 Гл. 5. Нормы векторов и матриц E.3) аналогично E,1); /. E.4) Е |%|2<[ Z \аи\] ; Л2. E,6) Е |й,7Р<п2 max |а;/|2; /. я F,1) max |а,-,-К max Е I«»/1; 1<* У< 1</< il F.2) max |%|2< max E I % |2 = max (Л*Л),7 <р(Л*Л);/. F.3) аналогично F,1); /. F.4) maxJa^K^Ja,/!; Л2. (P,oj max | uij \ ^ ?_, \ aij \ , л?. 24. Показать, что оценку E,2) в задаче 23 можно заменить на лучшую || Л ||я < [rank А]1'2\\ А \{,2. Указание. Величина rank Л равна числу ненулевых собственных значений матрицы А'*А. 25. Пусть задана матрица А^М„. Как гласит лемма 5.6Л0, для любого е > 0 существует некоторая матричная норма ||-|[, удовлетворяющая неравенствам р(А) <||Л|]< р(Л) -f- e. Пока- Показать, что существует невырожденная матрица С = С(е) е Мп, такая, что р(А)<С\\САС-Ц\2-<. р(А)-\-е. Указание. Провести рассуждение по аналогии с доказательством леммы 5.6.10 и обосновать возможность представления ЦСЛС" \] = [р(Л)]2 -f- -j- О (г) при е—>0. 26. Показать, что для всех Л е Мп справедливо неравен- п ство || А ]||^ Е I ^i Р> в котором равенство имеет место тогда >-1 и только тогда, когда матрица А нормальна. В связи с этим фактом величину в 1/2 [п 11 \\a\\i-Z\k\2\ иногда называют дефектом нормальности. Указание. Использо- Использовать теорему Шура об унитарной триангуляризации и унитар- унитарную инвариантность евклидовой нормы. 27. Теорему 5.6.9 можно применять для определения границ корней многочленов с вещественными или комплексными коэф- коэффициентами, если привлечь понятие сопровождающей матрицы. Каждый многочлен f(z) степени не меньше первой можно запи-
5.6. Матричные нормы 381 с'ать в виде f(z)= Czkp{z), где С — ненулевая константа, р (г) = zn + an_,zn-1 + art_22"-2 + ... + axz + a0 E.6.38) и a0 ф 0. Решения уравнения p(z) = 0 совпадают с ненулевыми решениями уравнения /(г) = 0. Именно для этих чисел можно предложить различные оценки. (а) Убедиться в точном совпадении многочлена p(z) с ха- характеристическим многочленом сопровождающей матрицы 1 о о о 1 о о о 1 о о о E.6.39) Следовательно, решения уравнения p(z) = 0 равны собственным значениям матрицы С(р). Указание. Вычислить det [zl — С(р)] при помощи разложения по первому столбцу и использовать соображения индукции. (b) Применить теорему 5.6.9 для проверки неравенства \г\ ^\\С(р) ||, в котором z — решение уравнения p(z) = 0 и || ¦ ||— произвольная матричная норма на Мп. В последующих пунктах через z обозначается любое реше- решение уравнения p(z) = 0. (c) Используя норму ||-Hi, показать, что max max{|ao|, E.6.40) Это неравенство для корней многочлена известно как оценка Коши. (d) При помощи нормы || • L, доказать оценку Мотеля |2|<тах{1, [ao| + |a,|+ ...+|а„_,|}< <1+14I + 10! l+...+K-il. E-6.41) Показать, что этот результат слабее оценки Коши. (e) Привлекая норму || • Ц^, убедиться в справедливости не- неравенства ||<(l) |l которое обеспечивает худшую границу по сравнению с E.6.41) для всех значений л > 2.
382 Гл. 5. Нормы векторов и матриц (f) Употребляя норму || • \\Е, получить оценку менее точную, чем оценка E.6.42) Кармайкла и Мейсона. (g) Применяя норму /г||-|1г . прийти к оценке п max \ао\, |ах \, .... \}, которая является более грубой, чем E.6.41). 28. Результат п. (f) в задаче 27 можно улучшить в тех же самых терминах. Запишем сопровождающую матрицу в виде С(р) = S -{- R, где 0 0 ... О О 1 0 ... О О 0 1- 0 0 5= • О * * о о 1 О п __ — а„_, — ап_2 ... — Щ а0 о о ... о о о о о о Проверить равенства S*R = R*S = O, ||5*5||2=1, = | а012 + | а, |2 + ... +1 а„_! |2. Показать, что IIС (р) Ц = || С (р)* С (р) ||2 = || (S + R)* (S + R) ||2 = || S*S + R*R И, < || S*S ||2 + || R*R \\2, и вывести оценку Кармайкла и Мейсона | 2 | < [1 + | а012 + | а{ |2 + ... + | а„_,12]1/2. E.6.42) 29. Применяя оценку E.6.41) к многочлену = 2re+I + (а„_1 — 1)гп + (а„_2 — cn_0 z"-1 + ... + (а0 — at) z — а0, получить неравенство | z |<max{ 1, |а01 +1 а0 — ах \ + ... +1а„_2 — а„_, |-f |an_t — 11>.
5.6. Матричные нормы 353 Показать, что второе выражение под знаком максимума не меньше единицы, и вывести другую оценку Монтеля [г\^\ао\ + \ао-а1\+...+\ап_2-аа_1\ + \аа_1-1\. E.6.43) 30. При помощи оценки Монтеля E.6.43) доказать теорему Какея: если задан многочлен /(г)= anzn + an-\Zn~l -j- ... ... +fli2 + #o с неотрицательными коэффициентами а,-, удов- удовлетворяющими неравенствам то все решения уравнения /(г) = 0 лежат в единичном круге, т. е. |г|< 1. 31. Все четыре предыдущие задачи связаны с определением верхних границ абсолютных значений корней многочлена p(z), однако аналогично можно получить и нижние границы. Если многочлен p(z) задан формулой E.6.38) с коэффициентом а0 ф 0, то функция z + z + z+ ... +z + ao a0 ' ' a0 a0 будет многочленом степени п, корни которого в точности об- ратны к решениям уравнения р(z) = 0. Используя соответствую- соответствующие оценки сверху для решений уравнения q(z) = 0, получить следующие оценки снизу для решений z уравнения p(z) — 0: Оценка Коши: '"' I ao I + max {1, Оценка Монтеля; 1 ^" max {| a01, 1 + | a] | + | a21 + .. > Uoj -"' l + |aol+lail+ ... +|a«-i| Оценка Кармайкла и Мейсона: I г. \ \г\>- KI2+|a,|2+ ... +|аге_,|2]1/2# 32. Комбинируя нижние границы из задачи 31 с верхними границами из задач 27—30, можно локализовать корни много- .члена р[г) в кольце {г: г\ ^|г|^ г2}. В качестве примера рас-
384 Гл. 5. Нормы векторов и матриц смотрим многочлен f(z) — — zn-\ zn~l 4- -I- — z2 4- z 4- 1 ' { ' n\ Z + (ft - 1)! Z "I" • • • "I" 2 z + z + 4 — п-ю частичную сумму степенного ряда для экспоненты ег. Показать, что все решения z уравнения /(г) = 0 подчиняются неравенствам Применяя теорему Какея к многочлену znf(l/z), убедиться в том, что все решения фактически удовлетворяют даже неравен- неравенству |z| ^ 1. 33. Поскольку справедливо равенство р(А) = р(D~xAD) с любой невырожденной матрицей D, использованные в за- задаче 27 методы можно применить к матрице D~lC(p)D, чтобы получить другие границы корней многочлена p(z) в E.6.38). Для вычислений удобен выбор матрицы D = diag(/?i, р2, ¦¦• ..., рп), где все величины /?,- > 0. Обобщение оценки Коши E.6.40) приводит к неравенству I Рп |.| Рц—\ . Рп —1 1 - I Рп—1 1 Р П — 1 1 г1 ^Л ^1 ^ п—1 ..., |an_2|^L + -JJ-. |ал-11 + -^}. E.6.44) Прозерить, что оно действительно имеет место для произволь- произвольных положительных параметров р\, р2, ..., рп- 34. Предполагая, что все коэффициенты ак в E.6.38) нену- ненулевые, положить pk = p\/\ an-k+\ \, k = 2, 3, ..., п, и вывести из неравенства E.6.44) оценку Кодзима для корней z много- многочлена p(z): m<max{|ao|,2 f . E.6.45) 35. Теперь выбрать pk==rk, k = l,2, ..., п, с некоторым числом г > 0 и показать, что утверждение E.6.44) влечет за собой оценку aoIr"-1, | a, |r"-2 + r~\ \ a2 |r"-3 + r~l, ... •¦•, \ап-2 \г + Г1, la^^ + r-'X -+ max {\ak\rn-k-1}, E.6.46) где величина г > 0 может быть произвольной.
5.7. Векторные нормы на матрицах 385 36. Заданной матрице А е Мп можно поставить в соответ- соответствие эрмитову матрицу О А' Показать, что у этих матриц спектральная норма Ц-Цг совпа- совпадает. Указание. Напомним общее определение спектральной нормы: fA\\2 = p(A*Af2. 37. Пусть Л, Be Mn, матрица А невырожденна, матрица В вырожденна, и пусть задана произвольная матричная норма II-1|. Установить справедливость неравенства \\А—В\\^ 1/1И~Ч1. Указание. Матрица В = А — (Л — В) = А [I — А~1 (А — В)} вы- вырожденна, поэтому |Н~'(Л — 5)||^1. Какова геометрическая интерпретация этого факта в пространстве Мп? Насколько точно невырожденную матрицу можно аппроксимировать вы- вырожденной? Дополнительные сведения по этому вопросу см. в примере 7.4.1. Дополнительная литература Константы таблицы в задаче 23 заимствованы из статьи: Stone В. J. Best Possible Ratios of Certain Matrix Norms. — Nu- merische Math., 1962, v. 4, p. 114—116, где также содержатся не- некоторые другие оценки и дополнительные ссылки. Дальнейшее обсуждение применения матричных норм для локализации кор- корней многочленов (задачи 27—35) и дополнительная библиогра- библиография имеются в работе: Fujii M., Kubo F. Operator Norms as Bounds for Roots of Algebraic Equations.—• Proc. Japan Acad., 1973 v. 49, p. 805—808. Более общие рассуждения в задаче опре- определения констант, связывающих подчиненные нормы (теорема 5.6.18), можно найти в работе: Schneider H., Strang W. G. Com- Comparison Theorems for Supremum. Norms. — Numerische Math., 1962, v. 4, p. 15—20. Минимальные матричные нормы рассмат- рассматриваются в [Wie]. S.7. Векторные нормы на матрицах Все аксиомы векторной нормы необходимы для содержа- содержательного определения понятия «величины» матрицы. Однако в некоторых важных приложениях кольцевое свойство D) мат- матричной нормы не существенно. Например, в очень полезном следствии 5.6.14 предельное соотношение фактически имеет ме- место не только для матричных норм, но н для функций из клас- класса даже более общего, чем векторные нормы. По этой причине в данном параграфе мы заострим внимание на векторных нор- нормах матриц, т. е. на векторных нормах (которые могут не обла- 13 Р. Хорн. Ч. Джонсон
386 Гл. 5. Нормы векторов и матриц дать кольцевым свойством) на линейном пространстве Мп. Та- Такие нормы часто называют обобщенными матричными нор- нормами1). Векторную норму на Мп в общем случае будем обозна- обозначать символом || • || или G(-). Начнем с некоторых примеров векторных норм на Мп, которые могут быть или не быть мат- матричными нормами. Пример 1. Если G(-)—векторная норма на Мп и матрицы Т, S <= Мп невырожденны, то функция GTtS(A)^G(TAS), Ac=Mn, E.7.1) оказывается векторной нормой на Мп. Даже в случае матрич- матричной нормы G(-) кольцевое свойство для нормы Gt,s{-) не обя- обязано сохраняться. Упражнение. Показать, что функция Gt,s(-) в E.7.1) — дей- действительно векторная норма на Мп. Упражнение. Пусть S=T = I/2, и пусть G(-)=il • 1ЬТО. По- Показать, что норма Gt.s(-) не является матричной. Упражнение. Убедиться, что матричная норма G(-) при Т = S порождает матричную норму Gt, s (•)• Пример 2. Произведение Адамара двух матриц А = [а-ц] и В =[bij] одинаковых размеров определяется просто как их по- поэлементное произведение А ° В == [aijbij]. Если задана матрица Н^Мп с ненулевыми элементами и G(-)—произвольная век- векторная норма на Мп, то функция GH(A)^G(HoA) E.7.2) будет векторной нормой на Мп. Даже когда G(-)—матричная норма, норма Gw(-) может не обладать кольцевым свойством. Упражнение. Показать, что функция Gh(-) в E.7.2) — дей- действительно векторная норма. Упражнение. Удостовериться, что норма Gh(-) (cm. E.7.2)) может быть или не быть матричной в зависимости от выбора Н. Рассмотреть матричную норму G(-)=ll-lli и матрицы ill Г 2 11 f [ 2J E-7-3> ') Кольцевое свойство нормы иногда называют мультипликативностью или субмультиплнкативностью к в связи с этим матричную норму называют мультипликативной, а обобщенную матричную норму — аддитивной (подчер- (подчеркивая наличие лишь неравенства треугольника). — Прим. перев.
5.7. Векторные нормы на матрицах 387 в качестве сомножителей в произведении Адамара. Нарушение кольцевого свойства можно проследить на примере матриц ГО 1 1 ГО 0 1 Л4о о]- Hi oj и ш EJ-4) Отметим неравенство G#, (С) ^ Gn2(С), справедливое для всех матриц С е М2- Пример 3. функция J-lla + rfl + la-rfl + l6l + lc|] E.7.5) является векторной нормой на М2. Упражнение. Показать, что функция G(-) в E.7.5) является векторной нормой, но не матричной. Можно привлечь к рас- рассмотрению матрицы E.7.4). Пример 4. Для заданной матрицы Л е Л1„ множество F(/4) = {х*Лх: х<=Сп, х*х = 1} называют числовой областью или числовым образом этой матрицы, функцию r(A) = max \х*Ах\ = max |г| E.7.6) х*х<\ ге^(Л) называют числовым радиусом матрицы А. Упражнение. Показать, что числовой радиус г (А) задает векторную норму на Мп. Указание. Трудно проверяется лишь аксиома положительности Aа), см. § 4.1, задача 6. Числовой радиус, однако, не определяет матричную норму, см. задачу 10 далее. Пример 5. Векторная /.„-норма на Мп определяется формулой Mill ^ max \ац\. E.7.7) В § 5.6 мы видели, что || • ||/ — векторная норма, но не матрич- матричная норма на Мп, однако л[|-||/ —уже матричная норма. Предыдущие примеры убедительно показывают, что, действи- действительно, существует много векторных норм на Мп, которые не являются матричными нормами. Для некоторых из этих норм, однако, справедлива часть утверждений, которая в случае мат- матричных норм обусловлена наличием кольцевого свойства; для других векторных норм это не так. В то же время каждая век- векторная норма на Мп эквивалентна любой матричной норме (в том смысле, что понятия сходимости последовательности в 13*
388 Гл. 5- Нормы векторов и матриц этих нормах совпадают). Из теоремы 5.4.4 непосредственно сле- следует фактически даже несколько более общий результат. 5.7.8. Теорема. Пусть f — квазинорма на Мп, т. е. веще- вещественнозначная функция на Мп, которая является положитель- ной, абсолютно однородной и непрерывной, и пусть задана мат- матричная норма || • || на М„. Тогда существуют такие конечные по- положительные константы Ст и См, что неравенство справедливо для всех матриц А <= Мп. В частности, это утвер- утверждение верно для любой векторной нормы /(•) на Мп. Наличие неравенств E.7.9) часто бывает полезным для обоб- обобщения фактов о матричных нормах на случай векторных норм или, еще шире, векторных квазинорм на матрицах. К примеру, предельное соотношение из следствия 5.6.14 допускает обобще- обобщение в этом смысле. 5.7.10. Следствие. Если f — квазинорма на Мп, то предел lim [f (Ak)]llk существует для всех матриц А^Мп и \im[f(Ak)]l'k=p(A) ?->оо для всех А е Мп. В частности, это предельное соотношение имеет место для произвольной векторной нормы /(•) на Мп. Доказательство. Пусть || • ||—матричная норма на Мп. Нера- Неравенства Cm\\Ak\\^f(Ak)^CM\\Ak\\ влекут за собой для всех k — \, 2, 3 ... . Однако в последних неравенствах C,'Afc->l, Cif-*1, I Ak fk->p(Л) при /г->оо. Отсюда заключаем, что предел lim [f{Ak)]l!k существует и принимает требуемоа значение. ? Можно говорить об эквивалентности векторных и матричных норм на Мп в несколько ином смысле, иллюстрируемом в при- примере 5 выше. Векторную норму [| • ||/ можно умножить на кон- константу п и получить тем самым матричную норму. Это не слу- случайность: каждая векторная норма допускает подобную моди- модификацию.
5.7. Векторные нормы на матрицах 389 5.7.11. Теорема. Для каждой векторной нормы G(-) на Мп существует такая конечная положительная константа c(G), что произведение c(G)G{-) является матричной нормой на Мп.Если || • ||—матричная норма на Мп и выполнены неравенства Ст||Л]|<О(Л)<СЛ1||Л||, Ае=Мп, E.7.11а) то справедлива оценка Более того, существует матричная норма, для которой указан- указанная верхняя граница для c(G) точна, поэтому с (G) = min | —j-: || • || — матричная норма и выполнены неравенства E.7.11а) >. Доказательство. Для любого сомножителя с > 0 функция cG(-) удовлетворяет всем аксиомам матричной нормы, быть может, за исключением кольцевого свойства. Однако непрерыв- непрерывность нормы G(-) и компактность единичного шара этой нормы позволяют легко убедиться в конечности и положительности ве- величины c(G) = max а(л)а(В) = max G(AB). Тогда G (AB) < cG {A) G (B), cG (AB) < cG (A) cG (B) для всех матриц А, В s Mn (последнее неравенство означает наличие кольцевого свойства у произведения cG(-) в случае выбора c = c(G). — Перев.). В соответствии с условиями тео- теоремы пусть || • ||—матричная норма на Мп и справедливы нера- неравенства E.7.11а) эквивалентности норм G(-) и ||-||. Тогда G (АВ) < См \\ AB \{<CMUA\UlB\\^^fG (A) G (В), и приходим к оценке Осуществляя конкретный выбор матричной нормы [[•!! — = c{G)G (•}, получаем равенства CM*=c(G) и Cm~ l/c (G); та- таким образом, CM/C2m — c(G). ?
390 Гл. 5. Нормы векторов и матриц Упражнение. Показать, что при k^-c(G) произведение kG (•) будет матричной нормой. В частности, норма CMG {щIС2т всегда будет матричной. Упражнение. Вывести результат следствия 5.7.10 для вектор- векторных норм прямо из теоремы 5.7.11. Одним из следствий кольцевого свойства матричной нормы является тот факт, что каждой матричной норме на Мп можно поставить в соответствие некоторую согласованную с ней век- векторную норму на Сп. Именно поэтому для любой матричной нормы || • II справедливо неравенство ЦЛЦ^р(Л). Векторную норму на М„, удовлетворяющую этому неравенству для всех матриц Л е Мп, называют спектрально преобладающей. Инте- Интересно отметить следующее. Для одних векторных норм на Мп имеются согласованные с ними векторные нормы на Сп, а для других — нет. Среди последних некоторые нормы являются спек- спектрально преобладающими, а некоторые — нет. Наконец, вектор- пая норма на Сп может быть согласована с векторной нормой на М,„ не являющейся матричной нормой. 5.7.12. Определение. Векторную норму ||-|| на С и вектор- векторную норму G(-) на Мп называют согласованными, если нера- неравенство || Ах || <G (Л) || х || выполнено для всех векторов х е С и всех матриц Л е Мп. Это понятие уже затрагивалось в предыдущем параграфе (см., 1 а тример, E.6.27), E.6.30)). Выделим утверждения, относящие- относящиеся к понятию согласованности. 5.7.13. Теорема. Если || • II — матричная норма на М„, то суще- существует некоторая согласованная с ней векторная норма на С". Доказательство. Если положить \\х ||==|| [д:0 0 . .. 0] ||, то будут выполнены соотношения || Ах || = || [Ах 0 ... ОД Ц ===== = ||Л[хО ... 0]|К||Л||||[*0 ... 0] || = || Л || || х ||. ? Обратное утверждение нам уже известно. В теореме 5.6.2 утверждается, что любой заданной векторной норме || • !1 на О соответствует согласованная с ней матричная норма (подчинен- (подчиненная норма из определения 5.6.1). Упражнение. Показать, что согласованная векторная норма на С", наличие которой гарантируется теоремой 5.7.13, может быть не единственной. Действительно, подходят также и норма || х || = || [х х ... л:] ||, и норма \\х || == || х*у || при любом ненулевом векторе у е С".
5.7, Векторные нормы на матрицах 391 5.7.14. Теорема. Пусть G(-) — векторная норма на Мп, для которой имеется согласованная векторная норма \\ ¦ || на С". Тогда G(A)^p(A) для всех матриц Ае.М„. В более общей формулировке, G (Л,) G (A2) ...G (Ak) > p (АХА2 ... Ak) E.7.15) для всех матриц А\,А2,..., Л* е Мп и всевозможных k = 1, 2, ... Доказательство. Положим k = 2 и возьмем такой ненулевой вектор хёС, что А\А2х = Кх, где | А,] = р(Л]Л2). Тогда имеют место соотношения р (АХА2) || х II = II А,* II = II Л, Л2л: || = || Л, (Л2х) || < Поскольку ||х||=7^0, выводим, что р(Л[Лг) ^ G(A{) G(A2). Общее утверждение проверяется аналогично при помощи индукции. ? Когда для заданной векторной нормы на Мп найдется согла- согласованная с ней векторная норма на С"? Условие E.7.15) яв- является необходимым; чтобы показать его достаточность, потре- потребуется следующая вспомогательная лемма. 5.7.16. Лемма. Пусть G(-) — векторная норма на Мп, удов- удовлетворяющая неравенству E.7.15), и через \\-{\2 обозначена спек- спектральная норма на М„. Тогда существует такая конечная поло- положительная константа с = c(G), что неравенства G{AX)G{A2) ... 0{Ак)^с\\АхА2 ... Ak\\2 справедливы для всех матриц Ль Л2, ..., Ak^.Mn и всех k = \, 2, .... Доказательство. В силу следствия 5.4.5 найдется такая ко- конечная положительная константа b~b(G), что \\А\\2 ^ bG(A) для всех АеМп- Пусть заданы натуральное число k и матрицы Ль Л2, ..., Аи^Мп. По теореме 7.3.5 о сингулярном разложе- разложении существуют унитарные матрицы V и W и диагональная матрица S = diag(ab cr2, ••¦, Ол), где все 0,^0, такие, что p( = max{ff,, <y2, ..., а„} = || Л(Л2 ... Л4Ц2. Из неравенства E.7.15) имеем G (V) G (Л,) G (Л2) ... G (ЛА) G (W) > р (УМ,Л2 ... AkW) = р B) = = II21|, = || УАХА2 ... AkW\\2^ •=\\AlA2... Akh.
392 Гл. 5. Нормы векторов и матриц Последнее равенство объясняется унитарной инвариантностью спектральной нормы. Значит, О(Л,)О(Л2) ... G(Ak)> G{V.1)Gm\\AlA2... ЛАЦ2> ^ lll/*ILIi H/IL II А\А2 ... Лй ||2 = Полагая с = б2, приходим к утверждению леммы. П 5.7.17. Теорема. Пусть G(-)—векторная норма на М,г. Век- Векторная норма || • || на С, удовлетворяющая неравенству \\Ax\\ ^ ^ О(Л)||х|| для всех хеС'й всех А е Мп, существует в том и только в том случае, когда для исходной нормы выполнено не- неравенство G(AX)G(A2) ... G{Ak)>?(AxA2... Ak) для всех А\, Л2, ..., Ak е Мп и всех к = 1, 2, ... Доказательство. Необходимость уже была доказана в тео- теореме 5.7.14. Чтобы проверить достаточность, убедимся в суще- существовании матричной нормы ||-|| на Мп, удовлетворяющей нера- неравенству G(Л) Г5г||А|| для всевозможных матриц А^Мп. Пусть || • ||—векторная норма на Сп, согласованная с нормой || • II на Мп (наличие такой нормы обеспечивается теоремой 5.7.13), и пусть заданы вектор хе С и матрица Л е Мп. Тогда ||Лл'Ц^||Л||||л:||^ ^ G(Л) |!х||; поэтому требуемое утверждение действительно бу- будет доказано, если мы сможем построить матричную норму, не превосходящую нормы G(-). Заданная матрица А^Мп мириадами способов может быть представлена как произведение матриц или как сумма произве- произведений матриц. Определим функцию (ЛП) ... G(Aikl); Z Atl...Atk[ = A, Aikj e= Mn\. Учитывая равенство 2 ^п • • • Ащ ~ А и используя лемму 5.7.16 и неравенство треугольника для спектральной нормы, имеем Это неравенство влечет за собой полол<ительность функции || • |[, предлагаемой в качестве нормы. Свойство абсолютной однород- однородности непосредственно вытекает из того же свойства для нормы G(-). Неравенство треугольника и кольцевое свойство для
5.7. Векторные нормы на матрицах 393 функции || • || следуют из ее определения как точной нижней грани суммы произведений. П Упражнение. Провести подробное обоснование того, что функция ||-||, построенная в доказательстве предыдущей тео- теоремы, подчиняется неравенству треугольника и обладает коль- кольцевым свойством. Указание. Если С=А-{-В или С = АВ, то каждое представление матриц А я В (независимо) в виде сум- суммы произведений дает представление матрицы С в виде суммы произведений, однако подобным образом нельзя получить все такие представления матрицы С. Упражнение. В предположении, что для векторной нормы E.7.5) на М„ найдется согласованная с ней векторная норма II • || на С2, доказать соотношения О 1 ГО М LO Oj ГО 01 Li oj [J] которые влекут за собой неравенство 0 1 о о MJM и, следовательно, Показать, что последнее утверждение неверно, и вывести от- отсюда, что для рассматриваемой векторной нормы G(-) на М2 нельзя найти согласованную с ней векторную норму на С2. Упражнение (продолжение). Непосредственно убедиться, что векторная норма E.7.5) на М2 является спектрально преобла- преобладающей, хотя ей не соответствует ни одна согласованная с ней векторная норма на С2. Обсудить этот факт в свете тео- теоремы 5.7.17. Теперь нам известны полезные необходимые и достаточные условия существования для векторной нормы на М„ согласо- согласованной векторной нормы на С". Мы также знаем, что какова бы ни была векторная норма на С", подчиненная матричная норма из определения 5.6.1 согласована с ней и может рассматривать- рассматриваться как векторная норма на Мп, обладающая кольцевым свой- свойством, Когда для векторной нормы на С" существует согласо-
394 Гл. 5, Нормы векторов и матриц ванная векторная норма на Мп, не обладающая кольцевым свойством? Всегда. 5.7.18. Теорема. Пусть задана векторная норма || • || на С". Существует векторная норма G(-) на Мп, не являющаяся мат- матричной нормой и удовлетворяющая неравенству для всех векторов j;eC и всех матриц А е Мп. Доказательство. Пусть Р е Л4Я—-произвольная матрица пе- перестановки с нулевыми элементами на главной диагонали, на- например пусть Р = [pi,], где рц = 1 при / = i + 1 или при i = п, /' = 1, и pij—O в противном случае. Символом || • || также обо- обозначим матричную норму на Мп, подчиненную (в смысле опре- определения 5.6.1) векторной норме || • || на С". Определим функцию G (•) на Мп формулой G (Л) = Ц ЛII+ 11/HI/* II max \ait\. Ясно, что эта функция является векторной нормой на М„, и справедливы неравенства О(Л) ^||Л|| для всех А^Мп и для всех А е Мп и всех х е С". Однако G(P) = ||Р ||, G(Pr)= II PHI. G (PPT) >G(P)G (PT). Таким образом, норма G(-) на Мп согласована с данной век- векторной нормой || • II на С", но не обладает кольцевым свойством. Упражнение. Пусть А = [ац\ е Мп. Рассмотреть следующую модификацию матричной нормы ||-|U: II Л || = || А + diag (а,,, а22, .... апп) Ц^. Показать, что эта функция допускает представление E.7.2) в виде нормы, задаваемой произведением Адамара, и, следова- следовательно, является векторной нормой на Мп. Доказать, что эта норма согласована с векторной нормой ||-|U на Сп. Вычислить величины |[° 41 If0 41 111 оJ|' IILi oj I и убедиться, что данная норма не обладает кольцевым свой- свойством.
5.7. Векторные нормы на матрицах 395 Задачи 1. Пусть G(-)— векторная норма на Мп, и пусть задан не- ненулевой вектор у е С". Показать, что функция будет векторной нормой на С". Что она собой представляет, когда у = [1, 1, ..., 1]г или у = [\, 0,0 Of? 2. Пусть || • ||—произвольная векторная норма на Мп, и пусть заданы матрица Ае.Мп и число е > 0. Доказать, что суще- существует такое число К = К(ъ, А) > 0, что для всех степеней k > К. 3. Пусть || • ||—любая векторная норма на М„, и пусть за- задана матрица А е Мп. (a) Используя результат задачи 2, убедиться, что если р(Л)< 1, то |И*||->-0, когда ?->-оо. С какой скоростью? (b) Доказать обратное утверждение: если ||Л*||->0 при &->-оо, то р(Л)< 1. Указание, Рассмотреть поведение величин \\Ак [х ... х] ||, если Ах = Кх и х ф 0. (c) Что можно сказать о сходимости степенных матричных рядов в терминах векторных норм? 4. Пусть задана векторная норма G(-) на Мп. Определим функцию G': Mn->R формулой С (В) sa max G(BA). G(A)=[ Доказать, что функция G'(-) всегда будет матричной нормой на М„, удовлетворяющей равенству С(/)=1,и что при G(/)=l неравенство G'(B)^ G(B) выполнено для всех матриц В е Мп. В следующих задачах развиваются результаты задачи 4. 5. Обосновать неравенство G'(B)^.G(B) для любой мат- матрицы В^Мп в случае матричной нормы G(-) на Мп и равен- равенство G'(•)= G{-) при дополнительном условии G(/)=l. 6. Показать, что всегда выполняется равенство G"(-)= G'(-). 7. Предполагая, что векторная норма G(-) на М„ подчинена условию G(/)=l, доказать, что эта норма будет матричной тогда и только тогда, когда G'(B)^ G(В) для всех ВеМ„. 8. Убедиться, что в определении нормы G'(-) из задачи 4 можно изменить порядок сомножителей Л и В и получить тем самым другую матричную норму. Показать на примере, что эта новая норма может не еовпадать с G'(-).
396 Гл. 5. Нормы векторов и матриц 9. Проверить, что множество всех векторных полунорм на С", согласованных с заданной векторной нормой на М„, вы- выпукло — фактически это конус. 10. Удостовериться, что числовой радиус г(-) не задает мат- матричную норму на Мп, привлекая матрицы E.7.4) и сравнивая величину г(АВ) с произведением г (А) г (В). 11. Неравенство ЦЛЦ^р(Л) из теоремы 5.6.9 является след- следствием аксиомы D) (т. е. кольцевого свойства) матричной нормы || -||. Однако векторная норма на Мп может удовлетворять этому неравенству (т. е. быть спектрально преобладающей), не бу- будучи матричной нормой. Обосновать неравенство г(Л)Гз=р(Л) для произвольной матрицы А е= Мп, Установить более общий факт: а (А) а {х"Ах: х*х=\). 12. Убедиться, что для векторной нормы || • \\i на Мп нельзя найти никакой согласованной с ней векторной нормы на С". Указание. Рассмотреть величины1) ||/n|L и р(/„). Показать, что функция п || • IL, однако, будет матричной нормой на Мп и поэтому имеется согласованная с ней векторная норма на С". 13. Для матрицы А = [аг/] <s Mm, „ обозначим транспониро- транспонированную /-ю строку через гг(А) = [аа, аа, ..., aln\T и /-й стол- столбец через cl(A) = [a4, a2j, ..., ami]r. Пусть || • ||а и || • ||р — век- векторные нормы на пространствах С'1 и Ст соответственно. Тогда определим функцию С^а: Mmin->R формулой Go,«(А) ^ || [ || г, (А) ||0, || г2 (А) ||а, ..., || гт (А) ,а]Т 11^. Аналогично, определим функцию G : Mmin—>R: аа-р (Л) = ([ к с, (Л) ||р, || с2 (Л) ц3, ..., || сп (Л) цт |а. Доказать, что каладая из функций G^a(~- и Ga (•) является векторной нормой на Мт, „, однако эти нормы не обязаны со- совпадать. Таким образом, имеется возможность определять есте- естественным образом векторные нормы на пространстве прямо- прямоугольных матриц. 14. Сопоставить норму Gg>a(-) из задачи 13 с нормой || • ||а> р, дпределенной в задаче 4 § 5.6, и показать на примере, что Лаже при т = п (и даже когда || • ||а==|| • ||р) норма G^a не обязана быть матричной нормой на Мп. 15. Что представляет собой аорма Gpja в задаче 13, когда II • На = 1!'112 = II-lip? А норма Ga'p(.)? ') Здесь in есть п X я-матрица, все элементы которой равны 1. Прим. перев.
5.7. Векторные нормы на матрицах 397 16. Что представляет собой норма G» а(-) в задаче 13, когда || • На = 11 • Ik и || • ||р = || • L? Что можно сказать о функ- функциях Gp-a(-), Ga,p(-), Ga'p(-)? 17. Если G(•) — векторная норма на Мп, спектральная ха- характеристика нормы G(-) определяется формулой m(G)= max р(Л). С(Л)<1 Убедиться, что норма G(-) является спектрально преобладаю- преобладающей тогда и только тогда, когда m(G)-^. 1. Показать, что про- произвольную векторную норму на Мп можно превратить в спек- спектрально преобладающую норму посредством умножения на не- некоторую константу, причем минимальная величина константы равна m(G). Норму G(-) на Мп называют минимально спек- спектрально преобладающей, если выполнено равенство m{G)—\. 18. Установить, что каждая подчиненная матричная норма является минимально спектрально преобладающей в соответ- соответствии с определением из задачи 17. Показать, что не все ми- минимально спектрально преобладающие нормы подчиненные. Проверить, что числовой радиус г(А) удовлетворяет условию минимального спектрального преобладания. 19. Доказать, что спектральная характеристика является вы- выпуклой функцией на конусе векторных норм на Мп и, следова- следовательно, множество всех спектрально преобладающих векторных норм на М„ выпукло. 20. Убедиться, что векторная норма G(-) на Мп является спектрально преобладающей тогда и только тогда, когда для каждой матрицы Л е Мп найдется константа уЛ (зависящая только от нормы G(-) и матрицы Л), такая, что для всех на- натуральных k справедливо неравенство 21. Доказать справедливость следующих утверждений: (а) Числовой радиус г(-) удовлетворяет равенствам г{А)=- = р(Л)=||Л||2 для произвольной нормальной матрицы А, од- однако в общем случае справедливо лишь неравенство г(А)^. ^||Л1|2. Привести пример матрицы Л е Л4„, удовлетворяющей строгому неравенству г(А) <||Л||2. Указание. Проверить равен- равенство r(U*AU)= г (А), где V е Мп—-.любая унитарная матрица, и учесть возможность приведения матрицы А к диагональному виду унитарным преобразованием. Для общего случая обосно- обосновать соотношения г (Л) = max | х'Ах | < max || Ах ||21| х \\2 = || А ||2. II Ж На-1 1ж|Ь-1
398 Гл. 5. Нормы векторов и матриц (b) Для произвольной матрицы ЛеМ, справедливо равен- равенство г(А)=г(А*). (c) Неравенство ||Л||2 < 2г(Л) верно для всех матриц А е Мп. Указание. Записать разложение А = (А+ Л*)/2 + (Л - Л')/2 = А{ + А2 и заметить, что матрицы Л] и Л2 нормальны. Теперь проверить соотношения II А ||2 < || Л, \\2 +1| Л21|2 = г (Л,) + г (Л2) < г (Л) + г (Л*) = 2г (Л). (d) Оценки А\\ъ (i) указанные в пунктах (а) и (с), точны. Указание. Построить подходящие п X я-аналоги матриц [j J1 иГ^д], 22. Используя неравенства п. (d) задачи 21 и оценки вели- величины с (г) из теоремы 5.7.11, доказать, что функция 4г(-) будет матричной нормой на Мп. Продемонстрировать равенство с(г) = = 4, рассматривая матрицы Л = [„ ц], Л*, ЛЛ*. 23. При помощи неравенств (i) п. (d) задачи 21 и нера- неравенств -4-1И||?<||Л||2<||Л||я (И) -Vя из задачи 23 § 5.6 получить оценки -4=-ЦЛ||?<г(Л)<||Л||в, (iii). справедливые для всех Л ^Мп, и убедиться в неулучшаемости верхней границы. Проверить, что выбор Л = / и Л = [ J J] приводит к равенствам в левых неравенствах из (i) и (и) со- соответственно и что в случае выбора Л = [оо] равенства до- достигаются в правых неравенствах из (i) и (п). Объяснить, по- почему отсюда следует неулучшаемость верхней границы в (iii), но нельзя сделать никаких выводов о точности нижней границы в (iii). Почему существует конечная максимальная положитель- положительная константа сп, при которой неравенство г(А)^ с„\\А\\е верно для всех матриц Л е М„? Неравенства (iii) обеспечивают оцен- оценку снизу сп ^Э=B л/п) . Получить оценку сверху сп ^ ^ (п—1I/2/«, вычисляя величины r(Jn) и Ц/я11е, где }п = [ац] суть жордановы «X «-матрицы с элементами ац = 0, за исклю- нением at, i+\ = 1 для i== I, 2, ,.., п—1. Из этих оценок еле-
5.7. Векторные нормы на матрицах 399 дует, что с„ = О (l/Vra) ПРИ п->-оо; точное значение величины с„, по-видимому, неизвестно. 24. Показать, что функция [АВ] — \гАВ* определяет скаляр- скалярное произведение на пространстве Мп и это скалярное произ- произведение порождает /2-норму на М„, т. е. \\A\\e = [А, А]1/2 для всех А^Мп. Проверить, что норма эрмитовой матрицы X = хх* ранга 1 равна || X \\Е = || х f2. Доказать, что числовая область заданной матрицы А^Мп просто является совокупностью про- проекций (в скалярном произведении [•, ¦]) этой матрицы па мно- множество эрмитовых матриц единичной нормы ранга 1 и справед- справедливо представление r(A) = max{| [Л, X] |: X — эрмитова мат- матрица ранга 1 и ||A]|e=1}. Используя неравенство Коши — Шварца, получить оценку г(Л)^|[Л||?. 25. Понятие числового радиуса связано с одной естественной задачей аппроксимации. Пусть задана матрица Лей», и мы хотим приблизить ее как можно точнее в смысле наименьших квадратов на классе матриц, отличающихся лишь скалярными множителями от эрмитовых матриц ранга 1. Каждая матрица из этого класса представима в виде Х = схх*, се С, ||х||?=1. Показать, что квадрат величины отклонения допускает оценку снизу || А - X fE = || А - схх- \fE > || Л Hj, - 21 с [Л, хх'] \ + \с? и принимает минимальное значение, когда с — [А,хх*] их — единичный вектор, на котором достигается максимум в E.7.6). Вывести отсюда, что необходимое условие минимума отклоне- отклонения ||Л — сХ\\Е по всем скалярам с и всевозможным эрмитовым матрицам X = хх* ранга 1 с |]Х|]е=1 задается равенством \с\=г(А). 26. Анализ двух предшествующих задач наводит на мысль о возможности естественного обобщения понятий числового ра- радиуса и числового образа матрицы. Пусть ФсМя — непустое множество матриц, удовлетворяющее следующим условиям: (a) если /ТеФ, то аХеФ для всех йёС; (b) последнее из равенств [Л, X] = tr AX* = 0 справедливо для всех матриц ЛеФ тогда и только тогда, когда Л =0; (c) множество Ф замкнуто. Для матрицы А*=Мп определим величину Ф(А)= max \[A,X]\= max | tr ЛГ |. II * 11в < 1 iX Ия < 1 Показать что функция ф(-) корректно определена, является векторной нормой на М„ и удовлетворяет неравенству \ф(А) |^
400 Гл. 5. Нормы векторов и матриц е. Доказать, что для каждой матрицы Ае.Мп существует такая матрица Х^еФ, что ||Хд||е=1 и справедливо представ- представление ^ (Л) =| [А,ХА ] \. Задача наилучшего приближения заданной матрицы А е Мп матрицами из ф состоит в определении матрицы ХеФ, для ко- которой минимально отклонение \\А — Х\\Е. Убедиться, что наилуч- наилучшее приближение задается матрицей ф(А)Хд, где ф(А)=: — \[А,Ха]\> а для ошибки аппроксимации матрицы А произволь- произвольной матрицей X ен Ф справедлива точная оценка \\А-Х\?Е>\\А\$-\[А, Хд}\2>0. Если Ф — множество всех-матриц, отличающихся лишь ска- скалярными множителями от эрмитовых матриц ранга 1, то ф(А) = ==г(А). В примере 7.4.6 обсуждается использование в качестве Ф множества всех матриц, только скалярными множителями от- отличающихся от унитарных матриц; тогда величина ф(А) оказы- оказывается средним сингулярных чисел матрицы А. Другой любо- любопытный случай выбора в роли Ф множества всех вырожденных матриц рассматривается в примере 7.4.1; тогда получается ве- величина ф(А), совпадающая с наименьшим сингулярным числом матрицы А. Вызывают интерес как кандидаты па роль Ф также множества всевозможных матриц, кратных положительно опре- определенным, эрмитовым или нормальным матрицам фиксирован- фиксированного ранга, либо кратных всевозможным матрицам, унитарно подобным данной матрице. В каждом из перечисленных случаев в качестве аналога числового образа матрицы выступает мно- множество {[А, X]: ХеФ}. 27. Хотя числовой радиус г(А) не задает матричную норму, он все же подчиняется неравенству для степеней г{Ат)^. ^.[г(А)]т для всевозможных значений т = 1, 2, ... и всех мат- матриц А^Мп. Доказательство разбивается на следующие этапы: (a) Показать, что исходное утверждение эквивалентно тому, что г{Ат)^ 1 для всех т = 1, 2, ..., если г {А) ^ 1. Пусть задано натуральное т~^2, фиксированное в после- последующих рассуждениях. Через {wk} = {e2nik/m}'^=l обозначим мно- множество корней степени т из единицы. Отметим, что мно- множество {wk} можно рассматривать как конечную мультипли- мультипликативную группу и что {wjwk}'?=Ml = {wii}™=l для каждого у=1, 2, ..., т. (b) При помощи разложения » 1 - 2™ = Д О - й=1
5.7. Векторные нормы на матрицах 401 доказать тождество т т р (z) = — V ТТ A — wkz) = 1 для всех геС, Указание. Убедиться, что р(г)— многочлен степени не выше т — 1 и допускает представление т т l-w.z ' /=¦1 ; Тогда p(z) = p (wiz) = ... =р (wmz) для всех геС, Следова- Следовательно, р (z) = const = р @) = 1. (с) Проверить равенства т mm- (d) Пусть x e С" — произвольный единичный вектор, || х J|2 = 1 > и пусть А^.Мп. Убедиться, что 1 - х*Атх = *•(/- Лт) л; = (/л;)* (/ - Ат) х = mm ¦i-E П ^- где Zj = П (/ — шАЛ) х. ft-i ft Ф i (e) Теперь заменить в соотношениях из п. (d) матрицу А матрицу етА и получить тем самым равенство
402 Гл. 5. Нормы векторов и матриц которое верно для любого вещественного 8. В предположении г(Л)^1 показать неотрицательность вещественной части пра- правого выражения в этом равенстве при любом 9 е R; следова- следовательно, вещественная часть левого выражения также должна быть неотрицательной для всех 8gR. Убедиться, что этот факт влечет за собой неравенство |х*Лтх|^1 и, следовательно, г(Ат)^ 1. 28. Числовой радиус подчиняется неравенству для степеней г (Ат) <; г (А)т, однако несколько более общее неравенство г (Ak+m) < r (Ak)r (Am) уже не всегда верно. Проверить, что в качестве контрпримера можно рассмотреть матрицу Л = /4@) (жорданов 4Х4-блок) и значения степеней k = 1 и т = 2. Ука- Указание. Используя неравенство между средним арифметическим и средним геометрическим, установить равенства г(А2) = г(А3) — = 1/2. При помощи неравенства Коши — Шварца показать, что ) 29. Можно ли придать смысл понятию «минимальная вектор- векторная норма» на М„, ориентируясь на определение 5.6.29 мини- минимальной матричной нормы? Дополнительная литература Вопрос о неравенствах, связанный с числовым радиусом, бо- более подробно обсуждался в статье: Goldberg M. Tadmor E. On the Numerical Radius and Its Applications. — Lin. Alg., 1982, v. 42, p. 263—284. Доказательство неравенства для числовых радиусов степеней, указанное в задаче 27, заимствовано из ра- работы: Реагсу С. An Elementary Proof of the Power Inequality for the Numerical Radius.— Michigan Math. J., 1960, v. 13, p. 289— 291. Часть материала этого параграфа изложена в статьях: Johnson С. R. Multiplicativity and Compatibility of Generalized Matrix Norms. —Numer. Math., 1977, v. 27, p. 391—394; Power Inequalities and Spectral Dominance of Generalized Matrix- Norms.—Linear Alg. Appl., 1979, v. 28, p. 117—130, где можно найти также дополнительные результаты. 5.8. Ошибки в обратных матрицах и решениях линейных систем В качестве приложения матричных и векторных норм рас- рассмотрим задачу оценивания ошибок, возникающих при вычисле- вычислении обратной матрицы и при решении систем линейных урав- уравнений. Пусть задана невырожденная матрица А е М„. Можно счи- считать, что в принципе осуществимо точное нахождение обратной матрицы А~1ш, однако, если вычисления проводятся на цифровом
5,8. Ошибки в обратных матрицах 403 компьютере с конечным машинным словом, неизбежно возни- возникают ошибки за счет округления и усечения. Более того, даже если все вычисления были бы выполнены с предельной точ- точностью, элементы матрицы А могут являться результатами не- некоторых экспериментов или некоторых предварительных вы- вычислений, вносящих ошибки; таким образом, погрешность имеется уже в исходной информации. Как влияют округлении и неточности в начальных данных на фактически найденную об- обратную матрицу? Оказывается, что во многих широко используемых алгорит- алгоритмах эффект ошибок округлений при вычислениях можно смоде- смоделировать при помощи возмущений лишь начальных данных. А именно, пусть задана невырожденная матрица А^Мп и мы хотим вычислить обратную к ней Л~', однако в действитель- действительности вычисляем матрицу (А-\-Е)-\ где возмущение ? g А!„ достаточно «мало», так что матрица A -f- Е обратима. Тогдн ошибка равна А~1 — (А + ?)-> == А~1 — (I + А~1Е)-ХА~1. Если р(А~1Е) <^ 1, то матрица А-\- Е будет обратимой и можно запи- записать матрицу (/ -\- А~{Е)~Х в виде ряда по степеням матрицы А~1Е. Это дает k=0 = 1 {-\)k+l{A-lE)kA-\ Таким образом, имеем точную формулу для ошибки -l)k+l(A-lE)kA-x, E.8.0 если р(Л~1?')< 1. Теперь пусть имеется матричная норма ||-|| и выполнено предположение ||Л-12:||< 1, так что, в частности, р(А~1Е) <С 1 и справедливо равенство E.8.1). Тогда и мы получаем верхнюю границу относительной ошибки, совер- совершаемой при вычислении обратной матрицы: \-1 II 11 /I-Irll если |Л?||<1.
404 Гл. 5. Нормы векторов и матриц Считая дополнительно матрицу Е настолько «малой», что ||?1 < l/lA~x\, приходим к неравенствам и получаем оценку || Л1| "^ l-IU-'llllfll \-\\A-l\\\\A\\(\\E\\l\\A\\) ' Величину f М^ЦИЛЦ, если А невырожденна, о, если А вырожденна, называют числом обусловленности матрицы А по отношению к матричной норме ||-||. Заметим, что для любой матричной нормы. Используя это обозначение, можно переписать последнюю оценку в виде к (А)Щ {5 g . IIЛII если Ц^ЦЦЛ-'У^ 1- В этом неравенстве относительная ошибка в обратной матрице оценивается через относительную ошибку в исходной матрице. При малых значениях нормы ||?|| правая часть в E.8.4) эквивалентна выражению а (А) \\Е\\/\\А \\; таким образом, есть все основания считать, что относительная ошибка в обратной матрице имеет одинаковый порядок малости с от- относительной ошибкой в начальных данных при условии, что величина %{А) не слишком велика. Имея в виду задачу обра- обращения, при больших значениях % (А) говорят о плохой обуслов- обусловленности матрицы Л (по отношению к матричной норме Ц-||). Когда величина и (Л) мала (близка к единице), говорят о хо- хорошей обусловленности матрицы Л (по отношению к матричной норме H-II). Наконец, при и(Л)=1 матрицу Л называют иде- идеально обусловленной (по отношению к матричной норме ||-Ц). В наиболее важном случае, когда используется спектральная матричная норма, имеется интересное геометрическое описание числа обусловленности. Пусть Э(Л) обозначает наименьший угол между векторами Ах и Ау для всевозможных пар ортонормиро- ванных векторов хну. Число обусловленности по отношению к спектральной норме равно к (А) = ctg[9 (Л)/2]. Следовательно, для унитарной матрицы Л имеем 0(Л) = я/2 и ctg(n/4)=l = — k{A). Если матрица Л «близка к вырожденной», то найдется
5.8. Ошибки в обратных матрицах , 405 некоторая пара ортонормированных векторов х, у, такая, что векторы Ах и Ау «почти параллельны». Тогда угол в (А) будет мал и число обусловленности х(А) = ctg[в(Л)/2] будет боль- большим. Более подробно см. пример 7.4.26. Упражнение. Показать, что для обратимой матрицы А е М„ справедливо равенство и(Л) = и(Л-'). Упражнение. Пусть заданы унитарные матрицы U, V е Мп и в определении числа обусловленности участвует спектральная норма (или любая другая унитарно инвариантная норма). Убе- Убедиться, что имеет место равенство х(А) = х [UA) = к {AV) = х (UAU). Таким образом, унитарное преобразование данной матрицы не ухудшает ее обусловленности. Это наблюдение лежит в основе многих устойчивых численных алгоритмов линейной алгебры. Упражнение. Обосновать неравенства х,(АВ)^к(А)х(В). Является ли функция х(-) матричной или векторной нормой на Эти же соображения можно использовать для вывода априор- априорных оценок точности решения системы линейных алгебраиче- алгебраических уравнений. Пусть решению подлежит система уравнений Ах = Ь, Ае=Мп, 6еС", E.8.5) но вследствие ошибок в вычислениях или неопределенности в начальных данных фактически решается система (А + Е)х = Ь, А, Е<=Мп, &еС. E.8.6) Что можно сказать о величине ошибки х — х? Если матрица Е настолько «мала», что р(Л-'?)-<1, то в силу E.8.1) имеем х-х = A~lb - (А + ЕГ1 b = [А~х — (А + Е)'1] Ъ = Пусть || • I!—матричная норма, в которой имеет место неравен- неравенство ||Л '/ill < 1. Обозначение || ¦ || сохраним и для согласован- согласованной с ней векторной нормы на Сп. Тогда норма ошибки допу- допускает оценку сверху й = 1
406 Гл. 5. Нормы векторов и матриц В терминах относительных ошибок это означает, что II*-ill ^ 11/Г'?|| \-\\А~1Е\\ ' E.8.7) если ЦЛ-'^Ц^ 1 и если векторная норма || • || на С" согласована с матричной нормой ||-||. Отметим аналогию с оценкой сверху E.8.2) относительной ошибки в обратной матрице и тот факт, что правая часть b рассматриваемой системы линейных уравне* ний не входит в верхнюю границу относительной ошибки в E.8.7). Привлекая рассуждения, подобные приведенным выше при выводе неравенства E.8.4), приходим к оценке относительной ошибки в решении системы E.8.5) с участием числа обуслов- обусловленности к(А) матрицы А: II*-ill <- к (Л) \\E\\ ,с 8 м которая имеет место, когда f Л \\\Е\\ < 1 и векторная норма || • || на С" согласована с матричной нормой || • ||. Какой бы метод ни применялся для решения системы линейных уравнений E.8.5), относительная ошибка в решении оценивается сверху той же величиной, что и относительная ошибка в матрице, об- обратной к матрице коэффициентов данной системы. На практике возмущению могут подвергнуться не только элементы матрицы коэффициентов А идеальной системы линей- линейных уравнений E.8.5), но и элементы вектора Ь, правой части этой системы. Таким образом, оправдано желание заменить си- систему E.8.6) на следующую: (Л + Е) х = b + е, E.8.9) где матрицу ?еМ„ и вектор ееС" можно трактовать как «ма- «малые» ошибки в начальных данных. Проводя аналогичные выкладки, получаем (при Ь ф 0) оцен- оценку относительной ошибки в решении системы E.8.9) по сравне- сравнению с решением системы E.8.5): \\х-П^- •л (А) ||Л|| ' \—л(А) E.8.10) она верна при тех же предположениях, что и E.8.8). Таким об- образом, граница для относительной ошибки определяется двумя слагаемыми, одно связано с относительной ошибкой в коэффи- коэффициентах Л, а другое — с относительной ошибкой в правой части Ь. Число обусловленности к(А) вновь играет решающую роль и определяет чувствительность оценки ошибки в решении к по- погрешностям в начальных данных.
5.8. Ошибки в обратных матрицах 407 Все оценки ошибок, полученные нами до сих пор, были априорными: в выражения для границ ошибок не входят ни само вычисленное решение, ни какие-либо величины, связанные с этим решением. Предположим, однако, что было найдено некоторое приближенное «решение» х системы E.8.5). Точное равенство Ах = b в этом случае может быть нарушено. При помощи век- вектора невязки г == Ь — Ах можно оценить, насколько вектор х бли- близок к истинному решению х. В силу равенств А~'г = = А [Ь — Ах] — А~ХЬ — х = х — х имеем простую оценку ||х — х|К[А~1г\\. Вводя матричную норму || • ||, согласованную с векторной нормой || • ||, приходим к соотношениям ||6|| = = ||Л*||<||Л|1||*||, или 1 <|| А||||х 11/Ц61! при Ь?=0. Следова- Следовательно, Итак, при замене точного решения х (удовлетворяющего ра- равенству Ах = Ь) на приближенное решение х (такое, что Ах — = b — г) получаем при b ф О оценку 1^?1<«М,^. F.8.11, в которой матричная норма, используемая в определении числа обусловленности а (А), предполагается согласованной с нормой векторов ||-||. Относительная ошибка решения системы с хоро- хорошей обусловленностью сравнима с относительной величиной не- невязки. В случае плохо обусловленных систем приближенное ре- решение даже с малой невязкой может очень существенно отли- отличаться от истинного решения: В качестве заключительного замечания о применении норм для оценивания ошибок обратим внимание на то, что оценки сверху, полученные в этом параграфе, — всего лишь оценки сверху. Верхняя граница может быть велика, а фактическая ошибка может, тем не менее, быть небольшой. Для всех таких оценок характерен консерватизм: они приводят к чрезмерно за- завышенным границам ошибки для многих задач. Однако если среднего размера матрица А с элементами умеренной величины плохо обусловлена, то в матрице А~1 обязательно будут присут- присутствовать большие элементы. В этой ситуации следует соблюдать особенную осторожность по следующей причине. Пусть Ах — b и С = [с,;-]== А~\ Дифференцируем равенство х = СЬ по элементам Ь/, что приводит к соотношениям 4*- = cllt i, / = 1, 2, ,.., п. E.8.12)
408 Гл. 5. Нормы векторов и матриц Кроме того, если рассмотреть матрицу С = А~1 как функцию от матрицы А, то ее элементы являются просто рациональными функциями элементов матрицы А и, следовательно, их можно дифференцировать. Запишем равенство СА = I поэлементно: п Z cipapci = б,-,, /, q ~ 1, ..., п, и возьмем производную по переменной a!k. Получаем 0, p=l или, эквивалентно, I L, д^ЪР1 dcip -^аРЧ = —°якСц, t, I, k, q=\ n. p=\ Дифференцируя теперь х = СЬ также по а1к, приходим к ра- равенству dajit L-i dajk p Z_i Z_/ dajk П |- П -Ш. -Щ^аР1 \хч = E \--bikCii\ xq = -<?,улА, J 0=1 <7=1 Lp=l J q что эквивалентно соотношению = —СцТ.скрЬр. E.8.13) p=i Если в матрице С==Л~' имеются относительно большие эле- элементы, то в силу соотношений E.8.12) и E.8.13) некоторые ком- компоненты решения х могут обладать неминуемо большой чувстви- чувствительностью к возмущениям в некоторых компонентах правой части бив элементах матрицы коэффициентов А. Задачи 1. Показать, что число обусловленности невырожденной нор- нормальной матрицы по отношению к спектральной норме задается формулой (Здесь и далее под максимальными и минимальными собствен- собственными значениями понимаются максимальные и минимальные по абсолютной величине. — Перев.)
5.8. Ошибки в обратных матрицах 409 2. Вычислить собственные значения матрицы и обратную к ней. Убедиться, что при е-*-0 отношение макси- максимального собственного значения матрицы А к минимальному бу- будет порядка е~~'. Используя результат задачи 1, вывести отсюда, что число обусловленности по отношению к спектральной норме представимо в виде х(Л) = О(е-1). Обосновать справедливость равенства х(А) — О(е~1) по отношению к произвольной норме и тем самым убедиться в плохой обусловленности матрицы А при е->оо. Привлечь явный вид матрицы А~1, чтобы проверить справедливость соотношения х(Л) = О(е~1) для любой матрич- матричной нормы. 3. Найти собственные значения и обратную для матрицы В Г 1 -11 -Li -i + .J- e>0- Показать, что отношение максимального собственного значения матрицы В к минимальному при е -> 0 будет порядка единицы. Убедиться, однако, что х(В) = О(е-') по отношению к произ- произвольной матричной норме и, следовательно, матрица В плохо обусловлена при е->0. Приходим к выводу, что отношение мак- максимального собственного значения к минимальному не обязано совпадать с числом обусловленности, если матрица не является нормальной. 4. Величина числа обусловленности к(А) зависит от мат- матричной нормы, используемой в его определении. Показать, од- однако, что различные нормы приводят к эквивалентным опреде- определениям числа обусловленности в следующем смысле. Пусть тогда существуют конечные положительные константы Ст и См, связывающие эти числа неравенствами Стха(А) ^ хр(Л)^ СмКа{А) для всех матриц А еМл. 5. Показать, что любая унитарная матрица U идеально обу- обусловлена (х(?/)=1) по отношению к спектральной норме. Од- Однако в случае /2-нормы число обусловленности x(U) каждой унитарной матрицы 0 е Мп равно п. 6- Вывести неравенство к(А)^\ктах(А)/Кт!п(А)\ для произ- произвольной невырожденной матрицы А е Мп и любой матричной нормы. Следовательно, если отношение соответствующих соб- собственных значений велико, то матрица обязательно будет плохо обусловленной, является ли она нормальной или нет. Матрица, не являющаяся нормальной, может быть плохо обусловленной
410 Гл. 5. Нормы векторов и матриц даже при небольшом разбросе собственных значений, как видно из примера в задаче 3. 7. Провести детальное доказательство оценки E.8.10), кото- которая обобщает оценку E.8.8) и совпадает с ней при е = 0. 8. Пусть х — единичный вектор в пространстве С", и пусть X > 0. Показать, что матрица А == / -\- Ххх* эрмитова, ее соб- собственные значения равны единице (кратности п—1) и I-\-X и число обусловленности (по отношению к спектральной норме) есть х(Л) = 1 + Я. Это позволяет просто строить примеры обра- обратимых матриц с ограниченными элементами и сколь угодно большим числом обусловленности. Какик образом? 9. Пусть матрица В из задачи 3 играет роль матрицы коэф- коэффициентов системы линейных уравнений Вх = [\,\]т с точным решением А' = [1,0]г, и пусть задано приближенное решение х = [1 -f- e~1/2, е~1/2] т. Проверить, что для относительной вели- величины невязки имеем выражение [|г||/||6||= О(е1/2)->-0 при е->-0, в то же время для относительной ошибки в решении IIjc — х||/||а'||= О(е~1/2)-э- оо при е—>~0. Таким образом, малая невязка может соответствовать весьма грубому приближенному решению. Объяснить этот факт, опираясь на оценку E.8.11). 10. Если величина определителя А мала (или велика), долж- должно ли число обусловленности и (Л) быть большим? Указание. \ ассмотреть матрицы вида А = XI е Мп. 11. Утверждение E.8.4) слабее, чем E.8.2), уже потому, что предположение !|Л-Ч!||?|| <С 1 более ограничительно по сравне- сравнению с |!Л-'?||-< 1. Кроме того, даже в условиях более сильного предположения в E.8.2) может получиться все же лучшая верх- верхняя граница, чем в E.8.4). Пояснить это на примере возмуще- возмущения ?==еЛ, 0 <е < 1. 12. Получить аналоги оценок E.8.7) и E.8.8), когда уравне- уравнения E.8.5) и E.8.6) заменяются на матричные уравнения в которых А, Е е Мп, X, В е Мп, и- Рассмотреть частный случай k = п и В = /. Помогает ли это «объяснить», почему правые части в неравенствах E.8.2) и E.8.7) совпадают? 13. Все оценки ошибки в обратной матрице мы получали, исходя из разложения в E.8.1), которое имеет место при усло- условии р(Л-'?)< 1. Доказать, что в случае обратимых матриц А и А-\-Е справедливо неравенство || Л - {А + ЕГ1 II < НА-11| || (А + Я)1| || Е || для любой матричной нормы || • || независимо от величины спектрального радиуса матрицы А~1Е. Указание. Использовать представление А~1 — (Л + Е)'1 = (Л + Е)~1 ЕА~К
5.8. Ошибки в обратных матрицах • 411 14. Возможно, одним из самых упоминаемых примеров плохо обусловленной матрицы является, матрица Гильберта Нп = = [кц] е Мп с элементами h-ц = \/(i -f- /—1). Проверить, что число обусловленности матрицы Я„ по отношению к спектраль- спектральной норме дается формулой |XmaxAmin|. Известно, что число обусловленности матрицы Гильберта асимптотически совпадает с экспонентой есп, где константа с равна примерно 3.5, а для спектрального радиуса справедливо представление р(Я„) = л-f- + O[l/(logn)] при п -> оо. Например, и(Я3)~5-102, х(Я6)~1.5-107, х(Я8I.5- Ю10. Чем объяснить столь плохую обусловленность матрицы Гиль- Гильберта Я„, ведь элементы матриц Я„ все равномерно ограничены и спектральный радиус р(Н„) не очень большой? 15. Обосновать равенства у,(А"А) = к(АА") = [x(Ai]2, в кото- которых число обусловленности измеряется по отношению к спек- спектральной норме. Объяснить, почему задача А*Ах = у в силу своих особенностей может оказаться более трудной для чис- численного решения, чем задача Ах = г. 16. Пусть матрица А^Мп невырожденна. При помощи не- неравенства из задачи 37 § 5.6 показать, что к(Л) ^||Л||/||Л — ВЦ для любой вырожденной матрицы В е М„, где || • |]—произволь- |]—произвольная матричная норма и к(-) — соответствующее ей число обу- обусловленности. Эта оценка снизу может быть полезна, когда тре- требуется установить плохую обусловленность данной матрицы А. 17. Пусть A =\a,-j]^ М„ — верхняя треугольная матрица, у которой все диагональные элементы ненулевые: а,,¦ =? 0. Исполь- Используя результат задачи 16, убедиться, что для числа обусловлен- обусловленности по отношению к максимальной строчной норме справед- справедлива оценка снизу Дополнительная литература Проблема априорного оценивания ошибок при решении си- систем линейных уравнений является одной из центральных в чис- численной линейной ал1ебре, см. [Ste].
Глава б ЛОКАЛИЗАЦИЯ И ВОЗМУЩЕНИЯ СОБСТВЕННЫХ ЗНАЧЕНИИ Собственные значения диагональной матрицы указать очень легко. Учитывая, что собственньге"зна*№ния непрерывно зависят от элементов матрицы, естественно задаться вопросом: можно ли сказать что-нибудь полезное о собственных значениях мат- матрицы, внедиагональные элементы которой «малы» по сравнению с элементами главной диагонали. Матрицы этого рода встре- встречаются в приложениях; такими могут быть матрицы больших систем линейных уравнений, к которым приводит численная ди- дискретизация краевых задач для эллиптических уравнений с ча- частными производными. При изучении долгосрочной устойчивости колебательной си- системы, описываемой системой дифференциальных уравнений, не- нередко приходится доказывать, что все собственные значения Xt соответствующей матрицы принадлежат левой полуплоскости, т. е. Re л.- <0. А в статистике или численном анализе часто тре- требуется доказывать положительную определенность эрмитовых матриц, т. е. свойство Я,- > 0. Иногда бывает желательно локализовать собственные значе- значения матрицы в некотором ограниченном множестве, которое можно легко охарактеризовать. Мы знаем, что все собственные значения матрицы А расположены в круге комплексной пло- плоскости с центром в нуле и радиусом ||Л||; матричная норма здесь произвольна. Нельзя ли усилить это утверждение путем более точного описания областей, содержащих все собственные значе- значения или, наоборот, не содержащих ни одного собственного зна- значения матрицы Л? Мы увидим, что это возможно. Наконец, предположим, что собственные значения матрицы А известны точно, но затем А подвергнута возмущению: А —>~ ->А-\-Е. Как при этом изменятся собственные значения? По- Поскольку они непрерывно зависят от элементов матрицы, есть основания полагать, что при достаточно малой матрице возму- возмущения Е собственные значения не должны изменяться слишком сильно. Но нужны точные оценки, чтобы знать в каждом случае, насколько малы должны быть «малые» матрицы. Основной во- вопрос здесь тот же, что в § 5.8, где обсуждалась чувствитель- чувствительность решения системы линейных уравнений к возмущениям входных данных.
6.1. Круги Гершгорина 413 6.1. Круги Гершгорина Матрицу А е Мп всегда можно представить в виде А = = D -\- В, где D = diag(an, ..., апп) — просто диагональная часть матрицы А, а у В главная диагональ нулевая. Если по- положить Ле se D + гВ для произвольного е?С, то Ао = D и А\ = А. Собственные значения матрицы Ло = D локализовать легко: это точки ац, ..., апп на комплексной плоскости. Есте- Естественно предположить, что при достаточно малом е собственные значения матрицы Ла будут находиться в некоторых малых окрестностях точек аи, ..., апп- Следующая теорема (часто на- называемая теоремой о кругах Гершгорина) придает этому пред- предположению точную форму: действительно, существуют легко вычисляемые круги с центрами в точках а,-,-, заведомо содержа- содержащие собственные значения. 6.1.1. Теорема (Гершгорин). Пусть Л = [a,-/] s Мл, и пусть символы обозначают строчные почти-нормы матрицы А. В таком случае все собственные значения матрицы А заключены в объединении п кругов |J {z s= С: | z - ац | < R't (A)} = G (Л). F.1.2) Кроме того, если объединение k из этих кругов есть связная об- область, не пересекающаяся с остальными п — k кругами, то в ней находится ровно k собственных значений ммтрицы А. Доказательство, Пусть X — собственное значение матрицы Л, и пусть Ах — кх, х = [х1]Ф0. Пусть хр—компонента вектора х с наибольшей абсолютной величиной: \xp\~^.\xi\, ( = 1,2,.,. ..., п; Хр^О. Равенство Ах = Хх подразумевает, что Ххр = [Кх]р = [Ах]р == X а это эквивалентно равенству п хр (Я — арр) = X apjxt.
414 Гл. 6. Локализация и возмущения собственных значений Но тогда, пользуясь неравенством треугольника, заключаем, что 1*Р|[Я-арр1. ...... ^ PiipYpj D\p 7 = 1 / = 1 гфр гфр Итак, IA, — app\^Rp для некоторого р, т. е. А. находится в замкнутом круге с центром арр /и радиусом Rp. Поскольку мы не знаем, какое р соответствует данному К (разве что изве- известен соответствующий собственный вектор, но в этом случае мы знали бы К точно и не нуждались бы в его локализации), то можно лишь утверждать, что X принадлежит объединению всех таких кругов, т. е. области F.1.2). Чтобы доказать второе утверждение теоремы, положим А = D + В, где ?> = diag(an, ..., апп) и Ae = D + гВ. Отметим, что Ri(As) = Ri (eB) = eRi (A) ')• Удобно считать, что именно первые k кругов LKzeC: |г-а„К/# составляют связную область Gk, не пересекающуюся с допол- и ггельной областью G\y образованной прочими п — k кругами, •.т. е. G°k = G(A) \G/J. Заметим, что объединение первых k кру- кругов матрицы Ле Gk (e) ^ U U е С: I z - а„ | < R't (Аг) = е& (А)} при всех ее [0, 1] содержится в связном множестве Gft = Gk{\), ю само Gfc(e) не обязано быть связным для всех е. Кроме того, никакая из дополнительных областей Gt (в) == Gn (e) \ Gk {г) не может пересекаться с Gk. Рассмотрим собственные значе- значения hl{A0) = all и Xt{As), г > 0, для »=1, ..., k. Поскольку собственные значения непрерывно зависят от элементов матрицы А (см. приложение D) и для всех е е [0, 1] справедливы вклю- включения Я,- (Ле) е G& (е) с: Gft, то каждое Я, (Ло) соединено с неко- некоторым Kt (Л,) = Kt (А) непрерывной кривой, принадлежащей Gk и образованной точками (Л(-(Ле): 0^ег^1}. Итак, при каждом е s [0, 1] в Gk (e) содержится по крайней мере fe собственных значений матрицы Ле. Но больше, чем k, и не может быть, так как остальные п — k собственных значений матрицы ЛЕ выхо- ') Число 8 сейчас считается неотрицательным. — Прим. перге.
6.1. Круги Гершгорина 415 дят (при е=0) из точек, расположенных вне связного множе- множества Gk, и описывают непрерывные кривые, которые должны оставаться в дополнительной области G1. Вследствие сообра- соображений непрерывности и связности (конкретней, речь идет о свой* стве непрерывных функций принимать промежуточные значе- значения) они не могут преодолеть, разрыв между G°k и Gk. ? Область')С(Л) в определении F.1.2) часто называют (строч- (строчной) областью Гершгорина, отдельные круги в G(A) — кругами Гершгорина, а их границы — окружностями Гершгорина. По- Поскольку А и Ат имеют одни и те же собственные значения, то можно получить столбцовый вариант теоремы Гершгорина, при- применяя теорему 6.1.1 к матрице Ат. В результате получится об- область, содержащая собственные значения матрицы А и описы- описываемая в терминах столбцовых почти-норм ПЕг/ 6.1.3. Следствие. Все собственные значения матрицы А =» = [а,у] е Мп принадлежат объединению п кругов U {г е С: | г - ап | < (?,} = G {Ат). F.1.4) Кроме того, если объединение k из этих кругов есть связная область, не пересекающаяся с остальными п — k кругами, то в ней находятся ровно k собственных значений матрицы А. Упражнение, Показать, что все собственные значения мат- матрицы А принадлежат пересечению областей F.1.2) и F.1.4), т.е. множеству G(A)f\ G(AT). Проиллюстрировать это на при- примере матрицы порядка 3 с элементами ац = i/j. Поскольку все собственные значения матрицы А находятся в каждой из областей F.1.2) и F.1.4), там же находится и соб- собственное значение с наибольшим модулем. Точка /-го круга об- области G(А), наиболее удаленная от начала координат, имеет модуль п I atl \+R't=Z\ а„ |. Наибольшая из этих величин должна быть верхней оценкой для наибольшего модуля собственного значения матрицы А. Разу- Разумеется, такое же рассуждение можно провести для столбцовых норм. ') Термин „область" в данной главе используется авторами как сино- синоним термина „замкнутое множество". — Прим. перев.
416 Гл. 6. Локализация и возмущения собственных значений 6.1.5. Следствие. Для неравенство матрицы „ справедливо р (Л) ( П п -ч min < max Z | аг |, max ? I % \ \. \ i i=\ i i=i } Этот результат неудивителен, ведь он говорит, что р() C^MIU и р(А) ^\\АТ\\Х (напомним, что эти символы обозна- обозначает матричные нормы, называемые соответственно максималь- максимальной строчной нормой и максимальной столбцовой нормой), а такое соотношение выполняется для любой матричной нормы. Но интересно, что этот факт ^ожно получить по существу из чисто геометрических соображений. Для любой обратимой матрицы S матрица S~MS имеет те же собственные значения, что и А. Поэтому теорему Гершго- pinia можно применить к S~MS; возможно, что при подходя- подходящем выборе S удастся получить более точные оценки для соб- собственных значений. Особенно удобен выбор S = D = diag(/?i, рз, ¦.., Рп), где все pi > 0. Легко вычислить, что D~lAD = = iPi^ii/pi] ¦ Теорема Гершгорина, записанная для D~XAD и для транспонированной к ней матрицы, дает такой результат. 6.1.6. Следствие. Пусть А =[а,7]е М„, и пусть ри р2, ... ..., рп — положительные числа. В таком сличав все собствен- Рис. 6.17. ные значения матрицы А принадлежат каждой из двух областей у [г е С: | г - аи \ < ±- ? р, | ац || = G (D~lAD), U U е С: | г ~ аи \ < Р/ У -f | а{, |1 = G [(D" KADf]. i=\ Матрица А = [^ 2] имеет собственные значения 1 и 2. Пря- Прямое применение теоремы Гершгорина дает грубые оценки соб- собственных значений (см. рис. 6.1,7а). В то же время гибкость,
6.1. Круги Гершгорина 417 обеспечиваемая дополнительными параметрами, введенными в следствии 6.1.6, позволяет получить сколь угодно точные оценки (рис. 6.1.7Ь). Упражнение. Рассмотреть матрицу - 7 -16 I А= -16 7 —\ - 8 -8 -5J Извлечь из теоремы Гершгорина максимум информации о рас- расположении собственных значений и величине спектрального радиуса этой матрицы. Затем рассмотреть матрицы вида D~]AD, где D = diag(p\, р2, Рз), и выяснить, можно ли улучшить лока- локализацию собственных значений. Наконец, вычислить собствен- собственные значения матрицы Л и прокомментировать качество полу- полученных оценок. Упражнение. Показать, что каждое собственное значение матрицы Л принадлежит множеству f\G(D~1AD), где пересече- D ние берется по всем диагональным матрицам с положительными диагональными элементами. Идею введения свободных параметров можно использовать и для того, чтобы получить более общую форму оценок F.1.5) для спектрального радиуса. 6.1.8. Следствие. Пусть А = [аи] е Мп. Тогда п р(Л)< min max -^ Цр/|а</1, р(Л)< min max р,У—-\аи\.' >0 1</< ' ^ Pi Упражнение. Доказать следствие 6.1.8. Упражнение. Пусть а, Ь, с, d — положительные числа и Л = (a) Прямым вычислением найти диагональную матрицу D, такую, что \\b~1AD\\oo — min\\D~lAD\\ao. Минимум берется по D всем диагональным матрицам D с положительными диагональ- диагональными элементами. (b) Вычислить ||D-MD|L=sr. (c) Вычислить р(Л). (d) Обратить внимание на то, что г = р(А). 14 Р. Хорн, Ч. Джонсон
418 Гл. 6. Локализация и возмущения собственных значений Позже мы покажем, что для любой положительной (или, более общо, неразложимой неотрицательной) «Хи-матрицы А мини- минимум нормы ||D~MD|!oo по всем диагональным матрицам D равен спектральному радиусу А. В случае матрицы общего вида такое утверждение неверно. Упражнение. Рассмотреть матрицу А = [_' 5 Л- Показать, что р(Л) < minH-D^MDH^; минимум берется по всем D — = diag(/?b p2) с положительными ри р2. Если относительно матрицы имеется некоторая дополнитель- дополнительная информация, в силу которой собственные значения принад- принадлежат (или не принадлежат) каким-то конкретным множествам, то в сочетании с теоремой Гершгорина эта информация может привести к более точной локализации собственных значений. На- Например, собственные значения эрмитовой матрицы А веще- вещественны, а потому должны принадлежать множеству Rf\G(A), представляющему собой конечное объединение замкнутых веще- вещественных интервалов. Упражнение. Что можно сказать о расположении собствен- собственных значений косоэрмитовой матрицы? Унитарной матрицы? Ве- Вещественной ортогональной матрицы? Матрица обратима тогда и только тогда, когда 0 не является ее собственным значением. Поэтому интерес представляет вы- вывод условий, которые бы исключали нуль из области, содержа- содержащей все собственные значения. 6.1.9. Определение. Пусть Л = [о,-/] е Мл. Говорят, что А — матрица с диагональным преобладанием, если п \ац\> Tl\aii\ = Rh i=l,...,n. Говорят, что А — матрица со строгим диагональным преоблада- преобладанием, если Геометрия ситуации ясно показывает, что для матрицы А со строгим диагональным преобладанием 0 не может принадле* жать никакому гершгоринскому кругу. Если при этом все диаго- диагональные элементы аи вещественны и положительны, то каждый круг в действительности принадлежит открытой правой полу- полуплоскости; если А вдобавок эрмитова, то все ее собственные
6.1. Круги Гершгорина 419 значения должны быть положительными. Суммируем эти заме- замечания в следующей теореме; ее часть (а) в качестве самостоя- самостоятельного утверждения известна как теорема Леви — Деспланка (см. следствие 5.6.17). 6.1.10. Теорема. Пусть A =[ai,-]s Мп — матрица со строгим диагональным преобладанием. Тогда (a) А обратима; (b) если диагональные элементы матрицы А положительны, то все ее собственные значения имеют положительную веще- вещественную часть; (c) если А эрмитова и все ее диагональные элементы поло- положительны, то все ее собственные значения положительны. Упражнение. С помощью матриц [( {], [1е [] показать, что простое диагональное преобладание не гарантирует обратимо- обратимости, а строгое диагональное преобладание не является ее необ- необходимым условием. Используя дополнительные параметры следствия 6.1.6, мож- можно несколько ослабить требование строгого диагонального пре- преобладания как достаточное условие обратимости. 6.1.11. Теорема. Пусть у матрицы А = [ац] е Мп все диаго- диагональные элементы ненулевые и она является матрицей с диаго- диагональным преобладанием, причем для всех, кроме одного, значе- значений /= 1,2, ..., п это свойство выполняется в сильной форме, т. е. [ ан | > Ri. В таком случае А обратима. Доказательство. Предположения теоремы означают, что I akk I = Rk для некоторого k, а для i=?=k справедливо неравен- неравенство \ан\*> Ri. В следствии 6.1.6 положим pt=^\, >= 1 + е, е > 0. Тогда 1 — 11 ! для любого положительного е. Так как Ri <.\aH\ для всех 1фк, то можно выбрать настолько малое е > 0, чтобы одно- одновременно для всех гфк, было R\ + e| aik |< | аи \. Согласно след- следствию 6.1.6, точка z = 0 внешняя для соответствующей области G{D~lAD), поэтому А должна быть обратимой. П 14*
420 Гл. 6. Локализация и возмущения естественных значений Теорема Гершгорина и ее вариации дают области включения для собственных значений матрицы А, зависящие только от ее диагональных элементов и абсолютных величин внедиагональ- ных элементов. Основываясь на совпадении собственных значе- значений матриц 5~М5 и А, мы пришли к следствию 6.1.6 и заклю- заключению о том, что замкнутое множество ПО(О->АО), D = diag(pu ...,pa), VPi>0, F.1.12) содержит все собственные значения для ЛеЖ„. Понятно, что мы могли бы получить еще меньшие области включения для собственных значений, если допустили бы более сложные преоб- преобразования подобия, чем диагональные. Однако если все жеогра» ничиться только диагональными подобиями и использовать ис- исключительно диагональные элементы и модули внедиагональ- пых, то можно ли уменьшить области F.1.12)? Ответ оказывается отрицательным по следующей причине. Пусть z — произвольная точка границы множества F.1.12). Со- Согласно теореме, доказанной Р. Варгой, существует матрица В = = [6,/] (= Л1„, такая, что Ьа=-ац, i = l, ..., п, |&1/| = 1й'/| Для i, / = 1, ..., п и z есть собственное значение матрицы В. Задачи 1. Рассмотреть следующий итерационный алгоритм решения системы линейных уравнений Ах = у порядка п с заданными А и у: A) положить В ss / — А и переписать систему в виде # = = Вх + у; B) выбрать произвольное начальное приближение х@) к ре- решению; C) для пг== 0, 1, 2, ... вычислить д:""+" = Вх{т) + у, D) проверить, будет ли последовательность х(т) сходиться к решению х. (a) Обозначить через е(т) = х{т) — х ошибку от-го приближе- приближения к решению; показать, что е(т) = Вт (х{0) — х). (b) Вывести отсюда, что если р(/ — Л)<1, то этот алго- алгоритм работает, т. е. х^т)-> х при т-*-оо независимо отвыбора начального приближения д;'0'. (c) Используя теорему Гершгорина, получить простое доста- достаточное условие для А, обеспечивающее, что алгоритм будет ра- работать. 2. Показать, что П G(S-lAS) = a(A), где пересечение берется s по всем невырожденным матрицам S.
6.1. Круги Гершгорина 3. Используя следствие 6.1.5, доказать для произвольной матрицы А е Мп неравенство и аналогичное неравенство для столбцов. Указание. Если мат- матрица А содержит нулевую строку, то доказывать нечего. Если все ее строки ненулевые, то обозначим через В матрицу, полу- получаемую из А делением строк на соответствующие строчные нормы (суммы модулей элементов). Тогда, согласно 6.1.5, р (В) ^ 1, откуда | det В | <; 1. Это означает, что 1 = 1 где в качестве векторов at берутся строки (или столбцы) мат- матрицы А. Справедливо ли аналогичное неравенство для других норм? Указание. См. следствие 7.8.2. 4. В основном тексте теорема 6.1.10(а), т. е. теорема Леви — Деспланка, была получена как следствие теоремы Гершгорина. Показать, что, наоборот, первую часть теоремы 6.1.1 (а именно, то, что область F.1.2) заключает в себе все собственные зна- значения матрицы А) можно вывести из теоремы 6.1.10(а). Ука- Указание. Применить теорему 6.1.10(а) к матрице XI — А. 5. Пусть /1е/4 — вещественная матрица, все круги Герш- горниа которой попарно не пересекаются. Показать, что все ее собственные значения вещественны. Более общо, показать, что то же самое верно и по тем же причинам, для комплексной мат- матрицы А е Мп с вещественными диагональными элементами и характеристическим многочленом, имеющим только веществен- вещественные коэффициенты. 6. Пусть для матрицы A — [atj]^Mn справедливо неравен- неравенство | аи | > Ri для k различных значений /. Показать, что k ^rank A. 7. Предположим, что матрица А е Мп идемпотентна (т. е. А2 = А), но Аф1. Показать, что А не может быть матрицей со строгим диагональным преобладанием (или быть i. d. d.-мат- d.-матрицей; см. 6.2.25 и 6.2.27). 8. Предположим, что А е Мп — матрица со строгим диаго- диагональным преобладанием, т. е. | ап | > Rt для всехг = 1 п. Показать, что \akk\> Си хотя бы для одного значения k ==» = 1, ..., п. 9. Пусть матрица Л = [а;у]еЛ1„ имеет строгое диагональ- диагональное преобладание, и пусть b = diag(au, a22» •••> «ял)- Показать,
422 Гл. 6. Локализация и возмущения собственных значений что D обратима и р(/ — D~iA) < 1. Указание. Использовать следствие 6.1.5. 10. Пусть А = [ац] е Мп, и пусть Rt = R.'i + \ali\ обозначает сумму модулей элементов i-и строки А. Показать, что если считать нулями слагаемые вида 0/0. Указание. Умножение всех элементов строки на одно и то же ненулевое число не ме- меняет ранга. Поэтому достаточно рассмотреть случай, когда все ац неотрицательны, a Ri равны 0 либо 1. Все собственные зна- значения такой матрицы А принадлежат единичному кругу, и нужно показать, что rank А п Z ан. Проверить, что Z ап = tr А= Z ^i ^ Z вых собственных значений А) ^ rank A. (число ненуле- ненуле) ^ 11. Пусть A = [ali\ = [ala2 ... ап\ е Мп. Доказать, что rank A Слагаемые вида 0/0 считаются нулями. Указание. Как и в за- задаче 10, достаточно ограничиться частным случаем, а именно когда все столбцы А имеют единичную евклидову длину, т. е. Ila/ll2= 1 Для всех /. Тогда нужно проверить неравенство rank А Z I !=1 п = Е где {е(, е2, ..., е„} — естественный ортонормированныи базис пространства С". Пусть k = rank А. Показать, что существует ортонормированная система векторов vu ..., ^еС, такая, что Span {и,, ..., Dft} = Span{a! ап). Отсюда к к at = Z (v'iui) vh ehi = E /i /1 = Z 1 = ^ = rank
6.2. Круги Гершгорина— более пристальный взгляд Дополнительная литература Обсуждение теоремы Гершгорина и относящихся к ней чис- численных примеров м.ожно найти в книге [Ste]. Исходной публи- публикацией является статья: Gersgorin S. Ober die Abgrenzung der Eigenwerte einer Matrix. —Изв. АН СССР, 1931, т. 7, с. 749— 754. Существует обобщение теоремы Гершгорина, дающее обла- области включения для спектра матричного пучка Ах = ХВх, в том числе и для случая, когда матрица В вырожденна; см. работу: Stewart G. W. Gerschgorin Theory for the Generalized Eigenvalue Problem. —Math. Comput., 1975, v. 29, p. 600—606. Доказатель- Доказательство свойства оптимальности области F.1.12), указанного в по- последнем абзаце параграфа, дано в статье: Varga R. Minimal Gerschgorin Sets. —Pacific J. Math., 1965, v. 15, p. 719—729. 6.2. Круги Гершгорина — более пристальный взгляд Мы видели, что строгое диагональное преобладание доста- достаточно для обратимости матрицы, но это не относится к про- простому диагональному преобладанию. Рассмотрение некоторых примеров 2-го порядка наводит на мысль, что диагональное пре- преобладание плюс строгое неравенство \a,t\>f[\atl\ F.2.1) } хотя бы для одного значения i= 1, ..., п могли бы уже обес- обеспечивать обратимость. К сожалению, это не так, как показы- показывает матрица [421" F.2.2) 4 0 0 2 1 1 1 " 1 1 - Но что же тогда происходит на самом дгле? Если А — матрица с диагональным преобладанием, то нуль не может быть внутренней точкой области G(A), а лишь, в худ- худшем случае, ее граничной точкой. Однако он может находиться на границе более чем одного круга Гершгорина. И если даже нуль лежит на границе области G(A), он не обязан быть соб- собственным значением матрицы А. К счастью, внимательный ана- анализ доказательства теоремы 6.1.1 проясняет, что в действитель- действительности происходит с граничным собственным значением.
424 Гл. 6. Локализация и возмущения собственных значений Упражнение. Показать, что если z не является внутренней точкой для G(A), то п I z — ан | > #г = ? [ а<7 |, / = 1 п. / 6.2.3. Лемма. Пусть собственное значение К матрицы А = = [аG] е Мп находится на границе области G(A). Пусть Ах = Кх, х — [х^фО, и пусть индекс р таков, что \хр\ — max |x2| = 1 < < < п = \\x\L?=0. Тогда (a) если для индекса k справедливо равенство \xk\ — \xp \, то | К — akk | = Rk, т. е. k-я окружность Гершгорина проходит через К; (b) если для некоторого k = 1, ..., п выполняется | xk \ = | хр \ и при этом ак1-ф0 для какого-то ]фк, то верно и равенство \Xj\ = \Xp \. Доказательство. Так же как в доказательстве теоремы Герш- Гершгорина, п (Я — аи)xt = X аих,, i = 1, ..., п, 1Ф'1 откуда \b-an\\Xi\ У П Y = Е I Щ, | [ X] | < t I ati 11 jcp I = /?* | jcp I. F.2.4) t Итак, если для индекса k выполняется | xk \ — \ хр |, то должно быть I ^ - akk | < i?'ft. С другой стороны, из предположения о том, что Я, находится на границе области G(A), вытекают неравенства | Я — аи \ ^ Rt для всех t = 1, ..., п. Отсюда выводим, что при i = k в обоих нера- неравенствах F.2.4) в действительности должно иметь место равен- равенство, т. е. п п |A-a**ll**l= Zl^/IU/l^ Z A 11
6.2. Круги Гершгорина — более пристальный взгляд 425 Поскольку | JCfc | = || я Не > 0, то утверждение (а) следует из равенства Утверждение (Ь) получаем из центрального равенства в (*): п Е K-!(|*J-|*/I) = o, учитывая, что каждый член этой суммы неотрицателен. ? Эта лемма кажется чисто технической, но из нее немедленно вытекают полезная теорема 6.2.5 и ее следствие. 6.2.5. Теорема. Пусть собственное значение X матрицы А <=Л1„ является граничной точкой области G(A). Предположим, что все элементы матрицы А ненулевые. Тогда (a) каждая окружность Гершгорина проходит через }/, (b) если Ах — Хх, x = [xl)=^=Q, то [ •?,¦ I =! л-;-1 для всех i, j = = 1 п. Упражнение. Вывести теорему 6.2.5 из леммы 6.2.3. 6.2.6. Следствие. Пусть А = [пц] е М„, причем все ее эле- элементы ненулевые. Если А — матрица с диагональным преобла- преобладанием и хотя бы для одного значения i= 1, ..., п выполняет- выполняется неравенство \ап |> Riy то А обратима. Доказательство. Если бы А не была обратима, то она имела бы собственное значение 0. Вследствие диагонального преобла- преобладания нуль не может быть внутренней точкой области G{A) и, следовательно, должен быть ее граничной точкой. Согласно тео- теореме 6.2.5, каждая окружность Гершгорина должна проходить через 0. Однако i-я окружность Гершгорина проходить через 0 не может, поскольку | аи | > Ri. ? Этот результат и полезен, и интересен; но мы можем значи- значительно усилить его (в смысле отказа от требования, чтобы все элементы матрицы были ненулевыми), если более полно исполь- используем информацию, заключенную в лемме 6.2.3. 6.2.7. Определение. Говорят, что матрица А = [пц] е Мп об- обладает свойством SC, если для любой пары различных целых чисел р, q, I ^ p, q =?^ п, найдется последовательность различ- различных целых чисел k\ = р, &2, h km-u km = q, 1 sg: m ^ n, таких, что все элементы последовательности aktk2, auok3, ¦ • • "¦> akm-\km He Равны
426 Гл. 6. Локализация и возмущения собственных значений Например, матрица F.2.2) свойством SC не обладает, по- потому что для пары B,1) нужной последовательности ненулевых матричных элементов нет. В то же время для пары A,2) такая последовательность имеется. Используя введенное понятие и лемму 6.2.3, можем получить следующее усиление теоремы 6.2.5. 6.2.8. Более сильная теорема. Пусть собственное значение К матрицы А=[ац]^Мп является граничной точкой области G(A). Если А обладает свойством SC, то (a) каждая окружность Гершгорина проходит через X; (b) если Ах = %х, x = [xi]:?=0, то 1^1 = 1-^1 для всех i, j = = 1 п. Доказательство. Пусть Ах = Кх и | х{ К | хр | = || х IL > О, /=1, ...,п. По лемме 6.2.3 1X — аРР | = Rp. Пусть q — любой другой индекс, 1 ^ q ^ n, q?=p. Поскольку А обладает свой- свойством SC, существует последовательность различных индексов k{ = p, k2, k3, ..., km — q, которой соответствуют ненулевые элементы aklk2, ¦•-, akm_lkm. Из условия aklk2 = а,РкгФ0, со- согласно утверждению (Ь) леммы 6.2.3, выводим, что | хр\ =\XkJ- Но тогда из ак:кг?=0 следует \Xk,\ = \XkA = \xp\. Продолжая таким образом, заключаем, что [ Xkt | = [ хр \ для всех i = 1, ... ..., m. Значит (см. 6.2.3 (а)), | К — akmkm \ = | % - aqq | = R'q\ таким образом, q-я окружность Гершгорина проходит через X и | л:^ (===== | лсд, |. Но индекс q взят произвольно, поэтому через % про- проходит каждая окружность Гершгорина и для всех t = l, ..., п справедливо |*/| = |?p|. ? Из этой теоремы по аналогии со следствием 6.2.6 можно вы- вывести полезное достаточное условие обратимости. п 6.2.9. Более сильное следствие. Пусть матрица А == [ац] е М обладает свойством SC. Если А — к тому же матрица с диаго- диагональным преобладанием и хотя бы для одного значения i == == 1, ..., п выполняется неравенство \ аи \ > Ri, то А обратима. Упражнение. Вывести следствие 6.2.9 из теоремы 6.2.8. Упражнение. Показать, что матрица F.2.2) не обладает свойством SC. Откуда взялось это странное свойство SC? Заметим, что оно связано только с расположением ненулевых внедиагональных элементов матрицы А—диагональные элементы и точные значен
6.2. Круги Гершгорина— более пристальный взгляд 427 ния внедиагональных несущественны. Опираясь на это наблю- наблюдение, определим для А две родственные матрицы. 6.2.10. Определение. Пусть А = [ац] е Мт< „. Положим | А | =э = [|а,/|], М(А)^=[\1ц], где Ц// = 1> если аиФЪ, и цг/ = 0 при пц = 0. Матрица М (А) называется индикаторной матрицей для Л. Упражнение. Показать, что если АсМп, то свойством SC обладают или не обладают все три матрицы Л, \А\ и М(А) одновременно. Последовательности ненулевых элементов матрицы Л, уча- участвующие в определении свойства SC, можно сделать нагляд- наглядными, пользуясь путями в ассоциированном с А графе. 6.2.11. Определение. Ориентированный граф матрицы А еМл обозначается через Г (А) и представляет собой ориентированный граф с п узлами Р\, Рг, ..., Рп, в котором дуга из Р< в Р,- при- присутствует тогда и только тогда, когда а,]Ф0 (или цг/^О). Примеры ¦[:¦:]' A = A = '4 0 0 2 1 1 Г 1 1 6.2.12. Определение. Ориентированным путем у в графе Г называется последовательность дуг Pt,Ph, Pifu, PuPi, Ориентированному пути y соответствует упорядоченный список
428 Гл. 6. Локализация и возмущения собственных значений узлов Pi,, Pi,, .... Длина ориентированного пути — это число дуг в нем, если оно конечно; в противном случае говорят, что путь имеет бесконечную длину. Циклом называют ориентиро- ориентированный путь, начинающийся и кончающийся одним и тем же узлом; этот узел должен ровно два раза входить в упорядочен- упорядоченный список узлов пути; никакой другой узел не может встре- встречаться в списке цикла более одного раза. Некоторые авторы используют для этого понятия термин простой ориентированный цикл. Цикл длины 1 называется петлей или тривиальным циклом. 6.2.13. Определение. Ориентированный граф Г сильно связен, если в нем любые два различных узла Pi, Pj соединены ориен- ориентированным путем конечной длины, начинающимся в Р, и кон- кончающимся В Pj. 6.2.14. Теорема. Матрица А еМл тогда и только тогда обла- обладает свойством SC, когда ориентированный граф Г (Л) сильно связен. Упражнение. Доказать теорему 6.2.14. Упражнение. Показать, что граф Г сильно связен, если лю- любые два его узла принадлежат хотя бы одному общему циклу, и что обратное утверждение неверно. Указание. Рассмотреть матрицу 0 1 01 1 0 1 L0 1 0 J Два узла ориентированного графа могут быть соединены бо- более чем одним путем. Однако два таких пути с различными длинами могут по существу не различаться; каждый может со- содержать повторения некоторых подпутей. Ясно, что если при следовании вдоль ориентированного пути какой-то узел встре- встречается дважды, путь можно укоротить (с сохранением конечных точек), убирая дуги, пройденные между первым и вторым посе- посещениями этого узла (они составляют или содержат цикл). 6.2.15. Утверждение. Пусть Г — ориентированный граф с п узлами. Если между двумя узлами графа Г имеется ориентиро- ориентированный путь, то между ними имеется и ориентированный путь длины ^п — 1. Как проверить, обладает ли матрица А свойством SC? Это эквивалентно проверке графа Г(А) на сильную связность. Если п невелико или М(А) имеет специальную структуру, то можно
6.2. Круги Гершгорина —V более пристальный взгляд 429 проследить пути между всеми возможными парами узлов, изу- изучая граф Г(Л) визуально. Однако в общем случае этот способ непрактичен, и мы нуждаемся в четком вычислительном алго- алгоритме. 6.2.16. Теорема. Пусть задана матрица А е М„, и пусть Pi и Pj — заданные узлы графа Г (Л). Ориентированный путь длины m из Рь в Pj существует в Г (Л) тогда и только тогда, когда и Af~\if?*Q или, что эквивалентно, когда [М(А)'п]ц=?0. Доказательство проведем по индукции. При m = 1 утверж- утверждение тривиально. Для m = 2 вычисляем [\f\4t[\}ik[\\]kli\ik\\k!\ k=\ k=\ Поэтому соотношение [|Л2|],¦/=#() равносильно тому, что хотя бы для одного значения k оба элемента aik и ак\ ненулевые. Но последнее имеет место тогда и только тогда, когда в Г(Л) су- существует путь длины 2 из Pi в Pj. В общем случае предполо- предположим, что утверждение доказано для m = q. Тогда соотношения [\ A\q+%=t[\A\qlk[\ A\]k!^t[\ А\"\к\ак1\фО равносильны тому, что найдется хотя бы одно k, для которого и [|Л|*],-*, и \akj\ ненулевые. Это, в свою очередь, равносильно тому, что имеется путь из Pi в Рк длины q и путь из Рк в Ps длины 1. Но для этого необходимо и достаточно, чтобы суще- существовал путь из Pi в Pj длины q + 1. То же рассуждение при- применимо к М(А). ? 6.2.17. Определение. Для матрицы А = [ац]^Мп запись Л ^ О (Л > 0) означает, что все элементы ац неотрицательны (положительны.). Такая матрица Л называется неотрицательной {положительной). 6.2.18. Следствие. Для матрицы А^Мп условие |Л|т>0 равносильно тому, что для каждой пары узлов Pi, Pj графа Г (Л) существует ориентированный путь из Pi в Р/ длины ровно т. Это же верно для матрицы М(А)т. 6.2.19. Следствие. Матрица А^Мп тогда и только тогда обладает свойством SC, когда (/ + |^1)'1~1 > 0 или, что экви- эквивалентно, когда [I -\- М(А)]п~1 ;> о.
430 Гл. 6. Локализация и возмущения собственных значений Доказательство. Из тождества (/ + ! Л !)"-' = / +(«-О! Л 1 вытекает, что условие (/ + I Л I)" > 0 равносильно тому, что для каждой пары индексов (г, /), 1ф], хотя бы в одной из матриц \А\, \А\2, ..., | A \n~i элемент (г, /) положителен. Но согласно теореме 6.2.16, это может иметь место тогда и только тогда, когда в Г (А) существует ориентированный путь из Л в Pj. Последнее означает сильную связность графа Т(А), т. е. А обладает свойством SC. ? Упражнение. Доказать то утверждение в следствии 6.2.19, которое относится к матрице М(А). 6.2.20. Следствие. В графе Т(А) тогда и только тогда имеет- имеется путь из Pi в Р,-, i Ф j, когда [ (I +1Л |)"-'];/ ф 0. Упражнение. Опираясь на следствие 6.2.19, сформулировать вычислительный алгоритм для проверки свойства SC, который требовал бы лишь примерно Iog2(n—1) матричных умножений (а не п — 2). Указание. Рассмотреть матрицу (/+М|J, воз- возвести ее в квадрат и т. д. Прежде чем оставить эту тему, познакомимся с еще одной эквивалентной характеризацией свойства SC. Она основана на том, что сильная связность графа Г(Л) есть чисто топологиче- топологическое свойство, никоим образом не зависящее от способа, кото- которым помечены его узлы. Если изменить нумерацию узлов, то граф останется, как был, сильно связным или несвязным. Заме- Заметим, что результатом перестановки в матрице А строк i и / и одноименных столбцов является обмен номерами между узлами Pt и Р] графа Г(Л); верно и обратное. Напомним, что матрицей перестановки Р называется квад- квадратная матрица, все элементы которой равны 0 либо 1; в каж« дой строке и каждом столбце матрицы Р должна быть ровно одна единица. Ясно, что такая матрица должна быть унитар- унитарной, а следовательно, ортогональной, т. е. РТ = Р~1. В простей- простейшей матрице перестановки рц = рц = 1 для некоторой фикси- фиксированной пары индексов (/,/); все прочие внедиагональные эле- элементы нулевые. Преобразование подобия1) РТАР вызывает транспозицию /-го и /-го столбцов и i-й и /-й строк матрицы А. ') С простейшей матрицей перестановки Р. — Прим. перев.
6.2. Круги Гершгорина— более пристальный взгляд 431 Любую перестановку строк и столбцов матрицы А можно полу- получить последовательностью таких транспозиций, и всякая мат- матрица перестановки есть конечное произведение простейших мат- матриц перестановок. Итак, если Р — матрица перестановки, то РТАР получается из А надлежащей перестановкой строк и столб- столбцов. Важно знать, существуют ли перестановки строк и столб- столбцов матрицы А, приводящие ее к специальной блочной форме. 6.2.21. Определение. Матрица А^Мп называется разложи- разложимой, если либо (a) п = 1 и А = 0, либо (b) л^2и существуют матрица перестановки РеМл и не- некоторое целое число г, 1 ^ г ^ п — 1, такие, что РТАР L0 D}' Здесь ВеMr, D еМп_т, Се Мг, п_г и 0еMn-r,r — нулевая матрица. Подчеркнем, что мы не требуем, чтобы блоки В, С и D имели ненулевые элементы. Нужно лишь, чтобы при помощи некото- некоторой последовательности транспозиций строк и столбцов можно было получить нулевой блок размера (п — г)УСг. Если |Л|>0, то понятно, что А не является разложимой; разложимая мат- матрица должна иметь по крайней мере п—1 нулевых элементов. Замечание. Предположим, что нужно решить систему линей- линейных уравнений Ах = у, и пусть матрица А разложима. Если положить В то Ах = РАРгх = у или А(Ртх) = Рту. Введем новый вектор неизвестных Ртх = x = [zT :.t,T]T и новый вектор правых частей РТУ = У = [wT': ®т]т; здесь z, »eCr; ?, шеС"'', Исходная система уравнений будет эквивалентна системе ~~ ~ \в ' т. е. системе Bz + Ct, = да, ?>? = со. Если сначала разрешить уравнение Dt, = со относительно ?, а затем подставить ? в первое уравнение и решить систему Bz — = да — Ct; относительно г, то тем самым исходная задача ока- окажется разложенной на две задачи меньшего порядка, которые
432 Гл. 6. Локализация и возмущения собственных значений в принципе должны решаться проще. Именно это обстоятель- обстоятельство стоит за термином «разложимая». 6.2.22. Определение. Неразложимой называется матрица А е М„, не являющаяся разложимой. 6.2.23. Теорема. Матрица A f= Mn тогда и только тогда неразложима, когда (I +1 А |)"~' > 0 или, что эквивалентно, когда [ + М (А)]п~1 > 0. Доказательство. Мы будем доказывать в действительности, что для разложимости матрицы Л необходимо и достаточно, чтобы (/ + |Л|)'г-1 имела хотя бы один нулевой элемент. Пред- Предположим вначале, что Л разложима и для некоторой матрицы перестановки Р [В С А=ри , Здесь В, С, О, D — те же матрицы-блоки, что в определении 6.2.21. Заметим, что | Л | = | РАРТ ] = Р\ А \РТ, так как единст- единственным результатом действия Р будут перестановки строк и столбцов. Заметим еще, что каждая из матриц | А |2, j Л |3, ... ...,|Л|'г~ имеет такой же нулевой блок размера (п — /")ХГ в левом нижнем углу, как и матрица Л. Итак, (/ + | Л If = (/ + Р | Л | Рт)п~1 = (Я [/ + I А |] РТТ~1 = и все слагаемые внутри квадратных скобок имеют один и тот же нулевой блок в левом нижнем углу. Поэтому матрица (/ -f- + |Л|)П-1 разложима, и среди ее элементов должны быть ну- нулевые. Обратно, предположим, что для некоторой пары индексов р, q, где р Ф q, элемент матрицы {I-\-\А\)п~х в позиции (р, q) равен нулю. Тогда, как мы знаем, в графе Г (Л) нет ориентиро* ванного пути из Рр в Pq. Определим множество узлов S) s= {Pt\ Pl = pq иди в Г (Л) имеется путь из Pt в Pq}, и пусть 52 — множество всех остальных узлов графа Г (Л). Заметим, что SjL^51^^! ^п) и ^«7^51=5^0, так что S2 ф {Р\, ..., Рп}. Если бы существовал путь из некоторого
6.2. Круги Гершгорина— более пристальный взгляд 433 узла Pt множества S2 в какой-то узел Pj множества Su то (см. определение множества Si) Pt и Pq были бы связаны путем, а тогда Р{ должен был бы принадлежать 5[. Поэтому не мо- может быть никаких путей, ведущих из узлов множества 52 в узлы множества S{. Перенумеруем теперь узлы таким обра- образом, чтобы было 5, = (Pj Pr}, S2 = {Pr+i Рп}- Видим, что В С т. е. А разложима. Для случая [I -{- М(А)]"-1 > О рассуждения проводятся таким же образом. П Подведем итоги. 6.2.24. Теорема. Для матрицы А е Мп следующие утвержде* ния эквивалентны: (a) А неразложима; (b) (/ + | А О" > 0; (c) [Г+М(А)]п-1>0; (d) граф Г (А) сильно связен и (e) А обладает свойством SC. 6.2.25. Определение. Матрица А е Мп называется i. d. d.-мат* рицей '), если (a) А неразложима; (b) А — матрица с диагональным преобладанием, т. е. | ан \ ^ >Ri{A), i=\ п\ (c) хотя бы для одного значения i справедливо строгое неравенство | аи \ > /?/ (А). Упражнение. Построить пример, показывающий, что матрица может быть неразложимой и с диагональным преобладанием, но не быть i. d. d.-матрицей. На введенном нами языке нашу «более сильную теорему» 6.2.8 и ее следствие можно переформулировать таким образом. 6.2.26. Теорема. Пусть А^Мп — неразложимая матрица. Граничная точка К области Гершгорина G(A) может быть соб- собственным значением матрицы А лишь в том случае, если каж- каждая окружность Гершгорина проходит через %. ') В оригинале irreducibly diagonally dominant matrix. Нам не удалось найти удобочитаемый русский эквивалент этой конструкции. — Прим. перев.
434 Гл. 6, Локализация и возмущения собственных значений 6.2.27. Следствие (Таусски). Пусть А — [сщ]^ Мп есть i.d.d.- матрица. Тогда (a) Л обратима; (b) если все аи > 0, го Re h > 0 для всех собственных зна- значений %i матрицы А; (c) если А эрмитова {или, более общо, если А имеет только вещественные собственные значения) и все диагональные эле- элементы аи строго положительны, то все собственные значения матрицы А строго положительны. 6.2.28. Следствие. Пусть матрица А е Мп неразложима, и пусть хотя бы для одного значения i т. е. не все строчные нормы равны максимальной. Тогда р (Л) < <||Л||ОО. Более общо, если ри ..., рЛ> О, b ръ ..., рп) и Ri(D~1AD)<\\D~1AD\\oa хотя бы для одного значения i, то Доказательство. Всегда имеет место неравенство <JiH||«,; равенство достигается тогда и только тогда, когда |Я|=ЦЛ||сс для некоторого собственного значения К матрицы Л. В последнем случае по теореме 6.2.26 каждая окружность Герш- горина должна проходить через X. Однако этому препятствует предположение /?/<||Л||оо. Применяя то же рассуждение к мат- матрице D~lAD, получим второе утверждение. ? Задачи 1. Показать, что неразложимая матрица не может иметь ну- нулевых строк и столбцов. 2. Показать с помощью примера, что предположение о не- неразложимости в следствии 6.2.28 необходимо. 3. Предположим, что А=[ац\^Мп, что К — собственное значение матрицы \А\ и что существует вектор х = [xi] e R" с положительными компонентами xi, для которого \А\х = Кх. Пусть D = diag(xi, x2, ..., х„). Показать, что каждая окруж- окружность Гершгорина матрицы D~X\A\D проходит через К Нари- Нарисовать картинку. Что можно сказать о строчных нормах мат- матрицы D-lAD? 4. В гл. 8 будет доказано, что квадратная матрица с поло- положительными элементами всегда имеет положительное собствен-
6.3. Теоремы о возмущениях 435 ное значение и ему отвечает положительный собственный век- вектор. Из этого факта и предыдущей задачи вывести, что если все элементы матрицы А ненулевые. Пользуясь соображе- соображениями непрерывности, показать, что последнее требование мо- может быть опущено, т. е. р (Л) ^ р (| Л |) для любой матрицы А е Мп. б. Используя следствие 6.2.28, показать, что оценку Коши E.6.40) для корней многочлена р (г) = zn + an_i&-1 + ... + a<z + а0, а0ф0, можно несколько улучшить, а именно | г\< max {| а01, |а, 1+1, I 0*1+1 |а„_,|+1}. Предполагается, что в цепи равенств хотя бы одно нарушено. Указание. Показать, что при аоФО со- сопровождающая матрица С(р) в E.6.39) неразложима. Какие улучшения можно внести в оценки E.6.41) — E.6.43) и E.6.45)? Дополнительная литература Обсуждение теоремы Леви — Деспланка и богатая библиог- библиография имеются в статье Taussky О. A Recurring Theorem on Determinants. —Amer. Math. Monthly, 1949, v. 56, p. 672—676. 6.3. Теоремы о возмущениях Пусть ?> = diag(ub К2, ..., Кп) и ? — [еи] — матрицы из Мп; рассмотрим возмущенную матрицу D + Е. По теореме 6.1.1 соб- собственные значения для D + Е заключены в кругах LsC: \z-Xi-eH\^R'i(E)=Z\eli\l, 1=1, .... п, которые содержатся в кругах sC: \z — %t | ^ Rt (E) = 2 I eu I f. i = 1» • • •, n- /-1 ) Таким образом, если Я — собственное значение матрицы D + Е, То среди собственных значений Ki матрицы D найдется такое, что |Я —%i\ ^ ||?||оо. К сожалению, эта простая оценка не
436 Гл. 6. Локализация и возмущения собственных значений распространяется на обший (недиагонализуемый) случай. Од- Однако с ее помощью можно получить простую границу для про- произвольной диагонализуемой матрицы. 6.3.1. Утверждение. Пусть А^М„ — диагонализуемая мат- матрица: Л = 5Л5-', A = diag(A,i %„)• Пусть Е <= М„. Если К — собственное значение матрицы А + Е, то найдется собствен- собственное значение h матрицы А, для которого Через Хоо(-) обозначено число обусловленности по отношению к матричной норме || • IU. Доказательство. Матрицы А + Е и S~' (A + E) S = Л -f- S~lES имеют одинаковые собственные значения, причем Л — диаго- диагональная матрица. Согласно сказанному выше, найдется %-,, та- такое, что | Л ¦— Яг | ^ [|S~1?'5 loo. Отсюда и следует нужное неравен- неравенство, поскольку |Н|оо — матричная норма. ? Немного изменяя технику доказательства, можно обобщить этот результат на другие матричные нормы. Главное требова- требование, которое будет предъявлено к матричной норме, удовлетво- удовлетворяется для всех подчиненных норм, индуцированных монотон- монотонными или абсолютными векторными нормами (см. 5.6.37). 6.3.2. Теорема. Пусть А^Мп — диагонализуемая матрица: А = SAS~l, D = diag(ki, ,.., kn). Пусть Е <= Мп, и пусть мат- матричная норма || • II такова, что [|Д|| = max \dt\ для всех диаго- нальных матриц D = diag(rfi, ..., 4)еЛ1л. Если К — собствен- собственное значение матрицы А + Е, то найдется собственное значение Kj матрицы А, для которого |Я-Яг|<!|5!|||5-1||||?|| = хE)||?||. F.3.3) Через %(•) обозначено число обусловленности по отношению к матричной норме \\-\\. Доказательство. Как и в предыдущем случае, достаточно рассмотреть собственные значения матрицы S~l(A-\-E)S — ¦= Л + S^ES. Если Я — собственное значение матрицы Л -+• -f- S-^ES, то матрица %1 — Л — S~[ES вырожденна. Если при этом вырожденна и XI — Л, то X = Яг для некоторого i, и оцен- оценка F.3.3) выполняется тривиальным образом. Будем считать поэтому, что Я/ — Л невырожденна. Тогда вырожденна матрица (Я/ - Л) (Я/ - Л - S~lES) = I-(il- Л)"' 5~'?5.
6.3. Теоремы о возмущениях 437 Отсюда следует (см. 5.6.16), что ||(Л/ — Л) S~lES\\^ 1. Ис- Используя предположение о поведении матричной нормы ||-|| на диагональных матрицах, получаем 1 < 1 (XI — || С/?"? Следовательно, min | A. — X[\ APS 1 max < 5~ u '?5| ell<r-i c-1 cellII/5 b||^||i ?i||||(Ai \ r1 "s 1 ' min < IS1|| ?|| || S| Г-ЛГ'|| = -'?S|| Jk-xt ¦ = x(S)||?| Упражнение. Показать, что предположение теоремы 6.3.2 о поведении матричной нормы на диагональных матрицах выпол- выполнено для норм Ц-112, II-IU, ||-Hi. Привести пример хотя бы еще одной матричной нормы, удовлетворяющей этому предполо- предположению. Упражнение. Привести пример матричной нормы, для кото- которой предположение теоремы не выполнено. Упражнение. Показать, что для всякой унитарной матрицы U справедливо равенство \\U\\2 = 1. Хотя число обусловленности х(*) впервые появилось в § 5.8 в контексте оценивания ошибок при решении линейных уравне- уравнений, мы видим, что теперь оно участвует в F.3.3) как верхняя граница для отношения ошибок при вычислении собственных значений диагонализуемой мат- матрицы. Если хE) мало (т. е. близко к 1), то малые возмущения коэффициентов могут изменить собственные значения, но эти из- изменения будут ограничены величиной того же порядка, что и изменения коэффициентов. Если же %(S) очень велико, то ма- малые возмущения коэффициентов, вообще говоря, приводят к сравнительно большим изменениям в собственных значениях. В отличие от ситуации § 5.8, где рассматривалась задача решения линейных уравнений, теперь значение имеет не х(Л), а хE), где через S обозначена матрица, столбцами которой яв- являются собственные векторы матрицы А; тогда А = 5Л5~'. В примере 7.4.26 мы увидим, что число обусловленности по от- отношению к спектральной норме допускает следующую геометри- геометрическую интерпретацию: хE)= ctg@/2), где 0 — наименьший угол между Sx и Sy, когда х и у пробегают всевозможные пары
438 Гл. б Локализация и возмущения собственных значений ортогональных ненулевых векторов (см. пример 7.4.26). Поэтому независимо от обусловленности матрицы Л, если у нее имеется пара почти параллельных, хотя и линейно независимых соб- собственных векторов, то два столбца 5 (скажем, р-и и q-n, p ф q) могут быть почти параллельны, а потому угол между Sep и Seq будет мал, хотя единичные базисные векторы ер и eq ортого- ортогональны. В этом случае спектральное число обусловленности k(S) будет велико, и задача вычисления собственных значений матрицы А может быть плохо обусловленной. Если 5 — унитарная (или почти унитарная) матрица, то пары ортогональных векторов отображаются в ортогональные (или почти ортогональные) векторы и спектральное число обу- обусловленности матрицы S будет мало (если 5 унитарна, то оно равно 1). В этом случае задача вычисления собственных значе- значений матрицы А должна быть хорошо обусловлена. Напомним, что матрица (точно) диагонализуется унитарным преобразова- преобразованием, если и только если она является нормальной. Поэтому теорема 6.3.2 дает для всего класса нормальных (и, в частно- частности, эрмитовых или вещественных симметричных) матриц ре- результат столь же простого вида, как наше исходное замеча- замечание о диагональных матрицах. Нормальные матрицы, таким образом, идеально обусловлены по отношению к вычислению собственных значений. 6.3.4. Следствие. Пусть А^Мп — нормальная матрица с соб- собственными значениями к\, ..., Хп, и пусть Е е Мп. Если % — соб- собственное значение матрицы А + Е, то найдется собственное зна- значение h матрицы А, для которого \ X — Я,-1^||?||2. Отметим, что ни матрица возмущения Е, ни возмущенная матрица А -\- Е не обязаны быть нормальными. Чаще всего след- следствие 6.3.4 применяется в случае вещественной симметричной матрицы А. Упражнение. Восполнить детали доказательства следствия 6.3.4. Упражнение. Если известно, что обе матрицы А, Е эрмитовы, то с помощью теоремы Вейля 4.3.1 можно получить более силь- сильный результат, чем следствие 6.3.4. Пусть в этом случае Ki ^ ^ %2 <; ••• ^ hn — упорядоченные собственные значения мат- матрицы A, Ki^.X2^. ... ^Я„— упорядоченные собственные зна- значения матрицы А + Е и Ki(E)^ ... <;А,„(?) —упорядоченные собственные значения матрицы Е. Используя неравенства D.3.2), показать, что для всех k=\, 2, ..., п справедливы соотно- соотношения
6.3. Теоремы о возмущениях 439 откуда Объяснить, почему верхние оценки лучше, чем в следствии 6.3.4. Какую информацию можно извлечь из оценок, если известно, что все собственные значения матрицы Е неотрицательны? В вычислительных приложениях исходная матрица А и мат- матрица возмущения Е нередко бывают вещественными и симмет- симметричными. В этом случае, а также в более общей ситуации, когда обе матрицы А и А -\- Е нормальные, имеется коллективная оценка возмущений собственных значений. 6.3.5. Теорема (Виландт — Хофман). Пусть А, ? е М„, при- причем обе матрицы А и А-\- Е нормальные. Пусть {^ь ..., Кп}— собственные значения матрицы А в произвольном заданном по- рядке, a {iu ..., Кп} — собственные значения матрицы А-\-Е, также произвольно упорядоченные. Тогда существует переста- перестановка a(i) чисел 1, 2, ..., п, такая, что 1/2 <\\е\\в. F.3.6) п Доказательство. Положим A = diag(A1( ..., Я„), Л =* = diag(Л,ь ..., in), и пусть V, W <=Мп — унитарные матрицы, для которых соответственно A — VAV* и А -\-Е = WAW*. По- Поскольку евклидова норма унитарно инвариантна, то IIЕ\fE = \\(А + Е)-А tfE = || WAW' - VAV& = = || V'WAW'V - A fE = || ZAZ' - A fB = = tr (ZAZ* - A) {ZAZ* - Л)* = = tr (ЛЛ* + ЛА')- tr (ZAZ'A' + AZA*Z*) = = t (I h I2 + I h P) - 2 Re tr (ZAZ'A'). Здесь мы положили Z s= V*W. Из этого представления следует, что IIЕ ||| > Е (| Л, р + | %t P) - 2 max {Re tr (UAU'AJ. U унитарна}. F.3.7) Покажем, что если подставить в F.3.7) точное значение макси- максимума, то будет получена желаемая оценка F.3.6). Для матрицы
440 Гл. 6. Локализация и возмущения собственных значений U = [uij\ e М„ легко проверить равенство Re tr (UAWA*) = Z I th! P Re (Л,Х,). Нам нужен максимум этого выражения, когда U пробегает ком- компактное множество унитарных матриц порядка п. Если поло- положить с// = |иG|2 и C = [ci/], to матрица С^Мп будет неотри- неотрицательной и суммы ее элементов как по строкам, так и по столб- столбцам будут точно равны 1 (поскольку UU* = U*U = I). Таким образом, всякой унитарной матрице V отвечает двоякостоха- двоякостохастическая матрица С. Если изменить нашу экстремальную за- задачу, допуская все двоякостохастические матрицы, выигрыш бу- будет в том, что экстремум вычисляется на выпуклом компакт- компактном множестве, структура которого известна. Максимум над этой большей областью может, разумеется, возрасти: max{Retr(t/A[/*A'): U унитарна} = — max] Z I Щ/12Re (ЯД;-): U унитарна [ ^ I.«. i=i У [1 И с,, Re (ЯД,): С двоякостохастическая л It, i-i У Однако целевая функция у нас линейна, а множество выпуклое и компактное, поэтому максимум достигается в одной из край- крайних точек (см. приложение В; нужно учесть, что линейная функ- функция выпукла). Согласно теореме Биркгофа 8.7.1, крайними точками множества двоякостохастических матриц являются матрицы перестановок. Следовательно, существует матрица перестановки Р е Мп, такая, что max\ Z с», Re (ЯД,): С двоякостохастическая > = = Retr(PAPrA*). Поскольку матрица перестановки унитарна, то верно также, что max {Re tr (UAU'A'): U унитарна} = Re tr(PAPTA"). Если Pei — ea(i), /=1, 2, ..., n, то Re tr (PAPTA*) = Ё Re
6.3. Теоремы о возмущениях 441 Подставляя в F.3.7), имеем 1 = 1 n i = l Теорема 6.3.5 указывает, что множество собственных значе- значений нормальной матрицы обладает сильной глобальной устой- устойчивостью; однако она не говорит о том, при каком упорядочении собственных значений неравенство, содержащееся в ней, будет выполнено. Разумеется, годится не всякое упорядочение; дей- действительно, существует по меньшей мере одно такое, что знак неравенства F.3.6) заменяется на противоположный (см. за- задачу 7 в конце данного параграфа). Но в важном частном слу- случае эрмитовых матриц можно взять естественное упорядочение собственных значений. 6.3.8. Следствие. Пусть А, Е е М„, причем А эрмитова, а А + Е — нормальная матрица. Пусть собственные значения мат- матрицы А расположены по возрастанию: %\ ^ %% ^ • • • ^ А„, а собственные значения матрицы A -f- E упорядочены так, что Re ki < Re k2 < ... < Re kn. Тогда 1/2 <\\E\\E. Доказательство. По теореме 6.3.5 существует некоторая пе- перестановка а исходного порядка (по возрастанию вещественных частей) собственных значений матрицы А-\-Е, для которо'й [га -Ш2 ZlW) — %if\ <||?Ц?. F.3.9) Если в списке ка(ц, ..., ка(П) собственные значения по-преж- по-прежнему упорядочены по возрастанию вещественных частей, то до- доказывать нечего. В противном случае в списке найдется пара соседних собственных значений, для которой этот порядок нару- нарушен, т. е. для некоторого к, 1 ^ к < п. Re ka(k) > Re Ло(*+о. Так как, однако, \ко(к)~ Яд. |2+ I ka(k+l) — А.й+1 Р = | ka(k+l) — hk |2 +
442 Гл. 6. Локализация и возмущения собственных значений по предположению %k — A.ft+1^0, то Следовательно, собственные значения Аа(*) и Аа^+и можно пе- переставить, не увеличивая сумму квадратов. Конечной последо- последовательностью таких транспозиций список ка(ц К[п) пре- преобразуется в список Кь к2, ..., кп, в котором вещественные части возрастают; для него имеет место указанная в формули- формулировке оценка. ? На практике это следствие чаще всего применяется в случае, когда обе матрицы А и A -J- Е эрмитовы или вещественные и симметричные. Упражнение. Пусть А, В&М„ — эрмитовы матрицы и соб- собственные значения обеих упорядочены по возрастанию или убы- убыванию. Доказать неравенство 1/2 Упражнение. Показать, что утверждение теоремы 6.3.5 мо- может потерять силу, если одна из матриц А, В = А + Е не яв- является нормальной. Указание. Рассмотреть матрицы Л=[ц 4]> Б = [~{ -j] и показать, что при любом упорядочении собствен- собственных значений Z [МЛ)-MS)]2 = 16. Если А не диагонализуема, то не известно столь же простой оценки, как в теореме 6.3.2. Однако можно вывести явную фор- формулу, показывающую, как меняются алгебраически простые соб- собственные значения (т. е. собственные значения с алгебраиче- алгебраической кратностью 1) при возмущении элементов матрицы. Прежде всего,нам потребуется лемма о неортогональности ле- левого и правого собственных векторов, отвечающих простому собственному значению. 6.3.10. Лемма. Если % — алгебраически простое собственное значение матрицы А е М„, ахи у — соответствующие % правый и левый собственные векторы, то у*х ф 0. Доказательство. Мы можем применить процедуру, использо- использованную в доказательстве теоремы Шура 2.3.1. Построим уни-
6.3. Теоремы о возмущениях 443 тарную матрицу U с первым столбцом x/IUlU; для нее Поскольку X — простое собственное значение матрицы А, оно не может быть собственным значением для В. Собственным лек- лектором матрицы U*AU, соответствующим %, будет единичный ба« зисный вектор е\. Рассмотрим матрицу Г I \ О 1 L * ! В J Пусть U'A'Uz = la, z Ф 0. Если z" = [О | I*], то | ф 0 и \ — соб- собственный вектор матрицы В*, соответствующий собственному значению %. Но тогда % — собственное значение матрицы В, что невозможно. Отсюда заключаем, что z не может иметь нулевую первую компоненту, т, е. г*е\Ф§. Следовательно, {Uz)*(Ue{) = = 2*61=7^0. Векторы Uz и 1)е\ — это левый и правый собствен- собственные векторы матрицы А, соответствующие собственному значе- значению К. Так как для К левое и правое собственные подпростран- подпространства матрицы А по предположению одномерны, то y — allz для некоторого а Ф 0. Но x—WxWzlIex, поэтому должно быть у*хфО. О Упражнение. Показать на примере матрицы Л==[„ } ], что лемма неверна, если опустить предположение о простоте соб- собственного значения. Пусть К — алгебраически простое собственное значение мат- матрицы А, Тогда X соответствуют однозначно (с точностью до ска- скалярного множителя а, |а|=1) определенный нормированный1) правый собственный вектор х и однозначно определенный ле- левый собственный вектор у, нормированный условием у*х=\. Рассмотрим дифференцируемую параметризацию A(t), такую, что А @) = А (например, A(t) = A -\- tE при фиксированной матрице возмущения Е). Тогда у матрицы A(t) для всех доста- достаточно малых / существует однозначно определенное простое собственное значение k(t), такое, что А,(О) = А,. Имеются также соответствующие K(t) правый собственный вектор x(t), одно- однозначно (с точностью до множителя а, как и прежде) определяе- определяемый условием x*(t)x(t)=^ 1, и левый собственный вектор y{t), однозначно определяемый условием y*(t)x(t)=s 1. Дифференцируя это последнее условие, получаем тождество ^ </'*@ *(/) + </*(/)*'@ = 0. F.3.11) > ') Имеющий евклидову длину 1, — Прим. перев.
444 Гл. 6. Локализация и возмущения собственных значений Так как А {() x(t) — k (f) х (t) для всех малых t, то верно и то- тождество у* (t) А (/) х (t) = к @ у* (/) x(t) = k (t). Дифференцирование его дает %' @ = у" (t) A (t) х (/) + / (/) А' @ х @ + //' (О Л @ а-' @. Используя равенства А (() х (() = к (t) x (() и г/* (/) A(t) = K(t) у* (t), приходим к соотношению %' @ = к (/) {/• @ х (о + / (о х' (f)}+sf @ Л' @ х (t)=if (t) Л' (/) х @. Здесь учтено тождество F.3.11). При ^=0 имеем формулу А/@) = у*А'@)х; подразумеваются условия нормировки х*х = 1 и г/*х=1. Если х и у — правый и левый собственные векторы, не обязательно нормированные указанным образом, то можно заменить х на х/(х*хI/2, а г/ на (х*хI/2у/у*х; тогда получится более общая формула к'@)у*х = у*А'@)х. Итак, для матрицы А, которая не обязана быть диагопализуемой, установлен сле- следующий результат. 6.3.12. Теорема. Пусть матрица A(t) дифференцируема в точ- точке t =0, и пусть к — алгебраически простое собственное значе- значение матрицы Л@), а х и у — соответствующие к правый и ле- левый собственные векторы. Предположим, что k(t) — это то соб- собственное значение матрицы A(t), для которого к@)= к. Тогда я() . ух Упражнение. Положить Л(^) = Л + /?, где матрица возму- возмущения Е фиксирована, и показать (в условиях теоремы 6.3.12), что в точке t = 0 d% __ if Ex dt — ifx ¦ Упражнение. В условиях теоремы показать, что для всех /, / у*х Эта формула устанавливает связь между изменением произ- вольного коэффициента матрицы А и соответствующим измене- изменением собственного значения. Указание. Взять в качестве Е мат- матрицу Ец, в которой единственный ненулевой элемент стоит в по- позиции (i, /) и равен 1. Упражнение. Рассмотреть матрицу Л = [^ ,^8] и собствен- собственное значение к = 1, которое будет простым при е Ф 0. Для всех пар /, j вычислить дк/дац. Как ведут себя эти производные при
6.3. Теоремы о возмущениях 445 е -> 0? Сделать вывод о том, что при почти ортогональных % и у собственное значение % может быть очень чувствительным к некоторым возмущениям в А. В отличие от собственных значений собственные векторы даже диагонализуемой матрицы могут претерпевать радикаль- радикальные изменения при очень малых возмущениях элементов мат- матрицы. Пусть, например, Л = [g J], ? = [JOS]. Собственные зна- значения матрицы А-\-Е суть числа 1 и \-\-г; при еб^О соответ- соответствующими нормированными собственными векторами будут 1 . б2I'2 ш- При надлежащем выборе отношения е/б можно придать пер- первому собственному вектору любое желаемое направление, как бы малы ни были е и б по отдельности. Если положить 8 =0, то у возмущенной матрицы А + Е при любом б ф 0 будет только один, с точностью до скалярного множителя, собственный вектор; сама же А имеет два линейно независимых собственных вектора. Все полученные до сих пор оценки были априорными грани- границами для возмущений в собственных значениях; они не исполь- используют вычисленные приближения к собственным значениям, соб- собственным векторам или каким-то другим связанным с ними величинам. Предположим теперь, что тем или иным способом най- найдены «приближенный собственный вектор» 1^0и «приближен- «приближенное собственное значение» X. Маловероятно, что вектор Ах бу- будет в точности равен вектору %Л. Для оценки расстояния от % до точного собственного значения в случае диагонализуемой матрицы А можно использовать вектор невязки г — АЛ — ХЛ. Положим Л = 5Л5~1, и пусть X не совпадает ни с одним собственным значением матрицы А. Тогда г = АЛ — ХЛ = 5 (Л — XI) 5~'i, так что i = 5(A — XI)~lS~lr. Отсюда IU || = 15 (Л — Я/) S~ V | < 15 (Л — Я/)-1^-11|| г И < | 51| | S~l || 1 (Л - XI)-11| || г || = х (S) || (Л -Я/Г11| || г || = min l^- Таким образом, О Л || min
446 Гл. 6. Локализация и возмущения собственных значений Ясно, что это неравенство будет выполнено и в случае, когда Я = Я; для некоторого i. В проведенном рассуждении мы пред- предполагали, что (a) И • II — векторная норма на С"; (b) матричная норма ]| • || на Мп согласована с векторной нормой || • ||; (с) ||?>|= max \dt\ для любой матрицы dn). F.3.13) Число обусловленности x(S) порождается матричной нормой II-1|, Если Л— нормальная матрица, то можно выбрать унитар- унитарную матрицу 5. Если взять евклидову векторную норму и спек- спектральную матричную норму, то x(S)= 1. Условие (с) эквива- эквивалентно требованию, чтобы матричная норма ||-|| была подчи- подчинена монотонной векторной норме (теорема 5.6.37). Итак, все условия F.3.13) будут удовлетворены, если векторная норма Ц-|| на С" монотонна, а матричная норма ||-|| на Мп подчинена ей. Мы получили апостериорные оценки такого же внешнего вида, как в теореме 6.3.2 и следствии 6.3.4. 6.3.14. Теорема. Пусть А^Мп — диагонализуемая матрица, А = SAS~l, Л = diag(ku ..., Кп). Пусть векторная норма \\-\\ на Сп и матричная норма || • || на Мп удовлетворяют условиям F.3.13). Пусть ieC" — заданный ненулевой вектор, X—за- X—заданное комплексное число и г = Alt — Кх. Тогда найдется соб- собственное значение Ki матрицы А, для которого -I||-g- = x(S)-jg-. F.3.15) Если А — нормальная матрица, то для некоторого ее собствен- собственного значения Xi U-M<]jf- F.3.16) Этот последний результат нужно сопоставить с аналогичной апостериорной границей для относительной ошибки приближен- приближенного решения системы линейных уравнений. Если матрица коэф- коэффициентов системы плохо обусловлена, то смысл оценки E.8.11) состоит в следующем: малая величина невязки не обязательно влечет за собой малую величину относительной ошибки при- приближения. В то же время для нормальной матрицы А (на практи- кеЛ обычно бывает эрмитовой или вещественной симметричной) неравенство F.3.16) означает, что если невязка, соответ- соответствующая приближениям к собственному значению и собствен-
6.3. Теоремы о возмущениях 447 ному вектору, мала, то абсолютная погрешность приближенного собственного значения гарантированно будет малой; в оценке нет никакого числа обусловленности. Этот приятный результат для собственных значений не со- сопровождается столь же приятным результатом для собственных векторов. Даже для вещественной симметричной матрицы ма- малость невязки не гарантирует, что приближенный собственный вектор будет близок к точному. Рассмотрим, например, при е >0 матрицу Л = [^,?]. Если взять Л=1, x — [l, Of, то не- невязка имеет вид г = [0, е] т. Собственными векторами матрицы А для любого е > 0 будут [1, 1]т и [1,—1]г. Вектор х не бу- будет приблизительно параллелен ни одному из них, как бы мало НИ бЫЛО 8. Упражнение. Показать, что собственные значения матрицы Л в только что рассмотренном примере — это числа 1 -J- е и 1 —е. Проверить для них оценку F.3.16). Задачи 1. Пусть К, ц — собственные значения матрицы А и К ф ц. Показать, что всякий левый собственный вектор матрицы А, со- соответствующий |л, ортогонален всякому ее правому собствен- собственному вектору, соответствующему К. 2. Используя предыдущую задачу, дать другое доказатель- доказательство леммы 6,3.10 для случая, когда все собственные значения матрицы А различны. 3. Проверить утверждение, сделанное в конце первого абзаца данного параграфа1), рассматривая матрицы Ле = [° 0] е М2, Л0 = [о о] и считая е малым положительным числом. Показать, что матрица Ле диагонализуема при е>0 и минимальное рас- расстояние между собственными значениями матриц Ле и Ло равно л/г. Представляя Ле в виде Л8 = Ло Ц- Е, показать, что при е -*¦ 0 справедливы соотношения 1^> о «.-¦*)-.«.. Таким образом, оценка типа | Я — Яг I^HfU для матриц общего вида не может быть верной. Вычислить для этого же случая оценки теоремы 6.3.2 и объяснить полученный результат. 4. Пусть р{х) — многочлен степени п>2 с двойным корнем в точке х0, т. е. р(хо)— р'(хо) = О, но р"(хо)фО. Показать, что ') Имеется в виду фраза «К сожалению, эта простая оценка не рас- распространяется на общий (недиагонализуемый) случай». — Прим. перев.
8 Гл. 6. Локализация и возмущения собственных значений многочлен р(х)— е имеет вблизи хо два корня вида xQ ± с Vе Jr (члены более высокого порядка). Указание. Разложить р(х) а ряд Тейлора относительно точки Хо- Смысл задачи состоит в том, что изменения порядка е в коэффициентах многочлена могут повлечь возмущения в его корнях порядка Vе • Для мно- многочлена отношения возмущений корней к возмущениям коэф- коэффициентов могут быть неограниченными. 5. Согласно следствию 6.3.4, для эрмитовой (а более общо, для любой нормальной) матрицы отношения возмущений соб- собственных значений к возмущениям матричных элементов огра- ограничены. Поскольку собственные значения матрицы суть корни ее характеристического уравнения, объяснить, как эта благо- благоприятная ситуация может сочетаться с выводами задачи 4. Мораль настоящего задания состоит в том, что с практической точки зрения очень неразумно вычислять собственные значения эрмитовой (так же как и любой другой) матрицы путем по- построения ее характеристического многочлена и вычисления его корней. Этот способ потенциально чреват опасностью превра- превратить хорошо обусловленную задачу в плохо обусловленную! 6. Гивенсу принадлежит пример вещественной симметрич- симметричной 2 X 2-матрицы А = / и ее вещественного симметричного воз- возмущения [е cos B/e) e sin B/е) 1 8 sin B/е) - 8 cos B/е) _Г По определению Е @) s= lim ?(е) = 0. Показать, что собствен- ные значения матрицы А + Е(г) равны 1 + 8 и 1 — е, а соответ- соответствующими (определенными с точностью до знака) нормиро- нормированными собственными векторами будут [cos A/е), sin A/е) ]г и [sinA/е),—cos(l/e)]r, е >> 0. Показать, что при е -> 0 каж- каждый собственный вектор будет бесконечное число раз принимать произвольно заданное направление. Таким образом, даже если ограничиться вещественными симметричными матрицами, от- отдельный собственный вектор может изменяться очень быстро, если соответствующее ему собственное значение плохо отделено от остальных. 7. Используя такой же метод рассуждения, как в теореме 6.3.5, показать, что в условиях этой теоремы существует пере- перестановка т чисел 1,2, ..., п, такая, что 1/2 >\\Е\\Е.
б.З. Теоремы о возмущениях 449 Указание. Рассмотреть величину s 2 С/у Re (йДу): С == [с/У] двоякостохастическая ?. 8. Пусть А^Мп — заданная нормальная матрица с соб- собственными значениями {А,,(Л)}, г > 0 — заданное число. Опре- Определим множество S(A, г) = {Ве=Мп: В нормальна и || В — Л ||2 < г}. Показать, что числа {i{ %п) тогда и только тогда соста- составляют множество собственных значений матрицы B^S(A,r), когда mins 2 I hi (Л) — %o(i)f'. а — перестановка чисел 1, 2, .. ,,/г Этот результат дает, полное описание возможных спектров нор- нормальных матриц, находящихся в окрестности фиксированной нор- нормальной матрицы. Указание. Для доказательства необходимости использовать теорему 6.3.5. В части достаточности представить матрицу А в виде A = UMJ\ Л = diag^ (Л) Я„(Л)), и положить В ез UAU*, где Л = diag (Кг %п). 9. В доказательстве теоремы 6.3.5 использовано то обстоя- обстоятельство, что для унитарной матрицы U = [иц\ е Мп матрица Л^[|и,;|2] двоякостохастическая. Показать, что не всякая двоякостохастическая матрица может быть получена этим пу- путем из некоторой унитарной матрицы. Указание. Рассмотреть пример Г 1 10~1 1 1 0 1 . 2 L0 1 1 10. Пусть /1еМ3 — заданная эрмитова матрица, и пусть ка- каким-то способом найдена унитарная матрица U, такая, что 3.05 —0.06 0.02 UAU* = \ -0.06 —6.91 0.07 1.02 0.07 8.44 J Г 3.( Т = \ -0.( L о.( Получить возможно более точные оценки для собственных зна- значений матрицы Л. 11. Для матриц, не являющихся нормальными, нет надежды получить оценку типа указанной в следствии 6.3.4. Рассмотреть 15 Р. Хори, Ч. Джонсон
450 Гл. 6. Локализация и возмущения собственных значений этой связи матрицы Л, Е е М„, где "О о О 0 . О О 0 0 0 О а, 8>0. Показать, что все собственные значения матрицы А равны нулю, а собственными значениями матрицы А + Е будут п раз- различных значений ^Ja&n~l. Каково бы ни было е > 0, все соб- собственные значения матрицы А + Е можно сделать сколь угодно большими, подбирая соответствующее а. Как обстояло бы дело в случае нормальной матрицы Л? Дополнительная литература Впервые теорема 6.3.5 была доказана в статье: Hoffman A. J., Wielandt H. The Variation of the Spectrum of a Normal Mat- Matrix.— Duke Math. J., 1953, v. 20, p. 37—39. Элементарное дока- доказательство этого результата в вещественном симметричном слу- случае дано на с. 105—109 книги [Wil]1). 6.4. Другие области локализации Мы довольно подробно обсудили круги Гершгорина. Они представляют собой конкретный класс легко вычисляемых об- областей комплексной Плоскости, с гарантией содержащих в себе все собственные значения данной матрицы. Многие авторы, при- привлекаемые, по всей видимости, геометрической элегантностью теории Гершгорина, распространили ее идеи и методы на об- области локализации других типов. Мы приведем несколько ре- результатов этого ряда, чтобы у читателя создалось некоторое впечатление о том, что было сделано. Первый результат, принадлежащий Островскому, дает об- область локализации собственных значений в виде объединения кругов, как это было и в случае области Гершгорина. Однако радиусы кругов теперь зависят и от строчных, и от столбцовых ') Страницы указаны по русскому переводу, — Прим. перев.
6.4. Другие о&ласти локализации 451 почти-норм. Два варианта теоремы Гершгорина с раздельным использованием строчных и столбцовых сумм получаются как предельные случаи теоремы Островского; можно считать, что последняя указывает континуум областей локализации, интер- интерполируя между F.1.2) и F.1.4). 6.4.1. Теорема (Островский). Пусть Л = [яц]еЛ!л, а — за- заданное число из отрезка [0, 1], a R't и С\ — соответствгнно строч- строчные и столбцовые почта-нормы матрицы А: *;= t\alt\, F.4.2) с;= Е М- F.4.3) Гф\ Тогда все собственные значения матрицы А принадлежат объ- объединению п кругов U {геС: \г — ан\ <^аС;'~а}. F.4.4) Доказательство. Будем считать, что 0 < a < 1, так как слу- случаи a = 0 и a = 1 соответствуют теоремам Гершгорина для столбцовых и строчных сумм. Далее, можно считать, что R[ > О для любого /. В противном случае можно было бы возмутить А внесением малых ненулевых элементов в те строки, для кото- которых R[ = 0. Для возмущенной матрицы область локализации F.4.4) больше, чем область локализации для А, и нужный ре- результат получится в пределе при возмущении, стремящемся к нулю. Предположим теперь, что Ах = Кх и х — [xi\ ф 0. Тогда для каждого / = 1,2, ..., п имеем I ф i п 1=1 F.4.5а) 15*
452 Гл. 6. Локализация и возмущения собственных значений Так как R\ > 0, то это эквивалентно неравенству г, II „ |1/(!-а) ]i-o Следовательно, п an\\Xj\m~a). F.4.5b) В выкладках F.4.5а) использовано неравенство Гёльдера (см, приложение В) для р = I/a и g = р/(р— 1)= 1/A —а). Сум- Суммируя по i неравенства F.4.5Ь), получим Если для каждого /, такого, что xi ф 0, будет Г1Ц?111>А1"в)>с;, 8 ^ i I то неравенство F.4.6) не может выполняться. Поэтому хотя бы для одного из указанных значений i rl*-a» откуда Упражнение. Для матрицы Л = [| g] сравнить строчную и столбцовую области локализации Гершгорина с областью Островского для а = 1/2. Какую оценку дает теорема Остров- Островского для спектрального радиуса матрицы Л? Сравнить ее с оценками Гершгорина из следствия 6.1.5. Упражнение. Что соответствует следствию 6.1.6 в теории Островского? Следующий результат, полученный Брауэром, также являет- является обобщением теоремы Гершгорина, но теперь одновременно
6.4. Другие области локализации 453 берутся пары строк. Геометрически области локализации будут уже не кругами, а множествами, называемыми овалами Кае- сини. Доказательство параллельно доказательству теоремы Гершгорина в том отношении, что выбираются (правда, две, а не одна) наибольшие по модулю компоненты собственного век- вектора. 6.4.7. Теорема (Брауэр). Пусть А —[ац]&Мп. Все собствен- собственные значения матрицы А принадлежат объединению п(п—1)/2 овалов Кассини U {г е С: | г - аи \ \ z - ац | < U 11 F.4.8) 'Доказательство. Пусть X — собственное значение матрицы А, и пусть Ах = Хх, где х = [х,] ф 0. Пусть хр — компонента с наи- наибольшим модулем, так что \xp\^\xi\, i=\, ..., п, и хр ф 0. Если все остальные компоненты вектора х нулевые, то из усло- условия Ах = Хх вытекает арр = X. Поскольку все диагональные эле- элементы матрицы А включены в область F.4.8), то всякое соб- собственное значение, отвечающее собственному вектору с един- единственной ненулевой компонентой, попадает в эту область. Предположим поэтому, что собственный вектор х имеет по крайней мере две ненулевые компоненты, и пусть л;? —компо- —компонента со вторым по величине значением модуля, т. е. \хР\^ ^\хч\^\х'\> t — 1 п, i Ф Р, и хр, Хц ф 0. Условие Ах = Хх дает хАХ === 2-i apjx pjxh откуда |*р1|Л-. /-1 1 ф р ЛР!Х1 */ К или , \*ц\ Аналогичным образом из равенства п х0 (а а.аа) = 2и aarXi F.4.9)
454 Гл. 6. Локализация и возмущения собственных значений ВЫВОДИМ 2., ] — I 1ФЧ 1ФЧ или Ё K / ф я Перемножение неравенств F.4.9) и F.4.10) позволяет исклю- исключить неизвестные отношения компонент вектора х; в результате получим Таким образом, собственное значение К принадлежит области F.4.8). ? Упражнение. Какова столбцовая версия теоремы Брауэра? Из всякой теоремы об областях локализации собственных значений можно вывести связанную с ней теорему об обрати- обратимости (верно и обратное). Нужно всего лишь, опираясь на ре- результат о локализации, сформулировать условия, которые исключали бы точку z = 0 из соответствующей области. 6.4.11. Следствие. Пусть Л = [а,-,] е М„. Каждое из следую- следующих условий достаточно для того, чтобы матрица А была обра- обратима. (a) при некотором ое[0, 1] и всех /==1, ..., п справед- справедливы неравенства \a(t\ > R'{aC/l[~a (Островский); (b) для всех i, /=1 п, 1ф'], выполняются неравенства Упражнение. Вывести следствие 6.4.11 из теорем 6.4.1 и 6.4.7. В теореме Брауэра участвуют попарные произведения строк. Привлекательная возможность дальнейших обобщений связана с идеей брать тройные и еще более длинные произведения и рассматривать при каждом ш = \, ..., п объединения мно- множеств вида
6.4. Другие области локализации 455 Для каждого т имеется таких множеств; случай т = 1 дает п кругов Гершгорина; при т = 2 получаем п(п—1)/2 ова- овалов Кассини. К сожалению, при т ^ 3 множества F.4.12) не обязаны быть областями локализации собственных значений, что показывает пример матрицы llOO-i 110 0 0 0 10 ооо и F.4.13) Все множества F.4.12) для т ственной точки г = 1. 3 и т = 4 состоят из един- Упражнение. Показать, что собственными значениями мат- матрицы F.4.13) являются числа Л = 0,1,1,2. Изобразить множе- множества F.4.12) для т = \, т=2 и т — 3,4. Показать, что те же неприятности возможны при любом т ^ 3. Для этого рассмот- рассмотреть матрицу Л Г/ 0 1 1о /J м„ F.4.14) где /„ е Мп — единичная матрица, а / = [[ } Хотя этот пример опровергает наиболее очевидный способ обобщения теоремы Брауэра, он показывает заодно, что именно плохо и как поправить положение. Проблема с областью F.4.12) состоит в том, что для нее требуется слишком много произведе- произведений, причем некоторые могут быть равны нулю из-за нулевых строчных почти-норм. Разумеется, это невозможно для нераз- неразложимой матрицы А; для нее все R't > 0. Однако и при неразложимой матрице А область F.4.12) мо- может не быть областью локализации собственных значений; в ней может все еще участвовать слишком много произведений. Рас- Рассмотрим наряду с матрицей F.4.13) возмущенную матрицу вида 1 1 е е 110 0 е 0 1 0 е 0 0 1 - 1 >е>0. F.4.15)
456 Гл. 6. Локализация и возмущения собственных значений Ориентированный граф Г(Л8) матрицы Ле выглядит так: s о При е=0 пунктирные линии отсутствуют. Если ефО, граф' Г (Л е) сильно связен и матрица Аг неразложима. При этом /?;=1 + 2е, R'2=l, R'3 = e, R[ = e, а собственными значениями матрицы Ае будут числа 1/2, 1 - A + 2е2I/2. Упражнение. Проверить выражения для строчных почти-норм и собственных значений матрицы Ае. Так как произведение любых трех (или всех четырех) вели- величин R\ содержит по меньшей мере один множитель е (число е считается малым и положительным), то множества F.4.12) не могут быть областями локализации собственных значений ни при т = 3, ни при т = 4. Упражнение. Рассматривая возмущения матрицы F.4.14) того же типа, что в F.4.15), показать, что аналогичный вывод справедлив для всех т ^ 3. С каким же внутренним свойством матриц F.4.13) и F.4.15) связано то, что для них значения т — \ и т = 2 приемлемы в F.4.12), а значения т = 3 или т = 4 — нет? Ричард Бруалдн заметил, что ориентированные графы обеих матриц содержат циклы длины 1 и 2, но не содержат циклов длины 3 и 4. Это оказывается ключевым обстоятельством при формулировании правильного обобщения теоремы Брауэра. Напомним, что сильно связным называется ориентированный граф Г, в котором из каждого узла идет ориентированный путь в любой другой узел (а из него в свою очередь в первый). Назовем Г слабо связным графом, если из каждого его узла идет ориентированный путь в некоторый другой узел, а из того в свою очередь в первый. Это эквивалентно требованию, чтобы каждый узел графа Г принадлежал некоторому нетривиальному циклу (тривиальный цикл, или петля, — это ориентированный
6.4. Другие области локализации 457 путь длины 1, начинающийся и кончающийся в своем един- единственном узле). В матричных терминах, как мы знаем, сильная связность графа Г (Л) равносильна неразложимости матрицы А. Будем го- говорить, что А слабо неразложима, если Г (Л) слабо связен. Сла- Слабая неразложимость, по-видимому, не допускает такого нагляд- наглядного описания, как обычная неразложимость (т. е. на языке пе- перестановочных подобий; см. определение 6.2.21 (Ь)). Однако с точки зрения распределения в А нулевых и ненулевых элемен- элементов ясно, что слабая неразложимость матрицы А эквивалентна следующему свойству: для каждого i = \, ..., п в j-й строке матрицы А имеется хотя бы один ненулевой внедиагональный элемента^., такой, что существует последовательность ненуле- ненулевых элементов аь ъ , аъ ъ , . .., аь ъ , в которой k\ = н и km = i. Это громоздкое условие составляет приблизительно по- половину требования 6.2.7, определяющего свойство SC. Для вы- вычислительных целей, вероятно, более удобна его переформули- переформулировка, сходная по виду с теоремой 6.2.23. 6.4.16. Лемма. Слабая неразложимость матрицы А е Мп рав- равносильна тому, что любая из матриц (а) В = [1+ \А\)п~1 или (Ь) В = [1-\- обладает следующим свойством: для каждого г — 1, ..., п в i-й строке есть хотя бы один ненулевой внедиагональный элемент 6,/, такой, что элемент Ьц тоже не равен нулю. Упражнение. Доказать лемму 6.4.16. Указание. Использовать идеи доказательства следствия 6.2.19. Упражнение. Пусть А е Мп, и пусть матрица В е М„ опре- определена формулой (а) или (Ь). леммы 6.4.16. Показать, что сла- слабая неразложимость матрицы А равносильна тому, что каждый узел графа Г (В) принадлежит циклу длины 2. Каково соответ- соответствующее свойство для неразложимой матрицы? Какое из этих свойств слабее? Напомним, что по определению циклы являют- являются простыми; только начальный узел (совпадающий с конеч- конечным) может повториться в списке узлов цикла. Упражнение. Показать, что для слабо неразложимой мат- матрицы А е= Мп все R\ > 0 и все С\ > 0. Предпорядком на множестве S называется отношение R, оп- определенное для всех пар точек этого множества, причем для каждой пары элементов s, t e S верно либо sRt, либо tRs, либо и то и другое. Требуется также, чтобы предпорядок был рефлек-
458 Гл. 6. Локализация и возмущения собственных значений сивным (sRs для любого s e S) и транзитивным (если sRt и tRu, то sRu). Предпорядок не обязан быть симметричным (sRt влечет за собой tRs и обратно); возможно к тому же, что sRt и tRs, хотя s ф t. Точка z подмножества Soa S называется мак- максимальным элементом подмножества, если sRz для всех s e So. Упражнение. Пусть S — произвольное непустое множество комплексных чисел. Показать, что отношение между комплекс- комплексными числами z, w e S, определяемое правилом zRw, если |г|<|ш|, есть предпорядок на С. 6.4.17. Лемма. Пусть S — непустое конечное множество, на котором определен предпорядок. Тогда оно содержит хотя бы один максимальный элемент. Доказательство. Расположим элементы в произвольном по- порядке Si, ..., Sk. Положим s ^=: s\. Если s2Rs, то s не изме- изменяется; в противном случае полагаем s = s2. Повторяем этот процесс с прочими элементами. Окончательное значение s дает максимальный элемент. ? Пусть Г — ориентированный граф и Р,- — узел графа Г. Обо- Обозначим через Tout (Pi) множество узлов, отличающихся от Pi и таких, что их можно достичь из Pt по ориентированным путям длины 1. Заметим, что если граф Г слабо связен, то множе- множество Tout (Pi) непусто для любого узла Pi i= Г. Обозначим через С (А) множество нетривиальных циклов у ориентированного графа Г(А). Напомним, что нетривиальным называется цикл, содержащий по меньшей мере два различных узла, т. е. (простой ориентированный) цикл, не являющийся петлей. Для матрицы F.4.13) множество С (А) состоит из един- единственного цикла у = Р1Р2, РгР\, в то время как матрица F.4.15) имеет три разных нетривиальных цикла, каждый длины 2. 6.4.18. Теорема (Бруалди). Если матрица А = [ац] е Мп слабо неразложима, то каждое ее собственное значение заклю- заключено в области U Ье=С: П |z-<U< П R'X F.4.19) С{А)\ P^v1 '" PjSY *J Эта запись означает, что если y = PitPi2, ..., PikPik+] — нетри- нетривиальный цикл, в котором Pib+^Pt^ то соответствующее про- произведение в F.4.19) содержит ровно k сомножителей и индекс i принимает k значений i\, /а, ..., i^.
?.4. Другие области локализации 459 Доказательство. Предположим, что X — собственное значение матрицы А, причем X равно некоторому диагональному эле- элементу аи. Ясно, что такое X принадлежит области F.4.19). Так как все R'L > 0 в силу слабой неразложимости матрицы А, то в действительности X в этом случае является внутренней точкой области. Если каждое собственное значение матрицы равно не- некоторому диагональному элементу, то все собственные значе- значения находятся внутри области F.4.19), и доказательство закон- закончено. В оставшейся части доказательства будем считать, что соб- собственное значение X не равно никакому аи, i=\, ..., п. Пусть Ах = Хх, где лг = [лг;]еСя м хфО. Определим следующий пред- порядок на множестве узлов графа Г(А): PiRPl-*=>\xt\<s\xj\. F.4.20) Покажем, что в Г (А) существует цикл у' с такими тремя свой- свойствами: (а) '/ = р,1р,я, p ный (простой ориентированный) цикл длины ptkpik+x — нетривиаль- нетривиаль(b) для каждого j—\,...,k узел Ptj+l макси- у F.4.21) мален в множестве rout(/Y), т. е. \xt. \^$ ^\хт\ для всех т, таких, что Рт е rout(/3b) (c) все Xtj ф 0, /= 1, .... k. Пусть у' — цикл, удовлетворяющий условиям F.4.21). Для каждого / = 1, .. •, k равенство Ах — Хх дает (X — п{ ,1,)Х{.= ai ,rnXm, откуда l.m rout( F.4.22) F.4.22a) — R'it | xt
460 . Гл. 6. Локализация и возмущения собственных значений Беря произведение неравенств F.4.22) по всем узлам из у', по- получим Hl*-flv/IN<S*i/lv.l- F-4-23) Но и так как Pik+1 — Pi{> T0 Xtk+\~Xi\' Следовательно, g|*,[ = I[|*,+l|*0. F.4.24) Деля F.4.23) на F.4.24), приходим к неравенству П |*-а„|< П R\. F.4.25) Поскольку у'— нетривиальный цикл графа Г(Л), то собствен- собственное значение % должно принадлежать области F.4.19). Теперь нужно показать, что цикл у', удовлетворяющий усло- условиям F.4.21), действительно существует. Пусть i — произволь- произвольный индекс, для которого xi фЬ, Левая часть равенства п (А — ан) xt = Z ацХ{ = S № pr не равна нулю, так как хг Ф О и к — анф О. Поэтому среди узлов множества T0Ut(Pt) [т. е. узлов Р,, таких, что \фг и а1} ф 0; множество rout(Pt) непусто, так как граф Г (Л) слабо связен] должен быть хотя бы один, для которого соответству- соответствующая компонента х{ собственного вектора не равна нулю. По- Положим Pt^Pi, а в качестве Pi, возьмем максимальный среди узлов множества rout(/>f1), т. е. I xi31 ^ | хт | для всех т, таких, что Pm^Yoa\(Pi^. Заметим, что неравенство xt3 Ф 0 обеспе- обеспечено. Предположим, что, продолжая указанное построение, мы получили ориентированный путь P'ilPt2, PiJ^h' •'*' Р{\-\Р1\ длины /—1, который удовлетворяет условиям (Ь) и (с) в F.4.21); для У = 2 рассуждения были описаны только что. Ле- Левая часть соотношения (h — at{.)xt.= 2 с rmel out \г1,\
6.4. Другие области локализации 461 не равна нулю, поэтому в множестве rOut(^,) [непустом, по- поскольку граф Г(Л) слабо связен] имеется хотя бы один узел, которому соответствует ненулевая компонента собственного век- вектора. Выбор в качестве Pj/+1 максимального узла в Fout(Pi) га- гарантирует, что Х{.+1фО. В графе Г (Л) лишь конечное число узлов, а потому наше по- построение рано или поздно натолкнется в первый раз на макси- максимальный узел Pi e Tout (Pi _,), уже встречавшийся в качестве узла Pi на одном из предыдущих шагов (I ^.р <. q — 1). Тогда v' = PipPip+1, Ptp+1Pip+2 Piq-iPlq и будет искомым циклом из Г (Л), удовлетворяющим всем трем условиям F.4.21). ? Теорема Бруалди имеет более сильную форму, если Л не- неразложима в обычном смысле. В этом случае она дает обоб- обобщение брауэровского варианта 6.4.7 теоремы 6.2.26. 6.4.26. Теорема (Бруалди). Пусть А = [а,7] е Мп — неразло- неразложимая матрица. Граничная точка X области F.4.19) тогда и только тогда является собственным значением матрицы А, когда через X проходит граница каждого множества Д F.4.27) каков бы ни был нетривиальный цикл у^С(А). Доказательство. Если X = аи для некоторого /, то X не мо- может находиться на границе области F.4.27), так как все Rt > 0. Поэтому можно считать, что X Ф аи, i—\, ..., п, и повторить рассуждения предыдущей теоремы 6.4.18, пользуясь теми же обозначениями. Нужно лишь помнить, что собственное значение X теперь принадлежит границе области F.4.19). Как и в дока- доказательстве леммы 6.2.3, X должно удовлетворять неравенству П |*-а„|> П К для всех нетривиальных циклов у^С(А), причем хотя бы для одного у в действительности достигается равенство. Сравнивая данное неравенство с F.4.25), видим, что равенство р.П,|А,-а„| = рП,Д; F-4.28) выполняется для специального цикла у', построенного в доказа- доказательстве теоремы 6.4.18. Поэтому соотношение F.4.23) должно быть равенством, и это же верно для обоих неравенств F.4.22) при всех у = 1,2, ..., k. В частности, равенство достигается
462 Гл. 6. Локализация и возмущения собственных значений в F.4.22а), а потому \хт \==\х1/+11 = clj+1 = const для каждого Р, е у' и Для всех /п, таких, что Pm e rout(Pi.). Этот вывод справедлив для любого цикла, удовлетворяющего условиям F.4.21). Определим теперь множество К ss {Pt э Г (Л): | хт | =сг »= const для всех т, таких, что PmS Tout (/>/)}. Множество /С непусто, так как содержит все узлы цикла у'. По- Покажем, что в действительности все узлы графа Г(Л) принад- принадлежат К. Предположим, что имеется не принадлежащий К узел Pq. Поскольку Г (Л) сильно связен, то для каждого узла из К най- найдется хотя бы один ориентированный путь в этот внешний узел Pq. Если из такого рода путей выбрать путь наименьшей длины, то его первая дуга обязательно идет из некоторого узла, при- принадлежащего К, в некоторый узел Pf, не принадлежащий К. Используя тот же предпорядок на узлах графа Г (Л), что и в доказательстве теоремы 6.4.18, мы можем провести такое же, как там, построение: начать с узла PfssP^, выбрать макси- максимальный узел Р/ е rOut (?*/,)» выбрать максимальный узел Р/з е Pout (Р/2), и так далее. На каждом шаге множество Tout (P/i) непусто вследствие слабой (и даже сильной) связ- связности Г (Л), и максимальный узел удовлетворяет условию (с) в F.4.21) по тем же, что и прежде, причинам. Если на некотором шаге построения возникнет выбор между максимальными узлами, один из которых принадлежит множе- множеству К, а другой — нет, мы всегда разрешаем его в пользу узла, который не входит в К- Если же все максимальные узлы дан- данного шага принадлежат К, мы выбираем произвольный из них и проводим из него кратчайший ориентированный путь к ка- какому-либо узлу не из а; после этого выбор максимальных узлов идет прежним образом. Любой ориентированный путь, проходя- проходящий в К, обладает следующим свойством (вытекающим из оп- определения множества К): каждый его узел является максималь- максимальным в множестве Tout предыдущего узла (условие (Ь) в F.4.21)). Поскольку дополнение к К содержит конечное число узлов, то наше построение рано или поздно натолкнется в пер- первый раз на максимальный узел из дополнения, который уже встречался на одном из предыдущих шагов. Ориентированный путь, связывающий первое и второе появления этого узла, мо- может не быть простым циклом вследствие способа, которым мы вынуждали путь покидать множество К в тех случаях, когда по-
6.4. Другие области локализации 463 строение приводило к его узлам. Часть пути, попадающая в К, содержит лишь конечное число циклов; отбрасывая их, получим простой ориентированный цикл у", удовлетворяющий условиям F.4.21) и содержащий по крайней мере один узел не из К. Так как для цикла у" условия F.4.21) выполнены, то в до- доказательстве теоремы 6.4.18 можно взять у" вместо у'. Рассуж- Рассуждения, изложенные в первой части доказательства, позволяют установить, что | xm\ = Cjr = const для всех Рт е Fout (Pjr) и всех Pj e у". Но тогда каждый узел в у" принадлежит К, а это противоречит более раннему утверждению о том, что у" содер- содержит хотя бы один узел не из К. Противоречие показывает, что в Г (Л) не может быть узлов, не входящих в К. Если у — произвольный нетривиальный (простой ориентиро- ориентированный) цикл в Т(А), то он автоматически (поскольку все узлы принадлежат К) удовлетворяет условиям F.4.21). Мы можем подставить его вместо у' в доказательство теоремы 6.4.18, а за- затем в вывод равенства F.4.28). Это и дает желаемый резуль- результат: граница каждого множества F.4.27) проходит через к. ? 6.4.29. Следствие. Пусть А еМ«. Каждое из следующих усло- условий достаточно для того, чтобы матрица А была обратима: (a) А слабо неразложима и П Ы> П /г; для любого нетривиального цикла у е С(А); (b) А неразложима и П \ан\> П К для любого нетривиального цикла у&С(А), причем хотя бы для одного цикла неравенство должно быть строгим. Задачи 1. Пусть матрица А =[ац] удовлетворяет условиям Брауэра следствия 6.4.11 (Ь) для обратимости. Показать, что |#и|>^ для всех 1 = 1, ..., п, кроме, быть может, одного значения. Та- Таким образом, условия Брауэра лишь немногим слабее условия (а) теоремы Леви — Деспланка 6.1.10, требующего строгого диа- диагонального преобладания. В какой связи это находится с теоре- теоремой 6.1.11? 2. Показать, что обратимость матрицы Л = [^д] можно установить с помощью любого из условий F.4.11), но ни усло- условие (а) теоремы Леви — Деспланка 6.1.10, ни теорема 6.1.11 для
464 Гл. 6. Локализация и возмущения собственных значений этой цели неприменимы. Что можно сказать о столбцовом ва- варианте последней теоремы? 3. Показать, что всякая неразложимая матрица А е Мп (л ^ 2) слабо неразложима. Привести пример слабо неразло- неразложимой матрицы, не являющейся неразложимой. 4. Доказать следствие 6.4.29. Указание. Использовать те же рассуждения, что обосновывают теоремы 6.1.10 и 6.2.6. 5. Показать, что матрица А еМ„ тогда и только тогда слабо неразложима, когда ее нельзя привести к блочно-треугольной матрице, среди диагональных блоков которой есть блок порядка 1, посредством одновременной перестановки строк и столбцов. Дополнительная литература Более подробно об областях локализации собственных зна- значений можно прочесть в статье: Brualdi R. Matrices, Eigenva* lues, and Directed Graphs.— Lin. Multilin. Alg., 1982, v. 11, p. 143—165. Там же даны многочисленные ссылки на основную литературу по данному вопросу.
Глава 7 ПОЛОЖИТЕЛЬНО ОПРЕДЕЛЕННЫЕ МАТРИЦЫ 7.0. Введение Многие приложения приводят естественным образом к классу эрмитовых матриц со специальным свойством положительности. Эрмитовы (и, в частности, вещественные симметричные) мат- матрицы с этим свойством дают к тому же одно из возможных обобщений на матричный случай понятия положительного чис- числа. Это обстоятельство часто позволяет предугадать свойства н применения положительно определенных матриц. Ниже при- приведены примеры ситуаций, в которых возникают эти специаль- специальные эрмитовы матрицы. Гессианы, минимизация и выпуклость Пусть f(x) — гладкая вещественнозначная функция, опреде- определенная на некоторой области D си R". Если у = [г/<] — внутрен- внутренняя точка этой области, то, согласно теореме Тейлора, для то- точек j:eO, близких к у, справедливо равенство ' У J> дх, дх, i, /-1 ' I Если у — критическая точка функции f, то все частные произ» водные первого порядка обращаются в этой точке в нуль, и по* ведение функции вблизи у описывается выражением п дх{ дх. Матрица порядка п называется гессианом функции f в точке у. Эта матрица сим- симметрична вследствие равенства смешанных частных произвол*
466 Гл. 7. Положительно определенные матрицы ных1). Если квадратичная форма zTH(f; у)г, гфО, ге^, G.0.1) всюду2) положительна, то у— локальный минимум для f. Если эта квадратичная форма всюду отрицательна, то у — локальный максимум для f. Разумеется, квадратичная форма G.0.1) может не сохранять знак для разных z e R"; в таком случае природа критической точки у не определена. Если л = 1, то указанные критерии превращаются в обычную проверку второй производ- производной, устанавливающую наличие локального минимума или мак- максимума. Третья возможность реализуется при п = 1 только в точке перегиба; если же п > 1, то картина может быть значи- значительно сложнее. Если квадратичная форма G.0.1) неотрицательна во всех точках области D (а не только в критических точках функции f), то f — выпуклая функция в D. Это прямое обобщение из- известной ситуации при п = 1. Ковариационные матрицы Пусть Х\, Xz, ..., Хп — вещественные или комплексные слу- случайные величины с конечными вторыми моментами на некото- некотором вероятностном пространстве с функционалом ожидания Е, и пусть \ii = E(Xi) — соответствующие средние. Ковариационной матрицей случайного вектора Х = (Х\, ..., Хп)т называется матрица А = [а,/] с элементами lx!)], I, /=1, ..., п. Очевидно, что А — эрмитова матрица; легко проверить, что для любого вектора 2 = [г,]еСп справедливы соотношения г'Аг = Я[f Z , ¦ — Hi) =? Z Zi(Xt — [it) i=\ 2 В приведенных выкладках использованы линейность, однород- однородность и неотрицательность функционала ожидания и только эти свойства. Неотрицательность означает, что E[Y]^0 для всякой неотрицательной случайной величины У. К тому же результату можно прийти, не прибегая к языку теории вероятностей. Пусть на вещественной прямой заданы се- семейство комплекснозначных функций /i, f2, ..., f« и веществен- ') Функция / предполагается по крайней мере дважды дифференцируе- дифференцируемой. — Прим. пере в. 2) То есть при всех г ф 0. — Прим. перев.
7.0. Введение 467 нозначная функция g. Если все интегралы 00 <*</= \ fi(x)fi(x)g(x)dx, I, /=1, ..., п, — оо имеют смысл и сходятся, то матрица А = [а,-/], очевидно, эрми- эрмитова. Несложно проверить, что zji(x)zjfj(x)g(x)dx^ -5 — оо п 2 (*) rf*. Следовательно, эта квадратичная форма будет всюду неотрица- неотрицательна, если g(x) — неотрицательная функция. Алгебраические моменты неотрицательных функций Пусть f(x) — абсолютно интегрируемая на отрезке [О, 1] ве- щественнозначная функция. Рассмотрим числа 1 ak = J x"f (x)dx, ? = 0,1,2 G.0.2) о называемые моментами Хаусдорфа. Последовательность а0, аи а2, ... очевидным образом связана с вещественной квадратич- квадратичной формой П п \ I , л .2 S J (] f мdx- ], fe=0 /, ft=0 0 0 G.0.3) Положим A = [at+j]. Эта матрица вещественна и симметрична, причем если f(x)^O для всех хе[0, 1], то zTAz^O, каков бы ни был вектор 2sR"+1. Это верно при каждом л = 1, 2, ... . Матрица такой структуры, как у А (элементы ац суть функции только от суммы индексов / + /), называется ганкелевой мат- матрицей независимо от того, будет или нет неотрицательна ассо- ассоциированная с ней квадратичная форма. См. раздел 0.9.8. Тригонометрические моменты Пусть f(x) — абсолютно интегрируемая на отрезке [0,2я] вещественнозначная функция. Рассмотрим числа 2Л ak ^ J emf (9) с/9, k = ± 1, ±2 G.0.4) о
468 Гл. 7. Положительно определенные матрицы называемые моментами Теплица. Последовательность ао, Ои й-ь а2, а~2, ... очевидным образом порождает квадратичную форму 2Я п /, k=0 j, fe=0 0 0 fc=0 G.0.5) Положим А == [a,_,]. Эта матрица эрмитова, и если /(х)^0 для всех а; е [0, 2л], то г*Лг ^ 0, каков бы ни был вектор г е С"+', Это верно при каждом и = 1, 2, ... . Матрица такой структуры, как у А (элементы ац суть функции только разности индексов i — /), называется тёплицевой матрицей независимо от того, будет или нет неотрицательна связанная с ней квадра- квадратичная форма. См. раздел 0.9.7. Согласно теореме Бохнера, не- неотрицательность квадратичной формы G.0.5) есть необходимое и достаточное условие для того, чтобы числа аи могли генери- генерироваться по формуле G.0.4) или по слегка измененной формуле G.0.4) (где неотрицательная мера й\х замещает произведение /F)) Дискретизация и разностные схемы для численного реше* ния дифференциальных уравнений Пусть имеется двухточечная краевая задача вида = а, Здесь a, J3 — заданные вещественные константы, а f(x) и a (л:) — заданные вещественнозначные функции. Дискретизуем эту за- задачу, рассматривая только значения y(kh)= yk, k—0, 1, .,. ..., rt + 1, и заменяя производную разделенной разностью У ( у ((k + I) h) -2y (kh) + у ((k - \) h) Тогда мы получим систему линейных уравнений ^а г ®k\)k == 1кг к = 1, 2, ..., п, Уо — а> г/ге+1 = Р- В ней используются обозначения h = l/(n+ \), yk = ak = cs(kh), fk = f.(kh). Если включить краевые условия в пер-
7.0. Введение 469 вое {k = 1) и последнее (k = п) уравнения, то придем к си- системе 2 = 2, 3, .... п-\, которую можно записать в более компактной форме Ау == w, где у - Ы s R", ш = [Л2/, + a, h%, ..., tffn_b h% + p)f s R", a Л е Afn — трехдиагональная матрица A = 0 — 1 -1 0 АЧ.-1 . G.0.6) Заметим, что Л будет вещественной симметричной трехдиаго- нальной матрицей независимо от того, какие значения прини- принимает функция а(х). Однако если требуется сохранить разреши- разрешимость системы Ay = w для произвольной правой части, то нужно наложить на а(х) некоторые условия, обеспечивающие невырожденность матрицы А. Легко построить ассоциированную с А вещественную квад- квадратичную форму хтАх = \х\ + Е (*, - хшJ + х{\ + № t otf. L i = l J ( = 1 Выражение, взятое в скобки, неотрицательно и равно нулю лишь тогда, когда все компоненты вектора х нулевые. Если о(х)^0, то последняя сумма неотрицательна и п-\ хт Ах > x\ 0. G.0.7) Если А вырожденна, то существует ненулевой вектор ieR", такой, что Ах = 0 и, следовательно, хтАх = 0, Но тогда средняя группа членов в G.0.7) должна обращаться в нуль, откуда сле- следует, что х = 0. Итак, если а(х)^0, то матрица А невырож- денна и дискретная краевая задача разрешима при любых крае- краевых условиях аир. Рассмотренная ситуация типична при численном решении дифференциальных уравнений, обыкновенных или с частными производными. Из соображений численной устойчивости жела-
470 Гл. 7. Положительно определенные матрицы тельно строить метод дискретизации дифференциальной задачи таким образом, чтобы он приводил к системе линейных урав- уравнений А у = w с положительно определенной матрицей А. Если дифференциальные уравнения эллиптические, то обычно это удается сделать. Матрицы со специальным свойством положительности, иллю- иллюстрируемым этими примерами, являются предметом исследова- исследования в данной главе. Эти матрицы возникают в многочисленных приложениях: в гармоническом анализе, комплексном анализе, теории колебаний механических систем и, кроме того, во многих разделах самой теории матриц, например при сингулярном раз- разложении матрицы или решении линейных задач метода наи- наименьших квадратов. Задачи 1. Пусть последовательность {ak) генерируется формулой G.0.2), причем функция / неотрицательна. Показать, что обе квадратичные формы i, i"i I. /-1 неотрицательны. 2. Сделать рисунок, показывающий, какие диагонали ганке- левой матрицы постоянны. То же задание для тёплицевой мат- матрицы. 3. Показать, что матрица А формулы G.0.6) всегда нераз- неразложима, а если ст(л')^0, то это матрица с диагональным пре- преобладанием. Из следствия 6.2.27 вывести, что в этом случае А невырожденна и все ее собственные значения положительны. Дополнительная литература Краткий обзор фактов, относящихся к вещественным поло- положительно определенным матрицам, можно найти в статье: Johnson С. R. Positive Definite Matrices.— Amer. Math. Monthly, 1970, v. 77, p. 259—264. Два других обзора, трактующие различ- различные приложения положительно определенных матриц и содер- содержащие богатую библиографию — это работы Ольги Таусски: Taussky О. Positive Definite Matrices.— In: Inequalities (ed. O. Shisha). —New York: Academic Press, 1967, p. 309—319; Taussky O. Positive Definite Matrices and Their Role in the Study of the Characteristic Roots of General Matrices. — Advan. Math., 1968, v. 2, p. 175—186.
7.1. Определения и свойства 471 7.1. Определения и свойства Эрмитова п X «-матрица А называется положительно опре- определенной, если х*Ах>0 для любого ненулевого вектора ^еС*. G.1.1) Если ослабить G.1.1) заменой знака > на ^, то А будет на- называться положительно полуопределенной. В сами определяю- определяющие неравенства G.1.1) уже неявно заложено требование, чтобы А была эрмитовой, поскольку левая часть должна быть веще- вещественным числом при всех х. Разумеется, если А положительно определена, то она будет в то же врэмя положительно полу- определениой. Упражнение. Что означают свойства положительной опреде- определенности и полуопределенности при п = 1? Упражнение. Пусть А е Мп, и пусть произведение х*Ах ве- вещественно для любого хеС", Доказать, что А — эрмитова матрица. Таким образом, вводя свойство положительной опре- определенности,, можно не требовать, чтобы матрица А была эрми- эрмитовой. Тем не менее, этого обычно требуют. Указание. Предста- Представить А в виде А = В -f- 1С, где В и С эрмитовы. Упражнение. Пусть А — вещественная матрица из М„, и пусть произведение хтАх положительно для любого ненулевого вектора ieR", Показать, что матрица А не обязана быть сим- симметричной и, следовательно, положительно определенной. Ука- Указание. Рассмотреть вещественную кососимметричную матрицу А и вычислить (хтАх)т. Чему в этом случае равно хтАх? Что можно сказать о х*Ах, если х — комплексный вектор? Упражнение. Показать, что матрица [ [ J ] положительно полуопределена, но не является положительно определенной. Упражнение. Показать, что если A = [ai,-]^ М„ положи- положительно определена, то это же верно для матриц А = [йц], Ат, А* и А~1. Указание. Если Ау = х, то х*А-1х = у*А*у. Аналогичным образом можно ввести термины отрицательно определенная и отрицательно полуопределенная матрица: до- достаточно изменить в определении G.1.1) знак неравенства на противоположный или, что эквивалентно, потребовать, чтобы матрица —А была соответственно положительно определенной или положительно полуопределенной. Таким образом, всякое утверждение относительно отрицательно определенных матриц отражает зеркальным образом утверждение относительно поло- положительно определенных матриц. Если эрмитова матрица не принадлежит ни одному из указанных выше классов (т. &,
472 Гл. 7. Положительно определенные матрицы левая часть G.1.1) может принимать и положительные, и отри- отрицательные значения), то ее называют незнакоопределенной. Из свойства матрицы быть положительно определенной сразу вытекает несколько следствий; каждое из них имеет ана- аналог для положительно полуопределенных матриц. 7.1.2. Утверждение. Всякая главная подматрица положи- положительно определенной матрицы сама положительно определена. Доказательство. Пусть S — собственное подмножество мно- множества {1,2, ..., п}. Обозначим через A (S) матрицу, получен- полученную из положительно определенной матрицы А^М„ удале- удалением строк и столбцов с номерами, дополнительными к 5. Тогда A(S) — главная подматрица матрицы А, и все главные подмат- подматрицы могут быть получены этим путем. Напомним, что число det^E) есть главный минор матрицы А. Пусть хеС" — нену- ненулевой вектор, в котором компоненты, индексированные множе- множеством 5, произвольны, а остальные компоненты нулевые. Пусть x(S)— вектор, получающийся из х удалением (нулевых) компо- компонент с номерами, дополнительными к S. Заметим, что х E)* A (S) х (S) = х"Ах > 0. Поскольку x(S) — произвольный ненулевой вектор, это означает, что матрица A(S) положительно определена. ? Упражнение. Показать, что диагональные элементы положи- положительно определенной матрицы суть положительные числа. 7.1.3. Утверждение. Сумма любых двух положительно опре- определенных матриц одинакового порядка является положительно определенной матрицей. Более общо, любая неотрицательная линейная комбинация положительно полуопределенных матриц сама положительно полуопределена. Доказательство. Пусть А я В положительно полуопределены, и пусть числа а, Ъ неотрицательны. Заметим, что для любого xgC" справедливо х*(аА + ЬВ)х = а(х*Ах) + Ь{х*Вх) ^0. Случай большего числа слагаемых рассматривается аналогич- аналогичным образом. Если коэффициенты положительны, матрицы А и В положительно определены и вектор х ненулевой, то каждый член указанной выше суммы положителен. Таким образом, по- положительная линейная комбинация положительно определенных матриц сама положительно определена. ? Итак, множество положительно определенных матриц есть положительный конус в векторном пространстве всех матриц. 7.1.4. Утверждение. Каждое собственное значение положи- положительно определенной матрицы положительно.
7.1. Определения и свойства 473 Доказательство. Пусть А положительно определена, X е о (А) и х — собственный вектор матрицы Л, отвечающий X. Тогда х*Ах = х*Хх = %х*х. Поэтому собственное значение X — = (х*Ах) /х*х положительно как отношение двух положительных чисел. П 7.1.5. Следствие. След, определитель и все главные миноры положительно определенной матрицы положительны. Доказательство. След и определитель являются соответствен* но суммой и произведением собственных значений. Остальное следует из утверждения 7.1.2. ? Упражнение. Показать, что собственные значения, след, опре- определитель и главные миноры положительно полуопределенной матрицы суть неотрицательные числа. Упражнение. Показать, что собственные значения и след от- отрицательно определенной матрицы порядка п отрицательны, а определитель отрицателен для нечетных п и положителен для четных. Упражнение. Показать, что если матрица A==[aij]sM2 по- положительно определена, то аца-22 > | а!2]2. {Указание. Восполь- Воспользоваться свойством deti4>0.) Вывести отсюда, что для поло- положительно определенной матрицы А е Мп при всех /,/ = 1,2, ... ..., п auail > I ««•/12. Показать, что в случае, если А лишь положительно полуопре- полуопределена, знак > в этом неравенстве нужно заменить на ^. 7.1.6. Утверждение. Пусть матрица А^М„ положительно определена. Если С^Мп, т, то матрица С*АС положительно по- полуопределена. Кроме того, rank (С* А С) = rank С, так что С* АС положительно определена тогда и только тогда, когда С имеет ранг т. Доказательство. Прежде всего заметим, что матрица С*АС эрмитова. Для любого хеСя имеем х*С*АСх — у*Ау ^ 0, где у == Сх, а неравенство есть следствие положительной опреде- определенности матрицы А. Итак, матрица С*АС положительно полу- полуопределена. Далее замечаем, что, поскольку А положительно определена, неравенство х*С*АСх> 0 равносильно условию Сх ф 0. Утверждение относительно ранга (тем самым и относи- относительно положительной определенности матрицы С*АС) было бы доказано, если бы мы могли утверждать, что равенства С*АСх= = 0 и Сх = 0 эквивалентны. Действительно, это означало бы, что матрицы С*АС и С имеют одно и то же ядро (а следова-
474 Гл. 7. Положительно определенные матрицы тельно, одинаковый ранг). Если Сх = 0, то, очевидно, С*АСх~ = 0. Обратно, если С*АСх — 0, то х*С*АСх = 0, откуда, снова используя положительную определенность матрицы А, получаем Сх = 0. ? Упражнение. Пусть матрица А е Мп положительно полуопре- делена, но не является положительно определенной, и пусть С — произвольная матрица из М„. Показать, что матрица С*АС также положительно полуопределена, но положительно опреде- определенной не будет. Для случая С е Мп, т, где пф т, построить пример, показывающий, что CMC может быть положительно определенной даже при вырожденной матрице А е Мп. Упражнение. Показать, что конус положительно (полу) опре- определенных матриц инвариантен относительно преобразования эрмитовой конгруэнтности. См. определение 4.5.4. Упражнение. Пусть матрица /1еМ« эрмитова. Показать, что она тогда и только тогда будет положительно (полу)опреде- ленной, когда существует невырожденная матрица С е М„, та- такая, что CMC положительно (полу)определена. Что произойдет, если опустить в определении G.1.1) требо- требование, чтобы матрица А была эрмитовой, и использовать только вещественные векторы? Если А — вещественная матрица, а «е R", то произведение хТАх вещественной можно, как прежде, рассматривать матрицы, для которых хтАх>0 при всех хфО (даже если А несимметрична). Если А — комплексная матрица либо допускаются векторы хеС", то можно заменить G.1.1) условием Яе(х"Ах)>0 для любого ^0еСл, G.1.Г) Определим эрмитову компоненту матрицы А как матрицу Н(А)в*±(А + А'). G.1.7) При я = 1 это попросту вещественная часть комплексного числа А. Упражнение. Показать, что условие G.1.Г) равносильно тому, что матрица Н{А) положительно определена. Упражнение. Показать, что для любой матрицы А е Мп справедливо представление А=Н(А)+ S(A), где S(A) = = (А — Л*)/2 — матрица, называемая косоэрмитовой компонен- компонентой матрицы А.
7.1. Определения и свойства 475 Задачи 1. Пусть матрица А^Мп положительно полу определена, а х е С". Показать, что х*Ах = О тогда и только тогда, когда Ах = 0. Вывести отсюда, что ранг положительно полуопределен- полуопределенной матрицы А е Мп равен п в том и только в том случае, если А положительно определена. Указание. Рассмотреть квадрат- квадратный многочлен p(t) — (x + ty)*A(x + ty), leR. Если xMx = Q, то показать, что p(t)^O при всех t, р@) = 0 и dp/dt = O при /==0. Вывести из этого, что у*Ах = 0 для всех jeC" и, следо- следовательно, Ах = 0. 2. Показать, что если в положительно полуопределенной матрице некоторый диагональный элемент равен нулю, то ну- нулевыми будут все элементы соответствующих строки и столбца. 3. Пусть все диагональные элементы положительно опреде- определенной матрицы равны +1. Показать, что тогда все вообще эле- элементы матрицы ограничены по абсолютной величине единицей. Может ли1) достигаться равенство? 4. Доказать, что ранг положительно полуопределенной мат- матрицы А тогда и только тогда равен 1, когда А представима в виде А — хх* для некоторого ненулевого вектора хе С". 5. Пусть матрица Л = [а,у] e.Mrt положительно определена. Доказать, что матрица [а;//(апа//I/2] также положительно определена, все ее диагональные элементы равны +1 и все во- вообще элементы ограничены по абсолютной величине единицей. Такую матрицу называют корреляционной. Указание. Найти преобразование конгруэнтности с подходящей вещественной диа- диагональной матрицей. 6. Показать, что для вещественной матрицы А выполнение требования х1 Ах ~> 0 при всех ненулевых j;eR" зависит только от эрмитовой компоненты Н(А). 7. Построить и доказать утверждения, аналогичные 7.1.2, 7.1.3, 7.1.4 и 7.1.6, для матрицы ЛеМ„(С), такой, что Н(А) положительно определена. 8. Функция /: R->-C называется положительно определен- определенной, если матрица [f{xi — Xj)]^Mn положительно полуопреде- полуопределена, каковы бы ни были ле{1,2, ...} и точки {xit x2, ... . ..,jcn}c:R. Показать, что f(—x)—f(x) для любого igR, Опираясь на неотрицательность определителя положительно по- полуопределенной матрицы, доказать, что для положительно опре- определенной функции / (a) f(O)^0,n=l; (b) / — ограниченная функция и |/(*)|</@) для всех х <= R, п = 2; ') Для какого-либо внедиагонального элемента. — Прим. перев.
476 Гл. 7. Положительно определенные матрицы (с) если / непрерывна в нуле, то она непрерывна всюду, 9. Пусть f\(x), f2(x), ..., fn{x) — положительно определен- определенные функции,аь а2, ..., ап — неотрицательные числа. Показать, что функция f(x) s= aifi(х) -f ...+ anfn(x) также положительно определена. 10. Показать, что функция eltx положительно определена для каждого заданного /eR, Используя задачу 9, показать, что функция / (х) = ахе"t[X + ••¦ + а„е""* положительно опреде- определена при любом выборе точек tu ..., /seR и любых неотри- неотрицательных коэффициентах аь ..., ап. 11. Доказать, что функция cos* положительно определена. Указание, cos x = (eix + e~ix) /2. 12. Будет ли положительно определенной функция sinx? 13. Пусть g(x)—неотрицательная функция, интегрируемая на R. Показать, что функция " eitxg{t)dt положительно определена. Указание. Воспользоваться опреде- определением. 14. Доказать, что функция f(x)=\/(l — ix) положительно определена. Указание. Положить в задаче 13 g@ = ?~' ПРИ ^>0, g(t) = O при t <0. 15. Показать, что из положительной определенности функ- функции / вытекает положительная определенность функций f(x) и |/(x)j2. Используя последний результат, вывести из задачи 14 положительную определенность функции 1/A -{-х2). 16. Используя G.0.2) и G.0.3) для /(х)=1, показать, что матрица А = [ац]^Мп с элементами ац = l/(t + /— 1), i, j — = 1, ..., п, полол<ительно определена при всех п = 1,2, ... . 17. Показать, что матрица А =[а,/]е М„ с элементами ац — = !/(' + /). К 1 — 1» 2, ..., п, положительно определена при всех п = 1, 2, ... . Указание. Для любого л; = [х*] е R" Вычислить этот интеграл. 18. Используя утверждение 7.1.6, показать, что матрица А = = [а,/]еЛ1„ с элементами ац = mm{i,j} положительно опре- определена. Указание. Выяснить устройство этой матрицы, выписы- выписывая ее явно для п = 4. Затем рассмотреть CMC, где С — веще-
7.2. Характеризации 477 ственная матрица вида  -1 -1 О 1 О с = -1 о ,мп. _о о о ... Будет ли С невырожденной? Заметить, что в результате первая строка (и столбец) матрицы А вычтется из всех остальных строк (и столбцов). Теперь нужно учесть вид нижней угловой подмат- подматрицы порядка п— 1 в С*АС и выполнить с ней подходящее пре- преобразование конгруэнтности, изменяющее ее таким же образом. Вывести отсюда, что А эрмитово конгруэнтна единичной мат- матрице /. 19. Используя задачу 18 и операцию предельного перехода, показать, что ядро K(s, t) — min{s, t) положительно полуопре- полуопределено на отрезке [О, N] при любом N > 0. Это означает, что N N \ \ K(s, t)f(s)f(t)dsdt>0 G.1.8) о о для любой комплекснозначной функции /(•), определенной и непрерывной на [0, N]. Указание. Трактовать интеграл как пре- предел римановых сумм для разбиений отрезка [0, N] равноуда- равноудаленными узлами. 20. Доказать, что для любой комплекснозначной функции /(•), определенной и непрерывной на [0,N], справедливо равен- равенство N N N min{s, t}f(s)f{t)dsdt=\ f(s)ds dt. Построить на его основе другое доказательство утверждения за- задачи 19. Это доказательство дает более сильный результат: ядро K,(s,t) = m\n{s,i} положительно определено, т. е. равенство в G.1.8) имеет место тогда и только тогда, когда /(/) = 0. Указа- Указание. Заменить двойной интеграл повторным и проинтегрировать по частям. 7.2. Жзрантеризации Существует несколько простых и полезных характеризации положительно определенных матриц. 7.2.1. Теорема. Эрмитова матрица А е Мп положительно по- полуопределена в том и только в том случае, если все ее собствен'
478 Гл. 7. Положительно определенные матрицы ные значения неотрицательны. Она положительно определена в том и только в том случае, если все собственные значения по- положительны. Доказательство. Поскольку все собственные значения мат- матрицы А положительны, то для любого ненулевого вектора хеС х'Ах = x'U* DUx = y'Dy='? diylyi = Е <*< I & Р > 0. 1=1 j-i Здесь D — diag(di, с1ъ, ..., dn) — диагональная матрица, состав- составленная из собственных значений матрицы Л, у— Ux и U — уни- унитарная матрица. Обратное утверждение содержится в утвержде- утверждении 7.1.4. Случай положительно полуопределенной матрицы рас- рассматривается аналогичным образом. ? Упражнение. Показать, что невырожденная матрица А е Мп тогда и только тогда будет положительно определенной, когда положительно определена А-1. Упражнение. Пусть матрица А е Мп положительно полуоп- полуопределена. С помощью теоремы 7.2.1 показать, что А тогда и только тогда будет положительно определенной, когда rank Л = = п. Сравнить с задачей 1 из § 7.1. 7.2.2. Следствие. Если матрица А е М„ положительно полу- полуопределена, то положительно полуопределены и все степени Л*, Л=1,2 Доказательство. Если Aj, ..., Хп — собственные значения матрицы Л, то собственными значениями матрицы Л* будут числа %\, ..., kkn. U 7.2.3. Следствие. Если А^Мп—-эрмитова матрица со стро- строгим диагональным преобладанием и положительными диаго- диагональными элементами, то А положительно определена. Доказательство. Это утверждение есть частный случай тео- теоремы 6.1.10. Из сделанных предположений вытекает, что каж- каждый круг Гершгорина матрицы Л принадлежит открытой правой полуплоскости. Поскольку все собственные значения эр- эрмитовой матрицы вещественны, они должны быть положитель- положительными; следовательно, по теореме 7.2.1 Л положительно опре- определена. ? Упражнение. Пусть эрмитова матрица Л эрмитово конгруэнт- конгруэнтна матрице с положительными диагональными элементами и строгим диагональным преобладанием. Показать, что А положи- положительно определена.
7.2. Характеризации 479 Следующая характеризация не слишком практична при ре- реальной проверке матрицы на положительную определенность, однако может быть полезна с теоретической точки зрения. 7.2.4. Следствие. Пусть А е Л1„ — эрмитова матрица с харак- характеристическим многочленом Предположим, что О sg: m ^ п и ап-т Ф 0. Матрица А тогда и только тогда будет положительно полуопределенной, когда акф0 для всех k от п — m до п и akak+\ <. 0 для k = — п — пг, ..., п — 1. Мы полагаем ап = 1. Доказательство. Утверждение следствия состоит в том, что все старшие коэффициенты ak ненулевые и имеют строго чере- чередующиеся знаки. Если это условие выполнено, то у рл (t) не мо- может быть отрицательных корней; следовательно, все собствен- собственные значения матрицы А должны быть неотрицательными. Об- Обратно, пусть А положительно полуопределена. Обозначим ее положительные собственные значения через %i, Я2, ..., Кт (остальные п — т собственных значений равны нулю). По ин- индукции можно доказать, что все коэффициенты многочленов t — Ki, (t — h)(t — Ла), ..-, (t — ki)(t — k2) ... (t — кт) не- ненулевые и имеют чередующиеся знаки. Умножение на tn-m дает pA(t). П Чтобы упростить формулировку следующего утверждения, обозначим через Л; ведущую главную подматрицу матрицы А, определяемую первыми i строками и столбцами: Л,- = А ({1, 2, ... ...,/}), /=1, ..., п. Мы уже отмечали, что в положительно определенной матрице А все главные миноры положительны. В действительности, для эрмитовой матрицы А верно и обрат- обратное. Однако можно доказать более сильное утверждение. Заме- Заметим, что поскольку А эрмитова, эрмитовы и все Ai, а потому каждая матрица Л,- имеет вещественный определитель. 7.2.5. Теорема. Эрмитова матрица А е Мп тогда и только тогда будет положительно определенной, когда det Л(- >- 0 для i = 1, 2, ..., п. Более общо, положительность любой последо- последовательности из п вложенных главных миноров матрицы А (а не только последовательности из ведущих главных миноров) необ- необходима и достаточна для положительной определенности этой матрицы. Доказательство. Из следствия 7.1.5 известно, что для поло- положительно определенной матрицы A det А ,¦>{) при всех_/ =
480 Гл. 7. Положительно определенные матрицы = 1, 2, ..., п. Обратное утверждение докажем, пользуясь ин- дукцией и разделительными неравенствами, справедливыми для всякой эрмитовой матрицы (см. D.3.8)). Для матрицы А\ по- порядка 1 условие det А\ >¦ 0 означает, что А\ положительно опре- определена. Если для некоторого k •< п матрица Ak положительно определена, то все ее собственные значения положительны и, как следует из разделительных неравенств, положительны все собственные значения матрицы Ak+u исключая, возможно, наи- наименьшее. Но произведение собственных значений матрицы Ак+\ равно числу detAk+i, по предположению положительному, по- поэтому Ak+\ не может иметь только одно отрицательное собствен- собственное значение. Отсюда заключаем, что наименьшее собственное значение этой матрицы также положительно; следовательно, Ak+i должна быть положительно определенной. Поскольку Ап = А, то доказательство закончено. В случае произвольной последовательности вложенных миноров нужно рассмотреть мат- матрицу, получаемую из А надлежащими перестановками строк и столбцов. ? Согласно теореме 7.2.5, эрмитова матрица положительно определена, если ее ведущие главные миноры положительны (и только в этом случае). Учитывая теорему 7.2.1, видим, что любое из двух ассоциированных с А числовых множеств может быть использовано для проверки положительной определен- определенности. Упражнение. Используя теорему 7.2.5, показать, что матрица 5 -1 [5 -1 31 в к -1 2 -2 3-2 3- положительно определена. Упражнение. Показать, что ведущие главные миноры сим- симметричной матрицы [о _°] неотрицательны, но матрица не яв- является положительно полуопределенной. Упражнение. Пусть А е Мп — эрмитова матрица, и пусть det Л1 > 0, detAjX) deti4n_,>0 и det/4n>0. Показать, что А положительно полуопределена. Указание. Какую ин- информацию о собственных значениях матриц Ап и Ап-\ дают разделительные неравенства? Упражнение. Предположим, что эрмитова матрица А е Мп имеет положительные диагональные элементы и положительный
7.2. Характеризации 48] определитель. Рассматривая матрицу 1 2 П 2 1 1 L 1 1 t J для подходящих значений t, показать, что эти условия сами по себе не обеспечивают положительную определенность. Однако если предположить дополнительно, что некоторая главная под- подматрица порядка п—1 является матрицей с диагональным пре- преобладанием, то отсюда уже следует положительная определен- определенность. Упражнение. Пусть Л е М„— эрмитова матрица. Показать, что положительная полуопределенность матрицы А равносильна существованию последовательности эрмитовых матриц Ле, схо- сходящейся к А при 8->0 и такой, что в каждой матрице Ле вся- всякая главная подматрица имеет положительный определитель. Вывести отсюда такое следствие: если все главные миноры мат- матрицы А неотрицательны, то А положительно полуопределена. Каждое положительное число имеет единственный положи- положительный корень k-я степени, где k = \, 2, ... . Аналогичное утверждение справедливо для положительно определенных матриц. 7.2.6. Теорема. Пусть А^Мп — положительно полуопреде- полуопределенная матрица, a k ^ 1 — заданное целое число. Тогда суще- существует единственная положительно полуопределенная эрмитова матрица В, такая, что Bk = А. При этом (а) ВА=АВ и существует многочлен p{t), такой, что В --— р() (b) rank В = rank Л {таким образом, матрица В положи-, тельно определена, если положительно определена Л); (c) В вещественна, если вещественна А. Доказательство. Мы знаем, что эрмитову матрицу Л можно диагонализовать посредством унитарного подобия: Л = UAU*, где A = diag(/4, ..., Хп) и все Яг>0. Положим B = UAi!kU>'; здесь KVk = diag (l\lk, ..., %)lk) и в каждом случае берется единственный неотрицательный корень k-и степени. Ясно, что Вк = Л, причем В эрмитова и положительно полуопределена, поскольку все ее собственные значения неотрицательны. Имеем, кроме того, АВ = UAU*UAl'kU* = UAAl/kU* = UAx'kAU* = = UAl/kU*UAU* = BA. Ранг матрицы В совпадает с числом не- ненулевых hi, т. е. с рангом матрицы А. Если А — вещественная положительно полуопределенная матрица, то, как мы знаем, 16 Р.' Хорн, Ч. Джонсои
482 Гл. 7. Положительно определенные матрицы можно выбрать вещественную ортогональную матрицу U. По- Понятно, что в этом случае и В может быть взята вещественной. Остается рассмотреть только вопрос о единственности. Прежде всего заметим, что существует многочлен p{t), та- такой, что р(А) = В. Нужно лишь в качестве p(t) взять интерпо- интерполяционный многочлен Лагранжа (см. @.9.11)) для множества {(Яр Я,}/*), ..., (Хп, А''*)}; тогда р(А)=А^н р(А) = p(UAU<) = = Up(A)U* — UA1/kU* = В. Если С — произвольная положи- положительно полуопределенная эрмитова матрица, такая, что Ск = А, то В = р(А)=р(С*). Тогда СВ = Ср(С*) = р(С")С = ВС. По- Поскольку В и С — коммутирующие эрмитовы матрицы, то их можно диагонализовать одним преобразованием унитарного по- подобия, т. е. существуют унитарная матрица V и диагональные матрицы Ль Л2 с неотрицательными диагональными элемен- элементами, такие, что В— V A\V* и С= VA2V*. Подставляя эти вы- выражения в равенства Bk = А = Ск, получаем Л* = Л*. Так как неотрицательный корень k-й степени из неотрицательного числа определен единственным образом, заключаем, что (A*I/e = Ai = = Л2 = (Л?I/* и В = С. П Наиболее полезный случай доказанной теоремы соответ- соответствует значению k = 2. Единственный положительно (полу)оп- (полу)определенный квадратный корень из положительно (полу) опреде- определенной матрицы А обычно обозначается через Л1/2. Точно так же А1/к обозначает единственный положительно (полу)опреде- (полу)определенный корень k-й степени из матрицы A, k = \, 2, ... . Упражнение. Вычислить ["] . Упражнение. Показать, что для положительно определенной матрицы А справедливо соотношение (Ах/2)~х =(А~1I/2. 7.2.7. Теорема. Матрица В е М„ положительно определена тогда и только тогда, когда В = С*С для некоторой невырож- невырожденной матрицы С е Мп. Доказательство. Если В можно представить в таком виде, то В положительно определена (см. утверждение 7.1.6).Если же В положительно определена, то нужное разложение можно полу- получить, полагая С = Bi/2; при этом С даже эрмитова. 7.2.8. Следствие. Эрмитова матрица А тогда и только тогда положительно определена, когда она эрмитово конгруэнтна еди- единичной матрице. Доказательство. Это утверждение — всего лишь переформу- переформулированная теорема 7.2.7. ?
7.2. Характеризации 483 Упражнение. Пусть А е Мп — положительно определенная матрица, и пусть А = С]С1, А=-С*2С2, где Ср С2 е Мп. Показать, что C2=VC\, где V — унитарная матрица. В частности, пока- показать, что любое решение уравнения А — С*С имеет вид С= VAI/2 для некоторой унитарной матрицы V. Указание. По- Показать, что Иногда полезно знать, что разложение А = С*С положи- положительно полуопределенной матрицы может быть несколько кон- конкретизировано. Всякая матрица С допускает (^-разложение (C = QR), где Q унитарна, a R— верхняя треугольная мат- матрица такого же ранга, как С (см. B.6.1)). Но тогда А = С*С = = (QR)*QR = R*Q*QR = R*R. Если С невырожденна, то мат- матрицу R можно выбрать так, чтобы ее диагональные элементы были положительными (^-разложение этого типа единствен- единственно), а если С вещественна, то можно взять вещественные О и R. Мы установили существование разложения Холецкого мат- матрицы А. Оформим этот результат в виде следствия. 7.2.9. Следствие. Для положительной определенности мат- матрицы А е Мп необходимо и достаточно, чтобы существовала не- невырожденная нижняя треугольная матрица L е Мп с положи- положительными диагональными элементами, такая, что А — LL*. Если А вещественна, то вещественна и L. Пусть {vu ..., Vkj—система из k заданных векторов про- пространства V со скалярным произведением <•,•>. Матрицей Грама векторов {i>i, ..., Vk} относительно скалярного произве- произведения <•,•> называется матрица G = [g,,] e M* с элементами ёи = (.V/, vi). Последняя характеризация, которую мы даем для положительно полуопределенных матриц, описывает их как мат- матрицы Грама (см. следствие 7.2.11). 7.2.10. Теорема. Пусть G^Mk — матрица Грама векторов {|, ..., WftjczC" относительно заданного скалярного произве- произведения <-,->, и пусть W = [wiw2 ... wu\ s Mn, k- Тогда (a) G положительно полуопределена; (b) для невырожденности матрицы G необходимо и доста- достаточно, чтобы векторы w\, ..., wk были линейно независимы; (c) существует положительно определенная матрица А(=Мп, такая, что G = W*A W; (d) rank G = rank W = максимальное число линейно незави- независимых векторов в системе {wu ..., wk). Доказательство. Матрица G —[gi/] с элементами gn = f= <ш/, ш,-> эрмитова вследствие эрмитовости скалярного произ-
484 Гл. 7. Положительно определенные матрицы ведения. При этом k k k X*GX = J] gijXiXj = E (Wj, Wi) XtXj = ? (XjWj, XtWt) — i, 7 = 1 i, 1 = 1 I, /=1 Норма || • [| порождена данным скалярным произведением. Вслед- Вследствие положительной определенности нормы равенство нулю возможно, лишь если k Y 0. При нетривиальном наборе коэффициентов xt это означает, что заданные векторы {ш,} линейно зависимы. Если матрица G вы- рожденна, то найдется ненулевой вектор х, такой, что Gx = 0: следовательно, x*Gx = 0 и система {ш,} линейно зависима. Об- Обратно, если XiWi-\- ... -f- xkWft = 0 ') и x = [xi\, то, как пока- показано выше, x*Gx = 0, так что матрица G должна быть вырож- вырожденной. Если {ей ..., еп}—естественный ортонормированный базис пространства С", то матрица Л =(<?/, е,>) положительно опре- определена согласно (а) и (Ь). Для любых векторов х, jeC имеем y=i-' ' /="i • V (,T=l ' Отсюда gt/ = (wt, wi\ = w'iAw!, а потому Q = W*AW. Наконец, если Gx = 0, то лг*Сл: = **U?M И?* = (№*) M {Wx)= = 0, значит, Wx = 0, поскольку матрица А положительно опре- определена. Обратно, Wx = 0 влечет за собой Gx = W*A (Wx) = 0; поэтому G и W имеют одно и то же ядро, а следовательно, оди- одинаковый ранг. Но столбцовый ранг матрицы W есть максималь- максимальное число линейно независимых векторов в системе {w\, ••• ..., wk}. U Упражнение. Чаще всего теорема 7.2.10 применяется в слу- случае обычного евклидова скалярного произведения <х, у} = у*х. Показать, что в этом случае А = /; вывести отсюда, что макси- максимальное число линейно независимых векторов в заданной си- системе {wi, ..., W/jjczC" в точности равно рангу матрицы 7.2.11. Следствие. Пусть АеМп — заданная матрица. Для того чтобы А была положительно полуопределенной и имела ') Причем не все xi равны нулю. — Прим. перев.
7.2. Характеризации 485 ранг г sg: п, необходимо и достаточно, чтобы существовала си- система векторов S ={wi, ..., ш„}с:С" с максимальным числом линейно независимых векторов, равным г, для которой А есть матрица Грама относительно евклидова скалярного произве- произведения. Доказательство. Достаточность условия установлена в тео- теореме 7.2.10. Для доказательства необходимости представим А, пользуясь теоремой 7.2.6, в виде А = В2, где В положительно полуопределена. Ранги матриц В и А одинаковы, и А = В2 = = В*В является матрицей Грама системы столбцов матрицы В относительно евклидова скалярного произведения. ? Задачи 1. Пусть А — эрмитова матрица. Показать, что матрица A2k положительно полуопределена для всех k ¦= 1, 2, ..., а матрица еА положительно определена. См. упражнения, сопровождаю- ¦ щие теорему 5.6.15. 2. Пусть матрица А положительно полуопределена, и пусть p(t) — произвольный многочлен, такой, что /?(<)>• 0 для всех t^O. Показать, что матрица р(А) положительно полуопреде- полуопределена. Указание. Каковы собственные значения матрицы р(А)? Каким образом данный результат обобщает утверждение за- задачи 1? 3. Используя теорему 7.2.5, показать, что матрица А = *=[а//]е.М„ с элементами ац ^ rnin{/, /} положительно опре- определена. Указание. Вычислить detAi, вычитая первую строку из всех остальных, а затем проделав то же самое со столбцами. Что можно сказать о матрице с элементами ац = max {г,/}? 4. Пусть матрицы А и В положительно определены. Пока- Показать, что их прямая сумма, т. е. матрица [ 0 в]> также поло- положительно определена. 5. Привести пример вещественной квадратной (неэрмито- (неэрмитовой) матрицы с положительными ведущими главными мино- минорами, среди собственных значений которой есть имеющие отри- отрицательную вещественную часть. 6. Восполнить пропущенные рассуждения в общем случае теоремы 7.2.5, т. е. доказать, что положительности любой после- последовательности из п вложенных главных миноров (необяза- (необязательно ведущих; вложенность понимается как включение под- подматриц) достаточно для положительной определенности эрми- Фовой п X n-матрицы А. 7. Сформулировать необходимые и достаточные условия от- отрицательной (полу)определенности эрмитовой матрицы А в тер- терминах знаков ее миноров.
486 Гл. 7. Положительно определенные матрицы 8. Существуют ли «квадратные корни» из положительно по- полуопределенной матрицы А, отличающиеся от Л1/2? Сколько их? Имеются ли корни k-n степени, отличающиеся от Al/k? Воз- Возможны ли неэрмитовы квадратные корни? Указание. Рассмот- Рассмотреть матрицу [ ~10 j ] . 9. Пусть матрица В е Мп положительно полуопределена и имеет ранг т. Показать, что существует т X n-матрица С ранга т, такая, что В = С*С. Отметить частный случай этого утверж- утверждения: положительно полуопределенная матрица ранга 1 всегда может быть представлена в виде хх*, где х — некоторый вектор из С". 10. Предположим, что матрица /1еМл положительно полу- полуопределена и имеет ранг г <С п. Показать, что у А най- найдется положительно определенная главная подматрица по- порядка г. 11. Пусть Л е Л1„— эрмитова матрица. Показать, что А тогда и только тогда будет положительно определенной, когда det^>0 и положительно определена присоединенная матрица ad] А [см. @.8.2)]. В общем случае det adj A = (det Л)"-1; по- поэтому при четном п предположение относительно определителя не является необходимым. Если А положительно полуопреде- полуопределена, рассмотреть матрицы Ле s= A -f- e/ и показать, что adj Л также положительно полуопределена. Будет ли справедливо об- обратное утверждение, если А вырожденна? Указание. Рассмот- Рассмотреть матрицу Л == diag@, —1, —1). 12. Пусть г — заданное число из интервала @,1); рассмот- рассмотрим вещественную симметричную тёплицеву матрицу Л = [а,/] е ёМ, с элементами ai/ = r|i~~jl. Доказать, что А положительно определена, придерживаясь следующей схемы рассуждений: (а) Если At/ — минор, дополнительный к элементу ац, то пока- показать, что det Л ц = 0 при \i — /1 ^ 2. Указание. Если i = 1, / > 2, то, как можно заметить, первый столбец минора Ац есть крат- кратное второго столбца. (Ь) Пусть Dn — detA. Показать, что D2 = = 1-г2 и Z?n+l = Z3n —r2Dn=(l—л2)/?я=A —г8)»-1. Вос- Воспользоваться при этом п. (а) и разложением определителя по первой строке, (с) Вывести положительную определенность мат- матрицы Л из теоремы 7.2.5. 13. Показать, что матрица Л задачи 12 имеет вещественную симметричную трехдиагональную обратную матрицу; при этом в матрице A —г2)А~1 диагональные элементы равны 1, 1 + г2, ... ..., 1 + г2, 1, а каждый элемент наддиагонали и поддиагонали равен —г. Указание. Трехдиагональность матрицы А~1 вывести из п. (а) задачи 12. Почему Л-1 должна быть симметрична? Элементы матрицы А~х вычислить, пользуясь соотношениями АА^А]А1
7.2. Характеризации 487 14. Пусть <-, •> — заданное скалярное произведение на С", $ = {еи ..., еп}—стандартный ортонормированный (по отно- отношению к обычному евклидову скалярному произведению) базис пространства С" и G е М„ — матрица Грама системы 98 относительно заданного скалярного произведения <•, •>¦ Показать, что {х,у) = у'Ох G.2 12) для всех х, у е С". Вывести отсюда такое утверждение: функ- функция <•,•>: С"ХС"->-С тогда и только тогда является скаляр- скалярным произведением, когда для некоторой положительно опре- определенной матрицы G выполняется G.2.12). 15. Вспомним введенное в определении 5.4.12 понятие двой- двойственной нормы. Пусть <•, •) — заданное скалярное произведе- произведение на С", а || • ||—заданная норма на С". Эта норма необяза- необязательно порождена данным скалярным произведением. В таком случае определим норму, двойственную к \\-\\ относительно ска- скалярного произведения <•, •>, посредством формулы ||D =max|(x, у)\. Отметим, что для евклидова скалярного произведения <•, •> это обычная двойственная норма. Позволяет ли это обобщение по- понятия двойственной нормы получить какие-либо векторные нор- нормы, которые не были найдены ранее другими средствами? Ука- Указание. Пользуясь результатом задачи 14, представить (х, у} в виде {х, у) = y*Gx и показать, что 16. Пусть дана матрица А^Ма. Доказать, что р(Л)< 1 в том и только в том случае, если существует положительно опре- определенная матрица В<=Мп, такая, что В— А*ВА положительно определена. Указание. Если В положительно определена, поло- положим С = В1/2. Если матрица В - А* В А = СС - {CAT {С А) положительно определена, то для любого ненулевого вектора х €= С" х* [С*С - (СА)* (СА)] х>0, или ЦСдсЦг > IIСЛлгЦг. Полагая у = Сх, показать, что \\y\U >¦' > || СА С-1 у ||2, каков бы ни был ненулевой вектор г/е С"; отсюда вывести, что ||СЛС-М12 < 1. Тем самым р(А)= р(САС~1) < =SJ||СЛС-1 II2 ¦< 1. Обратно, если р(Л)< 1, то существует невы- невырожденная матрица СеМ„, такая, что ||СЛС-1||2< 1 (см. § 5.6,
488 Гл, 7. Положительно определенные матрицы задача 25). Поэтому проведенное рассуждение можно обратить, полагая В == С*С. 17. Пусть матрицы А, В^Мп положительно полуопределены и хотя бы одна из них невырожденна. Показать, что \\А — В|1г^ г^||Л2— B2\\2/[hmin(A)-\-Хт[п(В)]. Указание. Положим Е = = Л — В, и пусть ieC" — нормированный собственный вектор матрицы Е, т. е. Ех = Хх, причем Ш = р(?) =||?1||2. Тогда Л2 — В*=АЕ + ЕА— ?2 и ||Л2 — ,В2Ц2 ^ |х*(Л,Б + ЯЛ — ,Б2)Х1 = = | К | (х*Л х + х*Вх) ^ | X | (Amin (Л) + Amln (В)). 18. Пусть матрицы А,В^Мп положительно полуопределены, причем Л положительно определена. С помощью результата за- задачи 17 доказать, что <!!л-1/21!2!!л-вц2. G.2.13) Объяснить, почему из этого неравенства следует, что функция /: С—э-С1''2, определенная на множестве положительно полуоп- полуопределенных матриц из Мп, непрерывна на внутренности этого множества, т. е. на открытом множестве положительно опреде- определенных матриц. Выписать и дать прямое доказательство нера- неравенства для обычной скалярной функции /: / -*¦ V t @ ^ < < оо), которое получается из G.2.13) при п = 1. 13. Полярная форма и сингулярное разложение Теперь мы введем два важных и связанных между собой разложения комплексных (необязательно квадратных) матриц, существенно опирающиеся на понятие положительной опреде- определенности. 7.3.1. Лемма. Пусть А^Мт>п, причем т^п и rank Л = = k ^ т. Существуют унитарная матрица X е Мт, диагональ- диагональная матрица А е Мт с неотрицательными диагональными эле- элементами ?ч ^ Х2 ^ ... ^ Xk > Xk+i = ... = %m — 0 и матрица Y е Мт, п с ортонормированными строками, такие, что А = XAY. Матрица А всегда определена однозначно, и {я?, ..., Х2т) суть собственные значения матрицы АА*. Столбцы матрицы X яв- являются собственными векторами матрицы АА*. Если все соб- собственные значения последней матрицы различны, то матрица X определена с точностью до правого диагонального сомножителя D = diag(eWl, ..., ег6"), где все 6(eR; другими словами, если A =X\AY\ = X2AY2, то Х2 = XiD. При фиксированной матрице X матрица Y однозначно определена, если гапкЛ = т. Если А — вещественная матрица, то X и Y могут быть выбраны веще- ственными. . . .
7.3. Полярная форма и сингулярное разложение 489 Доказательство. Пусть A — XAY— разложение описанного типа. Тогда АА* = XAYY*AX* = XAIAX* = ХА*Х\ т. е. произ- произведена унитарная диагонализация эрмитовой матрицы АА*. Пусть X = [л;, х2 ... хт] и Л2 = diag (я?, ..., 1%); тогда AA4xi = = X2jX/, /=1, 2, ..., m, причем векторы {xj} составляют орто- ортонормированную систему. Поскольку диагональные элементы матрицы Л должны быть неотрицательными н упорядоченными по невозрастанию, то Л однозначно определяется матрицей АА*. Если все числа (aJ различны, то нормированные собственные векторы матрицы А А* определены каждый с точностью до комплексного скалярного множителя с модулем 1. Поэтому если Хх и Х2 — унитарные матрицы, столбцами которых служат соб- собственные векторы матрицы АА*, то должно быть Х2 = XXD, где D = diag(di, ..., dm) и \dt\ = 1, i = !, ..., т. Собственные векторы матрицы АА*, отвечающие кратному собственному значению, определены неоднозначно. Однако если они выбраны и ортонормированы и тем самым зафиксирована унитарная матрица X, то матрица У = Л~1Х*А определяется единственным образом в случае невырожденной матрицы Л, что имеет место при k = rankA = т. Легко проверить, что YY* = = Л-1** {АА*Х) Л-1 = А-хХ*ХА2Агх = Л-'Л^-1 = /, т. е. эта матрица У имеет ортонормированные строки. Остается рассмотреть только случай rankA = k-<m. Когда все Xi были ненулевыми, мы определяли У формулой У = = А~1Х*А =Л-1(Л*Л')*. Поэтому и теперь в качестве /-й строки матрицы У возьмем вектор-строку у], yj^^Xf1 (A*Xj), /=1, ... ..., k. Тогда Это скалярное произведение равно 0 при ] ф k и 1 при / = k в силу ортонормированности векторов {xj}. Векторы {уи ..., yh) образуют ортонормированную систему в пространстве С", и так как п ^ т > k, то найдутся т — k дополнительных (конечно, неоднозначно определяемых) векторов уи+\, ¦ ¦ ¦, Ут, таких, что матрица У* == [уху2 ... уиУи+х ¦¦• у,п]^Мп>т имеет т ортонор- мированных столбцов. Заметим теперь, что X*A = AY. Действительно, первые k строк в обеих матрицах равны согласно определению векторов У/. Остальные т — k строк в правой матрице нулевые, потому что соответствующие диагональные элементы в Л равны 0. В ле- левой матрице те же строки нулевые, поскольку из AA*Xj = 0 сле- следует, что ^х*АА*х1 = (Л'*,-)* A*xj) = Q, т. е. А*х! = 0.
490 Гл. 7. Положительно определенные матрицы Наконец, при вещественной матрице А матрица АА* веще- вещественна и имеет вещественные собственные значения. Следо- Следовательно, собственные векторы, образующие матрицу X, могут быть взяты вещественными. Первые k строк матрицы Y, опре- определяемые матрицей X, вещественны по построению, и добавляе- добавляемые т — k ортонормированных векторов также можно выбрать вещественными. Таким образом, в случае вещественной мат- матрицы А все сомножители разложения можно считать вещест- вещественными. О Всякое ненулевое комплексное число г имеет единственное «полярное представление» z = ри, где р— положительное чис- число, а и— комплексное число с модулем 1. В самом деле, р = =* I г |, и = p~xz «= г/1 z |, если г Ф 0. Если г = 0, то z все же мо- может быть записано в полярной форме с р =0, но и теперь опре- определено неоднозначно: оно может быть произвольным комплекс- комплексным числом с модулем 1. Как обобщить эти факты на комплексные матрицы из М„? Один из возможных ответов такой: матрицу А е М„ можно представить в виде A=PU, где Р — положительно (полу) опре- определенная, a U — унитарная матрицы. Более того, разложение этого вида можно обобщить на случай неквадратной матрицы Л. 7.3.2. Теорема. Пусть А е Мт< п, причем т ^ п. Тогда А представима в виде A = PU, еде матрица Р^Мт положительно полуопределена, rankP = = rank Л и матрица U e Mm> n имеет ортонормированные строки (г. е. UU* = I). Матрица Р всегда определена однозначно, а именно, Р = (ЛЛ*I/2. Матрица U определена однозначно, если rank Л = т. Для вещественной матрицы А и Р, и U можно вы- выбрать вещественными. Доказательство. Используя лемму 7.3.1, запишем Л в виде 'A = XAY = XAX*XY и положим Р = ХАХ*, U = XY. Тогда Р положительно полуопределена и UU* = XYY*X* = XIX* = i= XX* = I, так что U имеет ортонормированные строки. Из леммы 7.3.1 следует, что матрица Р равна (ЛЛ*I/2, но и в об- общем случае, если А = PU, то АА* = PUU*P — Р2, и Р всегда должна быть (единственным) положительно полуопределенным квадратным корнем из АА*. Если rank Л=т, то Р невырож- денна, и матрица U =Р~ХА определена однозначно. Однако, как мы видели в лемме 7.3.1, при rank Л <С m строки матрицы Y, со- соответствующие нулевым собственным значениям матрицы Р, до- допускают неединственный выбор; поэтому и U = XY в этом слу- случае определена неоднозначно. ?
7.3. Полярная форма и сингулярное разложение 491 Из доказанного немедленно вытекает важный результат для квадратных матриц. 7.3.3. Следствие. Матрица А е Мп может быть представлена в виде где Р — положительно полуопределенная, a U — унитарная мат- матрицы. Матрица Р всегда определена однозначно, а именно, Р =» = (ЛЛ*)'/2. Если А невырооюденна, то U определена однозначн<) формулой Us=p-lA. Для вещественной матрицы А и Р, и О, можно выбрать вещественными. Упражнение. Проверить, что доказательство теоремы 7.3.2 можно построить, опираясь на идею предельного перехода, сле- следующим образом. Если А невырожденна, то положить Р аз = (ЛЛ*)'/2, затем U = Р~1А и убедиться, что UU* = I. Таким образом, в этом случае Р и U определены однозначно. Если А вырождения, рассмотреть последовательность матриц Ае s A -f* -be/, e > 0, и сформировать разложения As = PeUe с одно- однозначно определенными сомножителями. Используя принцип вы- выбора 2.1.8, найти бесконечно малую последовательность {вк}, такую, что последовательность {USA при k -*¦ <х> поэлементно сходится к унитарной матрице U. Поскольку Pg = Ле ?/* , то одновременно Ре —>Р, причем A — PU. Заметим, что хотя это доказательство теоремы 7.3.2 короче первоначального, оно не дает в случае вырожденной матрицы А конструктивной про- процедуры получения множителей Р и U. Разложение из теоремы 7.3.2 называют полярной формой или полярным разложением матрицы А. Отметим, что для мат- матрицы полного ранга оба сомножителя определяются единствен- единственным образом. Упражнение. Показать, что матрицу А е Мт> „, где т ^ п, можно представить в виде где матрица W е= Мт> „ имеет ортонормированиые столбцы (т. е, ty*W = I), а матрица QeMn положительно полуопределена. Указание. Разложить А* в соответствии с теоремой 7.3.2. Упражнение. Пусть лгеС" — заданный ненулевой вектор; положим A es х е Мп, I. Показать, что полярное разложение Такой матрицы А имеет вид А = х =IU||2«, где и = jc/IWU- Та- Таким образом, полярное разложение можно трактовать как рас-»
492 Гл. 7, Положительно определенные матрицы пространение на матрицы разложения указанного типа для не- ненулевых векторов. Упражнение. Показать, что квадратную матрицу А можно представить двумя разложениями: A = PU, где Р — (ЛЛ*I/2, и А = WQ, где Q =(А*АI/2. Их называют иногда «левым» и «правым» полярными разложениями матрицы А. Показать, что выбираемые единственным образом положительно полуопреде- полуопределенные матрицы Р и Q равны тогда и только тогда, когда А — нормальная матрица. Оказывается, что для невырожденной матрицы А однозначно определяемые унитарные матрицы U и W равны всегда (см. упражнение, предшествующее тео- теореме 7.3.6). Упражнение. Не всякая квадратная матрица является нор- нормальной, т. е. не всегда верно, что АА* = А*А. Однако матрицы АА* и А* А всегда унитарно подобны. Доказать это, пользуясь полярным разложением из следствия 7.3.3. 7.3.4. Теорема. Пусть А = PU есть полярное разложение матрицы А^Мп. Для того чтобы А была нормальной матри- матрицей, необходимо и достаточно, чтобы PU — UP. Доказательство. Если Р и U коммутируют, то АА* =-PUU*P* =* = РР = р\ А"А = U'P'PU = U"P2U = WUP'1 = Р2; следовательно, матрица А нормальная. Обратно, для нормальной матрицы А справедливо равенство Р2 = U*P2U. Замечаем, что обе матрицы Р2 и U*P2U квадратные и положительно полуопределенные, а положительно полуопределенными квадратными корнями из них, очевидно, будут Р и U*PU соответственно. Согласно тео- теореме 7.2.6, положительно полуопределенный квадратный корень единствен, поэтому Р = U*PU, или UP = PU. ? Наша следующая цель — вывести из леммы 7.3.1 сингуляр- сингулярное разложение произвольной (необязательно квадратной) мат- матрицы. 7.3.5. Теорема. Матрица А е Mm, n ранга k может быть пред- представлена в виде де l/eAfm и W <= М п — унитарные матрицы. Матрица 2 = = [о-/;] е Мт< п такова, что ац ~ О, I Ф /; <ru > а22 > • • • > ohk > >°fe+i,fe+i= ••¦ ^0^ = 0, <7 = min{m, «}. Числа {<r,j} sa {or,} суть неотрицательные квадратные корни из собственных значе- значений матрицы АА* и, следовательно, определены единственным образом. Столбцы матрицы V суть собственные векторы мат- матрицы АА*, а столбцы матрицы WJ — собственные векторы мат*
7.3. Полярная форма и сингулярное разложение ' 493 рицы А* А; обе системы векторов упорядочены в соответствии с расположением собственных значений (Т;. Если m ^ n и все собственные значения матрицы АА* различны, то матрица V определена с точностью до правого диагонального сомножителя D = diag (е'в\ ..., elt>n), где все 8г е R; другими словами, если A = V\Ш\ = У'2Ш'2, то F2==y,D. Если m < п, то матрица W, всегда определена неоднозначно; если п = m и матрица V фик- фиксирована1), то выбор матрицы W однозначен. При п^пг утверждения относительно единственности матриц V и W можно получить, применяя сказанное выше к матрице А*. Для веще- вещественной матрицы А все три матрицы V, 2 и W могут быть взяты вещественными. Доказательство. Не ограничивая общности, можем считать, что m sj n (в противном случае, нужно заменить А на А*). Пользуясь леммой 7.3.1, запишем А в виде A=XAY, где X, А е М„,, а У е Мт, п. Положим V = X, возьмем 2 = [Л j 0] е <= МПу „ и определим W как матрицу вида [У* j 5*] е Мп, столбцы которой должны быть ортонормированным базисом простран- пространства С". Столбцы матрицы У* уже ортонормированы, поэтому при т < п можно подобрать (хотя и неединственным образом) столбцы матрицы S* е Мп< п-т так, чтобы матрица W была уни- унитарной. Очевидно, что VLW* = XAY = А. Утверждения относи- относительно единственности вытекают из соответствующих утверж- утверждений леммы 7.3.1. ? «Диагональные элементы»2) а,- = Оц (г=1, ..., q, q = = min{m, п}) матрицы 2 называются сингулярными числами матрицы А е Aim, n (иногда этот термин применяют только к не- ненулевым диагональным элементам). Столбцы матриц V и W на- называют соответственно левыми и правыми сингулярными век- векторами матрицы А. Разложение из теоремы 7.3.5 называют син- сингулярным разложением матрицы А. Полярная матрица Р есть единственный положительно полуопределенный квадратный ко- корень из матрицы АА*, а сингулярные числа а,- суть неотрица- неотрицательные квадратные корни из собственных значений матрицы АА*. Поэтому сингулярные числа матрицы А совпадают с соб- собственными значениями полярной матрицы Р. Хотя удобно рас- располагать сингулярные числа в порядке убывания, это соглаше- соглашение относительно сингулярного разложения не является обще- общепринятым; матрица А однозначно определяет лишь множество сингулярных чисел3). ') И, кроме того, матрица А невырожденна. — Прим. перев. 2) Кавычки указывают на то, что 2, как и А, может не быть квадрат- квадратной. — Прим. перев. 3) Но не порядок на нем. — Прим. перев.
494 Гл. 7. Положительно определенные матрицы Отметим, что сингулярное разложение дает естественное обобщение на матрицы общего вида спектрального разложения нормальных матриц. По этой причине многие факты, относя- относящиеся к собственным значениям нормальных матриц, могут быть переведены в правильные утверждения о сингулярных чис- числах произвольных матриц. Упражнение. Пусть х е С" — заданный ненулевой вектор; положим /4 = JceAfrtil. Показать, что сингулярное разложение матрицы А имеет вид А = х = V2W*, где W = [l]eMI, 2 = = [ || х |i>, 0, .. ., Of е Мп> и в матрице V = [v{ ... vn] s Mn пер- первым столбцом является вектор v\ = x/|Ui|2; остальные столбцы составляют произвольную ортонормированную систему, ортого- ортогональную к х. Если А еЛ1„ то все три множителя V, 2, W в сингулярном разложении суть п X л-матрицы. Пусть А = PU — полярное раз- разложение матрицы А, и пусть P = VAV*— спектральное разло- разложение матрицы Р, причем такое, что ее (обязательно неотрица- неотрицательные) собственные значения упорядочены по невозраста- невозрастанию. Тогда равенство А = PU = VAVU =(V)(A){V*U) = = VAW* дает сингулярное разложение матрицы А; в нем V=U, 2 = Л, W = U*V. Заметим, что АА* = = V?,W*WI,V* = VL2V*, т.е. столбцы матрицы V суть собствен- собственные векторы эрмитовой матрицы АА*, отвечающие собственным значениям а], ..., а9п. Аналогично А* А = WI,V*VI,W* = WZ2W*, поэтому столбцы матрицы W суть собственные векторы мат- матрицы А* А. Упражнение. Пусть матрица А е Мп невырожденна. Пока- Показать, что сингулярное разложение А — V2 W* можно получить посредством следующей процедуры: (a) Сформировать положительно определенную эрмитову матрицу АА* и вычислить ее спектральное разложение АА*— = UAU*; для этого найти {положительные) собственные значе- значения {hi} матрицы АА* и соответствующую систему {и,} орто- нормированных собственных векторов. (b) Положить 2 == Л1/2, V = U = [щ ... ип]. (c) Положить W7=i4*y2~1. Проверить, что W — унитарная матрица и что А= VZW*. Ука- Указание. Вычислить матрицу W*W. Упражнение. Пусть А е Мп — заданная матрица, необяза- необязательно невырожденная. Показать, что сингулярное разложение А = V2W* можно получить посредством следующей процедуры:
7.3. Полярная форма и сингулярное разложение 495 (a) Найдется такое с = с(Л)>0, что матрица Ле = А + е/ невырождеина для всех положительных е, меньших, чем с. Пусть 0<s<c. (b) С помощью процедуры из предыдущего упражнения по- построить сингулярное разложение AE — Ve\W'e. (c) Использовать принцип выбора нз леммы 2.1.8 и устре- устремить е к нулю вдоль последовательности положительных зна- значений ек, таких, что существуют оба предела liml/eb = V, lim Wt. = W. (d) Показать, что A = VLW\ где 2 = limSe. 0 Это рассуждение можно применить для доказательства об- общего случая теоремы 7.3.5. Оно гарантирует существование син- сингулярного разложения для матрицы общего вида, но не дает конструктивной процедуры вычисления его сомножителей, когда А не является матрицей полного ранга. Упражнение. Предположим, что матрица А е Мп невырож- денна, и пусть А = PU, А = WQ суть левое и правое ее поляр- полярные разложения; матрицы Р, Q е Мп положительно опреде- определены, а матрицы U, W е Мп унитарные. Показать, что U = W всегда, но Р — Q тогда и только тогда, когда А — нормальная матрица. В случае вырожденной матрицы А показать, что су ществуют ее левое и правое полярные разложения, для которых U ф W. Указание. Если А = VLW* — сингулярное разложение матрицы А, то ни V, ни W не определены однозначно; в то же время A=(VW*)(WZW*) = (VIIV*)(VW*); применить теперь утверждения о единственности из следствия 7.3.3. Рассматри- Рассматривая А = 0, убедиться, что для вырожденной матрицы А унитар- унитарные сомножители в полярных разложениях не обязаны совпа- совпадать. Пусть А^Мп — нормальная матрица с сингулярным разло- разложением А = VZW*. Поскольку АА*=А*А, то собственные век- векторы у матриц АА* и А*А одни и те же. Однако отсюда не сле- следует, что в сингулярном разложении V = W. Действительно, ра- равенство А = FSV* означало бы, что А — эрмитова (и даже положительно полуопределенная) матрица. Пусть А — UAU*— спектральное разложение матрицы Л; в матрице Л = diag(Л-ь .... Л„) представим каждый элемент lk в виде Лй = | Kk \ei%k, Bk e R; если Xh = 0, то считаем 8ft = 0. Если положить D = diag (е'9', ... ..., el%n), |A|33diag(| А,, |, . .., |Я„|),_то A = \A\D и равенства А = UAU* *=U\A\DU* = {U){\A\) {UD)m в V2W * приводят к син-
Гл. 7. Положительно определенные матрицы гулярному разложению матрицы А, в котором V = U, 2 = |А|, W = UD. Итак, сингулярными числами нормальной матрицы А яв- являются модули ее собственных значений, столбцами матрицы V — собственные векторы матрицы А; столбцы матрицы W мож- можно взять те же, что у V, но при этом умножить каждый на комплексное число с модулем 1, определяемое соответствующим собственным значением. Если А эрмитова, то все ее собствен- собственные значения вещественны, D — D и D= diag(sgn(Xi), ... ..., sgn(A,ra)), где считается, что sgn@)= 1. Если А эрмитова и положительно полуопределена, то D = I, V — W = U и Л = 2. Одним из полезных приложений теоремы Шура 2.3.1 об уни- унитарной триангуляризации было представление произвольной квадратной комплексной матрицы в виде предела последова- последовательности матриц, у каждой из которых все собственные значе- значения различны. С помощью сингулярного разложения можно по- показать, что любую комплексную матрицу (квадратную или пря- прямоугольную) можно представить как предел последовательности матриц с различными сингулярными числами. Польза такого представления состоит в том, что сингулярное разложение мат- матрицы, все сингулярные числа которой различны, в значитель- значительной мере определяется единственным образом. 7.3.6. Следствие. Пусть А е Мт, п — заданная матрица, а |[ • || — заданная норма на Мт, «• Для всякого е > 0 найдется мат- матрица Л8еМт, „ с различными сингулярными числами, такая, что \\А— Ле||<е. Доказательство. Предположим, что m ^ п. Пусть А = V2W* есть сингулярное разложение матрицы А. Рассмотрим матрицы S6 a [diag (а, + 6, 02 + 26, ..., от 4- mb) \ 0], где 0 е Mm, n-m. Если все сингулярные числа матрицы А совпа- совпадают, то диагональные элементы матрицы Sa разлчны при любом б > 0. В противном случае выберем б > 0 так, чтобы пг8 было меньше наименьшей разности соседних сингулярных чи- чисел. Тогда диагональные элементы матрицы 26 снова будут раз- различными. В обоих случаях 2б->-2 при 6-»-0. Положим А& sa Ез V1,6W*; тогда \\А — А&\\Е =1|2 — 2в||?-»-0 при 6^0 вслед- вследствие унитарной инвариантности евклидовой нормы. Поскольку все нормы на Mm, n эквивалентны, доказательство закончено, При т~> п рассуждения аналогичны. D Существует простой прием, позволяющий переводить резуль- результаты относительно собственных значений эрмитовых матриц-в утверждения о сингулярных числах произвольных матриц.
7.3. Полярная форма и сингулярное разложение 497 7.3.7. Теорема. Пусть А е М,п, „ и q — min{m, n). Определим матрицу А <= Мт+п формулой - ал Если ел, ст2, •••, Од — сингулярные числа матрицы. А, то соб- собственными значениями матрицы А являются числа О\,О2, •.., oq, —0i, — с2, ..., —aq и \т — п\ нулей. Доказательство. Предположим, что m ~&z п. Пусть А = = V21F* — сингулярное разложение матрицы А. Представим Б и У в виде Здесь _S = diag(cri, с2, •••, <г„), ^eMraiB, К2бМВ|М. Поло- Положим V = Vj^2, W^Wl-y/2. Тогда матрица Г V -У ^21 Lr г о J OeMrt>m_n будет унитарной, и прямым вычислением можно проверить ра- равенство [S О ОТ о — s о \и\ о о о J О 0 0. Диагональный нулевой блок имеет размер (т — п)Ж.(т — п)\ Рассуждения в случае т < п аналогичны. Упражнение. Пусть А — заданная матрица из Мт, «. Пока- Показать, что матрицы А*, АТ и А имеют те же сингулярные числа, что и А. Показать, что сингулярные числа матрицы UAV, где U и V — унитарные матрицы, совпадают с сингулярными числами матрицы А. Показать, что для произвольного комплексного чис- числа с сингулярные числа матрицы сА получаются из сингуляр- сингулярных чисел матрицы А умножением на \с\. Теорема 7.3.7 дает возможность непосредственно получить результаты о возмущениях сингулярных чисел произвольных матриц из соответствующих результатов для эрмитовых матриц. Они показывают, что всякая матрица идеально обусловлена от- относительно задачи определения сингулярных чисел. Этот вывод нужно сравнить с теоремой 6.3.2 и следствием 6.3.4, а также с сопутствующим обсуждением чисел обусловленности. Обобще-
498 Гл. 7. Положительно определенные матрицы ние следующих результатов на случай произвольных унитарно инвариантных норм дано в теореме 7.4.51. 7.3.8. Следствие. Пусть А, В^Мт, п. Положим Е = В— А, и пусть q = m\n{m, п). Обозначим через О\ ^ сг ^ ... ^ oq син- сингулярные числа матрицы А, а через \\~^%i~^ ¦ ¦ ¦ ^ т? сингу- сингулярные числа матрицы В. Тогда (а) (<тг-т<|<[|?|!2) /=1, 2, ...,<?; (Ь) Доказательство. Эти результаты являются аналогами соот- соответственно неравенств Вейля (теорема 4.3.1) (см. также упраж- упражнение, предшествующее теореме 6.3.5) и теоремы Виландта — Хофмана для эрмитовых матриц. Они непосредственно выте- вытекают из теоремы 7.3.7 и названных прототипов. D Упражнение. Провести подробное доказательство следствия 7.3.8. Что касается утверждения (а), см. задачу 36 из § 5.6. Для сингулярных чисел верны также разделительные нера- неравенства, вытекающие из разделительных свойств собственных значений эрмитовых матриц. 7.3.9. Теорема. Пусть задана матрица А е Мт, п\ обозначим через А матрицу, полученную из А удалением произвольного столбца. Пусть {ст*}—сингулярные числа матрицы А, а {сг,} — сингулярные числа матрицы А, причем оба множества упорядо- упорядочены по невозрастанию. В таком случае (a) если пг^ п, то 0, ^ а^ ^ а2 ^ &2 ^ ... ^ &п-\ ^ ап *> 0; (b) если пг < п, то о{ ^ а( ^ о2 ^ 62 ^ ... ^ от ^ дт ^ 0. Если вместо столбца удаляется строка матрицы А, то соот- соответствующие утверждения получатся, если сформулировать ука- указанные утверждения для сопряженной матрицы А*. Доказательство. Квадраты сингулярных чисел матрицы А суть собственные значения эрмитовой матрицы /!М g А1„; квад- квадраты сингулярных чисел матрицы А—это собственные значе- значения матрицы А*А е Мп_и которая (при удалении в А столбца) является главной подматрицей в А*А. Разделительные неравен- неравенства следуют непосредственно из принципа вложения 4.3.15. Если в А удаляется строка, а не столбец, то нужно рассматри- рассматривать матрицы АА* и АА*. Q В качестве заключительного примера сходства между свой- свойствами собственных значений эрмитовых матриц и свойствами
7.3. Полярная форма и сингулярное разложение 499 сингулярных чисел приведем следующий аналог теоремы Ку- Куранта— Фишера 4.2.11. 7.3.10. Теорема. Пусть А^Мт,п. Положим q = min{m,n}, и пусть oi ^ 02 ^ • • • с?* Gq суть упорядоченные сингулярные числа матрицы A, a k — заданное целое число из промежутка A, <?] • Тогда min max II Ах h max mm |ШГ"= fffe- *J-*I •»-* Доказательство. Эти формулы прямо вытекают из D.2.12) и D.2.13), поскольку о\{А) есть собственное значение матрицы А*А. Если Я[ ^ Х2 ^ ... ^ А.„ — это упорядоченные собственные зна- значения эрмитовой матрицы А*А, то ст|(Л) = А,П_А+1(Л*Л), и D.2.12) дает х* А* Ах ol(A) = bn_k+l(A'A)=* min max —р^« ei. »t ,sC ieC,x^0 «J-B"! wk-\ = min max ¦ ,. .. nn V II * Ik Таким же образом доказывается второе равенство. П Задачи 1. Пусть Р^Мп — положительно полуопределенная матрица. Показать, что Р может быть представлена в виде многочлена от Р2; поэтому если заданная матрица U коммутирует с Р2, она должна коммутировать и с Р. Вывести отсюда, что для нор- нормальной матрицы А е Мп полярные сомножители Р и U пере- перестановочны. 2. Показать, что всякую матрицу ЛеМл можно записать в виде А = Реш, где Р, Н <= М„, Р положительно полуопреде- полуопределена, а Н эрмитова. Если А — вещественная матрица, то Р и Н могут быть выбраны вещественными и симметричными. В какой степени определяет А матрицы Р и Я? Указание. Если U е М„ — унитарная матрица и U = VAV* — ее спектральное разложение, то Л = eiD, где D — диагональная матрица с вещественными диагональными элементами. Какова будет матрица eiVDV*?
Гл. 7. Положительно определенные матрицы 3. Показать, что матрица А е Мп тогда и только тогда имеет сингулярное число 0, когда она имеет нулевое собственное зна- значение. 4. Пусть А е Мт> „, и пусть q = тт{т, п}. Показать, что наибольшее сингулярное число матрицы А равно спектральной норме этой матрицы. Показать, что для евклидовой нормы мат- матрицы А справедлива формула 1/2 Показать, что ffi^ll Л|]?^ -у/п аь и охарактеризовать случаи равенства. Вывести отсюда, что для всех А е Мп верны соотно- соотношения Рассматривая матрицы / и [^ Jj], убедиться в достижимости этих границ. 5. Пусть k ^Lmm{m, п}, и пусть vu обозначает k-n столбец матрицы V, a Wk есть k-ft столбец матрицы W, где V и W взяты из сингулярного разложения G.3.5) матрицы А. Доказать ра- равенства (сТй есть k-e сингулярное число матрицы А) A*vk = akwk, Awk = akvk. Как следствие, v\Awk = ak. 6. Пусть дана большая матрица А. Как подойти к задаче определения ее ранга в условиях реальных вычислений? Заме- Заметим, что ранг матрицы А равен количеству ненулевых сингуляр- сингулярных чисел этой матрицы. Поэтому одним из способов опреде- определить численно ранг матрицы является вычисление сингулярного разложения и подсчет количества сингулярных чисел, превы- превышающих некоторый установленный уровень. Почему следует ожидать, что численное определение ранга матрицы проще и надежнее, если отношение ее наименьшего и наибольшего нену- ненулевых сингулярных чисел не слишком близко к О? 7. Пусть матрица А е Мт, п имеет сингулярное разложение А = V1.W*. Положим А+ = IF2+V7*; матрица S+ получена из 2 транспонированием и заменой положительных диагональных элементов обратными величинами. Показать, что (а) АА+ и А+А — эрмитовы матрицы; (Ъ)' АА+А = А; (с) А+АА+ = А+. Показать, что А+ = А~х в случае квадратной невырожденной матрицы А. Матрица А+ называется псевдообратной или обоб- обобщенной обратной матрицей Мура — Пенроуза для матрицы А.
7.3. Полярная форма и сингулярное разложение 501 Она существует для любой матрицы А, в том числе для квад- квадратной вырожденной или даже прямоугольной матрицы. Пока- Показать далее, что матрица А+ однозначно определена требова- требованиями (а) — (с). Указание. Выписать сингулярное разложение матрицы А+ и показать, что его сомножители по существу единственным образом определяются требованиями (а) — (с). Другой, менее вычислительный способ доказательства: предпо- предположить, что каждая из матриц В, С удовлетворяет условиям (а) —(с), и показать, что В = В (АВ)* = ВВ*А* = В{АВ)"{АС)" = = ВАС = (ВА)* (СА)" С = А'СС = (СА)' С = С. 8. Нормальным псевдорешением системы линейных уравне- уравнений Ах=Ь называется вектор к, имеющий наименьшую евкли- евклидову длину среди всех векторов, приносящих минимум величине \\Ах — 6|[2. Показать, что вектор х = А+Ь является нормальным псевдор"ешением системы Ах = Ъ. 9. Показать, что А+ = lim А* (АА* + tl)~l. Матрица А+ опре- делена в задаче 7. 10. К сингулярному разложению из теоремы 7.3.5 можно прийти, не используя явным образом собственные значения и собственные векторы. Сингулярные числа и (левые и правые) сингулярные векторы могут быть получены непосредственно из вариационной характеризации спектральной нормы. Рассмотрим матрицу Л е М„; вариационная характеризация ее спектраль- спектральной нормы имеет вид |!Лх||2: ||х||2=1}. (**) (a) Пусть п ^ 2, и пусть В е Мп имеет специальную форму Г ст. w* ~] где сг, = |[ В \\2, w е С1 иХе Мп_х. Показать, что w = 0. Указа- Указание. Если 0, > 0, рассмотреть вектор ? = (<?, + И)'и')~1/2[ш']> Пока- Показать, что [|Б?||2> a\-\-w"w, и воспользоваться соотношением (**). (b) Пусть /1еМл. Положить О\ =||Л||2 и с помощью (**) показать, что существует нормированный вектор х\, такой, что |Лл,||2 = (т1. Положим yi^a~[Axl. (c) Пусть W\, Vi — унитарные матрицы с первым столбцом соответственно х\ и у1т Показать, что матрица l/^W, имеет спектральную норму ст; и форму матрицы, описанной в п. (а). Сделать отсюда вывод, что
502 Гл. 7. Положительно определенные матрицы (d) Сформулировать индуктивную процедуру понижения по- порядка матрицы А, в которой внедиагональные элементы очеред- очередных строки и столбца аннулируются посредством левого и пра- правого умножения на унитарные матрицы. Получить этим путем сингулярное разложение матрицы А. (e) А что, если матрица ЛеМт,я не будет квадратной? 11. Пусть А = VL W* — сингулярное разложение матрицы А <= Мт, п- Предположим, что rank A = k, и пусть q = min {т, п). Показать, что последние п — k столбцов матрицы W образуют ортонормированный базис ядра матрицы А, а первые k столб- столбцов матрицы V—ортонормированный базис ее образа (области значений). 12. Пусть Ае.Мт>п, B^MPin и пусть VZW* — сингулярное разложение блочной матрицы [g]eMm+p,rt. Показать, что ортонормированный базис пересечения ядер матриц А и В дает- дается несколькими последними столбцами (сколькими именно?) матрицы W. (Указание. Когда для вектора хеС1 справедливо равенство [д]х = 0?). Как найти ортонормированный базис пе- пересечения ядер k матриц Аи А2, ..., Ak, имеющих одинаковое число столбцов? 13. Показать, что полярное разложение из теоремы 7.3.2 и сингулярное разложение из теоремы 7.3.5 эквивалентны в том смысле, что каждое из них легко получить из другого. Указа- Указание. Применить к Р спектральную теорему. 14. Показать, что для диагонализуемости матрицы А е Мп необходимо и достаточно, чтобы существовала положительно определенная эрмитова матрица Р, такая, что Р~]АР — нор- нормальная матрица. Указание. Если А = 5Л5-1, то использовать полярное разложение матрицы 5. 15. Используя сингулярное разложение G.3.5) (особенно утверждения, касающиеся единственности разложения) и след- следствие 7.3.6, вывести представление Такаги D.4.4) для комплекс- комплексной симметричной матрицы. Указание. Если матрица А = АТ е ^М_п имеет различные сингулярные числа и A=VZW'', то А=АТ=* = WLVT. Но тогда существует диагональная унитарная матрица ?> = diagjy6', .... ею"), такая, что W = VD, откуда А = KW = = VI,(VD)* = VI,DVT = (VDl<2)I,(VDir2)r^UWr. В общем слу- случае использовать следствие 7.3.6, принцип выбора 2.1.8 и опера- операцию предельного перехода. 16. Пусть Д Be МШу п и q = min{m, n); упорядоченные син- сингулярные числа матрицы А обозначим через с\(А)~^ ... ... ^ aq(A)^0; аналогичные обозначения применяются для В и A -f В. Пусть Л, В, А + Zfe= Mm+n — эрмитовы матрицы, оп- определенные в соответствии с G.3.7а). Показать, что (Л)
7.3. Полярная форма и сингулярное разложение 503 = Xm+n-k+i(•#), k — 1, 2, ..., 9; аналогичные утверждения спра- справедливы для В и Л -f- В. Помните: сингулярные числа упорядо- упорядочены по убыванию, а собственные значения эрмитовой матрицы Л — по возрастанию. Использовать это тождество и теорему Вейля 4.3.7 для доказательства неравенств at+l_l(A + B)^at{A) + a,(B), 1</, /<?, / + /<? + 1. В частности, оч (А -(- S) ^ о^ (Л) -(- 0! (В) (почему этот результат не является неожиданным?) и о„(А-\-В) ^min{o(l(A)+а^В), ol(A)+oq(B)}. 17. С помощью матриц i4 = [JJ], B = [°°] показать, что неравенство с, (A + S)<<Jf (Л) + at (В), вообще говоря, верно не для всех i= 1, 2, ... . Здесь {о{(А)} и (cr«(S)}—сингуляр- (cr«(S)}—сингулярные числа соответственно матриц Л и S, упорядоченные по убы- убыванию. 18. Пусть Л, В — заданные матрицы из Мт,„и q = min{m, n). Пусть Oi(A)^ ... ^ aq(A) — упорядоченные сингулярные числа матрицы Л и аналогично обозначены сингулярные числа матриц В и АВ* <= Мт. Показать, что Эти соотношения можно рассматривать как мультипликативный аналог аддитивных неравенств задачи 16, а также как обобще- обобщение кольцевого свойства спектральной нормы в случае т = п. Почему? Указание. Пусть АВ* = WQ — левое полярное разло- разложение матрицы АВ*, W^Mm — унитарная и QeA!m — поло- положительно полуопределенная матрицы. Показать, что (x*QxJ = = (x'W*AB'xJ = [(A*Wx)' (B*x)]2^\\ A'Wx\\j\\B'x\\l= [(Wx)'AA' ¦ • (W x)] (x* В В* х) для любого х е Cm. Пусть zu ..., zt_x — — ортонормированные собственные векторы матрицы АА"\ соответствующие i—1 старшим собственным значениям о\(А), ... , 0^_,(Л), а г/,, .. . , у]._1 — ортонормированные соб- собственные векторы матрицы ВВ*, соответствующие у — 1 стар- старшим собственным значениям of (В), ... , а2_1(В). Положим ... , xl+j^2== У)-\- Если вектор х ортогонален каждому из век- векторов xh, k = 1, 2, . .. , / -f- / — 2, то одновременно выполняются неравенства (Wx)' AA'{Wx)^o2(A)\\ jc|!J, и х*ВВ'х <а)\{В) ||* |? поэтому для такого л: должно быть (x'Qa;J ^ сг^ (Л) а2- (В) || л: ||j. Используя теорему Куранга — Фишера 4.2.11, заключаем, что < о\(Л) О2 (В). 19. Хотя для матриц Л, Бе М„ собственные значения мат- матриц АВ и ВА всегда совпадают, такое же утверждение может
504 Гл. 7. Положительно определенные матрицы быть неверно в отношении сингулярных чисел этих последних матриц. Проверить это на примере, рассматривая матрицы /1 = [J J], В = [° °]. Показать, однако, что сингулярные числа у матриц АВ и В*А* всегда одни и те же. 20. Пусть X есть «-мерный случайный вектор, компоненты которого имеют нулевые математические ожидания и конечные дисперсии. Положим 2 = Cov(X) = Е(XX*) [см. D.5.3*)]; мат- матрицу 2 считаем невырожденной, полагаем Р=21/2, и пусть А, В — заданные матрицы из Мп. Случайные векторы АХ и ВХ имеют одно и то же математическое ожидание (нулевой век- вектор); однако нет оснований думать, что совпадают и соответ- соответствующие ковариационные матрицы. Показать, что для равен- равенства Со\(АХ) = Соу(ВХ) необходимо и достаточно, чтобы A = B(PUP-1), где U^Mn— некоторая унитарная матрица. Указание. Если Л2Л*=В2?*, то (АР) [АР)* = (,ВР) {ВР)*. Пусть ВР = RW — полярное разложение матрицы ВР с унитар- унитарной матрицей W; показать, что полярное разложение матрицы АР имеет вид АР — R V, где ^еМ, — некоторая унитарная матрица. Что можно сказать об R? Из доказанного вывести, что A = B(PW*VP-l) = B(PUP-l).B какой степени определена мат- матрица 0? Что происходит, если 2 = /? А если В = /? 21. Рассмотреть матрицу Аг^.Мп следующего вида: 'О 1 0 О . 1 8 0 ... О е>0. Показать, что характеристическим многочленом этой матрицы будет многочлен tn — е. (Указание. Вычислить det(^/ — Аг) раз- разложением по первому столбцу.) Показать, что собственными значениями матрицы Ае являются все п значений уе. Показать, что сингулярные числа матрицы Аг равны 1 (с кратностью п— 1) и е. Пусть теперь п = 10, г = Ю-10. Мы видим, что воз- возмущение А0^-Ае приводит к возмущениям собственных значе- значений, по абсолютной величине равным 0.1, в то время как син- сингулярное число1) изменилось всего лишь на Ю-10. Чему равно спектральное число обусловленности матрицы Ле? Этот пример подтверждает высказывание, сопровождающее теорему 7.3.7: всякая матрица хорошо обусловлена относительно задачи опре- определения сингулярных чисел, хотя при этом может быть плохо обусловлена в отношении вычисления собственных значений, ') Наименьшее. Сингулярные числа, равные 1, не меняются, — Прим. перев.
7.3. Полярная форма и сингулярное разложение 505 22. Пусть Л = [aij] — заданная матрица из Мп. Показать, что если у А имеется «малая строка» или «малый столбец», то у нее должно быть и «малое» сингулярное число. Более точно, пусть Л==[г1г2 ... гп]т, г,еС", г] есть /-я строка матрицы А. Расположим евклидовы длины строк {||r,||2: t=l, ••¦, п) по возрастанию; упорядоченные значения обозначим через R\ ^ г?; R2 ^ ... ^ Rn- Показать, что ? °2n-w < ? R% A=l, 2, .... л, и что справедливы аналогичные верхние оценки через нормы столбцов. Надо помнить при этом, что сингулярные числа упо- упорядочены: cra ^ ся_1 =gC ... ^ О\. Указание. Квадраты сингу- сингулярных чисел суть собственные значения эрмитовой матрицы АА*. Чему равны диагональные элементы матрицы АА*? Ис- Использовать соотношения мажоризации и теорему 4.3.26. Чтобы получить неравенства для столбцовых норм, рассмотреть мат- матрицу А*А. Сравнить с задачей 19 из § 4.3. 23. Имеется естественный аналог сингулярного разложения, в котором унитарные сомножители заменяются комплексными ортогональными. Однако в отличие от сингулярного такое раз- разложение можно построить не всегда; вспомним (задача 7 из § 2.3), что и ортогональный аналог унитарной триангуляризацин Шура не всегда осуществим. Предположим, что матрица А е Мт, п может быть представлена в виде А = PAQT, где P^Mm, QeMn — комплексные ортогональные матрицы, а Л = [А,,-/] е= Мт, п «диагональна» в том смысле, что ?v/ = 0 при i?=j. Показать, что матрица ААТ^Мт диагонализуема и rank Л = rank AAT. В то же время эти два условия достаточны для существования указанного разложения Л = PAQT. Что можно сказать о случае, когда Л вещественна? Привести при- пример матрицы Л е М2, которую нельзя представить в виде Л = = PAQT с комплексными ортогональными матрицами P,QeAi2 и диагональной матрицей Л е М2. 24. Объяснить, почему сингулярное разложение можно рас- рассматривать как обобщение спектральной теоремы для нормаль- нормальных матриц. 25. Теорема 2.5.5 об одновременной унитарной диагонализа- ции семейства нормальных матриц имеет аналог, относящийся к сингулярным разложениям. Пусть &" = {At\ ie^cAIm,^; предположим, что существуют унитарные матрицы V е М,п и W е Мп, такие, что каждая матрица V*AiW «диагональна» в смысле задачи 23, т. е. элемент (i, /) равен 0, если i Ф /. Пока- Показать, что (а) каждая матрица A]Aj e Мп нормальна и семей-
505 Гл. 7. Положительно определенные матрицы ство ^ = {ЛгЛ*: i, /e5'}c:Mm коммутативно; (b) AlA*jAk = = AkA'jAi для всех i, j, k e Sf. Каждое из этих необходимых условий в то же время достаточно для того, чтобы семейство #~ допускало одновременное сингулярное разложение. 26. Отыскание одновременного сингулярного разложения для двух заданных матриц А, В^Мт<п представляет собой интерес- интересный частный случай предыдущей задачи. Показать, что для су- существования унитарных матриц V <= Мт, W е Мп, таких, что А = VLW*, В = VAW* и матрицы 2, Ле Мт< „ «диагональны», необходимо и достаточно, чтобы оба произведения АВ* и В*А были нормальными матрицами. Указание. В части достаточно- достаточности показать, что рассмотрение общего случая можно свести к ситуации, когда А = 2— неотрицательная и «диагональная» матрица. Группируя ') равные диагональные элементы матрицы 2, показать, что из нормальности произведений 2В* и 5*2 вы- вытекает, что В — блочно-диагональная матрица, все диагональ- диагональные блоки которой (за возможным исключением одного блока, если А вырожденна) нормальные. Чтобы получить нужное утверждение, применить к каждому блоку спектральную тео- теорему для нормальных матриц либо сингулярное разложение. 27. Предположим, что желательно иметь унитарные матрицы V<=Mm и lFeMn, такие, что каждую матрицу семейства '0~ = {Ar. i^^}cMmtn можно представить в виде А; = V2iW* с «диагональной» матрицей 2;. Показать, что для этого необхо- необходимо, но (если в семействе три или более матриц) не доста- достаточно, чтобы матрицы А(А*-^Мт и Л*Л;еУИп были нормаль- нормальными при любых /, / е Э'. Указание. Рассмотреть семейство Г ° Объяснить, какая именно часть рассуждения для двух матриц не срабатывает в случае, когда матриц больше двух. Дополнительная литература и комментарии Сингулярное разложение вещественных квадратных матриц было введено и обосновано Сильвестром в 1889 г. Первое дока- доказательство возможности сингулярного разложения в случае про- произвольных комплексных m X n-матриц было дано, по-видимому, в работе: Eckart С, Young G. A Principal Axis Transformation for Non-Hermitian Matrices. — Bull. Amer. Math. Soc, 1939, v. 45, p. 118—121. В этой же статье доказано, что, для того ') То есть помещая их в последовательные диагональные позиции.— Прим. перге.
7.4. Примеры и приложения сингулярного разложения 507 чтобы две матрицы А, В <= Мт< „ допускали одновременное син- сингулярное разложение, в котором «диагональные»сомножители ее- щественны, необходимо и достаточно, чтобы обе матрицы АВ* и В*А были эрмитовыми. Обзор результатов об одновременном сингулярном разложении для семейств матриц, а также до- дополнительную литературу по этому вопросу можно найти в статье: Gibson P. M. Simultaneous Diagonalization of Rectangu- Rectangular Complex Matrices. — Linear Algebra Appl., 1974, v. 9, p. 45—53. 7.4. Примеры и приложения сингулярного разложения Полярная форма и сингулярное разложение имеют много- многочисленные приложения. Некоторые из них указаны в задачах; еще несколько обсуждается в следующих примерах. 7.4.1. Пример. Пусть дана обратимая матрица А^.Мп. Тогда все достаточно близкие (в смысле произвольной нормы) к А матрицы также обратимы. В некоторых задачах статистического моделирования требуется найти «ближайшую к Л (в смысле наименьших квадратов) вырожденную матрицу». Другими сло- словами, мы хотим найти матрицу В, такую, что А + В вырож- денна и при этом величина ||В||? имеет наименьшее возможное значение. Фиксируем некоторую матричную норму ||-||. Предположим, что матрица А -\- В вырожденна, и запишем ее в виде А + В = == Л(/ + А-1 В). Если бы было||Л-]5||< 1,то матрица / + Л-'В, а значит, и A -f- В, была обратима согласно следствию 5.6.16. Итак, 1 s^lH-'SIKIH-Mlllflll, т. е. если А обратима, а А + В вырожденна, то должно быть ||5|| ^ 1/||Л-'||. Возьмем в каче- качестве нормы || • || спектральную норму, и пусть А = VEW* — син- сингулярное разложение матрицы Л. Тогда НЛ-ЧЬ =11 WS-'VIU = = 112-412= l/cr«, где оп — наименьшее сингулярное число мат- матрицы А. Следовательно, всякая матрица В, для которой мат- матрица Л -f- В вырожденна, должна удовлетворять неравенству \\В\\2 > оп{А). Но если взять В= VEW*, где ? = diag(O, 0, ... ..., 0,— оп), то ||Я||2=||?||2 = огп=||?|и=||В||?, и матрица А -\- В вырожденна (причем имеет ранг п— 1). Более общо, если мы хотим найти для заданной матрицы Л, вырожденной или невырожденной, «ближайшую в смысле евкли- евклидовой нормы матрицу ранга k», то можем взять матрицу А -\- В, где, как и прежде, В = VEW*, но ? = diag(O, ..., 0, —ст*+ь ••¦ ..., —ап)- Доказательство этого утверждения предлагается про- провести в задаче 1 в конце данного параграфа, а его обобщение на произвольную унитарно инвариантную норму обсуждается в примере 7.4.52.
508 Гл. 7. Положительно определенные матрицы Специального упоминания заслуживает случай k = \, часто встречающийся в приложениях. Наилучшее среднеквадратичное приближение заданной- матрицы A = VZW*^.Mn матрицей Хе=Мп ранга 1 имеет вид X = А + В = VB + Е) W* = = V diag(<Ji, 0, ..., 0) W* — O\vw*. Здесь ai — наибольшее син- сингулярное число матрицы A, v и w — первые столбцы в унитар- унитарных матрицах V и W сингулярного разложения. Говоря о век- векторах v и w, полезно иметь в виду, что они являются норми- нормированными решениями пары эрмитовых спектральных задач AA*v==a\v, A*Aw = o2w, в которых 0^—наибольшее собственное значение положительно полуопределенной матрицы А*А (и матрицы АА*). Разумеется, это замечание не определяет v и w однозначно; одна из трудно- трудностей состоит в том, что собственные подпространства, отвечаю- отвечающие о\, не обязаны быть одномерными. Однако если a\ — про- простое собственное значение матрицы А*А (а следовательно, и матрицы АА*), то собственные векторы v и w определены с точ- точностью до скалярного множителя с модулем 1; поэтому они1) лишь множителями отличаются от первых столбцов унитарных матриц V и W в сингулярном разложении А= VI>W*. В этом случае при фиксированном выборе нормированных собственных векторов у и до наилучшее одноранговое приближение к мат- матрице А должно иметь вид e'eoivw*, где 0 — некоторое веще- вещественное число. Скалярный множитель еш нужно выбрать так, чтобы минимизировать величину \\А — ewoxvw* [|| = || А ||| — — 2asRe[tr е~'еЛ (идо*)*] + о\\\ v \\22\\ w |||, что эквивалентно макси- максимизации функции Re [tr е~'вА (vw*)*] = Re[e~'ev*Aw]. Но Aw => = VLW*w = e'^OiV для некоторого tpeR (см. задачу 5 из § 7.3); следовательно, \v*Aw\ = oi > 0. Итак, оптимальный ска- скалярный множитель равен ет = v*Aw/\v*Aw\ = v*Aw/oi, а наи- наилучшим одноранговым приближением к А будет матрица * = {v*Aw) vw*. Все это показывает, что если старшее собственное значение матрицы А*А простое, то наилучшее среднеквадратичное при- приближение к А ранга 1 может быть без дополнительных усилий построено по решениям двух эрмитовых спектральных задач. Условие простоты старшего собственного значения матрицы А*А выполнено, например, для неотрицательной матрицы Аа ') То есть взятые произвольным образом нормированные собственные векторы матриц АА* и А*А, отвечающие собственному значению ffj. — Прим, перев.
7.4. Примеры и приложения сингулярного разложения 509 , такой, что ААТ положительна или, более общо, нераз- неразложима (см. задачу 17 из § 8.4). 7.4.2. Пример. В теореме 5.7.17 было доказано такое утверж- утверждение: для того чтобы векторная норма G(-) на Мп удовлетво- ряла условию G(Al)G(A2)...G(Ak)>p(A1...Ah) для любых Аи А2, ..., 4еМ„ и всех k = \, 2, .,,, необхо- необходимо и достаточно, чтобы для нее существовала согласованная векторная норма на С". Критическое место в этом доказатель- доказательстве следующее: из указанного неравенства для нормы G(-) и спектрального радиуса вытекает существование положительной константы с, такой, что G{A\)G{A2) ... G(Ak)^s c\\A\A2 ... ... Ak\\2. Чтобы обосновать это утверждение, требуется сингу- сингулярное разложение произведения А\А% ... Ак. Детали можно найти в лемме 5.7.16. 7.4.3. Пример. Предположим, что нужно решить систему ли- линейных уравнений Ах = Ь, где А е Мт, , и J е С™ заданы и А имеет ранг k. Пусть А = V2W* — сингулярное разложение мат- матрицы А. Тогда VLW*x = b, или . . -- ) = V*b. G.4.4) Если т> k, то последние т. — k строк матрицы 2 нулевые. Поэтому для существования решения необходимо (и доста-1 точно), чтобы последние т — k компонент вектора V*b равня- равнялись нулю. Итак, при т> k система Ах=Ь разрешима в том и только в том случае, если вектор b ортогонален последним т — k левым сингулярным векторам матрицы А. Пусть b удов- удовлетворяет этому условию совместности, и пусть V = [v\ ... vm]f W = [wi ... wn]. Тогда из G.4.4) следует, что *k о оТ Таким образом,вектор есть решение данной системы. Поскольку Aw-, = V(%W*Wj) — 0 для всех j > k, то любая линейная комбинация последних п — k |(если п > k) правых сингулярных векторов матрицы А принад- принадлежит ядру этой матрицы, а потому вектор к » п ZV,0 т-1 О. * i—1
510 Гл. 7. Положительно определенные матрицы будет решением системы Ах — b при любых ск+и • ••> с«еС; разумеется, при п = k эта последняя сумма отсутствует. По- Поскольку векторы {wi} ортонормированы, решение с минималь- минимальной евклидовой длиной получается, когда все с, равны 0. Отме- Отметим, что последние т — k левых сингулярных векторов матрицы А образуют базис ядра матрицы АА*, совпадающего с ядром матрицы А*. Поэтому требование, чтобы вектор b был ортогона- ортогонален к последним т — k левым сингулярным векторам матрицы Л, равносильно тому, чтобы потребовать ортогональности b к любому решению системы А*х = 0. Упражнение. Если не все из последних т — k компонент век- вектора V*b равны нулю, то система Ах = b несовместна, и реше- решений нет вообще. Однако для ряда целей можно удовлетвориться нормальным псевдорешением, т. е. вектором х е С", минимизи- минимизирующим \\Ах — 6[U и при этом имеющим наименьшую возмож- возможную евклидову длину. Показать, что формула G.4.5) дает нор- нормальное псевдорешение. 7.4.6. Пример. Пусть А^М:, — заданная матрица. Каково будет наилучшее среднеквадратичное приближение к А среди матриц, отличающихся от унитарных разве лишь скалярными множителями? Вспомним, что /2-норма на Мп порождается ска- скалярным произведением [Л,В] = 1гЛВ* и что для унитарной матрицы U Если сеСи U е Мп —• унитарная матрица, то \\A-cU\\l = [A-cU, Л — ct/] = И Л |j^ — 2Re {с [Л, U]} + n\c \\ Минимум этого выражения1) достигается для с = \А, Щ/п и, следовательно, \\A-cUfE>\\A\?E-\\[A,U]f. Если положить и(А)^ max | [A, U]\, G.4.7) и^мп унитарна то получим величину, аналогичную численному радиусу г (А), только максимум скалярного произведения в последнем случае брался не по унитарным матрицам, а по всем эрмитовым мат- матрицам ранга 1, имеющим единичную евклидову норму. Однако ¦) При фиксированной матрица U. — Прим. перев.
7.4. Примеры и приложения сингулярного разложения 5tf в отличие от численного радиуса функция и(А) является мат- матричной нормой на Мп (см. задачу 5 и пример 7.4.54). Легко определить значение и (А), а также экстремальную унитарную матрицу. Пусть А = VZW* — сингулярное разложе- разложение матрицы А. Тогда ' и(А)= max \[A, U]\= max | [VW, U] | U унитарна U унитарна = max | tr У2ИГС/'| = max | V унитарна V унитарна и и max | унитарна п max Е -[«(/] '-1 унитарна Если A = PU~ trS?/| = - полярная max унитарна «И 1 < форма / rf 0"i« -1 матрицы Л, то [Л, U] = tr PUU* = tr Р = Е 0г. <=1 Таким образом, полученная нами верхняя оценка для и(Л) до- достижима и и (А) = 0i (Л) -f- ... -(-0П(Л), а наилучшее средне- среднеквадратичное приближение матрицы Л кратным унитарной мат- матрицы дается формулой Здесь f/ — унитарная матрица из полярной формы А = PU мат- матрицы А, а 0ь ..., а„ — сингулярные числа матрицы Л. Если из- известно сингулярное разложение Л = 1/2 W*, то ?/ = К№*. Ошиб- Ошибка приближения равна и обращается в нуль только тогда, когда неравенство Коши • Шварца на самом деле является равенством. Итак, матрица А может быть идеально аппроксимирована кратным унитарной матрицы
512 Гл. 7. Положительно определенные матрицы лишь в том случае, если все ее сингулярные числа равны между собой. 7.4.8. Пример. Пусть заданы матрицы А, ВеМт,п и жела- желательно выяснить, нельзя ли получить А посредством «вращения» матрицы В, т. е. не будет ли А — UB для некоторой унитарной матрицы U е Мт? Более общо, если рассмотреть всевозможные «вращения» UB заданной матрицы В, то насколько хорошо ими можно аппроксимировать матрицу А в смысле наименьших квадратов? Эта задача известна в факторном анализе как за- задача отыскания «прокрустова преобразования» матрицы В. Вычисления очень схожи с тем, что было в предыдущем примере. Нужно выбрать U так, чтобы минимизировать \\А — UB\\E; как и выше, находим, что || Л - С/В Ц = [Л-С/В, А-иВ]=\\А\\Ъ-2Ъе[А, С/В]+ || ВЦ. Таким образом, следует искать унитарную матрицу U, макси- максимизирующую функцию Re [Л, UB] = Retr AB*U*. Если АВ* = = VIiW* — сингулярное разложение матрицы АВ*, то Re tr AB'U* = Re tr V2W*U* = Re tr WU'V Здесь T = [tn] = W*U*V — унитарная матрица. Максимум этой суммы достигается, когда все tn = 1, т. е. когда U = VW*. Мат- Матрица VW* — это просто унитарный сомножитель в полярном разложении матрицы АВ*. Итак, для матрицы Л е Мт, п наилучшее среднеквадратич- среднеквадратичное приближение вида UB, где ВеМт,л, a U е Мт — унитар- унитарная матрица, определяется формулой О В = (VW*)B. Матрицы V, W входят в сингулярное разложение матрицы АВ*; можно использовать и полярное разложение АВ* = P(VW*); таким об- образом, знать V и W по отдельности нет нужды. Ошибка аппрок- аппроксимации равна min {|| Л - С/В ||в: Ue=Mm унитарна } = || Л - (VW*) В \\Е *=» [ 11/2 IIЛ Щ +|| В ||| - 2 Х^] Х где {oi(AB*)}—множество сингулярных чисел матрицы АВ*, Пусть нужно выяснить, будет ли Л точным вращением мат- матрицы В. Очевидно, что необходимым условием этого является равенство ||Л||?=||В||?; необходимые и достаточные условия имеют вид (снова {oi{AB*)} обозначает множество сингулярных
7.4. Примеры и приложения сингулярного разложения 513 чисел матрицы АВ*) 1 Рассмотрим в заключение частный случай m = п и В = I. Тогда получим следующий результат: наилучшее среднеквадра- среднеквадратичное приближение заданной матрицы А е Мп унитарной мат- матрицей U s Мп выражается формулой U=VW*, где V, W — матрицы из сингулярного разложения А = VSR/"*. Иначе говоря, A — PU = P(VW*) есть полярное разложение матрицы А. Ошибка аппроксимации равна Через at(А) обозначены сингулярные числа матрицы А. Попутно с обсуждением предыдущего примера, мы нашли решение задачи о максимизации функции RetrAf/ на множе- множестве всех унитарных матриц U. Для удобства последующих ссы- ссылок оформим этот результат как теорему. 7.4.9. Теорема. Пусть АеМп — заданная матрица с сингу- сингулярным разложением А = VL W*. Тогда (а) задача max{Retrj4?/: U е Мп унитарна} имеет решение U = VW*, а значение максимума равно Gi(A)-\- ... -\-ап{А), где {oi(A)} — множество сингулярных чи- чисел матрицы А; (Ь) существует унитарная матрица U ^Мп, та- такая, что AU е Мп — эрмитова положительно полуопределенная матрица. Унитарная матрица U тогда и только тогда является решением экстремальной задачи п. (а), когда матрица AU по- положительно полуопределена; если А невырожденна, то U опре- определена однозначно. Собственные значения матрицы AU совпа- совпадают с сингулярными числами матрицы А. Доказательство. Имеем Re tr AU = Re tr VSWV = Re tr S (W'UV) = S Re ot (WUV),{. Максимум этого выражения достигается, если все диагональные элементы матрицы W*UV равны 1. Поскольку матрица W*UV унитарная, это означает, что W*UV=*I, или U = WV*. При та- таком выборе матрицы U получим AU = VZW*WV* = VZV*; эта матрица эрмитова и положительно полуопределенная, поскольку 17 Р. Хорн, Ч. Джонсон
514 Гл. 7. Положительно определенные матрицы 2 = diag(ffi, ..., an) и все ст, неотрицательны. Если Ui^Mn — произвольная унитарная матрица, для которой матрица AU\ положительно полуопределена, то собственные значения послед- последней должны (в силу инвариантности сингулярных чисел) сов- совпасть с сингулярными числами матрицы А. Единственность в невырожденном случае вытекает из утверждений о единствен- ности в теореме 7.3.3. ? Для произвольной матрицы ЛеМШ)„ обе матрицы А А* и А*А положительно полуопределены 'и tr АА* — о\{А) + . • • • • • + amin{m, n) №)> пРавУю часть этого равенства можно рас- рассматривать как сумму произведений сингулярных чисел матриц А и А*, учитывая, что сингулярные числа матрицы А* совпа- совпадают с сингулярными числами матрицы А. Это простое заме- замечание допускает обобщение на любую пару матриц А, В, для которой оба произведения АВ и ВА имеют смысл и к тому же положительно полуопределены. Это обстоятельство полезно при решении матричных оптимизационных задач нескольких типов. 7.4.10. Теорема. Пусть А е Мт, л, Be Мп, т и q = min{m, n}. Обозначим через о\(А), ..., ач{А) и О\(В), ..., oq(B) сингу- сингулярные числа соответственно матриц А и В, пронумерованные по невозрастанию. Если обе матрицы АВ^Мт и ВА^Мп по- положительно полуопределены, то найдется перестановка т целых чисел 1, 2, ..., q, такая, что tr AB = tr В А = 2, a (A) ox(t) (B). G.4.11) Доказательство. Если m = n, матрицы А и В коммутируют и при этом каждая из них положительно полуопределена, то обе матрицы можно диагонализовать одним унитарным преоб- преобразованием: А = UAU*, В = UMU*, U^Mm — унитарная мат- матрица, A = diag(Xi, ..., "Km), M = diag(nb ..., цт) и все числа Xt, уа неотрицательны. Но тогда т tr АВ = tr (UAU') (UMU*) = tr UAMU* = tr ЛЛГ = Z X^. Поскольку собственные значения X,, }ii являются в то же время сингулярными числами матриц А, В, то в этом частном случае теорема доказана. Без ограничения общности, можно считать, что т ^ п: если m >¦ п, то можно просто поменять местами А и В в формули- формулировке теоремы. . Мы утверждаем, что для доказательства теоремы в общем случае достаточно показать следующее: для любой пары мат-
7.4. Примеры и приложения сингулярного разложения 515 риц Ае.Мт,п, В&.Мп,т {т ^ п), такой, что оба произведе- произведения АВ и ВА положительно полуопределены, найдутся унитар- унитарная матрица V е Мп и матрица У е Мт, п с ортонормирован- ными строками, для которых п X ^-матрицы A = Y*AV, B=*V*BY G.4.12) коммутируют и положительно полуопределены. Если это так, то, согласно сказанному выше, tr АВ = tr ABYY* = tr Y'ABY = tr (У* AV) {V'BY) = = S Oi WAV) ax (l) (V'BY) = E а, (Л) at w (B). Заметим, что A'A = VtA'YY*AV = V*A"'AV = {AV)'(AV), поэтому сингулярные числа матрицы А совпадают с сингулярными чис- числами матрицы AV, а те в силу равенства (АV) (AV)* = АА*—• с сингулярными числами матрицы А. Таким же образом показы- показываем, что сингулярные числа матрицы В равны сингулярным числам матрицы В; следовательно, т tvAB=Z oi(A)oui)(B), i = l что и утверждалось. Доказательство существования преобразо- преобразования G.4.12) с нужными свойствами разобьем на три этапа. A) Пусть А и В удовлетворяют условиям теоремы. Вспом- Вспомним (см. теорему 1.3.20), что собственные значения матрицы ВА — это собственные значения матрицы АВ (с учетом крат- ностей) и дополнительно п — т нулевых собственных значений. Пусть %\, ..., Хт — собственные значения матрицы АВ; поло- положим A = diag(Xi, ..., %т). Так как обе матрицы АВ и ВА по предположению эрмитовы, то найдутся унитарные матрицы U е Мт nFe Мп, такие, что = v\A °~lv\ Представим матрицу V в виде V = [Vl\Vz], где F, <=Мп<т, У8еМЯ|Я.т, Матрица V{ имеет ортонормированные столбцы, так что V;K, = /eMm. Поскольку Л. = U'ABU и BA=VlAV\, то BA = {yiU*)AB{UV\): Положим Y = UV\s=Mm „ и заметим, что YY* = UV\VlU' = UU* = I, т. е. У имеет ортонормированныв строки и BA~Y*ABY. Определим А и В формулами Л ?=з = У'Л<рМ„, B^BY(=Mn; тогда AB = Y'ABY = BA и ВА = — BYY*A = BA. Произведение В А положительно полуопреде« лено по предположению. Итак, существует преобразование вида 17*
516 Гл. 7. Положительно определенные матрицы G.4.12), где V — I, приводящее к коммутирующей паре пХ«- матриц с положительно полуопределенным произведением. Сами же матрицы А и В могут не быть положительно полуопределен- полуопределенными; чтобы добиться их положительной полуопределенности, может потребоваться еще одно преобразование вида G.4.12). B) Не ограничивая общности, можем теперь предполагать, что т = п, А и В коммутируют и произведение АВ положи- положительно полуопределено. Если (АВ)х = Хх, где хфО, то (АВ)(Ах) = АВАх = ААВх = А{АВх) = А(Хх) = Х(Ах). Таким образом, каждое собственное подпространство эрмитовой мат- матрицы АВ инвариантно относительно А. Аналогичным образом показываем, что каждое из этих собственных подпространств инвариантно относительно В. Отсюда следует, что если Х\, .., ..., кг — все различные (неотрицательные) собственные значе- значения положительно полуопределенной матрицы АВ с кратно- стями соответственно k\, ..., k, {k\ -f- ... + kr = n), a U = = [«i ... un] — унитарная матрица, столбцы которой являются собственными векторами матрицы АВ, причем собственные век- векторы, отвечающие одному и тому же собственному значению, расположены подряд, то обе матрицы U*AU и U*BU должны быть блочно-диагональными: it A2, .... Аг), it В2 Вг); здесь Ah Bi^Ah. и AlBi = BiAi = XlI <= Nh.. C) Не ограничивая общности, можем теперь считать, что т = п, Л, В<=Мн, А и В коммутируют и АВ = Х!, где X ^ 0. Если X > 0, то А и В невырожденны и В — ХА~Х. В соответствии с теоремой 7.4.9 найдем унитарную матрицу U е М„, такую, что матрица А = AU полол<ительно определена. Но тогда матрица В = U*B = XU*A~X = X(AU)~* также положительно определена в силу положительности X и положительной определенности матрицы (AU)-1. Далее, (U*B) {AU)= U*XW = XI = АВ = = (/Ш) (U*B), т. е. Л и В коммутируют. Данное преобразова- преобразование1) имеет вид G.4.12), поэтому в случае ^>0 доказатель- доказательство закончено. Если X = 0, то АВ = ВА = 0. Снова выберем унитарную мат- матрицу U так, чтобы матрица Л Сбыла положительно полуопределе- полуопределена. TorAaO=AB=(AU)(U*B) = (U*B)(AU)=U*OU=0, т. е. AU и U*B коммутируют, а потому каждое собственное подпростран- подпространство эрмитовой матрицы All инвариантно относительно U*B. Пусть Xi, Х2, ..., Хг — все различные (неотрицательные) соб- ') От Л, В к А, В. — Прим персе.
7.4. Примеры и приложения сингулярного разложения 517 ственные значения положительно полуопределенной матрицы AU и W вж[т\ ... wn] — унитарная матрица, столбцы которой являются собственными векторами матрицы AU, причем соб- собственные векторы, отвечающие одному и тому же собственному значению, расположены подряд; тогда обе матрицы W*(AU)W, и W*(U*B) W блочно-диагональные: W* (AU) W = diag (А„ ... , Л,), W (УВ) W = diag (Вь .... Вг). рдноименные матрицы Л,, Bi имеют одинаковый порядок и Л,- = %il, t = 1,2, ..., г. Для всех i = 1, ..., г справедливы ра- равенства AiBi = BiAi = 0. Если %t Ф 0, то Л/ = hi, Bt = 0 обра- образуют требуемую коммутирующую пару положительно полуопре- полуопределенных матриц. Если Xi = 0, то матрица Bi не обязательно нулевая, но тогда должна найтись унитарная матрица Ui, та- такая, что U*iBi положительно полуопределена (нужно применить теорему 7.4.9 к fi*). В этом случае матрицы AiUi = 0 и lI\Bi со- составляют коммутирующую положительно полуопределенную пару, получаемую преобразованием вида G.4.12). Тем самым завершено исследование всех возможных случаев. ? 7.4.13. Пример. Рассмотрим следующий вариант задачи о вра- вращениях 7.4.8. Пусть заданы матрицы А, В^Мт,п, и нужно определить, не может ли А быть получена двусторонним «вра- «вращением» матрицы В, т. е. не будет ли А = UBV для некоторых унитарных матриц U е Мт, V е Мп. Более общо, если рассмат- рассматривать всевозможные двусторонние «вращения» LJBV данной матрицы В, то насколько хорошо можно ими аппроксимировать А в смысле наименьших квадратов? Как и прежде, будем искать унитарные матрицы U е Мт и Kg Мп, минимизирующие функцию \\А — UBVWe. Как и прежде, находим A — UBV] = = || Л |||-2 Re И, UBV) + \\BfE. Итак, нужно найти унитарные матрицы U^Mm, V^Mn, мак- максимизирующие функцию Re[A, UBV] = RetrAV*B*U*. Оптими- Оптимизирующие унитарные матрицы Uo, Vo для этой задачи должны существовать (хотя и необязательно определяются единствен- единственным образом), поскольку множества унитарных матриц в М„ и Мт компактны и. декартово произведение компактных множеств также компактно. Оптимизирующие матрицы Uo, Vo обладают тем свойством, что
518 Гл. 7. Положительно определенные матрицы для любой унитарной матрицы U^<= Mm. Это означает, согласно теореме 7.4.9, что матрица AV*OB*U'O положительно полуопреде* лена. Но и . , Re tr AV'0B*U*0 = Re tr (BW0A) V*o > Re tr ВЧГ0 AV, какова бы ни была унитарная матрица КеМл, Снова по тео- теореме 7.4.9 заключаем, что матрица B*U*0AV*0 положительно полуопределена. Итак, матрицы AV*0^Mmn и B*U*0<sMntn удовлетворяют предположениям теоремы 7.4.10. Поэтому, пола- полагая q = min{m, n}, имеем max {Re tr AV'BV*: U se Mm и V se Mn унитарны} = ^;E((^)t@(;) ti^)t(/)() Здесь использована унитарная инвариантность сингулярных чи- сел и через т обозначена перестановка множества {1, ..., q}. Не ограничивая общности, можно считать, что сингулярные чис- числа о\(А), ..., aq{A) и <Xi(B), ..., oq(B) пронумерованы по убыванию. Если перестановка т не совпадает с тождественной, то найдутся индексы iu i2, такие, что 1 ^ ix <C /2 ^ q, но ax{h)(B) ^.aX(i2)(B). Легко проверить, что сумма не уменьшится, если изменить перестановку т так, чтобы эти два сингулярных числа поменялись местами. Действительно, раз- разность между новым и старым значениями суммы равна [atl (Л) - ai2 (A)} [a% (W (В) - о,„,, (В)] > 0. Таким образом, максимальное значение суг/мы достигается для тождественной перестановки т; поэтому max {Re tr AV*B'U*: U^Mm, FeMn унитарны} = = tot{A)at(B)- G.4.14) Сингулярные числа обеих матриц А и В упорядочены по убы- убыванию.
7.4. Примеры и приложения сингулярного разложения 519 Используя этот результат в нашей исходной экстремальной задаче, получаем, что для Л, Be Мт, „ и q = min{m, n) min {|| А — UBV h- U z=Mm и V e= Mn унитарны} = Ч -J1/2 1 Е [<7 I q -ll/2 Е^(Л)-2Еа;(Л)аг(В)+Еа|(й) = i = l i = I f = l J [?? -11/2 I [а, (Л) - ot(B)f J . G.4.15) В частности, Л тогда и только тогда будет «двусторонним вра- вращением» матрицы В, когда Л и В имеют одно и то же множест- множество сингулярных чисел. ? Упражнение. К чему сводится G.4.15) при В = /? Сравнить с результатом, указанным в конце разбора примера 7.4.8. Что дает G.4.15) в случае диагональной матрицы В ранга ft? Срав- Сравнить с комментариями в примере 7.4.1. 7.4.16. Пример. В качестве еще одного примера использова- использования сингулярных чисел рассмотрим вопрос о характеризации введенных в § 5.6 унитарно инвариантных матричных норм. Определение. Векторная норма || • || на Мт, п называется уни- унитарно инвариантной, если для всех А (= Мт, п и любых унитарных матриц U s= Мт, V е Мп. Пусть матрица А е Мт, п имеет сингулярное разложение А = VZW*. Тогда |^||=||K21F*|| = ||Z|| для всякой унитарно ин- инвариантной нормы ||-||. Таким образом, на пространстве матриц с фиксированными размерами унитарно инвариантная норма за- зависит только от множества сингулярных чисел матрицы. Двумя хорошо известными примерами унитарно инвариант- инвариантных норм являются евклидова норма (или норма Фробениуса) и спектральная норма. Обозначим через <Ti ^ <т2 ^ ••• ^ ач сингулярные числа матрицы X = [хц] е Мт, „ (q = min{m, n}). Тогда /пт V/2 /А А1/2 || X ||2 = maj-^ = [p (ГХ)Р = a, - max {a, eq). Пусть теперь ||-||—произвольная унитарно инвариантная норма на Мт, „. Природу ее зависимости от сингулярных чисел
520 Гл. 7. Положительно определенные матрицы матричного аргумента определить нетрудно. Будет удобно счи- считать, что т «s; п. Положим А = diag(ATi,X2 xm)e. Мт и вве- введем блочную матрицу Х=[А\0], А^Мт, ОеМ„гЯ_т. Так как XX* = diag ([ хх |2, | х212, •. . , I хт |2), то [xt\ суть син- сингулярные числа матрицы X. Определим функцию g: Cm-»R+ формулой От нормы || • || функция g(-) наследует такие свойства: G.4.17) g(x)^0 для всех х е С", поскольку ||Х||^ 0 для всех X е Мт, п. G.4.18) g(x) = 0 тогда и только тогда, когда х = 0; это сле- следует из того, что ЦХЦ=О тогда и только тогда, когда Х = 0. G.4.19) g (ах) = | а | g (x) для всех леС" и всех аеС, по- поскольку || аХ || = | а ||| Х\\ для всех иёС и всех 1еМа]П, G.4.20) g(i+j)<g(х) + g(у) для всех х, у е Ст, поскольку Х + 11Г|| для всех X, У<=Мт<п. Эти четыре свойства означают, что g(-)—векторная норма на Ст; но g(-) имеет два дополнительных свойства: G.4.21) g(-) — абсолютная норма на С"\ как она определена в E.5.9). Таким образом, если х = \х{} е Cm, y = [yi\ = [|х,|]е бС", то g(x) — g(y). Это равенство вытекает из того, что g-(jc) =11X11 зависит только от сингулярных чисел матрицы X, а ими являются числа О; =|хг|. G.4.22) Если Р^М,п — матрица перестановки, то g(Px) — = g(x) для всех J6C". Действительно, множество сингуляр- сингулярных чисел матрицы X = [А •; 0] совпадает с множеством сингу- сингулярных чисел матрицы [РАРт\0], так как (РАРт)*(РАРт) — — РА*АРТ. Функция g{x) зависит от множества абсолютных ве- величин компонент вектора х, но не от его упорядочения. Упражнение. Для обсуждаемой матрицы Х = [А \ 0] е МШ;П, Л = diag (д;ь ... , хт), вычислить сингулярное разложение в яв- явном виде. Упражнение. Если пг^п, полагаем Х==[Л|0]г, где А — = diag(x,, ..., *„)<=Л*„, и определяем функцию g(x) = \\X\\, ieC". Показать, что если || • || — унитарно инвариантная норма на Мт>п, то g(-)~ абсолютная векторная норма на С",
7.4. Примеры и приложения сингулярного разложения 521 причем g(Рх) = g(х) для всех хеС'и любой матрицы пере- перестановки Р е Мп. Упражнение. Проверить непосредственно, что векторные нормы g(-), получаемые из евклидовой и спектральной норм, обладают всеми шестью свойствами G.4.17) — G.4.22). 7.4.23. Определение. Функция g{-): Cq -*- R+ называется сим- симметричной калибровочной функцией, если она удовлетворяет требованиям G.4.17) — G.4.22), т. е. если она является абсолют- абсолютной векторной нормой, инвариантной относительно перестано- перестановок компонент своего векторного аргумента. Мы видели, что всякая унитарно инвариантная норма на Mm, n порождает симметричную калибровочную функцию; более интересно, что верно и обратное. Следующая теорема утверж- утверждает, что функция N{-) на Mm, n тогда и только тогда будет унитарно инвариантной нормой, когда N(A) есть симметричная калибровочная функция сингулярных чисел матрицы А. 7.4.24. Теорема. Пусть [| • || — унитарно инвариантная норма на Mm>n, q = min{m, п), х = [х-] с= С, Хх = diag (х,, . .. , xq), и пусть X = [Xi 10] е Мт> „, если ш^.п, или X = [Х{ \ 0]г <= Мт> „, если т^п. Определим функцию g: C->R+ формулой g{x)'= ss=\\X\\. Тогда g(-) — симметричная калибровочная функция. Обратно, если g: C"~>R+ — заданная симметричная калибро- калибровочная функция и отображение \\ • ||: Мт^п^К+ определено фор- формулой || A\\ = g(\ab ... , Gq]T), где аь ..'., aq — сингулярные чис- числа матрицы А, то \\ • \\ является унитарно инвариантной нормой на /Иш,„. Доказательство, Первая часть утверждения уже доказана. Переходя ко второй части, заметим, что функция ||-|| опреде- определена корректно, так как g(-) инвариантна относительно пере- перестановок компонент аргумента. Поскольку множество сингуляр- сингулярных чисел матрицы не меняется при унитарных преобразова- преобразованиях, то ||?//Щ|=||Д|| для любых унитарных матриц U е М,п, V е Мп. Так как g{-)—векторная норма, то ЦЛЦ^О для всех А е Мт, п. Равенство ||Л|| = 0 равносильно тому, что g([ai, ... . ,.t aq]r) = 0, а это возможно в силу G.4.18), лишь если все at = 0. Но нулевая матрица — единственная, чьи сингулярные числа все равны нулю, поэтому функция || • || положительна (см. 5.1.1а). Она также однородна, поскольку а,(с/1) = |с|а,(Л), a потому ||еЛ ||= g([|e|oi, ..., \c\oq}T) = \c\g( [а, oq]T) = = |с|1И||. То, что было сказано до сих пор, означает, что вся- всякая функция ||-Ц, порождаемая данным способом посредством симметричной калибровочной функции, является квазинормой на Мщ, п (см. § 5.4). Остается показать, что функция ||-|| удои-
522 Гл. 7. Положительно определенные матрицы летворяет неравенству треугольника. Для этого мы докажем, что она двойственна к некоторой квазинорме и, следовательно, в действительности будет нормой. Рассмотрим двойственную функцию gD{-) для нормы g(-) на С: gD(y)^ тахЯеу'х. G.4.25) W1 Функция gD(-) — всегда норма, так как §(•)—(квази) норма; бо- более того, она является симметричной калибровочной функцией. Действительно, G.4.21') если ? = diag(e;e', . .. , еюя), где все Qt e= R, то gD (Ey) = max Re (Ey)* х = max Re у* (Ex) = Wi Wi = max Rei/'x— max Re t/*x = gD (y); B(Ex)=l sW-I здесь использовано свойство G.4.21). Итак, g°(-) тоже удовлет- удовлетворяет требованию G.4.21). Аналогичное рассуждение показы- показывает, что G.4.22') если Р ^Mq — матрица перестановки, то gD (ру) = max Re (Яг/)' х = max Re y'PTx = Wi ()i = max Re y*x = max Re y*x = gD (у), g(Px)°°l jW=l поскольку для g(-) выполнено G.4.22). Таким образом, на Мт,„ можно задать функцию || • ||°, ассо- ассоциированную с симметричной калибровочной функцией g°(-): || Л Г ^?D (К, ..._ ojr)( где oi, ..., о? — сингулярные числа матрицы Л. (Здесь мы умышленно нарушаем соглашение об обозначениях: символ II-IIе обычно используется для нормы, двойственной к ||-|1, мы же пока не знаем, будет ли ||-|| нормой. Однако мы покажем, что это действительно так и что ||-Ц°, определенная посредством симметричной калибровочной функции g°{-), двойственна к ||-II-) То, что эта функция ||-|ID есть квазинорма на Мт,п, сле- следует, согласно сказанному выше, из того, что она порождена симметричной калибровочной функцией g°{-). Вычислим теперь функцию, двойственную к ||-||°; в соответ- соответствии с определением 5.4.12 она обязательно будет нормой на Мт, п- Заметим, что матрица В е Мт, п тогда и только тогда удовлетворяет условию ||В||°= 1, когда в ее сингулярном раз- разложении В = V2.W* матрица 2 = diag<0b ..., а„) такова, что
7.4. Примеры и приложения сингулярного разложения 523 gD{[oi, ..., oq]T)=\. Фиксируя матрицу Л е Л4Ш, л, получаем (|| A \\D)D зэ max Re [Л, В] = max Re tr AB" = I|B||°-=1 I|B||D=1 = max {Re tr Л (KW)*: VeAfm и ГеМл унитарны, 2 = diag(Sl sq) и g*>([Sl, ..., я,П=1}. Для каждой диагональной матрицы S, подчиненной указанному условию, можно с помощью G.4.14) найти максимальное зна- значение по всевозможным выборам унитарных матриц V, W: 51.|: gD([su ..., sq}T)=--l}. Так как все о«(Л)^:0, то из определения 5.4.12 очевидно, что этот максимум в точности равен значению нормы, двойственной к gD(-), на векторе [о1(Л), ..., aq(A)\T. Теорема двойствен- двойственности 5.5.14 гарантирует, что вторая двойственная норма совпа- совпадает с исходной, поэтому Итак, |H|| = (|H||D)D для любой матрицы Л е Мт, п, откуда сле- следует, что функция || • || действительно является нормой, а по- потому удовлетворяет неравенству треугольника. Этот вывод за- заодно оправдывает употребленное нами обозначение, поскольку по теореме двойственности (||Л||)° =((\\A\\D)D)D =||Л|]°. Итак, функция || -IIй, определенная посредством симметричной калиб- калибровочной функции gD{-), на самом деле двойственна к норме 11-11. ? Важный и хорошо известный пример симметричных калиб- калибровочных функций на С" дает семейство /р-норм (см. 5.2.4) 1/р g([xu ... , (ZJ Применяемые к сингулярным числам матрицы, как это описано в теореме 7.4.24, /р-нормы порождают на Мт, п унитарно инва- инвариантные нормы, называемые р-нормами Шаттена. Случай р = 2 соответствует евклидовой норме предельный случай (при р-^оо)—спектральной норме ||Л||2 = тах{аг(Л)},
524 Гл. 7, Положительно определенные матрицы случай р = 1 — следовой норме Следовая норма естественным образом появилась в примере 7.4.6, когда рассматривалась задача аппроксимации данной квадратной матрицы скалярным кратным унитарной матрицы. Другое семейство симметричных калибровочных функций на С", также включающее в себя следовую норму и спектральную норму, указано в G.4.44). 7.4.26. Пример. Сингулярные числа играют важную роль в выводе неравенства Виландта, дающего геометрическое истол- истолкование числа обусловленности квадратной невырожденной мат- матрицы относительно спектральной нормы. Пусть А^Мп — невырожденная матрица; положим В = s ДМ е Мл и обозначим сингулярные числа матрицы А через о'! ^ ... ^ оп. Собственные значения положительно определен- определенной матрицы В (расположенные, как обычно, в порядке возрас- возрастания) суть <з\ ^сг^_, ^ . .. ^о^. Пусть х, у е С— произволь- произвольная ортонормированная пара векторов; определим матрицу С е== [х у] *В [х у] е М2, и пусть ее собственными значениями бу- будут 0 < yi ss: Y2- Теорема Пуанкаре 4.3.16 при г = 2 дает Ч(в) = ^-*+1<Ч(С) = У*<Ля+й_2(В) = (г§_4, 6=1, 2, или Для наших целей интерес представляет лишь такое следствие этих неравенств: <cr2. G.4.27) Крайние соотношения превращаются в равенства, если в каче- качестве хну взять ортонормированные собственные векторы мат- матрицы В, отвечающие собственным значениям, которые совпа- совпадают с квадратами соответственно наибольшего и наименьшего сингулярных чисел матрицы А. Теперь вычисляем . ¦ х*Ву |2 . (х'Вх) (у*By) — | х*Ву \2 (х'Вх) [у*By) {х'Вх + У*ByJ — (х*Вх — у*ByJ 4detC ~" (tr СJ - {х*Вх - у'ByJ ~~ (Yi + Y2J — (х'Вх — у*ВуJ -"" (Yi + Y2J ' G.4.28)
7.4. Примеры и приложения сингулярного разложения 525 В последнем переходе равенство имеет место тогда и только тогда, когда для ортонормированных векторов х, jeC" спра- справедливо соотношение х*Вх — у*By. Преобразуем полученное не- неравенство в эквивалентное: I х'Ву I2 . (х'Вх) (у'Ву) ^ (у Верхняя граница в G.4.29) является монотонно возрастающей функцией отношения yz/yi (как легко показать, замечая, что производная функции f(t) — (t — l)/(?-f-l) положительна при />0). Согласно G.4.27), это отношение ограничено сверху ве- величиной оУо1\ следовательно, G.4.30) (х*Вх)(у*Ву) " Здесь введен положительный параметр % — % (А) = О]/сгя = = 11 Л||2|] Л^^ 1, представляющий собой число обусловленности матрицы А относительно спектральной нормы (или спектраль- спектральное число обусловленности). Пусть иь цлеС" — ортонормиро- ванные собственные векторы матрицы В, отвечающие соответ- соответственно собственным значениям af и о2п. Если положить х = = (щ + ипIл/2, у — (щ — м„)/л/2, то система {х, у} ортонор- мирована, х'Вх = у By = (of+ ^)/2 и х'Ву = (сг, — о^)/2, по- поэтому в G.4.30) достигается равенство. Определим угол 0 из первого квадранта формулой ctg @/2) = = к; тогда х2 — 1 _ ctg2 F/2) — 1 cos2 (9/2) — sin2 F/2) _ v? + 1 ~~ ctg2 F/2) + 1 ~ cos2 F/2) + sin2 F/2) ~ C0S b> и G.4.30) можно переписать в виде Замечая, что левая часть этого соотношения есть однородная функция степени 0 от каждого из аргументов х и у, мы можем, наконец, сформулировать неравенство Вилаидта. Приведем две его эквивалентные формы. 7.4.32. Теорема. Пусть А^Мп — заданная невырожденная матрица со спектральным числом обусловленности к, и пусть угол 0 из первого квадранта определен формулой ctg(8/2) = х. Тогда для любой пары ортогональных векторов х, у е С" спра- справедливо неравенство \(Ах, Ay)\^cosQ\\Ax\\2\\Ay\\2. G.4.33)
526 Гл. 7. Положительно определенные матрицы Символ {и, о> = v"u обозначает евклидово скалярное произве- произведение; через ||wl|2 = (ы*иI/2 обозначена евклидова норма. Кроме того, существует пара ортонормированных векторов х, у е С", для которой в G.4.33) достигается равенство. 7.4.34. Теорема. Пусть В^Мп — заданная положительно определенная матрица с собственными значениями Х\ ^ %2 ^ ... ... ^ К„. Тогда для любой пары ортогональных векторов x,j6C" справедливо неравенство | х-By Р < (f^f[ J (х'Вх) (у'By). G.4.35) Кроме того, существует пара ортонормированных векторов х, у е С", для которой в G.4.35) имеет место равенство. Доказательство. Неравенство G.4.33) получается из G.4.31) подстановкой В = А*А. Неравенство G.4.35) получается из G.4.30), если подставить о? = Я,п_,+1 и вспомнить, что всякую положительно определенную матрицу В можно записать в виде В = А*А для некоторой невырожденной матрицы А^.Мп; мож- можно, например, взять А — В1/2. Мы уже отмечали, что для неко- некоторой ортонормированной пары в G.4.30) может достигаться равенство. ? Упражнение. Показать, что G.4.35) есть усиление обычного неравенства Коти — Шварца, имеющего в данном случае вид \х*Ву\ = \(Су, Cx)\s^{\Cx\\2{\Cy{\2, где С = В^2. Однако неравен- неравенство Кош и — Шварца приложимо ко всем парам х, у, в то время как G.4.35) — только к ортогональным парам. Что случится, если Х\ = А,п? Неравенство Виландта в форме G.4.33) сразу приводит к полезной геометрической интерпретации спектрального числа обусловленности. Для произвольной ортонормированной пары х, у е С" левая часть неравенства <cos9 1ЛЛ I II A* Hi \\Ay h есть обычный косинус меньшего евклидова угла между ненуле- ненулевыми векторами Ах и Ау. Смысл данной оценки: меньший угол между Ах и Ау ограничен снизу числом 9 —0(Л), определяе- определяемым соотношением ctg[0(^4)/2] = Х-(А). Поскольку эта граница может достигаться, установлена геометрическая интерпретация числа В (А) как минимального угла между Ах и Ау, когда х и у пробегают всевозможные ортонормированные пары векторов. Эта точка зрения на число обусловленности обсуждалась в § 5.6 и 6.3.
7.4. Примеры и приложения сингулярного разложения 527 Из неравенства Виландта легко получить хорошо известное неравенство Канторовича. Пусть х—произвольный вектор из С"; положим у*з\\х 111 (В*) - (х*В-1х) х G.4.37) и заметим, что х*у = 0. Тогда Ву^\\х\\1х-(х*В-1х)Вх, хВу = || х ||1 —{х"В~1х) (х'Вх), уВу=-(х*В~1х)(у'Вх). Так как матрица В, а следовательно, и В~1 положительно опре- определены, то должно быть у*Ву^0, а потому у*Вх = х*Ву ^ 0. Перепишем неравенство G.4.31) в виде | х'Ву р < cos2 9 • {х'Вх) (у'By). Подставляя значения, соответствующие конкретному выбору G.4.37) для пары х, у, получим | хВу |2 < cos2 9 (х'Вх) (х*В~1х) (- х'Ву). В любом из двух возможных случаев х*By < 0 или х*Ву = 0 это означает, что - хВу = - [|| х \\1 - (х*В~1х) (х'Вх)] < (cos2 9) {хВх) (х'В^х) или (sin2 9) (х'Вх) (х'В~1х) < || х |Й G.4.38) для всякого вектора ie С". Отметим, что G.4.38) превращается в равенство, если x=ui-{-Un есть сумма ортонормированных собственных векторов матрицы В, отвечающих наименьшему и наибольшему собственным значениям. Это приводит к двум эквивалентным формам неравенства Канторовича, соответствую- соответствующим двум формам неравенства Виландта. 7.4.39. Теорема. Пусть А е Мп — заданная невырожденная матрица со спектральным числом обусловленности %. Определим угол 0 из первого квадранта формулой ctg(8/2) = x. Тогда для любого хеС" справедливо неравенство || х || ^ sin G || Лх Ц21 (Л*)~' х||2. G.4.40) Кроме того, найдется нормированный вектор х, для которого G.4.40) превращается в равенство. 7.4.41. Теорема. Пусть В е Мп — заданная положительно оп- определенная матрица с собственными значениями Х\ ^ k2 ^ ...
528 Гл. 7. Положительно определенные матрицы * • • ^ Кп. Тогда В~1х) G.4.42) любого х е С". Кроме того, найдется нормированный вектор х, для которого G.4.42) превращается в равенство. Доказательство. Оба результата вытекают из G.4.38), если подставить туда В — А" А и учесть, что sm2e=i — cos2e=i— y^j-r =73—гтЧг- V. Are + Ai / (Ai + An)'' Тот факт, что в обоих случаях возможно равенство, следует из возможности равенства в G.4.38). ? 7.4.43. Пример. Иногда удается доказать соотношения между нормами матриц, выполняющиеся для всех унитарно инвариант- инвариантных норм. Средство вывода таких соотношений мы получим, если осознаем фундаментальную роль, которую играют конкрет- конкретные симметричные калибровочные функции gk{[xu ..., хп]т). Эти функции вводятся на С" формулами gk {х} = max { [ xit I + • • • + ] *ik [• 1 < h < h < • ¦ ¦ < h < "}, k = \ n. G.4.44) Применяемые к сингулярным числам матрицы, как это описано в теореме 7.4.24, симметричные калибровочные функции данного семейства порождают семейство унитарно инвариантных норм на Мт, „, называемых k-нормами Фань Цзы. Случай k = 1 соот- соответствует спектральной норме, а случай ft = min{m, п)—следо- п)—следовой норме. 7.4.45. Теорема. Пусть х = [х,], у = [yi\ — фиксированные век- векторы из О. Для того чтобы неравенство g(x)^ g(y) было спра- справедливо при любой симметричной калибровочной функции g(-) на С", необходимо и достаточно, чтобы оно выполнялось для конкретных симметричных калибровочных функций gk(-), k== = 1, 2, ..., п, определенных в G.4.44). Доказательство. Поскольку каждая из функций g^(-)—сим- g^(-)—симметричная калибровочная функция, то необходимость условия ясна. Для доказательства достаточности предположим, что не- неравенства gk(x)^L gk(y) выполнены для k = 1, 2, ..., п, и пусть g(-) — заданная симметричная калибровочная функция. Так как симметричная калибровочная функция не меняется при пере- перестановках компонент своего аргумента (см. свойство. G.4.22)), то мы не потеряем общности, если будем считать (это удобно для дальнейшего), что компоненты векторов х и у пронумеро-
7.4. Примеры и приложения сингулярного разложения 529 ваны в соответствии с возрастанием абсолютных величин: I * 1 I < 1*2 I < • • • < I Хп |, | у, | < | У2 | < • • . < I Уп I • Теперь предположение gk{х) ^ gk(у), k — \,2, ..., п, становит- становится эквивалентным системе п неравенств • G.4.46) \x2\+..f+\xn\^\y2\+...+\ya\, I *, I + \х21 + ... + I * n\ < I У11 + IУ21 + • • • + IУ „I- (*> Сходство между этими неравенствами и неравенствами из опре- определения 4.3.24 для мажоризации не является чисто внешним. Если последнее из неравенств G.4.46) строгое, изменим век- вектор у, уменьшая абсолютную величину компоненты у\, пока не- неравенство (*) не обратится в равенство (случай (а)), либо у\ не станет нулем (случай (Ь)). В случае (Ь) повторим этот про- процесс со следующей компонентой у2 и так далее, пока не будет достигнут случай (а). В результате будет получен измененный вектор у' = [у'(], такой, что | у\ | < | у t\ для i = 1, ..., п, gk (x)< ^ gk(y') Для всех k=l, ..., п и соотношение (*) является равенством. Поскольку абсолютная норма в то же время моно- монотонна (см. теорему 5.5.10), то g(y')^ g(y)- Таким образом,если мы сможем показать, что ?(лг)=^ g(y) для произвольных х, у е е С", удовлетворяющих неравенствам G.4.46) с равенством (*), то можно будет утверждать справедливость соотношения g(x)^L ^ ё(у) и Для любых х, i/eC", связанных неравенствами G.4.46), в общем случае. Предположить, что имеют место неравенства G.4.46), при* чем в (*) достигается равенство, — это все равно, что предпо- предположить, что вектор —|-*г| = [—|A;,|]eRre мажорирует вектор — 11/| = [—|г/,|] е R" (см. определение 4.3.24). В этом случае, согласно теореме 4.3.33, найдется двоякостохастическая матрица S е Мп, такая, что —|х| = 5( — \у\), или \х\ = S\y\. Поскольку всякая двоякостохастическая матрица представима выпуклой комбинацией конечного числа матриц перестановок (см. тео- теорему 8.7.1), то можно записать S в виде 5 = a^Pi + ... + olnPn, где а,-^ 0, oci + ... -f-ал = 1 и каждая Pi е Мп — матрица перестановки. Отсюда выводим
530 Гл. 7. Положительно определенные матрицы Здесь использовано то, что ?(•) — абсолютная векторная норма, инвариантная относительно перестановок компонент своего аргу- аргумента. ? Значение этой теоремы состоит в следующем: для того чтобы неравенство ||ЛЦ<!||В|| выполнялось при любой унитарно инва- инвариантной норме ||-II на Мт,„, необходимо и достаточно, чтобы оно имело место для fe-норм Фань Цзы, А = 1,2, ..., min{m,n}. 7.4.47. Следствие. Пусть А, В — заданные матрицы из Mm, n с сингулярными числами соответственно а\(А)^ ... ~^ aq(A) и в\(В)~^ ... ^ oq(В), где q = min{m, п). Для того чтобы при любой унитарно инвариантной норме \\-\\ на Mm>n выполнялось неравенство ||Л||<!||Б||, достаточно выполнения неравенств at (А) < а,- (В), i = 1, 2, ... , q. G.4.48) Необходимыми и достаточными являются неравенства о,(Л) + <у2(А) + ... + а,(Л)<а,(В) + а2(В) + ... + а,(В). Доказательство. Решающее соображение заключается в том, что унитарно инвариантная норма на Mm, n есть симметричная калибровочная функция сингулярных чисел своего матричного аргумента (см. теорему 7.4.24). Достаточность неравенств G.4.48) опирается лишь на тот факт, что симметричная калибровочная функция является монотонной нормой (см. теорему 5.5.10), в то время как более тонкое утверждение относительно неравенств G.4.49) составляет содержание предыдущей теоремы. ? При применении следствия G.4.47) к доказательству соотно- соотношений между нормами часто бывает полезна приводимая ниже переформулировка известного нам факта: вектор собственных значений суммы эрмитовых матриц мажорирует сумму векторов, составленных из упорядоченных собственных значений склады- складываемых матриц. 7.4.50. Лемма. Пусть А, В^Мп — эрмитовы матрицы с соб- собственными значениями соответственно Xi(A)^. ... ^ А,„(Л) и МВХ ••• ^К(В). Через Xi(A-B)^ ... ^Х„(А — В) обо- обозначим собственные значения матрицы А —В. Тогда вектор
7.4. Примеры и приложения сингулярного разложения 531 мажорирует вектор к (А — В) = [kt (А — В)], т. е. min | Е [U. (А) - U,{В)]: 1 <i, < i2 < ... < ik <n\ > к >?*>t(A — B) 'для k = 1,2, .,,, п, причем при k = n достигается равенство. Доказательство. Согласно теореме 4.3.27, вектор К(А) = = к((А — В) + B) — [h((A — В)+ В)], образованный собствен- собственными значениями матрицы А—(А — В) + В, мажорирует век- вектор к (А — В)+ к(В) = [к, (А — В)-\- ki(B)], а это равносильно тому, что вектор к(А)—к(В) мажорирует вектор к (А — В). ? Используя следствие 7.4.47 и лемму 7.4.50 часто удается обобщить аппроксимационные теоремы или неравенства, полу- полученные для евклидовой или спектральной нормы, на весь класс унитарно инвариантных норм. Пусть, например, заданы матрицы А, В ^.'Mmi n с сингуляр- сингулярными числами соответственно О\(А)^ ... ^ оя(А) и G\(B)i^ ... ... ^ оч(В), и пусть q — min{m, n). Согласно G.4.15), справед- справедливо неравенство vl'2 Иначе эту нижнюю оценку можно записать как подразумевая, что в сингулярных разложениях A — V['Z{A)W\ и B = VIIl(B)Wl сингулярные числа расположены на «диаго- «диагоналях» матриц 2(Л) и 2 (В) по убыванию: от наибольшего к наименьшему. Аналогичный смысл, но для спектральной нормы имеет неравенство G.3.8а). Именно в этой форме соотношения 7.4.15 распространяются на все унитарно инвариантные нормы. 7.4.51. Теорема. Пусть А, В — заданные матрицы из Мт> „ с сингулярными разложениями A = V^{A)W\, B = V?u(B)W*2, где Vi, V2 e Mm и Wu W2^ Mn — унитарные матрицы и «диаго- «диагональные элементы» матриц 2(Л) и 2 (В) расположены в по- порядке убывания. Тогда \\А — 5||^||2(Л) — 2(В)||, какова бы ни была унитарно инвариантная норма ||-{| на Мт<п. Доказательство. Положим q = min{m, n}. Используя тео- теорему 7.3.7, сопоставим сингулярные числа матрицы А
532 Гл. 7. Положительно определенные матрицы с первыми q неположительными собственными значениями эрмитовой матрицы -Г Л1 ~ L л* о J lm+n- Общий список из т + п собственных значений матрицы А, бу- будучи упорядочен, выглядит так: - ст, (Л)< - сг2 (Л)< ... < - oq (Л)< 0 = ... ... =0<аG(Л)<...<с1(Л); аналогично выглядит список для В и Л — В. Разностями упо- упорядоченных собственных значений матриц Л и В будут числа ± [а, (Л) — Су {В)], .... ±[aq{A)~ aq (В)] и нуль, взятый \т — п\ раз. Хотя неясно, как упорядочить эти числа в целом, q наи- наименьшими среди них являются {— I о,-(Л) — аг(В)|}, /== 1, ...,?• Лемма 7.4.50, примененная к Л, S и Л — В, дает что равносильно неравенствам а{ {А-В)> max | 2 | atj (Л) - а,;(В)|: 1 </,<...< ik^q J, ^=1, ..., q. Поскольку {\at(A)—Oi(B)\} есть множество сингулярных чи- чисел матрицы 2(Л)—S(В), то следствие 7.4.47 обеспечивает не- неравенство ||Л — В||;5г||Б(Л) — 2 (В) || для любой унитарно инва- инвариантной нормы ||>||. ? 7.4.52. Пример. Одно из следствий теоремы 7.4.51 состоит в том, что можно обобщить задачу о наилучшем (в смысле наименьших квадратов, т. е. в смысле евклидовой нормы) при- приближении ранга к для заданной матрицы А^Мп. Эта задача рассмотрена в примере 7.4.1. Пусть ||-|)—унитарно инвариант- инвариантная норма; если В е Мп имеет ранг k, то а\ (В) ^ ... ^ Оь (В) > ;> 0 = G,h-i(B)= ... = а„(В). Следовательно, -o1(B) ck(A)~ok(B),ok+i(A), . .., од >fldiag@, .... 0,
7.4. Примеры и приложения сингулярного разложения 533 Здесь использовано то обстоятельство, что унитарно инвариант- инвариантная норма, рассматриваемая на множестве диагональных мат- матриц, монотонна, будучи симметричной калибровочной функцией диагональных элементов. Далее, если А = VL (A) IF* —сингу- —сингулярное разложение матрицы А, то в последнем переходе дости- достигается равенство в случае матрицы B=VEW*, где Е = = d\ag[oi(A), ..., ak(A),0, ..., 0]. Итак, для произвольной матрицы ЛеМ„ и всякой матрицы В е Мп, имеющей ранг k, справедливы оценки |H-?||>|!diag@, ..., 0, <тА+1(Л), ..., ап(А))\\> >ап(А)\\ diag@, ...,0, 1, ..., 1)|| г(в последнем выражении диагональ содержит k нулей), какова бы ни была унитарно инвариантная норма. В первой оценке может достигаться равенство; для второй это, вообще говоря, не так. Вторая оценка тривиальна для вырожденной матрицы А и следует единственно из свойства монотонности симметричных калибровочных функций, если А невырожденна. Она имеет то достоинство, что в ее правой части сомножитель, зависящий от нормы, есть функция только от k, но не от А. Из наших оценок, в частности, вытекает, что для любой невырожденной матрицы А еМя и любой унитарно инвариантной нормы ||-|| справедлива и достижима оценка || А - В || > ап (Л) || diag @ 0, 1) || G.4.53) для расстояния от А до произвольной вырожденной матрицы В. Другими словами, минимальное (в смысле унитарно инвариант- инвариантной нормы || -Ц) расстояние от А до замкнутого множества вы- вырожденных матриц равно an(/l)||diag@, ..., 0, 1)||. 7.4.54. Пример. Опираясь на свойства симметричных калиб- калибровочных функций, можно дать простую характеризацию тех унитарно инвариантных норм на Мп, которые являются матрич- матричными нормами. Если ||-||—унитарно инвариантная матричная норма на Мп, то, как мы знаем из следствия 5.6.35, ||Л||^ Oi(^) для всех А е Мп. Используя теорему 5.6.9 и тот факт, что вся- всякая унитарно инвариантная норма на Мп самосопряжена (см, задачу 2), мы можем доказать это и непосредственно. Действи- Действительно, [с1(Л)]2 = р(ЛМ)<||ЛМ|К||Л*||||Л||=||Л||2. С другой стороны, пусть ||-II—унитарно инвариантная норма на М„, та- такая, что ||Л || 5* Oi (Л) для всех ЛеМ«, и пусть g — симметрич- симметричная калибровочная функция на С, порождаемая нормой ||-||. Применяя указанные в задаче 18 из § 7.3 неравенства для син- сингулярных чисел, представляющие собой мультипликативный аналог обобщенных неравенств Вейля, а также учитывая моно-
534 Гл. 7. Положительно определенные матрицы томность нормы g, получаем IIЛВ || = g (с, (АВ), <т2 (АВ) оп (АВ)) < <g(ffi (А)а, (В), а, (А)о2(В) а{{А)ап(В)) = = oi (A) g К (В), о2 (В) ап (В)) = <г, (Л) [| В ||< || А || || 5Ц. Итак, унитарно инвариантная норма || • || гог<9а « только тогда является матричной нормой, когда ||Л||^ О[(Л) = ||Л||2 для всех А^Мп- В частности, все й-нормы Фань Цзы (k = \,2, ..,, п) и все р-нормы Шаттена для р ^ 1 (порождаемые симметрич- симметричными калибровочными функциями соответственно семейств G.4.44) и E.2.4)) суть матричные нормы. Еще одно следствие этой характеризации: множество унитарно инвариантных мат- матричных норм на Мп выпукло. Множество всех матричных норм на Мп невыпукло (см. задачу 9 из § 5.6). Задачи 1. Пусть ранг матрицы Л е Mm, n равен k > 0. Предполо- Предположим, что нужно найти матрицу А\^Мт, п меньшего ранга /j > 0, которая была бы наилучшим приближением к Л в евкли- евклидовой норме. Показать, что эта задача может быть решена сле- следующим образом. Пусть А = VZW* — сингулярное разложение матрицы Л. Пусть 2i совпадает с Б в первых k\ «диагональных» позициях; остальные п — k\ «диагональных» позиций в Б] нуле- нулевые. Тогда матрица А = l/j^W7* имеет требуемые свойства. Ука- Указание. Использовать G.4.15). Отметим, что, как следует из при- примера 7.4.52, полученное приближение будет «наилучшим» не только для евклидовой, но и для любой унитарно инвариантной нормы. 2. Норму || ¦ || на М„ называют самосопряженной, если ||Л|] = = ||Л*|| для любой матрицы А^Мп. С помощью теоремы 7.4.24 показать, что всякая унитарно инвариантная норма на Мп само- самосопряжена. Привести пример самосопряженной нормы, не яв- являющейся унитарно инвариантной. 3. Опираясь на теорему 7.4.10 и методы примера 7.4.6, опре- определить наилучшее среднеквадратичное приближение заданной матрицы Л еМЯ]„ (считая т^.п) скалярным кратным матрицы Y&Mm<n с орто'нормированными строками. Указание. Пока- Показать, что матрица Y представима в виде Y -— VDW, где V е Мт и W е Мп — унитарные матрицы, ?) = [/ [0] е Мт я, /еМи, 0eMmi,_ffl. Задача минимизации функции || Л — cY \\\ сводится к минимизации || А ||| - (Re tr AYy/m. Пусть Л = V^W] — син- сингулярное разложение матрицы А. Показать, что последняя за-
7.4. Примеры и приложения сингулярного разложения 535 дача минимизации требует определения числа maxRetv{IWD'V: We=Mn и V еМт унитарны}. Для решения этой задачи использовать теорему 7.4.10 по анало- аналогии с примером 7.4.13. Показать, что для значения погрешности приближения в данном случае справедливо то же выражение, что в примере 7.4.6. 4. Рассматривая диагональные матрицы А, В^.Мп, пока- показать, что в G.4.11) возможны любые перестановки т. 5. Рассмотрим введенную в G.4.7) функцию и(А). Показать, что и (Л) ^ л/п || А \\Б для всех А^Мп. Используя определение, доказать непосредственно, что и(А) — векторная норма на Мп. Объяснить, почему в действительности и (А) является даже мат- матричной нормой на Мп. Указание. См. пример 7.4.54. 6. Пусть матрица А^Мп невырожденна и и (Л) = =1И||2||Л-1||2 — ее число обусловленности относительно спек- спектральной нормы. Показать, что и (Л) равно отношению Oi/on наибольшего и наименьшего сингулярных чисел. Сравнить с оценкой H(A)^\%i/kn\. 7. Показать, что константа в неравенстве Канторовича G.4.42) есть квадрат отношения среднего геометрического чи- чисел Ki и Кп к их среднему арифметическому. 8. Пусть Л е Мп — невырожденная эрмитова матрица. С по- помощью неравенства Канторовича G.4.40) показать, что ~~ 2а,ал — 2 Чет»" aj- 1Илг||2|и~'л: Здесь а\ ^ ... ^ оп— сингулярные числа матрицы А. Пока- Показать, что ах и On суть наибольший и наименьший из модулей собственных значений матрицы А и что где х — спектральное число обусловленности матрицы А. Ука- Указать вектор х, для которого достигается максимум. Исходя из определения спектрального числа обусловленности и его связи с определенным выше максимумом, объяснить, почему должно быть 2 V. а„ ~*~ 0, / "-- on ' Дать прямое доказательство этого неравенства. Указание. Пока- Показать, что функция f{x) = x — [х -f- A /х)] /2 возрастает при
536 Гл. 7. Положительно определенные матрицы 9. Пусть к\, Я,2, ..., Ъп — заданные положительные числа, С помощью неравенства Канторовича G.4.42) доказать, что - (Атпах + Ят!пJ если числа аи ..., а„ неотрицательны и их сумма равна 1/ 10. Доказать следующее обобщение неравенства Канторо- Канторовича G.4.42) (Грэйб, Рейнболдт): пусть В, С^Мп — коммути- коммутирующие положительно определенные матрицы с собственными значениями соответственно К\ ^ ... ^ Кп и Hi ^ ... ^ (хл. Тогда (х tscx) ^ для всех х е С". Указание, Для матриц В и С можно найти уни- унитарную матрицу U е Мп, такую, что В= UAU* и С= UMU*1). Переписать доказываемое неравенство, вводя вначале вектор у = U*x, а затем вектор z = (АМI/2у. Далее, применяя теорему 7.4.41, показать, что требуемое неравенство выполняется (и до- достижимо) с константой вида при некотором выборе индексов 1 ^ / Ф k ^ п. Показать, что наименьшая из таких констант соответствует выбору /=1, k = п. Это последнее неравенство2) может, однако, уже не быть достижимым. 11. Показать по контрасту с неравенством Канторовича G.4.42), что для положительно определенной матрицы ВеЛ1„ справедливо неравенство (x'Bx)(x'B~1x)>\\x\\i2 при любом векторе х е С". Более общо, доказать, что при лю- любых х, jeC" если матрица В е Мп положительно определена. Для вектора х = В~ху здесь достигается равенство. Сделать окончательный вывод о том, что для любого х е О одновременно выполняются неравенства {x'xf < (х'Вх) (х'В~1х) < [(Я' ttnV2? (***J- ') Где A = diag(X,, .... Лп), Af = diag(p.;, ..., \it V — Прим. перев. 3) То есть неравенство при /=1, А = п. — Прим. перев.
7.4. Примеры и приложения сингулярного разложения 537 Указание, С помощью неравенства Коши — Шварца показать, что (=1 если все fa > 0, и использовать представление В = UAU*. 12. Пусть ВеМ, — положительно определенная матрица, а г/ е С"— произвольный ненулевой вектор. Определим функцию f(B, y)S Показать, что функция f(B,y) определена корректно; используя задачу 11, получить соотношение f(B,y)—\/{y*B-]y), Пока- Показать, что / обладает свойством супераддитивности для любых положительно определенных матриц Л, В е М„ и всякого ненулевого вектора у <= С. Беря в качестве у г-й век- вектор естественного базиса, вывести неравенство Бергстрёма йеЦА + В) -^ det Л . det В . . det (Ai + Bi) ^ det Лг ~ det Bt ' в котором А, В — произвольные положительно определенные матрицы, a At e Мя_[ обозначает главную подматрицу, получае- получаемую из Л удалением i-n строки и i-ro столбца (аналогичный смысл имеет символ Б,). Этот подход к доказательству неравен- неравенства Бергстрёма может служить примером применения очень полезной техники, называемой квазилинеаризацией: нелинейная функция интересующего нас аргумента представляется как экстремальное значение (при возможном наличии ограничений) другой функции, которая от того же аргумента зависит линейно (или, может быть, только аддитивно). В теореме 7.4.24 крити- критический шаг (доказательство того, что квазинорма на Мт> п, опре- определяемая симметричной калибровочной функцией от сингуляр- сингулярных чисел, в действительности является нормой) был выпол- выполнен посредством квазилинеаризации (см. E.4.12)). 13. Если z — комплексное число, то для любого веществен- вещественного х выполняется неравенство \г—Re г| ^ | z — х\. Правдо- Правдоподобное обобщение этого неравенства на квадратные матрицы А е Мп имеет вид где Н^Мп — произвольная эрмитова матрица. Доказать, что такое обобщение действительно справедливо для всякой уни-
538 Гл. 7. Положительно определенные матрицы тарно инвариантной и даже, более общо, всякой самосопряжен- самосопряженной нормы ||-II- Вывести отсюда, что расстояние (в смысле нор- нормы 11-11) от заданной матрицы А еМ„ до замкнутого множества эрмитовых матриц из Мп равно A/2) ||Л—А*\\. Указание. А — — A/2) (Л + А*) = A/2) (А — Н) + A/2) (Я — Л*), поэтому ||ЛA/2)(ЛЛ*)||A/2)||Л#|| A/2||#Л|| (/) 14. Для любого комплексного числа г выполняется неравен- неравенство |Rez|sSl|z|. Доказать, что его тривиальное обобщение || (Л + Л*)/2||^||Л|| справедливо для всех Л е М„ и всякой уни- унитарно инвариантной (даже просто самосопряженной) нормы 11-11. 15. Пусть Л — заданная матрица из Мп с упорядоченными сингулярными числами а ^ ... ^ ап, и пусть %i ^ ... ^ %п суть упорядоченные собственные значения матрицы A/2) (Л + L-\-A*). Объяснить, почему неравенства можно интерпретировать как обобщение неравенства Rez?s;|z| для комплексных чисел. Обобщение утверждает: &-е по порядку сингулярное число матрицы Л не меньше, чем k-e по порядку собственное значение матрицы A/2) (Л + Л*). Указание. Если у— вектор единичной евклидовой длины, то -g- у' (А + Л*) у = Re у'Ay < || Ay |J2. Представляя Kn-k+i с помощью теоремы Куранта — Фишера, ис- использовать данное неравенство, а также теорему 7.3.10, чтобы прийти к ак. 16. Пусть задана матрица Л <= Мп, и пусть || • ||—унитарно инвариантная норма на Мп. Посредством теоремы 7.4.51 пока- показать, что \\А — ?/||^||2 (Л) — /|| для всякой унитарной матрицы LI e М„ и что это неравенство достижимо. Сделать отсюда вы- вывод о том, что ||2 (Л) — /|| есть расстояние (в смысле нормы II -И) от Л до компактного множества унитарных матриц из Мп. 17. Пусть А^Мп имеет сингулярное разложение Л = = VL{A)W*, и пусть ||-||—унитарно инвариантная норма на М„. Показать, что для любой унитарной матрицы U е М„ спра- справедливы неравенства Указание. Показать, что 2(f/) = / в любом сингулярном разло- разложении любой унитарной матрицы U; поэтому нижняя оценка сразу следует из теоремы 7.4.51. Что касается вывода верхней оценки, то нужно использовать неравенства для сингулярных чисел (аналоги аддитивных неравенств Вейля для собственных
7.5. Теорема о произведении Шура 539 значений) из задачи 16 § 7.3 для доказательства соотношений о,-+/_1(Л +(—U))^ Oi{A)-\- о,(—U). После этого применить G.4.48). 18. Руководствуясь как образцом неравенством G.4.53), где А была невырожденна, найти достижимую нижнюю оценку для \\А — ВЦ, считая А^Мп заданной матрицей ранга k\, В^Мп произвольной матрицей меньшего ранга k, а [|-|| унитарно инва- инвариантной нормой. Дополнительная литература Впервые теорема 7.4.24 (для случая m = n) была доказана фон Нейманом; см. статью, цитированную в § 5.4. Изложение вопроса о неравенствах Виландта и Канторовича есть адапта- адаптация фрагмента из книги [Нои 64], где даны многочисленные ссылки на оригинальные работы. Обобщение этих неравенств и дополнительную библиографию можно найти в статье: Clau- Clausing A. Kantorovich-type Inequalities—Amer. Math. Monthly, 1982, v. 89, p. 314—320. Подход к доказательству неравенства Бергстрёма, продемонстрированный в задаче 12, заимствован из [ВВ]. В этой книге имеется большая глава (со многими лите- литературными справками), посвященная неравенствам для поло- положительно определенных матриц; приведено также обсуждение (с рядом примеров) метода квазилинеаризации. О неравенствах, справедливых для всех унитарно инвариантных норм, можно прочесть в работах: Mirsky L. Symmetric Gauge Functions and Unitarily Invariant Norms. — Quart. J. Math. Oxford, 1960, v. 11, N2, p. 50—59; Fan K-, Hoffman A. J. Some Metric Inequalities in the Space of Matrices. — Proc. Amer. Math. Soc, 1955, v. 6, p. Ill —116. Пример того, как эти результаты применяются в статистике, и указания на соответствующую статистическую ли- литературу даны в работе: Rao С. R. Matrix Approximations and Reduction of Dimensionality in Multivariate Statistical Analysis.— Multivariate Analysis —V, Proceedings of the Fifth International Symposium on Multivariate Analysis, P. R. Krishnaiah, Amsterdam; North-Holland, 1980, p. 1—22. 7.5. Теорема о произведении Шура Особенно простым (и на первый взгляд наивным) способом композиции матриц является поэлементное умножение. 7.5.1. Определение. Пусть даны матрицы А =[ац]^ Мт, п, В = [&,,)<= Мт, п. Произведением Адамара (адамаровым произ- произведением) матриц А и В называется матрица Л о Д = [0,76,7] e < М М т_ п.
540 Гл. 7. Положительно определенные матрицы Адамарово произведение часто называют еще произведением Шура. Подобно сложению матриц, адамарово умножение ком* мутативно, и оно значительно проще обычного правила матрич- матричного умножения. Имеется несколько различных ситуаций, естественным обра« зом приводящих к адамарову произведению. Пусть, например, f(9) и g(Q) — непрерывные периодические функции с периодом 2л, и пусть 2Я 2Я k = Q, ±1, ±2 Свертка 2я f(B-t)g(t)dt имеет тригонометрические моменты 2я ck = [ emh (9) dB, для которых верны равенства Сь — афь, k=0, ±1, ±2 Поэтому тёплицева матрица тригонометрических моментов функ- функции h F) есть адамарово произведение тёплицевых матриц три- тригонометрических моментов для /(9) и g(9): [c{_j] = [at4] о [bl4]. Если обе функции f(9), ^(9) принимают только вещественные неотрицательные значения, то это же справедливо в отношении их свертки Л(9). Следовательно, как показано в G.0.5), мат- матрицы [ai-j], [bi-j] и [Ci-j] положительно полуопределены. Это частное проявление теоремы о произведении Шура: адамарово произведение двух положительно полуопределенных матриц само положительно полуопределено. В качестве еще одного примера рассмотрим интегральный оператор ь K{f)=\K{x,y)f{y)dy, ядро К(х,у) которого непрерывно на квадрате [а, Ь] X [а, Ь]; кроме того, f^C[a, b]. Если имеется второе ядро Н(х,у), то можно рассмотреть (поточечное) произведение L(x, y) =
7.5. Теорема о произведении Шура 541 ¦= К{х,у)Н(х, у) и связанный с ним интегральный оператор ь ъ ИПв*[Цх, y)f(y)dy=\K(x, y)H(x, y)f(y)dy. 1 а 'Линейное отображение f-*-K(f) есть естественный предел мат^ рично-векторных произведений (получаемых при аппроксима- аппроксимации интеграла конечными суммами Римана), поэтому многие свойства интегральных операторов могут быть получены надле- надлежащим предельным переходом из результатов, известных для матриц. Поточечное произведение интегральных ядер приводит к интегральному оператору, который с этой точки зрения яв- является естественным непрерывным аналогом адамарова произ- произведения матриц. Если для интегрального ядра К(х,у) при всех /еС[а, 6], верно неравенство ь ь K(x,y)f(x)f(y)dxdy^O, то К(х,у) называют положительно полуопределенным ядром. Согласно классической теореме Мерсера, для положительно по- полуопределенного ядра К(х,у), непрерывного на квадрате [о, Ъ] X [а, Ь], найдутся положительные числа {А,,} (называемые собственными значениями) и непрерывные функции {q>i{x)} (на- (называемые собственными функциями), такие, что К(х, у)-— причем ряд сходится абсолютно и равномерно на [а, Ь] X [а, Ь]. Если оба ядра К(х,у) и Н(х,у) непрерывны и положительно полуопределены на одном и том же квадрате [о, Ь]У(,[а, Ь], то Н (х, у) также имеет представление Н (х, у) = абсолютно и разномерно сходящееся на [а, Ь]Х №,Ь], причем все \xi > 0. Прямое перемножение соответствующих рядов при- приводит к представлению на [а,6]Х[а, Ь\ (поточечного) произве- произведения ядер L(x, у)— К{х, у)Н(х, у): it \— V <Pi (х) fy (х) Ф' ^ ^' ^ L {х' у> ~ L ПГ :
S42 Гл. 7. Положительно определенные матрицы оно снова сходится абсолютно и равномерно. Тогда ь ъ l\L(x,y)f(x)f(y)dxdy= ? -ЦТ а а « /=1 ' * «, /=1 т. е. L(x,y) также положительно полуопределено. Это опять» таки проявление теоремы о произведении Шура. Упражнение. Показать, что адамарово произведение эрмито- эрмитовых матриц А к В всегда эрмитово, в то время как обычное про- произведение эрмитовых матриц будет эрмитовым тогда и только тогда, когда сомножители коммутируют. Упражнение. Проверить, что матрицы ^ = [ij]. B = [j J] в их адамарово произведение АоВ положительно определены, тогда как обычное произведение АВ не будет положительно по- полуопределенной матрицей. Показать, что, тем не менее, соб- собственные значения матрицы АВ положительны. Основной причиной введения адамарова произведения яв- является для нас то обстоятельство, что оно (в отличие от обыч- обычного способа перемножения матриц) оставляет инвариантным конус положительно полуопределенных матриц и дает еще один пример аналогии между положительно полуопределенными мат- матрицами и неотрицательными числами. Нам потребуется в дальнейшем следующее замечание, имею- имеющее и самостоятельное значение. Всякая матрица А может быть представлена в виде суммы матриц ранга 1 с числом слагаемых, равным рангу А. В случае положительно полуопределенной матрицы А все слагаемые тоже можно выбрать положительно полуопределенными. 7.5.2. Теорема. Положительно полуопределенная матрица А е М„, имеющая ранг k, может быть записана в виде где {vi, ..., Vk}— ортогональная система ненулевых векторов из С. Доказательство. Пользуясь спектральной теоремой, предста- представим А в виде A = UAU*, а затем возьмем в качестве и,- умно- умноженный на К1/2 /-й столбец матрицы U. D Основной результат данного параграфа часто называют тео- теоремой о произведении Шура. 7.5.3. Теорема. Если А, В^Мп — положительно полуопре- полуопределенные матрицы, то матрица А°В также положительно полу-
7.5. Теорема о произведении Шура 543 определена. Если А и В положительно определены, то положи- положительно определена и матрица А о В. Доказательство. Опираясь на теорему 7.5.2, представим А и В в виде А = у,и* + ... + vkv*k, В = до,до^ + ... + wmw*m; здесь k = rank Л, /n —rank В. Заметим, что где utj = Vi о до/. Таким образом, будучи суммой положительно полуопределенных матриц (ранга 1), матрица А°В сама будет положительно полуопределенной. Если А и В положительно определены, то k = m = п, и си- системы {и,}, {до*} суть ортогональные базисы пространства С". Из предположения о вырожденности матрицы Л°В следовало бы, что существует ненулевой вектор х, для которого (А °В)лг — = 0. Тогда k~ m k, m **(ЛоВ)*= Z x*(uuu*)x= Z U4/I2==o- Каждое слагаемое суммы должно обращаться в нуль; поэтому | X'U,, |2 = \Х- (Vt о W,) |2 = | (X о Of Wj\2 = 0 для всех i и /. Это означает, что для каждого i вектор х ° vi ортогонален ко всем векторам wu w2, ••-, wn; следовательно, х о Vi = 0, /=1,2, ..., п. Но отсюда вытекает, что v\x = 0 для всех t = l, ..., п. Таким образом, х ортогонален ко всем векто- векторам базиса, а потому х= 0. Это противоречие доказывает, что матрица А о В невырожденна. ? Упражнение. Пусть А, В — положительно полуопределенные матрицы из Мп. Используя прием из теоремы 7.5.3, обосновать неравенство rank(/4 о В) ^ (rank A) (rank В). В частности, пока- показать, что в случае (rankA) (rankВ) < п матрица Л°В должна быть вырожденной. ре. Показать, что утверждения предыдущего упраж- упражнения верны и тогда, когда матрицы А и В эрмитовы, но не обя- обязательно положительно полуопределены1). Упражнение. Рассматривая матрицы ^==[Oi]> ^ = [oo]> убедиться, что ранг матрицы А °В может быть равен нулю, хотя обе матрицы Л, В имеют положительный ранг. ') Очевидно, что не нужна и эрмитовость матриц А, В. — Прим. перев.
544 Гл. 7. Положительно определенные матрицы ¦ ——j Упражнение. Показать, что если А положительно опреде- определена, а В отрицательно определена, то А ° В отрицательно опре- определена. 7.5.4. Следствие (теорема Фейера). Пусть А =[ац] sM,, Для положительной полуопределенности матрицы А необходимо и достаточно, чтобы какова бы ни была положительно полуопределенная матрица В = [Ьи] <= М„. Доказательство. Пусть матрицы А и В положительно полу- полуопределены. Возьмем в качестве х вектор из С", все компоненты которого равны 1. Выписанная в формулировке теоремы сумма есть х*(АоВ)х для этого специального выбора вектора х. Так как матрица А ° В положительно полуопределена, то сумма не- неотрицательна. Пусть, обратно, Ха«А/^0 Для любой положи- положительно полуопределенной матрицы В. Каждому вектору хеС сопоставим матрицу В = [bif] = [х<¦*/]. Поскольку В положи- положительно полуопределена, то 1.1-1 Л/=1 Вследствие произвольности вектора лее С" делаем вывод о по- положительной полуопределенности матрицы A. Q 7.5.5. Приложение. Пусть D с R" — открытое ограниченное множество. Линейный дифференциальный оператор L второго порядка, задаваемый на C2(D) формулой д2и , V 1 i \ ди , , ч ,_ _ „ч I, 1=1 l I t-i ' называется эллиптическим в D, если матрица А (х) s= [a,y (л:) ]| положительно определена для всех «ей Предположим, что существует функция иеС2(й), непрерывная на замыкании D и удовлетворяющая в D уравнению Lu = 0. Что можно сказать о локальных максимумах или минимумах функции и, достигае- достигаемых в точках области D? Пусть уе D есть точка локального минимума функции и. Тогда ди дх, = 0 у
7.5. Теорема о произведении Шура 545 для /= 1, 2, ..., п и гессиан Г &и I [dx.dxt\ положительно определен в точке у. Следовательно, в этой точке и по теореме Фейера 7.5.4 сумма членов со вторыми производ- производными должна быть неотрицательна. Поэтому слагаемое с(у)и{у) обязано быть неположительно. В частности, если с((/)<0, то неравенство «((/)< О невозможно. Аналогичное рассуждение по- показывает, что при с((/)<0 значение и(у) во внутренней точке локального максимума не может быть положительным. Эти про- простые замечания составляют суть следующего важного принципа. 7.5.7. Слабый принцип минимума. Пусть оператор L, зада- задаваемый формулой G.5.6), эллиптичен в области D, и пусть с(х)<С.О в D. Если функция и е C2(D) удовлетворяет в D урав- уравнению Lu = 0, то и не может иметь ни отрицательного внутрен- внутреннего локального минимума, ни положительного внутреннего ло- локального максимума. Если, вдобавок, функция и непрерывна па замыкании области D и неотрицательна на ее границе, то и должна быть неотрицательной всюду в D. Из принципа минимума вытекает одна из фундаментальных теорем единственности для уравнений с частными производ- производными: 7.5.8. Теорема единственности (Фейер). Предположим, что оператор L, задаваемый формулой G.5.6), эллиптический, и пусть с(х)<.0 в области D. Рассмотрим следующую краевую задачу: Lu = f в D, где f — заданная функция; и = g на dD, где g — заданная функция; и дважды непрерывно дифференцируема в D; и непрерывна на замыкании области D. Тогда имеется не более одного решения этой задачи. Доказательство. Если щ и ыг — два решения данной задачи, то функция v ss и\ — и2 есть решение задачи того же типа, но с нулевыми краевыми условиями, и Lv = 0 в D. Согласно сла- слабому принципу минимума, v должна быть неотрицательна в D. Применяя аналогичное рассуждение к функции —и, установим, что у в то же время должна быть неположительной в D. Сле- Следовательно, v = 0 в D. 18 Р. Хорн, Ч. Джонсон
546 Гл. 7. Положительно определенные матрицы Упражнение. Продемонстрировать применение слабого прин- принципа минимума и теоремы единственности 7.5.8 на примере уравнения с частными производными V2u — Хи = О, где А, — по- положительный параметр, D cr R". Приведем в заключение еще одно легко доказываемое след- следствие теоремы о произведении Шура. Если А = [ац]^ Мп— по- положительно полуопределенная матрица, то матрица Л°Л = [а?/] также положительно полуопределена. По индукции можно по- показать, что положительно полуопределены все натуральные ада- маровы степени [о^.], k=\, 2, .... Поскольку любая неотрица- неотрицательная линейная комбинация положительно полуопределенных матриц сама положительно полуопределена (см. утверждение 7.1.3), то матрица m раз аа1 + ахА + а2А о А + • • • + атА ° ... о Л = = [«<А/ + aian + а2а% + ¦ • • + ama?i\ = [Р КI положительно полуопределена, если все ai ^ 0; здесь р(х) = — ao-\-aix-\- ... + атхт — многочлен с неотрицательными ко- коэффициентами. Более общо, если в разложении аналитической функции /(г) в степенной ряд /()S k ft-0 с радиусом сходимости R > 0 все коэффициенты ак неотрица- неотрицательны, то простым рассуждением, основанным на предельном переходе, устанавливается положительная полуопределенность матрицы [/(о,-,)] е Мп в случае, когда все ац по модулю меньше R. Вероятно, простейшим примером является функция f(z) — ez: представляющий ее степенной ряд сходится для всех z e С и все коэффициенты о* = \/k\ положительны. Согласно доказан- доказанному, матрица [еач] положительно полуопределена, если поло- положительно полуопределена матрица А =[а;/]еМ„. Этот резуль- результат можно усилить; существуют более слабые условия на А, обеспечивающие положительную полуопределенность поэлемент- поэлементной экспоненты от Л (см. [HJ]). 7.5.9. Следствие. Пусть матрица А = [ац] е Мп положительно полуопределена. Тогда (a) матрица [а^] положительно полуопределена для всех *=1,2, .... (b) если функция f(z)= ao + a\z + a2^2 + ••• аналитична в круге \z\<C.R и все коэффициенты разложения неотрица- неотрицательны, то матрица [f(at/)] положительно полуопределена, если \ач[<-Я для всех i, I,
7.5. Теорема о произведении Шура 547 Задачи 1. Показать, что если матрицы Н(А) (эрмитова часть мат- матрицы А) и В положительно определены, то положительно опре- определена и матрица Н(А о В). 2. Пусть A =[ciii]^ Мп — положительно полуопределенная матрица. Показать, что матрица [|а</|2] также положительно полуопределена. Указание. Рассмотреть произведение А ° А. 3. Пусть А =[а,/] <= М„ — положительно полуопределенная матрица. Показать, что матрица \_ее li~ J положительно полуоп- полуопределена для любого "к <= R. 4. Если матрица А = [а</] ^ Мп положительно полуопреде- полуопределена, то все натуральные адамаровы степени Л<*> и адамарова матрица квадратов абсолютных величин А°А также положи- положительно полуопределены. А что можно сказать об адамаровой матрице абсолютных величин |Л| = [|а,/|]? (a) Пусть матрица А^.Мп положительно определена. Поль- Пользуясь детерминантным критерием (теорема 7.2.5), дать для п = = 1, 2, 3 прямое доказательство положительной определенности матрицы \А\. Доказать при тех же п аналогичное утверждение для положительно полуопределенной матрицы Л, используя предельный переход. (b) Используя то обстоятельство, что функция /(a') = cosjc положительно определена1) (или же представляя cos x в виде cos х = (eix + e~ix)/2 и вычисляя квадратичную форму явным образом), показать, что матрица Л = [соз(х; — х/)] положи- положительно полуопределена для любого выбора точек х.\, х2, ... ..., iBeR и для всех п = 1, 2 (c) Пусть п = 4; положим х\ =0, х2 = я/4, х% = я/2, Х\ — = Зя/4. Вычислить для этого случая указанную в (Ь) матрицу А (обязательно положительно полуопределенную) в явном виде. Обратить внимание, что она будет тёплицевой матрицей. Вычис- Вычислить \А\ и с1е!|Л|; показать, что матрица \А\ не может быть положительно полуопределенной. 5. Для матрицы \А\ из задачи 4 проверить, что матрица /? = |Л|°|Л| дает пример положительно полуопределенной матрицы, неотрицательный «адамаров квадратный корень» ко- которой незнакоопределен. Сопоставить это с ситуацией для обыч- обычного квадратного корня В1/2. 6. Рассмотреть следующую матрицу А "е Мс 10 3-2 Г 3 10 0 9 -2 0 10 4 19 4 10 ') Определение см, в задаче 8 из § 7,1, — Прим. перев. 18*
548 Гл. 7. Положительно определенные матрицы Показать, что А положительно полуопределена, но это неверно в отношении матрицы \А\. 7. Пусть К{х,у) — интегральное ядро, непрерывное на квад- квадрате [а, Ь] X [а, Ь]. Показать, что для положительной полуоп- полуопределенности ядра К(х,у) необходимо и достаточно, чтобы мат- матрица [K(xt,Xj)]^Mn была положительно полуопределенной при любом выборе точек {*J"=I с: [а, Ь] и всех п= 1, 2, ... . Указа- Указание. В доказательстве достаточности матричного условия ис- использовать приближения интеграла римановыми суммами: ь ь п (х) f (у) dxdy^Y, К <*«> */> f <*«> f <*/)Ах' Axl' i, /= 1 В доказательстве необходимости матричного условия рассмот- рассмотреть функцию п f (X) ш* ? ОД (X - Xt), где бе (л;)—«приближенная дельта-функция», т. е. 8е(х) непре- непрерывна и неотрицательна, тождественно равна нулю вне проме- промежутка [—е, е] и удовлетворяет требованию Исследовать ситуацию при е -*¦ 0. 8. Используя задачу 7 и теорему о произведении Шура, по- показать, что (поточечное) произведение положительно полуопре- полуопределенных интегральных ядер само положительно полуопреде- полуопределено. Этот способ доказательства сравнительно элементарен и не требует применения теоремы Мерсера из теории интеграль- интегральных уравнений. 9. Показать, что для положительной определенности функ- функции (p<=C(R) (см. определение в задаче 8 из § 7.1) необхо- необходимо и достаточно, чтобы интегральное ядро K(x,y)zs q>(x — у) было положительно полуопределено. 10. Показать, что произведение cpi (я) фг (я) положительно определенных функций cpi(x), фг(л;) будет положительно опре- определенной функцией. 11. Объяснить, почему функции т (а) Ц?- = ~ J ettxdi, T > 0] -т
7.5. Теорема о произведении Шура 549 оо (Ь) е~* = —Ц= [ e-me"*dt; 2 Vn J и всевозможные их попарные произведения положительно опре- определены. 12. Используя результат задачи 11 (с), дать другое доказа- доказательство положительной определенности матрицы из задачи 12 § 7.2. 13. Показать, что для положительно полуопределенной мат- матрицы A —[a.ij]<= Мп матрица [ац/(i -\- ])] также положительно полуопределена. Указание. Использовать задачу 17 § 7.1. 14. Пусть Л <= Л4„— положительно полуопределенная мат- матрица. Показать, что для вектора шС" равенство х*Ах = 0 равносильно тому, что Ах = 0. Привести пример незнакоопреде- ленной эрмитовой матрицы А и вектора х, таких, что х*Ах = 0, но Ла'=И=0. Указание. Если привлечь спектральное разложение матрицы A: A = UAU*, то равенство х*Ах = 0 переходит в Z К I zt |2 = 0, где г = U'x. 15. Выпуклым конусом (с вершиной в точке 0) называется выпуклое множество S, содержащее вместе с каждым х е; 5 весь луч {Кх: Х^О}. Луч {Кх: К ^ 0} называется крайним, если представление х = ау + A — а)г, где 0 < а <С 1 iij,2eS, возможно лишь для у и 2, лежащих на том же луче; другими словами, луч выпуклого конуса является крайним, если при его удалении оставшийся конус сохраняет выпуклость. Показать, что в выпуклом конусе положительно полуопределенных матриц из М„ луч {КА: К ^0} тогда и только тогда является крайним лучом, когда матрица А имеет ранг 1. Теперь теорему 7.5.2 можно переформулировать так: всякая положительно полуопре- полуопределенная матрица есть выпуклая комбинация матриц, лежащих на крайних лучах. Указание, (а) Пусть х — ненулевой вектор из С", и пусть хх* = а.А + A — а) В для некоторого числа а <= @, 1) и положительно полуопределенных матриц Д, Be Mn. Пусть {х\, ..., хп}а С" — ортонормированный базис, в котором x*xk = 0 для k = 2, ..., п. Тогда 0 = x*kAxk = x\Bxk, т. е., со- согласно задаче 14, каждый вектор Xk, k = 2, ..., п, принадлежит и ядру матрицы А, и ядру матрицы В. Вывести отсюда, что обе матрицы А, В имеют ранг 1 и являются положительными кратными матрицы хх*. (Ь) Если А еМ,- положительно полу- полуопределенная матрица ранга k ^ 2, то, пользуясь теоремой 7.5.2,
550 Гл. 7, Положительно определенные матрицы представить ее в виде А = В -f- С, где В = vv*, v Ф 0, rank С ^ 1 и Си = 0. Сделать отсюда вывод о том, что С не кратна В и, следовательно, А не принадлежит крайнему лучу. 7.6. Конгруэнтность: произведения и одновременная дизгонализация В отличие от умножения положительных чисел обычное мат- матричное умножение не всегда сохраняет положительную опреде- определенность. Произведение двух эрмитовых матриц может даже не быть эрмитовым (эрмитовость сохраняется тогда и только тогда, когда сомножители коммутируют), и квадратичная форма, по- порождаемая произведением, может не быть неотрицательной. В данном параграфе главный упор сделан на положительно оп- определенные матрицы; более общие результаты об эрмитовых матрицах указаны в § 4.5. 7.6.1. Пример. Матрицы ^ = [_2~i]> ^ = [i I] положи- положительно определены. Однако ЛВ = [_д_^], Н (АВ) = [l _J], так что матрица АВ несимметрична, и ее эрмитова часть незнако- определена. И все же по меньшей мере одно свойство положительности сохраняется обычным произведением положительно определен- определенных матриц. Следующее обсуждение продемонстрирует некото- некоторые полезные приемы работы с произведениями и суммами матриц. 7.6.2. Определение (повторное). Матрицы А, В^М„ назы- называются эрмитово конгруэнтными, если В = С*АС для некото- некоторой невырожденной матрицы С е Мп. Заметим, что, как и подобие, эрмитова конгруэнтность яв- является отношением эквивалентности. Чтобы отличать ее от ве- вещественной конгруэнтности, иногда в комплексном случае ис- используют термин «конъюнктивность». 7.6.3. Теорема. Произведение положительно определенной матрицы А^Мп и эрмитовой матрицы В^Мп есть диагонали- зуемая матрица, все собственные значения которой вещественны. Матрица АВ имеет такое же число положительных, отрицатель- отрицательных и нулевых собственных значений, как и матрица В. Об- Обратно, всякая диагонализуемая матрица с вещественными соб- собственными значениями может быть представлена в виде произ- произведения положительно определенной и эрмитовой матриц. Доказательство. Для первого утверждения теоремы восполь- воспользуемся равенством А~1'2АВА1'2 = А1'2ВАХ12; матрица в правой .части подобна матрице АВ и, следовательно, имеет те же соб*
7.6. Конгруэнтность 551 ственные значения. Поскольку Л1/2 — эрмитова матрица, то мат- матрицы А1/2ВА^2 и В эрмитово конгруэнтны. Согласно закону инерции (закону Сильвестра 4.5.8), собственные значения мат- матрицы В имеют те же знаки, что и собственные значения мат- матрицы А1/2ВА1/2, т. е. собственные значения матрицы АВ. Кроме того, ма*грица А1/2ВА1^2 эрмитова, а потому диагонализуема, но тогда и АВ должна быть диагонализуемой. Переходя к послед- последнему утверждению, предположим, что матрица С е М„ диаго- диагонализуема и имеет только вещественные собственные значения: С = SDS~l, где D — вещественная диагональная матрица. Тогда С = S(S*S*~l)DS-1 =(SS*)(S-1*DS-l) = AB; здесь матрица А == SS* положительно определена, а матрица В = S-]*DS~l эрмитова. ? Одновременная диагонализуемость двух наугад выбранных матриц посредством преобразования подобия — редкое событие, требующее для своей реализации сильного свойства коммута- коммутативности. Но для диагонализуемости двух эрмитовых матриц одним и тем же преобразованием эрмитовой конгруэнтности нужно гораздо меньше. Одновременная диагонализуемость по- посредством преобразования эрмитовой конгруэнтности соответ- соответствует преобразованию двух эрмитовых квадратичных форм в линейную комбинацию квадратов посредством одной и той же линейной замены переменных. Приведем классический резуль- результат на эту тему; относительно его обобщения см. теорему 4.5.15. 7.6.4. Теорема. Пусть А, В^Мп — эрмитовы матрицы, и пусть существует их вещественная линейная комбинация, являю- являющаяся положительно определенной матрицей. Тогда найдется ¦невырожденная матрица С^Мп, такая, что обе матрицы С*АС и С*ВС диагональны. Доказательство. Предположим, что матрица Р = аА -f pfi положительно определена для некоторых a, peR. Хотя бы одно из чисел а, р должно быть ненулевым; предположим, на- например, что р=#=0. Так как в этом случае В = $~1(Р — ссЛ), то, доказав одновременную диагонализуемость посредством преоб- преобразования эрмитовой конгруэнтности матриц А и Р, мы устано- установим тем самым одновременную диагонализуемость А и В. Со- Согласно теореме 7.2.7, Р эрмитово конгруэнтна единичной мат- матрице, т. е. С\РС1 = 1 для некоторой невырожденной матрицы Ci e Мп. Поскольку матрица С\АСХ эрмитова, найдется уни- унитарная матрица U, такая, что и"С\АСр = D — диагональная матрица. Полагая C=C\U, получаем С*РС = 1, С*АС = D; следовательно, C*BC=$-1(I — aD) — также диагональная мат- матрица. D
552 Гл. 7. Положительно определенные матрицы Чаще всего этот результат применяется в классической (иду- (идущей из механики) ситуации, когда заданы две вещественные симметричные квадратичные формы, одна из которых положи- положительно определена. 7.6.5. Следствие. Если матрица А е М„ положительно опре- определена, а матрица В е Мп эрмитова, то найдется невырожден- невырожденная матрица СеМ„, такая, что С*ВС — диагональная матрица, а С*АС — единичная. Упражнение. Найти замену переменных, превращающую обе квадратичные формы Ъх2— 2ху + У2 и х2-\-2ху— у2 во взвешен- взвешенные суммы квадратов. Аналогичный результат имеется для пары матриц, одна из которых положительно определена, а другая — комплексная симметричная. Этот результат также обобщается в теореме 4.5.15. 7.6.6. Теорема. Если матрица А е Мп положительно опреде- определена, а В^.Мп— комплексная симметричная матрица, то най- найдется невырожденная матрица С, такая, что обе матрицы С*АС и СТВС диагональны. Доказательство. Выберем невырожденную матрицу Сх е Мп так, чтобы С\АС1 = 1. Матрица С\ВСХ симметрична, и из раз- разложения Такаги D.4.4) следует существование унитарной мат- матрицы U, для которой матрица UT (С\ВСЛ U = D будет диаго- диагональной. В то же время U* (C\ACX}U = I; поэтому можно поло- положить С= С ill. ? Этот результат имеет приложения в теории функций комп- комплексного переменного; так, неравенства Грунского для одно- однолистных функций суть соотношения между квадратичными фор- формами, порождаемыми соответственно положительно определен- определенной эрмитовой матрицей и комплексной симметричной матрицей. Следующее утверждение непосредственно вытекает из след- следствия 7.6.5. 7.6.7. Теорема. Функция f(A)= log det Л, рассматриваемая на выпуклом множестве положительно определенных эрмитовых матриц из Мп, строго вогнута. Доказательство. Для любых двух заданных положительно определенных матриц А, В е Мп нужно проверить справедли- справедливость неравенства / (аЛ + A - а) В) > а/ (А) + A - а) f (В) G.6.8) при всех ае@, 1); при этом равенство должно достигаться только в случае А = В. Опираясь ца следствие 7.6.5, найдем
7.6. Конгруэнтность 553 невырожденную матрицу СеМл, такую, что A — CIC*, В = = С АС* и A = diag(^i, ..., кп), причем все ki > 0. Теперь f (aA+ (I -a)B) = f(C[aI +(l -а)А]С) = - / (СС) + / (а/ + A - а) Л) = f (А) + /(а/ + A - а) Л), а/ (А) + A - а) / (В) = а/ (Л) + A - a) f (САС) = = af (Л) + (!-«)[/ (СС) + f (Л)] - = а/ (Л) + A - a) f (Л) + A - а) / (Л) = Таким образом, достаточно показать, что для любой диагональ- диагональной матрицы Л с положительными диагональными элементами и для всех ае@, 1) справедливо неравенство f (a/ + A — а)Л) ^ ^A —a)f(A). Но это легко следует из строгой вогнутости са- самой логарифмической функции: / (а/ + A - а) Л) = log f[ [а + A - а) К{] = >t [alogH-(l-a)bgA,J=' i = l = A - a) t log Л, = A - a) log П A, = 1=1 t=i = A — a)logdetA==(l — а)/(Л).. Равенство в среднем переходе достигается тогда и только тогда, когда все kt равны 1, т. е. только для Л =/, что соответствует В = С1С*=А. О Теорема 7.6.7 часто используется в другой форме, получае- получаемой потенцированием неравенства G.6.8). В этой форме она дает количественное выражение того факта, что выпуклая ком- комбинация положительно определенных матриц сама положи- положительно определена и, следовательно, должна быть невырожден- невырожденной. 7.6.9. Следствие. Пусть матрицы А, В е М„ положительно определены, и пусть 0 < а < 1. Тогда det [аА + A - а) В] > [det Л]а [det B)l~a. Равенство достигается в том и только в том случае, если А = В.
554 Гл. 7. Положительно определенные матрицы Задачи 1. Пусть матрица А е Мп удовлетворяет соотношению А* = S~XAS, где матрица SgM, положительно определена. По- Показать, что А диагонализуема и все ее собственные значения вещественны. Указание. Рассмотреть равенство AS = SA*. По- Показать, что AS — эрмитова матрица, и применить теорему 7.6.3. 2. Показать, что на множестве положительно определенных матриц функция f(A) = trA~l строго выпукла. Указание. См. доказательство теоремы 7.6.7. 3. Какую форму примет обобщение теоремы 7.6.3 на случай положительно /гсш/определенной матрицы А е Мп? Показать, что собственные значения матрицы АВ все еще являются веще- вещественными и положительных (отрицательных) среди них не больше, чем у В. Однако число нулевых собственных значений матрицы АВ может возрасти по сравнению с В. 4. Можно ли обобщить теорему 7.6.3 на случай неэрмитовой матрицы В е Мп? 5. Показать на примере, что две эрмитовы матрицы могут быть одновременно диагонализованы преобразованием конг- конгруэнтности, хотя условия теоремы 7.6.4 нарушены. 6. Пусть А, В — эрмитовы матрицы из М2. Что можно ска- сказать о знаках вещественных частей собственных значений мат- матрицы А В, если известны знаки собственных значений матриц А и В? Обобщаются ли полученные результаты на матрицы из М„? 7. Пусть А, В е Мп — эрмитовы матрицы и А положительно определена. Используя следствие 7.6.5, показать, что для по- положительной определенности матрицы A -f- В необходимо и до- достаточно, чтобы каждое собственное значение матрицы Л~'В было больше, чем —1. Указание. А -f В = A (I -f- А-1 В). 8. Представим эрмитову матрицу Яе Мп в виде Я = А + iB, где A, BgM,(R). Проверить, что А симметричная, а В — косо- симметричная матрицы; таким образом, собственные значения матрицы В чисто мнимые и расположены сопряженными па- парами. Показать, что для положительной определенности мат- матрицы Я необходимо и достаточно, чтобы А была положительно определена и каждое собственное значение матрицы iA~lB пре- превосходило — 1. (Указание. Использовать то, что х*Нх = х*Ах для всех х е Rn; применить результат задачи 7. В случае поло- положительно определенной матрицы А показать, что если X — соб- собственное значение матрицы iA~xB, то —Я — также собственное значение. Вывести отсюда, что положительная определенность матрицы Я равносильна тому, что А положительно определена и все собственные значения матрицы iA~lB находятся в интер- интервале (—1,1), причем расположены парами {—Х,К}.) Затем вы- вывести неравенства 0 ^ det A~1B<1 и как следствие detB<
7.6. Конгруэнтность 555 ¦<det/4 (Робертсон). Пользуясь представлением Н = А + iB =я ~A(I+iA~lB) и его следствием det H= det A det(/ + M-'fi), показать, что для положительно определенной матрицы Я вы- выполняются неравенства О <С det(/ + /Л-'В)^ 1. Сделать отсюда вывод о справедливости неравенства det H ^ det А (Таусски), В теореме 7.8.7 и задаче 7 § 7.8 дан вариант этих неравенств, справедливый для любых комплексных матриц Н е Мп. 9. В теореме 4.1.7 было установлено, что матрица ЛеМ, тогда и только тогда представима в виде произведения двух эрмитовых матриц, когда она подобна вещественной матрице. Пользуясь теоремой 7.6.3, показать, что матрица A s Mn тогда и только тогда является произведением двух положительно оп- определенных эрмитовых матриц, когда она диагонализуема и имеет только положительные собственные значения. Указание. В доказательстве достаточности условия использовать равенства А = 5Л5-1 = SS* (S-'^AS-1. 10. Если матрицы А, В о Л1„ положительно определены, то, как мы знаем, для положительной определенности матрицы А В необходимо и достаточно, чтобы она была эрмитовой. Пока- Показать, что это же верно для произведений трех положительно определенных матриц, т. е. для положительной определенности произведения S = ABC положительно определенных матриц А, В, С^Мп необходимо и достаточно, чтобы 5 была эрмито- эрмитовой матрицей. Указание. Представить S в 'виде 5 = (ЛВ) С = ЕС; согласно задаче 9, все п собственных значений матрицы Е поло- положительны. Из теоремы 7.6.3 вывести, что в случае, когда мат- матрица S эрмитова, число положительных собственных значений у S и у Е = SC-1 одинаково. 11. Заполнить пробелы в следующем эскизе другого доказа- доказательства утверждения задачи 10. Пусть 5(а)^[A — а)С-\- ¦\-aA\BC, O^a^l. Если матрица S = SA) эрмитова, то и все матрицы 5 (а) эрмитовы, поскольку эрмитовость матрицы 5@)= С ВС очевидна. Из невырожденности матриц A — а)С-\- !+а Л вывести невырожденность матрицы 5 (а). Собственные значения последней непрерывно зависят от а; при а = 0 все они положительны, и ни одно не может обращаться в нуль1) вслед- вследствие того, что S(a) невырожденна. Сделать отсюда вывод о положительности всех собственных значений матрицы 5A), Дополнительная литература Другие результаты о произведениях матриц из различных классов положительности и ссылки на более ранние результаты, относящиеся к произведениям нескольких положительно опре- ') При 0 < a < l. — Прим. перев.
556 Гл. 7. Положительно определенные матрицы деленных матриц, можно найти в статье: Ballantine С. S., Johnson С. R. Accretive Matrix Products. — Lin. Multilin. Alg., 1975, v. 3, p. 169—185. 7.7. Упорядочение, индуцированное положительной полуопределенностью Эрмитовы матрицы суть обобщения вещественных чисел, а положительно определенные матрицы — обобщения положитель- положительных чисел. Естественно задаться вопросом, имеется ли удовлет- удовлетворительное понятие неравенства или (частичного) порядка для эрмитовых матриц. 7.7.1. Определение. Пусть A, Bt=Mn — эрмитовы матрицы. Будем писать А ^= В, если матрица А — В положительно полу- полуопределена. Точно так же запись А ^> В означает, что матрица А — В положительно определена. Упражнение. Показать, что введенное понятие неравенства согласовано с определением равенства между матрицами. Дру- Другими словами, показать, что из Л ^ В и В^-А следует, что А = В. Упражнение. Показать, что отношение ^= транзитивно и рефлексивно, но не является линейным порядком, т. е. суще- существуют эрмитовы матрицы А, В е Мп, такие, что не выполняет- выполняется ни А^=В, ни В ^ А. Такой порядок называют частичным. Частичный порядок на вещественном линейном пространстве часто задают, указывая конкретный замкнутый выпуклый конус: один элемент считается большим или равным другому, если их разность принадлежит этому конусу. В данном случае веще- вещественным линейным пространством является множество эрми- эрмитовых п X /i-матриц, а замкнутым выпуклым конусом — множе- множество положительно полуопределенных матриц. Понятно, что это обобщает знакомую ситуацию, когда в роли вещественного про- пространства выступает R, а замкнутый выпуклый конус образован неотрицательными числами. В случае R мы получаем «обыч- «обычный» порядок (причем линейный, а не только частичный). Аналогичным образом можно ввести другие определения «неравенства» между матрицами (наиболее важное из них — по- поэлементное доминирование для вещественных матриц): указы- указывают конус матриц, обобщающий множество неотрицательных чисел, и говорят, что матрица А «больше или равна» матрице В, если разность А — В принадлежит этому конусу. Вообще го- говоря, контекст может подсказывать различные определения «не- . равенства»; полезность конкретного определения зависит от того, как далеко можно распространить аналогию с веществен-
7.7. Упорядочение 557 ными числами и насколько учитываются другие относящиеся к делу неравенства (например, между собственными значениями, определителями и т. д.). Обратим внимание, что положительная (полу) определен- определенность матрицы А эквивалентна неравенству А >> О (А >= 0); здесь 0 — нулевая матрица того же порядка, что и А. Упражнение. Подтвердить примером, что частичное упорядо- упорядочение, индуцированное положительной полуопределепностью, от- отличается от линейного упорядочения вещественных чисел в сле- следующем отношении: если А^=В и А не равна В, то это не зна- значит, что А >> В. Теперь мы продемонстрируем некоторые свойства упорядо- упорядочения, индуцированного положительной полуопределенностью; каждое из них можно рассматривать как обобщение соответ- соответствующего свойства обычного упорядочения вещественных чи- чисел. Сходство между этими упорядочениями, вообще говоря, до- довольно сильное. 7.7.2. Утверждение. Пусть А, В е Мп — эрмитовы матрицы. Для любой матрицы Т<=Мп<т из А^В следует ГAT > ГВТ. Если пг^п и Ге Мп m имеет ранг ш, то из А)?- В следует Г AT > Г ВТ. Доказательство. Если матрица А — В положительно полу- полуопределена, то у* (А — В)у^0 для всех i/gC". Поэтому х* (Г AT — Г ВТ) х = (Тх)* (Л - В) Г* > О при любом х е= Ст, что в свою очередь означает положительную полуопределенность матрицы Т*АТ—Т*ВТ; следовательно, ТAT > ГВТ. Заметим, что данное утверждение обобщает утверждение 7.1.6, да и дока- доказательство по существу то же самое. ? Упражнение. Завершить доказательство проверкой второго утверждения. 7.7.3. Теорема. Пусть А, В^Мп — эрмитовы матрицы, при- причем А положительно определена, а В положительно полуопре- полуопределена. Тогда неравенство А"^ В эквивалентно условию А1)^ 1, а неравенство А >? — условию р(ВЛ-')< 1. Доказательство. Согласно следствию 7.6.5, найдется невы- невырожденная матрица С е Мп, такая, что А = CIC*, В = CDC*, где D = diag(di, d2, ..., dn). Поэтому неравенство А^В рав- равносильно положительной полуопределенности матрицы С(/ — — D)C*, для чего необходимо и достаточно, чтобы dt ^ 1 для всех i = l,2 ... . Так как ВА-1 = CDC*C*-lC~l = CDC~\ то собственные значения матрицы ВА~Х суть в точности числа
558 Гл. 7. Положительно определенные матрицы d\, di, ..., dn. Согласно теореме 7.6.3, все они неотрицательны, и требование, чтобы все di не превосходили 1, равносильно условию р(ВЛ-1)^ 1. Второе утверждение устанавливается пу- путем тщательного исследования использованных неравенств. ? 7.7.4. Следствие. Пусть матрицы А, ВеМл положительно определены. Тогда (а) А"^ В в том и только в том случае, когда В~1 ^= А~ ; (b) если А^В, то det A ^ det В и (c) более общо, если А^ В и упорядочить собственные зна- значения обеих матриц А и В одинаковым образом (по возраста- возрастанию или убыванию), то Лй(Л) ^ %k{B) для всех k = 1, 2, .. ., п. Доказательство. Мы знаем, что неравенство А ^ В равно- равносильно условию р(ВЛ-1)^1. Но р(ВА~1)= р(А~хВ), и теперь теорема 7.7.3 говорит, что условие р(Л~'В)^1 равносильно не- неравенству B~l ^ А~1. Если А^В, то р(вЛ~')^1; так как, согласно теореме 7.6.3, все собственные значения матрицы ВА~Х неотрицательны, они должны принадлежать интервалу @,1]. Но тогда их произведе- произведение не превосходит 1, т. е. det(fi/l-1)^l, а потому det/l^ ^ det В. В доказательстве теоремы 7.7.3 были использованы представления А = СС*, B — CDC*, где С = [с/(]еЛ1„, D = = diag(fl?i, d2, ..., dn) e Mn, 0 ^ d,^ 1 для всех i = 1, 2, ..., /г, Легко проверить, что t^ = trC<r= ? IcmP tr В = trCDC" = tr Z)C*C= E d,\cuf*? Z |c,7|2 = trA г, /=i i, /=i Последнее утверждение (содержащее в себе неравенства для определителей и следов, которым мы дали независимые доказательства) является прямым следствием вариационной ха- рактеризации Куранта — Фишера для упорядоченных собствен- собственных значений эрмитовой матрицы. Оно покрывается следствием 4.3.3. ? Упражнение. Пусть А У- В )> 0. Показать, что det A > det В и tr A > tr В. Представление @.7.3) для матрицы, обратной к блочной матрице, будучи специализировано для эрмитова случая, приво-
7.7. Упорядочение 559 дит к следующей полезной формуле: Г Л Я] Г (А-ВС~1В')~1 A-'B(B'A-iB-C)~i'\ [в* с] ~~1(В>А-1В-су1в*А-1 (с-в'а-'вУ1 У G.7.5) Здесь предполагается, что матрицы Л и С квадратные и все об- обращаемые матрицы невырожденны. Если матрица [в»с] положительно определена, то обрат- обратная к ней существует и тоже положительно определена. Тогда из G.7.5) и утверждения 7.1.2 следует, что матрицы (Л — ВС-'В*)-1 и Л — ВС~1В* положительно определены. Точно так же положительно определены матрицы С — В*А~1В, Л и С. Таким образом, если рассматриваемая блочная матрица поло- положительно определена, то Л>0, С>0, А>ВС~1В\ С) 7.7.6. Теорема. Пусть эрмитова матрица Н представлена в блочном виде: А В с 1 причем матрицы А и С квадратные. Для положительной опре- определенности матрицы Н необходимо и достаточно, чтобы А была положительно определенной и выполнялось неравенство С >> В*А~1В.Это условие равносильно тому, что р(В*А~1ВС-1) < Доказательство. Необходимость условия теоремы уже уста- установлена. Пусть теперь Л положительно определена и С )> У- В*А-1В. Полагая Х = — А~1В, находим Г/ О1ГЛ Sir/ XI ГА О -I [г ill в' с J L о / J L о с-в"А~1ву Поскольку правая часть положительно определена, то положи- положительная определенность матрицы Я вытекает из свойства вы- выписанной конгруэнтности и утверждения 7.1.6 или 7.7.2. До- Доказательство завершается применением теоремы 7.7.3 к нера- неравенству С>В*Л-!В. ? Упражнение. Пусть [д.с]^^- Показать, что det О > det (Ъ*А~1В) и det Л > det (ВС^В*). Что можно сказать о случае ВбМЛ|1? Показать, что det Л det С ^ j det В |2, если В — квадратная матрица.
Гл. 7. Положительно определенные матрицы Упражнение. Пусть Л е Мп,С^Мт, В<^Мпт и матрицы А, С положительно определены. Показать, что неравенство [в, с]^0 равносильно условию р(В*А~1ВС~1) ^ 1. Блочная положительно определенная матрица из теоремы 7.7.6 связана с некоторыми билинейными неравенствами, воз- возникающими в теории функций комплексного переменного и в гармоническом анализе; эти неравенства разделяют отдельные свойства частичного упорядочения, индуцированного положи- положительной определенностью. 7.7.7. Теорема. Пусть матрицы А <= Мп и Се Мт положи- положительно определены, и пусть В е Мп, т. В таком случае следую- следующие утверждения эквивалентны: (a) (x"Ax){yCy)>\x'Byf для всех * <= С и всех j/gC"; (b) х*Ах + y*Cy~S?2\x'By\ для всех х е= Сп и всех i/gC"; (c) p(B"A~lBC~l)^:l; Доказательство. Покажем, что из (а) следует (Ь), из (Ь) — '(с) и из (с) — (а). То, что (с) и (d) эквивалентны, мы уже знаем. Если выполнено (а), то, используя соотношение между арифметическим и геометрическим средними, получаем ~ {хАх + у"Су) > (x'Axf2 (у*Су)ш > \ х'Ву \, т. е. как раз неравенство (Ь). Если предположить (Ь), то х-Ах + у'Су = (А^-хУ (А1'2х) + (С*уТ {Схру) > 21 х'Ву |. Таким образом, для любого леС" и любого у е Ст хх + у'у>2\ (А~1/2хУ В (С~112у)! = 2 | x'A~il2BC-my) \. Полагая в этом неравенстве х = А~1/2ВС~112у, получим Поскольку матрица С~1/2В*А~1ВС~1/2 полол<ительно полуопреде- полуопределена, это равносильно тому, что для любого у е С" Если в качестве у взять произвольный собственный вектор мат- матрицы С-1/2В*А-1ВС~1/2, то придем к выводу: соответствующее (обязательно неотрицательное) собственное значение не превос-i ходит 1; поэтому и спектральный радиус не больше 1, т. е. 1 ^z p(C-V2B*A-1BC-l'2) = p{B*A-lBC~l), и (с) доказано, Нако-
7.7. Упорядочение 561 нец, если выполнено (с), то для любого х е С" и любого (/еСя имеем |x'(A-1/2BC-l'2y) f <||*Ig|Л"IeBC-I/8ir? = = (*•*) (j,'C-ll2B'A-lBC-ll2y) < (*'*) (у». Напомним, что символ ||лг||2 обозначает евклидову длину (х*хI/2 вектора л:. Делая подстановку л:->-Л1/2л:, у-*-С1/2у, получим \х'Ву\2^(х*Ах)(у*Су) для всех jc е С и всех г/ е Ст. О Чтобы сформулировать неравенства другого сорта, также ве- ведущие происхождение от представления G.7.5), рассмотрим две операции, применимые к положительно определенным матри- матрицам: обращение и выделение главной подматрицы при задан- заданном множестве индексов. Мы знаем, что обе операции сохра- сохраняют положительную определенность, но есть ли какое-нибудь соотношение между результатами применения обеих операций в том и другом порядке к одной и той же матрице? Весьма ин- интересно, что эти две операции «коммутируют с точностью до не- неравенства». 7.7.8. Теорема. Предположим, что матрица Р е Мп положи- положительно определена, и пусть 5с{1,2 п) — фиксированное множество индексов. Тогда Левая часть неравенства есть главная подматрица матрицы Р~1, определяемая множеством S; правая часть — это обратная для соответствующей подматрицы матрицы Р. Доказательство. Поскольку множество положительно опре- определенных матриц замкнуто относительно преобразований конг- конгруэнтности, осуществляемых матрицами перестановок, можно считать, что ТА ВЛ \ег с] и P(S) = A. Но тогда Р~1 E) = (л - ВС 1В') ' и [P(S)]~l = A~l. Так как С>0 (потому что Р>0), то ВС1 В* > 0 и Требуемое неравенство вытекает теперь из 7.7.4(а). ? Словами теорему 7.7.8 можно сформулировать так: в случае положительно определенной матрицы «обратная для главной
562 Гл. 7 Положительно определенные матрицы подматрицы меньше или равна соответствующей подматрице обратной матрицы». Одно из приложений теоремы 7.7.8 соответствует специаль- специальному выбору главной подматрицы, выделяющему адамарово произведение из кронекерова (см. [HJ]). Если А, В<=Мп и 5={1,л + 2,2п + 3,Зп + 4 п2}, то А о В = (Л ® В) (S). Для обратимых матриц А и В матрица А <8> В также обратима и (А <8> В)-1 = А-1 <8> В-1. Поэтому если А и В положительно опре- определены, то, применяя к матрице Р = А®В теорему 7.7.8, по- получим Л" о В~х = (Л <g> Я) (S) = (А <g> в) E) > Если положить В== А, это неравенство дает Л ' о А' В случае В = А~Х (Л положительно определена) имеем л-'олХлол-'Г'^Ог'олГ1. Смысл последнего неравенства: матрица А-1 о А доминирует над собственной обратной. Какую информацию это дает отно- относительно Л о Л? Пусть С—положительно определенная мат- матрица со спектральным разложением С= UhU*, A = diag(?»i, ... ~ ..., Хп), все Х{ > 0. В таком случае неравенство С"^С рав- равносильно тому, что все ki^l; следовательно, С^1^С~. Суммируем эти замечания в следующей теореме. 7.7.9. Теорема. Пусть матрицы Д, BeMn положительно од- ределены. Тогда (a) Л~'оВ~'ХЛоВ); (b) Л о Л >(Л ° Л); (c) Л о Л>/>(Л-1оЛ)~1. Поскольку А~ХА = /, то левую часть утверждения (с) можно переписать как А" ° Л ^ А~1А; таким образом, в этом случав адамарово произведение доминирует над обычным. Задачи 1. Пусть Л, В^Мп — эрмитовы матрицы с упорядоченными собственными значениями соответственно Ki =SJ ta =ё^ • • > <s ^/» и (xi ^ (X2 ^ ... ^ [in- Если А ^ В, то Ki ^ щ, t = 1, 2, ..., n< Показать на примере, что утверждение, обратное этому, не всегда верно. 2. Пусть Ль Л2, Вь В2 ^ Мп — эрмитовы матрицы. Пока- Показать, ¦ что из А^Вх и Л2^ 52 следует А^ А2*&*Вх + В2.
7.7. Упорядочение 563 3. Пусть А, В, С<=Мп — эрмитовы матрицы, причем А^ В и С>0. Показать, что ЛоС>в°С. 4. Пусть А, В, С, fle Мп — эрмитовы матрицы, и пусть Л>?>0 и C>D>0. Используя предыдущую задачу, пока- показать, что А о О в о D > 0. 5. Пусть Л, ВеМ„ — эрмитовы матрицы, причем Л ^= В. Пусть /с{1,2, ..., и}—произвольное множество индексов. По- Показать, что Л (/) > В (J). 6. Показать, что теорема 7.7.6 есть обобщение теоремы 7.2.5 для п = 2. 7. Что дает теорема 7.7.6 в случае CgMi? Как окаймить по- положительно определенную матрицу строкой и столбцом и при этом сохранить положительную определенность? 8. Обозначим через P(S,S') подматрицу, получаемую уда- удалением из Р строк и столбцов, номера которых принадлежат соответственно множествам 5 и S'. Показать, что неравенство G.7.8) тогда и только тогда будет строгим, когда P(S,S') имеет полный строчный ранг; равенство в теореме 7.7.8 имеет место только в случае P(S, S') = 0. Указание. Показать, что rank [Р-1 E) — Р(S)-1] = rank P{S, S'). 9. Пусть Л е М„ —эрмитова матрица. Показать, что нера- неравенство / ^= Л равносильно тому, что все собственные значения матрицы Л не превосходят 1. 10. Используя теорему 7.7.7, дать другое решение задачи 11 из § 7.4. Указание. Показать, что если В )> 0, то v i-i 11. Положим в теореме 7.7.7 А = С. Показать, что следую- следующие утверждения эквивалентны: (a) (х*Ах)A/Ау)^\х'Ву\2 для всех х, i/gC"; (b) (x*Ax)-{-(y'Ay)^2\x'By\ для всех х, 1/еС"; (c) р(В'Л-1ВЛ-1)<1; (d) х*Ах ~^\х*Вх\ для всех хеС. 12. Пусть А^Мп — обратимая симметричная матрица. По- Показать, что все строчные суммы матрицы Л-1 о Л равны 1. (Ука- (Указание. Использовать формулы, выражающие элементы матрицы А'1 через алгебраические дополнения элементов матрицы Л.) Вывести отсюда, что для вещественной и положительно опреде- определенной матрицы Л неравенство Л~'оЛ)>/ не может иметь ме- места, хотя Л о Л ^ /. 13. Пусть Л<й> обозначает k-ю адамарову степень матрицы А. Показать, что в случае положительно определенной матрицы A s М„ справедливы неравенства (Л) ^= (Л(й)) для всех Л —1,2,....
564 Гл. 7. Положительно определеннее матрицы Дополнительная литература О происхождении теоремы 7.7.7 можно прочитать в работе: FitzGerald С, Horn R. On the Structure of Hermitian — Sym- Symmetric Inequalities. — J. London Math. Soc, 1977, v. 15, N2, p. 419—430; там же даны ссылки на соответствующую литера- литературу. В статье: Johnson С. Partitioned and Hadamard Product Matrix Inequalities. —J. Research NBS,_1978, v. 83, p. 585—591, есть библиография по тематике теорем 7.7.8 и 7.7.9. 7.8. Неравенства для положительно определенных матриц Теперь мы обсудим неравенства для величин, ассоциирован- ассоциированных с одной или несколькими положительно определенными матрицами. Их следует отличать от матричных неравенств пре- предыдущего параграфа, хотя те и другие нередко связаны между собой. Например, из А^В^О вытекает det Л ^ det В. Случай положительно определенных матриц богат неравенствами, отно- относящимися к определителям, собственным значениям и тому по- подобным величинам. В этом параграфе будут исследованы неко- некоторые из таких неравенств, не обязательно проистекающие из матричных. Основное детерминантное неравенство для положительно оп- определенных матриц — это неравенство Адамара. Многие другие неравенства суть его обобщения в том или ином направлении. 7.8.1. Теорема (неравенство Адамара). Если матрица Л = = [ац] е Мп положительно определена, то п det Л <П аи- Равенство здесь достигается тогда и только тогда, когда А —> диагональная матрица. Доказательство. Положим di ==a^.l/2, и пусть D = diag(rfj, d2 dn). Неравенство det A ^ana22 ... апп равносильно усло- условию det ?>Л?) ^ 1, и в дальнейшем достаточно рассматривать матрицу А, все диагональные элементы которой равны 1. Если %\, ..., Кп — собственные значения матрицы Л (обязательно по- положительные), то Нужное неравенство вытекает из соотношения между арифме- арифметическим и геометрическим средними неотрицательных чисел*
7.8. Неравенства для положительно определенных матриц 565 Равенство средних имеет место тогда и только тогда, когда все Xi = 1. Так как А эрмитова и, следовательно, диагонализуемая матрица, это равносильно тому, что А = 1. Итак, равенство в исходном неравенстве достигается тогда и только тогда, когда А—диагональная матрица. D Существует еще одно детерминантное неравенство для про- произвольных квадратных матриц, эквивалентное неравенству из теоремы 7.8.1 и также называемое неравенством Адамара. Гео- Геометрически число |det^4| есть объем и-мерного параллелепи- параллелепипеда, образующими ребрами которого являются строки (или столбцы) матрицы А. Этот объем будет наибольшим, когда об- образующие ребра попарно ортогональны, в последнем случае он равен произведению длин ребер. Неравенство Адамара — это алгебраическая формулировка указанного геометрического факта. 7.8.2. Следствие (неравенство Адамара). Для любой матрицы В = [b;j] <= Мп справедливы неравенства n / n \l/2 n(,?,|6«f) ¦ 1/2 Равенство в них достигается тогда и только тогда, когда строки (соответственно столбцы) матрицы В попарно ортогональны. Доказательство. Если В вырожденна, то доказывать нечего. В случае невырожденной'матрицы В нужно применить неравен- неравенство из теоремы 7.8.1 к положительно определенной матрице А = ВВ* и извлечь квадратный корень из обеих частей. Пра- Правая часть доказываемого неравенства есть квадратный корень из произведения диагональных элементов матрицы А, а левая часть — квадратный корень из определителя этой матрицы. Стро- Строки матрицы В попарно ортогональны тогда и только тогда, когда А—диагональная матрица, а это и есть случай равен- равенства в теореме 7.8.1. Второе доказываемое неравенство полу- получается применением первого к матрице В*. ? Упражнение. Следствие 7.8.2 мы вывели из теоремы 7.8.1. По- Показать, что, наоборот, теорема 7.8.1 вытекает из следствия 7.8.2. Указание. Если матрица А положительно определена, то суще- существует единственная положительно определенная матрица В, та- такая, что В2=А. Применить следствие 7.8.2 к В и обе части полученного неравенства возвести в квадрат.
565 Гл. 7. Положительно определенные матрицы Упражнение. Используя неравенства Адамара (и приводи- приводимые ниже их обобщения), дать по возможности лучшие оценки для Г1 1 1 del 1 -1 -1 L1 —1 1J Два усиления неравенства Адамара для положительно опре- определенных матриц связаны с именами Фишера и Саса. В нера- неравенстве Фишера роль, какую в неравенстве Адамара играли диагональные элементы, выполняют дополняющие друг друга главные подматрицы. 7.8.3. Теорема (неравенство Фишера).Пусть блочная матрица п | IB' С положительно определена, и пусть блоки А и С непустые и квадратные. Тогда det P< (det A) (det С). Доказательство. Полагая X = —А~1В, находим / 01 Г А ВЛ\I XI Г А О V Mr' г п / —det п г R* = (det A) (det [С - В'А~1В]) < (det A) (det С). Последний переход основан на следующем рассуждении: по теореме 7.7.6 С^С—В*А~1В^0, а тогда, согласно следствию 7.7.4 (b), det С ^ det (С — В*А-1 В). Упражнение. Вывести неравенство Адамара (теорема 7.8.1) из неравенства Фишера. Кроме того, сформулировать неравен- неравенство Фишера для разбиений матрицы Р, более мелких, чем в теореме 7.8.3 (где две главные подматрицы), и менее мелких, чем в теореме 7.8.1 (п главных подматриц). Отметить, что в этом случае правая часть неравенства Фишера не превосходит правой части неравенства Адамара. Таким образом, для после- последовательности вложенных измельчающихся разбиений неравен- неравенство Фишера дает монотонно неубывающую последовательность верхних оценок определителя матрицы Р. Есть и другое неравенство, также приводящее к последова- последовательности верхних оценок определителя, которая включает в себя оценку Адамара. Пусть Pk{A) обозначает произведение всех главных миноров матрицы А, имеющих порядок k (их чис*
7.8. Неравенства для положительно определенных матриц 567 ло равно B))- Заметим, что Р„(А) — det А, и Р\{А) = 7.8.4. Теорема (неравенство Саса). Если матрица положительно определена, то 'для всех k = 1, 2, .,., п — L Доказательство. Диагональные элементы матрицы А~1 суть отношения главных миноров матрицы А, имеющих порядок п—1, к ее определителю. Поэтому применение теоремы 7.8.1 к положительно определенной матрице А-1 дает detA~aGl/i *** (det Л)" ' Извлекая из обеих частей этого неравенства корень (п—1)-й степени, получим неравенство Саса для & = /г—1. Для осталь- остальных случаев можно использовать рассуждение по индукции. Пусть, например, k = n — 2. Рассматривая каждую главную подматрицу порядка п—1 как самостоятельную матрицу и применяя обоснованное выше неравенство, получаем, что Здесь учтено, что всякая главная подматрица порядка п — 2 ровно два раза выступает в роли главной подматрицы в неко- некоторой главной подматрице порядка п—1. Извлечение из обеих частей корня степени (п—l)(ft— 2) дает неравенство Саса для k = n — 2. Таким же образом доказываются оставшиеся неравенства. ? Упражнение. Показать, что из неравенств Саса вытекает не- неравенство Адамара (теорема 7.8.1). В каком случае достигается равенство? 7.8.5. Утверждение. Пусть А е Мп — положительно полуоп- полуопределенная матрица. Положим -, если Ап положительно определена, О в противном случае. 'Здесь Ап — главная подматрица порядка п—1 матрицы А, по- получаемая вычеркиванием из А первой строки и первого столбца.
568 Гл. 7, Положительно определенные матрицы Пусть ЕцеМ„ — матрица, единственный ненулевой элемент ко- которой находится в позиции A,1) и равен 1. В таком случае матрица А— tE\\ положительно полуопределена для всех t?SLa.(A); в частности, положительно полуопределена матрица А — а(А)Е\\, При любом t>a(A) матрица А — tEn не будет положительно определенной. Доказательство. Достаточно рассмотреть случай положи- положительно определенной матрицы А. Применим теорему 7.2.5 для случая последовательности нижних угловых миноров. Заме- Заметим, что первые п—1 из этих миноров у матриц А — tE\\ и А совпадают; кроме того, det(Л — tEu) = det A— tdetAu- Упражнение. Восполнить пропущенные детали в доказатель- доказательстве утверждения 7.8.5. Упражнение. Доказать неравенство Адамара из теоремы 7.8.1 по индукции, опираясь на утверждение 7.8.5. Неравенству Адамара можно еще придать форму, исполь- использующую адамарово произведение: п. (det/ОП l<det Л°/. Неравенство, доказанное Оппенгеймом и усиленное Шуром, обобщает неравенство Адамара, показывая, что в последнем совсем не обязательно брать именно единичную матрицу. 7.8.6. Теорема (неравенство Оппенгейма). Если матрицы А, В е Мп положительно полуопределены, то Доказательство проведем индукцией по п. При п = 1 утвер- утверждение очевидно. Пусть п ^ 2, и пусть для всех матриц, поря- порядок которых не превосходит п — 1, утверждение справедливо. Тогда (det АпШЬи<^ Ап оВп 1 = 2 согласно предположению индукции. Обозначения здесь те же, что в утверждении 7.8.5. Заметим, что Ли о Вц = (Л о В) ц. Так как матрица Л — аЕп положительно полуопределена, то поло- жительно полуопределена и матрица (Л — аЕп)оВ. Следовав тельно, ,- , , О < det (Л - а?„) о В = (det Л о В) — abn (det Лп о Вп).
7.8. Неравенства для положительно определенных матриц 569 Отсюда вытекает, что det А о В > abn det Ап °Вп > i=2 tt. D Упражнение. Пусть А, ВеМ„ — положительно определенные матрицы. Показать, что (det A) (det В) < det А ° В. Обосновать всю цепочку неравенств (det A) (det В) < (det Л) П Ьи < det А о В < П % П ^г- Упражнение. Для положительно определенной матрицы 'А е Л1„ показать, что det Л о Л-1 ^ 1. Для неэрмитовой матрицы А с положительно определенной эрмитовой частью Н(А) имеется неравенство-совершенно иного рода. Его можно рассматривать как обобщение следующего свойства комплексных чисел: |z|^|Rez|. 7.8.7. Теорема (Островский — Таусски). Если матрица А^М„ такова, что матрица Н(А) = (Л -j- Л*)/2 положительно определена, то det//(A)<| det Л |. Равенство достигается тогда и только тогда, когда А — поло- положительно определенная эрмитова матрица. Доказательство. Пусть S(A) = (A—Л*)/2, так что А — = Н{А)-\- 5(Л). Доказываемое неравенство эквивалентно та- такому: И1[/ Но матрица H(A)~lS(A) подобна косоэрмитовой матрице Н (A)'2 S (Л) И (Л)/2 и, следовательно, имеет только чисто мнимые собственные зна- значения. Заметим, что для любого вещественного числа t спра- справедливо неравенство |1 + г7|^1. Если it\, H2, ..., itn — соб- собственные значения матрицы H(A)~1S(A), то
570 Гл. 7. Положительно определенные матрицы Для равенства необходимо и достаточно, чтобы все t,- = 0, а это вследствие диагонализуемости косоэрмитовой матрицы рав- равносильно тому, что 5(Л) = 0. Важное детерминантное неравенство для суммы двух поло- положительно определенных матриц принадлежит Минковскому. Его доказательство сходно с доказательством предыдущего ре- результата. 7.8.8. Теорема (неравенство Минковского). Если матрицы А, В^Мп положительно определены, то [det (А + В)]1 > (det А)щ + (det 5)"\ Доказательство. Заметим, что обе части доказываемого не- неравенства однородны и имеют одинаковую степень однород- однородности. Умножая при необходимости неравенство слева и справа на (detЛ—1/2I/л, можем считать, что A—I, и это не приведет к потере общности. Теперь нужно доказывать, что [det (/ + В)]1 > 1 + (det ВI. Пусть Я[ ^ ... ^ %п — собственные значения матрицы В, Требуемое неравенство эквивалентно такому: п A+к) > A+v*i ••• О". Это неравенство допускает прямую проверку явным перемно- перемножением в обеих частях и почленным сравнением, использующим соотношение между арифметическим и геометрическим сред- средними. ? Упражнение. Заполнить пробелы в доказательстве неравен- неравенства G.8.8). Показать, что равенство в нем имеет место тогда и только тогда, когда В = сА для некоторого неотрицательного числа с. Задачи 1. Согласно неравенству из следствия 7.8.2, абсолютная ве- величина определителя ограничена произведением /2-норм его строк. Сравнить это утверждение с результатом задачи 3 из § 6.1: абсолютная величина определителя не превосходит про- произведения /рнорм его строк. Каков геометрический смысл каж- каждой из этих оценок? Существуют ли другие оценки такого рода? Проверить случай /оо-нормы. 2. Левая часть неравенств из следствия 7.8.2 инвариантна относительно умножения В слева на унитарные матрицы, ле- левая часть неравенства из теоремы 7.8.1 инвариантна относи-
7 8. Неравенства для положительно определенных матриц 571 тельно преобразования унитарного подобия матрицы А, однако правые части соответствующей инвариантностью не обладают. Когда достигаются минимумы правых частей? Когда макси- максимумы? Нельзя ли этим путем получить лучшие оценки? 3. Используя неравенство Фишера, проверить следующее блочное обобщение неравенства Адамара из следствия 7.8.2: пусть A=[aij] — комплексная матрица порядка nk, разбитая на блоки таким образом, что каждый блок Ац имеет размер АХ k. В таком случае 1/2 -I к Tl{Z\\A{i\\l) J. Можно ли здесь вместо спектральной брать другие матричные нормы? 4. Охарактеризовать случаи равенства в неравенстве из тео- теоремы 7.8.6. 5. Пусть матрицы Л, Be Mn положительно определены. До- Доказать, что п п det А о В + (det A) (det В) > (det А) П Ьн + (det В) П ан. i-\ 1 = 1 Показать, что это неравенство усиливает неравенство из тео- теоремы 7.8.6. Указание. Показать, что а (А ° В) > а (Д) &п + а (В) ап - а (Л) а (В), и применить это соотношение в доказательстве по индукции, 6. Показать, что неравенство предыдущей задачи допускает дальнейшее усиление: > (det А) П Ь„ + (det В) ft att + il ?1 eV^"" -l). |. Пусть матрица' A s Mn имеет положительно определен- определенную эрмитову часть Н (А )'= (А + А*) /2, и пусть п > 1. Пока- Показать, что неравенству G.8.7) можно придать более сильную форму det Я (А) +1 det S (Л) |<| det A |. ~
572 Гл. 7. Положительно определенные матрицы В каком случае достигается равенство? Указание. Нужн® показать, что I det [/ + Я (A) S (Л)] | > 1 +1 det H (Л)5 (А) |, а это эквивалентно неравенству Показать, что > Можно ли еще усилить это неравенство? Замечание. Естествен- Естественным прообразом доказываемого неравенства для определителей можно было бы считать следующее неравенство для комплекс- комплексных чисел: \z\ ^ | Rez| + | Im z\; однако это неравенство не- неверно (показать!), отсюда условие п>1. Таким образом, де- термпнантное иеравенство следует оценить как довольно не- неожиданное. 8. Пусть матрицы А, В (= Мп положительно определены. По- Показать, "что det (Л + 5Mэ det Л -f detS. 9. Вывести неравенство Фишера из неравенства Минков- ского. Указание. Применить неравенство Мннковского к двум положительно определенным матрицам \ А В1 VI О 1ГЛ В1Г/ °]ГЛ ~В] IB' С}' [о -l\[ В* с\[о -/j = [-fi* С Г 10. Положительно определенная матрица Р е М„ может быть представлена в виде P = LL*, где L — нижняя треугольная матрица с положительными диагональными элементами (см. следствие 7.2.9). Использовать этот факт для доказательства неравенства Фишера. 11. Пусть Л, Be/Hj — положительно полуопределенные матрицы. Показать, что если Л и б невырожденны, то матрица А°В также невырожденна (и положительно определена). Если матрица А°В вырожденна, то хотя бы одна из матриц Л, В тоже вырожденна. Как связаны эти утверждения с неравен- неравенством rank Л о В ^ (rank Л) (rank В) из § 7.5? 12. Показать, что для матрицы А=[ац]е. Мъ с веществен- вещественными элементами, удовлетворяющими ограничениям ||^1
7.8. Неравенства для положительно определенных матриц 573 для любых i, j, выполняется неравенство | det Л | s^ 3 л/з. По- Показать, кроме того, что эта оценка никогда не достигается. Указание. д ) = (-l)t+iAt!, -^-(det Л) ^ 0. Здесь Ац — определитель матрицы, получаемой из А удале- удалением i-й строки и /-го столбца. Если Л;/ = 0, то det А не зави- зависит от значения ац, которое поэтому может быть взято равным ±1. Если Ai,-=?0, то при 0 < ац < 1 определитель det Л как функция от ctij не может иметь экстремума. Итак, |detA| до- достигает своего максимального значения при указанных ограни- ограничениях, когда все ац — ±\. Матриц порядка 3 с такими зна- значениями элементов лишь конечное число. Каким будет резуль- результат для произвольного п > 3? В случае матрицы А с комп- комплексными элементами использовать принцип максимума (тео- (теорема о максимальном модуле) для аналитических функций, чтобы показать, что J det >1 [ не может достигать максимального значения внутри множества {А е М„: все |a,;|sc:l}. 13. Пусть А = [ац]^Мп и К~ max {| ац |}. С помощью нера- неравенства Адамара показать, что | det Л |^Кпп'12. 14. Пусть матрица А <= Мп положительно определена, и пусть aS,V = {l, ..., п)—некоторое множество индексов, а а' — дополнение множества а в N. Неравенство Фишера можно записать как det A ^ det A (a) det Л (а'). Его обобщение, часто называемое неравенством Адамара — Фишера, имеет вид det Л (а! I 6)< det A (ct) det A (р) G 8 9) аегл^аир^ det Л (а Л Р) " V .o.J) Оно выполняется для всякой положительно определенной эрми- эрмитовой матрицы Л и любых множеств индексов а, р •= N. По оп- определению deM@)= 1. Доказать неравенство Адамара — Фи- Фишера, используя только неравенство Фишера и вторую формулу из п. 0.8.4. Указание. Без ограничения общности можно считать, что a U Р = jV; применить неравенство Фишера к A-l(a'\}f>'), a затем @.8.4) к каждому минору. 15. Использовать тот факт, что положительно определенная эрмитова матрица Л может быть представлена в виде Л = LU, где L — невырожденная нижняя треугольная матрица (см. следствие 7.2.9), для прямого доказательства неравенства Ада- Адамара— Фишера G.8.9). Указание. Не теряя общности, можно считать, что а ={1, ..., k) и р ={1, ...,/, k + 1, .... «}, где 1 ^ / < k < п. Рассмотреть одинаковое блочное ЗХЗ-разбие- ние матриц Л и L.
574 Гл. 7. Положительно определенные матрицы ¦ 16. Пусть А^Мп — положительно определенная матрица. С помощью неравенства Адамара —¦ Фишера показать, что ге-1 П det А ({(, I + \}) га-1 17. Пусть матрица Л е М„ положительно определена. По- Показать, что ( п detA = mini YL v*iAv,: {v>, ..., vn) — ортонормированный базис пространства С1?. Указание. Положить V = [v\ ... vn]^Mn и применить теорему 7.8.1 к матрице Is V*AV. 18. Пусть А<=Мп — положительно определенная матрица, и пусть {«1, ..., ип}^Сп — ортонормированная система. Опи- Опираясь на задачу 17, показать, что {ии •••> Un}—система соб- собственных векторов, а числа {и*Аии ..., и"пАип} суть соответ- соответствующие собственные значения матрицы А, если п det А = П iiiAiii и только в этом случае. 19. Пусть матрица А<=Мп положительно определена. Пока- Показать, что rt (det ЛI/п = min {tr AB: B^Mn,— положительно определенная матрица и det 6=1}. Указание. Представить Л в виде А = UAU*, где Л = diag(>»i,.., ..., Кп), все Я,-> 0 и U е Мп — унитарная матрица; тогда tr AD = tr(AU*BU). Использовать неравенство между арифме- арифметическим и геометрическим средними и неравенство Адамара из теоремы 7.8.1 для обоснования соотношений \/П / П Nl/fl (Ш) >[detA]lln. Равенство в них возможно. 20. Квазилинеаризацию, полученную в задаче 19, использо- использовать для доказательства неравенства Минковского из теоремы 7.8.8.
7.8. Неравенства для положительно определенных матриц 575 21. Представим положительно полуопределенную матрицу. А е Мп в следующей блочной форме: А Г ап х' 1 ^L х А]' Используя задачу 18 из § 7.2 и формулу приведения для опрс делителя из задачи 15 § 4.1, показать, что det А = аи det Л — х* (adj А) х < ап det A. Рассуждая по индукции и привлекая это неравенство, дать дру- другое доказательство неравенства Адамара из теоремы 7.8.1. Дополнительная литература По поводу добавочной информации относительно теоремы 7.8.7 см. работу: Ostrowski A. M., Taussky О. On the Variation of the Determinant of a Positive Definite Matrix. — Proc. Kon. Nederl. Acad. Wetensch. Amsterdam. Ser. A, 1951, v. 54, p. 383— 385. В статье: Schur I. Uber endliche Gruppen und Hermitesche Formen. — Math. Z., 1918, B. 1, S. 184—207, можно познако- познакомиться с классом неравенств, связывающих определитель мат- матрицы А с другими обобщенными матричными функциями (см. 0.3.2) в случае положительно определенной матрицы А; эти неравенства также обобщают неравенство Адамара из тео- теоремы 7.8.1.
Глава 8 НЕОТРИЦАТЕЛЬНЫЕ МАТРИЦЫ 8.0. Введение Предположим, что имеется п ^= 2 городов Си ..., Сп и между ними население мигрирует следующим образом: для всех i Ф j одновременно в 8 часов каждое утро одна и та же часть ац населения города / переезжает в город i, а часть ац населения города / остается в городе /. Таким образом, если pi обозначает население1) города i на т-й день, то мы имеем рекуррентное соотношение +...+а1прТ\ /=1 л, т = 0, 1, .... связывающее распределения населения на m-й и т+ 1-й дни. Из коэффициентов миграции составим п X «-матрицу А = = [ац], образуем также вектор распределения населения р{т) = = [Л Тогда где р<0' — начальное распределение населения. Поскольку коэф- п фициенты ац указывают доли населения, 0 ^ ац ^ 1 и 2]й//== = 1 для всех / = 1, ..., п. Чтобы строить разумные долгосрочные планы развития го- городского сервиса и капитальных вложений, органам управле- управления хотелось бы знать, каким образом общее число жителей п р== Хрг будет распределено в достаточно далеком будущем; другими словами, представляет интерес асимптотическое пове- поведение вектора р(т> при больших т. Так как /?(m) = Amp^\ оче- очевидно, нужно исследовать асимптотическое поведение мат- матрицы Ат. В качестве примера рассмотрим детально случай п = 2. ') Для определенности можно условиться, что все переезды завершаются, например, к полудню и число жителей m-го дня определяется, скажем, в пол- полдень. При этом по дороге никто не теряется и в этой стране отсутствует смертность и рождаемость — Прим. перев.
8.0. Введение 577 Имеем аи + a2i = 1 = аи + а2г и, положив a2i = a и а12 = р, получаем А _Г1-а р I L а 1 — Р J* Нас интересуют степени Ат при больших т. Если матрица А диагонализуема, то матрицу Ат можно найти в явном виде. Начнем с того, что вычислим для А собственные значения: Я,2 = 1 и li = 1— а — р. Так как 0 < а, р < 1, то К2 = 1 ^ ^|A,i| = |l— а —13|, так что 1 =\Х2\~ р(А), т. е. спектраль- спектральный радиус матрицы А равен ее собственному значению. Более того, за исключением тривиального случая а = Р = 0 (когда А" разложима), собственное значение^ = р(А) является простым. Если a-(-р =^= 0, то матрица А имеет собственные векторы х = [р, а] Т и г = [1,—\)т, отвечающие соответственно Х2=\ и А,1. Понятно, что А в этом случае диагонализуема. Получаем А =» SAS-1, где 1 5Г 1-a-pJ' ^ La - Заметим, что компоненты собственного вектора х неотрица- неотрицательны, а если А неразложима, то они положительны. Если а и р не равны одновременно 1,то|?ц| = |1 — a — f4<l и потому ЯГ->0 при пг->оо. Таким образом, в этом случае Г 1 ОТ , Г В lim Am = S(lim Am)S-^S \ 5 = —^ „,^00 тих» L О О J a + PLa и как следствие равновесное распределение населения имеет, вид М01! р Обратим внимание на то, что равновесное распределение совер- совершенно не зависит от начального распределения. Матрица Ат стремится к предельной матрице со столбцами, пропорциональ- пропорциональными собственному вектору х, отвечающему собственному зна- значению 1 (которое равно спектральному радиусу матрицы Л), и предельное распределение пропорционально тому же самому вектору. Два особых случая, не разобранные выше, легко анализи- анализируются по отдельности. Если a = Р = 0, то А = /, lim Ат = / т->оо и lim -pM = pW, так что предельное распределение оказы- вается зависящим от начального распределения. 19 Р. Хорн, Ч. Джонсон
578 Гл. 8. Неотрицательные матрицы Если а = р = 1, то Л = [[ д] и два города каждый день обмениваются всеми своими жителями. Степени матрицы А не стремятся ни к какому пределу, то же относится и к распре- распределению населения, если с самого начала города имели разное число жителей. Однако достигается в некотором смысле «сред- «среднее равновесие», а именно , f Г 0,5 0,51 , « im — > А4 = п _. „ - , im — > рт — „,_»«, «^ L 0,5 0,5 J ^„«^ Итак, в этом примере мы выяснили, что р(Л)=1 и спра* ведливы следующие предложения: 1. Спектральный радиус р(Л)=1 равен именно собствен- собственному значению матрицы А, а не просто модулю какого-то ее собственного значения. 2. Собственный вектор х, отвечающий собственному значе- значению р(А), можно выбрать так, чтобы у него были неотрица- неотрицательные компоненты, которые будут положительными, если А неразложима. 3. Если все элементы матрицы А положительны, то р(А) является простым собственным значением, строго большим по модулю, чем остальные. 4. Если все элементы матрицы А положительны, то lim [A/p(A)]m существует и это есть матрица ранга 1 со столб- цами, пропорциональными собственному вектору х. ~ т 5. Во всех случаях существует lim A/m) X (A/p(A))k, т->оо k = l В действительности эти выводы в основном остаются в силе и при п ^= 2, но общий случай уже не удается исследовать с помощью той простой техники, которая применялась выше. При га ^= 2 диагонализуемость матрицы А совсем не обязательна, даже если все элементы в А положительны. Необходима новая техника исследования, которая и будет развита в этой главе. Задачи 1. Показать, что для матрицы А = [0 "] спектральный ра- радиус равен 1, но степени Ат не ограничены при т->оо. 2. Рассмотреть матрицу J 1+ e 1+e J е>0.
8.1. Неотрицательные матрицы — неравенства 579 (a) Доказать, что Яг = 1 есть простое собственное значение для Ле, Р(Л) = Я2 = 1 и 1 >\h\. (b) Доказать, что векторы III lim л 1 + е являются собственными векторами соответственно для ЛЁ и Ае, отвечающими собственному значению Я = 1. (c) Найти А™ в явном виде (т=\, 2, ...). (d) Показать, что ~ 2 Le I J- (e) Вычислить хуТ и прокомментировать. (f) Что будет при е->0? Указание. Образовать матрицу Ве =A + е)Л8 и диагонализовать ее по аналогии с тем, как это делалось в тексте. 3. Что означает неразложимость матрицы коэффициентов междугородней миграции? Рассмотреть общий случай и интер- интерпретировать неразложимость в терминах свободы передвиже- передвижений для населения. 4. Показать, что для рассмотренного в этом параграфе слу- случая двух городов предел lim I — X Ak ! существует, если m-x» \ m k = l J ос —Р = 0 либо а + C=^=0. Каким он будет в каждом из этих двух случаев? Пополнительная литература Весьма обширный материал о свойствах положительных и неотрицательных матриц вместе с многочисленными указаниями по вопросам теории и приложений см. в [ВР1] и [Sen]. В [Var] есть обзор результатов, относящихся к неотрицательным матри- матрицам, — с особым акцентом на применениях в численном ана- анализе. 8.1. Неотрицательные матрицы — неравенства и общие замечания Пусть В ==¦ [Ьц\ е Мл> т и А = [ац] е Мп> г. Будем писать В ^ 0, если Ъц ^ 0 для всех /, /; В > 0, если Ьц > 0 для всех /, /; Л ^ В, если А — В^О; А> В, если А — В > 0. Противоположные отношения ^ и '< определяются сход- сходным образом. По определению |-^l^[|a</|b Матрица Л назы- 19*
580 Гл. 8. Неотрицательные матрицы вается неотрицательной, если А ^ О, и положительной, если Л > 0. Ниже приводятся простые факты, немедленно вытекаю- вытекающие из определений. Упражнение. Пусть А, В^Мп,г. Доказать следующие пред- предложения: (8.1.1) |Л|^гО для всех А; |Л| = 0 тогда и только тогда, когда А = 0. (8.1.2) |йЛ| = 1а||Л| для всех аеС. (8.1.3) |Л + 5|<|Л| + |5|. (8.1.4) Если Д^О и АфО, то это еще не означает, что А > 0, если хотя бы одно из чисел п или г больше 1. (8.1.5) Если Л>0, В>0 и а, &>0, то аЛ + 6В>0. (8.1.6) Если Л>В и C>D, то Л + OB + D. (8.1.7) Если Л>В и В>С, то Л>С. Упражнение. Теперь предположим, что А, В, С, DeM, и х, у е С". Доказать следующие предложения: (8.1.8) \Ах\^\А\\х\. (8.1.9) |ЛЯ|<|Л||В|. (8.1.10) |Лт|<|ЛГ для всех т=1, 2 (8.1.11) Если 0<Л<В и 0<C<D, то 0<ЛС<ВО. (8.1.12) Если 0<Л<В, то 0<Л"г<В'п для всех от = = 1, 2, .... (8.1.13) Если Л>0, то Лт>0; если Л > 0, то Ат > 0 для всех т= 1, 2 (8.1.14) Если Л>0, х>0 и хфО, то Лд: > 0. (8.1.15) Если Л>0, л;>0 и Лх = 0, то Л = 0. (8.1.16) Если | Л К | В |, то ||Л||Я<||В||Я. (8.1.17) !|Л!|? = |||Л||]?. Очевидно, что последние два утверждения имеют место по отношению к любой абсолютной норме, и евклидова норма, или норма Фробениуса (/2-норма) есть только один из примеров. Первое приложение этих простых соотношений — получение не- неравенств, оценивающих спектральные радиусы. 8.1.18. Теорема. Пусть А, В<=Мп. Если |Л|<В, то (И|)(Д Доказательство. Согласно (8.1.10) и (8.1.12), для всех пг = = 1, 2, ...имеем |Лт|<|Л |m < Bm. Далее, в силу (8.1.16) и (8.1.17) =1> 2>
8.1. Неотрицательные матрицы — неравенства 581 В пределе при т-*-<х>, используя E.6.14), получаем ^(|Л|)(В) ? 8.1.19. Следствие. Пусть А, В<=Мп. Если Ог^Л<В, то р(Л)<р(В). 8.1.20. Следствие. Пусть А^Мп и А^О. Если К — произ- произвольная главная подматрица в А, то р(А)^р(Л). В частности, ^(A) max a 1Ы п Доказательство. Пусть 1 sjr <д и А обозначает какую-то главную г X /"-подматрицу в А. Рассмотрим также матрицу Л —¦ ее размер лХя и она получается из А заменой на нули всех элементов, не входящих в А, причем элементы, принадлежащие Л, остаются неизменными на своих местах. Тогда р(Л)=р(Л) и 0 <: Л < Л; стало быть, р (Л) = р (Л) <! р (Л) в силу след- следствия 8.1.19. ? Нижняя оценка аи^р(А), установленная этим след- следствием,— это первая нетривиальная оценка спектрального ра- радиуса не обязательно эрмитовой матрицы. Впрочем, неотрица- неотрицательность матрицы Л существенна. Упражнение. Построить матрицу, которая подобна матрице [о о] и ие имеет нулевых элементов. Каков ее спектральный ра- радиус? Будет ли она неотрицательной? Как это связано с по- последней частью следствия 8.1.20? Упражнение. Показать, что если А, В^Мп и О^Л < В, то р(Л) < р(В). Указание. Существует а > 1, такое, что 0 ^ А ^ ^ аА < В. Далее при р(А)Ф0 использовать следствие 8.1.19, а при р (Л) = 0 —следствие 8.1.20, примененное к матрице В. Мы скоро получим довольно хорошие верхние оценки для спектральных радиусов неотрицательных матриц, и тогда тео- теорема 8.1.18 позволит установить верхние оценки спектральных радиусов для произвольных матриц. 8.1.21. Лемма. Пусть А<=Мп, и предположим, что А ^ 0. Если строчные суммы для А постоянны, то р(Л) = ||Л||оо. Если для А постоянны столбцовые суммы, то р(А)=\\А\\\. Доказательство. Как известно, р(Л)г?Г||Л|| для любой мат- матричной нормы ||-1|. Если же строчные суммы постоянны, то х = [1, ..., 1]Г есть собственный вектор, отвечающий собствен- собственному значению ЦЛЦро, и потому р(Л)==||Л|и. Рассматривая столбцовые суммы, можно использовать те же доводы, приме- примененные по отношению к Ат. ?
582 Гл. 8. Неотрицательные матрицы 8.1.22. Теорема. Пусть ДеМл, и предположим, что Л^О. Тогда п п min J]c;«<p(/l)<max 2 «//. (8.1.23) п п min ? ai;<р(Л)< max ? аG. (8.1.24) п Доказательство. Положим а= min /_, аи и построим новую 1<г<л /1 матрицу В, такую, что Л^В^О и 2^г/ —а Для всех i = l, 2, ..., п. Например, при а = 0 полагаем В = 0, а если а > О, то можно взять = aaiA Yj atl\ . По лемме 8.1.21 819 В и р(В)^р(Л) согласно следствию 8.1.19. Верхние оценки уста- устанавливаются в том же духе. Оценки со столбцовыми суммами для матрицы Л вытекают из оценок со строчными суммами для матрицы Ат. ? Упражнение. Доказать верхние оценки теоремы 8.1.22. п 8.1.25. Следствие. Пусть Ае.Мп. Если Л^О и 2 Щ] > О для всех /=1, 2, ..., п, то р(Л)>0. В частности, р(Л)>0, если А > 0 или если А неразложима и неотрицательна. Упражнение. Показать, что неразложимая матрица не мо- может иметь нулевую строку или нулевой столбец. Поскольку рE-1Л5) = р(Л) для любой невырожденной мат- матрицы S, полученную выше теорему можно обобщить за счет введения некоторых свободных параметров. Если S = = diag(%i, ..., хп) и xt¦ >¦ 0 для всех i, то S^AS ^ 0 при Л ^= 0. Теорему 8.1.22 применим к матрице S~ AS=[ailxjxTl] и получим следующий более общий результат. 8.1.26. Теорема. Пусть А^Мп, и предположим, что А ^ 0. Тогда для любого положительного вектора ^еС* справедливы неравенства min ~- E atjXj<р(Л)< max — 2 %*/, (8-1 -27) л п min х, У — <р(Л)< maxx, Y^L. (8.1.28)
8.1. Неотрицательные матрицы — неравенства 533 8.1.29. Следствие. Пусть А еМ», JceR", и предположим, что А ^ 0 и х > 0. Если числа ос, р ^ 0 таковы, что ах ^ Ах ^ fix, то а=^р(Л)<р. Если ах<.Ах, то а<р(Л); если Ах < 0я, го р(Л)<р. Доказательство. Если ах^Лх, то о< min хГ1 2 аих,, и по теореме 8.1.26 а ^ р(Л). Если ах <Z.Ax, то для какого-то а' > а имеем а'х^.Ах. В этом случае р(Л)^сс'>а, так что р(А)>-^ > а. Верхние оценки проверяются аналогично. ? Упражнение. Завершить доказательство следствия 8.1.29. 8.1.30. Следствие. Пусть А^Мп, и предположим, что мат- матрица А неотрицательна. Если А имеет положительный собствен- собственный вектор, то отвечающее ему собственное значение есть р{А); другими словами, если Ах = Хх, х^>0 и А ^ 0, то Х = р(А). Доказательство. Если х > 0 и Ах = Хх, то X ^ 0 и Хх ^ < Лх < h, но тогда, согласно следствию 8.1.29, X ^ р(А)^. < А,. ? 8.1.31. Следствие. Пусть А^Мп, и предположим, что мат- матрица А неотрицательна. Если А имеет положительный собствен- собственный вектор, то п п р(Л) = тах min — ? аг/Х/ = тт max — Yuauxi- (8.1.32) х>0 l<i<« ' /-1 х>0 1<<<л *' /=1 Упражнение. Доказать предыдущий результат. Использовать неравенства (8.1.27), записанные для положительного собствен- собственного вектора х. 8.1.33. Следствие. Пусть А^Мп. Предположим, что мат- матрица А неотрицательна, и рассмотрим степени А = [й!™']- Если А имеет положительный собственный вектор х, то для всех m = 1,2, ...и для всех i = 1, ..., п max [min Xk I max Xk I В частности, если р(Л)>0, то элементы матрицы [р(Л)-'Л]' равномерно ограничены при m = 1, 2, ... »
584 Гл. 8. Неотрицательные матрицы Доказательство. Пусть Ах — р(А)х. Тогда Amx = p(A)mx. Если А :=г 0, то и Ат ^г 0. Для всех i = 1, 2, ,.., п р (А)т max xk > р (Ат) х, = IАтх\ = ? <$% >( min xk) ? с§\ Чтобы получить искомую верхнюю оценку, нужно выполнить де- деление, и это можно сделать, так как х > 0. Аналогично для всех i = 1, • ¦., п п п р(л"") min xk^.p(A)mXi — [Amx]i= 2j aff)xj^.(rmax xk) 2 af™\ Так как х > 0, можно выполнить деление, после чего получаем искомую оценку. Задачи 1. Доказать, что если Л^О и Л*>0 для некоторого k, то 0 ) 2. Привести пример 2Х2-матрицы А, такой, что Л^О и Л2 > 0, хотя А не является положительной. 3. Предположим, что А ^ 0 и Л =т^= 0. Доказать, что если Л имеет положительный собственный вектор, то р(Л)>0. 4. При р(Л)< 1, как известно, Лт->0 при т->оо. Исполь- Используя следствие 8.1.33, доказать, что если Л^О и Л имеет поло- положительный собственный вектор, то \Ат\^ р(А)тС(А) для всех т = \, 2, ..., где С(А) есть постоянная матрица. При этом условие насчет существования положительного собственного вектора не может быть опущено —показать это, рассмотрев матрицу А = [о |]. Оба этих результата обсудить в свете след- следствия 5.6.13. 5. Доказать, что если матрица Л^О имеет положительный собственный вектор, то она подобна какой-то неотрицательной матрице с одинаковыми строчными суммами. Чему равны эти суммы? Указание. Использовать замечания, предваряющие тео- теорему 8.1.26. 6. В § 8.4 будет доказано, что у любой неотрицательной неразложимой матрицы обязательно найдется положительный собственный вектор. Показать, что неотрицательная матриц;!, будучи разложимой, также может иметь положительный соб- собственный вектор. 7. Пусть матрица A = [aij]e Мп неотрицательна и обладает положительным собственным вектором дс = [л;/]. С помощью
8.2. Положительные матрицы 585 следствия 8.1.33 доказать следующие соотношения: Г min xk-\ (a) irp(A)m\ 'g^f < max a%\ i=\, 2, ...,«; n i max Xk i i<p</i [n ~U//re Хб(Л =р(А), i=l, 2, ..., n. p=i J Здесь используется обозначение Лт = [a'//1']» tn=\, 2, .... 8.2. Положительные матрицы Теория неотрицательных матриц приобретает простейшую и наиболее элегантную форму для положительных матриц. Имен- Именно к этому случаю относятся фундаментальные результаты, по- полученные в 1907 г. О. Перроном. 8.2.1. Лемма. Пусть А^Мп, и предположим, что А > 0, Ах = Кх, хфО и |Я| = р(Л). Тогда А\х\= р(А)\х\ и |х|>0. Доказательство. Находим так что у == А\х\— р(А) \х\ ^ 0. Поскольку \х\^0 и хфО, согласно (8.1.14), Л|х|>0. Следствие 8.1.25 также гаранти- гарантирует, что р(Л)>0. Поэтому если у = 0, то А\х\ = р(А) \х\ и \х\= р(А)~1А \х\ > 0. Если у=фО, положим г = Л|л;|>0 и, вновь согласно (8.1.14), получаем О < Ау = Az — р (А) г, или Az > р (А) г, откуда, опираясь на следствие 8.1.29, выводим неравенство р(Л)>р(Л), которое выполняться не может. Значит, у = О, что и требовалось доказать. ? На базе этого утверждения технического характера мы лег- легко установим первый принципиальный результат, относящийся к положительным матрицам. 8.2.2. Теорема. Пусть А е Мп, и предположим, что А поло- положительна. Тогда р(Л)>0, р(А)— собственное значение для А и существует положительный вектор х, такой, что Ах — р{А)х. Доказательство. Рассмотрим собственное значение %, такое, что |Я| = р(Л)>0, и отвечающий ему собственный вектор jc =т^= 0. По лемме искомым вектором будет \х\. ?
586 Гл. 8. Неотрицательные матрицы Упражнение. Используя следствие 8.1.31, доказать, что если А е= Мп и А > 0, то п п 1 V • 1 V — шах rriin — /, UiiXi — пни пых ~— /, anXi. x>0 KK/i Л< /=1 д:>0 Несколько усилив утверждение леммы 8.2.1, можно продви- продвинуться в изучении расположения собственных значений мат- матрицы А. 8.2.3. Лемма. Пусть А е Мп, и предположим, что А > О, Ах = %х, х ф 0 и | А, | = р (Л). Тогда для некоторого 9eR имеем Доказательство. Согласно условиям леммы, |Лх| = |Lv| = = р(Л)|х| и по лемме 8.2.1 Л jx| ='р(Л) jx| и |х|>0. С уче- учетом этих двух равенств и неравенства треугольника для всех k = 1, ..., п находим . , -I ukpAp п п / I о>ь 11 х [ — / аь I х I:==z о (Л) I Хь I Таким образом, в неравенстве треугольника достигается равен- равенство, и, следовательно, комплексные (ненулевые) числа акрхр (р = 1, ,.., п) расположены в комплексной плоскости все на одном и том же луче. Обозначив их общий аргумент через 0, получаем е~такрхр > 0 для всех р=1, ••-, п. Поскольку аир > 0 для всех k, р, имеем е~шх > 0. D 8.2.4. Теорема. Пусть матрица А е Мп положительна. Тогда любое собственное значение А,=т^р(Л) удовлетворяет неравен- неравенству |Я,|<р(Д). Доказательство. По определению |Я,|^р(Л) для всех соб- собственных значений К матрицы А. Предположим, что |А,| = р(Л) и Ах = Хх, хфО. Согласно лемме 8.2.3, Aw = Kw, где w — = е~'ех > 0 для какого-то 9eR. Отсюда, опираясь на след- следствие 8.1.30, получаем К = р(А). О Теперь мы знаем, что если А > 0, то р(А) является соб- собственным значением для матрицы А, которое по модулю строго больше, чем любое другое ее собственное значение. Следую- Следующий результат утверждает, что р(Л) есть собственное значе- значение геометрической кратности 1 (т. е. собственное подпростран- подпространство, отвечающее р{А), имеет размерность 1). В действитель-
' 8.2. Положительные матрицы 5Й7 ности вскоре мы увидим, что и его алгебраическая кратность также равна 1. 8.2.5. Теорема. Пусть А <= Мп, и предположим, что А > 0 а векторы w, z ненулевые и такие, что Aw = p(A)w, Az =• р(Л)г, 'Тогда для какого-то а е С имеем w = az. Доказательство. Согласно лемме 8.2.3, существуют вещест- вещественные числа 8! и 82, такие, что p = e~ie'z> 0 и q = e~ie-w > 0. Положим Р= min q^T1 и образуем вектор r^sq — fip. Заме- тим, что г^Ок хотя бы одна из координат вектора г равна О, так что г не является положительным вектором. В то же время Аг = Aq — fiAp = p(A)q — рр(Л)р = р(А)г, поэтому если гфО, то, согласно (8.1.14), г = р(А)~1Аг > 0. Поскольку это неверно, заключаем, что г = 0, и, следовательно, q = $р и ш =• п=ре-'(в.-в,)г. а 8.2.6. Следствие. Пусть А е Мл, и предположим, что А > 0. Существует единственный вектор х, такой, что Ах = р(А)х, п х > о и 22 jc, = 1. Упражнение. Доказать следствие 8.2.6. Единственный нормированный собственный вектор, опреде» ленный в следствии 8.2.6, часто называется перроновым вектО' ром матрицы Л, а число р(А) — перроновым корнем матрицы А. Конечно, матрица Ат будет положительной, если А положи- положительна, и поэтому все полученные выше результаты справед- справедливы и по отношению к Ат. Перронов вектор для Ат называется левым перроновым вектором матрицы А. Упражнение. Пусть А е Мп и А > 0. Доказать, что если для какого-то вектора леС" справедливы соотношения х ^ О, O и Ах = %х, то х есть кратное перронова вектора для А и Мы заинтересованы в изучении поведения степеней Ат при га->оо, потому что эти степени приходится рассматривать в связи с вопросами численного анализа и теории цепей Маркова (в теории вероятностей). В следующей лемме выделяются тре- требования, существенные для различных предельных теорем, от- относящихся к неотрицательным матрицам. Заметим, что все эти предположения выполняются в случае Л > 0 и Х = р(Л). 8.2.7. Ле?.гг,:а. Пусть заданы матрица /1g",, и число 1еС Придполоо.сим, что векторы х и у удовлетворяют условиям
588 Гл. 8. Неотрицательные матрицы A) Ах = Хх; B) А'у^Ху; C) д^=1. Образуем матрицу L в= хут. Тогда (a) Lx = х, yTL = ут; (b) Lm = L, m=\, 2, ...; (c) AmL = LAm = KmL, m=l, 2, ...; (d) Z, (Л — A?) = 0; (e) (Л - AL)m = A - XmL, m=l, 2, ...; (f) всякое ненулевое собственное значение для А — XL яв- является также собственным значением для А. Пусть к тому же выполняются условия ' D) X ф 0; E) X есть собственное значение для А геометрической крат- кратности 1. Тогда (g) X не является собственным значением для А — XL, так что матрица XI — (А — XL) обратима. Наконец, пусть F) |Я,| = р(Л)>0; G) X — единственное собственное значение для А с модулем р(Л). Упорядочим собственные значения матрицы А таким образом, что |?.1|<|Л2К...<|Яп_1|<|Я,„| = р(Л). Тогда (h) p(A-XL)^\Xn^\<P(A); (i) (A,-M)m = Z.+ (A,-U-Z.)m->Z. при m->oo; (j) если г — любое число, удовлетворяющее неравенству \\ Xn_i |/р(Л)] < г < 1, то для некоторого С —С {г, А) имеем \\{X~lA)m — L\\Lix><Crm при всех т=1, 2, .... Доказательство. Утверждения (а), (Ь), (с) вытекают непо- непосредственно из предположений A), B), C); согласно C) оба вектора х и у ненулевые. Предложение (d) следует из (Ь) и (с). Утверждение (е) доказывается по индукции с использова- использованием (Ь) и (с). Если матрица А — XL имеет собственное значе- значение \уфО и (A — XL)w = \iw для некоторого w Ф 0, то L{A — — XL)w = 0w = 0 = \.iLw и, следовательно, Lw — 0. Таким об- образом, (А — XL)w=Aw~\iw, т. е. [х является также собствен- собственным значением для А, и мы установили предложение (f). Теперь, если привлечь предположение D) и взять ц = X, то это рассуждение показывает, что если бы вектор w был соб- собственным вектором матрицы А — XL, отвечающим собственному значению X, то он был бы также собственным вектором мат- матрицы А, отвечающим X. Далее, опираясь на предположение E), мы должны заключить, что w=ax для какого-то афО. Но
8.2. Положительные матрицы 589 тогда \aw = Xw = (Л — XL) w = (Л — XL) ax = ocAjc — Ках = О, что невозможно, так как А, ф О и ш =^ 0. Это противоречие до- доказывает предположение (g). Вследствие утверждения (f) или р(Л — АЛ) = |А,*| для некоторого собственного значения %и мат- матрицы Л, или р(Л — A,L) = O. Однако собственные значения мат- матрицы Л упорядочены по неубыванию модулей и |А,П| = |Я| = = р(Л). Поэтому в обоих случаях с учетом (g) находим р(Л — A,L)^|A.n_i|. Таким образом, неравенство в (h) есть пря- прямое следствие предположения G). Комбинируя (h) и (е), легко вычислить, что (АНЛ — L)m = (АНЛ)т — L-*~0 при m-»-oo, так как р(АНЛ — L)= р(Л — А,Л)/р(ЛХ|Яя-1|/р(Л)< 1. Оценка скорости сходимости в (j) непосредственно вытекает из след- следствия 5.6.13, примененного к матрице Кг1 А — L с выбором та- такого числа е, что р(АНЛ — L)+ е < [ j Xra_i I /p (Л) ] + е < г < 1. Упражнение. Продумать детали доказательства предложений г(а), (Ь) и (с). 8.2.8. Теорема. Пусть А е М„, и предположим, что А > 0. Тогда lim [p (Л) A]m = L, т-»оо еде L = xyT, Ах = р(А)х, АТу = р(А).у, х>0, у > 0, хту = 1. Доказательство. Если А = р(Л), х — перронов вектор мат- матрицы Л и у =(xTz)~lz, где z — перронов вектор матрицы Ат, то для них выполняются предположения A) — G) леммы 8.2.7. Предельное соотношение следует из утверждения (i). D 8.2.9. Следствие. Если А^Мп и Л > 0, го L== lirn [р(Л)~1Л]"!— m-*oo положительная матрица ранга 1. 8.2.10. Теорема. Если А^Мп и А > 0, то р(А) есть соб- собственное значение алгебраической кратности 1; другими сло- словами, р(Л) — это простой корень характеристического уравне- уравнения рА @ — 0. Доказательство. Согласно теореме Шура о триангуляриза- цни (теорема 2.3.1) запишем А = UAU*, где U—-унитарная, а Л — верхняя треугольная матрицы с диагональными элементами р, ..., р, Хь+\, ..., К, где р = р(Л) — собственное значение алгебраической кратности k~^\; при i = k-{-\, ..., п соб- собственное значение Я. по модулю строго меньше р(Л). В этом
590 Гл. 8. Неотрицательные матрицы случае получаем L— lim lim 0 p - ?/* = = и о о и\ где в последних двух выражениях диагональный элемент I пов- повторяется k раз, а элемент 0 на диагонали в последнем выра- выражении повторяется п — k раз. Верхняя треугольная матрица в последнем выражении имеет ранг не меньше k, и, так как для L ранг равен 1, случай k > 1 невозможен. ? Теперь соберем вместе основные факты, установленные в этом разделе в отношении положительных матриц. 8.2.11. Теорема (Перрон). Если А^Мп и А > 0, то (a) р(Л)>0; (b) р(А) есть собственное значение матрицы А; (c) для какого-то хеС имеем х > 0 и Ах = р(А)х; (d) р(Л) есть алгебраически (а значит, и геометрически) простое собственное значение для А; (e) | Л| < р(Л) для всякого собственного значения % ф- р(Л); другими словами, только одно собственное значение, равное именно р(А) имеет максимальный модуль; (I) если пг->оо, то (р(Л) A)m-*L, где L^xyT, Ax = p(A)x, {А), х>0, у>0 и хту—\.
r 8.2. Положительные матрицы , 591 Теорема Перрона имеет много приложений. Одно из них — элегантное и полезное — связано с указанием области, содер- содержащей собственные: значения матрицы А, с использованием спектрального радиуса и диагональных элементов некоторой оценивающей сверху неотрицательной матрицы. 8.2.12. Теорема (Фань Цзы). Пусть Л = [а,-,] <= М „, и предпо- 'ложим, что матрица В = [&;/] еМ„ имеет неотрицательные эле- элементы и В^\А\. Тогда любое собственное значение матрицы А принадлежит области Доказательство. Будем считать, что В > 0. Если какие-то элементы в В равны нулю, то можно рассмотреть матрицу Ве==[Ьц + е], где е > 0. При этом Ве>|Л| и р(Ве) — — (Ьц + е)->- р(В)-—Ьц при е->-0. По теореме Перрона для ка- какого-то положительного вектора х имеем Вх=* р(В)х и, следо- следовательно, п п ? | аИ | х, < Е bijXj = р (В) х{ — Ьцх{, /=1, ..., я. Таким образом, — Е \ail\xI^p(B)-bii, /=1, 2, .... п и остается обратиться к следствию 6.1.6 с pt = xt. ? Утверждение (f) из теоремы 8.2.11 гарантирует существова- существование определенного предела, а утверждение (j) из леммы 8.2.7 дает верхнюю оценку скорости сходимости где С — некоторая положительная постоянная, зависящая от А и г, и при этом где Хп-\ — второе по величине модуля собственное значение матрицы А. Даже в том случае, когда р(А) известно или легко оценивается, может оказаться неудобно или невозможно вы- вычислить или оценить |An_][, для того чтобы получить приемле- приемлемую оценку отношения \Xn-i\/p{A). В такой ситуации полезно иметь в виду легко вычисляемую оценку, предложенную Хоп-
592 Гл, 8. Неотрицательные матрицы фом и справедливую для любой положительной матрицы А = = [aii] s Mn, а именно Un-il ^ М — ц . р(Л) ^ М + ц ^ '• где М — тах{а{,: i, } = 1, 2, ..., п) и n = min{%: г, / = = 1, 2 «}. Задачи 1. Пусть А > О, л: — перронов вектор матрицы Л и z— пер- перронов вектор матрицы АТ. Доказать, что xTz > 0. 2. Доказать, что если АеМ» — верхняя треугольная мат- матрица, имеющая k ненулевых диагональных элементов, то rank А ^й. Показать на примере, что при этих условиях ранг может быть и больше чем k. 3. Теорию, развитую в этом параграфе, применить к мат- матрице 1 — а р а l-p и сравнить с выводами, полученными в § 8.0. 4. Рассмотреть модель миграции населения, описанную в § 8.0, в общем случае п > 2 городов. Пусть все коэффициенты миграции ац положительны. Каково асимптотическое поведение вектора распределения населения /?(т> при пг-*- оо? 5. Пусть А > 0. Подробно описать асимптотическое поведе- поведение матрицы Ат при т-*-оо. Указание. Есть три случая: Л ->0, Ат расходится и Л сходится к какой-то положительной мат- матрице. Охарактеризовать и исследовать каждый из этих случаев. 6. В упражнении после следствия 6.1.8 рассматривается не- некоторая положительная 2Х2-матрица. Обсудить этот пример в свете упражнения, следующего за теоремой 8.2.2, 7. Пусть Л, fie Мп и Л > В > 0. Используя минимаксную характеризацию р(В), доказать неравенство р(Л)>р(В). Ука- Указание. Если х — перронов вектор для Л, то Ах > Вх. 8. Доказать, что если Л>0 и х — перронов вектор для Л, jo п РD>= X! atjx}. Напомним, что по определению х{-\- ... -f *„= 1. 9. Показать, что если положительная матрица невырожден- на, то обратная к ней матрица не может быть неотрицатель- неотрицательной. Доказать, что если неотрицательная матрица Л невырож- денна, то обратная к ней матрица может быть неотрицатель-
8.3. Неотрицательные матрицы 593 ной только в том случае, когда в А имеется в точности по од- одному ненулевому элементу в каждой строке и в каждом столб- столбце. Каким образом такая матрица связана с матрицей переста- перестановки? 10. Продумать детали следующего иного доказательства тео- теоремы 8.2.10. Если р —р(Л) имеет алгебраическую кратность k > 1 и у и л; —соответственно левый и правый перроновы век- векторы матрицы Л, то для какого-то ненулевого вектора z имеем x — (A — pI)z. Но тогда утх = ут (А — р/) г = QTz = 0, что не- невозможно, так как утх > 0. Указание. Поскольку р имеет гео- геометрическую кратность 1, жорданова форма для А — р/ обла- обладает в точности одним ннльпотентным блоком, и его порядок не меньше 2. Показать, что любая ннльпотентная матрица В е МГг (k~>\) ранга k—1 такова, что если Ви = 0 для не- некоторого и е Сй, то найдется вектор v e С*, для которого Bv = u. Дополнительная литература Унифицированное изложение семейства оценок, включаю- включающего оценку Хопфа, упомянутую в последнем разделе этого па- параграфа (и обширную библиографию), см. в работе: Roth- blum U., Tan С. Upper Bounds on the Maximum Modulus of Subdominant Eigenvalue of Nonnegative Matrices.— Linear Algebra Appl., 1985, v. 66, p. 45—86. См. также теорему 2 из гл. II в [Kel]. 8.3. Неотрицательные матрицы На практике приходится встречаться и с неотрицательными матрицами, не являющимися положительными. Поэтому тео- теорию, развитую в предыдущем параграфе, необходимо попытать- попытаться распространить на случай, когда не все элементы матрицы строго положительны. Вообще говоря, можно рассчитывать на то, что это удастся сделать с помощью подходящего предель- предельного перехода. Для отдельных результатов так оно и есть, од- однако, увы, таким величинам, как ранг или размерность, непре- непрерывная зависимость не свойственна, и поэтому возможности предельного перехода оказываются ограниченными. Те утверж- утверждения теоремы Перрона, которые сохраняют силу при переходе к пределу, содержатся в следующей теореме. 8.3.1. Теорема. Если А е М„ и А ^ 0, то р(А)—собственное значение для А и существует неотрицательный вектор х ^ 0, х ф 0, для которого Ах = р (А) х. Доказательство. Для любого е > 0 определим матрицу А (г) = [ctij + е] > 0. Обозначим через х(е) перронов вектор
594 Гл. 8. Неотрицательные матрицы для Л(е), так что х(е)>0 и ^ х(е){==1. Так как множество (=1 векторов {*(е): е > 0} содержится в компактном множестве {х: хеС", lUlh^ 1}, для некоторой монотонно убывающей по- последовательности 8i, 62, ... имеем lim efe = 0 и при этом суше* ствует предел lim x (гк) == х. Вследствие неравенства выполняющегося для всех k = \, 2, ..., х= lim х{гк)^0', ра« венство х = 0 невозможно, потому что п п X! xt = lim 2 * (Sfc)i = Ь Согласно теореме 8.1.18, для всех k — l, 2, ... получаем р(Л (ед,)) ^р(А (eft+1))^ . .. ^р(Л), т. е. последовательность ве- вещественных чисел {р(Л (eft))}ft=i, 2,... является монотонно убы- убывающей. А это обеспечивает существование предела р == е= lim р(Л(еА)) и неравенство р ^ р(Л). Теперь примем во вни- мание, что х^Ои Ах = lim Л (eft) x (eft) = lim р (Л (eft)) л; (eft) ==^ = lim р(Л(еА)) lim х(ек) = рх. Следовательно, р есть собственное значение для Л. Но тогда р ^ р(Л). Поэтому р не может быть ничем иным, кроме р = = Р(Л). ? Теперь рассмотрим некоторое частичное обобщение вариа- вариационной характеризации (лемма 8.1.31) спектрального радиуса на случай произвольных неотрицательных матриц и неотрица- неотрицательных векторов. В доказательствах, однако, не будет ничего общего. 8.3.2. Теорема. Пусть А е М„, А ^ 0, хеС" и хфО. Если Ах ^ ах для некоторого а е R, го р(Л) ^ а. Доказательство. Пусть A=[aij]. Возьмем е>0 и опреде- определим матрицу Л (е)== [ац + е]. Тогда Л(е)>0 и Л(е) имеет положительный левый перронов вектор у (г), т. е. у(г)тА(г) = = р(Л (e))i/(eO'. По условию Ах — ах ^ 0 и, стало быть, !Л(е);с — ах> Ах — ах ^ 0. Следовательно, (/(е)г [Л (е)^ — ах] = = [р(Л(е)) — а]у(г)тх>0. Так как г/(е)^>0, то р(Л(е)) — ¦—а>0 для всех е > 0. Далее, р(Л(е))->-р(Л) при е->-0; по- втому р(Л)^ а. О
8.3. Неотрицательные матрицы 595 8.3.3. Следствие. Если А е М„ и А ^ О, то р(Л) = тах min — ? аих,. Доказательство. Если Л ^ 0, х^О, х =^= 0 и если мы возь- возьмем а= min то Ах ^ ал; и по теореме 8.3.2 будем иметь а ^ р(^). В каче- качестве х можно выбрать собственный вектор —¦ тот самый, суще- существование которого устанавливается теоремой 8.3.1. В этом слу- случае, как мы видим, верхняя оценка достигается для а = р(Л). ? Упражнение. Рассмотреть Л = [д°] и * = [ij и показать, что верхняя оценка из следствия (8.1.29) не обязательно вы- выполняется, если вектор х не является положительным. Показать, что в общем случае теряет силу и минимаксная характериза- характеризация (8.1.32). Однако, согласно предыдущему результату, под- поддается обобщению максиминная характеризация. При дополнительном предположении теорему 8.3.2 можно несколько усилить за счет уточнения свойств вектора х. 8.3.4. Теорема. Пусть А е Мп и А^О. Предположим, что А имеет положительный левый собственный вектор. Если x^>zO, хфО и Ах ^ р(А)х, то Ах = р(А)х. Доказательство. Пусть у > 0 и Ату = р (А) у; предположим, что лг^йО, хфО и Ах — р (А) х ^ 0. Тогда if [Ах -р(А)х] = р (А) утх - р (Л) уЧ = 0, откуда и вытекает равенство Ах — р(Л)х = 0. ? Без каких-либо дополнительных предположений при обобще- обобщении теоремы Перрона 8.2.11 на неотрицательные матрицы мы не продвинемся дальше того, что уже установлено теоремой 8.3.1. Если А е Мп и А ^ 0, то неотрицательное собственное зна- значение р(Л) называется перроновым корнем матрицы А. Вслед- Вследствие неоднозначной определенности собственного вектора, от- отвечающего перронову корню неотрицательной матрицы, — в от- отличие от случая положительной Л—для произвольной неотри- неотрицательной матрицы нет корректно определенного понятия пер- ронова вектора. Например,для неотрицательной матрицы Л=/ всякий неотрицательный вектор является собственным векто- вектором, отвечающим перронову корню р(Л)— 1.
Гл. 8. Неотрицательные матрицы Задачи 1. Показать на примерах, что утверждения теоремы Пер- Перрона 8.2.11, за исключением того, что вошло в теорему 8.3.1, в общем случае неверны для произвольных неотрицательных мат- матриц. Указание. Рассмотреть матрицы [JJ „], [g J] и [° д]. 2. Доказать, что если А ^ О и Ak > 0 для какого-то k ^ 1, то Л имеет положительный собственный вектор. 3. Пусть матрица А ^ 0 имеет неотрицательный собствен- собственный вектор, в котором г^ 1 компонент положительны и п — г равны нулю. Доказать, что А перестановочно подобна матрице вида [о д], где В е Мг, С е Мг, „_,-, Z? е Мп-Г; при этом мат- матрицы В, С, D неотрицательные и В имеет положительный соб- собственный вектор. Отсюда следует, что при г <С п матрица А разложима. 4. Рассмотреть такое обобщение следствия 8.1.30: если А^О имеет неотрицательный собственный вектор х ^ 0, хфО, то Ах — р(А)х. Показать на примерах, что это неверно. 5. Рассмотреть матрицу А = [JJ }] и вектор х — [\,2]т. По- Показать, что теорема 8.3.4 потеряет силу, если в ней ограничить- ограничиться только условием А ^ 0. Каковы левый и правый перроновы векторы для Л? 6. Доказать, что если А ^ 0, то положительная матрица В, коммутирующая с А, существует в том и только в том случае, когда А имеет левый и правый собственные векторы, причем оба положительные. Указание. Если х и у — положительные правый и левый собственные векторы для А, то положить В—хут. Обратно, если х ^ 0 и Ах — р(А)х, то рассмотреть со- соотношения В Ах = А Вх = Вр (А) х > 0. 7. Показать, что если матрица А = [а,-/] е Мп неотрицатель- неотрицательная и трехдиэгональная, то все ее собственные значения веще- вещественны. Указание. Сначала убедиться в том, что если все эле- элементы, соседствующие с главной диагональю, положительны, то с помощью некоторой диагональной матрицы D с положительной диагональю от А можно перейти к симметричной матрице D~lAD. Затем показать, что наличие нулей по соседству с глав- главной диагональю не имеет вредных последствий для веществен- вещественности собственных значений. 8. Пусть задана неотрицательная матрица А е Мп. Пока- Показать, что либо А неразложима, либо существует матрица пере- перестановки Р, такая, что V Ах * РГАР = Lo Ak\
8.3. Неотрицательные матрицы 597 где для всех i == 1, ..., k матрица At либо неразложима, либо это есть нулевая матрица размера 1 X 1. Такое представление называется неразложимой нормальной формой матрицы А. За- Заметим, что о (А) — [J о (At) и для А нормальная неразложимая 2=1 форма не обязательно единственна. 9. Матрицу А =[ац] е Mn(R), в которой все внедиагональ- ные элементы <хц, i Ф /, неотрицательны, назовем неотрица- неотрицательной в главном. Показать, что если А неотрицательна в глав- главном, то для некоторого к > 0 получим XI + А ^ 0. Используя это наблюдение и теорему 8.3.1, доказать, что А имеет веще- вещественное собственное значение г (А) (его часто называют до- доминирующим собственным значением), обладающее тем свой- свойством, что г(А)~^ЯеХ; для всех собственных значений к; мат- матрицы А. Показать, что собственное значение г{А) является не обязательно наибольшим по модулю. Однако если А ^ 0, то г(А) = р(А). Указание. Матрица XI -f- А имеет собственные зна- значения X -f- Xt. 10. Теорема 8.1.18 утверждает, что если матрица ДеМл неотрицательна, то р(А-}-В) ^ р (А) при условии, что матрица В е Мп тоже неотрицательна — это свойство типа монотонности, относящейся к спектральному радиусу. Показать, что если мат- матрица А е М„ неотрицательна в главном (см. задачу 9), то мат- матрица А -\- D будет неотрицательной в главном для любой диа- диагональной матрицы DeMr,(R). Известно, что если А — задан- заданная неотрицательная в главном матрица и D — переменная матрица, принадлежащая классу вещественных диагональных матриц, то доминирующее собственное значение r{A-\-D) яв- является выпуклой функцией диагональных элементов матрицы D. Дополнительная литература Важная тема, а именно особенности спектров неотрицатель- неотрицательных матриц, освещается в работах: Johnson С, Kellogg R., Step- Stephens A. Complex Eigenvalue of a Nonnegative Matrix with a Specified Graph II. —Lin. Multilin. Alg., 1979, v. 7, p. 129—143; Johnson C. Row Stochastic Matrices Similar to Doubly Stochas- Stochastic Matrices.—Lin. Multilin. Alg., 1981, v. 10, p. 113—130. Там можно найти ссылки на классическую работу Н. А. Дмитрие* ва, Е. Б. Дынкина и Ф. И. Карпелевича и на работы, относя- относящиеся к обратной проблеме собственных значений для неотри* нательных матриц. Эта проблема (требуется охарактеризовать множества комплексных чисел, которые могут составлять спект- спектры неотрицательных матриц) является нерешенной. Дополни- Дополнительные сведения, связанные с задачей 10, см. в статье:
598 Гл. 8. Неотрицательные матрицы Cohen J. Convexity of the Dominant Eigenvalue of an Essentially Nonnegative Matrix. — Proc. Amer. Math. Soc, 1981, v. 81, p. 657—658. См. также задачу 15 § 8.4. 8.4. Неразложимые неотрицательные матрицы Полезно иметь в виду следующий эвристический принцип! если какой-то результат установлен для матриц с отличными от нуля элементами, то он обычно обобщается на неразложи- неразложимые матрицы. Мы уже сталкивались с действием этого прин- принципа— при обобщении основной теоремы Гершгорина (см. гл. 6), а теперь мы увидим другие возможности его применения. Основная идея — это то, что уже было доказано в теореме 6.2.24. Воспроизведем ее часть, необходимую для дальнейшего. 8.4.1. Лемма. Пусть АеМп и А ^ 0. Тогда матрица А не- неразложима в том и только в том случае, когда (I + А)"-1 > 0, Упражнение. Доказать что неразложимость матрицы А е Мп равносильна неразложимости матрицы Ат. Нам понадобятся также следующие простые утверждения. 8.4.2. Лемма. Пусть АеМп и Ки ..., Кп—ее собственные значения (с учетом кратностей). Тогда числа Кг -f- 1, ..., Хп + 1 являются собственными значениями матрицы I -{- А ирA -\- А)^. ==? 1 + р(Л). Если A^zO, то Р(/ + Л) = 1 + р(Л). Доказательство. Пусть 1еоD) имеет кратность k, т. е. Л, есть корень характеристического уравнения рА (t) = det (// — А) = = 0 и притом корень кратности к. Но тогда Я+ 1 есть корень уравнения pA+i(s)= det [si — (Л + /)] = 0, имеющий кратность k, вследствие того, что detG/ — А) = det [ (t + 1)/ — (А + /)]. Поэтому Ki + \, ..., Я« + 1—собственные значения для А-\-1. Следовательно, р(/ -f- A) = max | Я,,- + 1 |< max | Яг | + 1 = 1 + 1<< 1<Ц + р(Л). Однако по теореме 8.3.1 число 1 + р(Л) будет соб- собственным значением для / -f- А, если А ^ 0, — в этом случае Л Л D Упражнение. Объяснить, почему неполны следующие доводы в пользу первой части предыдущей леммы: если Л имеет соб- собственное значение К, то для некоторого вектора х ф 0 имеем Ах = Хх; тогда (А-\-1)х={%-\-\)х, т. е. % + 1—собственное значение для А-\-1. 8.4.3. Лемма. Если А<^Мп, Л ^ 0 и Л'г >0 для некоторого к ^s 1, то р(Л) есть алгебраически простое собственное значе- значение матрицы А.
8.4. Неразложимые неотрицательные матрицы 599 Доказательство. Если %ь ..., Хп — собственные значения матрицы Л, то Я,*, ..., Я*— собственные значения матрицы Л*. Согласно теореме 8.3.1, число р(Л) является собственным значением матрицы А, и если бы оно было кратным собствен- собственным значением, то p(A)k = p(Ak) было бы кратным собствен- собственным значением матрицы Ak, что невозможно, так как р(Л*) должно быть простым собственным значением для Ak в силу теоремы 8.2.10. D Теперь посмотрим, в какой мере теорема Перрона обоб- обобщается на неотрицательные неразложимые матрицы. Этот пе- переход от положительных матриц к неотрицательным связан с именем Фробениуса. 8.4.4. Теорема. Пусть А е Мп, и предположим, что А нераз- неразложима и неотрицательна. Тогда (a) р(Л)>0; (b) р(Л)— собственное значение матрицы А; (c) для некоторого положительного вектора х имеем Ах = = р(Л)х; (d) р(А) — алгебраически (а значит, и геометрически) про- простое собственное значение для А. Доказательство. Следствие 8.1.25 показывает, что (а) имеет место при условиях даже более слабых, чем неразложимость. Утверждение (Ь) справедливо по отношению ко всем неотрица- неотрицательным матрицам в силу теоремы 8.3.1; согласно этой же тео- теореме, существует неотрицательный вектор хфО, такой, что Ах = р(А)х. Но тогда (/ + А)"-]х = [1 + р(А))п-1х и вслед- вследствие положительности матрицы (/ + Л)"-1, вытекающей из леммы 8.4.1, вектор (I -\- А)п~1х должен быть положительным согласно (8.1.14). Поэтому х = [\ + р(Л)] 1-"(/ + А)п~1х > 0. Чтобы установить (d), применим лемму 8.4.2, из которой сл-е- дует, что если р(А) — кратное собственное значение матрицы А, то 1 + р(Л) = р(/ -4- А) — кратное собственное значение матрицы / -f- А. В силу леммы 8.4.1 получаем / + Л ^ 0 и (/ + Л)"-1 > > 0, а стало быть, согласно лемме 8.4.3, число 1 + р(Л) должно быть простым собственным значением матрицы 1-\-А. ? Эта теорема гарантирует одномерность собственного под- подпространства, отвечающего перронову корню неразложимой не- неотрицательной матрицы. В случае произвольной неразложимой неотрицательной матрицы ее единственный положительный соб- собственный вектор с суммой координат, равной 1, называется пер- роновым вектором. Поскольку любая неразложимая неотрицательная матрица имеет положительный собственный вектор, к этому классу мат-
600 Гл. 8. Неотрицательные матрицы риц применимы результаты, полученные в конце разд. 8.1. Осо- Особое значение имеет вариационная характеризация 8.1.32 спек- спектрального радиуса. Далее, Ат неразложима тогда и только тог- тогда, когда Л неразложима. Поэтому любая неразложимая не- неотрицательная матрица обладает также положительным левым собственным вектором. Таким образом, теорема 8.3.4 в дей- действительности справедлива для неотрицательных неразложи- неразложимых матриц. Именно это наиболее важно для следующего рас- расширения теоремы 8.1.18. 8.4.5. Теорема. Пусть А, ВеМп. Предположим, что матрица А неотрицательна и неразложима и А^\В\. Тогда р(А)^р(В). Если р(Л) — р{В) и Я = е'фр(В) является собственным значение и матрицы, В, то существуют числа 6Ь ..., Qn e R, такие, что B = ei4>DAD~\ где D = diag (е'\ ..., ею"). Доказательство. Из теоремы 8.1.18 мы уже знаем, что если А^\В\, то р(А)^р(В). Если р(Л) = р(В), то для какого-то х ф 0 имеем Вх~Хх, где | Я | = р(В) = р(Л), и поэтому Согласно теореме 8.3.4, неразложимость матрицы А позволяет заключить, что Л | х \ -= р (Л) | х | и, следовательно, | Вх \ = = | В || х | = Л ] х |. Более того, | х | > 0 в силу утверждений (с) и (d) теоремы 8.4.4, и, поскольку |??|=^Л, вследствие (8.1.15) и равенства | В \ \ х ] = Л | х \ находим | В | = А. Для k = 1, ..., п определим 9{,eR с помощью соотношения ei%k + xj\ xk |, поло- положим А, = е?фр(Л) и Z) = diag(eie' ei9«). Тогда дг = Z> J ле | и Ял; = е% (A)D\ x\ = BD\x\ = Bx. Таким образом, e~i4>D~lBD \ x |= = р(Л) | х | = А\ х |, вследствие чего, так как | jc I > 0 и ^-"рд-^^Л, получаем e~i4>D~iBD = А. ? Упражнение, Продумать детали последней части этого дока- доказательства. Указание. Положить С = е~щО~ BD и заметить, что т. е. неравенство обращается в равенство, argc^j x,- \ = const, cw>0 и cu = atl. Если Л > 0, то, как мы знаем из теоремы Перрона, число р(Л) является единственным собственным значением матрицы А с максимальным модулем. Если А ^ 0, то собственных значе- значений с максимальным модулем может быть больше чем одно. Однако в этом случае матрица Л должна иметь специальную форму и эти собственные значения располагаются весьма регу- регулярным образом,
8.4. Неразложимые неотрицательные матрицы 601 8.4.6. Следствие. Пусть А е М„, и предположим, что мат- матрица А неотрицательна и неразложима и множество S = {Хп = = р(Л), А,„_1, ..., Xn-k+i) собственных значений с максималь- максимальным модулем р(Л) содержит в точности k различных элемен- элементов. Тогда кратность любого собственного значения а, е S равна 1 и p = 0,l k-l), т. е. максимальные по модулю собственные значения — это не что иное, как k корней из единицы степени k. Более того, если а— произвольное собственное значение матрицы А, то e2nip/kX тоже будет ее собственным значением для всех р = 0, 1, 2, ... ,.., k-l. Доказательство. Для каждого собственного значения из S за- запишем а„_р = ещрр (А) (р = 0, 1, ..., k — 1), т. е. срр = arg {Xn_p). Предположим, что k > 1, и, если потребуется, перенумеруем собственные значения и переопределим аргументы таким обра- образом, что 0 = ф0 < qpi < ф2 < ... < ф?_! < 2зх. В силу теоремы 8.4.5 при В = А и Хн=Я„_р находим А = B^e'^DpADp1 (р = 0,1,... ..., k—1). Поскольку матрицы DpADpl и А подобны, они имеют одни и те же собственные значения, и установленное выше соотношение показывает, что множество собственных зна- значений для А переходит в себя при повороте в комплексной пло- плоскости на угол фр для всех р = 0, 1 k — 1, — получаем по- последнее утверждение из тех, что требуется доказать (при усло- условии, что будет показано, что фр = 2лр//г). Далее, Хп — р(А) яв- является, как известно, алгебраически простым собственным зна- значением для А (вследствие неразложимости А), поэтому после- последовательно рассматривая р=1,2, ..., k—1, мы можем убе- убедиться в алгебраической простоте всех собственных значений An—р. Однако удается доказать несколько большее. Имеем S = = {АЯ, Ап_„ ..., Я„_й+1} = {е%А„, А>А„_Ь .... e%K-k+i) Для любого р = 0, 1, ..., k — 1. Поэтому должно найтись q = q(p), такое, что р (Л) = л„ = е"рРА<7; другими словами, для любого р существует q = q (р), такое, что фр = 2л — q>4 (т. е. фр = = — ф? (mod 2л)) и, значит, е""(фрр(Л) е 5. Далее, если мы повторно применим теорему 8.4.5, взяв B^elVrDrAD71 и Аа ^ Аи-ш = (jlVm9(А) для произвольных г, т, где 0^г, tn^.k — 1, то получим для А представление ~l А = e'^'D, {el^DmAD-mx\ D71 = в' ^+(fr)DrDmA (DrDj
602 Гл. 8. Неотрицательные матрицы так что по аналогии с предыдущими рассуждениями множество собственных значений матрицы А переходит в себя при пово- повороте комплексной плоскости на угол qpm + qv. В частности, число Л„ег(Фт+ф/') = е1 (ф+ф'^р(Л) должно быть собственным значением матрицы А (с максимальным модулем), так что для какого-то j==j{m,f) мы должны получить ф,„ + ф, = = <p/(mod2n). Рассмотрим множество G = {ф0 = 0,фь ..., <pn-k+i}cz[0,2n). Предыдущий абзац содержит информацию о том, что (а) 0е G; (Ь) если ф,-, ф;е G, то ф,-+ ф/(тос12я)е G; (с) если ip,sC, то —ф, е G. Кроме того, очевидно, что (d) если ф,-, ф/ е G, то ф* + ф/= Ф/+ Ф;(тс^ 2я). Таким образом, G есть абелева группа, содержащая ровно k элементов, с групповой операцией «сложение по модулю 2л». Так как порядок любого элемента в конечной абелевой группе является делителем порядка группы, каждое число еЩт должно быть корнем из единицы какой-то степени р, где р = р(т)— делитель числа k. Мы можем также доказать это — и нечто еще — без какого-либо применения тео- теории групп. Поскольку для любых г, т и какого-то / имеем ц>т + ц>г = = Ф,-(mod 2л;), по индукции (возьмем г = т=\ и т. д.) нахо- находим, что гф[ (mod 2л) е G для всех г = 0, 1, 2, ...; значит, ' е'^'р (А) «= S для всех г = 0, 1, 2, В тоже время, если бы число е'Ч'1 не было корнем из единицы, то в 5 входило бы бесконечно много различных элементов, чего быть не может. Таким образом, для некоторого р, l<p^.k, имеем е<РЧ>=1; будем считать, что р обозначает наименьший индекс с таким свойством. Напомним, что 0 < ф[ < ф2 < ... < ф„_й+1 < 2л и, зафиксировав какое-то т, рассмотрим (рт. Интервал [0, 2л) разбивается -в точности на р полуоткрытых подынтервалов (открытых справа) длиной 2л/р с помощью точек 0, ф,, 2<$и ... ..., (р— 1)фь Wi = 2я, и точка фт должна лежать на одном из них. Значит, для некоторого q, O^.q^.p—1, имеем qq>i ^ =^фт < (Я + 1)Фь или 0 <J фт — Wi < Ф1» Следовательно, для какого-то / = / (т) мы должны получить q>m — <7ф1 = ф/, потому что, как уже установлено, если е^р(А) является собственным значением, то собственным значением будет е~'ф'р(Л), так же как и е~'?ф'р(Л) и <Г/</ф1"Ифтр(Л). Но тогда 0<Фт - <?<pi = ф/ < Ф„ а Ф1 было выбрано как наименьший ненулевой аргумент; зна- значит, фт — дф! = 0. Как видим, всякий аргумент ф; есть какое-то кратное числа ф[ и должно быть р = k, т. е. ф! = 2л/?, поскольку в случае р < k мы получили бы меньше чем k различных эле- элементов в множестве {е'Ч"р(Л), е2'Ч"р(Л), e^'^piA), ...}, которое, тем не менее, должно совпадать с S. Наконец, так как всякое фт — кратное числа ф! = 2n/k и существует k различных чисел Ф/
8.4. Неразложимые неотрицательные матрицы 603 и k различных кратных числа qpi, приходим к заключению, что Фт = тф! (т = 0, 1, ..., k— 1). Мы полностью изучили случай k>\; для k = \ to, что здесь утверждается, тривиально. ? 8.4.7. Замечание. Если матрица А ^ О неразложима и имеет k ~> 1 собственных значений с максимальным модулем, то вся- всякое ненулевое собственное значение матрицы А лежит на ка- какой-то окружности .с центром в 0 (в С), проходящей в точности через k собственных значений матрицы А, которые образуют на ней равномерную сетку. В частности, k должно быть дели- делителем общего числа ненулевых собственных значений для А. Поэтому если п X «-матрица А невырожденна, неотрицательна и неразложима, то в случае простого п может быть одно либо п собственных значений с максимальным модулем и ничего другого. 8.4.8. Следствие. Предположим, что матрица А е Мп неотри- неотрицательна и неразложима. Положим Am = [ci-/1'], где т = 1, 2 Если имеется ровно k > 1 собственных значений матрицы А с максимальным модулем, то а(?' = 0 (/=1, 2, ..., п), если пг не есть целое кратное числа k. В частности, ап — 0 для всех i. Доказательство. В силу следствия 8.4.6 число А, = е'ч)р(Д), где ф = 2n/k, является собственным значением для А, имею- имеющим максимальный модуль. Чтобы eimv было вещественным и положительным, целое m должно быть кратным числа k. Ис- Используя теорему 8.4.5 в случае В = А и Я, = е1фр(Л), находим A = e^DAD-\ вследствии чего Am = eim<p DAmD~l и aW = e'^ctp для всех i = l, ..., п и для всех т=1, 2, ... . Если е'тф не есть вещественное положительное число, то такое равенство при а^ > 0 невозможно. Поэтому, если m не делится на k, тоа'/^^з е= 0 для всех i=l, ..., п. D Упражнение. Предположим, что матрица А е Мп неотрица- неотрицательна и неразложима. Показать, что для того, чтобы р(Л) было единственным собственным значением матрицы А с мак- максимальным модулем, достаточно выполнения условия ац =fc О для какого-то i. Вместе с тем рассмотреть матрицу ГО 1 1 1 0 1 L 1 1 0J и установить, что это условие не является необходимым. Мож- Можно ли такой же пример найти среди матриц порядка 2?
604 Гл. 8. Неотрицательные матрицы 8.4.9. Замечание. Справедлив результат, более тонкий, чем следствие 8.4.8. А именно, если матрица Л ^ 0 неразложима и максимальный модуль имеют k > 1 ее собственных значений, то для некоторой матрицы перестановки Р 0 О А12 0 О О ¦dft-l.fc о где k нулевых блоков на главной диагонали квадратные и по- показанные в формуле блоки Ац единственные, которые могут быть ненулевыми. В частности, равны нулю все диагональные элементы ац [Var, p. 28]. Регулярное расположение максимальных по модулю соб- собственных значений, описанное в следствии 8.4.6, существенно связано с предположением о неразложимости. Тем не менее, некоторую информацию можно получить в общем случае. 8.4.10. Следствие. Пусть А <= М„, Л^О и р(Л)>0. Если К—собственное значение матрицы А, такое, что \Х\ = р(А), то Я/р(Л)=е'ч> есть корень из единицы, eiktf = 1 для некоторого k, I sg: k sg: n, и eipvp(A)—собственное значение матрицы А для всех р = 0, 1, ..., k — 1. Доказательство. В случае неразложимой матрицы Л эти утверждения вытекают из следствия 8.4.6. Если Л не является неразложимой, то она перестановочно подобна блочной верхней треугольной матрице о где для любого / блок Л/ есть квадратная матрица и она либо неразложимая, либо нулевая. Собственные значения матрицы А получаются объединением собственных значений диагональ- диагональных блоков Ль .... Аг, а для каждого блока Л/ структура соб- собственных значений с максимальным модулем описывается след- следствием 8.4.6. ?
8.4. Неразложимые неотрицательные матрицы -605 •Упражнение. Рассмотреть матрицу [Л, * 1 О A2hM- где О 1 О Л = [? Ц A,Jo О 1 1 О 0J и убедиться в том, что в общем случае для неотрицательной матрицы А ее собственные значения с максимальным модулем не исчерпываются только числом р(Л) вместо со всеми его по- поворотами при помощи умножения на степени какого-то одного корня из единицы. Задачи 1. Показать на примерах, что утверждения теоремы Пер- Перрона 8.2.11, не включенные в теорему 8.4.4, в общем случае не верны для неразложимых неотрицательных матриц. 2. Показать на примерах, что равенство р(/ -f- А) = 1 -f- р(Л) не имеет место одновременно для всех Л <= М„. Придумать не- необходимое и достаточное условие на матрицу Л, обеспечиваю- обеспечивающее справедливость этого равенства. 3. Для того чтобы неотрицательная матрица Л имела поло- положительный собственный вектор, неразложимость достаточна, но не является необходимой. Рассмотреть матрицы [00] и [Jo] и убедиться в том, что разложимая неотрицательная матрица может иметь, а может и не иметь положительный собственный вектор. 4. Доказать, что если матрица Л ^ 0 неразложима, то эле- элементы матриц [р(Л)~'Л]т равномерно ограничены при т->оо. 5. Как было установлено, неразложимая матрица обладает положительным перроновым вектором. Предположим, что А ^ 0, р (Л) > 0, х ^ 0, х ф 0 и Лх = р (Л) х. Доказать, что если вектор х не является положительным, то матрица А разложима. Если вектор х положительный, то должна ли матрица А быть неразложимой? 6. Предположим, что матрица Л ^ О неразложима и мат- матрица Я Js= 0 коммутирует с А. Доказать, что если х — перронов вектор матрицы Л, то Вх — р(В)х. Указание. Использовать утверждение (d) теоремы 8.4.4. 7. Доказать, что сопровождающая матрица многочлена хк—1=0 представляет собой пример неотрицательной мат-
Гл. 8. Неотрицательные матрицы рицы порядка k, имеющей k собственных значений с макси- максимальным модулем. Обрисовать расположение этих собственных значений на комплексной плоскости. 8. Пусть заданы положительные целые k\, ki, ..., kp. По- Показать, каким образом строится неотрицательная матрица, для которой собственные значения с максимальным модулем — это в точности k\ корней из единицы степени k\, k2 корней из еди- единицы степени &2, • ¦ •, kp корней из единицы степени kP. 9. Объяснить, почему неразложимую неотрицательную мат- матрицу А называют циклической индекса k, если она имеет k ^ 1 собственных значений с максимальным модулем. 10. Доказать, что если неразложимая матрица Л ^0 являет- является циклической индекса k ^ 1, то ее характеристический мно- многочлен имеет вид рД (t) = tr(tk — p(A)k) (tk — \if) ... [tk — \ikm), где r, m — какие-то целые неотрицательные числа w \u — комп- комплексные числа, удовлетворяющие условию ||1г|<р(Л) (i = = 2 т). Прокомментировать расположение нулевых и не- ненулевых коэффициентов многочлена Ра{г) и сформулировать критерий, когда матрица А имеет только одно собственное зна- значение с максимальным модулем, базируя его на форме харак- характеристического многочлена. Указание. Из доказательства след- следствия 8.4.6 получаем, что если ф = 2n/k и А, — собственное зна- значение матрицы А, то для г = 0, 1,2, ... число е'^Я будет также собственным значением для А. 11. Пусть число п>1 простое. Доказать, что если матрица /1еМй неотрицательна, неразложима и невырожденна, то либо р(Л) есть единственное ее собственное значение с максималь- максимальным модулем, либо одинаковый модуль имеют все ее собствен- собственные значения. 12. Рассмотреть Л = [°^] и показать, что следствие 8.4.8 нельзя усилить в том смысле, что в общем случае нельзя утвер- утверждать, что главная диагональ всех степеней матрицы А состоит из нулей. 13. Пусть А ~^ 0. Доказать, что неразложимость матрицы А определяется только расположением ее нулевых элементов и не зависит от значений ненулевых элементов. 14. Если Л, Bg Mn, то АВ и В А имеют один и тот же на- набор собственных значений. Рассмотреть [о }] и [? °] и устано вить, что даже в случае неотрицательных А я В возможно, что АВ будет неразложимой, а В А — разложимой. Этот пример по- показывает, что неразложимая матрица может быть подобна (и даже унитарно эквивалентна) разложимой матрице. Объяс- Объяснить, почему. Мы также видим, что никакое условие, исполь- использующее только собственные значения, не может служить те- тестом, однозначно выясняющим неразложимость,
8.5. Примитивные матрицы 607 15. Пусть задана неразложимая неотрицательная матрица А е Мп. Показать, что матрица А-\- В неразложима, если мат- матрица В<=.Мп неотрицательна, и что р(А + В) > р(Л), если В^Ои В-фО. Это некоторое усиление теоремы 8.1.18 в сторону строгой монотонности — правда, при дополнительном предполо- предположении о неразложимости. Указание. Согласно теореме 8.1.18, р(А -\- В)^ р(А). В случае равенства, используя теорему 8.4.5, показать, что В = 0. 16. Показать, что лемму 8.4.1 можно уточнить следующим образом. Пусть матрица А е Мп неотрицательна и ее минималь- минимальный многочлен имеет степень т. Доказать, что А неразложима в том и только в том случае, когда (/ +Л)-1 > 0. Указание. Рассмотреть / + А + А2 + ... + Л-1 + Ат + ... + Ап~х и с помощью минимального многочлена выразить Ат и более вы- высокие степени через /, А, ..., А-1. 17. Пусть задана неотрицательная матрица АевМп и рас- рассматривается проблема ее аппроксимации матрицей ранга 1 в смысле метода наименьших квадратов, а именно 'надо найти матрицу 1еМ„ ранга 1, такую, что \\А — X||E = min{||/l — УЦЕ: УбМ» — матрица ранга 1}. Предположим, что для ААТ пер- перронов корень простой; так будет, если хотя бы одна из матриц ААТ, АТА неразложима. Почему? Доказать, что искомая мат- матрица X неотрицательна, единственна и определяется формулой Х = л/гюпиг, где г = р(ДЛг)— перронов корень для ААТ и v, w e /?" — неотрицательные единичные собственные векторы соответственно для ААТ и АТА, отвечающие собственному зна- ' чению г. Указание. Использовать характернзацию наилучшего однорангового приближения, установленную в примере 7.4.1. Заметить, что обе матрицы ААТ и АТА вещественны, симмет- симметричны и положительно полуопределены, так что вычисление г, v и w — в принципе не очень трудная задача. 18. Используя задачу 17, найти наилучшее среднеквадратич- среднеквадратичное одноранговое приближение для каждой из матриц rill г11! Г001 = 1. il lo il I. x[ Показать, что наилучшее среднеквадратичное одноранговое приближение для матрицы А — I <=. Мп неединственно — тако- таковым будет X = vv* для любого единичного вектора v e С", 8.5. Примитивные матрицы Из всех результатов, отмеченных в теореме Перрона, наи- наиболее часто применяемым на практике можно считать предель- предельное соотношение из теоремы 8.2.8. Анализ теоремы 8.4.4 пока*
608 Гл. 8. Неотрицательные матрицы зывает, что есть только одно препятствие, не позволяющее при- применять лемму 8.2.7 к любым неразложимым матрицам, а имен- но отсутствие свойства, что спектральный радиус — это един- единственное собственное значение с максимальным модулем. Так, матрица ^ = [1 0] служит примером неотрицательной неразло- неразложимой матрицы, имеющей два собственных значения с макси- максимальным модулем (ИтАт не существует). Как видим, необхо- т->оо димы какие-то дополнительные ограничения класса неразложи- неразложимых матриц; наиболее простой выход —потребовать именно то, чего нам недостает. 8.5.0. Определение. Неотрицательная матрица А е Мп назы- называется примитивной, если она неразложима и обладает только одним собственным значением с максимальным модулем. Понятие примитивности принадлежит Фробениусу A912 г.). Теперь предельное соотношение вытекает сразу же из леммы 8.2.7 — с тем же доказательством, что и для теоремы 8.2.8. 8.5.1. Теорема. Если матрица АеМя неотрицательна и при- примитивна, то lim где L=xyT, Ах = р(А)х, Ату = р(А)у, х > 0, у > 0, хту=\. Более того, если собственное значение %п-\ таково, что \%\^ =?Г|Х„_1| для всех собственных значений Хфр(А) и \Xn-i \/р(А) < г < 1, то для некоторой постоянной С = С(г,А) имеем \\[p(A)-lA]m — L\\ioo^Crm для всех пг~\, 2, ... . D Теперь все пункты теоремы Перрона, сформулированной для класса положительных матриц, обобщены на класс примитив- примитивных неотрицательных матриц. На практике, однако, еще тре- требует решения вопрос о проверке примитивности для заданной неотрицательной матрицы; в идеале можно рассчитывать на то, что это удастся сделать без явного вычисления собственных значений. Следующая характеризация примитивности не являет- является сама эффективным для вычислений тестом, но приводит к не- нескольким полезным критериям. 8.5.2. Теорема. Пусть матрица А <= Мп неотрицательна. Тогда А примитивна в том и только в том случае, когда Ат > 0 для некоторого m ^ 1. Доказательство. Если А ^ 0 и Ат > 0, то из каждой вер- вершины Pi ориентированного графа Г (Л) матрицы А в каждую другую вершину Р/ должен вести направленный путь, длина которого в точности равна т (см. следствие 6.2.18). Поскольку
8.5. Примитивные матрицы 609 это более сильное свойство по сравнению с неразложимостью, А должна быть неразложимой. Так же как в лемме 8.4.3, при- применим утверждения (d) и (е) теоремы Перрона 8.2.11 к Ат. Таким образом, устанавливается примитивность матрицы А. Обратно, если А примитивна, то lim [р (А)~1 Ат] = L > 0, co- corn-*- оо гласно теореме 8.5.1, и поэтому для какого-то т J> 1 [р (Л)-' А]т >0. ? Эта характеризация вместе с уже имеющейся очень тонкой информацией о максимальных по модулю собственных значе- значениях неотрицательных неразложимых матриц позволяет полу- получить графовый критерий примитивности, сходный с графовым критерием неразложимости. Напомним, что наибольший общий делитель (НОД) последовательности положительных целых чи- чисел ku &2> ••• —это наибольшее целое k ;> 1, такое, что k яв- является делителем для всех klt k2, ... . 8.5.3. Теорема. Пусть матрица А ?Мп неотрицательна и не- неразложима и \Pj\ обозначает множество вершин ориентирован- ориентированного графа Г (А). Обозначим через Li = [k[l), kil), ...) множе- множество длин всевозможных ориентированных путей в Г (Л), начи- начинающихся и заканчивающихся в вершине Pt (i = 1, 2, ..., п). Обозначим через gt наибольший общий делитель для всех длин из Lt. Тогда матрица А примитивна в том и только в том слу- случае, когда gt = 1 для всех i = 1, 2, ..., п. Доказательство. Заметим, что в силу неразложимости мат- матрицы А ни одно из множеств Lt не будет пустым; для каждого i и для всякого / ф i в Г (Л) есть путь, соединяющий Р% с Р,-, так же как и путь, соединяющий Pj с Pt. Если матрица прими- примитивна, то по теореме 8.5.2 для некоторого т Г> 1 имеем Ат > О и, следовательно, Л* > 0 для всех k ^> т. Но тогда т, т -f i, т + 2, ... ? Lf для всех / = 1, ...,«, и поэтому gt — 1 для всех i — 1, ..., п. Теперь предположим, что матрица Л = lati] не примитивна. Если Л имеет ровно k > 1 собственных значений с максималь- максимальным модулем, то, согласно следствию 8.4.8, а[?] = 0 для всех i = 1, ..., п и для всех т, не кратных k. Итак, Lt cz \k, 2k, 3k, ...( и, следовательно, gt ^ k > 1 для всех i = 1, ..., п. ? 8.5.4. Замечание. Справедливо нечто большее по сравнению с тем, что утверждается в теореме 8.5.3; в действительности всегда gx = g2 = ... = gn, и это общее значение величин gt в точности равно числу собственных значений матрицы А с макси- максимальным модулем. Это теорема Романовского.
610 Гл. 8. Неотрицательные матрицы Следующий результат полезен во многих ситуациях; в ча- частности, он показывает, что любая неразложимая неотрица- неотрицательная матрица с положительной главной диагональю обязана быть примитивной. 8.5.5. Лемма. Если матрица А ? Мп неотрицательна и не- неразложима и все ее диагональные элементы положительны, то Л"-1 >0. Доказательство. Если а = min \an, а22, ..., апп\ и В = А — diag (ап, а22, ..., апп), то матрица В неотрицательна и неразложима (так как А не- неразложима) и A^aI-\-B=a(I + (lia) В), а стало быть, Дп-1 ^ ап~\ (/ _|_ (i/a) в)п~1 > 0 но лемме 8.4.1. ? Упражнение* Если неотрицательная квадратная матрица с положительными диагональными элементами возводится в сте- степень, то любой элемент, став положительным, остается тако- таковым для всех более высоких степеней. В то время как неразложимая матрица может иметь разло- разложимую степень, все степени любой примитивной матрицы остаются примитивными. 8.5.6. Лемма. Пусть матрица А ?Мп неотрицательна и при- примитивна. Тогда матрица Ak неотрицательна, неразложима и примитивна для всех k = 1,2, ... . Доказательство. Поскольку все достаточно большие степени матрицы А положительны, то же верно по отношению к Ak для любого k. Если матрица Ak разложима для какого-то k, то все степени матрицы Ak будут разложимыми, а значит, они не мо- могут быть положительными. Получаем противоречие с тем, что все достаточно большие степени матрицы А положительны. Зна- Значит, никакая степень матрицы А не может быть разложимой. ? Теорема 8.5.2 характеризует примитивность, но она — если ограничиться только тем, что в ней утверждается, —¦ не может служить сколько-нибудь эффективным вычислительным тестом, потому что в ней не указывается никакой верхней оценки для степеней, требующих вычисления. Если найдено т, такое, что Ат > 0, то А примитивна; однако когда следует остановиться, если положительная степень еще не получена? В следующей теореме устанавливается конечная оценка, отвечающая на этот вопрос. 8.5.7. Теорема. Пусть матрица А ?Мп неотрицательна. Если А примитивна, то Ak > 0 для некоторого положительного целого k < (п — 1) /г".
8.5. Примитивные матрицы 611 Доказательство. Вследствие неразложимости матрицы Л су- существует ориентированный путь, исходящий из вершины Рг в Г (Л) и возвращающийся в вершину Рг; пусть кратчайший та- такой путь имеет длину kx ^ п. Следовательно, матрица Aki в по- позиции A,1) содержит положительный элемент, и он остается положительным для всех степеней матрицы Aki. Так как А при- примитивна, Aki должна быть неразложимой по лемме 8.5.6 и, значит, существует ориентированный путь, начинающийся в вер- вершине Р% графа Г (Ak>) и заканчивающийся также в вершине Р2; пусть кратчайший такой путь имеет длину k2 <; п. Тогда в матрице (Л*>)** = Ak*k' будут положительными элементы в пози- позициях A,1) и B,2). Этот процесс можно продолжить, просмат- просматривая главную диагональ сверху вниз до тех пор, пока не бу- будет получена матрица Akik* "' kn (kt -< я), которая является неразложимой и обладающей положительными диагональ- диагональными элементами. Поэтому в силу леммы 8.5.5 имеем k±k2 ... kn (п — 1) < п-п- ... -п (п — 1) = пп (п — 1), что и требовалось доказать. ? Для любой заданной примитивной матрицы А наименьшее k, такое, что Ak > 0, называется ее индексом примитивности и обычно обозначается через у (А). Мы уже знаем, что у (А) ^ <п— 1, если А имеет положительную диагональ, и у (А) < -< пп (п — 1) в общем случае. Последнюю оценку можно значи- значительно улучшить. 8.5.8. Теорема. Пусть А?Мп — неотрицательная примитив- примитивная матрица, и предположим, что кратчайший простой ориенти- ориентированный цикл в Г (Л) имеет длину s. Тогда An+S ("~2) > 0, и, значит, у (Л) <J п + s (n — 2). Доказательство. Так как Л неразложима, всякая вершина графа Г (Л) принадлежит какому-то циклу и самый короткий цикл, начинающийся в ней и возвращающийся в нее же, дол- должен быть простым циклом длины не более п. Можно считать — этого можно добиться с помощью перестановок, — что верши- вершинами такого самого короткого цикла являются Ри Р2, ¦¦-, Ps. Заметим, что п + s (п — 2) = я — s + s (я — 1), и рассмотрим Дп-s+s (п-п = Дп-s (Л8)"-1. Запишем А"-' в блочном виде: Дп-s _ где Xn g Ms и Х22 g Mn_s. Тогда в каждой строке матрицы Хи есть хотя бы один ненулевой элемент — вследствие того, что'
612 Гл. 8. Неотрицательные матрицы вершины Ръ ..., Ps образуют в Г (А) цепь и, следовательно, в графе Г (An~s) из каждой вершины Pf какая-то дуга ведет в какую-то вершину Р} (возможно, Рj — Pt); это верно при 1 <; i, / <С s. В каждой строке в Х21 тоже существует по меньшей мере один ненулевой элемент — потому что для каждой вершины ^s+i. •••! ^п. не входящей в рассмотренную выше цепь, в Г (А) должен найтись ориентированный путь длины не более п—s (число вершин, не входящих в цикл), ведущий в какую-то вер- вершину этой цепи. Понятно, что с помощью достаточного числа дополнительных обходов цикла в графе Г (А) от любой вер- вершины, не входящей в цикл, можно провести ориентированный путь в какую-то вершину этого цикла, и он будет иметь длину, в точности равную п — s. Теперь запишем (Л5)"-1 в блочном виде: U " у 22 где Yu ? Ms, У22 ? Mn_s. Так как в графе Г (А) вершины Ръ ..., Ps образуют цикл, в графе Г (As) в" каждой вершине Ръ ..., Ps есть петля. Поскольку А примитивна, As тоже при- примитивна и, значит, неразложима. Каждая из вершин Рх, ..., Ps графа Г (As) соединена с любой другой вершиной этого графа путем длины не более п — 1. Всегда можно построить такой путь, имеющий длину, в точности равную п— 1, —за счет до- добавления достаточного числа обходов по петле в начальной вер- вершине. Это показывает, что Yn > 0 и YVi > 0. Чтобы завершить доказательство, запишем ! Л 21 Л 22 J L ' 21 ' 22 J L Л 21 * 11 Л 21 / 22 Вследствие того что в каждой строке блоков Хи и Х21 есть хотя бы один ненулевой элемент и каждый из блоков Уг1 и F12 положи- положительный, последняя блочная матрица является положительной, т. е. An~s (.4s)"-1 > 0. ? Одно из следствий теоремы 8.5.8 — это знаменитый резуль- результат Виландта, устанавливающий точную верхнюю оценку ин- индекса примитивности для произвольной примитивной матрицы. 8.5.9. Следствие. Если матрица А ? Мп неотрицательна, то А примитивна тогда и только тогда, когда Ап%~-2п+2 > 0. Доказательство. Если какая-то степень матрицы А положи- положительна, то А примитивна; поэтому интерес представляет лишь
8.5. Примитивные матрицы 613 обратное утверждение. При п = 1 результат тривиален, так что будем считать, что п > 1. Вследствие своей примитивности мат- матрица Л неразложима и в графе Г (Л) есть циклы. Если самый короткий цикл в Г (Л) имеет длину п, то длина любого другого цикла делится на п, и, следовательно, по теореме 8.5.3 матрица А не может быть примитивной. Таким образом, длина самого короткого цикла в Г (А) меньше или равна п — 1, и, значит, в силу теоремы 8.5.8 у (А) < п + s (п — 2) < п + (п — 1) (п — 2) = пг — 2л + 2. Q Виландт привел пример (см. задачу 4 в конце этого пара- параграфа), показывающий невозможность улучшения оценки У И) <J я2 — 2п + 2 для класса матриц, в которых все диаго- диагональные элементы нулевые. Как мы знаем, если все элементы главной диагонали положительны, то А примитивна тогда и только тогда, когда Ап~1 > 0. Следующий результат Холидея и Варги использует те же идеи, которые уже применялись в до- доказательстве теоремы 8.5.8, и устанавливает верхнюю оценку индекса примитивности в тех случаях, когда некоторые, но, воз- возможно, не все элементы главной диагонали являются положи- положительными. 8.5.10. Теорема. Пусть матрица А ? Мп неотрицательна и не- неразложима, и предположим, что она имеет d положительных элементов главной диагонали, где 1 ^. d <; п. Тогда Л2"-**—' > 0 «, значит, у (Л) < 2л — d — 1. Доказательство. Согласно условиям теоремы, матрица Л должна быть примитивной г), а в Г (Л) минимальная длина цик- циклов равна 1. В действительности имеется d таких циклов. Вы- Выполнив, если нужно, перестановки, можно считать, что Ри ... ..., Pd — это вершины графа Г (Л), имеющие петли. Рассмотрим j[2n-d-i _ дп-d Di)n-i и запишем ] Л Г У Y \ ' V V Л21 Л22 J L Г 21 ' 22 где Х1и Уц ? Мй и Х22, Y2i ? Mn_d. Те же доводы, которые уже использовались по отношению к соответствующим блокам в An~s и (As)n~l при доказательстве теоремы 8.5.8, теперь показывают, что каждая строка блоков Хп и Хг1 содержит хотя бы один ненулевой элемент, а блоки Yn и Ухг положительные. По той J) Если бы А не была примитивной, то, согласно следствию 8.4.8, она имела бы нулевую главную диагональ.—Прим. перев.
614 Гл. 8. Неотрицательные матрицы же причине, которая уже отмечалась в теореме 8.5.8, произве- произведение An~dAn~x будет положительным. П Упражнение* Установить примитивность матрицы А = \ { А. Каковы ее собственные значения? Вычислить оценки для у (А), устанавливаемые следствием 8.5.9 и теоремой 8.5.10. Каково точ- точное значение индекса у (А)? Сделаем заключительные замечания. Проверку заданной не- неотрицательной матрицы на примитивность можно проводить, выясняя неразложимость этой матрицы и выполнение условия Виландта (лемма 8.5.9). Матрицы, возникающие на практике, часто имеют специальную структуру, позволяющую довольно просто узнать, будет ли соответствующий ориентированный граф сильно связным. Далее, если хотя бы один диагональный эле- элемент положителен, то матрица непременно примитивна. Однако, если матрица большая и не обладает какой-либо спецификой или симметрией, а также если все ее диагональные элементы нулевые, то может оказаться необходимым для проверки нераз- неразложимости или примитивности использовать именно лемму 8.4.1 или следствие 8.5.9. В обоих случаях требуемое число матричных умножений значительно сокращается, если интересующая нас матрица последовательно возводится в квадрат, до тех пор пока не будет получена степень, превышающая критическое значение, соответственно равное п — s или п2 — 2п + 2. Например, при п =¦ 10 для проверки неразложимости достаточно вычислить (/ + ЛJ, (/ + ЛL, (I + Л)8 и (/ + ЛI6, т. е. нужно выполнить 4 матричных умножения вместо 8 в случае прямого применения леммы 8.4.1. Аналогично, если Л неотрицательна, то для про- проверки ее примитивности достаточно вычислить Л2, Л4, Л8, Л16, А32,АМ и Л128, т. е. нужно выполнить 7 матричных умножений вместо 81. Заметим, что в этих рассмотрениях мы'неявно ис- использовали задачу 3. Задачи 1. Записать доказательство теоремы 8.5.1. 2. Показать, что если матрица Л ? Мп неотрицательна и при- примитивна, то lim (а;/"'I7 = Р (^) Для всех i, / = 1, ..., п. Срав- ГП-+ОО нить этот результат со следствием 5.6.14. Нельзя ли опустить какую-либо часть из условия задачи? 3. Доказать, что если А ^ 0 и Ak > 0, то Ат > 0 для всех т ;> k. Доказать, что если А примитивна, то Ак примитивна для любого положительного целого k. Если А и В обе примитив- примитивные, то Л В может, однако, и не быть примитивной. Рассмотреть
8.5. Примитивные матрицы 615 4. Рассмотреть матрицу Л =  0 0 1 Виландта 1 0 1 1 о ... 0 1 0 и, анализируя Г (А), установить ее неразложимость и примитив- примитивность при всех п ^> 3. Затем убедиться в том, что позиция A,1) в Ап2~2п+1 содержит нуль и в то же время Ап2~2п+2 > 0. Указа- Указание. Рассмотреть А как линейное преобразование, действующее на стандартный базис \еъ ..., еп\. Далее, А: е, ->¦ ?, A"—1: et -> ?, ^d—i) (n—i); e _>. ? 5. Пусть матрица Л ? 7ИП неотрицательна и неразложима. Доказать, что Л примитивна, если хотя бы один ее диагональ- диагональный элемент положителен. Показать, что это достаточное усло- условие является необходимым при п = 2 и не является таковым при п > 3. 6. Пусть матрица А = [atj] ? Мп неотрицательна и ahh >0 для какого-то k = 1, 2, ..., п. Показать, что, какой бы ни была степень матрицы Л, в ее позиции (k, k) находится также поло- положительный элемент. Если ahh = 0 и в Л2 позиция (k, k) содер- содержит положительный элемент, то будет элемент в этой позиции положительным в Л3? 7. Разобраться в деталях метода сокращения вычислитель- вычислительных затрат, предложенного в конце этого раздела. 8. Для любой идемпотентной матрицы Л имеем А = lim Am. т~*-оо Доказать, что если Л неотрицательна, неразложима и идемпо- тентна, то она является положительной матрицей ранга 1. 9. Привести пример, с тем чтобы показать возможность су- существования предела lim (p (Л)-1 А)т и в том случае, когда матрица Л ^-0 не является примитивной. На самом деле Л может быть разложимой, а также у нее могут быть кратные собственные значения с максимальным модулем. 10. Доказать следующее частичное обращение теоремы 8.5.1: если для неотрицательной неразложимой матрицы Л ? Мп су- существует lim (p(A)~l A)m, то А примитивна. Указание. Если т-»-оо | ц | == Р (Л), ц ф р (Л) и Az = nz, z ф 0, то (р (Л)-' А)т z -* ? 11. Показать, что матрица А =[, 0J неразложима, но Л2 разложима. Противоречит ли это лемме 8.5.6?
616 Гл. 8. Неотрицательные матрицы 12. Привести пример неразложимой неотрицательной матри- матрицы А ? Мп, для которой не существует lim (p (А)~1 А)т. т-*-оо 13. Доказать, что если е > 0 и матрица Л ? Мп неотрица- неотрицательна и неразложима, то матрица А + е/ примитивна. 14. Неотрицательная матрица А = \аи] называется комбина- комбинаторно симметричной, если ai} > 0 тогда и только тогда, когда ujj >0 (г, / = 1, ..., п). Доказать, что если А комбинаторно симметрична и примитивна, то Лг"-2 > 0. (Указание, Рассмот- Рассмотреть Л2 и использовать лемму 8.5.6 и теорему 8.5.10.) Можно ли усилить оценку для у (А), учитывая дополнительную информа- информацию о структуре циклов в Г (Л)? Указание. Использовать тео- теорему 8.5.8. 15. Показать, что если матрица А ? Мп неотрицательна, не- неразложима и невырожденна и число п простое, то либо А при- примитивна, либо все собственные значения матрицы А имеют оди- одинаковый модуль и Л подобна сопровождающей матрице много- многочлена хп — р (Л)" = 0. 16. Перронов вектор и спектральный радиус неотрицательной матрицы Л с Мп можно вычислить с помощью степенного ме- метода, а именно: дг<°> — произвольный положительный вектор, такой, что t m = о, 1,2,.. .; (пЧ-1) т = 0,1,2 Доказать, что если Л примитивна, то последовательность векто- векторов х<т> сходится к (правому) перронову вектору матрицы Л, п а последовательность чисел ?j y\m+l) сходится к перронову кор- ню матрицы А. Какова скорость сходимости? Необходимо ли предположение о примитивности? 17. Показать, что примитивность неотрицательной матрицы А ? Мп зависит лишь от расположения ее нулевых элементов, а не от того, каковы значения ненулевых элементов. 18. Доказать, что если матрица А ? Мп неотрицательна, не- неразложима и симметрична, то Л примитивна тогда и только тогда, когда A -f- P (А) I невырожденна. В частности, это условие имеет место в случае положительно полуопределенной матрицы А. Симметричные неотрицательные матрицы с элементами, рав- равными 0 или 1, возникают естественным образом как матрицы смежности неориентированных графов.
8.6. Общая предельная теорема 517 19. Доказать, что если матрица А ? Мп примитивна и k >. >у(А), то Ак >0. 20. Продумать детали доказательства теоремы 8.5.10. 21. Вычислить собственные значения и собственные векторы для каждой из следующих матриц и расклассифицировать их в соответствии с ключевыми понятиями этой главы (неотрица- (неотрицательность, неразложимость, примитивность, положительность , [in г о и г 1 о 1 Г1 ° 1 Г 1 ° I [о П го °1 ^ "*.*):[,,], [,,]. [,,J. [o,J. [ooj. loo], [.о]- Это Х°Р°- шая иллюстрация возможностей, которые могут встретиться. 22. Доказать, что каждый столбец в Хп и Хп (см. доказа- доказательство теоремы 8.5.8) содержит' хотя бы один ненулевой эле- элемент. Доказать, что Уг1 > 0. Дополнительная литература Доказательство теоремы Романовского, упомянутой в раз- разделе 8.5.4, см. в статье: Rornanovsky V. Recherches sur les Chaines de Markoff. — Acta Math., 1936, v." 86, p. 147—251. 8.6. Общая предельная теорема Для произвольно взятой неотрицательной и даже неразло- неразложимой матрицы А ее нормированные степени могут и не иметь никакого предела — это показывает с очевидностью пример матрицы А = ГО М Li or Тем не менее, в некотором вполне точном смысле в среднем этот предел существует. 8.6.1. Теорема. Пусть матрица А ? Мп неотрицательна и не- неразложима и Ах = р (А) х, АТу = р (А) у, xry = I uL = xyT. Тогда Более того, для некоторой положительной постоянной С = С (А) для всех N — 1,2,... выполняется неравенство т=1 Доказательство. Положим X = р (А) и возьмем векторы у и х — соответственно левый и правый перроновы векторы матрицы
618 Гл. 8. Неотрицательные матрицы Л. Тогда условия A)—E) леммы 8.2.7 выполнены и, следова- следовательно, матрица / - (р (Л)-1 Л - L) = р (Л)-1 [р (Л) / - (Л - р (Л) L)] будет обратима. Используя утверждение (е) леммы 8.2.7 и ра- равенство из задачи 1 в конце этого параграфа, находим 1 V^ -^2j [Р(Л)-МГ = т=1 N N 2 т=1 т—1 = L + -^ jp (Л)-> А-Ц{1-1р (Л)-' Л - L]"} = L + 4" IP И) Л - L}{ / - [р (Л)" В последнем выражении рассмотрим второе слагаемое. В его составе зависят от N только множитель 1/N и член (р (Л)"-1 Л)", но в последней матрице все элементы равномерно ограничены при N -*¦ оо в силу следствия 8.1.33. Таким образом, второе сла- слагаемое при N —> оо имеет порядок О A/л) и поэтому равномерно стремится к нулю. ? Анализ предположений, используемых леммой 8.2.7 и след- следствием 8.1.33, показывает, что совершенно такие же аргументы приводят к более общему (но уступающему в краткости форму- формулировки) результату. 8.6.2. Теорема. Пусть матрица А ? Мп неотрицательна, и пусть х и у — неотрицательные векторы, такие, что Ах = р (Л) х и АТу — р (Л) у. Предположим, что выполнены следующие усло- условия: (a) р (Л) > 0; (b) х*у > 0; (c) матрица I — [р (Л) Л — (хг//)-' хуТ] обратима; (d) матрица (р (Л)-1 А)т равномерно ограничена при т -*¦ оо. Тогда N
8.7. Стохастические и двояцостохастические матрицы 619 Более того, для некоторой положительной постоянной С = С (А) при всех N = 1,2, ... Задачи \—1 rt/T loo 1. Доказать, что если В ? Мп и матрица /—В обратима, то 2 Вт = .5 (/ — В*) (/ — В)-1. m=l Указание. Умножить обе части на / — В. 2. Доказать теорему 8.6.2. 3. Сравнить скорости сходимости в теоремах 8.5.1 и 8.6.1. Привести примеры, показывающие неулучшаемость оценки ско- скорости сходимости в теореме 8.6.1. 4. Предположим, что матрица А ? Мп неотрицательна и не- неразложима, и запишем Ат = [a\f]}, где т = 1, 2, ... . Исполь- Используя теорему 8.6.1, доказать, что для каждой заданной пары (/, /) неравенство a\f) > 0 выполняется для бесконечно многих значений т. Этот результат можно считать обобщением тео- теоремы 8.5.2. Привести пример, в котором имеется также беско- бесконечно много значений т, для которых а,-/1' = 0. 5. Доказать, что в условиях теоремы 8.6.2 a'-f > 0 для беско- бесконечно многих значений т и таких пар (t, /), для которых xtyj Ф 0. Почему этот результат включает в себя задачу 4? 6. Показать непосредственно, что теорема 8.5.1 влечет за со- собой теорему 8.6.1, если матрица А примитивна. Указание. Здесь требуется доказать следующий результат из анализа: если по- последовательность сходится к конечному пределу, то и последова- последовательность средних по Чезаро имеет тот же 'предел. 7. Рассмотреть матрицу А = \ l 0 и явно вычислить N lim ЛМ 2 (р (А) А)т. N-f-oo т=1 Найти значение этого предела, используя теорему 8.6.1, и срав- сравнить. 8.7. Стохастические и двоякостохастические матрицы Неотрицательная матрица А ? Мп, в которой все строчные суммы равны +1, называется (строчной) стохастической ма- матрицей — по той причине, что каждую строку можно рассматри- рассматривать как распределение вероятностей на дискретном вероят-
620 Гл. 8. Неотрицательные матрицы ностном пространстве из п событий. Столбцовая стохастическая матрица — это транспонированная к строчной стохастической матрице. Такие матрицы возникли естественным образом в мо- модели междугородней миграции населения, обсужденной в § 8.0. Стохастические матрицы возникают также при изучении цепей Маркова и в самых различных проблемах, связанных с модели- моделированием в таких областях, как экономика и исследование опе- операций. Множество стохастических матриц в Мп — это компактное выпуклое множество с одним простым, но важным свойством. Обозначим через е ? R" вектор со всеми координатами, равны- равными + 1; тогда неотрицательная матрица А ?Мп будет стоха- стохастической в том и только в том случае, когда Ае = е. Таким образом, стохастические матрицы образуют в Мп легко распо- распознаваемое семейство матриц, имеющих некоторый общий поло- положительный собственный вектор. Неотрицательные матрицы с по- положительным собственным вектором обладают многими спе- специальными свойствами (см. разд. 8.1.30, 8.1.31 и 8.1.33), кото- которые, конечно, присущи всем стохастическим матрицам. Стохастическая матрица А ? Мп, для которой АТ тоже сто- стохастическая, называется двоякостохаспгической; для нее все строчные и столбцовые суммы равны +1. Множество двоякосто- двоякостохастических матриц также является компактным выпуклым мно- множеством в Мп, и неотрицательная матрица А ? Мп, очевидно, двоякостохастическая тогда и только тогда, когда Ае — е и еТА = ет. Один тип двоякостохастических матриц нам уже встре- встречался в теореме 6.3.5 — это ортостохастическая матрица А = = [| utj |2], отвечающая унитарной матрице U = [utj\ ? Мп. Строчные и столбцовые суммы для А равны +1 вследствие того факта, что строки и столбцы в U представляют векторы единич- единичной евклидовой длины. Другой пример двоякостохастических матриц — это множе- множество (группа) матриц перестановок. В действительности матри- матрицы перестановок являются фундаментальными прототипами двоякостохастических матриц — в силу теоремы Биркгофа лю- любая двоякостохастическая матрица есть выпуклая комбинация конечного числа матриц перестановок. Излагаемое ниже дока- доказательство теоремы Биркгофа основывается на том факте (см. приложение В), что всякая точка выпуклого компактного мно- множества S является выпуклой комбинацией его крайних точек. Мы покажем, что крайние точки множества двоякостохастиче- двоякостохастических матриц — это не что иное, как матрицы перестановок. 8.7.1. Теорема (Биркгоф). Матрица А ?Мп является двояко- стохастической в том и только в том случае, когда для некото- некоторого N < оо существуют матрицы перестановок Рх PN ? Мп
8.7. Стохастические и двоякостохастические матрицы 621 и положительные числа аг, ..., а^ ? R, такие, что а1 + ... ... + aN = 1 и А = а1Р1 + ... + aNPN. Доказательство. Достаточность очевидна, поэтому требуется установить именно необходимость. Пусть задана двоякостоха- стическая матрица А = [atj] ? Мп. Если А — матрица переста- перестановки, то в каждой ее строке и в каждом столбце в точности один элемент равен + 1, а остальные элементы нулевые. Если бы можно было записать А = ахВ + а2С, где 0 < аъ а2 < 1, ai + ct2 = 1 и В, С — двоякостохастические матрицы, то эле- элементы в В и С, отвечающие нулю в А (т. е. элементу atj = 0), должны были бы удовлетворять соотношению 0 = atj = афц + -г a2ctj, откуда Ьц = ci7- = 0, так как числа аг и а2 оба отличны от нуля, а btj и Cij неотрицательны. Поскольку матрицы В и С двоякостохастические, их строчные суммы равны +1 и, следова- следовательно, ненулевые элементы должны быть равны +1 и занимать те же позиции, что и ненули в А. Итак, А = В = С. Это дока- доказывает, что любая матрица перестановки является крайней точ- точкой множества двоякостохастических матриц. С другой стороны, если А не является матрицей переста- перестановки, то по меньшей мере одна ее строка, скажем 1\-я, содер- содержит по меньшей мере два ненулевых элемента. В этой строке возьмем ненулевой элемент aiii2. Должны выполняться неравен- неравенства 0 < aiiil < 1, так как в z'i-й строке не меньше двух нену- ненулевых элементов и сумма всех ее (неотрицательных) элементов равна +1. Поскольку 0 < aii[i < 1 и сумма всех (неотрицатель- (неотрицательных) элементов столбца с номером i2 равна +1, в этом же столбце должен найтись еще один ненулевой элемент а,-,,-,, /3 Ф i2, для которого 0 < а1з(г < 1. По той же причине в одной строке с элементом aitlt имеется другой ненулевой элемент а,-,,-4, Ч ф 1*2. и для него 0 < aitii < 1. Пусть этот процесс продол- продолжается, и последовательно выбираемые элементы как-то поме- помечаются. Тогда после какого-то конечного числа шагов обяза- обязательно возникнет ситуация, когда мы выберем элемент, который ранее уже выбирался. Последовательность элементов от первого до второго появления элемента аи (включаем первое, но не вто- второе появление) — это конечная упорядоченная последователь- последовательность элементов матрицы А, в которой любая пара соседних элементов находится попеременно то в одном столбце, то в од- одной строке; пусть а,-</< обозначает наименьший (положитель- (положительный) элемент в этой последовательности. Построим матрицу В ? Мп, в которой в позиции, соответствующей первому эле- элементу аи рассмотренной последовательности, поставим +1, в по- позиции второго элемента поставим —1, в позиции третьего эле- элемента— вновь +1 и т. д., с поочередным выбором ±1. Все остальные элементы в В положим равными нулю. Заметим, что
622 Гл. 8. Неотрицательные матрицы все строчные и столбцовые суммы матрицы В равны нулю. По- Положим Л+ = А + cti'j'B и Л_ = Л — acj'B. Заметим, что обе мат- матрицы А+ и Л_ неотрицательные (в силу минимальности элемента а«7') и их строчные и столбцовые суммы равны +1 (потому что строчные и столбцовые суммы для В равны 0), так что матрицы А+ и Л_ двоякостохастические. Имеем Л = A/2) Л+ + A/2) Л_ и Л+ =^= Л_, а это означает, что матрица Л не является крайней точкой для множества двоякостохастических матриц. Проведенное рассуждение показывает, что матрица является крайней точкой компактного выпуклого множества двоякосто- двоякостохастических матриц в том и только в том-случае, когда она есть матрица перестановки. Утверждение теоремы вытекает из того факта, что любая точка произвольного выпуклого компактного множества есть выпуклая комбинация его крайних точек. ? Поскольку в Мп имеется ровно п\ различных матриц пере- перестановок, в силу теоремы Биркгофа любая двоякостохастиче- ская матрица может быть выражена выпуклой комбинацией са- самое большее N = п\ матриц перестановок. Более глубокий ана- анализ показывает, что этих матриц не потребуется больше, чем N = п? — 2п + 2. Задачи 1. Пусть Л ? Мп — неотрицательная ненулевая матрица с по- положительным собственным вектором х = [xt ] и D = = diag (*ь ..., хп). Доказать, что р = р (А) > 0, Ах = рх (со- (согласно лемме 8.1.30) и ADe = pDe, где е ? R" — вектор, в кото- котором все координаты равны +1- Отсюда вывести, что А подобна (и подобие осуществляется диагональной матрицей с положи- положительной главной диагональю) положительному кратному (с ко- коэффициентом р (Л)) стохастической матрицы. Это наблюдение позволяет многие вопросы относительно неотрицательных мат- матриц с положительным собственным вектором сводить к анало- аналогичным вопросам относительно стохастических матриц. 2. Доказать, что множества стохастических и двоякостоха- двоякостохастических матриц в Мп компактные и выпуклые. 3. Показать, что каждое из множеств стохастических и двоя- двоякостохастических матриц в Мп образует полугруппу относитель- относительно умножения матриц; другими словами, если матрицы А, В ? ? Мп стохастические (двоякостохастические), то и матрица А В будет стохастической (двоякостохастической). 4. Доказать, что неотрицательная матрица А ? Мп является стохастической тогда и только тогда, когда Ае = е. 5. Доказать, что двоякостохастическая матрица порядка 2 симметрична и ее диагональные элементы равны.
8.7. Стохастические и двоякостохастические матрицы 623 6. Используя идеи, заложенные в доказательстве теоремы 8.7.1, придумать другое непосредственное доказательство, не опирающееся на результаты из приложения В, и построить алго- алгоритм представления двоякостохастическои матрицы в виде вы- выпуклой комбинации матриц перестановок. Указание. Если А не является матрицей перестановки, то, используя последователь- последовательность элементов, отмеченных в доказательстве теоремы 8.7.1, построить такую матрицу перестановки, что после вычитания ее положительного кратного из А остается неотрицательная мат- матрица с равными строчными и столбцовыми суммами; при этом в новой матрице по сравнению с А ненулевых элементов меньше по крайней мере на один. Далее продолжать по аналогии. 7. Показать, что запись в виде выпуклой комбинации, уста- устанавливаемая теоремой 8.7.1, неединственна. 8. Доказать, что если двоякостохастическая матрица А раз- разложима, то на самом деле А перестановочно подобна матрице вида [ 0* л I. Что можно сказать относительно Ах и Л2? Дополнительная литература Идея доказательства теоремы 8.7.1 взята из работы: Saun- der В., Schneider H., Application of the Gordon — Stiemke Theo- Theorem in Combinatorial Matrix Theory. —SIAM Rev., 1979, v. 21, p. 528—541; там же можно найти смежные факты. По поводу возможности записи любой двоякостохастическои матрицы в виде выпуклой комбинации не больше чем п2 — 2п + 2 матриц перестановок см. работу: Marcus M. Ree R. Diagonals of Doubly Stochastic Matrices. — Quart. J. Math. Oxford, Ser. 2, 1959, v. 10, p. 296—302.
Приложение А КОМПЛЕКСНЫЕ ЧИСЛА Комплексное число имеет вид г — а + ib, где а и b — вещественные числа и формальный символ i удов- удовлетворяет соотношению t2 = —1. Вещественное число а назы- называют вещественной частью числа z и обозначают Re z; вещест- вещественное число b называют мнимой частью z и обозначают 1т г. Комплексные числа г = a -f- ib и z = a — ib называют комп- комплексно-сопряженными, переход от числа г к z называют комп- комплексным сопряжением. Для пары комплексных чисел гх — ах-\- ibx и г2 = а2 + ib2 естественным образом (в терминах операций с вещественными числами) определяются бинарные операции сло- сложения и умножения: г1 + 22= (ах+ а2) + i (Ьх + b2), гггг- Таким образом, комплексное сложение является результатом сложения вещественных частей и сложения мнимых частей опе- операндов. Формула для комплексного умножения получается в ре- результате алгебраических преобразований с учетом соотношения /2 = —1. Противоположным к числу z ~ a + ib является комп- комплексное число —z = —a -f- i (—b). При z Ф 0 = 0 + *0 формулой 1 а — ib a . г а2 _i_ ?,2 а2 -f б2 V а2 + Ь определяется обратное к z число. Вычитание и деление задаются следующим образом: Множество всех комплексных чисел обозначается символом С. Это множество, наделенное указанными выше операциями сло- сложения й умножения, является полем с вещественным числом О = 0 + Ю в качестве нуля (аддитивной единицы) и веществен- вещественным числом 1 = 1 + Ю в качестве -(мультипликативной) еди- единицы. Операции сложения и умножения коммутативны и ассо-
Комплексные числа 625 циативны, связаны соотношением дистрибутивности и для них определены обратные операции вычитания и деления соответ- соответственно. Множество вещественных чисел R образует подполе в С. Неотрицательное число z = + (zz)l/2 называется модулем или абсолютной величиной комплексного числа z. Выражение для частного Zi/z2 можно записать, используя понятие модуля, в виде (l/\z2\2)ziZ2, если z2?z0. Легко проверить, что операции умножения и комплексного сопряжения коммутируют: z\Z2 = = Ziz2, и что комплексное сопряжение, примененное дважды, оставляет число неизменным. Поскольку Rez = (l/2) {z -f- z) и Imz = (l/2i)B — z), вещественные числа — это в точности все комплексные числа геС, для которых Iiri2 = 0 или, что экви- эквивалентно, z — z(=Rez). В геометрической интерпретации комплексные числа из С можно представить векторами на плоскости с началом коорди- координат в точке 0 и (ортогональными) «вещественной и мнимой осями». Таким образом, число z — a -f- ib можно отождествить с упорядоченной парой чисел (а, Ь). Вещественная ось {z: 1тг —0} есть просто обычная вещественная прямая. Мни- Мнимую ось {z: Re 2 = 0} можно трактовать просто как умножен- умноженную на i вещественную ось или как множество всех «чисто мнимых» чисел. Проекцией числа геС на вещественную (мни- (мнимую) ось является число Rez (соответственно ilmz). Комплекс- Комплексное сопряжение есть отражение числа относительно веществен- вещественной оси. Модуль \z\ совпадает с евклидовым расстоянием от точки z до начала координат комплексной плоскости. Множество {zeC: Rez>(^H} составляет открытую (замкнутую) пра- правую полуплоскость в С, аналогично {геС: 1тг>(^H} — это открытая (замкнутая) верхняя полуплоскость в С. Единичный круг в С есть множество {геС: \z\ ^ 1}, тогда как множество {геС: \г — а|^г} является кругом радиуса г с центром в точке аеС. В последнем абзаце комплексная плоскость С описана в тер- терминах прямоугольных координат. На ней полезно также ввести полярные координаты, в которых местоположение точки геС на плоскости определяется радиусом г окружности с центром в начале координат, на которой лежит точка z, и углом 9 между положительным направлением вещественной оси и направле- направлением от начала координат к точке z (угол измеряется в радиа- радианах против часовой стрелки). Тогда полярные координаты точ- точки z — это пара чисел (г, 9). Используется запись 2 = re'9, в ко- которой е'в = cos 9 -f- i sin 9. Таким образом, переход от представ- представления в полярных координатах z = rem к представлению в де- декартовых координатах z=a-\-ib осуществляется по формулам a = rcos9i 6 = г sin 9.
626 Приложение Обратный переход задается соотношениями (при гфО] г = | г I = (а2 + Ь2)Ч\ 9 = arcsin -у, в которых обычно угол 0 выбирается так, чтобы 0 ^ 8 ^ 2я. Многие объекты на комплексной плоскости проще описываются в полярных координатах. Например, единичный круг в С есть множество {rew: 0<г^1,0<в2}
Приложение В ВЫПУКЛЫЕ МНОЖЕСТВА И ФУНКЦИИ Через V обозначим векторное пространство над некоторым полем, содержащим поле вещественных чисел. Выпуклая комби- комбинация набора v\, ..., vk элементов пространства V есть линей- линейная комбинация с неотрицательными коэффициентами, сумма которых равна единице: ... +akvk; alf ...,ft, ? Множество К s V называют выпуклым, если любая выпуклая комбинация каждого набора элементов из К принадлежит К- В эквивалентной формулировке множество К выпукло, если все выпуклые комбинации каждой пары точек из К также принад- принадлежат К. На языке геометрии это означает, что в К должен целиком лежать любой отрезок с концами из К, т. е. множество не имеет «выбоин» или «дыр». Выпуклое множество К называют выпуклым конусом, если ахеК для любых а > О и хеК (эквивалентно, положительные линейные комбинации элемен- элементов из К принадлежат К). Прямая проверка показывает, что и объединение, и пересечение двух выпуклых множеств (соответ- (соответственно выпуклых конусов) — опять выпуклые множества (соот- (соответственно выпуклые конусы). Элемент замкнутого выпуклого множества К называют край- крайней точкой, если он может быть представлен в виде выпуклой комбинации точек из К только тривиальным образом, т. е. ра- равенство г = ах + A — а) у, 0 < а < 1, х, у е К, влечет за собой х = у = г1). Замкнутое выпуклое множество может иметь ко- конечное число крайних точек (например, многогранник), беско- бесконечно много крайних точек (например, замкнутый круг) или не иметь их вовсе (например, замкнутая верхняя полуплоскость в R2). Однако компактное выпуклое множество всегда имеет край- крайние точки. Символом Со (S) обозначают выпуклую оболочку множества 5 точек из V, которая является просто множеством всех выпуклых комбинаций всевозможных наборов точек из S, ') В геометрической интерпретации крайняя точка не является внутрея- ней ни для одного отрезка из множества К. — Прим. перев,
628 Приложение В. или, эквивалентно, «наименьшим» выпуклым множеством, со- содержащим множество 5 (т. е. пересечением всех таких выпук- выпуклых множеств). В теореме Крейна — Мильмана утверждается, что компактное выпуклое множество совпадает с выпуклой обо- оболочкой множества своих крайних точек. Компактное выпуклое множество с конечным числом крайних точек называют конечно порожденным, а сами крайние точки называются базисом дан- данного множества. Теперь предположим, что пространство V наделено вещест- вещественным скалярным произведением <•, •>. В теореме о разделе- разделении гиперплоскостью устанавливается, что для любых двух (непустых) непересекающихся выпуклых множеств К\ ? V и К2 s V существует гиперплоскость Н в V, разделяющая К\ и К2, т. е. множество К\ лежит в одном замкнутом полупространстве, определяемом гиперплоскостью Н, а множество /С2 — в другом. Гиперплоскость Н в пространстве V определяется просто как сдвиг на вектор р подпространства, ортогонального к вектору q, т. е. H—{x^V: (х— р, ^>=0} для заданных векторов р, ^eF, q ф0. Она определяет два открытых полупростран- полупространства Я+ = {* <= V: (х -p,q)> 0}, Н- = {х е V: (х - р, q)< 0} и два соответствующих замкнутых полупространства tit = = Н+U Н и #(Г = Н~ U Н. Таким образом, гиперплоскость раз~ деляет множества Ki и К% в том смысле, что К\ ? lit и Кч ^*//<Г для некоторой пары векторов р, q. При дополнительных пред- предположениях о двух выпуклых множествах можно говорить о раз- разделении их гиперплоскостью в более сильном смысле. Напри- Например, если не пересекаются замыкания множеств К\ и Кг, то можно добиться строгого разделения, т. е. К\ ? #+, Кг ? Н~, Замыкание выпуклой оболочки любого ограниченного множе- множества S а V можно получить как пересечение всех замкнутых полупространств, содержащих S. В случае когда V есть векторное пространство С" с комп- комплексным скалярным произведением <•, •>, гиперплоскости и по- полупространства определяются аналогично, следует лишь рас- рассматривать пространство С" как 2/г-мерное вещественное про- пространство R2n и перейти от <•, •> к вещественному скалярному произведению Г?е<-, •> следующим образом. Сопоставим друг другу элементы x + iyeCn и [J]eR-« и заметим, что в силу аксиом комплексного скалярного произведения справедливо ра- равенство Re<xi -f- iyu x2 + iy2y — <*r, *2> + (.Уи Уг>- Следова- Следовательно, выражение <дсь *2> + <Уи г/2> задает (вещественное) скалярное произведение элементов [*' J и [*]. Гиперплоскости
Выпуклые множества и функции и полупространства из R2n имеют подходящую геометрическую интерпретацию в С". Вещественнозначную функцию /, определенную на выпуклом множестве KsV, называют выпуклой, если для всех а, таких, что 0<а<1, н всех х, у е К, хФу, выполнено неравенство Если это неравенство всегда строгое, говорят о строгой выпук- выпуклости функции /. Если выполняется противоположное неравен- неравенство, функцию / называют вогнутой (или строго вогнутой, когда, кроме того, неравенство строгое). Эквивалентным образом вог- вогнутая (соответственно строго вогнутая) функция есть просто взятая со знаком минус выпуклая (соответственно строго выпук- выпуклая) функция. В геометрическом представлении хорда, соеди- соединяющая два произвольных значения f(x) и f(y) выпуклой (соот- (соответственно вогнутой) функции, расположена над (соответствен- (соответственно под) графиком этой функции. Линейная функция будет одно- одновременно выпуклой и вогнутой. В случае V=RN и открытого множества К для выпуклой функции / почти всюду в К сущест- существует гессиан') который является симметричной матрицей из M"(R) и положи- положительно полуопределен (в тех точках множества К, где он за- задан). Для строго выпуклой функции имеет место положительная определенность. Обратно, если всюду в выпуклом множестве гессиан некоторой функции положительно полуопределен (соот- (соответственно положительно определен), то эта функция выпукла (соответственно строго выпукла). Аналогично, отрицательная определенность гессиана соответствует вогнутости функции. Задачам оптимизации для выпуклых и вогнутых функций присущи некоторые приятные особенности. На компактном вы- выпуклом множестве максимум (соответственно минимум) выпук- выпуклой (соответственно вогнутой) функции достигается в крайней точке. С другой стороны, на выпуклом множестве локальный минимум (соответственно максимум) является глобальным ми- минимумом (соответственно максимумом) выпуклой (соответ- (соответственно вогнутой) функции и множество всех точек локального минимума (соответственно максимума) само является выпук- выпуклым. Например, строго выпуклая функция на выпуклом множе- множестве принимает свое минимальное значение не более чем в одной точке, и критическая точка обязательно будет точкой минимума. Выпуклые комбинации вещественных чисел подчиняются не- ') См. примечание переводчика к началу гл. 4. — Прим. перев.
Приложение В. которым простым, но часто используемым неравенствам. Если задан набор вещественных чисел х\, ..., хк, то для любой их выпуклой комбинации с коэффициентами си, ..., а* ^ 0, «1 + ... + а* = 1 имеют место оценки min xt <: Yj aixt ^ max xi- Различные классические неравенства можно вывести, рас- рассматривая некоторые простые выпуклые функции /(•) от одной переменной на интервале. Двухточечное неравенство (*) по ин- индукции влечет за собой п-точечное неравенство Z <*,**) < t a,f (xt), л = 2, 3, ..., (**) в котором си ^ 0, ai + • • • + ал = 1 и все точки xt принадлежат интервалу выпуклости функции /(•). Применение неравенства (*¦*) к строго выпуклой функции f(x) — —log* на интервале @, оо) приводит к неравенству между арифметическим и геометрическим средними с весами: »"=1 i=l Когда все а,- равны 1/гс, приходим к неравенству между арифме- арифметическим и геометрическим средними: 1/п Это неравенство обращается в равенство, только когда все числа Xi совпадают между собой. Применение неравенства (**) к функции f(x) = xp, p > 1, на интервале @, оо) приводит к неравенству Гёльдера: где х{,у{>0, р>\ и 1//>+1/<? = 1. Равенство здесь имеет место только для линейно зависимых векторов [jcf] и F#Jk Выбирая р = ^ = 2, получаем один из вариантов неравенства К.оши — Шварца: п \Ц2 / п \ 1/2 О (?«*) • Равенство здесь выполняется только для линейно зависимых векторов [xt] и [«/;]. И» неравенства Гёльдера можно вывести
Выпуклые множества и функции 631 неравенство Минковского: [п -ll/p / п \1/р /• п \1/р ?(*,+*«)'] <[?*) +(й»г) • где Xi, t/i>0 п р ^ I. Как и ранее, только для линейно зависи- зависимых векторов [xi] и [г/,] получается равенство. Дополнительная литература Более обширную информацию о выпуклых множествах и гео- геометрии можно найти в книге [Val]. Сведения о выпуклых функ- функциях и неравенствах имеются в [ВВ].
Приложение С ОСНОВНАЯ ТЕОРЕМА АЛГЕБРЫ Исторически причиной для введения комплексных чисел по- послужило то обстоятельство, что многочлены с вещественными коэффициентами могут не иметь вещественных корней. Напри- Например, формула для корней квадратного уравнения х2 — 2х + 2 = О приводит к решениям {1+'. 1—»'}• Все КОРНИ любого много- многочлена с вещественными коэффициентами принадлежат, однако, множеству комплексных чисел С. В действительности если рас- расширить область коэффициентов до поля С, то по-прежнему все нули всевозможных многочленов с комплексными коэффициен- коэффициентами остаются в С. Таким образом, С является примером алге- алгебраически замкнутого поля. Это означает, что нет такого рас- расширения F поля С, чтобы некоторый многочлен с коэффициен- коэффициентами из С обращался в нуль на элементе из F, не входящем в С. Основная теорема алгебры гласит, что любой многочлен р(х) степени не ниже первой с комплексными коэффициентами имеет по крайней мере один корень (т. е. существует хотя бы одно решение г уравнения р(х) = 0) в поле комплексных чисел. Используя деление многочленов, можно установить, что х — г делит р(х), если число г — корень многочлена р(х). Таким об- образом, справедливо представление р(х) = (х — z)q(x), в котором q(x) есть многочлен с комплексными коэффициентами на еди- единицу меньшей степени, чем многочлен р(х). Множество корней многочлена р(х) состоит из корней многочлена q{x) и числа г. Из основной теоремы алгебры вытекает следующее утверж- утверждение. Теорема. Многочлен степени п~^\ с комплексными коэффи- коэффициентами имеет в точности п, учитывая кратности, корней в поле комплексных чисел. Кратность корня z уравнения р(х) = 0 есть наибольшее це- целое k, при котором степень (x — z)" делит многочлен р(х); та- таким образом, это число указывает, сколько раз г появляется з качестве корня уравнения p(z) = 0. Если корень z имеет крат- кратность 3, то он учитывается трижды при подсчете числа п корней уравнения р(х) — 0. Следовательно, многочлен с комплексными
Основнаятеорема алгебры коэффициентами всегда можно разложить на линейные множи- множители над полем комплексных чисел. Если многочлен с вещественными коэффициентами имеет не- несколько комплексных (невещественных) корней, то они обяза- обязательно образуют сопряженные пары, поскольку равенство 0 = = p(z) влечет-за собой 0 — 0 = p(z) = p(z). В силу соотноше- соотношения (х - г) (х - г) = х2 - 2 Re (z) x +1 z ? любой многочлен с вещественными коэффициентами можно раз- разложить в произведение линейных и квадратных сомножителей с вещественными коэффициентами. Каждый неразложимый квадратный сомножитель отвечает сопряженной паре комплекс- комплексных корней. Дополнительная литература Элементарное доказательство основной теоремы алгебры приводится в [Chi].
Приложение D НЕПРЕРЫВНАЯ ЗАВИСИМОСТЬ КОРНЕЙ МНОГОЧЛЕНОВ ОТ ИХ КОЭФФИЦИЕНТОВ Имеется важный факт, который проще всего доказать при помощи методов теории функций комплексного переменного, что п корней многочлена степени п ^ 1 с комплексными коэффици- коэффициентами зависят от этих коэффициентов непрерывно. Пусть х е С» и f(x) = [/, (х), ...,fm (х)]т, где /,: С" -> С, /—1, ..., п. Функция /: С"->Ст непрерывна в точке х, если каждая функция f{, /= 1, ..., т, непрерывна в точке х. Функ- Функция f^. C"->C непрерывна в точке х, если для любого е>0 найдется такое б > 0, что из || у — х ||< б следует | ft (у) — f{ (x) | < < е, где || • || — векторная норма на пространстве С". Результат о непрерывной зависимости корней интуитивно можно было бы сформулировать следующим образом: функция (: С"->С", осуществляющая отображение п коэффициентов (при старшей степени коэффициент считается равным единице) мно- многочлена степени п в п корней данного многочлена, является не- непрерывной. Однако для этой функции трудно дать точное опре- определение, поскольку нет естественного способа упорядочения множества из п (комплексных) корней. Строгое утверждение о непрерывной зависимости корней многочлена от его коэффи- коэффициентов мы сформулируем следующим образом. Теорема. Пусть п~^\ и задан многочлен р (х) = апхп + an_iXn~[ -f- ••• + <*iX + а0, апф=0 с комплексными коэффициентами. Тогда для любого е > 0 су- существует такое б > 0, что для произвольного многочлена с ненулевым коэффициентом Ьп Ф 0, такого, что max \at — b{ | < б, выполнено неравенство min max | Я/ — ЩтКв. где %и ..., Ял — корни многочлена р(х) и щ, .... ц« — корни многочлена q(x), записанные в произвольном порядке, с учетом
Непрерывная зависимость корней многочленов 635 кратности, и минимум берется по всем перестановкам т индексов 1, 2, .... п. Таким образом, достаточно малое изменение коэффициентов многочлена может привести только к малому изменению каж- каждого из его корней. Этот принцип играет фундаментальную роль в матричном анализе, поскольку коэффициенты характеристиче- характеристического многочлена pA(t) матрицы А е Мп являются непрерыв- непрерывными функциями (в действительности многочленами) от элемен- элементов матрицы А (см. A.2.11)) и корни многочлена рл(О суть собственные значения матрицы А. В силу непрерывности компо- композиции непрерывных функций заключаем, что достаточно малые изменения элементов матрицы А будут вызывать только малые изменения в коэффициентах многочлена рд((), что влечет за собой лишь малые изменения в собственных значениях. Таким образом, собственные значения квадратной вещественной или комплексной матрицы непрерывно зависят от ее элементов. Дополнительная литература Явные границы уклонения е между корнями многочленов р(х) и q (x) в терминах разделения коэффициентов б и вели- величины коэффициентов имеются в статье: Eisner L. On the Varia- Variation of the Spectra of Matrices. — Linear Algebra Appl., 1982, v. 47, p. 127—138.
Приложение Е ТЕОРЕМА ВЕЙЕРШТРАССА Пусть V — конечномерное вещественное или комплексное векторное пространство с нормой ||-||. Определим шар радиуса е с центром в точке х равенством Ве(х) = {у е V: \\у — д:|| ^ е}. Множество 5 s V называют открытым, если для каждого эле- элемента xeS существует такое е > 0, что имеет место включение Be(x)'=S. Множество Т <=]/ называют замкнутым, если допол- дополнение множества Т в пространстве V открыто. Множество Ss V называют ограниченным, если найдется число г > О, при кото- котором SsBr(O) (т. е. S содержится в некотором шаре конечного радиуса). Эквивалентным образом множество Т замкнуто тогда и только тогда, когда предел любой сходящейся (по норме ||-||) последовательности элементов из Т также принадлежит Г. Одновременно замкнутое и ограниченное множество 5 s V (в конечномерном пространстве V) называют компактным1). Заданная функция f: S-^R, 5 s V может достигать или не достигать своих (глобальных) максимального и минимального значений на 5. Однако часто имеются некоторые обстоятель- обстоятельства, при которых можно быть уверенным, что функция / при- принимает свои экстремальные значения на множестве S. Теорема (Вейерштрасс). Пусть S — компактное множество в конечномерном вещественном или комплексном векторном про- пространстве V. Если функция f: S->-R непрерывна, то существует такая точка хтщ е 5, что f(xmmX:f(x) для всех *e=S, и существует такая точка xmax e S, что / (Яшах) для вСвХ X ^ S. Это означает, что функция f достигает своего минимума и максимума на 5. Конечно, функция f может принимать каждое из значений max f(x) и min/C*:) более чем в одной точке. Если ') См. примечание переводчика к определению 5.5.3. — Прим. перев.
Теорема Вейерштрасса 637 хотя бы одно из ключевых допущений (компактность 5 или не- непрерывность f) теоремы Вейерштрасса не принимать во внима- внимание, то заключение теоремы становится, вообще говоря, невер- неверным. Однако предположение о включении 5 как подмножества в конечномерное вещественное или комплексное векторное про- пространство является несущественным. Теорема Вейерштрасса верна и для непрерывной вещественнозначной функции на ком- компактном множестве произвольного топологического простран- пространства, если подходящим образом обобщить понятие компактности.
ЛИТЕРАТУРА [Ait] Aitken А. С. Determinants and Matrices. 9th ed. — Oliver and Boyd, Edinburgh, 1956. . [Bar 75] Barnett S. Introduction to Mathematical Control Theory. — Claren- Clarendon Press, Oxford, 1979. [Bar 79] Barnett S. Matrix Methods for Engineers and Scientists. — McGraw- Hill, London, 1979. [Bar 83] Barnett S. Polynomials and Linear Control Systems. — Dekker, New York, 1983. [BB] Beckenbach E. E., Bellman R. Inequalities. — Springer-Verlag, New York, 1965. [Имеется перевод: Беккенбах Э., Беллман Р. Неравен- Неравенства. — М.: Мир, 1965.] [Bel] Bellman R. Introduction to Matrix Analysis. 2d ed. — McGraw-Hill, New York, 1970. [Имеется перевод: Беллман Р. Введение в теорию матриц. — М.: Наука, 1969.] [Boa] Boas R. P., Jr. A Primer of Real Functions, 2d ed. — Carus Mathe- Mathematical Monographs, No. 13. Mathematical Association of America, Washington, D. C, 1972. [BP1] Berman A., Plemmons R. Nonnegative Matrices in the Mathematical Sciences. — Academic Press, New York, 1979. [BSt] Barnett S., Storey C. Matrix Methods in Stability Theory. — Barnes & Noble, New York, 1970. [CaLe] Carpenter J. A., Lewis R. A. KWIC Index for Numerical Algebra. — U. S. Dept. of Commerce, Springfield, Va. Microfiche and printed versions available from National Technical Information Service, U. S. Dept. of Commerce, 5285 Port Royal Road, Springfield VA 22161. [Chi] Childs L. A Concwete Introduction to Higher Algebra. — Springer. Verlag, Berlin 1979. [Cul] Cullen C. G. Matrices and Linear Transformations. — Addison-Wes- ley, Reading, Mass., 1966. [Don] Donoghue W. F., Jr. Monotone Matrix Functions and Analytic Con- Continuation.— Springer-Verlag, Berlin, 1974. [Fad] Фаддеев Д. К., Фаддеева В. Н. Вычислительные методы линейной : алгебры. — М. — Л.: Физматгиз, 1963. [Fan] Ky Fan. Convex Sets and Their Applications. — Lecture Notes, Applied Mathematics Division, Argonne National Laboratory Sum- Summer 1959. ........ [Fie] Fiedler M. Spectral Properties of Some Classes of Matrices. — Lec- Lecture Notes. Report No. 76.01 R. Chalmers University of Technology and the University of Goteborg, 1975. [Fra] Franklin J. Matrix Theory. — Prentice-Hall, Englewood Cliffs N J 1968. - [Gan] Гантмахер Ф. Р. Теория матриц. Часть I, Основы теории. — M.j Наука, 1966.
Литература 639 [Gant] Гантмахер Ф. Р, Теория матриц. Часть II. Специальные вопросы и приложения. — М.: Наука, 1966. [GKr] Гантмахер Ф. Р., Крейн М. Г. Осцилляционные матрицы и ядра и малые колебания механических систем. — М.: Гостехиздат, 1950. [GLR 82] Gohberg I., Lancaster P., Rodman L. Matrix Polynomials. Acade- Academic Press, New York, 1982. [CLR 83] Gohberg I., Lancaster P., Rodman L. Matrices and Indefinite Scalar Products. Birkhauser-Verlag, Boston, 1983. [Grah] Graham A. Kronecker Products and Matrix Calculus with Applica- Applications. — Horwood, Chichester, U. K., 1981. [Gray] Graybill F. A. Matrices with Applications to Statistics. 2d ed. — Wadsworth, Belmont, Calif., 1983. [Gre] Greub W H. Multilinear Algebra. 2d ed. — Springer-Verlag, New York, 1978. [GVI] Golub G., VanLoan C. Matrix Computations. — Johns Hopkins Uni- University Press, Baltimore, 1983. [Hal 58] Halmos P. R. Finite-Dimensional Vector Spaces. — Van Nostrand, Princeton, N. J., 1958. [Имеется перевод: Халмош П. Конечномер- Конечномерные векторные пространства. — М.: Физматгиз, 1963.] [Hal 67] Halmos P. R. A Hilbert Space Problem Book. — Van Nostrand, Princeton, N. J. 1967. [Имеется перевод: Халмош П. Гильбертово пространство в задачах. — М.: Мир, 1970.] [HJ] Horn R., Jonhson С. Topics in Matrix Analysis. — Cambridge Uni- University Press, Cambridge, 1988. [HKu] Hoffman K., Kunze R. Linear Algebra. 2d ed. — Prentice-Hall, Eng- lewood Cliffs, N. J., 1971. [Hou 64] Householder A. S. The Theory of Matrices in Numerical Analy- Analysis. — Blaisdell, New York, 1964. [Heu 72] Householder A. S. Lectures on Numerical Algebra. — Mathematical Association of America, Buffalo, N. Y., 1972. [HSm] Hirsch M. W., Smale S. Differential Equations, Dynamical Systems, and Linear Algebra. — Academic Press, New York, 1974. [Jac] Jacobson N. The Theory of Rings. — American Mathematical Society, New York, 1943. [Имеется перевод: Джекобсон Н. Теория колец.— М.: ИЛ, 1947.] [Кар} Kaplansky I. Linear Algebra and Geometry: A Second Course.— Allyn & Bacon, Boston, 1969. Шаг] Rarin S. Total Positivity. — Stanford University Press, Stanford, Calif., 1960. [Kel] KeMogg R. Б. Topics in Matrix Theory. — Lecture Notes, Report No. 71.04. Chalmers Institute of Teehnolgy and the University of G6teborg, 1971. |K©w) Kffwalsky H. Lineare Algebra, 4tn ed. — deGmyter, Berlin, L969. [LaHJ Lawson C, Hanson R. Solving Least Squares Problems. — Prentice- Hall, Englewood Cliffs, N. J., 1974. [Имеется перевод: Лоусон Ч., Хенсоя Р. Численное решение задач метода наименьших квадра- квадрате». — М.: Наужа, 1986.J [Lan] Lancaster P. Theory of Matrices. — Academic Press, New York, r969. [Имеется перевод: Ланкастер П. Теория матриц. — М.: Нау- Наука, 1878.) [LaTij Lancaster P., Tismenetsfcy M. The Theory of Matrices With Applica- Applications. 2d ed. —Academic Press, New York, 1985. [Mac] MacDuffee С. С The Theory of Matrices. — Chelsea, New York, 1946 [Mar] Marcus M. Finite Dimensional Multilinear Algebra. 2 vols. — Dek- ker, New York, 1973—75.
640 Литература [Mir] Mirsky L. An Introduction to Linear Algebra. — Clarendon Press, Oxford, 1963. [MMi] Marcus M., Mine H. A Survey of Matrix Theory anf Matrix Ine- Inequalities.— Allyn and Bacon, Boston, 1964. [Имеется перевод: Мар- Маркус M., Минк X. Обзор по теории матриц и матричных нера- неравенств. — М.: Наука, 1972.] [МО1] Marshall A. W., Olkin I. Inequalities: Theory of Majorization and Its Applications. — Academic Press, New York, 1979. [Имеется пе- перевод: Маршалл А., Олкин И. Неравенства теории мажоризации и ее приложения. — М.: Мир, 1983.] [Mui] Muir T. The Theory of Determinants in the Historical Order of Development. 4 vols. — MacMillan, London, 1906, 1911, 1920, 1923; Dover, New York, 1966. Contributions to the History of Determi- Determinants, 1900—1920. — Blackie, London, 1930. [Ner] Nering E. Linear Algebra and Matrix Theory. 2d ed. — Wiley, New York, 1963. [New] Newman M. Integral Matrices. — Academic Press, New York, 1972. [Nob] Noble B. Applied Linear Algebra. — Prentice-Hall, Englewood Cliffs, N. J., 1969. [Per] Perlis S. Theory of Matrices. — Addison Wesley. Reading. Mass., 1952. [Rog] Rogers G. S. Matrix Derivatives. — Lecture Notes in Statistics, Vol. 2. Dekker, New York, 1980. [Rud] Rudin W. Principles of Mathematical Analysis. 3rd ed. — McGraw- Hill. New York., 1976. [Имеется перевод: Рудин У. Основы мате- математического анализа. — М.: Мир, 1976.] [Sen] Seneta E. Nonnegative Matrices. — Wiley, New York, 1973. [Ste] Stewart G. W. Introduction to Matrix Computations. — Academic Press, New York, 1973. [Str] Strang G. Linear Algebra and Its Applications. — Academic Press, New York, 1976. [Имеется перевод: Стренг Г. Линейная алгебра и ее применения. — М.: Мир, 1980.] [STy] Suprunenko D. A., Tyshkevich R. I. Commutative Matrices. — Aca- Academic Press, New York, 1968. [Tod] Todd J. (ed.) Survey of Numerical Analysis. — McGraw-Hill New York, 1962. [TuA] Turnbull H. W., Aitken A. C. An Introduction to the Theory of Canonical Matrices. — Blackie, London, 1932. [Tur] Turnbull H. W. The Theory of Determinants, Matrices and Inva- Invariants.— Blackie, London, 1950. [Val] Valentine F. A. Convex Sets. — McGraw-Hill, New York, 1964. [Var] Varga R. S. Matrix Iterative Analysis. — Prentice-Hall, Englewood Cliffs, N. J., 1962. [Wed] Wedderburn J. H. M. Lectures on Matrices. — American Mathema- Mathematical Society Colloquium Publications XVII. American Mathematical Society, New York, 1934. [WIe] Wielandt H. Topics in the Analytic Theory of Matrices. — Lecture Notes prepared by R. Meyer. Department of Mathematics, Univer- University of Wisconsin, Madison, 1967. [Wil] Wilkinson J H. The Algebraic Eigenvalue Problem. — Clarendon Press, Oxford, 1965. [Имеется перевод: Уилкинсон Дж. Алгебраи- Алгебраическая проблема собственных значений. — М.: Наука, 1970.]
УКАЗАТЕЛЬ ОБОЗНАЧЕНИЙ R поле вещественных чисел R" вещественное векторное пространство, состоящее из п- членных наборов с вещественными компонентами, Мп, j(R) С поле комплексных чисел С" комплексное векторное пространство, состоящее из л-член- ных наборов с комплексными компонентами, М„, ^С) F поле (обычно R или С) F" векторное пространство (над F), состоящее из п-членных наборов с компонентами из F •М/п, п (F) множество т X п- матриц с элементами из F Мт<п множество комплексных т X л-матриц, Мт, „(С) Мп множество комплексных п X л-матриц, Мп(С) А, В, С к т. д. матрицы; А = [а,7] е Mm, „(F) X, у, г я Т. д. вектор-столбцы; х = [*/] s F" / единичная матрица 0_ нулевой скаляр, нулевой вектор, нулевая матрица А матрица, составленная из комплексно-сопряженных к эле- элементам матрицы <4еМШ|,(С) Л транспонированная к матрице А аМЯ| n(F) А* сопряженная к матрице A sAfm, „(С), JF А~ обратная к невырожденной матрице A eAfn(F) А " единственный положительно полуопределенный квадратный корень из положительно полуопределенной матрицы АеМа \А\ матрица абсолютных значений элементов матрицы А^Мт, » А* обобщенная обратная матрица Мура — Пенроуза для мат< РИЦЫ A S Мт, п adj А классическая присоединенная матрица для матрицы Ae=Mn(F) w базис векторного пространства 1-й вектор естественного базиса в F" (обычно) координатное представление вектора v в базисе ЗИ представление линейного преобразования Т в паре базисов I . j биномиальный коэффициент Pa @ характеристический многочлен матрицы A s Mn (F) к (Л) число обусловленности невырожденной матрицы Л е Af« по отношению к данной матричной норме (let Л определитель матрицы A eAf,,(F) ф прямая сумма Г (Л) ориентированный граф матрицы AeAfn(F) О • || двойственная норма к норме
642 Указатель обозначений / (•) двойственная норма к полунорме Л собственное значение матрицы А е Мп (обычно) [Я/ (А)]; 0 (А) множество собственных значений (спектр) матрицы если А эрмитова, то обычно полагают h ^ %2 ^ . «! п факториал, п (я — 1) (п — 2)... 2-1 G {А) область Гершгорина матрицы А е Мп GL(n,F) группа невырожденных матриц в М„(?) А°В произведение Адамара матриц А, В е= Мт, n(F) ¦у (А) индекс примитивности примитивной матрицы А М (А) индикаторная матрица для А е Мт, „ Jk (Я) жорданов блок размера k X k с собственным значением X q . (t) минимальный многочлен матрицы А е Mn(F) И • ||| /i-норма на С"; максимальная столбцовая норма на Мп j • jlj /г-норма (евклидова норма) на С; спектральная норма па Мл Ц • |'во /«.-норма на С"; максимальная строчная норма на Мя || • |)р /р-норма на С" II • |l|t /i-норма на М„ | • 1В /2-норма (евклидова норма) на Мя ||« II/ /с»-норма на Л1Я ОО г (Л) числовой радиус матрицы А е Af» (обычно) ортогональное дополнение Регл перманент матрицы А^М„{?) sSn знак перестановки [О| И)] множество сингулярных чисел матрицы А е М„, „; обычно полагают ах >о2> ... >amin {от „, <fi (j4) наибольшее сингулярное число матрицы А е Afm, „, WAfte Span S линейная оболочка подмножества S векторного простран- пространства р (А) спектральный раднус матрицы A s М„ А(а, р) подматрица матрицы ^4 s Afm, b(F), лежащая в строках е номерами из подмножества айв столбцах с номерами яэ множества Р tr А след rank Л ранг матрицы А е Afm, n(F)
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ абсолютная векторная норма (abso- (absolute vector norm) 345 — величина (absolute value) 625 — однородность (homogeneity) 313, 327, 351 аддитивность (additivity) 314 алгебраическая кратность (algebraic multiplicity) 76 алгебраически замкнутое поле (alge- (algebraically closed field) 56, 632 — простое собственное значение (sim- (simple eingenvalue) 442 алгебраическое дополнение (cofactor) 30 Q/J-алгоритм (QR algorithm) 142 ассоциированная матрица (compound matrix) 32 базис векторного пространства (ba- (basis of vector space) 14 — выпуклого множества (generators of convex set) 628 бесконечномерное векторное про- пространство (infinite-dimensional vec- vector space) 15 блочно-диагональная матрица (block diagonal matrix) 38 блочное разбиение (partition) 30 вектор (vector) 13 — невязки (residual) 407 векторная норма (vector norm) 312 — — порожденная скалярным произ- произведением (derived from inner pro- product) 316 — полунорма (seminorm) 313 векторное пространство (vector spa- space) 13 верки я я блочно-треугольная матрица (block upper triangular matrix) 39 — полуплоскость (upper half-plane) 625 — строго блочно-треугольная матри- матрица (strictly block upper triangular matrix) 39 треугольная матрица (strictly upper triangular matrix) 39 — треугольная матрица (upper trian- triangular matrix) 38 — хессенбергова матрица (upper Hes- senberg matrix) 43 ¦ форма (form) 43 вершина (node) 201 вещественная жорданова канониче- каноническая форма (real Jordan canonical form) 184 — ортогональная матрица (orthogo- (orthogonal matrix) 85 — ось (axis) 625 — часть (part) 624 внутреннее произведение (inner/ sca- scalar product) 27 — точка (interior point) 341 •'¦; вогнутая функция (concave function) 629 в основном треугольная матрица (es- (essentially triangular matrix) 40 выпуклая комбинация (convex com- combination) 627 — оболочка (hull) 627 — функция (function) 629 выпуклое множество (convex set) 627 выпуклый конус (convex cone) 549, 627 вырожденная матрица (singular mat- matrix) 26 вырожденное отображение (singular transformation) 26 ганкелева матрица (Hankel matrix) 42, 243, 467 геометрическая кратность (geometric multiplicity) 76 гессиан (Hessian) 200, 465 Гиперболический оператор (hyperbolic operator) 288
644 Предметный указатель гиперплоскость (hyperplane) 628 главная подматрица (principal sub- matrix) 30, 55 главный минор (principal minor) 30 граница множества (boundary of a set) 341 группа (group) 88 — изометрий (isometry group) 321 двойственная норма (dual norm) 332, 487 — пара по отношению к норме (pair with respect to a norm) 335—336 двойственное множество к вектору (dual of a vector) 335 двоякостохастическая матрица (doub- (doubly stochastic matrix) 236, 620 дефектная матрица (defective matrix) 77 дефект нормальности (defect from normality) 380 диагонализуемая матрица (diagonali- zable, diagonable matrix) 62 диагональная матрица (diagonal mat- matrix) 37 длина пути (length of a path) 428 доминирующее собственное значение (dominant eigenvalue) 597 дополнение по Шуру (Schur comple- complement) 35 евклидова векторная норма (Eucli- (Euclidean vector norm) 319 — длина (length) 27 — матричная норма (matrix norm) 352 единичная матрица (identity) 17 единичный вектор (unit vector) 27 — круг (disc) 625 — шар (ball) 340 естественный базис (standard basis) 18 жор данов блок (Jordan blok) 148 жорданова каноническая (нормаль- (нормальная) форма (Jordan canonical (nor- (normal) form) 148 — клетка (block) 148 — матрица (matrix) 148 задача интерполяции (interpolation problem) 44 закон инерции Сильвестра (Sylvester's law of inertia) 268 ¦— обращения порядка (reverse-order law) 18 замена базиса (change of a basis) 48 замкнутое множество (closed set) 341, 636 замыкание (closure) 341 идеально обусловленная матрица (perfectly conditioned matrix) 404 идемпотентная матрица (idempotent matrix) 53, 179, 375 изометричное линейное преобразова- преобразование (isometry) 87 изометрия для векторной нормы (iso- (isometry for a vector norm) 321 изоморфизм (isomorphism) 15 изоморфные векторные пространства (isomorphic vector spaces) 15 Л-инвариантное подпространство (Л- invariant subspace) 68 ^"-инвариантное подпространство (ST. invariant subspace) 68 инвариантные множители (invariant factors) 186 инварианты подобия (similarity in- invariants) 61 индекс нильпотентности (index of nil- potence) 53 — примитивности (of primitivity) 66 — собственного значения (of an eigenvalue) 170, 179 индикаторная матрица (indicator mat- matrix) 427 индуцированная матричная норма (induced matrix norm) 353 инерция (inertia) 266 интерполяционная формула Лагранжа (Lagrange interpolation formula) 45 исчерпывание (diflation) 82 квадратная матрица (square matrix) 16 квадратный корень (square root) 72 квазилинеаризацня (quasi-lineariza- tion) 537 квазниорма (pre-norm) 328 (классическая) присоединенная мат- матрица (classical adjont) 33 ковариационная матрица (матрица ковариации) (covariance matrix) 466 кольцевое свойство (submultiplicati- vity) 351 комбинаторно симметричная матрица (combinatorially symmetric matrix) 616
Предметный указатель 645 коммутативное кольцо (commutative ring) 120 — семейство матриц (commuting fa- family of matrices) 68 коммутатор (commutator) 123 компактное множество (compact set) 342, 636 комплексная ортогональная матрица (complex orthogonal matrix) 92 комплексное число (complex num- number) 624 комплексно-сопряженные числа (com- (complex conjugate numbers) 624 конгруэнтные матрицы (rcongruent, tea-congruent matrices) 265 ^конгруэнтные матрицы (rcongruent matrices) 265 •конгруэнтные матрицы (*congruent matrices) 265 конечномерное векторное простран- пространство (finite-dimensional vector spa- space) 15 конечно порожденное выпуклое мно- множество (finitely generated convex set) 628 координатное представление вектора (coordinate representation of a vec- vector) 45 координаты (coordinates) 45 корреляционная матрица (correlation matrix) 475 косоортогональная матрица (skew- orthogonal matrix) 92 кососимметричная матрица (skew- symmetric matrix) 261 косоэрмитова матрица (skew-Hermi- ten matrix) 125, 203 косоэрмитова часть (компонента) матрицы (skew-Hermitian part of a matrix) 136, 474 крайний луч (extreme ray) 549 крайняя точка (extreme point) 627 кратность (multiplicity) 76 круг Гершгорина (Gerigorin disc) 415 левый собственный вектор (left eigen- eigenvector) 77 линейная оболочка (span) 14 — функция (linear function) 27 линейно зависимое подмножество (li- (linearly dependent subset) 14 — независимое подмножество (inde- (independent subset) 14 линейное отображение (linear trans- transformation) 16 — преобразование (transformation) 16 мажоризация (majorization) 231 максимальная столбцовая норма (ma- (maximum colomn sum matrix norm) 356 — строчная норма (row sum matrix norm) 356 максимальный элемент (maximal ele- element) 458 манхеттен-норма (Manhatten-norm) 320 матрица (matrix) 16 — ассоциированная (compound) 32 — блочно-диагональная (block diago- diagonal) 38 — блочно-треугольная (block triangu- triangular) 39 —• Вандермонда (Vandermonde mat- matrix) 43 — вещественная ортогональная (real orthogonal) 85 — в основном треугольная (essential- (essentially triangular) 40 — вырожденная (singular) 26 — ганкелева (Hankel matrix) 42, 243, 467 — Гильберта (Hilbert matrix) 411 — Грана (Gram matrix) 483 ¦— двоякостохастическая (doubly sto- stochastic) 236, 620 — дефектная (defective) 77 — диагонализуемая (diagonalizable, diagonable) 62 — диагональная (diagonal) 37 неотрицательная (nonnegative) 37 положительная (positive) 37 — единичная (identity) 17 — жорданова (Jordan matrix) 148 — идеально обусловленная (perfectly conditioned) 404 — идемпотентная (idempotent) 53, 179, 375 — индикаторная (indicator) 427 — инерции (inertia matrix) 267 — квадратная (square) 16 — (классическая) присоединенная (classical adjoint) 33 — ковариации (или ковариационная) (covariance matrix) 264, 466 — комбинаторно симметричная (com- binatorially symmetric) 616 — комплексная ортогональная (com» plex orthogonal) 92 — корреляционная (correlation mat< rix) 475 — косоортогональная (skew-orthogo* nal) 92
646 Предметный указатель — кососимметричная (skew-symmet- (skew-symmetric) 261 — косоэрмитова (skew-Hermitian) 125, 203 — коэффициентов (coefficient) 24 — Мура— Пенроуза обобщенная об- обратная (More—Penrose generalized inverse) 500 — невырожденная (nonsingular) 26 —¦ недефектная (nondefective) 77 — незнакоопределенная (indefinite) 472 — неотрицательная (nonnegative) 429, 580 в главном (essentially) 596 — неразложимая (irreducible) 432 — нильпотентная (nilpotent) 53, 169 — нормальная (normal) 125 — обратимая (invertible) 2, 6 — обратная (inverse) 26 — ортогональная (orthogonal) 91,92 — ортогонально диагонализуемая (orthogonally diagonalizable) 126 — ертостохастическая (orthostochas- tic) 236 — отрицательно определенная (ne- (negative definite) 471 полуопределенная (semidefini- te) 471 — перестановки (permutation matrix) 39, 430 основная циркулянтная (basic circulant) 41 — перехода от Мг к &\C&\-93i chan- change of basis) 47 — перъединичная (backward identity) 42, 250 — плохо обусловленная (ill (poorly)? conditioned) 404 — положительная (positive) 429, 580 -^ поаежителыго определенная (po- (positive definite) 302, 471 полуопределениая (semidefini- te) 218, 471 — представляет линейное отображе- отображение (represents a linear transfor- transformation 16 — приводящаяся к диагональному виду неевдоподобйем 294 — треугольному виду псевдо- псевдоподобием- 294 — примитивна* (primitive) 608 — простая (noneerog-atory) 77, 16S — иеевдедиагенализуемая (condiago- nalizable) 294 -i- иеевдотриаягуляриэуема» (contrla- gularizable) 294 — псевдообратная 500 — разложимая (reducible) 431 — расширенная (системы уравнений) (augmented (of a linear system)) 24 — с диагональным преобладанием (diagonally dominant) 418 — симметричная (symmetric) 49,200 — скалярная (scalar) 18, 37 — слабо неразложимая (weakly irre- irreducible) 457 — смежности (adjacency) 202 — сопровождающая (companion) 178, 181, 381 — сопряженная (Hermitian adjont) 18 — со строгим диагональным преобла- преобладанием (strictly diagonally domi- dominant) 365, 418 — стохастическая (stochastic) 619 — строго блочно-треугольная (strict- (strictly block triangular) 39 треугольная (triangular) 38 — субперестановки (sub-permutation) 198 — сходящаяся (convergent) 167, 360 — тёплицева (Toeplitz matrix) 41, 468 — транспонированная (transpose) 18 — трансформирующая (similarity) 61 — треугольная (triangular) 38 — трехдиагональная (tridiagonal) 43 — трипотентная (tripotent) 179 — унитарная (unitary) 85 — унитарно диагонализуемая (unita- rily diagonalizable) 126 псевдодиагонализуемая (con- diagonalizable) 294 псевдотриангуляризуемая (con- triangularizable) 294 — хессенбергова (Hessenberg matrix) 43 — хорошо обусловленная (well con- conditioned) 404 — циклическая (cyclic) 606 — циркулянтная (circulant) 40 — эрмитова (Hermitian) 53, 203 i,d,d,-матрица (irreducibly diagonal- diagonally dominant) 433 матрицы (вещественно) ортогонально эквивалентные ((real) orthogonally equivalent matrices У 93 — конгруэнтные (^congruent, tea-eon- graent) 265 — 'конгруэнтные Peongruent) 265 — 'конгруэнтные (*congruent) 265 — одновременно диагонализуемые (simultaneously diagonalizable) 66
Предметный указатель 647 — перестановочно подобные (permu- (permutation similar) 183 — подобные (similar) 48, 58, 61 •— псевдоподобные (consimilar) 294 — унитарно подобные (unitarily si- similar) 93 ¦ псевдоподобные (consimilar) 294 — — эквивалентные (equivalent) 93 — эквивалентные (equivalent) 199 — эрмитово конгруэнтные (* con- congruent, star-congruent) 265 матричная норма (matrix norm) 290 — — подчиненная векторной норме (induced by a vector norm) 355 метод Гивенса (Givens's method) 97 — Хаусхолдера (Householder) 99 — Якоби (Jacobi) 97 минимальная матричная норма (mi- (minimal matrix norm) 369 минимально спектрально преобладаю- преобладающая норма (minimally spectrally dominant norm) 397 минимальный многочлен (minimal po- polynomial) 112, 174 минор (minor) 30 мнимая ось (imaginary axis) 625 — часть (part) 624 многочлен, аннулирующий матрицу (annihilating polynomial for a mat- " rix) 173 •— от матрицы (polynomial in a mat- matrix) 51 модифицированный процесс Грамма— Шмидта (modified Gram — Schmidt process) 144 модуль комплексного числа . (abso- (absolute value of a complex number) 625 моменты собственных значений (mo- (moments of eigenvalues) 59 — 'Теплица (Toeplitz moment sequen- sequence) 468 - — Хаусдорфа (Hausdorf f moment sequence) 467 монотонная векторная норма (mono- (monotone vector norm) 345 невырожденная матрица, {nonsingular matrix) 26 невырожденное отображение ^подшп- gular transformation) 26 ,,: недефектная матрица {nondefeetive matrix) 777 . . . ' незяакоопределенная матрица .{inde- - finite matrix) 472 . , неотрицательная в главном матрица (essentially nonnegative matrix) 596 — диагональная матрица (nonnega- (nonnegative diagonal matrix) 37 — матрица (nonnegative matrix) 429, 580 неотрицательность (nonnegativity) 312, 314, 351 непрерывная функция (continuous function) 634 непрерывность (continuity) 327 неравенство Адамара (Hadamard's inequality) 565 — Адамара—Фишера (Hadamard— Fischer) 573 — Виландта (Wielandt's) 425, 426 — Гёльдера (Holder) 332, 630 — Грунского (Grunsky) 342 — Коши—Шварца (Cauchy—Schwarz) 314, 630 — между арифметическим и геомет- геометрическим средними (с весами) ((weighted) arithmetic-geometric me- mean) 630 — Минковского (Minkowski's) 320, 570, 631 — Оппенгейма (Oppenheim's) 568 — Островского — Тayсеки (Ostrow- ski —Taussky) 569 — Робертсона (Robertson's) 555 ,, — Caca (Szasz's) 567 — треугольника (triangle) 313, 351 — Фишера (Fischer's) 566 неразложимая матрица (irreducible matrix) 432 — нормальная форма (normal form) 597 . ., .. нижняя блочно-треугольная матрица (block lower triangular matrix) 39 .. •-. • ., .„ — хтрого блочно-треугольная матри- матрица (strictly block lower triangular matrix) 39 • ¦ . . . треугольная матрица (strictly ¦ lower triangular matrix.) . 38 ,. — треугольная матрица (lower trian- triangular matrix) 38 . ... — хессенбергова матрица (lowerHes- senberg matrix) 43 . .',.. нильпотентная матрица : (nilpotent matrix) 53, 169 .: . , ... норма векторная (vector norm.) ,312 — — абсолютная (absolute). 345* Гёльдера (Holder) 320 двойственная (dual) 332. 487 — евклидова (Euclidean) ЗШ .
648 Предметный указатель манхеттен-норма (Manhatten- norm) 320 ¦ минимально спектрально преоб- преобладающая (minimally spectrally do- dominant norm) 397 монотонная (monotone) 345 полиэдральная (polyhedral) 341 — — порожденная скалярным произ- произведением (derived from an inner product) 316 равномерной сходимости 322 самосопряженная (self-adiont) 534 — — слабо монотонная (weakly mo- monotone) 346 •— — спектрально преобладающая (spectrally dominant) 390 унитарно инвариантная (uni- tarily invariant) 519 — матричная (matrix) 290 — — Гильберта—Шмидта (Hilbert— Schmidt) 291 — — евклидова (Euclidean) 353 индуцированная (induced) 354, 355 максимальная столбцовая (ma- (maximum column sum) 356 строчная (row sum) 356 — минимальная (minimal) 369 ¦ обобщенная (generalized) 352, 386 операторная (operator) 355 подчиненная векторной норме (induced by a vector norm) 355 самосопряженная (seif-adjont) 373 спектральная (spectral) 357 — — унитарно инвариантная (unita- rily invariant) 372 — — Фробёниуса (Frobenius's) Шура (Schur) й-норма Фань Цзы (Ку Fan k norm) 528 Li-норма (Li-norm) 322 /i-норма (/i-norm, sum norm) 320, 352 12-норма (L2-norm) 322 /г-норма (ij-norm) 319, 353 Lp-норма (Lp-norm) 322 Zp-норма (/p-norm) 320 Loo-норма (Loo-norm) 322 /«-норма (Z,»-norm, max norm) 320, (/oo-norm) 353 р-норма Шаттена (Schatten p-norm) 523 нормальная матрица (normal matrix) 125 нормальное псевдорешение (least squ« ares solution) 501, 510 нормированный вектор (normalized vector) 27 — многочлен (monic polynomial) 173 нормы согласованные (compatible, consistent norms) 355, 390 — эквивалентные (equivalent) 329 нуль-пространство полунормы (null space of a seminorm) 316 — матрицы (of a matrix) 17 область Гершгорина (Gersgorin re- region) 415 — значений (range) 17 — определения (domain) 17 обобщенная матричная норма (gene- (generalized matrix norm) 352, 386 функция (function) 20 •— обратная матрица Мура—Пенроу- за (Moore—Penrose generalized in- inverse) 500 обобщенное собственное значение (ge< neralized eigenvalue) 256 обратимая матрица (invertible mat- matrix) 26 обратная матрица (inverse) 26 — подстановка (back substitution) 193 обычное скалярное произведение (usual, standard scalar product) 27 овалы Кассини (ovals of Cassini) 453 ограниченное множество (bounded set) 341, 636 одновременно диагонализуемое семей- семейство (simultaneously diagonalizable family) 69 — диагонализуемые матрицы (diago- (diagonalizable matrix) 66 однородность (homogeneity) 314 окружность Гершгорина (Gersgorin cirde) 415 оператор сдвига (shift operator) 53 операторная норма (operator norm, lub norm) 355 определитель (determinant) 19 ориентированный граф (directed graph) 427 — путь (path) 427 ортогональная группа (orthogonal group) 88 — матрица (martix) 91, 92 ортогонально диагонализуемая матри- матрица (orthogonally diagonalizable mat- matrix) 126 — эквивалентные матрицы (equiva- (equivalent matrices) 93
Предметный указатель 649 ортогональное дополнение (orthogo- (orthogonal complement) 29 — множество (set) 27, 85 ортогональные векторы (orthogonal vectors) 27 ортонормированная система (ortho- normal system) 28 ортонормированное множество (ort- honormal set) 85 ортонормироваиный базис (orthonor- mal basis) 27 ортостохастическая матрица (ortho- stochastic matrix) 236 основная теорема алгебры (fundamen- (fundamental theorem of algebra) 56, 632 — циркулянтиая матрица перестанов- перестановки (basic circulant permutation mat- matrix) 41 открытое множество (open set) 341, 636 отношение Рэлея—Ритца (Rayleigh— Ritz ratio) 211 — эквивалентности (equivalence re- relation) 61 отрицательно определенная матрица (negative definite matrix) 471 — полуопределенная матрица (semi- definite matrix) 471 оценка Кармайкла и Мейсона (Саг- michael and Mason's bound) 382, 383 — Коши (Cauchy's) 381, 383 — Мотеля (Montel's) 381, 383 перестановочно подобные матрицы (permutation-similar matrix) 183 перманент (permanent) 20 перронов вектор (Perron vector) 587, 599 — корень (root) 587, 595 перъединичная матрице (backward identity matrix) 42, 250 петля (loop) 428 плоское вращение (plane rotation) 94 плохо обусловленная задача (ill con- conditioned probrem) 24 матрица (ill, poorly conditio- conditioned matrix) 404 подматрица (submatrix) 16 подобие (similarity) 60 подобные матрицы (similar matrix) 48, 58, 61 подпространство (subspace) 13 — инвариантное относительно А (А- invariant) 68 У (^--invariant) 68 полилинейная функция (multilinear function) 23 полиэдральная норма (polyhedral norm) 341 полная линейная группа (general H« near group) 27 полное векторное пространство (com- (complete vector space) 331 положительная диагональная матрица (positive diagonal matrix) 37 положительная матрица (positive mat* rix) 429, 580 положительно определенная матрица (positive definite matrix) 302, 471 — — функция (function) 475 — полуопределенная матрица (semi- definite matrix) 218, 471 — полуопределенное ядро (semidefi- nite kernel) 541 положительность (positivity) 312, 324, 327, 351 полулинейное преобразование (anti- linear transformation) 302 полуторалинейная форма (sesquili- near form) 202 полярная форма (polar form) 490, 491 полярное разложение (polar decom- decomposition) 190, 490, 491 полярные координаты (polar coordi- coordinates) 625 понижение порядка (deflation) 82 последовательность Коши (Cauchy sequence) 330 — Крылова (Krylov) 139 правая полуплоскость (right half- plane) 625 правило Крамера (Cramer's rule) 34 правый собственный вектор (right eigenvector) 77 предел последовательности (limit of a sequence) 325 предельная точка (limit point) 341 предпорядок (preorder) 457 представление линейного преобразо- преобразования (basis representation) 46 преобразование подобия (similarity transformation) 61 — Хаусхолдера (Householder trans- transformation) 95 — эрмитовой конгруэнтности ("con- ("congruence) 84 зримитивная матрица (primitive mat- matrix) 608 принцип биортогональности (princip- (principle of biorthogonalrty) 78 •— вложения (inclusion principle) 227
450 Предметный указатель — выбора (selection) 89 произведение Адамара (Hadamard product) 386, 539 — Шура (Schur) 540 нростая матрица (nonderogatory mat- matrix) 77, 165 простой ориентированный цикл (sim- (simple directed cycle) 428 процесс ортонормирования Грамма— Шмидта (Gram—Schmidt ortonor- malization process) 28 прямая подстановка (forward sub- substitution) 193 — сумма матриц (direct sum of mat- matrix) 38 прямоугольные координаты (rectan- (rectangular coordinates) 625 псевдодиагонализуемая матрица (соп- diagonalizable matrix) 294 псевдообратная матрица 500 псевдоподобные матрицы (consimilar matrices) 294 псевдособственное значение (conei- — genvalue) 295 псевдотриангуляризуемая матрица (contriangularizable matrix) 294 равносильные системы уравнений (so- (solution equivalent systems) 23 разложение Лапласа (Laplace expan- expansion) 19 <— Такаги (Takagi's factorisation) 246 — Холецкого (Cholesky factorisation, decomposition) 141, 483 Qtf-разложенне (Q/?-factorisation) 139 разложимая матрица (reducible mat- matrix) 431 размерность (dimension) 15 ранг (rank) 24 расширенная матрица (augmented matrix) 24 рациональная каноническая (rational canonical form) 189 рациональная форма (rational form) 187 ребро (edge) 201 семейство матриц (family of matri- . -ces)f 68. ,. . . ¦ , самосопряженная норма (self-adjont ;nprm) 373, 534 . . .. , , свойство полноты (completeness pro- property) 331 •r- L 125 . . — P 125 — SC 425 связанная система уравнений (coup* led system of equations) 162 сдвиг вперед (forward shift) 42 — назад (backward) 42 сигнатура (signature) 266 сильно связный ориентированный граф (strongly connected directed graph) 428, 456 симметричная жорданова канониче- каноническая форма (symmetric Jordan ca- canonical form) 251 — калибровочная функция (gauge function) 521 — матрица (matrix) 49, 200 сингулярное разложение (singular value decomposition) 190, 492, 493 — число (singular value) 256, 493 сингулярный вектор (singular vector) 493 скалярная матрица (scalar matrix) 18, 37 скалярное произведение (scalar, inner product) 27, 314 слабо монотонная норма (weakly шо> notone vector norm) 346 — неразложимая матрица (irreducib* le matrix) 457 — связный ориентированный граф (connected directed graph), 456 слабый принцип минимума (weak, mi- minimum principle) 545 след (trace) 55 слово (word) 96 , , сложение (addition) 13 собственная пара (eigenvalue, eigen- eigenvector pair) 49 , . собственное значение (eigenvalue) 49, 50 — подпространство (eigenspace) 75 собственный вектор (eigenvector) 49, 50 , .....'. совместная система (consistent sys- system) 24 . ' , согласованные блочные разбиения (conformal partitions) 30 -г- нормы (compatible, consistent norms) 355, 390 сопровождающая матрица (compa- (companion matrix) 178, 181, 381 . . . сопряженная матрица . (Hermltian adjoint) 18 - - ¦ . сопряженно линейная, функция (cpnj« ugate linear function) 27 спектр (spectrum) 50 спектральная норма (spectral norm), 357
Предметный указатель 651 — теорема (theorem) 126, 129 •*- характеристика (characteristic) 397 спектрально преобладающая норма (spectrally dominant norm) 390 спектральное разложение 127 — число обусловленности (condition number with respect to the spectral norm) 425 спектральный радиус (spectral radius) 50, 358 стандартное скалярное произведение (standard, usual scalar product) 27 стандартный базис (standard basis) 15 степенной метод (power method) 82 степень слова (degree of a word) 96 столбцовая почти-норма (deleted ab- absolute colomn sum) 415 стохастическая матрица (stochastic matrix) 619 строго вогнутая функция (strictly eoncave function) 629 — выпуклая функция (convex fun- function) 629 строчная почти-норма (deleted abso- absolute row sum) 413 — ступенчатая форма (row-redaced echelon form) 22 сходящаяся матрица (convergent mat- matrix) 167, 360 — последовательность (sequence) 325 теорема Биркгофа (Birkhoff theorem) 620, 621 — Брауэра (Brauer's) 453 — Бруалди (Brualdi's) 458, 461 — Вейерштрасса (Weierstrass) 636 — Вейля (Weyl's) 218, 221 — Виландта (Wielandt's) 612 — Гершгорина (GerSgorin) 413 — двойственности (duality) 347 — Крейна — Мильмана (Krein — Mil- man) 628 — Куранта — Фишера (Courant — Fi- Fischer) 215 — Кали— Гамильтона (Cayley — Ha- Hamilton) 109 — Леей — Деспланка (Levy — Des- planques) 419 — Маккоя (McCoy) 118 — Mepcepa (Mercer's) 541 — о возмущениях (perturbation) 237 жордановой канонической фор- форме (Jordan canonical form) 154 кругах Гершгорина (GerSgorin disc) 413 минимаксе (min-max) 215,-582, 586 монотонности (monotonidty) 219 произведении Шура (Schur po- duct) 542 разделении (interlacing) 219 — гиперплоскостью (separating hyperplane) 628 — Перрона (Perron's) 590 Фробениуса (Frobenius) 599 — Пирси (of Pearcy) 96—97 — Пуанкаре о разделении (Poincare separating) 228 — Романовского (Romanovsky's) 609 — Рэлея — Ритца (Rayleigh — Ritz) 211 — Таусски (Taussky's) 434 — Фань Цэы (Ку Fan) 591 — Фрейера (Fejer's) 544, 545 ¦— Хоффмана—Виландта (Hoffman— Wielandt) 439 — Шпехта (of Specht) 96 — Шура об унитарной триангуляри- эации (Sehur's unitary triangulari- zation) 101 тёплицева матрица (Toeplitz matrix) 41, 468 тождество Ньютона (Newton's identi- identity) 60 •— поляризации (polarization) 3S7 — параллелограмма (parallelogram) 317 — Сильвестра (Sylvester's) 35 транспозиция (transpositison) 40 транспонированная матрица (transpo- (transpose) 18 трансформирующая матрица (sentf- larity matrix) 61 треугольное разложение (triangular factorization) 190 трехдиагональная матрица (trldiago- nal matrix) 43 тривиальный цикл (trivial cycle) 428 трипотентная матрица (tripotent mat- matrix) 179 угол (angle) 27 унитарная группа (unitary group) 88 — матрица (matrix) 85 унитарно диагонализуемая матрица (unitarily diagonalizable matrix) 126 — инвариантная векторная норма (invariant vector norm) 320, 519
652 Предметный указатель • матричная норма (matrix norm) 372 — подобные матрицы (similar mat- matrices) 93 — псевдотриангуляризуемая матрица (condiagonalizable matrix) 294 — псевдоподобные матрицы (consimi- lar matrix) 294 — псевдотриангуляризуемая матрица (contriangularizable matrix) 294 — эквивалентные матрицы (equiva- (equivalent matrices) 93 упорядоченный список узлов (orde- (ordered list of nodes) 428 уравновешенное множество (equilibra- (equilibrated set) 342 формула Коши — Бине (Cauchy—Bi- net formula) 36 характеристический многочлен (cha- (characteristic polynomial) 54 характеристическое уравнение (cha- (characteristic equation) 110 хорошо обусловленная матрица (well conditioned matrix) 404 цикл (cycle) 428 циклическая матрица индекса k (cyc- (cyclic matrix of index k) 606 циркулянтная матрица (циркулянт) (circulant matrix) 40 числовая область (fied of value) 387 числовой образ (numerical range) 387 — радиус (radius) 387 шар (ball) 347, 676 эквивалентные матрицы (equivalent matrix) 199 — нормы (equivalent norms) 329 — системы уравнений (solution-equi« valent systems) 23 элементарная симметрическая функ> ция (elementary symmetric function) 57 элементарное преобразование (ele-< mentary transformation) 20 элементарный делитель (elementary divisor) 188 — лагранжев интерполяционный мно- многочлен (special Lagrange interpola* ting polynomial) 44 эллиптический оператор (elliptic ope- operator) 288, 544 эрмитова компонента (часть) (Her* mitian part) 135, 474 — матрица (matrix) 53, 203 эрмитово конгруэнтные матрицы (star congruent, *congruent matrices) 265 эрмитовость (Hermitian property) 314 частичный порядок (partial order) 556 число обусловленности (condition number) 404 ядро матрицы (null space of a mat- matrix) 17 — полунормы (of a seminorm) 316 якобиан (Jacobian) 263
ОГЛАВЛЕНИЕ Предисловие редактора перевода 5 Предисловие 7 Глава 0. Обзор и разное 12 0.0. Введение 12 0.1. Векторные пространства 12 0.2. Матрицы 16 0.3. Определители 19 0;4. Ранг 24 0.5. Невырожденность 26 0.6. Обычное скалярное произведение 27 0.7. Блочные матрицы . 29 0.8. Снова определители .32 0.9. Матрицы специального вида 37 0.10. Замена базиса 45 Глава 1. Собственные значения, собственные векторы и по- подобие 48 1.0. Введение 48 1.1. Определение собственных значений и собственных векторов 49 1.2. Характеристический многочлен 53 1.3. Подобие 60 1.4. Собственные векторы ,75 Глава 2. Унитарная эквивалентность и нормальные матрицы 84 2.0. Введение 84 2.1. Унитарные матрицы 85 2.2. Унитарная эквивалентность 93 2.3. Теорема Шура об унитарной триангуляризации 101 2.4. Некоторые следствия теоремы Шура 107 2.5. Нормальные матрицы 125 2.6. Q-R-разложение и QR-алторити 139 Глава 3. Канонические формы 146 3.0. Введение 146 3.1. Жорданова каноническая форма: доказательство 148 3.2. Жорданова каноническая форма: некоторые свойства и при- приложения 158 3.3. Многочлены и матрицы: минимальный многочлен 172
654 Оглавление 3.4. Другие канонические формы и разложения 182 3.5. Треугольные разложения 192 Глава 4. Эрмитовы и симметричные матрицы 200 4.0. Введение 200 4.1. Определения, свойства и характерные особенности эрмитовых матриц 203 4.2. Вариационные описания собственных значений эрмитовых матриц 211 4.3. Некоторые приложения вариационных описаний 218 4.4. Комплексные симметричные матрицы 242 4.5. Конгруэнтность и одновременная диагонализация эрмитовых и симметричных матриц 263 4.6. Псевдоподобие и псевдодиагонализация 294 Глава 5. Нормы векторов и матриц 310 5.0. Введение 310 5.1. Определяющие свойства векторных норм и скалярных произ- произведений 312 5.2. Примеры векторных норм 319 5.3. Алгебраические свойства векторных норм 323 5.4. Аналитические свойства векторных норм .,,,,.. 324 5.5. Геометрические свойства векторных норм 340 5.6. Матричные нормы 351 5.7. Векторные нормы на матрицах 385 5.8. Ошибки в обратных матрицах и решениях линейных систем 402 Глава 6. Локализация и возмущения собственных значений 408 6.1. Круги Гершгорина 413 6.2. Круги Гершгорина — более пристальный взгляд 423 6.3. Теоремы о возмущениях . 443 6.4. Другие области локализации 450 Глава 7. Положительно определенные матрицы 465 7.0. Введение 465 7.1. Определения и свойства 471 7.2. Характеризации . . . 477 7.3. Полярная форма и сингулярное разложение 488 7.4. Примеры и приложения сингулярного разложения .... 507 7.5. Теорема о произведении Шура , . 539 7.6. Конгруэнтность: произведения и одновременная диагонали- диагонализация 550 7.7. Упорядочение, индуцированное положительной полуопреде- леиностью 556 7.8. Неравенства для положительно определенных матриц . . . 564 Глава 8. Неотрицательные матрицы . 576 8.0. Введение 576 8.1. Неотрицательные матрицы — неравенства и общие замечания 579 8.2. Положительные матрицы 585 8.3. Неотрицательные матрицы 593 8.4. Неразложимые неотрицательные матрицы 598
Оглавление —————————— ' , . ___ 655 8.5. Примитивные матрицы __ 8.6. Общая предельная теорема •••..... 607 8.7. Стохастические и дво якос гохастические матрицы" .!'.'' б!в Приложение А. Комплексные числа 624 Приложение В. Выпуклые множества и функции • 627 Приложение С. Основная теорема алгебры 632 Приложение D. Непрерывная зависимость корней много- многочленов от их коэффициентов 634 Приложение Е. Теорема Вейерштрасса 636 Литература 638 Указатель обозначений 641 Предметный указатель 643