Текст
                    П. БИЛЛИНГСЛЕИ
ЭРГОД ЧЕСКАЯ ТЕОРИЯ
НФОР АЦ Я


ИЗДАТЕЛЬСТВО «МИР»
Ergodic Theory and Information PATRICK BILLINQSLEY The University of Chicago John Wiley and Sons, Inc. New York • London • Sydney 1965
П. БИЛЛИНГСЛЕЙ Эргодическая теория и информация Перевод с английского я. Д. Светловой Под редакцией Б. М. ГУРЕВИЧА ИЗДАТЕЛЬСТВО „МИР" МОСКВА 1969
УДК 519.21 Эта книга посвящена в основном новейшим результатам эргодической теории, связанным в первую очередь с теоретико-информационными методами исследования динамических систем. Изложив основные понятия эргодической теории (сохраняющего меру преобразования, эргодичности, перемешивания и т. п.), автор переходит к определению энтропии динамической системы. Далее вводится понятие условной энтропии, описываются ее свойства, дается теорема Макмил- лана и рассматриваются связи между понятием размерности в смысле Хаусдорфа и понятием энтропии. В заключение излагаются основные положения общей теории связи в смысле Шеннона и обсуждаются соответствующие вопросы эргодической теории. Книга написана ясно и не требует от читателя большой* математической подготовки. Она, безусловно, заинтересует математиков многих специальностей. Редакция литературы по математическим наукам Инд. 2-2-3 4-68
Предисловие редактора перевода Теория, основам которой посвящена эта книга, отметила в 1968 г. свое десятилетие. Введение А. Н. Колмогоровым десять лет назад понятия энтропии преобразования с инвариантной мерой не только позволило ему решить давно поставленную конкретную задачу, но положило начало новому — энтропийному—направлению эргодическои теории, ставшему вскоре в ней ведущим. Даже последующие достижения в традиционных для эргодическои теории вопросах обязаны энтропийному направлению возрождением интереса математиков к эргодическои теории в целом. Книга профессора Биллингслея, написанная с большим педагогическим мастерством, представляет собой первое на русском языке изложение основ энтропийной теории преобразований с инвариантной мерой, доступное начинающему. От читателя требуется лишь владение абстрактным интегралом Лебега и элементарными понятиями теории вероятностей. Автор подробно излагает теорию условных вероятностей, и соответствующие параграфы можно рекомендовать для первоначального ознакомления с предметом даже тем из читателей, кого основное содержание книги не заинтересует. Хотя перед нами книга учебного характера и в нее не включены многие глубокие результаты энтропийной теории (с этими результатами можно познакомиться по обзорной статье В. А. Рохлина „Лекции по энтропийной теории преобразований с инвариантной мерой", УМН, 5 (1967)), кое-что в ней может заинтересовать и специалиста, в частности помещенная в гл. 3 теорема Биллингслея о связи энтропии сдвига с хаусдорфовой размерностью. В книге разобрано довольно много примеров. Одному из них — эндоморфизму, возникающему в связи с представлением вещественного числа непрерывной дробью, посвящен заключительный параграф гл. 1. Здесь имеется компактное изложение основных результатов метрической теории непрерывных дробей, написанное с „эргодическои" точки
б ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА зрения. Почти все остальные примеры вероятностного происхождения, и поэтому у читателя может возникнуть впечатление, что энтропийная теория имеет - дело преимущественно лишь с такого рода примерами. В действительности же не менее важной и интересной областью ее применения являются диффеоморфизмы гладких многообразий. В небольшом приложении, написанном Я. Г. Синаем и автором этих строк и помещенном в конце книги, рассматривается один класс таких преобразований—алгебраические автоморфизмы ^-мерного тора. Материал этого приложения поможет читателю получить представление о характере применения энтропии и связанных с ней понятий к гладким преобразованиям. Используемый метод основан на понятии марковского разбиения, недавно введенном и изученном Я. Г. Синаем. s Можно надеяться, что выход в свет книги Биллингслея расширит круг лиц, интересующихся эргодической теорией, й окажет помощь всем, кто захочет ее изучить. Б. Гуревич
Предисловие к английскому изданию Мне очень приятна возможность в нескольких словах представить книгу Патрика Биллингслея, первую в новой серии «Монографий по теории вероятностей и математической статистике» (Tracts on Probability and Mathematical Statistics). Эта книга возникла из цикла лекций, прочитанных профессором Биллингслеем на учебных конференциях Лондонского математического общества, лекций, которые, как нам кажется, должны стать достоянием более широкой публики. Особенно удачно, что новую серию открывает именно эта книга, поскольку и «Мбнографии» и конференции Лондонского математического общества стремятся сделать новые математические достижения общедоступными еще на той стадии, когда в них бьется живой пульс, прежде чем они примут застывшую форму. Мы надеемся сохранить умеренный объем всех книг этой серии. Большинство возможных авторов отпугивает мысль о необходимости написать, .отпечатать и прокорректировать сотни страниц математического текста. Нет сомнения в том, что много прекрасных математических книг никогда не были написаны именно по этой причине, а также потому, что для тех, кто должны были быть их авторами, оказалось невозможным оторваться от преподавания и исследовательской работы на срок, необходимый для написания исчерпывающего трактата. Мы надеемся также внести этой серией вклад в улучшение существующих стандартов в области планирования и издания математических книг. Книга бесполезна, если ее не читают. Издатели убеждены, что недостаточно только захватывающего сюжета и мастерства; сам текст должен быть представлен привлекательно, что определенно способствует пониманию рассуждений. Это вопрос не эстетики, а доступности, и мы думаем, что. он заслуживает большего внимания. Кембридж, Англия Дэвид Кендалл
Введение Эта книга выросла из обзора1) эргодической теории и теории информации, который должен был следовать за кратким курсом теории вероятностей на основе теории меры. В гл. 1 рассматривается эргодическая теорема. Глава 2 посвящена данному Колмогоровым и Синаем приложению, шенноновской энтропии к проблеме изоморфизма в эргодической теории. В противоречии с исторической последовательностью эти идеи только потом (в гл. 4 и 5) применяются к теории информации и теории кодирования. Результаты, относящиеся к кодированию, не претендуют на особую глубину; я ставил своею целью возможно теснее связать теорию кодирования и эргодическую теорию, избегая технических подробностей. Связь между этими двумя теориями является той нитью, которая связывает все параграфы книги. С самого начала предполагается, что читатель знаком с пространством (Q, ^, Р). Впрочем, чтобы сократить ссылки на теорию меры, я включил (гл. 3) описание условных вероятностей и математических ожиданий относительно а-поля и отметил звездочкой те темы, которые могут быть опущены (конечно, звездочкой могла бы быть отмечена вся книга). Я пытался писать не для знатоков, а для новичков. Я пытался следовать блестящему примеру Харди и Райта, написавших свое «An introduction to the theory of numbers» с заранее поставленной целью (указанной в их предисловии) создать интересную книгу. Копенгаген, декабрь 1964 г. Патрик Биллингслей 1) Курс лекций, представленных Лондонскому математическому обществу на учебной конференции по теории вероятностей, проходившей в Дёрем-Колледж с 28 марта по 11 апреля 1963 г.
ГЛАВА 1 Эргодическая теория 1. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ Введение Случай необходимо связан с понятием изменчивости, но сами управляющие изменчивостью законы могут оставаться неизменными во времени: если рулетка не стареет со временем, счастье улыбается игроку в соответствии с постоянными вероятностными законами. Эргодическая теория дает ключ к пониманию этих случайных изменений. Бросание монеты, игральной кости, наблюдение длины очереди, определение числа молекул в данном объеме — вообразите любой из таких случайных экспериментов или наблюдений. Пространство состояний эксперимента есть множество р его возможных исходов: р состоит из герба и решетки, граней кости и т. п. Пусть наш эксперимент производится, скажем, раз в минуту, и это продолжалось и будет продолжаться вечно. Бесконечную в обе стороны последовательность экспериментов можно рассматривать как один большой эксперимент, исход которого представляет собой бесконечную в обе стороны последовательность ш = (. . ., (о.и со0, 0Х,. . .) элементов множества р. Вероятностная структура этого большого эксперимента задается вероятностной мерой Р на пространстве Q таких последовательностей1). Допуская возможность того, что исход каждого эксперимента сильно влияет на исходы следующих за ним, мы хотим математически выразить идею, что течение времени не влияет на совместные распределения вероятностей, которым подчиняетсй экспериментирование. Сдвигая последовательность ш влево на один шаг, получаем новую последовательность (д' = (..., ©0, (01} 02, •••)> в КОТОрОЙ 0j СТОИТ на нулевом месте. Так как 0 и ©' — идентичные реализации 1) Трудно представить, как согласовать Р с частотной интерпретацией теории вероятностей: большой эксперимент не может быть повторен, так как проведение его занимает все время. Однако хотя бесконечность последовательности компонент эксперимента математически существенна, в реальных ситуациях она не должна пониматься буквально.
10 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ большого эксперимента, отличающиеся только началом отсчета времени, то вероятностная мера Р должна приписывать со' ту же вероятность, что и со, если вероятностные законы неизменны во времени. На самом деле со и со' будут иметь, вообще говоря, вероятность 0, и нужно требовать, чтобы при преобразовании Г, переводящем со в со', вероятностная мера Р сохранялась в том смысле, что Р(А) = Р(ТА) для множеств Л. Это приводит нас к изучению преобразований, сохраняющих меру,—к эргодической теории. В этом параграфе, после того как будут даны первые определения, примеры (как из теории вероятностей/так и из других областей математики) и общие принципы, мы сформулируем эргодическую теорему, представляющую собой основной результат теории, и приведем примеры ее применения. В § 2 содержатся доказательства эргодической теоремы, а в § 3 и 4 — дальнейшие примеры и применения. Определения В эргодической теории изучаются преобразования, сохраняющие структуру пространств с мерой. Мы будем заниматься эргодической теорией в ее связи с теорией вероятностей и теорией информации и потому ограничимся рассмотрением вероятностных пространств. Пусть (Q, ST, P) — вероятностное пространство1) и Г — преобразование, отображающее Q в себя, измеримое в том смысле, что из А е <ЗГ следует Т~ А = {со: Гсо е А} е S^. Если, кроме того, Т — взаимно однозначное преобразование, Гй = й и из iG^ следует ТА={Т<ы со е= Л} е= с^", то Т называется обратимым. В случае когда Р(Т~ А) = Р(А) для каждого А из <ЗГ, говорят, что Т' — сохраняющее меру преобразование; если Т обратимо, то эквивалентным требованием является Р(ТА) = Р(А)2). (Даже если сохраняющее меру преобразование необратимо, TQ есть по существу все й, так как TQ cz A e <&* влечет за собой T~lA = Q и, следовательно, Р(А) = 1. В частности, если Гй принадлежит <5^, то Р(ГЙ)=1.) 1) Q —пространство точек со, *Г — это с-поле (т. е. с-алгебра) подмножеств из Q, Р — вероятностная мера на *Г. Об аксиоматическом построении теории вероятностей см., например, Колмогоров [1] или Хал- мош [2, гл. X]. 2) В отечественной литературе принято называть измеримое сохраняющее меру преобразование эндоморфизмом, а если оно к тому же обратимо, автоморфизмом. — Прим. ред.
Т. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ И Примеры Рассмотрим сначала два вероятностных примера. Пример 1.1.!) Пусть р —конечное множество из г элементов. Приписывая элементам множества р неотрицательные вероятности pt так, что 2 pt* == 1, мы получаем вероят- житную меру на р (вернее на cr-поле всех подмножеств оо множества р). Пусть (й, S^, Р) есть произведение Д рп пространств ptt, каждое из которых совпадает с р. Произвольный элемент пространства Q является бесконечной в обе стороны последовательностью со = (..., а>_1э со0, о*!, ...) элементов множества р. Пусть хп — функция, ставящая в соответствие точке со е Й значение cort ее п-й координаты. Функцию хп называют п-и координатной функцией. Конечйо аддитивное поле, состоящее из цилиндров, т. е. множеств вида {со: (л:л(со), ..., xn+k-l(<d))z=E} = {®: (со„, ..., со^^) es Я}, где Е — подмножество прямого произведения р*, порождает а-поле Ж. Но а-поле <ЗГ порождается также совокупностью множеств, которые мы назовем „тонкими" цилицдрами, т. е. множеств вида {со: Xi{ai) = ib n^l<n + k}> где ^-^элементы множества р; в сдмом деле, каждый цилиндр является конечным объединением непересекающихся тонких цилиндров. Наконец, мера Р определяется совокупностью ее значений на тонких цилиндрах2): Р{со: xi{(d) = ih n^l<n + k}= П Pir О-1) Итак, {..., х-1, х0, хь ...} является последовательностью независимых случайных величин со значениями из р. Пусть Т: Q->Q —отображение, переводящее (..., со.!, со0, со^ ...) в (..., со0> ^i» ®2> •••)• Более точно Т определяется соотношением (Т(й)п = ъуп+и или (что то же самое) хп{Т(й) = хп+1(<й). Так как хп(ау) = x0(r^co), то любое утверждение относительно случайных величин хп может быть сформулировано какутвер- 1) В конце книги помещен указатель примеров. 2) Эти характеристики Q и<Г можно взять в качестве определений. Из общей теории произведений мер нам нужна теорема существования на £Г единственной вероятностной меры Р, удовлетворяющей условию (1.1). Это утверждение следует также из теоремы существования Колмогорова (или Даниеля — Колмогорова). Элементарное доказательство см, в § 3.
12 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ ждение относительно х0 и Т. Если множество Л —цилиндр, то очевидно, что Г"1 А—также цилиндр и, следовательно, принадлежит <^"\ причем Р(Г1А) = Р(А). Тогда Т — измеримое сохраняющее меру преобразование, что вытекает из следующего общего результата., Теорема 1.1. Пусть 3F'0 — поле9 порождающее <&~. Если Т~1А^<^ и Р(Т~1А) = Р{А) для всех А из <^~0, то Т — сохраняющее меру преобразование. Доказательство. Совокупность & множеств А из d?~, для которых Г_1/1е/ и Р (Т~1А) = Р (Л), является монотонным классом и содержит поле <^~0, а следовательно, совпадает с ъГ (см. Халмош [2]). НЛример 1.1 дает математическую модель бесконечной в обе стороны последовательности испытаний Бернулли. Представьте себе простой эксперимент с конечным пространством состояний р и вероятностью pt исхода /. Пример является моделью мысленного эксперимента, состоящего в том, что производятся независимые повторения простого эксперимента, образующие бесконечную в обе стороны последовательность. Пусть каждый день производится один простой эксперимент. Точка со = (..., со_г, со0, со^ ...), пространства й полностью определяет исход большого эксперимента, а ее компонента ©„— исход простого эксперимента, произведенного в п-й день. Здесь может возникнуть некоторая путаница. Мы не предполагаем, что знание исхода эксперимента, скажем, 5-го дня помогает предсказать исход эксперимента 6-го дня. Но исход #5(со) не определен, пока не определен исход большого эксперимента со, а с определением со полностью определен и х6(со). Создается впечатление, что случайность исчезает. Иными словами, все координаты точки со определяются, так сказать, одновременно. Как же тогда они могут служить моделью экспериментов, совершаемых последовательно во времени? При взгляде на эту модель полезна следующая аллегория. Тихе1) выбирает точку со из пространства й в соответствии с распределением вероятностей Р. Она совершает это до начала отсчета времени и затем раскрывает экспериментатору одну за другой координаты со„ — по одной каждый 1) Богиня случая; см. Грейвс [1]. Ее появление в этой книге каждый раз указывает на эвристический оттенок рассуждений.
Т. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ. 13 день. Динамические аспекты модели удобно изучать с помощью преобразования Г, так как оно связано с ходом времени. (Сама математика, к счастью, не нуждается в подобных интерпретациях.) Замечание об обратимости. Применение теоремы 1.1 к обратному точечному отображению Т"1 показывает, что преобразование примера 1.1 обратимо. В некоторых случаях обратное точечное отображение вполне определено (т. е. прямое преобразование взаимно однозначно и имеет областью значений все пространство Q), но не обязательно измеримо. Это имеет место, например, для преобразования Г, определенного на вероятностном пространстве (Q, #~', Р')9 где Т и Q таковы, как в примере 1.1, 4F' есть а-поле, порожденное х0, хи х2, ..., а Р' — сужение Р на <&~'. Измеримость Т" требует некоторого обоснования. Однако если это установлено, то из сохранения меры преобразованием Т следует непосредственно сохранение меры преобразованием Г"1. Пример 1.2. Пусть Q и 4? те же, что в первом примере, но пусть теперь Р — любая мера, которая сохраняется при определенном выше преобразовании Г. Сказать, что преобразование Т сохраняет меру Р, равносильно (в силу теоремы 1.1) утверждению независимости Р {со: (хп((й), ..., xn+k-\ (<*>)) ^ Е) от п, что как раз совпадает с определением стационарности стохастического процесса {..., #_!, xQ9 хъ ...}, образованного координатными случайными величинами. Преобразование Т называется сдвигом, связанным с этим процессом. Так как совокупность конечных объединений непересекающихся тонких цилиндров образует поле, порождающее сУ, то мера Р на 4F однозначно определяется своими значениями Pk (*i> • • •, 1м) = Р (<»>: хп (со) = iu ..., хп+к_г (со) « ik) (1.2) на этих цилиндрах. Если функции pk на последовательностях длины k элементов из р определяются формулой (1.2), то Pkih •••> 4)>0, 2 рш (il9 ..., ik, i) =- pk (iu ..., ik), (1.3) i 2 Pi(0 = i. i
14 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИИ и так как преобразование Т сохраняет меру, то Pk (h> ...» h) = 2 Pk+i (h h • • • > **)• (1-4) i Обратно, существует ровно одна вероятностная мера Р на <&~у соответствующая данному множеству функций pki удовлетворяющих соотношениям (1.3) и (1.4), для которой выполняется (1.2) и которая сохраняется при преобразовании Г1). Если pk{ib ..., ik) = ptlpi2 ... piv где pt - неотрицательные числа, в сумме дающие 1, то имеют место соотношения (1.3) и (1.4). Мы снова приходим к примеру 1.1, который будем называть сдвигом Бернулли2). В § 3 детально разбираются другие специальные случаи. Заметим, что преобразование Т как точечное преобразование, определенное на пространстве й, —одно и то же в примерах 1.1 и 1.2. Однако преобразование, сохраняющее меру, является точечным преобразованием с сг-полем, относительно которого оно измеримо и сохраняет меру. Пример 1.2 дает модель испытаний, не обязательно независимых, которые производятся в постоянных условиях, — идея, стоящая за стационарностью, т. е. за требованием сохранения меры Р преобразованием Г. Так как стационарные процессы имеют широкое распространение, а любое свойство такого процесса является по существу свойством соответствующего сдвига, то имеет смысл изучать сам сдвиг. Наилучшим способом изучения сдвига является изучение сохраняющих меру преобразований, ибо это предоставит в наше распоряжение множество примеров, большая часть которых значительно проще двух вышеприведенных. Разберем здесь еще четыре примера. Пример 1.3. Пусть Q— пространство из пяти точек {а, 6, с, d, e}9 ^—множество всех подмножеств из Q и Т — подстановка, равная произведению двух циклов: Г = (а, by c)(d, ё). Если Т сохраняет Р9 то точки в пределах циклов должны быть равновероятны относительно Р. Пример 1.4. Для Q и 4F из предыдущего примера возьмем в качестве Т циклическую подстановку Г = (а, 6, с, d> e). Все пять точек должны быть равновероятны. 1) Это частный случай теоремы существования Колмогорова; доказательство дано в § 3. 2) В отечественной литературе принят термин автоморфизм Вер' нулли* — Прим. ред.
\, ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 15 Пример 1.5. Пусть Q —единичная окружность на комплексной плоскости, a ST состоит из сбычных борелевских подмножеств окружности й {&* есть а-поле, порожденное дугами окружности), и пусть Р — мера Лебега на окружности, нормированная таким образом, что P(Q)=1. Пусть Гсо = ссо, где с — фиксированный элемент пространства Q. Так как Т есть просто поворот окружности на угол, равный argc, то Т сохраняет Р. Далее мы увидим, что свойства преобразования Т существенно зависят от того, является ли с корнем из единицы. Пример 1,6. Пусть <*?" состоит из борелевских подмножеств полуоткрытого единичного интервала Q = [0, 1), Р —мера Лебега и Гсо = 2со(modi) (т. е. Гсо равняется 2со на [0, 1/2) и 2со— 1 на [1/2, 1)). Преобразование Г тесно связано с диадическим (по основанию 2) разложением точек единичного интервала; действительно, если /(со) = 0 для со< 1/2 и f (со)= 1 для со^ 1/2, то f(Tn~l(u) является п-и знаком оо диадического разложения со = 2 f(Tn~l(£>)[2n (если со —двоично- рациональное число, то разложение конечно). Следовательно, если разложение со имеет вид ю = 0, g>iG>2 ..., то Гсо = 0, а^Юз • • • • Применение теоремы 1.1 показывает, что преобразование Т сохраняет меру. В то время как все предыдущие преобразования были обратимы, это преобразование, которое мы будем называть диадическим преобразованием, необратимо. Мы привели достаточно примеров преобразований, которые помогут иллюстрировать наши дальнейшие рассмотрения. Некоторое количество дополнительных примеров приводится в § 3. Эргодичность Нас будет интересовать вопрос: какие преобразования Т обладают тем свойством, что для почти всех со траектория {со, Гсо, Г2со, ...}!) точки со точно воспроизводит само пространство Q? В примере 1.4 каждая траектория воспроизводит й в том простом смысле, что она как множество 1) Мы считаем эту последовательность траекторией точки со, даже если преобразование Т обратимо (хотя правильнее было бы называть ее полутраекторией, а траекторией — последовательность {..., Г1©, со, Гсо, ...});
16 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ совпадает с Q, но это неверно Для примера 1.3, где множество А = {а> Ьу с} переводится преобразованием Т в себя, так же как и дополнительное множество {d, e}: Т~1А = А. Заметим, что в примере 1.4 каждая траектория не только совпадает как множество с й, но и содержит элементы из й в правильной пропорции: асимптотическая относительная частота, с которой элемент а (или 6, ...) встречается в траектории, в точности равна Р (а)= 1/5 (или Р (Ь)= 1/5, ...). Замечательно следующее: если для некоторого сохраняющего меру преобразования Т не существует множеств А таких, что Т~1А = А, за исключением „неинтересных" множеств А = 0 и А = й, то траектории воспроизводят пространство й в том смысле, что для каждого множества А траектории почти всех точек со попадают в Л с асимптотической относительной частотой Р (А): lim ^lA(Tk<*) = P(A)n.B.i). Это центральный факт в эргодической теории. Он будет описан и проиллюстрирован в этом параграфе, а доказан в следующем. Назовем множество2) А инвариантным (относительно преобразования Г), если Т~А = А; в случае когда Г обратимо, это требование эквивалентно требованию ТА = А. Назовем преобразование Т эргодическим3), если каждое инвариантное относительно него множество тривиально, т. е. имеет меру 0 или 1. Следовательно, преобразование примера 1.4 эргодично, а преобразование примера 1.3 не эргодично (если только вся масса не сосредоточена в одном из циклов). Мы убедимся далее, что если преобразование Т эргодично, то траектории обладают только что описанным свойством. По техническим соображениям удобно несколько видоизменить определение инвариантности: назовем множество А инвариантным относительно преобразования Г, если 1) /. — .характеристическая функция множества Л; таким образом, п-\ 2 1д(ТЬ(£>) есть число элементов последовательности {со, Гсо, ..., Тп~ со}, лежащих в Л. Символ „п. в." (почти всюду) означает „с точностью до множества меры 0". 2) Относительно любого множества всюду, где не оговорено противное, предполагается, что оно принадлежит полю *Г. 3) Эргодическое преобразование называют также метричеЬки транзитивным или неразложимым*
1. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 17 Р (Л + Т~]А) = ОТ). Например, если точки d и е в примере 1.3 имеют нулевую массу, то множество Л = {а, 6, с, d] инвариантно в новом смысле, в" то время как в старом смысле оно не инвариантно. Однако для любого множества А множество В = lim T~nA инвариантно в старом смысле, и в слу- п чае когда А инвариантно в новом смысле, множества А и В имеют одинаковую меру. Поэтому, если существует нетривиальное множество, инвариантное в новом смысле, то существует и нетривиальное множество, инвариантное в старом смысле, так что определение эргодичности не меняется. Множество, инвариантное в старом смысле, мы будем называть строго инвариантным. Для доказательства эргодичности достаточно убедиться, что строго инвариантные множества имеют меру 0 или 1. Замечание. Так как преобразование Т сохраняет меру, то Р {А - А П Г1 А) = Р (А) - Р (А П Г1 А) = = Р (Г1 А) - Р (Л П Т'ХА) = Р (Г1 А - А П Г1 Л) и, следовательно, Р{А + Г1 А) = 2Р (А - Г1 Л) = 2Р (Г!Л - Л). Поэтому множество Л инвариантно в том и только том случае, если одна из мер Р(А — Т~ХА) или Р (Т~~1А — Л) равна 0. В частности, если Т эргодично, то ни одно из соотношений Л cz Г"1 Л, Г_1Л cz Л не может выполняться для нетривиального Л: не будучи в состоянии оставить нетривиальное множество фиксированным, эргодическое преобразование не может ни „расширить", ни „сузить" его. Очевидно, что если преобразование Т обратимо, то оно эргодично тогда и только тогда, когда эргодично преобразование Т" . Эргодичность вращений Если в примере 1.5 число с,- определяющее поворот, равно —1, то множество, состоящее из первого и третьего квадрантов, является нетривиальным инвариантным множеством, и, следовательно, преобразование Т неэргодично. 1) Знак + означает здесь симметрическую разность: А -\-В— = (Л — В) (J (В — Л). Мы будем часто пользоваться соотношениями A + Bcz(A + C) + (C + B) и Р(А + В)^Р(А + С) + Р(С + В). 2 Зак. 1491
18 ГЛ. Г. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Аналогичное построение показывает, что Т неэргодично, если с — любой корень из единицы. Покажем, что если с не является корнем из единицы, преобразование Т эргодично. Пусть еп{(й) = 0Л — круговые функции; ряд Фурье для характеристической функции 1А есть IA(®)~lZjanen{(i)). Так как еп(Гсо) = спеп(со), то с по- п мощью замены переменной получаем 1) ап= J e-ndP = c~n J e-ndP, А г~1л откуда 1Т-\А (со)~ ^спапеп((й). Если А — инвариантное мно- п жество, то 1А (со) и 1Т-1А(®) почти всюду равны и, следовательно, имеют одинаковые коэффициенты Фурье: ап = спап для всех п.. Если с не является корнем из единицы, то ап = 0 для всех п ф О, ив силу теоремы единственности для коэффициентов Фурье /д(со) равно почти всюду некоторой константе, так что мера Р(А) должна быть равна либо нулю, либо единице. Следовательно, преобразование Т эргодично. Старый теоретико-числовой результат, принадлежащий Якоби, состоит в том, что если с не является корнем из единицы, то траектория каждой точки со всюду плотна на единичной окружности Q, что представляет собой еще одно простое условие эргодичности. (Заметим, что в данном случае траектория не совпадает как множество с пространством Q, ибо является счетным множеством, в то время как Q несчетно.) Для доказательства результата Якоби, очевидно, достаточно показать, что траектория {1, с, с2,...} точки 1 всюду плотна. Но если с — не корень из единицы, то все точки этой траектории различны и, следовательно, 1) Функция f (®) интегрируема на Л в том и только том случае, если функция / (Гсо) интегрируема на Т~*А, причем тогда f (Гсо)Р (dco) = Г"1 л = / (со) Р (dco). При доказательстве достаточно рассмотреть случай А Л = й, общий случай получится при замене f на IAf. Если / — характеристическая функция, то / (Гсо) Р (day) = / (со) Р (dco), так как Т — сохраняющее меру преобразование; эта формула легко получается для простой функции, а затем, с помощью аппроксимации, для любой функции /.
Т. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 19 в силу компактности имеют предельную точку со0. Поэтому для любого положительного s существуют различные точки сп и cn+k, отстоящие от со0 не больше чем на е/2 (расстояние измеряется по дуге) и, следовательно, не больше чем на е друг от друга. Так как расстояние от точки cn+lk до точки cn+(l+l)k равно расстоянию от. сп до cn+k, то очевидно, что для некоторого т точки сп, cn+k, ..., cn+mk образуют такую цепь вдоль всей окружности, что расстояние между любыми соседними точками меньше е. Таким образом, любая точка окружности имеет в своей е-окрестности точку траектории {1, с, с2, ...}, и траектория всюду плотна в силу произвольности выбора е. Используем результат Якоби для того, чтобы дать второе доказательство эргодичности вращения Т (по-прежнему предполагая, что с не является корнем из единицы). Это доказательство не использует теорему единственности для коэффициентов Фурье. Пусть Л— строго инвариантное множество положительной меры, Р(А)>0. Докажем, что Р(Л) = 1. Сначала покажем, что для любого s из единичного интервала (0<е<1) существует невырожденная дуга / длины, не превышающей е, такая, что Р(А(]1)^(1— г)Р(1). Действительно, по определению меры Лебега на окружности множество А может быть покрыто последовательностью дуг /1э /2, . . . так, что Р(Л)/(1 — е)>2Р(/„) (мы п предположили, что Р (А) > 0); в качестве членов этой последовательности можно выбрать непересекающиеся дуги длины меньшей, чем е1). Так как Цр (А [\1п) = Р {А)>(1— в)2Р(/я), п п то для некоторого значения п должно выполняться неравенство Р {А Л 1п) >{\-ъ)Р (/«). Возьмем / = 1п. Далее, так как множество А инвариантно, а преобра: зование Т обратимо и сохраняет меру Р, получаем Р (А Л Тп1)>(1 -s)Р {Тп1). Если nv . . ., пк- натуральные числа, для которых множества Г"1/, . . . , ТпН не пересекаются, то Р (Л)>2Р (А Л Г</)>(1 -в)Р ((JГ'/). /«=1 \f-l / Если траектория {1, с, с2, ...} всюду плотна, то траектория любой из концевых точек дуги / также всюду плотна. Так 1) Если Л содержит интервал, то этого сделать нельзя, но тогда доказываемое утверждение очевидно. — Прим. ред. 2*
20 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ как Р(/)^е, то существуют, очевидно, такие натуральные числа пь . . . , пь что множества ТпЧ, . . . , ТпЧ, не пересекаясь, примыкают друг к другу так тесно, что покрывают всю окружность, кроме, быть может, множества меры 2е, т. е. P\{)TniIj>l—2e. Итак, Р(Л)>(1-в)(1-2в), а так как е произвольно, то Р(Л)=1. Эргодичность Т доказана. Строго инвариантные множества являются объединениями полных траекторий (множеств вида (..., Т1"1©, со, Гсо, ...)), что вызывает иллюзию возможности построения нетривиального инвариантного множества из „половин" полных траекторий. Такое построение возможно, когда с — корень из единицы, но неприменимо в противном случае: мы видели, что если с не является корнем из единицы, то любое строго инвариантное борелевское множество имеет меру 0 или 1, а тогда это верно и для любого строго инвариантного лебеговского множества !). Эргодичность диадического преобразования Рассмотрим преобразование Г со = 2co(mod 1) (пример 1.6). Если со = 0, (0JC02 ... и со' = со + 7г (mod 1), то а/ = 0, со[со2со3..., где ©i = l — coi. Если А = Т~ Л, то со ^ Л эквивалентно ГшеЛ и ©/ s Л эквивалентно 7V е Л. Так как Г© = 7V = = 0, ©2©з ...,тоо)еЛв том и только том случае, если ©/ е Л. Следовательно, если Е = [0,1/2), то А[\ЕС2) представляет собой сдвинутое на 1/2 вправо множество А(]Е. Тогда эти два множества имеют одинаковую меру (здесь Р —мера Лебега) и Р (Л) = 2Р (Л П Е) = Р (Л П Е)/Р (Е). Таким образом, Л и Е независимы. Можно показать, что это верно и в случае когда Е — любой диадический интервал или объединение 1) В случае когда с не является корнем из единицы, существуют строго инвариантные неизмеримые множества; такие множества автоматически имеют внутреннюю меру 0 и внешнюю меру 1. Упорядочим по включению семейство строго инвариантных множеств, не содержащих пары точек coi и со2, эквивалентных в том смысле, что (0i/(02~~" корень из единицы. В силу леммы Цорна это семейство содержит максимальный элемент Л. Любая точка со эквивалентна некоторой точке множества Л, так как иначе А можно было бы расширить, присоединив к нему полную траекторию со. Из сказанного следует, что А неизмеримо. 2) Вс обозначает дололнение множества Е.
Т. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 21 непересекающихся диадических интервалов. Для заданного положительного е выбираем объединение Е так, чтобы Р (А + Е)<г. Тогда | Р (Л) - Р (Е) |<е и | Р (Л) - Р (А)Р(Е) | = = \Р{А)-Р(А()Е)\<г, так что | Р(А) = Р2(Л) |<2е. В силу произвольности е имеем Р(Л) = Р2(Л), откуда Р(Л) равняется либо 0, либо 1. Следовательно, преобразование Т эргодично. Перемешивание Преобразование примера 1.1 оказывается эргодическим, но мы покажем, что оно обладает даже более сильным свойством. Сохраняющее меру преобразование Т называется перемешивающим, если равенство lim Р (А П ГпВ) =■ Я (Л) Р (В) (1.5) справедливо для любой пары множеств А и В 1). Если Г обратимо, то эквивалентным условием перемешивания является условие (1.5), в котором Т~пВ заменено на ТпВ. Так как (1.5) эквивалентно условию Р (Т~пВ \А) — Р (Т~пВ) -> 0, -то свойство перемешивания имеет смысл и без предположения инвариантности меры. Если множество В из (1.5) инвариантно, то Р(А[]В) = = Р(А) Р(В), и если взять Л = В, то Р (В) равняется 0 или 1. Следовательно, перемешивание влечет эргодичность, В большом числе случаев свойство перемешивания можно выяаить с помощью следующего результата. Теорема 1.2. Пусть &Г0 — поле, порождающее <&*. Если (1.5) выполняется для любых А и В из ^0, то преобразование Т перемешивающее. Доказательство. Для данных множеств Л и В из of и некоторого положительного е выберем множества Л0 и В0 из &Г0 так, чтобы мера множеств А + А0, В + В0 была меньше е. Тогда ГпВ + Т~пВ0=^ Гп (В + В0) имеет меру меньше е и, следовательно, мера множества (А(]Т~пВ) + + (Л0 П Т~пВ() меньше 2е для всех п. Таким образом, !) Это свойство иногда называют сильным перемешиванием, чтобы отличить его от свойства слабого перемешивания, для которого требуется п—1 только выполнение условия /Г1 ^ | Р (Л f] T~kB) - Р (А) Р (В) | -» 0. См. /г=0 Халмош [3].
22 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Р(А[]ТпВ) отличается от Р(А0(]Т"пВ0) не больше, чем на 2е, и, следовательно, ее верхний и нижний пределы не больше, чем на 2е отличаются от lim P (Л0 П Т"пВ^) = = Р(Л0П50), что в свою очередь не больше, чем на 2в отличается от Р {А П В). Результат следует из произвольности выбора е. . Если множества А и В —цилиндры из примера 1.1, то А и Т~пВ — цилиндры, зависящие от непересекающихся множеств координат, если п достаточно велико. Тогда Р (Л П Т"пВ) = = Р(А)Р{В) для больших пу так что (1.5) выполняется для всех множеств Л и В из поля цилиндров <ЗГ0. В силу теоремы 1.2 Г— перемешивающее и, следовательно, эргоди- ческое преобразование. Преобразование примера 1.3, разумеется, не обладает свойством перемешивания, ибо оно не эргодично. Преобразование примера 1.4 эргодическое, но не перемешивающее (возьмем А = В = {а}). Более интересный пример эргодиче- ского, но не перемешивающего преобразования дает вращение (пример 1.6) при с, не равном корню из единицы. Пусть Л = В — верхняя полуокружность; так как траектория {сп} всюду плотна, множества Л и Т'пА почти совпадают для бесконечно большого числа значений п, так что условие (1.5) не выполняется. Таким образом, перемешивание по сравнению с эргодичностью — свойство более сильное. С помощью теоремы 1.2 можно убедиться, что диадиче- ское преобразование (пример 1.6) не только эргодично, но и обладает свойством перемешивания. Формулировка эргодической теоремы Займемся теперь основными следствиями из эргодичности. Функция g{(u) (которая предполагается измеримой относительно <&~) называется инвариантной, если £(Гсо) = £(со) почти всюду. Множество инвариантно в том и только том случае, если инвариантна его характеристическая функция. Если g — инвариантная нетривиальная (т. е. не равная почти всюду константе) функция, то для некоторого а мера инвариантного множества {со: g (со) ^ а} заключена строго между О и 1. Таким образом, преобразование Т эргодично в том и только том случае, если всякая инвариантная функция равна константе почти всюду. Мы можем теперь сформулировать эргодическую теорему.
1. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 23 Теорема 1.3. Если f интегрируема, то существует такая интегрируемая инвариантная функция fy что E{f} = E{f}1) и л-1 Нт^У/(Г*со) = Г(со)п.в. (1.6) Если преобразование Т эргодично, то f(co) = £{f} п. е. Мы дадим сейчас доказательство менее сильного утверждения для весьма специального случая: мы покажем, что если Г —перемешивающее преобразование и f —характери- /г-1 стическая функция множества Л, то ~^^jf(Tk<u) сходится по вероятности к E{f} = Р (Л). Если cith-E{{f(T%)-P(A))tf(Tk*)-PU))) = = Р (Г'1А П ГкА) -Р{А)Р (Л), то, так как Г сохраняет меру, £/э л = Р|й_*|»гдерп = Р(Л П Т~пА) — - Р (А)Р (Л) -> 0 при п -> оо в силу предположения о перемешивающем свойстве преобразования Г. По теореме об арифметических средних сходящейся последовательности имеем Г л-1 "|2 \ п-\ л-1 n—\ л—1 л-1 Сходимость по вероятности "^^/(^ю) к ^(Л) следует fc=0 теперь из неравенства Чебышева. Доказательство для общего случая, непохожее на приведенное, дано в следующем параграфе. Если предел (1.6) существует почти всюду, то, очевидно, предельная функция f (со) инвариантна и в случае эргодичности преобразования равна константе почти всюду. Так как Е{f} = Е {/}, эта константа есть E{f}. Если Т эргодично, то со-множество, для которого существует предел (1.6), будучи инвариантным, имеет меру 0 или 1, но доказательство того, что мера его равна 1, затруднительно даже в этом случае. 1) Символы Е {/}, / (со) Р (da>) и / dP взаимозаменяемы.
24 ГЛ 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Если Г неэргодично, то предельная функция f не обязательно постоянна, так как если f — нетривиальная инвариантная функция (скажем, характеристическая функция нетривиального инвариантного множества), то средние арифметические в соотношении (1.6) равны самой f, так что f = f не равна константе. В § 10 (пример 10.2) мы покажем, что f является значением условного математического ожидания (а именно значением условного математического ожидания функции f относительно а-поля инвариантных множеств)/ Следствия из эргодической теоремы Если преобразование Т эргодично, то, положив в соотношении (1.6) / = /д, имеем я-1 Нт|У/л(Гйсо) = Р(Л)п. в. (1.7) Именно в этом смысле траектории эргодического преобразования воспроизводят пространство Q. Применение эргодической теоремы к сдвигу Бернулли (пример 1.1) приводит к усиленному закону больших чисел для испытаний Бернулли. Действительно, пусть /(со) принимает значения 1 или 0 в зависимости от того, является Xi(co) элементом / множества р или нет (f — характеристическая я-1 функция цилиндра {со: л^ (со) =/}). Тогда 2/(Г*со) указывает, fe=0 сколько раз встречается элемент i среди #i(co), ..., хп((ь), п — \ так что предел (если он существует) выражения — ^^ f (3"feco) представляет собой асимптотическую относительную частоту, с которой исход / встречается в той части бесконечной последовательности испытаний со, которая соответствует положительным точкам временной оси. Согласно эргодической теореме, этот предел существует и равен E{f} = pi почти всюду, т. е. имеет место усиленный закон больших чисел. Придавая /(со) значения 1 или 0 в зависимости от того, выполняются или нет равенства Xi(<u) = i, x2{(^)=:jy видим, что асимптотическая относительная частота исходов / и / в последовательных испытаниях равна ptpj почти всюду. Заметим, что эргодическая теорема для сдвига Бернулли
1. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 25 сильнее, чем подобные утверждения, так как в качестве / может быть взята некоторая сложная функция всех координатных переменных. Из применения эргодической теоремы к диадическому преобразованию (пример 1.6) следует теорема Бореля о нормальных числах. Число со в единичном интервале нормально (по основанию 2), если относительная частота единиц среди первых п знаков диадического разложения со сходится к 1/2. Из эргодической"теоремы с f(co) = 0 для со< 1/2 и Дсо)=1 для со ^ 1/2 следует, что почти все числа нормальны. Если же к этому примеру применить эргодическую тео- рему с f (со) = со, то мы увидим, что гГ1 2 {2*со}-> 1/2 почти всюду (символ {х} означает дробную часть действительного числа х). Рассмотрим теперь вращение окружности, когда с не является корнем из единицы. В этом случае преобразование Т эргодично, и в силу эргодической теоремы для почти всех со траектория {со, ссо, с2со, ...} точки со попадает в любую заданную дугу / с „правильной" асимптотической относительной частотой, а именно с частотой Р (/). Пусть 1Ь 12, ... — все дуги, концевые точки которых принадлежат некоторому фиксированному счетному всюду плотному подмножеству из Й, скажем, множеству всех корней из единицы. Тогда для почти всех со траектория со попадает в каждую дугу 1п с соответствующей частотой; нетрудно показать, что траектория любой такой точки со равномерно распределена в том смысле, что она попадает во всякую дугу окружности с правильной асимптотической относительной частотой *). Таким образом, траектории почти всех точек равномерно распределены, а так как каждая траектория получается из другой поворотом, то каждая траектория равномерно распределена. Разумеется, равномерно распределенная траектория всюду плотна, что снова приводит нас к теореме Якоби. Каждое лз этих следствий эргодической теоремы (за исключением, конечно, основного результата (1.7)) было доказано с помощью специальных методов раньше, чем была обнаружена сама эргодическая теорема. 1) Можно даже показать (используя теорию слабой сходимости), что равномерно распределенная траектория попадает в произвольное боре- левское множество Л с предельной относительной частотой Р (А), если его граница имеет меру 0. Однако для каждого со существует некоторое множество, в которое траектория попадает с неправильной частотой, например сама траектория точки со.
26 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Критерии эргодичности Рассматривая свойства эргодичности и перемешивания преобразований из различных примеров, мы избегали обсуждения с этой точки зрения общего сдвига примера 1.2. Дело в том, что не существует эффективного критерия для решения вопроса о том, является ли данный сдвиг эргоди- ческим или перемешивающим; вопрос этот должен решаться отдельно для каждого такого случая или класса случаев. Приведем построение, показывающее, что сдвиг примера 1.2 является, весьма общим. Пусть Г—обратимое сохраняющее меру преобразование, определенное на вероятностном пространстве (Q, оГ', Р), и А — некоторое множество, принадлежащее полю о?*. Пусть (й, <&~) — произведение пространств из примера 1.2 с р = {0, 1}. Определим отображение ф пространства Q в Q с помощью характеристической функции (ф(<й))„ = /д (Тп®\- Если Р = Яф~1, то сдвиг Т на пространстве Q сохраняет меру Р. Таким способом могут быть построены сдвиги более или менее произвольной сложности. Следующая теорема иногда используется для установления эргодичности сдвигов и некоторых других преобразований (применения даны в § 3). Если соотношение (1.7) выполняется, будем говорить, что А — респект1) для Г; таким образом, всякое множество А является респектом эргоди- ческого преобразования Т. Если 5 —респект для Г, то Нт ±%1А(и)13(Тк*) = 1А(*)Р(В) п. в. для каждого множества А. Интегрируя под знаком предела, получаем lim i 2 Р (А Л ГкВ) = Р (А) Р (В). (1.8) Итак, каково бы ни было множество Л, (1.8) выполняется, если только В является респектом для Г. С другой стороны, если (1.8) имеет место для всех А и 5, легко показать, что мера любого инвариантного множества равна 0 или 1 и, следовательно, Т эргодично. Наконец, если соотношение (1.8) 1) В оригинале «Г respects Л». Можно показать, что если Л — респект для Г, то Л не зависит от а-поля Г-инвариантных множеств (см. пример 10.2). — Прим. ред.
Т. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 27 выполняется для всех множеств Л и В из поля <^0, порождающего <^~, то оно выполняется и для всех множеств А и В из о^\ этот результат можно получить с помощью рассуждений, аналогичных тем, которые были использованы при доказательстве теоремы 1.2. Мы имеем, таким образом, следующий критерий. Теорема 1.4. Если Т — эргодическое преобразование, то каждое множество А является респектом для Т и соотношение (1.8) выполняется для всех А и В. Пусть ST^— поле, порождающее £F'. Если каждое множество А из <^0 является респектом для Т или если соотношение (1.8) выполняется для всех А и В из <&~0, то (&~0 — эргодическое преобразование. Сопоставление соотношений (1.5) и (1.8) показывает, что перемешивание в сравнении с эргодичностью является более сильным свойством. Даже если преобразование Т не эргодично, то Нт 1У МГ*со) = Ысо) п. в. Интегрируя по Л, получаем Hm ^P(A(]rkB)^E{lJB}. Правую часть этого равенства можно записать в другой форме, симметричной относительно А и 5. Действительно, функция (/л?в)"> соответствующая функции IAIBf имеет почти всюду значение п-\ Km-J-У IA{Tb<u)lB(Tk<*) = rt-l = Iim 7 S ** &**) *в H = /л (со) 1В (со), где первое равенство выполняется почти всюду в силу инвариантности 1В. Поэтому, так как функции lJB и {I^bT имеют одинаковый интеграл, то Hm ~y%P{A(\rkB) = E{IAlB). (1.9) Предел в соотношении (1.8) всегда существует,
28 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Более сложный сдвиг* г) Наша заключительная иллюстрация развивает идею примера 1.2. Пример 1.7. Пусть Q состоит из бесконечных в обе стороны последовательностей со = (..., (о_ь со0, соь ...) действительных чисел; пусть ^ есть а-поле, порожденное цилиндрами, т. е. множествами вида {со: (хп (со), ..., хп+к_{ ((о))е£}, где Е есть ^-мерное борелевское множество (здесь координатными переменными являются хл(со) = юл); и, наконец, пусть Р — любая мера, которая сохраняется при сдвиге Г, определенном формулой хп(Т(й) = хп+1((й). Мера Р определяется посредством конечномерных мер ^(£) = Р{со: (xn(a>)t ..., хп+ь-1 (со)) е= £}, индуцирующих ее. Сдвиг Т соответствует стохастическому процессу {..., x_i, х0, хь ...} с действительными значениями. Если каждая мера \ik является ^-кратным произведением \хь то {хп} — процесс с независимыми значениями. Тогда в силу теоремы 1.2 преобразование Т обладает свойством перемешивания и потому эргодично. Положив в эргодиче- ской теореме / (со) = х0 (со), видим, что при £{|х0|}<оо lim -jY>xk((i>) = E{x0} п. в. Таким образом, эргодическая теорема содержит усиленный закон больших чисел для независимых одинаково распределенных случайных величин с конечным первым моментом. Пример 1.7 обладает такой общностью, что выполнение требований эргодической теоремы для каждого преобразования такого вида означает выполнение их для любого обратимого преобразования. В самом деле, для того чтобы доказать эргодическую теорему для данной интегрируемой функции J и обратимого сохраняющего меру преобразования Т на вероятностном пространстве (Q, <&~, Р), возьмем (Q, Sr)9 как в примере 1.7, и зададим меру Р на / формулой Р = Рф-\ где ф(ш) =(..., f(T~l&), f(6), f(f©), ...). Тогда функция х0(со) интегрируема на Q. Если А есть со-мно- п—1 жество, на котором — \х&(со) сходится к x0dP и А — мно- fe=0 1) Звездочкой отмечены те разделы, которые можно опустить.
1. ПРЕОБРАЗОВАНИЯ, СОХРАНЯЮЩИЕ МЕРУ 29 л-1 жество, на котором — J^f (Г*©) сходится к \fdP, то А = = цГгА. Если для сдвига Т на пространстве Q справедлива эргодическая теорема, то Р(Л)=1, так что и Р(Л)=1. (Если преобразование Т необратимо, то аналогичный анализ можно провести с пространством односторонних последовательностей действительных чисел.) Аналогичное рассуждение показывает, что из эргодической теоремы для сдвига примера 1.2 вытекает, что для любого обратимого эргодического преобразования Т каждое множество того пространства, на котором это преобразование определено, является его респектом. Пример 1.7 можно использовать как образец для сравнения иным образом. Пусть {..., х_ь jE0, хь ...} — стохастический стационарный процесс, определенный на пространстве (Q, &* * Р), т. е. Р{3>:"{хп(&), ..., хп+ъ-\ (<*>)) е Е) не зависит от я. Здесь нет необходимости считать Q произведением пространств, а ^ — координатными переменными. Определим отображение ф нашего пространства Q в пространство Q примера 1.7 формулой -ф (с5) = {..., x_i(co), *0 (<*>), Х\ (<о), ...}, и пусть P = Pi|5_1. Тогда сдвиг Т на пространстве Q сохраняет меру Р в силу предположения 6 стационарности процесса {хп}. Все определения и вопросы, касающиеся {хп}, могут быть сформулированы в терминах координатных переменных хп в пространстве Q и меры Р. Например, процесс {хп} называют эргодическим или перемешивающим в зависимости оттого, обладает ли соответствующим свойством сдвиг Т\ если fc)— эргодический в этом смысле процесс и J |£0|dP<oo, то, применяя эргодическую теорему к сдвигу Г, получаем, что — Jj £fc(<*>)-> J x0dP с вероятностью единица. Замечание. Наше введение в эргодическую теорию игнорирует факт происхождения ее из статистической механики (см. Кац [1]). Общее изложение эргодической теории можно найти в работах Халмоша [3], Хопфа [1] и Якобса [1, 2] *). 1) См. также Рохлин [6]. Современное состояние эргодической теории отражено в серии статей, опубликованных в УАШ, 21» вып. 5 (1967). — Прим. ред.
30 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ 2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОЙ ТЕОРЕМЫ Эргодическая теорема заслуживает более чем одного доказательства. В этом параграфе мы сначала сведем эрго- дическую теорему к так называемой максимальной эргоди- ческой теореме (теорема 2.4), используя функциональные пространства L1 и /А Затем докажем максимальную эрго- дическую теорему безотносительно к L1 и L2. И, наконец, дадим еще одно доказательство, опирающееся на максимальную эргодическую теорему и не использующее пространств L1 и L2. Первое доказательство 1) Сохраняющее меру преобразование Т на вероятностном пространстве (Q, of, Р) естественным образом порождает оператор Т в гильбертовом пространстве L2 действительнозначных, интегрируемых с квадратом* функций, определенных на Q. Пусть f (со) — любая действительная функция на пространстве Q. Будем обозначать символом Tf функцию, которая принимает в точке со значение f (Гсо). Если f измерима (все рассматриваемые ниже функции будем предполагать измеримыми), то и функция Tf измерима, так как Т измеримо; если f принадлежит L2, то и Tf принадлежит L2, ибо преобразование Т сохраняет меру. Итак, оператор Т отображает пространство L2 на себя; линейность его очевидна., С помощью замены переменной имеем 2) (ff, fg) - J* Tf • fg dP = J f(Tco)g(Tco)P(dco) = -Jf(®)ff(o)P(d®)-(ff g). Скалярные произведения и расстояния сохраняются: Г— изометрический оператор 3). Пространство интегрируемых с квадратом функций на пространстве пяти точек {а, &, с, d, e) из примеров 1.3 и 1.4 *) Можно, минуя первое доказательство эргодической теоремы, сразу заняться теоремой 2.4. Но доказательство это поучительно, хотя и ведет нас окольным путем. 2) Символом (/, g) мы обозначаем скалярное произведение, символом Wfh^Vify f) —норму в пространстве L2. 3) Изучение изометрического оператора Г, лишь самые простые свойства которого здесь используются, может дать совсем немного сведений о порождающем его преобразовании Г, сохраняющем меру. Дальнейшая информация относительно Т содержится в конце § 5.
2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОЙ ТЕОРЕМЫ 31 можно отождествить с пространством R5 5-мерных векторов (столбцов). При таком отождествлении изометрические операторы Г, порожденные преобразованиями этих примеров, задаются матрицами перестановок 10 0 0" 010 0 0 0 0 0 0 0 0 1 0 0 10 и "0 1 0 0 01 0 0 1 0 0 0 0 0 10 0 0 0 0 1 1 0 0 0 0 соответствующими (а, 6, c)(d, ё) и (а, Ь, с, d, е). Поворот окружности (пример 1.5) порождает изометрический оператор,, переводящий функцию с рядом Фурье ^апеп(а>) п в функцию с рядом Фурье 2^4^W« п Эргодическая теорема утверждает, что если функция f интегрируема, то «—I 7 2/(^W(<o) п. в. для соответствующей функции f. Мы докажем сначала менее сильный результат, известный под названием эргоди- ческой теоремы 1) в L2. Обозначим символом Ап оператор усреднения Заметим, что 1Мя/1Ь<Н/1Ь. (2Л) Теорема 2.1. Для любой функции f из L2 существует инвариантная функция f из L2, такая, что Anf->f в смысле L2, т. е. \\Anf-f\\2-*0. Доказательство. Если AJ вообще сходится к функции из L2, то эта предельная функция, разумеется, инвариантна. Пусть Е2 — система функций / из L2, для которых последовательность {AJ} сходится. Мы покажем, что Е2 замкнуто и содержит подмножество, порождающее L2, а следовательно, совпадает с L2. *) Для того чтобы отличить саму эргодическую теорему (теорема 1.3) от прочих, ее называют иногда индивидуальной эргодической теоремой.
3$ ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Пусть ft^E2 и || fk - f Ц2 —^ °- Тогда и / е Е2. .Чтобы доказать это, достаточно проверить, что средние арифметические AJ образуют фундаментальную последовательность. Если II/а-- /1|2 < £, то в силу (2.1) IIAJ - A J ||2 < || Amf - Amfk ||2 + II AJk - AJk ||2 + + II AJk - AJ ||2 < || AJk - AJk Ik + 2e. Последовательность {AJ}, действительно, фундаментальна, так как \\Amfk - AJk ||2-> 0 при m, /г-»оо. Следовательно, система Е2 замкнута. Если f=ff, то, очевидно, fe£2(f=*=f). Если / имеет вид f = g - fg, то Лп/= (g ~ Г^)/м, так что || Л J ||2 < 21| g |Ь/л -> О и f ^ E2(f = 0). Таким образом, £2 содержит класс £2, состоящий из всех инвариантных функций и всех функций вида g-fg. 2 Остается еще показать, что Е0 порождает L , т. е. единственная ортогональная к £о функция есть 0. Для этого достаточно показать, что любая функция А, ортогональная всякой функции вида g — fg, удовлетворяет требованию А= ГА (тогда если она ортогональна и всякой инвариантной функции, то она ортогональна самой себе и, следовательно, равна 0). Благодаря свойству (fu Tf2) = {T*fu fg) сопряженного оператора Г* имеет место тождество (A, g- fg)=={h-T*hy g). Поэтому если (A, g - fg) - 0 для всех g, то А = Г/г. Далее1), ||А-fft |g = II А Иг-(Л, ГА)-(ГА, A) + ||fA|g. Очевидно, что (|fA||22 = ||A|g, и если А=ГА, то (А, ГА) = (ГА, А)Ч|А||^и аналогично (ГА, A)==||A|g, так что || А~ ГА ||* = 0, или А=?А. Итак, А = ГА, если функция А ортогональна каждой функции вида g — fg, что завершает доказательство. Заметим, что оператор, переводящий f в f, является ортогональным проектором на подпространство инвариантных функций. Следующий шаг состоит в доказательстве теоремы, аналогичной теореме 2.1, для пространства L1. Так как P(Q) = 1, то L2 является подпространством в L1. Если функция /(со) интегрируема, то интегрируема и f (Гсо) и, следовательно, 1) Если изометрический оператор Т обратим, то он унитарен, jaK что из h = T*h = T~lh следует выполнение требования h = Th. Однако Т может быть необратимым, что обосновывает необходимость дальнейших рассуждений.
2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОР1 ТЕОРЕМЫ 33 оператор f определен на пространстве L1 интегрируемых функций. Теперь мы будем рассматривать Т как оператор в L1, отображающий подпространство L2 в себя. Если ||/||i = = j \f\dP обозначает норму в L1, то |[ ff \\{ = || f \\{ и (мы исполь- зуем символ АПУ как и выше, для обозначения среднего — ^ fk, но теперь в L1) || AJ\\i <ll/lli- Теорема 2.2. Для любой функции f из L1 существует инвариантная функция f из L1, такая, что Anf->f в смысле L1, т. е. WAJ-fh-^O. Доказательство. Обозначим через Е1 множество функций / из L1, для которых утверждение теоремы справедливо. Те же рассуждения, с помощью которых мы показали замкнутость системы Е2 в пространстве L2, доказывают и замкнутость Е1 в L1 — нужно только везде заменить норму в L2 на норму в L1. Есл и f принадлежит L2, то до предыдущей теореме существует некоторая функция f из L2, такая, что|| A J — f |[2—^0, и эта функция принадлежит, разумеется, и L1. В силу неравенства Гельдера имеем \\Anf — f ||j <J| Anf — f l^-^O, так что f^E1. Итак, L2cz.El. Любая функция f из L1 является предельной в смысле L1 для функций из L2 (ограниченных), так что замыкание L2 в L1 совпадает с самим L1. Так как L2czEl и Е1 замкнуто, то El*=*Ll. Очевидно, что J Anf dP = J f dP, и так как Anf->f в смысле L1, то \UP~\fdP. (2.2) Попытаемся построить доказательство индивидуальной эргодической теоремы, следуя линии двух предыдущих доказательств. Пусть G — множество элементов / из L1, для которых существует функция f такая, что п-\ п-*°° *=о -Если такая функция f вообще существует, она должна совпадать с функцией f из теоремы 2.2 и, следовательно, должна быть инвариантным элементом пространства L1, удовлетворяющим соотношению (2.2). Мы докажем индиви- 3 Зак. 1491
34 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ дуальную эргодическую теорему, показав, что G (а) замкнуто в L1 и (Ь) содержит подмножество, порождающее L1. Предположим, что утверждение (а) справедливо, и будем доказывать (b). E^nf=rf, то f^G{f = f). Если f^g—fg, где g (со) —ограниченная (скажем, константой К) функция, то I AJ(со) | = | g (со) - g (Т%)\/п < 2К/п~> О для каждого со, так что f e G (f = 0). Если f = g — fg, где ^gL1, выберем ограниченные функции gk такие, что Hg^—gHf^O. В силу непрерывности оператора Т функция / является предельной в смысле L1 для функций gk — fgk и, значит (если выполняется (а)), принадлежит G. Следовательно, G содержит класс £§, введенный в доказательстве теоремы 2.1, состоящий из^всех инвариантных элементов L2 и всех элементов вида g — Tg, где g принадлежит L2. Было показано, что замыкание класса El в L2 есть само L2. В силу неравенства Гельдера любой предельный в смысле L2 элемент El является также предельным в смысле L1; таким образом, множество G, по предположению замкнутое в L1, содержит L2 и потому совпадает с L1. Остается показать, что G замкнуто в смысле L1. Будем считать установленным -следующий результат. Теорема 2.3. Если fezL1 и Я>0, то Предположим, что ffeeG и ||f& — f Hi->0. Для каждого о I A J (со) - AJ (со) |< | AJk (со) - Anfk (со) | + + 2 sup |ЛЛ/(со)-№))!. (2.3) и> 1 Так как f*eG, то последовательность {Anfk(to)} фундаментальна почти всюду для каждого fe, так что первый член в правой части неравенства (2.3) стремится к 0, когда т, п->оо, Тогда в силу теоремы 2.3 ffiH \AJ(<*)~Anf(<»)\ = lim sup |Лт/(со)~ДЛсо)| (2.4) m, л->оо fc->oo m.«>& превышает К с вероятностью, не большей 21| f — fk УК Устремляя fe~>oo и Я~>0, видим, что значение (2.4) поло-
2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОЙ ТЕОРЕМЫ 35 жительно с вероятностью. 0: последовательность {Anf(a>)} фундаментальна почти всюду. Итак, A J (со) имеет почти всюду предел, который в силу теоремы 2.2 должен быть инвариантным элементом пространства L1. Первое доказательство эргодической теоремы закончено. Заметим, что теорема 2.3 играет ту же роль в доказатель-" стве замкнутости G, что и элементарное неравенство (2.1) в доказательствах замкнутости многообразий Е2 и Е1 (теоремы 2.1 и 2.2). Так как в индивидуальной эргодической теореме мы имеем дело со сходимостью почти всюду, то мы не можем использовать неравенства, которые существенно слабее неравенства теоремы 2.3. Теорема 2.3 следует из теоремы 2.4 (заменой f на \f\). Максимальная эргодическая теорема Итак, все сводится к следующему результату, известному под названием максимальной эргодической теоремы. Теорема 2А. Пусть N= ш:8ир^£/(Л))>Я . (2.5) Если f интегрируема, то «>(#)< J fdP. (2.6) N Заметим, что можно не требовать положительности Я. Доказательство. Пусть /i-i G= (©: sup Sf(r*©)>o). Достаточно показать, что I fdP^O; тогда (2.6) получается заменой f на f — А. Если и-\ Gk = \<x>: шг и-\ л пах 2/(Г(о)>0|,
36 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ то | fdP-> J fdP и, следовательно, в силу теоремы об Gk а п арифметических средних— J|j J fdP-> \ fdP. Поэтому до- As-l Gb статочно доказать, что J) jfdP>0, /г=1, 2, .... (2.7) Л-1 Gu При /г = 1 это неравенство тривиально, оно даже не содержит Г. Поучительно детальное рассмотрение случая п = 2. В этом случае неравенство (2.7) записывается как J f(co)dP+ j*f(co)dP>0, (2.8) где G,={f(co)>0} и G2 = {f(co)>0 или /(со)-Ь/(Гсо)>0}. Если G{ = {/(Гсо)>0}, то с помощью замены переменной находим /(co).dP = \f(Tto)dP (мы используем здесь сохранение G, г' меры преобразованием Г), так что неравенство (2.8) эквивалентно неравенству J/(co)dP + |/(Гсо)^Р>0 (2.9) G2 G\ и, следовательно, неравенству \ [f{(o) + f(T(^)]dP+ J f(co)dP+ J f(T(*)dP>Q. g2[\g\ g2-g\ g\-g2 Неравенство это выполняется, так как каждый из трех содержащихся в нем интегралов неотрицателен, поскольку подинтегральная функция в каждом из них положительна в области интегрирования. Можно рассуждать несколько иным образом, замечая сначала, что (2.9) эквивалентно неравенству J [f (со) /0а (со) + f (Г(о) /0, («.)] dP > О, а затем, что подинтегральная функция в этом выражении неотрицательна для каждого со. Такое рассуждение применимо и в случае п>2.
2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОИ ТЕОРЕМЫ 37 Фиксируем /г, и пусть Hu = T~tlGn-u. С помощью замены переменной имеем п п—\ п—\ 2 J/(co)dP = 2 J f(<*)dP = ^j \f(Tu<*)dP = ^f(r(D)/Hr/((D) d/> .л-о ' (Этот шаг соответствует сделанному выше переходу от G\ к G\\ здесь мы используем предположение о сохранении меры преобразованием Т.) Неравенство (2.7) будет доказано если мы покажем, что подинтегральйое выражение 2^(Гсо)/я>) (2.10) неотрицательно в каждой точке со. Точка о/ принадлежит множеству Gk в том и только том случае, если хотя бы одна из сумм f(co'), f(co') + H7V), ..., f(a/)+...+f(7*-,a/) положительна; следовательно, со' принадлежит Gn~a в том и только том случае, если хотя бы одна из сумм f (со'), f (®0 + f (7W), ..., Т (со') +...+/(Г"""V) положительна. Следовательно, со ^ Ни = Г Grt-tt ИЛИ Г(ОЕ е Ся-я в том и только том случае, если хотя бы одна из сумм^ /(Го), /(Гсо) + /(Г+1со), ..., f(r"co)+ ... +КГ-1©) (2.11) положительна. Таким образом,- (2.Ю) — сумма /(Гисо) по тем и, для которых хотя бы одна из сумм (2.11) положительна. Зафиксируем со и положим ctt = f(TMco). Доказательство максимальной эргодическои теоремы завершается следующей комбинаторной леммой. Лемма. Назовем член си конечной последовательности чисел с0, съ ..., сп„х лидером, если хотя бы одна из сумм ^w С и *Са+\* • • • > С а "Т* • • • ' ^пгЛ положительна. Тогда сумма1) лидеров неотрицательна. [) Пустую сумму условимся считать нулем. =1
38 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Доказательство получается индукций по числу п элементов последовательности. Для п=\ результат тривиален. Предположим, что он справедлив для натуральных чисел, меньших п. Если с0 не лидер, то все лидеры данной последовательности являются одновременно лидерами укороченной последовательности си ..., сп-\ и их сумма неотрицательна в силу предположения индукции. Пусть теперь с0 — лидер. Если k — наименьшее натуральное число, для которого сумма с0+ ... + ck положительна, то си ..., ck — тоже лидеры, ибо' если бы один из них,, скажем с{, не являлся лидером, то сумма ct + ... + ck не была бы положительной и, значит, с0+ . .. + См >0, что противоречит выбору k. Итак, сумма лидеров с0, си ..., ck положительна; сумма остальных лидеров (если такие существуют) неотрицательна, так как они лидируют в последовательности, число членов которой меньше п. Доказательство завершено. Второе доказательство Эргодическую теорему можно непосредственно вывести из максимальной эргодической теоремы. Заметим^ что- если множество А инвариантно, то ЯР(ЛГШ< J fdP (2.12) лплг (где N определено выражением (2.5) и / интегрируема), что легко получается заменой f на / • 1А. Используя это замечание, покажем, что с точностью до множества меры О последовательность средних арифметических п-1 ■i-Eftf*») /г=0 сходится (быть может, к +оо или — оо). Положим для а<Ь {n—i n—i \ Очевидно, что Аа,ь инвариантно и Л-1 Аа,ь = Аа,ь[\ sup-i-5jf(7'*©)>* .
2. ДОКАЗАТЕЛЬСТВО ЭРГОДИЧЕСКОЙ ТЕОРЕМЫ 39 Если в (2.12) положить К = 6, имеем bP{Aatb)< J* fdP. Если вместо f, a, b взять — f, —a, —6, пблучим J /ЙР<аР(Лв,,). Таким образом, ЬР(Лв,&)<аР(Aatb), что возможно, только если Р{Аа,ь) = 0, поскольку а<Ь. Если Л - объединение Лв,* по всем парам рациональных а и b{a<b)y то Р(Л) = 0. Вне Л значения верхнего и нижнего пределов последовательности средних совпадают. Итак, Нт^У f(r*(o) = f((o) п. в., где f(со) конечно или равно +оо или —сю. С помощью замены переменной получаем и—1 j^\f(T^)\dP=j\f\dP и, применяя лемму Фату, имеем I п-1 | J|f|dP<Um J Ц-2^г*0) dP<Jlf|rfP. /г->оо I k=sQ I Таким образом, функция f интегрируема; в частности, она почти всюду имеет конечное значение. Так как предельная функция f инвариантна, остается только показать, что интеграл от нее совпадает с интегралом п-1 от f. Обозначим ап(©) = —^/(Г*©). Так, как aft(©)-*f(©) почти всюду и ] andP= \ fdP, то, производя формальные действия, получаем f/rfP- f lim a„dP= lim [andP= [fdP. (2.13)
40. ГЛ 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Покажем, что такая перестановка предела и интеграла законна1). Если A^={cd: sup | aft(co) |>М, то I п>\ \ \\an-ndP<\\an-1[\dP+ \\an\dP+ J \f\dP. n{ ni nk При фиксированном положительном Я первый член суммы в правой части неравенства стремится к 0, когда я->оо, в силу теоремы о мажорированной сходимости. Поэтому достаточно показать, что второй и третий члены суммы можно сделать малыми равномерно по п, выбрав большое Я. Относительно третьего члена это утверждение справедливо, потому что в силу максимальной эргодической теоремы Р^Х^Ц/^Д-^О, когда п->оо. Что касается второго члена, то мы имеем \\an\dP<\^ J|/(r*a>)|/»(de>) И J|/(r*a>)|P(da>)< J \f(Tk<*)\P(d<*) + aP(NK)t ^ {|f(rMI>a} так что с помощью замены переменной получаем J|aJdP< J |f(co)|P(dco) + aP(^). NK {|f(o)l>M Мы можем сделать правую часть этого неравенства малой» выбрав достаточно большие а и Я. Итак, [ | ап — f|dP->0, что делает законной перестановку предела и интеграла в (2.13)2) и полностью завершает доказательство эргодической теоремы. Замечание. Эргодическая теорема в L2 была впервые доказана Нейманом-[1], индивидуальная эргодическая теорема — Биркгофом [1]. Приведенное нами доказательство максимальной эргодической теоремы принадлежит Риссу [1]. 1) Это очевидно, если / ограничена. Следовательно, уже можно заключить, что если Т эргодично, то траектории воспроизводят Q в том смысле, в котором речь об этом шла в § 1. ( 2) И, между прочим, еще раз доказывает теорему 2.2. Незначительные изменения в рассуждениях приводят ко второму доказательству теоремы 2.1.
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 41 3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ В этом параграфе мы собрали несколько примеров, которые понадобятся нам позже для иллюстрации различных результатов. Сдвиги Пример 3.1. Рассмотрим специальный случай общего сдвига (пример 1.2). Пусть П = {pi}) — стохастическая (г X г)- матрица, строки и столбцы которой соответствуют элементам пространства состояний р. Обозначим через p = {pi) такой вектор (строку) вероятностей, что рП = р. Мы не делаем никаких специальных предположений относительно матрицы П; она может быть или не быть неприводимой, непериодической и т. д.!). Функции '*('«• '*)"P'A',"-pw» удовлетворяют условиям (1.3), первое из которых очевидно, второе следует из стохастйчности матрицы П, третье — из того, что р ^вектор вероятностей. Условие стационарности (1.4) также выполняется, поскольку рП = р. Поэтому существует единственная мера Р, сохраняющаяся при сдвиге Г, такая, что p{*n(<D) = ilf..., *„+^H = M = /Vvv** p'*-i'*- При так определенной мере мы будем называть Т сдвигом Маркова2). Сдвиг Бернулли является частным случаем сдвига Маркова при р^- = pj. Подобным же образом можно определить сдвиг Маркова более высокого порядка. В силу теоремы 1.2 общий сдвиг Т является перемешивающим в том и только том случае, если соотношение ИтР{А(]Гпв) = Р(А)Р{В) выполняется' для всех цилинд- п рбв А и В. Так как каждый цилиндр представляет собой конечное объединение непересекающихся тонких цилиндров, то достаточно, чтобы это ~ соотношение, выполнялось для 1) В терминологии мы следуем Феллеру [1]. 2) В отечественной литературе принят термин автоморфизм кова* — Прим. ред.
42 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ тонких цилиндров А и В: сдвиг Т является перемешивающим в том и только том случае, если для всех / и / hmP {Xi = iiy ..., xu — iu\ xn+i = ji> ..., xn+v = jv} = = P{x\ = lu •••> xu = ia}P{xl = jl1 ..., x* =»/„}. (3.1) Аналогичные рассуждения, опирающиеся на теорему 1.4, показывают, что сдвиг Т эргодичен в том и только том случае, если «-I = P{*i = /i,;.., *в = *«}Я{*1=/1, .... xv = jv]. (3.2) Согласно (1.9), предел существует, даже если Г не эргодичен. Вернемся к сдвигу Маркова. Будем предполагать теперь, что pi > 0 для всех /, принадлежащих р (любое состояние / с pi = 0 никогда не может наступить и потому не имеет отношения к процессу). Изучим условия, при которых сдвиг Маркова эргодичен. Полагая в соотношении (3.3) u = v=l, видим, что предел п-\ m всегда существует1). Если Т эргодичен, то qij = pj в силу (3.2). С другой стороны, если р^ = рр то сдвиг J эргодичен, так как вероятность в соотношении (3.2) равна Pi Pi i • • • Pi i P{iTu)P\ f • = • Pt i > k > u- ll lV2 lU-\lU 1U'1 }V2 Jv-VV Докажем эквивалентность следующих четырех утверждений: (a) сдвиг Т эргодичен,'^ (b) qtj не зависит от i\ х) Здесь pw означает вероятность перехода из состояния i в состояние / за k шагов, причем pfj = 6/;-.
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 43 (c) матрица П неприводима *); (d) qtJ > О для любой пары 7, у. Пусть числа qtj образуют матрицу Q* /i-i Q-limiYlI*. (3.4) Нетрудно показать, что Q — стохастическая матрица, для которой выполняются соотношения Qn = riQ = Q, Q2=Q. (З.б) Так как рП = р, то рП* = р для всех &, следовательно, в силу (3.4) pQ = р. Значит, qtj не зависят от / в том и только том случае, если qij = Pj. Таким образом, установлена эквивалентность утверждений (а) и (Ь). Предположим, что матрица П не является неприводимой; обозначим через р0 собственное замкнутое подмножество в р. Пусть А = {со: *0(ю) <з р0}, тогда 0 < Р (А)< 1 и Р (Л - Г1А) = 0. Так как А — инвариантное множество (см. замечание, следующее за определением инвариантности в § 1), то сдвиг Т не эргодичен. Итак, из (а) вытекает (с). В силу (3.5) qij = ^qiUpaj>QikPkp следовательно, если и qik > 0 и pkJ > 0, то q^ > 0. Поэтому р;- (множество таких /, что q^ > 0) замкнуто. Если матрица П неприводима, то р/, £удучи непустым, должно совпадать с р. Таким образом, из (с) вытекает (d). Предположим теперь, что все qtj положительны и 2<7*Ду = &, /ер. (3.6) Пусть максимальное из |* равно т. Если |* < m для некоторого /, то %ъ = 2 qkjtj < 2 Ць)т = т Для BGex ^> что нв" г / возможно. Поэтому "в силу утверждения (d) (3.6) выполняется в том и только том случае, если все %j равны между собой. Так как Q2= Q, то каждый столбец матрицы Q 1) Множество ро сг р замкнуто, если ^ Рц^^ для веех 1 из Ро; ма" /ер0 трица П неприводима, если р не содержит собственного замкнутого подмножества. Требованием, эквивалентным требованию неприводимости, является существование для каждой пары /, / такого пу что pW > 0.
44 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ является решением системы уравнений (3.6); следовательно, qtj не зависят от i. Итак, (d) влечет (Ь). - Мы показали, что наши четыре утверждения эквивалентны друг другу и что они эквивалентны требованию единственности решения (разумеется, с точностью до множителя) системы (3.6). Легко видеть, что (Ь) выполняется в том и только том случае, если система Ил^у^Лу. /GP. (3.7) i имеет только одно решение. В силу (3.4) любое решение системы ,2р/Ду = |/, '^р, (3.8) является решением системы (3.6) и любое решение системы 2л*Р*; = Лу. /еР> (3-9) i является решением системы (3.7). Таким образом, мы получили два условия, каждое из которых эквивалентно эргодичности Г. (e) Система (3.8) имеет единственное решение. (f) Система (3.9) имеет единственное решение. Эквивалентность условий (е) и-(f) следует также из сопряженности системы (3.9) системе (3.8). Мы показали, что сдвиг Т эргодичен в том и только том случае, если ^-у = р/, доказательство опирается на (3.2). Заменяя в наших рассуждениях (3.2) на (3.1), видим, что Т обладает свойством перемешивания в том и только том случае, если limp^ = p i, /ер. (ЗЛО) Я.->оо Из теории цепей Маркова известно, что (ЗЛО) выполняется в том и только том случае, если матрица П неприводима и непериодична1). Здесь мы воспользуемся этим фактом без доказательства (доказательство см. в § 11). Пример 3.2. Преобразование сдвига можно определить на произведении элементов односторонней последовательности экземпляров пространства р. Тогда элементом про- 1) Не существует натурального m > 1, такого, что рц > 0 только для п, кратного т. (В литературе по цепям Маркова возвратное ненулевое непериодическое состояние называют иногда эргодическим; см. Феллер [1]. Мы будем избегать такого употребления.)
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 45 странства Q является последовательность со === (со19 со2, ...), где cort e р; координатные переменные определяются, как и выше; Г((о1} со2, .. .) = (со2, со3, ...), так что {Т<й)п = cd„+1. Функции р& удовлетворяющие условиям (1.3) и (1.4), однозначно определяют меру Р, сохраняющуюся при преобразовании Г. Это преобразование называется односторонним сдвигом. Односторонние сдвиги Бернулли" и Маркова являются, очевидно, частными случаями этого общего одностороннего сдвига. Заметим,'что сдвиг в примере 1.2 (который мы теперь можем назвать двусторонним сдвигом) обратим, в то время как односторонний сдвиг необратим. Пример 3.3. Пусть Р'[Р"} — мера на пространстве (Q, ST), где определен двусторонний сдвиг, относительно которой координатные переменные х2п£ четными индексами независимы, принимают значение i с вероятностью pt и х2п = = Х2п+\[х2п=гХ2п-\\ Для всех п с вероятностью 1, Сдвиг Т не сохраняет ни Р', ни Р", но сохраняет их среднее арифметическое Р = {Р/ + Р")/2, что следует из соотношений чгкв)={^:, Р'(В) для четного k> (В) для нечетного k р"{гкв)- Р"(В) для четного k, Р'{В) для нечетного k. Из этих соотношений следует также, что lim - У \ [Р' (А) Р' (Гкв) + Р" (А) Р" (rkB)] =P(A)P (В). Если А и В — цилиндры, то Л и Т~кВ независимы при Р' и Р" для достаточно больших k. Следовательно, условие (1.8) выполняется. Тогда в силу теоремы 1.4 сдвиг Т эргодичен. Однако Т не обладает свойством перемешивания (если только одна из вероятностей pt не равна 1). Меры на интервале Обобщим диадическое преобразование из примера 1.6, заменив основание 2 основанием г ^2. Пример 3.4. Пусть Р — мера Лебега на классе <^'бо- релевских подмножеств полуинтервала Q = [О, 1), и пусть преобразование Т задано формулой Ты = rco(mod 1). Если
46 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ /((о) = / на [i/r, (i+l)/r)7 i' = 0, 1, ..., г—1, то точка со имеет оо по основанию г разложение ^£if(Tn~lu>)lrn. Как и в случае г = 2, преобразование Т эргодическое (и даже перемешивающее). Применение эргодическои теоремы показывает, что почти каждое число нормально по г (содержит все знаки разложения в одинаковой пропорции). Обозначим символом хп{®) п-и знак разложения (о по основанию г (т. е. /(Гп_1(о)); тогда хи х2, ... образуют последовательность независимых случайных величин, где Р{хп = /}= 1/г, / = 0, 1, ..., г—1. Будем называть Т r-аджеским преобразованием.^ Пример 3.5. Определим Q, £f и Т так же, как в предыдущем примере, но пусть теперь Р — любая мера, которая сохраняется при преобразовании Г. Общий вид г-адического интервала (диадического при г = 2) — \k\rn, (k+l)/rn); он содержит точку со в том и только том случае, если первые п знаков ^((о), ..., хп((й) ее разложения (по основанию г) имеют заданные значения. Так как конечные объединения непересекающихся диадических интервалов образуют поле, порождающее <^~, преобразование Т сохраняет меру Р в том и только том случае, если оно сохраняет меру каждого диадического интервала, или, что эквивалентно, в том и только том случае, если последовательность {х{,х2, ...} образует процесс, стационарный относительно Р. Этот пример показывает, что результаты эргодическои теории и теории вероятностей можно превращать в результаты, относящиеся к единичному интервалу, и обратно. Например, из эргодическои теоремы можно получить теорему о нормальных числах. В качестве примера обратной процедуры выведем специальный случай теоремы существования Колмогорова из того, что функция распределения на единичном интервале задает на нем меру. Пусть Р — мера на единичном интервале; мы сейчас не задаемся вопросом, сохраняется ли она при преобразовании Гсо = rco(mod 1). Пусть pk — функция, определенная на последовательностях (ix> ..., ik) длины k знаков разложения по основанию г. Она задается формулой Pk (*i. • • • > h) = P {*i N = *i. ...» Ч (со) = ikY (3.11) Тогда [р*(*1. .... W>of I 2j Pk+i (h> • • • > h> i) = Pk (*i> • • •» h)> /g J2\ 2 Pi (0=1 I i
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 47 (эти соотношения формально тождественны условиям (1.3)). С другой стороны, пусть нам даны функции pki удовлетворяющие условиям (3.12). Нужно построить на & вероятностную меру Р, удовлетворяющую соотношению (3.11). Определим функцию F r-адического рационального аргумента u/rk^[Oy 1] формулой F{jk) = ^Pk{iu ..., ik\ (3.13) где суммирование ведется по тем наборам ib ..., /&, для k . которых V~7 < "\ • Значения функции в точках u/rk и ги/гш /=i совпадают в силу второго из условий (3.12). Первое и третье из этих условий показывают, что F — неубывающая функция и /7(1)=1. Так как сумма, соответствующая точке 0, пуста, to.F(0) = 0. Сделаем еще одно предположение, состоящее в том, что для любой последовательности знаков iu ..., ik разложения по основанию г выполняется соотношение limpk+v(iu ..., ik, г- 1, ..., г- 1) = 0. (3.14) v _> оо "^ V ' (Если имеет место (3.11), то это последнее условие должно выполниться, ибо не существует точки со, разложение которой оканчивалось бы наг—1, г—1, )Из(3.14)следует, что F —непрерывная слева функция r-адического рационального аргумента и, следовательно, может быть продолжена до функции распределения на [0, 1], т. е. до непрерывной слева1) неубывающей функции, такой, что F(0) = 0 и F(l) = 1. Любой функции распределения F на [0, 1] отвечает единственная вероятностная мера Р на ©?", такая, что Р[0, x) = F(x)y 0<х<1. (3.15) Отсюда и из определения F немедленно следует (3.11). Если Р и рк связаны соотношениями (3.11), то преобразование Т сохраняет меру Р в том и только том случае, если 1) Непрерывность слева является здесь условностью, вызванной тем, что мы имеем дело с интервалами, замкнутыми слева, которые естественно связаны с разложениями, конечными в рациональном случае.
48 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Если р0, ..., рт-\ — неотрицательные числа, меньшие 1, в сумме дающие 1, и если Р*(*1>--" lk) = PiPi2 ••• Ptk> (ЗЛ7) то соотношения (3.12), (3.14) и (3.16) выполняются, так что существует мера Р на of, удовлетворяющая условию (3.11) и сохраняющаяся при преобразовании Т. В силу эргодиче- ской теоремы асимптотическая относительная частота, с которой знак i встречается в разложении точки со, равна pi с точностью до множества меры 0 (в смысле меры Р). Если Pi=l/r> то F(x) = x, P — мера Лебега и мы находимся в условиях примера 3.4. Займемся теперь случаем г = 3, и пусть р0=1/2, Pi = 0, р2=1/2. Тогда, согласно определению (3.13), F — функция Кантора; соответствующую меру Р будем называть мерой Кантора. Множество точек со, содержащих в своем разложении по основанию 3 цифры 0, 1, 2 в относительных предельных пропорциях 1/2, 0, .1/2, имеет меру Кантора, рав-
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 49 ную 1, и меру Лебега, равную 0. Таким образом, функция Кантора сингулярна1). Совершенно аналогичным образом убеждаемся, что если F строится с помощью функций (3.17), то она сингулярна, если только рь не равны тождественно 1/г. Если ни одна из Pi не равна 0, то F — строго возрастающая функция. На рис. 1 представлен график 'функции F в случае г = 2, р0 = 0,7, р! = 0,3. Если эта функция выглядит лучше функции Кантора, то это только потому, что график ее вычерчивается с точностью до толщины линии. Части графика, соответствующие отрезкам [0, 1/2] и [1/2, 1], идентичны с точностью до масштаба вертикальной оси, и каждая из этих частей с той же оговоркой идентична всему графику. Именно этим свойством воспроизведения2) должна обладать функция F, для того чтобы знаки диадического разложения х{((й), х2((й), ... образовывали процесс Бернулли с соответствующей мерой Р. Теорема существования Специальный случай теоремы существования Колмогорова, нужный для одностороннего сдвига (пример 3.2), следует из уже рассмотренного, так как любая мера Р на интервале мЪжет быть перенесена на пространство последовательностей элементов множества р = {0, 1, ..., г — 1} с помощью отображения ау->{х{ (со), лг2(со), .. .). Построив меру на произведении рХрХ ..., можно, конечно, заменить р любым множеством из г элементов —пространство состояний совсем не обязано иметь своими элементами знаки разложения по основанию г. Нарушение предельного соотношения (3.14) соответствует в р X р X ... точке с положительной вероятностью. Так как нетрудно построить точечные массы в этом пространстве, то условие (3.14) можно опустить. Это рассуждение показывает, что если функции pk на последовательностях длины k элементов из р- удовлетворяют 1) Носителем вероятностной меры Р > является такое множество Л, что Р(Л)=1. Две вероятностные ме'ры сингулярны одна относительно другой или взаимно сингулярны, если у них существуют непересекающиеся носители. Функция распределения сингулярна, если соответствующая мера сингулярна относительно меры Лебега. 2) Это напоминает мальчика, изображенного на обложк"е журнала рассматривающим эту обложку, и т. д. до бесконечности, только здесь он видит себя на каждой из двух смежных внутренних страниц. 4 Зак. 1491
50 ГЛ. Т. ЭРГОДИЧЕСКАЯ ТЕОРИЯ условиям (1.3), то существует вероятностная мера Р на р X р X ..., такая, что Pk (h, ...» ik) = P {x\ (©) = ix, ..., xk (со) = ik], где хг — координатные переменные1). Если верно соотношение (1.4), то мера Р сохраняется при одностороннем сдвиге. Этот результат можно распространить на двусторонний сдвиг следующим образом. Пусть ф отображает пространство рХрХ ... на пространство ... ХрХрХрХ ... по формуле ^((Oj, С02, ...) = (.. ., CD4> G>2> (0Ь 03» »5» •• •)» где (Oi стоит на нулевом месте в образе последовательности. Заданные функции pk, удовлетворяющие условиям (1.3) и (1.4), определяют новые функции + (I i \ ^ { Pkih-u • • • > U> h> i\> h> • • • > h) Для нечетного kf k\\ • • •» к) | pk^ ^ ^ ^ .^ .^ t^ для четного k. Для функций p\ выполняется (1.3) (но (1.4) может не выполняться), и, следовательно, существует мера Р+ на рХрХ .. ., такая, что Для меры Р+г|Г * на... ХрХрХрХ выполняется соотношение (1.2), и она сохраняется при двустороннем сдвиге. Таким образом, мы получили доказательство того специального случая теоремы существования Колмогорова, который встретился нам в примере 1.2. 1) Действительно, если условие (3.14) не выполняется, то существуют такие последовательности /ь /2> • • • ik (ik Ф г—\)> что lim pM(iv ..., ik, r-1,..., r-l\-^(«lf ..., ik) > 0. Заменим pn(iu ...» in) на Pn {h> • • •» *я) в Pn ~-# 2j ?л+/ (*P • • •» rV '«+1» • • •> ^+/)* 4+1' •••• *я+? Тогда система чисел рп будет удовлетворять первым двум условиям (3.12) и условию (3.14). По этой системе можно построить меру на р X р X ..., которая, однако, не будет нормированной. Остается теперь каждой точке со = (ч, ..., ik, г—1* ...), *Лт£г—1, приписать меру, равную q(i\, ..., ik)> — npUM. ред.
3. ДАЛЬНЕЙШИЕ ПРИМЕРЫ 51 Эргодичность и экстремальные точки Рассмотрим вероятностную меру, сохраняемую некоторым фиксированным измеримым преобразованием Т на некотором фиксированном измеримом пространстве (Q, о?"). Назовем меру Р эргодической, если относительно этой меры эргодично преобразование Т. Мы покажем, что если меры Р} и Р2 эргодические, то они либо совпадают, либо взаимно сингулярны. (Частный случай этого общего утверждения мы использовали при доказательстве сингулярности функции Кантора.) В самом деле, если Рх и Р2 не совпадают, то Рх(А)ф Р2{А) для некоторого А из аГ; если At — множество точек со таких, что /i-i Km jryiA(Tk<») = Pt(A), то А\ и Л2 не пересекаются и РХ(АХ) = Р2(А2)= U так что Рх и Р2 взаимно сингулярны. Отсюда следует, что если Р — эргодическая мера, а Рх абсолютно непрерывна относительно Р (и, следовательно, тоже эргодична), то меры эти совпадают, так как они не могут быть взаимно сингулярны. Если Р не эргодична, определим меру Рх равенством Рх (В) = Р(В | Л), где Л —инвариантное множество и 0<Р(Л)<1. Тогда Т сохраняет Рь a Pj отлична от Р и абсолютно непрерывна относительно нее. Таким образом, Р эргодична в том и только том случае, если не существует'такой меры Рх (сохраняющейся при преобразовании Г), которая отличалась бы от Р и была бы' относительно нее абсолютно непрерывна. Предположим теперь, что Р является взвешенной средней двух мер Рх и Р2. Иными словами, пусть Р = а1Р1 + а2Р2 (т.е. Р(В) = ахРх(В) + а2Р2(В) для всех"й из £Г), где а^Х), а! + а2=1 и РХФР2. Тогда Рх отлична от Р и абсолютно непрерывна относительно нее, и, значит, Р не эргодична. А если так» то существует нетривиальное инвариантное множество Л, так что Р{В) = Р{А)Р{В \А) + "+ Р (Ас) Р (В | Ас) дает представление Р = ахРх + а2Р2. Итак, Р эргодична в том и только том случае, если она не может быть представлена в виде взвешенного среднего двух вероятностных мер, сохраняющихся преобразованием Т. (Эргодическая мера Р может быть, разумеется, взвешенным средним вероятностных мер, не сохраняющихся преобразованием-Г; см. пример 3.3). 4*
52 ГЛ. I. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Конечные меры на £Г образуют линейное пространство; вероятностные меры, сохраняющиеся при преобразовании Г, образуют выпуклое множество в этом пространстве. Мы показали, что эргодические меры являются как раз экстремальными точками этого выпуклого множества. Замечание. Функционалы от цепей Маркова дают примеры сдвигов, которые обладают свойством перемешивания, не будучи марковскими сдвигами; см.,- например, Розенблат [1]. Более подробные сведения, касающиеся примера 3.5, можно найти в работе Харриса [1]. 4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ* Преобразование Любое число со из единичного интервала можно представить в виде простой непрерывйой дроби1) С0 = г^ + г^+ ..., (4.1) \а\ \а2 v ' где элементы а„ —положительные целые числа. Это представление конечно в том и только том случае, если со рационально. Для изучения эргодических свойств знаков разложения числа со по основанию г используется r-адическое преобразование Гсо =/чо (mod 1) на единичном интервале (пример 3.4) —знаки разложения Гсо являются сдвинутыми на одно место знаками разложения со. Существует преобразование, аналогичным образом сдвигающее элементы аю которое может быть использовано для изучения их эргодических свойств. Пусть со имеет представление (4.1), а другая точка единичного интервала о/ имеет представление \а2 | а3 Тогда 1 СО = ; г • ai + co' * так что число 1/со имеет своей целой частью [1/со] элемента!, а дробной частью {1/со}.—число со'. Будем изучать преобразование, переводящее со в {1/со}. 1) Об элементарных свойствах непрерывных дробей см., например, Харди и Райт [1] или начало книги Хинчина [4].
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 53 Пусть пространство Q есть полуинтервал [0, 1), а поле 4F состоит из его борелевских подмножеств. Определим преобразование Т формулой ( {1/со}, если со Ф О, { О, если со = 0. Если ( [1/со], если со ^ 0, г а (со) = \ п I оо, если со = О, и ал(со) = а(Ггг"1со), п=1, 2, ..., то а\ (со), а2(со), ... являются как раз элементами непрерывной дроби, представляющей со1). Нам потребуются некоторые результаты, касающиеся непрерывных дробей. Определим целозначные функции рп{®)* qn((u) рекуррентными формулами: р_! (со)= 1, р0(со) = 0, ря(©) = ая(©)ряЧ(ю) + ря_2(ю), п>1; (4.2) -9-1 (©)в °> ?о (©) = Ь <7„ N = «я (©) ^-i (®) + ^-2 (©)» л > Ь (В рациональном случае ря(со) и 9я(со) определены только до тех пор, пока а„(со) конечны,) Стандартные рассуждения, использующие индукцию, показывают, что а - 1 1 , ,11, II f43^ Ря-1 (©) <7/г (©) - Ря (©) <7я-1 (<») = (— 1)П> П>°> (4-4) И -J-1 + + L_J, L U »PB(;'t?M|(ttl , *>1, 0</<l. (4.5) qn (CO) + tqn-x (0) ^ ' ^ ^ v Положив в (4.5) t = О, получаем формулу для я-ro приближения: , s 1 I , j. J |__ Ря(СР) "Г ♦ . . "Т |fli(©) **' |ая(») <7п (со) Соотношения (4.3) и (4.5) дают п__ Рп(<*) + (ТП<й)рп-Л<й) 1) 7^0 = 0 для некоторого п в том и только том случае, если 0 рат ционально. Условимся считать элементы я^Дсс) бесконечными при п ^ /г, если наше представление — конечная /г-членная непрерывная дробь.
54 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ и, используя (4.4), получаем Рп(®) (О- Яп(®) 1 ^((0)((ГЛ(0Г1^(С0) + ^1((0)) Так как то ап+1 (©)< (Г©)"1 < ап+1 (со) + 1, <7я (®)(?я (ей)+ ?я+1(<8')) < со — Paz (СО) <7л(ю) <^)i7^) (">!)• (4-6) Наконец, нам потребуется неравенство In Рл (ю)/<7я (©) <-^=г> /i> 1 (4.7) Справедливость его при /г=1 может быть установлена непосредственной проверкой. Так как по соображениям индукции р„(со)>2("-2)/2, яМ>2*~т, п>2, (4.8) ТО Рп (<0)/<7я (») - 1 <"^РГ, /г>2. Для /г ^2 неравенство (4.7) следует из последнего неравенства. Пусть ak, k=l, ..., п, — положительные целые числа1). Обозначим символом Да,..., а множество точек со таких, что «1 (©) = «!, ..., ап((й) = ап. Множество ^а{ ... аю* которое мы будем называть фундаментальным интервалом ранга-я, играет здесь ту же роль, что r-адический интервал при изучении разложений по основанию г. Множество Ав1... ап является образом полуинтервала [0, 1), полученным с помощью функции фв1-...а » определенной равенством Из самого вида функции ясно, что Hp0l ... ап убывает при нечетном п и возрастает при четном п. В силу (4.5) имеем Рп + tpn-i Ф«, "n^'qn + tqn-i-' (4.9) 1) Не путайте с функциями аь (со); чтобы избежать недоразумений, мы не будем опускать аргумент со при записи этих функций (а также функций ри (со) и qk (со)).
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 55 \...а . = ( где рп и qn определяются через элементы ak рекуррентными соотношениями, подобными (4.2). Поэтому (Гр^ Рп + Рп-Л если J L<7az ' qn + qn-i I Грп + pn-i pn\ eCJlvrn нечетно. lqn + qn-i qn) Из соотношения (4.4) следует где X означает меру Лебега. Таким образом, фундаментальные интервалы ранга п образуют разбиение пространства Q на интервалы длины, не большей 2~п+ . В частности, класс всех фундаментальных интервалов порождает а-поле 4Г борелевских множеств. Мера Гаусса Легко видеть, что преобразование Т не сохраняет меру Лебега Я. Однако на & существует мера, которая, как мы увидим, сохраняется при преобразовании Г, а именно мера Гаусса Так как Р и X абсолютно непрерывны относительно друг друга, то соответствующие им множества меры 0 совпадают. Таким образом, если последовательность элементов 01 (<*>), 02(ю)» ••• обладает некоторым свойством почти всюду относительно Р, то она обладает этим свойством и почти всюду относительно X. Для того чтобы доказать, что Т сохраняет Р, достаточно показать, что оно сохраняет меры отрезков [0, а]. Так как оо Ъ=1 то нужно проверить только выполнение равенства С dx __ \} С dx J 1+* ~~ 2u J l+x fe-1 l/(fe+a)
56 ГЛ. U ЭРГОДИЧЕСКАЯ ТЕОРИЯ а/к dx Равенство справедливо, поскольку k-й член в правой его части равен 1»(1+т)-1"(1+1тг)- a/(fc+l) Докажем теперь, что Г эргодично относительно Р. Фиксируем а,\ ... ап и будем обозначать а>а*...ал через t|? и Дд,... аЛ через Дя. Длина интервала ДЛ равна ± 0ф(1) — я|)(0)), и если 0^х<у^1, то длина интервала {ю:*<Гю<0}ПДй равна ± (г|) (г/) — г|) (дс))" со знаком + или — в зависимости от того,, четно или нечетно п. Поэтому В силу (4.9) и (4.4) имеем Я (Т'п [х, у) | A J = (y~x) ?Л?»+ fr»-i) (4 12) Так как второй множитель в правой части равенства лежит между 1/2 и 2, то \ Я (Л) < Я (Гп А | A J < 2Я (Л)> (4.13) где А = [х, у). Тогда (4.13) справедливо и в случае, если А — объединение непересекающихся интервалов, следовательно, справедливо для любого А из оГ. Так как плотность меры Гаусса, определенной выражением (4.11), всегда находится между 1/2 In 2 и 1/1п2, то Ц£ <!>(*>< ^,А1«=<Г. (4.H) Из (4.13) следует, что -i- Р (Л)< Р (ГпА | Дя) < СР (А) (4.15) для всех А из о?", где С — абсолютная константа (С = 4/1п2). Предположим, что Л —инвариантное множество. Тогда С~1Р (Л) <! Р (Л | Дя) и, следовательно, если Р(Л)>0, то С~1Р{&п)^Р(&п\А). Поэтому неравенство -1р(£)<Р(£|Л) (4.16)
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 57 выполняется для конечных объединений Е непересекающихся фундаментальных интервалов. Поскольку эти множества образуют поле, порождающее 3^, то (4.16) верно для любого Е из <^~. Если положить Е = Ас, то получаем, что Р(А) должна равняться 1. Поэтому Т эргодично относительно Р. Из эргодической теоремы следует, что если /—интегрируемая функция на единичном интервале, то lun±%{T^) = 1^(l^dx п.в. (4.17) п~* k=o о Здесь не имеет значения, к какой мере, Р или Я, относятся слова „интегрируема" и „п. в.". Пусть f — характеристическая функция множества {со: ах (со) = &}. Тогда асимптотическая относительная частота, с которой число k встречается среди элементов а{ (со), а2(со), • • • > почти всюду равна i/k 1 f _dx 1 j Jk + l)2 In 2 J l+л: In 2 k{k + 2) ' lHk+l) В частности, последовательность элементов ^(со), а2(со), ... почти всюду неограниченна. Положив f (со) = lnaj (со), видим, что оо п -w-|- / I \ In ft/In 2 lim уд! (©) ... ая (со) = Щ1 + ^^j п. в. Если-f (0) = aj (со), то интеграл от / расходится к + оо. Мы приходим с помощью формальных операций к предельному соотношению lim ai(c°)+ ••■ +вя(в>) 00 п. в. С помощью усечения нетрудно доказать это строго. В применениях к диофантовым приближениям для нас важнее величина qn{(d), чем аДсо). Мы докажем, что jimjin«»w=iS2-"-B' (4л8) Покажем сначала, что
58 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Из рекуррентных соотношений (4.2) с помощью индукции получаем р;+1 (со) = qj (Гсо), и поэтому <7л(ю) (4.20) так как числитель /z-го множителя в правой части сокращается со знаменателем (k+ 1)-го множителя. Но (4.20) есть как раз (4.19). В силу (4.7) имеем 1пГмсо-1п + + 1 I а^ (со) \ап и, следовательно, в силу (4.19) < 1 >ra-ft-l , 1 ^ & < rt, lnd^=2ln^+2™>iei<i. fe-i й-1 Поэтому i-ln^H —7Sln7'*ffl, + 44' l9!^1- (4-21> А-0 В силу эргодической теоремы lim Л->оо "42 ln7** =-i^/lT7lnJC^ п'в- &=0 J 0 Интегрируя по частям, получаем 1 оо 1 /г=0 о оо 1п2 -J fe-0 (6+1)2 12 In 2 Таким образом, (4.18) следует из (4.21).* Соотношение (4.18) имеет несколько простых, но интересных следствий. Например, используя (4.6), получаем lim±lnL_ftLJ»L п-*оо П I Яп (СО) 6 In 2 п. в. Таким образом, расхождение между со и его п-м приближением почти всюду порядка е~пп2/*}п2. Далее, если Дл(со) —
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 59 фундаментальный интервал ранга п, содержащий со, то в силу (4.10) Нт~1пЯ(А/г(со)) = — -g^y п- в- Наконец, в силу (4.17) имеем Нт ± In Р (Д„ (со)) = - g^j п- в- (4-22) Применение к диофантовым приближениям Пусть* {ая}~ последовательность положительных чисел и Еп означает событие {ап((й)>ап}. Так как величина Р{Еп) = = Р{ап((й)>ап} порядка 1/<хЛ, то из леммы Бореля — Кан- телли следует, что если 2 1/а/г сходится, то число наступлений события ап((д)>ап конечно, за исключением, быть может, множества меры 0 (относительно Р или Я). Предположим, что 2 1/а/г расходится. В силу (4.15) Р(£„+1'|Д^>с,(ал+1 + 1) для любого фундаментального интервала ранга пу где С'—абсолютная константа. Поэтому k Если 2 1/а/г расходится, то произведение стремится к 0 при &->оо; следовательно, Р(Ест(]Ест+1П ...) = 0. Так как это верно для каждого т, то число наступлений события ап((й)>ап бесконечно, за исключением, быть может, множества меры 0. Мы можем теперь сформулировать следующий результат. Теорема 4.1. Число наступлений события ап((о)>ап бесконечно с вероятностью 0 или 1 в зависимости от того, сходится или расходится 2 1/<V Этот результат и соотношение (4.18) приводят к следующей фундаментальной теореме метрической теории аппроксимации: Теорема 4.2. Пусть f{q) —положительная функция натурального аргумента q. (а) Если qf {q) — невозрастающая
60 ГЛ. 1. ЭРГОДИЧЕСКАЯ ТЕОРИЯ функция и 2 / (^) == °°, то для почти всех а> неравенство р (О — <1М. (4.23) я имеет бесконечно много решений в целых р и q. (b) Если 2/(^)<оо, то для почти всех со неравенство (4.23) имеет не более чем конечное число решений. Доказательство, (а) Выберем и зафиксируем натуральное Af (скажем, N = 4), такое, что lnN>n2/l2 In 2. Из (4.18) следует, что неравенство Unqn(v)<\nN (4.24) выполняется с точностью до множества меры 0 для всех, кроме конечного числа, значений /г. Если q>(n) = Nnf(Nn), то, поскольку qf(q) не возрастает, имеем Nn+l-l 2 /(,/)< 12 In tf.q>(n), q=N так что 2ф(л) расходится, если расходится 2/(?)- Из /г q теоремы 4.1 вытекает, что неравенство а««^>ш (4-25) с точностью до множества меры 0 справедливо для бесконечно многих п. Если выполнено неравенство (4.25), то в силу, (4.6) и (4.2) 0 — *МЮ) [ < 1 < ! < ф(^) <7я (ю) I qn (со) ^+i (со) ^ ап+1 (со) ^ (со)2 ^ qn (со)2 ' Но если (4.24) также "выполнено, так что qn(<u)<Nnf то в силу того, что qf(q) не возрастает, имеем 'v{n)-Nnf(Nn)^qn(v)f(qn(v))9 так что a-Pni<»± Яп(<*>) ^ f (Яп (со) ) ?я(ю) Так как неравенства (4.24) и (4.25) с точностью до множества точек со меры 0 выполняется одновременно для бесконечного множества значений п9 то часть (а) теоремы 4.2 доказана.
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 61 Часть (Ь) вытекает из простых свой£тв меры Лебега. Если Hq — множество точек со, для которых неравенство (4.23) выполняется при каком-нибудь натуральном /?, то Hq является объединением интервалов длины 2f(q)/qc центрами в точках вида p/q. Так как таких точек на единичном интервале только q> то МЯ,)<2/(<7). Таким образом, часть (Ь) следует из леммы Бореля— Кан- телли. Перемешивание и проблема Гаусса Усиление нашего доказательства эргодичности преобразования Т дает нам новые сведения. Пусть <&п есть а-поле, порожденное множествами вида оо {со: ak((o) = a] при k^n, и пусть <£?«,= Q <£?л. Множество из а-поля а?то, которое мы назовем хвостовым 1) ст-полем, зависит только от „бесконечно далекого будущего". Покажем сначала, что любое инвариантное множество „почти" лежит в этом хвостовом сг-поле, т. е. если А инвариантно, то Р(Л-Ь В) = 0 для некоторого B^i?^. Так как А <= <^, то Т~пА^&п даже для неинвариантного Л. Но бели А строго инвариантно, то А = Т~пА^а?п для всех п и, следовательно, Ле^. Если же А просто инвариантно, то Р(Л + В) = 0 для некоторого строго инвариантного множества В. Так как в о^ существуют множества, не являющиеся строго инвариантными2), то, возможно, а?м содержит множество Л, для которого 0<Р(Л)<1, даже если Т эрго- дично. (Если бы Т не было эргодичным, то «^ содержало бы такое множество Л, так как инвариантные множества „почти" лежат в <£?00.) Если Р(Л)>0, то для любого п множество Л имеет вид А=Т~пВ, где В^оГ. Но в силу (4.15) ■^Р(Л) = ~-Р(Г^) = -1р(В)<р(Г^|Ап) = Р(Л|Ап). для любого фундаментального интервала Д„ ранга п. Так как Р(Л)>0, то С"1Р(ДЛ)<Р(АП|Л). Как и раньше [см. (4.16)], отсюда следует, что Р(Л)=1. 1) В отечественной литературе принят термин „остаточное а-поле". — Прим. ред. 2) Например, множество точек со, для которых ап (со)« 1 при бесконечном множестве четных значений п.
62 ГЛ. Г. ЭРГОДИЧЕСКАЯ ТЕОРИЯ Таким образом, хвостовое сг-поле ^ тривиально в том смысле, что оно содержит только множества меры 0 или 1, —условие не менее сильное, чем эргодичность. В действительности, как мы увидим позже (в конце § 11), из этого условия можно сделать вывод о перемешивающем свойстве преобразования Г. В письме к Лапласу1) Гаусс утверждал, что lim А {со: Г со < х] = 1п(*+*] = Р [О, х) (4.26) для каждого х из единичного интервала, и интересовался оценкой ошибки при использовании п-го приближения. Запишем (4.26) в виде lim f (In 2) (1 + со) Р (dco) = Р (Л), (4.27) Т ПА где Л = [0, л:). Из того, что преобразование Т является перемешивающим относительно меры Р> вытекает, ^ что 1 lim Г /(ю)Р(Ао) = Р(Л) f/(©)P(rf©) Т ПА ° для любой характеристической функции / и любого боре- левского множества А. Так как функция (In 2) (1 +со) равномерно аппроксимируема ступенчатыми функциями, то имеет место (4.27) (для любого борелевского множества А). Таким образом, утверждение Гаусса вытекает из того, что преобразование Т является перемешивающим. Другие методы показывают, что перемешивание равномерно экспоненциально, т. е. р (j-in+k) А j дj = р (д) (j + 6prt^ (4>28) где |6К/С, К и р — положительные константы (р<1), не зависящие от Л, п, k и Дл. Отсюда следует, что'сходимость в (4.26) равномерна и экспоненциальна. Замечание. Многие из приведенных результатов, включая теорему 4.2, доказаны Хинчиным [1,2]. Его доказательства осложнены тем, что он не использует эргодической теоремы. Дёблин [1, стр. 336], по-видимому, первым доказал (4.17) во всей общности, применяя эргодическую теорему. {) Это письмо цитируется Успенским [1]. Не ясно, каким доказательством этого утверждения располагал Гаусс.
4. ПРИМЕНЕНИЕ К НЕПРЕРЫВНЫМ ДРОБЯМ 63 Другое доказательство эргодичности преобразования Т см. в работе Рыль-Нарджевского [1]. Кузьмин [1] первым доказал (4^26), он получил оценку ошибки аппроксимации порядка p^rt. Леви [1, 2] улучшил ее до рл, доказав (4.28). Дёблину [1] принадлежит другое доказательство соотношения (4.28) и еще много вероятностных результатов относительно непрерывных дробей. Существует класс теоретика-числовых преобразований единичного интервала, содержащий в виде специальных случаев преобразование непрерывных дробей и преобразование co~>rco(mod 1); см. Реньи [1] и Рохлин [3]. w Кац [1] исследовал различные связи между теорией вероятностей и другими областями математики.
ГЛАВА 2 Энтропия 5. ПРОБЛЕМА ИЗОМОРФИЗМА Существуют такие пары сохраняющих меру преобразований, которые, будучи формально различными, по существу совпадают. Сдвиг Бернулли ни в каком существенном отношении не изменится, если элементы пространства состояний р обозначить по-новому. Очевидно также, что вращение единичной окружности Г(о = ссо (пример 1.5) не отличается от преобразования Гсо = со + (argc)/2ft(mod 1) единичного интервала с мерой Лебега, а диадическое преобразование Гсо = 2со (mod 1) единичного интервала не отличается от преобразования Гсо = (о2 единичной окружности с мерой Лебега. -• Несколько более глубокий пример дает сравнение преобразования r(o==2(o(mod 1) на единичном интервале и одностороннего сдвига Бернулли с пространством состояний р = {0, 1}, р0==р1==1/2. Если мы сопоставим точки единичного интервала и элементы прямого произведения р X р X .. . с помощью соответствия О, <й{Щ . . . «-^((Dj, (02, . ..) (мы на время игнорируем неоднозначность диадических разложений), то множества соответствующих точек (например, левый полуинтервал и цилиндр {со: д^ (ю) = 0}) имеют одинаковую меру и оба преобразования действуют по существу одинаковым образом, ибо одно переводит точку 0, со^ .. . в 0, co2(o3 ..., а другое -точку (щ, со2, ...) в (а>2, со3> • • •)• Изоморфизм Необходимо ввести понятие изоморфизма для сохраняющих меру преобразований, подобное понятию изоморфизма, скажем, для групп. Пусть Т и Г —сохраняющие меру преобразования, определенные на вероятностных пространствах (Q, #", Р) и (й, о? , Р) соответственно1). В качестве предва- 1) Далее всюду, где специально не оговорено противное, предполагается, что все преобразования Г, Г и т. д. сохраняют меру.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 65 рительного определения возьмем следующее: преобразования Т и Т изоморфны, если существует отображение ф пространства Q на Q такое, что 1) ф взаимно однозначно; 2) если Л = фА, то Ле^ в том и только том случае, когда Ле^, при этом Р(Л) = Р(Л); 3) равенство фГ<й= Гфсо выполняется для всех со. Условия 1 и 2 требуют, чтобы отображение ф сохраняло структуру измеримых пространств (Q, &* % Р) и (Q, <&*., Р). Условие 3 требует, чтобы ф переводило Г в Г: один и тот же результат получается независимо от того, каким из двух путей совершается переход от верхнего левого Q к нижнему правому Q в диаграмме Q— +Q <Н 1ф * ~ * Пары преобразований, рассмотренные в начале этого параграфа, изоморфны в указайном смысле, но все же данное определение неудовлетворительно. Предположим, что Г —тождественное преобразование пространства Q, состоящего из одной точки, а Т — тождественное преобразование пространства Q, состоящего из двух точек с массами 0 и 1 {0* состоит из всех четырех подмножеств). Хотя отображения ф, подобного описанному выше, не существует уже потому, что пространства 41 ий имеют разные мощности, преобразования Г и Г по существу одинаковы—точка пространства Q с массой 0 не должна идти в счет. Вследствие неоднозначности диадических разложений для приведенного выше соответствия О, (0^2 . . . «-> (©!, (02, . . .) возникает аналогичная трудность. Нам нужно определение, которое было бы нечувствительно к множествам меры 0, т. е. такое определение, которое признавало бы преобразования Т п f изоморфными, если они становятся изоморфными после выбрасывания множества меры 0 из одного или из обоих пространств Q и Q. Пусть теперь Q0 есть то, что остается после удаления из Q некоторого множества меры 0, т. е. Q0 — множество из 4F меры 1. Тогда Т может рассматриваться как преобразование, определенное лишь на Q0, в том и только том 5 Зак, 1491
66 ГЛ. 2. ЭНТРОПИЯ случае, если оно переводит Q0 в себя: Г со принадлежит Q0 всякий раз, как со принадлежит р0, или, что то же самое, £20=эГЯ0(или, что то же, Я0 с: Г_1Я0). Будем теперь считать Т и Т изоморфными, если, будучи суженными до преобразований, действующих на подмножествах QQ и Q0, удовлетворяющих соотношениям Q0czr_1Q0 и Q0 cz f~lQ0, они становятся изоморфными в смысле предварительного определения. Это приводит к следующему определению. Пусть существуют множества Q0 из of и й0 из <£Г, имеющие меру 1, и отображение ф множества Q0 на Q0, обладающие следующими свойствами. (Ij) Отображение ф взаимно однозначно. (12) Если AczQ0 и Л = фЛ, то Ле^ в том и только том случае, когда Ле^, при этом Р(А) = Р(А). (13) Имеют место соотношения Q0czT~lQ0 (т. е. Q0 => га0), (5.1) Q0 cz f~lQ0 (т. е. Q0 => TQ0) (5.2) и, наконец, фГсо = Г фсо (5.3) выполняется для любого со г/з Q0. В этом случае мы говорим, что преобразования Т и Т изоморфны {точнее, изоморфны (Q, <&*, Р, Т) и (Q, <&", Р, Т))1). Для того чтобы подчеркнуть роль множеств Q0, Q0 и отображения ф, можно говорить, что преобразования Т и Т изоморфны относительно тройки (Q0, U0, ф). (Условия (\г) и (12) представляют собой определение одинаковости самих пространств с мерой (Q, <£Г, Р) и (Q, &', Р). Условие (13) —только в нем фигурируют преобразования Т и Г— утверждает, что эти преобразования абстрактно тождественны.) Следующие замечания содержат утверждения теории меры относительно нульмерных множеств, нужные для точной трактовки понятия изоморфизма. 1) Это понятие иногда называют изоморфизмом по модулю 0, или изоморфизмом по модулю множеств меры 0, или почти изоморфизмом. Отказавшись от предварительного определения, можно опустить подобные уточнения.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 67 Замечание 1. Данное выше предварительное определение соответствует частному случаю, когда можно выбрать тройку (Q0, Q0, ф) таким образом, что Q0 = Q и Q0 = Q. Тогда равенство rn<fxA = <fxf-nA (5.4) верно для любого подмножества А множества Q и любого п>0. Замечание 2. В связи с соотношением (5.3) заметим, что если соей0, то ф(о g Q0, так что в силу (5.1) и (5.2) Г со и Гфсо принадлежат множествам Q0 и Q0 соответственно. В этом случае условие (5.3) требует соответствия точек Гсо и Гфсо относительно отображения ф. Ослабим условие (13), опуская требования (5.1) и (5.2) и предполагая только справедливость (5.3) всякий раз, как элементы со и Гсо оба принадлежат множеству Q0. Если тройка (Q0, Q0, ф) удовлетворяет условиям определения, где (13) ослаблено указанным образом, то преобразования Г и Г не обязательно изоморфны относительно тройки (й0, й0, ф), но легко видеть, что они изоморфны относительно тройки (Qj, Qj, фх), где йх = f} T~nQ0i Й! = фЙ! и ф! — сужение ф на Qv (На самом деле преобразования. Г и Г изоморфны, даже если вместо условия (13) мы потребуем, чтобы (5.3) выполнялось всегда, когда имеют место соотношения (ogQ0, Tco^Qq и Гф(оей0.) Замечание 3. Мы должны показать, что изоморфизм является отношением эквивалентности. Очевидно, что преобразование Т изоморфно самому себе; следовательно, изоморфизм рефлексивен. Если Т изоморфно Т относительно тройки (Q0, Q0, ф), то Т изоморфно Т относительно тройки (Q0, й0, ф""1); следовательно, изоморфизм симметричен. Для доказательства транзитивности изоморфизма нужно показать, что если Т изоморфно f и Т изоморфно третьему преобразованию V (определенному на пространстве (£У, <^/, Р'))у то Т изоморфно V. Допустим, что Т изоморфно Т относительно тройки (Q0, й0, ф) и Т изоморфно V относительно тройки (Qj, Qi, г|э). Пусть Q2 = QoH йь Й2 = Ф~1Й2> Q2 = ^2, и пусть Ф2 и ^2 являются сужениями отображений ф и -ф на й2 и ^соответственно. Нетрудно показать, что преобразование Т б*
68 гл. 2. энтропия изоморфно f относительно тройки (Q2, Q2, qp2) и f изоморфно V относительно тройвд (Й2, Qfr i|)2). Так как образ множества Q2 ПРИ отображении ф2 совпадает с множеством Q2, на котором определено отображение if>2, то с помощью композиции ф2 и г|)2 можно получить взаимно однозначное отображение I множества Q2 на Q2: g (со) = oj?2(ф2 (со)). Теперь нетрудно убедиться, что Т и V изоморфны относительно тройки (иг, Й2, g). Замечание 4. Если преобразование Т изоморфно f относительно тройки (Q0, Q0, ф), то в силу-соотношений (5.1) и (5.2) Qo cz T'lQ0 cz Г2Оо cz ... (т. е. Q0 =э TQ0 => Г2О0 z> ...) (5.5) и Qo cz r'Qo cz f'2Q0 cz ... (т. е. Q0 =) Щ) z> f2Q0 z> ...). (5.6) Далее, из (5.3) следует по индукции, что если со е £20, то. фГсо-Гфсо (5.7) выполняется при всех п ^ 0. (В частности, Тп и Г* изоморфны при всех /г.) Наконец, из соотношений (5.5), (5.6) и (5.7) следует, что если А и В — множества из поля <ЗГ и если Л-ф-ЧОоГМ), Я = ф-1(О0ПВ), (5.8) то Л П Т~пВ = ф"1 (Q0 П А П ГЯЯ), /г > 0, (5.9) откуда Р (Л П Т"пВ) = Р (Л П ГЯЯ), (5.10) ибо множества Q0 и Q0 имеют меру 1. Замечание 5. Обратимые изоморфные преобразования Т ri Т фактически изоморфны относительно тройки (й0, Q0, ф),Г обладающей тем специальным свойством, что множества Q0 и Q0 строго инвариантны: Q0= T~lQ0 и оо Q0=f~lUQ (если это необходимо, заменим Q0 на f) TnQ0 оо и Q0 на [| fnU0). Однако, вообще говоря, это не СПраВеД- ливо: возьмем, например, в качестве Q пространство, состоящее из одной точки, а в -качестве преобразования Т
5. ПРОБЛЕМА ИЗОМОРФИЗМА 69 односторонний сдвиг, при котором вся масса сосредоточена в некоторой точке вида (/, /, /, ...). Различные пары преобразований, которые мы обсуждали в начале этого параграфа, изоморфны в смысле нашего определения. Рассмотрим еще несколько таких пар. Пример 5.1. Преобразуем единичный квадрат Q, удваивая каждую координату по оси х и вдвое уменьшая каждую координату по оси у. Преобразованный квадрат состоит из прямоугольников В и С (рис. 2). Переведем А «*-^ В С Рис. 2. теперь прямоугольник С в прямоугольник А с помощью сдвига. Мы определили таким образом некоторое преобразование Г, йереводящее пространство й в себя и сохраняющее меру Лебега. Это преобразование называют преобразованием пекаря. Между преобразованием Т и сдвигом Бернулли (1/2, 1/2) *) существует изоморфизм, осуществляемый посредством соответствия (х, у) = (0, хххъ ..., О, у{у2, ...)«->(..., у2, уи хи x2t ...)> где 0, ххх2... и 0, уху2... — двоичное разложение «чисел jchj/. Пример 5.2. Пусть преобразование Г— сдвиг Маркова с пространством состояний р, стационарными вероятностями pi и вероятностями перехода рц. Тогда преобразование Т2 изоморфно сдвигу Маркова Т с пространством состояний р = р2, стационарными вероятностями Pnj) — pipij и вероятностями перехода p{ii ^ (fe, г) = pjkPkh Если Q [Q] — пространство бесконечных в обе стороны последовательностей элементов пространства р[р], а #„[£„] — координатные переменные, то-нужно только положить Q0==Q, Q0 = Q и 1) Под сдвигом Бернулли (pi, ..., рт) понимают сдвиг с вероятностями р. на пространстве состоянии р. Природа элементов пространства р совершенно безразлична; вектор вероятностей записывают символом (рь • • •> Рг)> хотя пространство р может и не состоять из первых г целых чисел. Везде далее, если не оговорено противное, все сдвиги будем считать двусторонними.
70 ГЛ. 2. ЭНТРОПИЯ определить отображение ф при помощи равенства х„(фсо) = = (х2п((о), л:2л+1 (со)). Пример 5.3. Если в качестве стационарных вероятностей и вероятностей перехода, соответствующих преобразованию Т из предыдущего примера, взять соответственно P(itJ) = PiPij и P(itJ)ik.i)=&jkPki> то преобразование Т будет изоморфно самому преобразованию Т. Мы снова полагаем й0 = й, но й0 определяем на этот раз как множество точек со, для которых вторая компонента координаты хп(&) совпадает с первой компонентой координаты хп+г(&) при всех /г, а отображение ср определяем соотношением #я(фсо) = = fe-iW. хп(®)). Пример 5.4. Пусть преобразование Г —двусторонний сдвиг с пространством состояний р = {0, 1}; предположим, что наша мера Р такова, что не существует точечных масс. Пусть Й пространство бесконечных в обе стороны последовательностей действительных чисел, как в примере 1.7. Пусть образ фсо элемента со пространства й является точкой пространства й, п-я координата которой есть оо 2 xn„k (co)/2fe+1 = 0, хп (со) хп_г (со) . .. (двоичное разложение). Тогда сдвиг Т изоморфен сдвигу Г, определенному на пространстве й с мерой Р = Рф-1. Можно показать, что в пространстве й координатные переменные {хп} образуют относительно меры Р марковский процесс с единичным интервалом в качестве пространства состояний. Следующий пример показывает, что наше определение изоморфизма все еще не вполне удовлетворительно. Пример 5.5. Сравним тождественное преобразование Г, определенное на пространстве Й, состоящем из одной точки, с тождественным преобразованием Т на пространстве й, состоящем из двух точек, причем поле & содержит только пустое множество и само пространство й. Хотя преобразования Г и Г неизоморфны, они имеют по существу одинаковую структуру, ибо поле <& таково, что у нас нет возможности различать две точки пространства й. Этот пример характеризует некоторую трудность, которую можно обойти, заменяя понятие изоморфизма понятием сопряженности. Грубо говоря, на этом пути игнорируют в зна-
5. ПРОБЛЕМА ИЗОМОРФИЗМА 71 чительной степени точки и точечные преобразования и имеют дело с множествами и преобразованиями множеств, для которых формулируют соответствующие понятия одинаковости. Два преобразования, совпадающие в смысле этой теории, называют сопряженными. Вопрос состоит в том, какое понятие одинаковости принять. Преобразования Т и Т примера 6.5 удовлетворяют определению-сопряженности. Тот факт, что эти преобразования неизоморфны, можно приписать дефекту вероятностного пространства (Q, of ', P), на котором определено преобразование Г. Понятия изоморфизма и сопряженности совпадают для большинства естественных пространств; так как эти понятия совпадают и для всех специфических пространств, встречающихся в этой книге в связи с примерами (за исключением только что рассмотренного), то мы выберем изоморфизм в качестве нашего понятия одинаковости сохраняющих меру преобразований. Однако дальше в этом параграфе мы все же определим понятие сопряженности и докажем, что оно действительно совпадает с понятием изоморфизма для преобразований, определенных на некотором классе пространств, достаточно широком, чтобы включать в себя все те конкретные пространства, к которым мы применяем наши общие результаты. Инварианты Так же как можно задаться вопросом, являются ли знакопеременная группа из пяти букв и группа симметрии икосаэдра различными конкретными представлениями одной и той же алгебраической структуры —т. е. являются ли они изоморфными в смысле теории групп (а это так и есть), — можно задать вопрос, являются ли два конкретных сохраняющих меру преобразования абстрактно одинаковыми в смысле принятого определения изоморфизма. Например, изоморфен ли сдвиг Б.ернулли (1/2, 1/2) сдвигу Бернулли (1/3, 1/3, 1/3)? Для доказательства изоморфности двух преобразований нужно построить соответствующую тройку (Q0> Q0> cp). Для доказательства неизоморфности двух преобразований нужно отвергнуть — предпочтительно одновременно — все возможные варианты выбора тройки (Q0> Q<j» ф)- Следующее рассуждение показывает, что так же как две группы не могут быть изоморфными, если одна из. них коммутативна, а другая нет, так и два сохраняющих меру преобразования не могут
72 ГЛ. 2. ЭНТРОПИЯ быть изоморфными, если одно из них обладает свойством перемешивания, а другое этим свойством не обладает. Предположим, что Г и Г изоморфны относительно тройки (Q0, Q0, ф) и Т обладает свойством перемешивания; мы должны доказать, что тогда Т также необходимо обладает этим свойством. Для того чтобы уловить основной момент рассуждения, предположим сначала, что Q0 = Q и Q0=Q (так что преобразования Г и Г изоморфны в смысле предварительного суженного определения). Мы имеем тогда для любых множеств А я В поля <&* (см. (5.4)) Р (Л П Т"пВ) - Р (qf * А П Ф"1 Г пВ) = = Р (ф"1 А П ГпчГ1В) -► Р (ф"1 А) Р {цГЧз) = Р(А)Р (В), где использовано свойство перемешивания преобразования Т. Таким образом, преобразование f перемешивающее. Некоторое изменение этого доказательства покрывает общий случай, когда не предполагается, что Q0 = Q и Q0 = Q. Для множеств А и В поля & положим А = ф""1 (Q0 f| А) и В = ф""1 (Q0 П В)\ в силу (5.10) имеем Р(А П Т'пВ) = Р (Л П Т~ПВ) ->Р(А)Р (В) = Р{А)Р (В). Итак, свойство перемешивания является инвариантом: если одно из пары сохраняющих меру преобразований обладает этим свойством, то и другое им обладает. Используя этот инвариант, убеждаемся, что сдвиг Бернулли не может быть изоморфен вращению окружности или сдвигу Маркова с периодической матрицей вероятностей перехода. Другим инвариантом является эргодичность (нужно заменить в приведенном доказательстве обычные пределы пределами по Чезаро и применить теорему 1.4). Поэтому, например, сдвиг Маркова с приводимой матрицей вероятностей перехода не может быть изоморфен никакому сдвигу Маркова с неприводимой матрицей1). Обратимость не является вполне инвариантным свойством: изменим обратимое преобразование, отображая все точки некоторого множества меры 0 в одну и ту же точку. Если, однако, преобразование Т изоморфно некоторому обра- {) Инвариантом более мощным, чем перемешивание и эргодичность, является спектральная структура изометрического оператора, порожденного преобразованием Т. Этот инвариант будет рассмотрен в конце настоящего параграфа.
б. ПРОБЛЕМА ИЗОМОРФИЗМА 73 тимому преобразованию 7\ то Т взаимно однозначно на некотором подмножестве Q0 меры 1. Отсюда следует, что двусторонний сдвиг не может быть изоморфен одностороннему, если только вся мера, отвечающая последнему, не сосредоточена в точках вида (г, /, г, ...). Вообще говоря, можно сформулировать инвариантное определение обратимости, но мы не станем этого делать. Чем больше структур различает инвариант, тем он полезнее; лучше всего, если он полный. Размерность является полным инвариантом в векторных пространствах (скажем, вещественных) в том смысле, что два векторных пространства одинаковой размерности необходимо изоморфны. Эргодичность не является полным инвариантом для сохраняющих меру преобразований: очевидно, что существуют не- , изоморфные пары преобразований, каждое из которых эргодично (или оба не эргодичны). Свойство перемешивания также не является полным инвариантом. Вернемся к вопросу об изоморфизме сдвигов Бернулли (1/2, 1/2) и (1/3, 1/3, 1/3). Эргодичность и перемешивание не являются, разумеется, инвариантами достаточно сильными, чтобы различать эти сдвиги, ибо оба сдвига перемешивающие и, следовательно, эргодические. Вопрос о том, изоморфны ли эти два сдвига, много лет не поддавался решению. Наконец Колмогоров разрешил эту проблему в отрицательном смысле, введя новый численный инвариант — энтропию сохраняющего меру преобразования. Оказалось, что сдвиги Бернулли (1/2, 1/2) и (1/3, 1/3, 1/3) имеют различные энтропии и потому неизоморфны. Инвариант Колмогорова— это существенным образом измененное понятие энтропии, введенное ранее Шенноном в теории информации. Здесь мы нарушим историческую последовательность. В этой, главе мы изучим детально инвариант Колмогорова, а позднее применим полученные результаты к теорий информации. Энтропия Нам потребуется несколько определений, которые, мы дадим сначала формально, отложив мотивировку на дальнейшее: Везде далее мы будем обозначать буквами <А> $ и ^ конечные подполя поля <ЗГ. (Конечное подполе автоматически является 0-полем.) Если {АЬ ..., Ап} естй ^-разбиение прострайства й, т. е. конечная совокупность непересекающихся непустых элементов поля <&~, объединение которых совпадает со всем пространством Q, то класс всех конечных объединений элементов этого разбиения является
74 ГЛ. 2. ЭНТРОПИЯ конечным подполем поля <^\ Легко видеть, что и обратно, любое конечное подполе получается таким образом из некоторого (^-разбиения. Элементы такого разбиения будут называться атомами соответствующего конечного поля. Между ^-разбиениями и конечными подполями поля 4F существует полная двойственность. Например, Аа& в том и только том случае, если разбиение, соответствующее конечному подполю i?, мельче, чем разбиение, соответствующее Л, в том смысле, что каждый атом подполя Jt является объединением атомов подполя 38. Для любой совокупности множеств W можно записать T~n<f = \Т~пЕ : E^^j; если £° — поле (или а-поле, или конечное поле, или ^-разбиение), то то же самое справедливо и по отношению к Т~п<£. Если преобразование Т обратимо, это же верно и для Тп¥ = {ТпЕ : Е £=&}. Если £?а, ае=Л, - произвольные совокупности множеств, то символом V <?а ае=Л будем обозначать а-поле, порожденное объединением (J <^а в конечном случае будем писать V^ = ^>iV ... V^J. i=\ Если Л и ^ — конечные поля, то AV 38 — также конечное поле. В самом деле, атомы поля JL V 38 являются по предыдущему (непустыми) пересечениями А [\ В атомов А поля А и атомов В поля 38. *~t Рис. 3. Далее во всей книге будем обозначать символом rj(/) функцию, определенную на единичном интервале формулой [ -tint, если 0</<1, ^1(0 = 1 n_m.n _ ,_n (5.11) 0 = 0 In 0, / = 0. Мы постоянно будем использовать основные свойства функции т): она неотрицательна, непрерывна, строго выпукла и Л(0) = т](1) = 0 (рис. 3).
5. ПРОБЛЕМА ИЗОМОРФИЗМА 75 Энтропия преобразования Т определяется в три шага. Энтропия конечного поля Л определяется формулой Я(Л) = 2ti(P (А)) = - 24* (А) 1пР(Л), (5.12) А А где суммирование производится по атомам А поля Ж. Энтропия конечного поля Л относительно преобразования Т есть h(jt, Г)=Нт-Я[\/ Т~кл\ (5.13) n->oo n \k = 0 J (Оказывается, что верхний предел в этом выражении совпадает с. обычным пределом.) Наконец, энтропия преобразования Т задается выражением /г (Г) = sup/z (c^, T), (5.14) где верхняя грань берется по всем конечным подполям Л поля о?. Для понимания интуитивных идей, лежащих в основе этих определений, рассмотрим кость с г гранями. В качестве меры количества случайности при однократном бросании этой кости возьмем неотрицательную'величину S П(/>*)=-S P/In/>„ (5.15) *=1 1 = 1 где pi, ..., рг — вероятности, соответствующие различным граням кости. Здесь мы не будем углубляться в подробности, но, вообще говоря, можно вывести (5.15) из некоторой системы аксиом, которым должна была бы удовлетворять мера случайности. Заметим, что выражение (5.15) достигает максимума (равного In г) в том и только том случае, если1) каждая вероятность рь равна 1/г; подобная кость интуитивно представляется „наиболее случайной". Другого экстремума — нуля — выражение (5.15) достигает в том и только том случае, когда одна из вероятностей рь равна 1, а другие 0; такая кость — „наименее случайная". В любом случае мы рассматриваем выражение (5.15) как меру количества случайности в эксперименте, состоящем в однократном бросании нашей кости, и называем его энтропией 1) Функция 2 Л (Р* + tei) имеет отрицательную вторую производную i = i по действительной переменной /; следовательно, (5.15) есть' строго выпуклая функция вектора вероятностей (ри . ..,рг). Максимум ее можно найти дифференцированием.
76 ГЛ. 2. ЭНТРОПИЯ этого эксперимента. Эта величина измеряет также количество неопределенности, содержащейся в этом эксперименте, т. е. количество неопределенности до бросания кости относительно того, каков будет его результат. Наконец, эта величина измеряет информацию, содержащуюся в этом эксперименте, или количество информации, получаемой в результате бросания. Тот факт, что случайность и неопределенность, имеют естественную общую меру, неудивителен. Вследствие „формулы" прирост информации = устраненная неопределенность представляется разумным, что неопределенность и информация должны измеряться с помощью одной и- той же функции. (Предполагается, что экспериментатор знает вероятности ph но не знает заранее, какая грань выпадает при каждом отдельном бросании.) Конечное поле Л играет роль эксперимента с конечным числом исходов. Богиня Тихе выбирает точку со из пространства Q в соответствии с вероятностной мерой Р, но открывает экспериментатору только тот атом поля Л, который содержит точку ©. Атомы поля Л выступают в качестве исходов этого, эксперимента, а выражение (5.12) измеряет информацию (а также неопределенность), в нем содержащуюся. Например, для того чтобы выбрать некоторую точку о из пространства двенадцати точек (Г, 1)(Г, 2) (Г, 3)(Г, 4) (Г, 5) (Г, 6) U' (P, 1)(Р, 2)(Р, 3)(Р, 4)(Р, 5)(Р, 6), Тихе бросает монету со сторонами Г и Р и кость с гранями 1, 2, 3, 4, 5, 6. Если нам известен лишь результат бросания монеты, то мы знаем только, из какой строки выбрана точка со; эти две строки являются атомами конечного поля, формально представляющего эксперимент, состоящий в бросании монеты. Энтропия этого конечного поля не зависит от индивидуальных вероятностей данных двенадцати точек; она зависит только от вероятностей двух указанных атомов. Так как атомы поля Л V $ представляют собой пересечения атомов поля Л и поля 38, то, если нам известно, какой атом поля Л V & содержит точку со, то тем самым мы знаем, какой атом поля Л и какой атом поля 3§ содержат со. Таким образом, поле Л V J?, рассматриваемое как эксперимент, является соединением экспериментов, соответствующих полям Л и $.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 77 Если Г —сохраняющее меру преобразование, то Т~ Ж — конечное поле с тем же числом атомов, что и поле Ж, и соответствующие атомы имеют равные вероятности. Так как поля Ж и Т~ХЖ имеют одинаковую вероятностную структуру, то их можно считать реализациями одного и того же эксперимента. Отметим, что эти реализации не обязательно независимы; знание того, что точка со лежит в некотором определенном атоме поля Ж, может помочь экспериментатору определить, какой атом поля Т~ Ж ее содержит (т. е. какой атом поля Ж содержит точку Гсо). Будем рассматривать поля Ж и Т~ Ж как реализации эксперимента, совершающиеся в последовательные моменты времени (скажем, в следующие друг за другом дни), и такое представление мы сохраним даже и в случае, когда преобразование Т не является сдвигом. v В этой интерпретации конечное~Ъоле V Т~кЖ соответ- ствует сложному эксперименту, состоящему из п реализаций Ж, Т~1Ж, ..., Т~{п~1)Ж эксперимента, соответствующего полю Ж. Для того чтобы получить информацию, приходящуюся на одну реализацию эксперимента, разделим на п количество информации Н V Т~кЖ ) сложного эксперимента. При п->оо информация гГ1Н V Т~кЖ , приходящаяся на одну реализацию, стремится (как мы увидим) к пределу Н(Ж, Г), который мы рассматриваем как среднюю скорость создания информации- при большом числе реализаций эксперимента Ж. Функция h (T) есть верхняя грань этих скоростей по всем экспериментам Ж. Рассмотрим в качестве специального случая сдвиг. Пусть пространство состояний р есть некоторый алфавит, а координатные переменные хп — буквы этого алфавита, последовательно доставляемые некоторым источником информации. В английском языке буква Е встречается значительно чаще, чем Q, как это известно всем, включая изобретателя азбуки Морзе, который обозначил букву Е символом •, a Q символом • —. Если развивать далее эту идею, то она приведет к плодотворной точке зрения, согласно которой английский текст можно воспроизвести с помощью вероятностного механизма. Сдвиг дает подходящую математическую модель, в которой мера Р описывает структуру языка.
78 ГЛ. 2. ЭНТРОПИЯ Пусть теперь Л — конечное поле с атомами {со : х0 (со) = /}, где / пробегает алфавит р. Это поле, которое мы будем называть полем событий, наблюдавшихся в момент времени 0, ибо оно определяет букву, полученную в момент времени 0, имеет энтропию ^ц(Р {xQ = i})f измеряющую /ер количество информации, доставляемой источником при создании им одной отдельной буквы. Так как T~k {xQ = /} = {xk = /}, /г—1 то атомами поля V T~k<A являются гп множеств {x0 = i0, ... ..., xn-i = in-i}. Таким образом, ^-я(угЦ = { ^ ч(Я^о-'о VieU) (5.16) есть информация, приходящаяся на букву в сообщении длины п. Предел h(Jl> T) есть информационная скорость источника *). Если Г — сдёиг Бернулли (ри ..., рг), то простые вычисления преобразуют (5.16) в так что источник, последовательно доставляющий буквы независимым образом, имеет информационную скорость h(d, Г) «= - S p, In p,. i Заметим, что эта скорость наибольшая, когда все вероятности pif соответствующие различным буквам, равны 1/г, т. е. когда мы находимся в „чисто случайной" ситуации, что кажется сначала парадоксальным. Но чем ближе источник к чисто случайному, тем менее он стереотипен и, следовательно, более информативен. Несущественно, что именно создает источник информации, важно только, - насколько предсказуемо то, что он создает. Возвращаясь к математике, покажем, что энтропия инвариантна по отношению к изоморфизму. Пусть Т изо- 1) Это определение Шеннона. Идея Колмогорова состояла в изучении функции h {Т), которая определена для любого преобразования Т (а не только для сдвигов) и используется в эргодической теории.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 79 морфно Т относительно тройки (Q0, Q0, ф), где для простоты мы сначала предположим, что й0 = й и й0 = й. Тогда каждому конечному подполю Л поля £Г соответствует некоторое конечное подполе Л = цЛ = {фЛ '. А^Л} поля & % и обратно. Так как отображение ф переводит меру Р в Р, то Н (ст£) = Н {А). Если конечные подполя А и Л поставлены друг другу в соответствие, то в силу (5.4) друг другу соот- л—1 п—\ ветствуют V Т~кА и V T~k<A, и, следовательно, в силу (5.13) имеем h{ut, Г) = /г(Д Г). Таким образом, для каждого подполя Л существует такое подполе с^Гчто h{Jl, T) = h(JL, Г), и обратно. Взяв верхнюю грань, видим, что /г(Г) = /г (Г). Если не делать специального предположения, что й0 = й и й0 = й, то потребуется несколько более сложное рассуждение. Так как изоморфизм — отношение симметричное, то достаточно доказать, что h(f)^.h{T). Пусть с^ — некоторое конечное подполе поля <^ с атомами А\9 ..., Ат. Положим Ai = Ф"1 (Q0 П At), I = 1, ..., г, и пусть Л — такое конечное подполе поля <^", которое имеет своими атомами г+1 множество Ль ..., Лг, Qq. Используя обобщение формулы (5.10)", получаем "(2™)v^№^))- п-1 Эта последняя сумма распространяется на все атомы п—\ V Т'кЛ, за исключением тех, которые содержат множитель fe=0 Г*Оо, имеющий меру 0. Поэтому #(V Т~кЛ)==Н[\/ Т~кА], так что А(Д Г)«ЛМ, Г). Неравенство^ А(Д Г)</г(Г) выполняется для любого конечного поля j£, следовательно h(f)<h{T). Итак, изоморфизм сохраняет энтропию. Отметим здесь, что энтропия не является полным инвариантом. Если Tk — циклическая перестановка k точек равной массы (а-поле состоит из всех подмножеств этого пространства), то h(Tk) = 0
80 ГЛ. 2. ЭНТРОПИЯ для бсех &, хотя очевидно, что перестановки Tk для различных k неизоморфны. Очень важно понимать, в чем состоит различие между функциями h(oiy T) и Л (Г) и зачем последняя вводится. Если в качестве энтропии преобразования Т взята функция h(ut, T) для некоторого „естественно" выбранного подполя at, например в случае сдвига для поля событий, наблюдавшихся в момент времени 0, то вследствие неинвариантного определения она может оказаться бесполезной для проблемы изоморфизма. Мы определяем h{T) как верхнюю грань для h(oit T) именно для того, чтобы сделать энтропию инвариантной. Но тогда возникает вопрос, как ее вычислять. Мы вычислили, например, h(ot, t) для сдвига Бернулли и для поля событий, наблюдавшихся в момент времени 0, но возможно, что некоторая h($> T) превосходит h(JL, T). Если мы пожелаем вычислить энтропию самого сдвига Бернулли, потребуется нечто иное. Колмогоров получил важный результат, который мы сейчас используем: если Т обратимо и at— такое оо конечное поле, что1) V ТпЖ = 4Г, то h (T) = h(ot, T). П-— оо Предполагая справедливость этой теоремы, которую вместе с ее вариантами мы докажем в § 7, можно вычислить энтропию сдвига Бернулли. В самом деле^ если JL — поле событий, наблюдавшихся в момент времени 0, то поле оо V ТпЛ содержит все множества вида Т~п {х0 = 1} = {хп = /}, П = — оо следовательно, все цилиндры, и должно, таким образом, совпадать с сг-полем, порожденным этими цилиндрами. Следовательно, h{T) = h(JL, Т) == — 2 Pi 'n Ри что является не определением, а следствием нашей теории. В частности, сдвиги Бернулли (1/2, 1/2) и (1/3, 1/3, 1/3) имеют энтропии In 2 и 1пЗ соответственно и, следовательно, неизоморфны. Энтропия является, таким образом, инвариантом достаточно сильным, чтобы решить поставленную раньше задачу. Теперь стала ясна и наша программа. Мы должны вывести свойства функций Н{Ж), h{d, T) и Л (Г), достаточные для 1) Напомним, что \/ ТпЛ есть а-поле, порожденное объединением п = — оо оо (J ТпЛ.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 81 того, чтобы доказать результат Колмогорова, который занимает центральное место во всей этой теории. С проблемой изоморфизма тесно связана теория кодирования, изложенная в гл. 5. Многие результаты настоящей главы находят там дальнейшее применение. Изоморфизм и сопряженность * Предположим, что преобразование Т изоморфно Т относительно тройки (Q0, Q0, ф). Можно использовать этот изоморфизм для того, чтобы сопоставить множества поля ъГ и множества поля <& следующим образом. Будем называть множества А и В поля &* эквивалентными и писать А~В всякий раз, когда Р(Л + £) = 0; то же относится и к множествам поля Ж. Это понятие эквивалентности рефлексивно, симметрична и транзитивно. Пусть Л —множество поля 4F и Л —множество поля <#"; будем сопоставлять их друг другу всякий раз, когда существуют такие множества А0 и Л0, принадлежащие полям ^ и / соответственно, что Л0 cz Q0, Л0 с Q0, А ~ Л0, А ~ А0 и Лр = срЛ0. Такого рода сопоставление множеств Л и Л (т. е. существование указанных множеств Л0 и Л0) мы будем обозначать А<-+А. Это сопоставление является многозначным соответствием между полями of и <^*. Легко убедиться, что это соответствие обладает следующими свойствами. (Далее все множества предполагаются принадлежащими полю £Г или цолю <^\) (СО Для любого множества А существует по крайней мере одно множество А такое, что А*->А; для любого множества А существует по крайней мере одно множество А такое, что А*->А. (С2) Если А*->А, то A*r+B в том и только том случае, когда А~В; если А«->Л, то В «->Л в том и только том случае, когда А~В. (С3) Если А+->А, то Q — Л<->£2 — Л; если Ап*->Ап, где множество индексов конечно или счетно, то (J Ап •<-> (J Ап> п п (С4) Если А++А, то Р(А^ = Р(А). (Cg) Если А++А, то Г]А^>Т'[А. 6 Зак. 1491
82 f'JI. 2. ЭНТРОПИЯ Это соответствие есть взаимно однозначное соответствие между классами эквивалентных множеств (в силу (С]) и (С2)). Оно сохраняет дополнения множеств и конечные или счетные их объединения (С3)> сохраняет меру (С4) и замкнуто относительно операции обратного отображения (С5). Предположим теперь, что между полями <&~ и & a priori существует некоторое многозначное соответствие, удовлетворяющее этим пяти условиям. Тогда говорят, что Т и Т сопряжены1). Сопряженность, очевидно, является отношением эквивалентности. Соответствие, определяющее сопряженность, автоматически обладает еще рядом свойств, кроме сёойств (Cj) — (C5). Из свойства (С3) следует, что это соответствие сохраняет все конечные и счетные теоретико-множественные операции (например, разности, симметрические разности, конечные и счетные пересечения). Далее, пусть Т'ХА «-* Т~1А; в силу (Cj) существует такое множество В, что А<-+В; из (С5) следует Г1А+-+Т~1В, jaK что в силу (С2) ГХА~Т~ХВ и, следовательно2), А~В, а тогда А*->А. Таким образом, (С6) если Т~1А<->Т~'АУ то А+-+А. Если преобразования Г и Г обратимы, то из свойств (С5) и (С6) следует, что А «-> А в том и только том случае, когда ТА *-+ТА. Мы видим, что если Г и Г изоморфны, то они сопряжены. Пример 5.5 показывает, что обратное предложение, вообще говоря, неверно. Мы докажем, что такое обращение справедливо при дополнительных предположениях, что Q и Q — сепарабельные полные метрические пространства, a ST и & являются а-полями борелевских множеств этих пространств (т. е. <ff и оГ — это а-поля, порожденные открытыми множествами, или, что то же самое в силу предположения сепарабельности, & и of — это а-поля, порожденные шарами). *) Такая формулировка устраняет необходимость введения алгебр с\мерой. В терминах алгебр с мерой А~В в том и только том случае, если Л + В принадлежит идеалу cV нульмерных множеств и вышеупомянутое соответствие существует в том и только том случае, если фактор- алгебры оГ/сАГ и eT/cV* и преобразования на них абстрактно тождественны. 2) Заметим, что Л ~ В в том и только том случае, когда Т~ А~Т~ В (аналогично для множеств пространства S).
5. ПРОБЛЕМА ИЗОМОРФИЗМА 83 Все конкретные пространства (й, <^г)9 встречавшиеся нам в различных примерах, можно было бы определить в топологических терминах, но мы этого не делали. Если Q — окружность, т. е. пространство, на котором определены вращения (пример 1.5), то оно имеет естественную метрику, относительно которой является сепарабельным полным метрическим пространством, а именно расстояние между двумя точками измеряется длиной кратчайшей дуги, их соединяющей; так как шарами здесь являются дуги, то соответствующее а-поле <?f состоит из борелевских множеств в этой метрике. Некоторые преобразования (преобразование, связанное с непрерывными дробями, и различные преобразования Г(о = гсо (mod 1)) были определены на полуоткрытом единичном интервале Q = [О, 1). В этом случае cr-поле состоит из обычных линейных борелевских подмножеств полуинтервала [0, 1); это —cr-поле, порожденное открытыми подмножествами полуинтервала [0, 1) с евклидовой метрикой. Относительно этой метрики пространство Q сепарабельно, но неполно; так как полуинтервал [0, 1) гомеоморфен лучу [О, 1) в евклидовой метрике, то й может быть вновь метри- зовано так, чтобы быть не только сепарабельным, но и полным. Мы рассматривали также преобразования на конечном пространстве Q с классом всех его подмножеств в качестве поля <^\ Здесь нам требовалась только дискретная метрика в Q, скажем, такая, при которой расстояние между различными точками равно 1. (Ср. с пространством Q примера 5.5, где <?Г слишком мало.) В пространстве й = ... ХрХрХрХ ... двустороннего сдвига cr-поле ^порождено тонкими цилиндрами {со : Xi(со) = //, u^l^v}. (5.17) Если расстояние между двумя точками шиш' определяется как 6 (хп (со), хп (со')) 2\п\ где 6(/, /) равняется 1 или 0 в зависимости. от того, совпадают элементы / и / пространства состояний р или нет, то Q является сепарабельным полным метрическим пространством. Если точка со0 принадлежит цилиндру (5.17) и 0<8<(1/2)l"l+lul, то открытый шар радиуса е с центром в точке со0 содержится в цилиндре (5.17). С другой стороны, s 6*
84 ГЛ. 2. ЭНТРОПИЯ если — и = v>0, (V2)0 <е и // = .V/(co0) для | /|^ о, то точка со0 принадлежит цилиндру (5.17), который в свою очередь содержится в открытом шаре радиуса е с центром в со0. Таким образом, тонкие цилиндры образуют базис в этой топологии, и в ней поле <±Г совпадает с классом борелевских множеств. Подобным образом можно рассматривать и одностороннее прямое произведение р X р X .... Можно также показать!), что топологическое произведение бесконечной в обе стороны последовательлости экземпляров любого сепарабельного полного метрического пространства может быть метризовано так, что оно станет сепарабельным полным пространством (пример 1.7). Следующая теорема оправдывает выбор изоморфизма в качестве нашего понятия одинаковости сохраняющих меру преобразований. Теорема 5.1. Пусть Т и Т — сохраняющие меру преобразования на (Q, &, Р) и (й, g^\ P) соответственно, где Q и Q — сепарабельные полные метрические пространства, а <£Г и <±Г — это в-поля борелевских множеств этих двух пространств. Если Т и Т сопряжены, то они изоморфны. Для доказательства нам понадобятся три леммы, устанавливающие связь меры с топологией. Лемма 1. Для любого множества А из поля <£Г и любого е>0 существуют замкнутое множество F и открытое множество G, такие, что FaAczG и Р (G — F)<e. Доказательство. Пусть & — класс множеств поля #~, обладающих указанным свойством. Достаточно показать, что <£? есть cr-поле, содержащее открытые множества. Очевидно, что класс & замкнут относительно взятия дополнения. Для заданных множеств Ап из & выберем замкнутые множества Fn и открытые множества Gn, такие, что F^czA^czG^ и P(Gn-Fn)<e/2n+1. Если F = \jFn и G=\jGn, то Fez A = п п ^{J^n^G и P(G — F)<e/2. Множество G открыто; мно- п жество F не обязательно замкнуто, но его можно заменить конечным, следовательно, замкнутым, подобъединением ^о^ (J ^«, таким> что ^(^~"^о)<8/2. Отсюда следует, что П^По 1) См., например, Данфорд и Шварц [1, стр. 44].
б. ПРОБЛЕМА ИЗОМОРФИЗМА 85 Ле^. Итак, класс 09 есть а-поле. Так как & замкнуто относительно взятия дополнения, то доказательство будет завершено, если мы покажем, что $ содержит все замкнутые множества Л. Для такого Л множество Gki состоящее из всех открытых шаров радиуса l/k с центрами в точках из Л, открыто и убывает к Л; следовательно, мы можем взять Л в качестве F и одно из множеств Gk в качестве G. Лемма 2. Если Ае^ и е>0, то существует конечная или счетная совокупность попарно непересекающихся множеств F\, F2> ..., таких, что каждое Fn — замкнутое множество с диаметром, меньшим er.\^J Fncz А и •№'•) = 0. Доказательство. По лемме 1 Л содержит такое замкнутое множество Fu что Р{А — F1)<1; Л — F{ содержит такое замкнутое множество F2» что Р (И~~ Fi) ~~ F2)< 1/2; Л — F\ — F2 содержит такое замкнутое множество F3> что и т. д. Построенные таким образом непересекающиеся замкнутые множества удовлетворяют соотношениям (J Fn с: Л и ■(Д-у^ Далее, так как пространство й по предположению сепа- рабельно, то Л является объединением счетного числа непересекающихся измеримых множеств Аь диаметры которых меньше е. Аналогично строим для каждого Ak последовательность множеств {Fkn}. Все эти множества в совокупности удовлетворяют требованиям леммы. Пусть & и &6 — два семейства попарно непересекающихся множеств. Мы говорим, что Ш измельчает $?, если каждый элемент семейства $в является подмножеством некоторого элемента семейства ©?. Из этого следует, что каждый элемент семейства &в содержится ровно в одном элементе семейства <£?, что если Яе^, G е 8 и НП G ф 0, то Я c:G, и что объединение всех множеств из £Ю содержится в объединении всех множеств из <£?. Такие семейства являются разбиениями объединений своих элементов. Лемма 3. Пусть %\у <&2> • • • ~~ разбиения пространства Q на такие конечные или счетные совокупности множеств из
86 ГЛ. 2. ЭНТРОПИЯ поля о^, что каждый элемент разбиения ¥> п имеет диаметр, меньший гю где вп~->0. Тогда \J^n порождает &Г. Пусть 35п п состоит из конечных и счетных объединений элементов разбиения %п\ если %'п+1 измельчает с<£п для каждого п, то 3&х cz&2cz ... и U&n есть поле, порождающее oF. п Доказательство. Для любого заданного замкнутого множества F обозначим через Ап объединение тех элементов разбиения %п, которые пересекаются с F. Тогда F cz An и любая точка из Ап удалена не больше, чем на гп от некоторой точки множества F. Так как F замкнуто, отсюда следует, что F = f]An. Поэтому <х-поле, порожденное (J^„, п п содержит все замкнутые множества и, следовательно, совпадает с <&~. Остальное тривиально. Эти три леммы, разумеется, справедливы и по отношению, к пространству (Q, <^, Р). Предположим теперь, что Т и Т сопряжены относительно некоторого соответствия, удовлетворяющего условиям (Q) — (С5). Для того чтобы доказать, что Т и f изоморфны, построим сначала две последовательности *&ь ^2> • • • классов со следующими свойствами. (щ) Класс ^п[оп] есть (непустое) конечное или счетное семейство попарно непересекающихся множеств из <^[<^]. Все элементы класса ^п^Л имеют положительную Р-меру [Р-меру] и, следовательно, не пусты. (я2) Семейство <?„+1 [%>п+\] измельчает семейства ^п^п\ и (я3) Для нечетных п [для четных п] множества из ^п[^п\ замкнуты и имеют диаметры, меньшие 1/п. (я4) Существует взаимно однозначное отображение &п на <?„, обладающее тем свойством, что если С —любой элемент класса &п и С —его образ в &п относительно этого отображения, то С+->С. (я5) Если Q„[QJ — объединение всех элементов класса Vnl$nh то P(QJ=1[P(QJ=1].
5. ПРОБЛЕМА ИЗОМОРФИЗМА 87 Построим сначала #\ и S?1# В силу леммы 2 существует конечное или счетное семейство непересекающихся замкнутых множеств, объединение которых Qj таково, что P(Q1)=1, причем элементы этого семейства имеют диаметр, меньший 1. Пусть класс #\ состоит из тех элементов этого семейства, которые имеют положительную меру. Если Сь С2, ... —элементы класса %\, то, согласно условию (С^, существуют такие множества Сь С2, ... из S', что Си+->Си. Семейство множеств Си~ (J Си> УДОВЛеТВО- ряет всем требованиям для С,. Предположим, что построены частичные последовательности %Y <?2> • • •» ^п» <?,, <?2, ..., <?п. Покажем, как построить классы %*n+1 и &п+\. Возьмем сначала четное п (так что п + 1 нечетно). Пусть Сь С2, ... —элементы класса %*„, Сь С2, ... —элементы класса ^п, упорядоченные таким образом, что Си*->Си. В силу леммы 2 каждое множество Cuv = Cu[)T~lCv содержит попарно непересекающиеся множества CuvU Cuv2, ..., замкнутые, имеющие диаметр, меньший 1/(/г+1), и такие, что Р (Cuv — (J Cuvw\ = 0. Обозначим через /)цг,ш множества из df" такие, что CttVW*-+Davw\ положим Euvw = DttVW[\Ctt[\ П f~lCVy и пусть Сцг;гу = Euvw - (J £W. Из свойств {C{)-{CS) w' ф w соответствия, определяющего сопряженность, следует, что семейство ??л+ь состоящее из множеств Cavw, и семейство ©п+1, состоящее из множеств Cuvw, обладают всеми требуемыми свойствами, за исключением того, что некоторые множества из этих семейств могут иметь меру 0. Выкинем все такие множества. Если п нечетно (так что п + 1 четно), мы просто изменим порядок построения и будем строить сначала класс ^п+и применяя лемму 2 к пространству Q, а затем с помощью отношения сопряженности класс &п+\. Это завершает построение последовательностей ^?ь <?2, • •• оо оо И %и ^2» • • • • ЕсЛИ ^0 = П й« и ^0 = П ^я» Т0 Р (^о) = 1 . И я=1 я=1
88 ГЛ. 2. ЭНТРОПИЯ Р(й0) = 1. Мы определим отображение qp множества й0 на Q0, которое приведет к изоморфизму между преобразованиями Г и Г. Будем называть цепочкой в Q последовательность множеств {Сп} таких, что CiZ3C2i3... и Сп^^п. Из того, что Сп непусто, и из свойства (я3) следует, что пересечение множеств этой цепочки состоит из единственной точки, лежащей в Q0. И обратно, любая точка из Q0 определяет, таким образом, ровно одну цепочку. Все это справедливо и для Q. Заменим класс &п семейством {С (] Q0: С е &п} = &'п и класс Я\ семейством [С (] Q0: С е ^} = %'Лш Тогда цепочки все еще пересекаются в единственной точке из Q0 или из Q0 и условия (щ) — (щ) все еще сохраняются, за исключением того, что от класса Sf„ при нечетном п и от класса ¥> п при четном п теперь не требуется, чтобы они состояли из замкнутых множеств (это больше не имеет значения). Семейство &п[&'п] является теперь разбиением множества й0[^о1- Определим теперь отображение qp. Любая точка со из Q0 определяет единственную цепочку {Сп} в пространстве й, которая ввиду (я4) соответствует единственной цепочке {Сп} в Q{Cn+->Cn для всех п)> и эта вторая цепочка определяет единственную точку фсо из Q0. Так как все эти шаги цожно проделать в обратном порядке, то отображение qp взаимно однозначно и область его значений совпадает со всем Q0. Таким образом, условие (1^ изоморфизма удовлетворяется. Обратимся к условию (12). Теперь Q0 есть метрическое пространство с метрикой, унаследованной от Q, и о-полем q?q борелевских множеств из Q0, состоящим из тех подмножеств пространства й0, которые лежат в 4F. Пусть i?0 —класс множеств А из ^0, для которых срЛе^ и Р(А) = Р (фЛ). Если С е ^ю то фС есть то множество из &'п, которое соответствует множеству С по условию (я4). Поэтому класс £?0 содержит *£ю а следовательно, и конечные и счетные объединения множеств, принадлежащих ^п. Так как класс4 <£?0, очевидно, монотонный, то из леммы 3 следует, что ^о^е^о- Эти и аналогичные результаты, где Q и Q меняются местами, показывают, что если A cz Q0> то Де^" в том и только том случае, когда фЛе^, и что при этом Р(А) = Р (фЛ). Поэтому условие (12) удовлетворяется.
5. ПРОБЛЕМА ИЗОМОРФИЗМА 89 Покажем, что если {Сп} и {/)„} —цепочки, определенные соответственно точками со и* со' из й0, то со' = Гсо в том и только том случае, если CnczT~lDn-{ для всех п>1. (Аналогичное предложение зерно для Q0.) Если Cncz T~xDn^x при п> 1, то обе точки Гсо и со7 лежат в Dn_x при п> 1 и должны, следовательно, совпадать. С другой стороны, если со'= Гсо, то элемент Сп разбиения &п и элемент T~xDtl-X разбиения Г"^п-1 имеют общую точку со. Так как первое из этих разбиений измельчает второе,.то CnczT"lDn^. Предположим теперь, что fi)GQ0 и Гсо е Q0, так что фсо*=Й0 и фГсоеЙ0. Пусть {Сп}, {£>„}, {C„} и 0п}- цепочки, определяемые точками со, Гш, фсо, фГ& соответственно. Для того чтобы доказать, что Гфсо = фГ<о,, достаточно проверить, что Сп с: T~lDn-i. Но так как со переходит в Гсо, то CnczT" Dn^{. Далее, Сп+->Сп и Dn„{*^Dn-u так что Cn=Cn(]rlDn^^>Cnnf'lbn^ Поэтому Сп[\ГхЪп-х имеет положительную меру и, значит, непусто; отсюда следует, что СдСГ1^. Мы показали, что тройка (Q0, й0, ф) удовлетворяет условиям (Ii) и (12) определения изоморфизма и что она удовлетворяет условию (13), ослабленному "в соответствии с замечанием 2, следующим за определением. Поэтому преобразования Г и Г изоморфны. Изоморфизм и спектральная эквивалентность* Хотя эта книга лишь слегка касается изометрических операторов, порожденных сохраняющими меру преобразованиями, мы все же должны указать на различия между изоморфизмом и спектральной эквивалентностью. Если Г—сохраняющее меру преобразование на пространстве (Q, &', Р), то равенство (£//) (со) = / (Гсо) определяет некоторое преобразование гильбертова пространства L2{Q) интегрируемых с квадратом функций на (Q, SF', Р). Как было показано в § 2, оператор U (там он обозначался Г) изометрический. Покажем, что если Г изоморфно некоторому другому преобразованию Г, определенному на пространстве (й, с?*, Р), то изометрический оператор U абстрактно совпадает с изометрическим оператором (/, порожденным на пространстве L2(U) преобразованием Г. Пусть Г и Г изоморфны относительно тройки (й0, Q0, ф)- Для функции / из пространства L2(&) обозначим через Vf
90 ГЛ. 2. ЭНТРОПИЯ функцию на Q, принимающую значение f(qpco) в точке о. (Vf определена только на Q0; продолжим ее любым образом на Q — элементы пространства L2(Q) определены с точностью до множеств меры 0.) Очевидно, что V является линейным отображением из L2(Q) в L2(Q). Из свойств изоморфизма (Ij) и (12) следует, что V — взаимно однозначное отображение, сохраняющее длину и скалярное произведение, и область его значений совпадает со всем L2(Q). Наконец, из свойства (13) следует, что VU = UV, или 0 = V~lUV. Говорят, что операторы в гильбертовом пространстве, связанные посредством такого отображения V, имеют идентичную спектральную структуру, или спектрально эквивалентны; это —понятие одинаковости применительно к операторам. Мы показали, что спектральная структура порожденного изометрического оператора инвариантна по отношению к изоморфизму. (Она является инвариантом и по отношению к сопряженности.) Если операторы U и О спектрально эквивалентны, то можно говорить, что сами преобразования Т и Т спектрально эквивалентны. Функция f, принадлежащая пространству L2(Q), является инвариантной (/(Гсо) = /(со) п. в) в том и только том случае, если Uf = f. Далее, преобразование Т эргодично в том и только том случае, если все инвариантные функции являются почти всюду константами. Эти функции как элементы пространства L2(Q) получаются друг из друга умножением на скаляры, поэтому Т эргодично в том и только том случае,' когда подпространство решений уравнения Uf = f одномерно. Если это подпространство одномерно, то то же верно для любого оператора, спектрально эквивалентного U. Поэтому если известна спектральная структура оператора £/, то известно, в частности, является ли преобразование Т эргодическим. Таким образом, спектральная структура порожденного изометрического оператора — более точный инвариант, чем эргодичность: если Г и Г спектрально эквивалентны, то они либо оба эргодичны, либо оба неэргодичны. Можно также показать (см. Халмош [3]), что спектральная структура — инвариант бо/iee точный по сравнению с перемешиванием. Покажем теперь, что сдвиги Бернулли порождают изометрические операторы, имеющие совершенно одинаковую спектральную структуру. При обсуждении энтропии уже указывалось, что из теоремы Колмогорова (которую мы докажем в § 7) следует, что существуют сдвиги Бер-
5. ПРОБЛЕМА ИЗОМОРФИЗМА 91 нулли, имеющие различные энтропии и потому неизоморфные. Таким образом, энтропия — инвариант, дающий возможность различать ^некоторые преобразования, которые не различаются с помощью спектральной структуры, и, разумеется, бесполезно пытаться различить их с помощью таких инвариантов, как эргодичность и перемешивание, ибо они еще менее точны, чем спектральная структура. (С другой стороны, имеются спектрально различные преобразования с одинаковой энтропией, например циклические перестановки k точек равной массы для различных k.) Пусть Г —сдвиг Бернулли. Возьмем пространство состояний р = {1, 2, ..., г) и вероятности ри р2> ..., рг и предположим, что все pi положительны. Пусть векторы ^ = = (6/(1), ..., h(r))> i=U 2, ..., г, таковы, что IiPkh(k)lj{k)^6ij9 /, /=1, 2, ..., г, (5.18) к h = (U 1, .... 1). (5.19) Иными словами, векторы (li(l)Ypu •••» hir)Vpr) образуют ортонормированный базис в r-мерном пространстве. Рассмотрим бесконечную в обе стороны последовательность и = (..., U-U щ, ии ...) элементов пространства {1, 2, ..., г). Пусть ^ — совокупность таких последовательностей, у которых лишь конечное число координат ип отлично от 1. Определим для последовательности и из <2£ функцию gu на пространстве Q формулой оо 8иЫ= П|«„(*»Н). (5-20) где хп — координатные переменные. Так как лишь конечное число ип отлично от 1, то произведение (5.20) на самом деле конечно (см. 5.19). Функции gu являются элементами пространства L2(U). Так как переменные хп независимы относительно меры Р, то в силу (5.18). имеем оо (gu, 8v)= Д [lun(Xn(<u))tvn(Xn(<i>))P(d<0)=* П=—оо оо = II6<w u,v&V. Итак, функции gu ортонормированы.
92 ГЛ. 2. ЭНТРОПИЯ Любую функцию из L2(Q) можно аппроксимировать k в смысле L2 простыми функциями 2 atlаг Так как множе- г = 1 ' ства А[ можно аппроксимировать множествами, зависящими только от конечного числа координат (цилиндрами), то функции, зависящие лишь от конечного числа координат, порождают L2(Q). Но функцию, зависящую, скажем, только от п координат, можно идентифицировать с точкой /-"-мерного пространства. Так как gt- порождают r-мерное пространство, то такая функция является конечной линейной комбинацией функций gu. Поэтому {gu :mg^}- ортонорми- рованный базис в L2(Q). Определим отображение 0:^->^ соотношением (Qu)n = = un-i. Так как оо то Ugu = geu- Пусть теперь и(0\ и(1), ... —такая последовательность элементов из $£, что и(0) состоит целиком из единиц, и{1)Ф Ф впии) при i ф / для всех п = 0, ± 1, ... (и{1) не являются сдвигами друг друга) и любой элемент и из <М можно представить в виде u = Qnu{i) для некоторого / = 0, 1., ... и некоторого az = 0, ± 1, ... (любой элемент и есть сдвиг некоторого u{i)). Пусть h^gu(o) и !ип^8впи(1) Для i=l, 2, ... и п = 0, ± 1, ... . Тогда система {ga : и е <%f} принимает вид /о • • •» /l,-l» fl.o» fh 1» • • • • • •» /2,-1» /2,0» /2, 1> • • • Элементы этой системы образуют ортонормированный базис в L2(Q); Uf0 = f0 и Ufin = fittl+l для />1 и я = О, ± 1, .... Такая спецификация спектральной структуры оператора U не зависит от г и от вероятностей р,, р2, ..., рг. Мы показали, что изоморфные сохраняющие меру преобразования спектрально эквивалентны. Только что полученный результат вместе с фактом существования неизоморфных сдвигов Бернулли показывает, что спектрально эквивалентные преобразования совсем не обязаны быть изо-
6. СВОЙСТВА ФУНКЦИЙ НШ И h (Л, Т) 93 морфными (а также сопряженными). Иными словами, спектральная структура порожденного изометрического оператора не является полным инвариантом. Замечание. По поводу примера 5.4 см. Харрис [1]. Понятие энтропии было введено в теории связи Шенноном [1]. Колмогоров [2] определил энтропию общего сохраняющего меру преобразования; важный вклад был сделан Синаем [1]. Теоремой 5.1 мы обязаны Нейману [2]. Последующую информацию и ссылки можно получить у Якобса [1, 2]. В книге Халмоша [3] дано широкое обсуждение порожденных изометрических операторов. 6. СВОЙСТВА ФУНКЦИЙ Н(<Л) И Н(Л, Т) Полезным вспомогательным понятием является понятие энтропии (или условной энтропии) поля Ж при заданном поле J?, определяемой формулой Н(Л\@) = %Р(В)%ц(Р(А\В)) = в л = - ХР(А(]В)1пР(А\В\ (6.1) л, в где суммирование производится по атомам, полей А и J?, за исключением тех атомов В поля i?, которые имеют меру 0. Тихе, выбирающая некоторую точку со из пространства Q в соответствии с вероятностной мерой Р, сообщает экспериментатору, какому атому поля J? эта точка принадлежит. Однако обычно у экспериментатора нет уверенности относительно того, в каком атоме поля Л лежит точка со, и степень его неуверенности измеряется величиной ^ц(Р (А\В)\ л где В— тот атом поля 3§\ который содержит о. Таким образом, величина (6.1) измеряет среднее количество неопределенности относительно исхода эксперимента "Ж при условии, что известен исход эксперимента J*. Или, иначе, величина Н(Ж\$) измеряет количество дополнительной информации, получаемой экспериментатором при узнавании исхода Л в предположении, что он уже знает исход J?'. Если обозначить символом 2 поле, состоящее из пространства Q и пустого множества, то, очевидно, что Н{Л\2) = Н(Л).
94 ГЛ. 2. ЭНТРОПИЯ Свойства функций Н{Л) и Н(Л\38) Выведем следующие пять пар соотношений, касающихся энтропии и условной энтропии для конечных полей. Основной является первая формула: (А,) Н(Л V Я ISf) = Я (JL |Sf) + Я (В \Л V *0, (АО Н{Лу 38) = Н{А) ±Н{38\Л). Формула (Ai) означает, что информация, содержащаяся в экспериментах <А и 38 вместе, равна информации, содержащейся в <А, плюс информация, содержащаяся в 38 при условии, что результат эксперимента Л известен. Аналогичная интерпретация имеет место для формулы (А{). Условная энтропия не убывает по своему первому аргументу: (А2) Н(<Л\Ъ)^Н{#\Ъ), если c^cz^, (А0 Я(с^)<ЯСЯ, если <Acz38. Это означает, что если Л cz 38, то 3S измельчает Л\ знание исхода эксперимента 38 влечет знание исхода эксперимента А\ следовательно, 38 более информативно. Условная энтропия не возрастает по своему второму аргументу: (А3) Н{Л\%)^Н{Л\38\ если Vzd£9- (Аз) ЯН1?)<Я(4 Если знание исхода эксперимента ^ влечет знание исхода эксперимента 38, то остающаяся экспериментатору неопределенность относительно исхода эксперимента <А должна быть меньше, если он знает исход эксперимента 8\ чем если он знает только исход эксперимента 38. Условная энтропия полуаддитивна по первому аргументу: (А4) Я (Л V 38 |Sf)< Я (Л \Ъ) + Я {38 \%\ (Ai) Я (Л V 38) < Я (Л) + Я (#). Наконец, (Ag)- Н{Г1<А\ГХ38) = Н(Л\38\ (As) я(ги) = яи). Заметим, что для любого г формула (АО немедленно получается из (А*), если заменить соответствующее поле полем 2.
6. СВОЙСТВА ФУНКЦИЙ Н (Л) И h (Л, Т) 95 Соотношение (Ai) аналогично формуле для условных вероятностей Р (Л П В | С) = Р (Л | С) Р (В | Л П С). В самом деле, (А\) следует из этой формулы и того' факта, что атомы полей JL V &? и Ж V <? являются соответственно множествами вида ЛП# и Л П С, где Л, В и С —атомы полей Ж, $f и <?: ffMV*l?) = - 2 Р(ЛПВПС)1пР(ЛПВ|С) = Л,Б,С = - 2 Р(ЛПВПС)1пР(Л|С)- Л,Б,С - 2 Р(Л П£ПС)1пР (В 1ЛП-СН Л,Б,С = - 2 Р(ЛПС)1пР(Л|С)~ л, с - 2 Р(ВП(ЛПС))1пР(В|ЛПС) = л,в,с = H{dt\V) + H(JP\<AW). Если с?£ с: J7, то с^ V J7 = J7; следовательно, (А2) вытекает из (АО и очевидной неотрицательности условной энтропии. Для доказательства соотношения (А3) заметим, что так как функция r\ (t)= — t In t выпукла, Т9 2 Ц(Р(А \С))Р (С \В) <т!(2 Р (А |С) Р(С \В)у Так как & а&9 то В есть объединение' атомов поля <?; следовательно, £Р(Л|С)Р(С|Б)= £ ^Т^ГТЩ-"^1^' С СсВ Поэтому 2т1(Р(Л|С))Р(С|В)<т1(Р(Л|В)). с Умножая это неравенство на Р {В) и суммируя его по атомам Лий, получаем (А3). Наконец, (А4) следует непосредственно из (А^ и (А3). Соотношение (А5) очевидно. Если сЛ = &, то Н{Ж\^) = 0 ввиду (Ai). Интуитивно ясно, что если Л и 38 почти равны в том смысле, что каждый атом одного из них отличается от некоторого атома другого на множество малой меры, то величина Н{<А\&)
96 ГЛ. 2. ЭНТРОПИЯ должна быть малой. Эта идея лежит в основе доказатель ства,следующего результата. Теорема 6.1.^Предположим, что конечное поле Л содержится в о-поле, порожденном полем е^0 (или, более обща, каждый атом поля Л отличается на множество меры О от некоторого элемента о-поля, порооюденного полем <£Tq). Тогда для любого положительного е существует такое конечное подполе 3$ поля <^0, что Н (Л | Я) < е. Доказательство. Не ограничивая общности, предположим, что все атомы Аь ..., Ат поля Л имеют положительную меру. Так как функция r\(t) непрерывна и т](0) = т)(1) = 0, то существует такое число б0 (0<б0<1), что r\(t)<e/ry когда либо 0</^60, либо 1—60</<1. Если мы сможем указать в ^0 конечное подполе iP, атомы которого Вь ..., Вг удовлетворяют условию р(Л||я«)>1-в0, ; = i,..., г, то получим Р {Aj\Bi)<60 для ]фг и, следовательно, H(^\^)^P(BJ)4(P(Ai\BJ))<^P(Bj)^ = e. // а Если атомы Bt удовлетворяют условию Р(Л; + В;)<6= min 60^^-, (6.2) то, так как Р (А^Р (В^ + д<Р (В,) + Р (Л,)/2, будем иметь Р (А{)/2<Р (Bt) и, следовательно, Р (Bt)- Р(At [\Bt)<b< < б0Р (Bt), или Р (At |В/)> 1 — б0. Поэтому достаточно получить поле $? с атомами, удовлетворяющими условию (6.2). В силу предположения теоремы для каждого / существует такое множество В\ из поля <^0, что Р(Лг + вО<Я, где Я будет выбрано несколько позже. Если / ф /, то p(B'ir}B'})^p(B'i + Ai) + P(Aj + B'})<2K так что P(N)< <г(г-1)Я, где ЛГ« (J О8'П Я/)- Определим Bt^B't-N i Ф I для 1 <!/</" и Br = Q— (J Bt\ тогда множество Bt при- i < r надлежит полю <&"0 и Р (At + Bt)<X + r(r — 1)Я для i<r\ следовательно, Р (Ar + Br)<(r — Jl)(h + r(r — 1)Я). Если Я достаточно мало, то (6.2) выполняется. Следующая теорема иным образом уточняет идею, что если атомы полей Л и $} близки, то величина Н(<А\$?)
6. СВОЙСТВА ФУНКЦИЙ Н (с^) И h (^ Т) 97 мала. Теорема эта будет использована только в гл. 5, в теории кодирования. Теорема 6.2. Пусть число атомов Аи ..., Ат поля Л, равно числу атомов Вь ..., Вт поля ЗВ. Тогда где ^ = Ер(в/)р(лЯв/)= 2 р(^пву)-2р(л,)я(я5|л,). Доказательство. Прежде всего можно записать H(^\m-^P(Bj)[y\(P(AJ\Bj)) + i^^(P(Al\Bj))^ Для фиксированного / имеем1) + ч(я(лЯв,))<ЯиЯВ/)1п(г-1) + т,(р(Л?|в/))- Следовательно, H{d\W)<%P(Bj)[x](P(Aj\Bj)) + 4(p(A(j\Bl))] + + %Р(В,)Р{Ас,\В1)\п(г-1). Вторая сумма равна din (г— 1). Если ^—поле с атомами Е= (J (AiflBj) и Ес> то , первая сумма равна Н&\Я). А так как Я(8,|*)<Я(?)-т1(Р(Е)) + т|(Р(£в)) = т|(£0 + л(1-^ то доказательство завершено. Если Р(В/|Л/)<е для всех ]9 то d<!e; использование этого факта приводит к несколько более экономному доказательству теоремы 6.1. 1) Для неотрицательных чисел tu ..., tk, дающих в сумме 1, спра- t k ведливо неравенство 2 'П (h) ^ In &• 7 Зак. 1491
98 ГЛ. 2. ЭНТРОПИЯ Свойства функции h(<A, T) Докажем сначала, что верхний предел в определении (5.13) функции h(<A, T) может быть заменен обычным пределом. Действительно, (Ai) и (As) означают, что нЫ V ГЦ - ЯIV гЦ - Я (У Г1 Л) = Суммируя по k, имеем -я(уоГ'^)-я(уУи). я( V ru) = я м) + 21 я (ст« *-1 / В силу (А3) функция НиЛ V Т*А\ не возрастает по k и, следовательно, имеет конечный предел. Беря среднее по Чезаро, получаем из предыдущего равенства «->оо /я-1 (В 0 Ли, Г)= lim itff V rU)= НтЯ(^ Кроме того, обе последовательности, пределы которых берутся в (ВО, невозрастающие. Аналогичное рассуждение приводит к соотношению (вО Н<Л, Г)- Mm Н\ГпЛ Я-1 \ vru, *-0 / где, как и выше, стремление к пределу монотонно. Если Т обратимо, то (В?) h (<Л, Т) = lim Я (Л V Г'л), что является результатом применения Тп к правой части равенства (в{). Соотношение (Bi) дает еще одну интерпретацию функции h(A, Г). Количество неопределенности относительно исхода (п+1)-и реализации ТпЛ эксперимента Л при данных исходах первых п реализаций Л, ТХЛ> ..., Т'п~х)А \/Т~*<А}. Эта величина, 1 *=о / которая измеряет также количество информации, доставляе- измеряется величиной Я ТпА
6. СВОЙСТВА ФУНКЦИЙ И (Ж) И h (^ f) 99 мой (л-М)-й реализацией в добавление к уже имеющейся от первых п реализаций, стремится к h{A, T) при л->оо. Из соотношений (ВО и (Аг) непосредственно следует (82) к(Л, Г)<А(^, Г), если <£<=:■&. Если и^о (и а^О, если преобразование Т необратимо), то п—1 f i> 1 Г л+и—и—1 1 V г' Vf.t-H . V г\* , г»=0 I /«и J I fc~0 J так что в силу (As) //i-l Г i» 1 \ , , /л+о-и-1 \ Из (ВО следует (83) h^Vj'U, г) = А(Л, Г), Если и = о=1, то (В3) превращается в /*(rU, f) = h{<A, Г), а при а = 0 hi У Г1 Л, T) = h(<A, Г), откуда видно, что информация, приходящаяся на эксперимент в последовательности экспериментов v о+1 v+2 V rU, V г'л, V г'ж.. /-0 / = 1 /-2 такая же, как в последовательности Л Т"* Л Т~^ Л Это естественно вследствие того, что соседние эксперименты первой из этих последовательностей перекрываются. Если k^ 1, то i"(2(7')iSr^})-^H(.Y.'r4- так что опять в силу (В]) (84) Л\/ГЧ H = ttU Г), Л>1.
100 ГЛ. 2. ЭНТРОПИЯ И, наконец, еще одно нужное нам свойство функции h(<A, T), являющееся обобщением неравенства (В2): (В5) к(Л, Г) <*(•#. Т) + Н(Л\&). Для доказательства этого соотношения заметим, что в силу (АЭ и (АО /п-1 \ /п-1 п~\ \ н V rU <# V rUv V г'# = Vf=o / \*-о /=о / /п-1 \ /п-1 |п-1 \ = я V г'> +# V rU V r7jp . \/=0 / \*-0 |/=0 / Последовательно применяя (А4), (А3) и (А5), имеем /п-1 я V г'л \*-о п-1 \ п-1 I I V г^# <2я rU п-1 < S В(Г*Л\Тч@) = пН(Л\, i=0 п-1 V rtp < /-о Комбинируя предыдущие неравенства, получаем ± Н ( V Г U) < 4" н \ V r'iP) + Я И I #), n \i=0 / я \/=0 / откуда в силу (В^ следует (В5), 7. СВОЙСТВА ФУНКЦИИ h (Г) Теорема Колмогорова Мы докажем теперь теорему Колмогорова, которая позволит нам во многих случаях вычислить энтропию h (Г) = sup h {Л> Т). оо Теорема 7.1. Если Т обратимо и V ТпЛ = о?Г1), то Н(Т)=-к{Л, Т). Доказательство. Мы должны показать, что если <$ — любое конечное подполе поля <^~, то *(#, г)<МЛ т). 1) Разбиение на атомы поля <А называется в этом случае образующим, разбиением для Т или просто образующей, — Прим. ред.
7. СВОЙСТВА ФУНКЦИИ h{T) 101 Пусть <Лп'= V TkJt\ из (В3) следует k= -п к{лп, т) = цл, ту, а из (В5) h(#, Г)<Л(^„, T) + H(@\<An) = h(<A, T) + H{%\JLn). Поэтому достаточно показать, что Ит Н {& | Лп) = 0. Докажем это с помощью теоремы 6.1. Если с&~о = и<Лп, то <&~0 является (конечно аддитивным) п цолем, порождающим поле <&~. В силу теоремы 6.1 для любого положительного е существует такое конечное подполе Sf поля <^0, что Н(Я\&)<е. Далее, ^ принадлежит некоторому Лп*\ если п^п0, то в силу (А3) Н{#\<Л,д<Н{Я\Лпд<Н(#\&)<е, что доказывает теорему. п Замена Лп на V Т~пЖ в этом доказательстве приводит к следующему результату, для которого не требуется обратимости Т. оо Следствие. Если V ГпЛ=-<^, то h(T) = h(A, T). Вычисление энтропии Теорема 7.1 сделала законными вычисления энтропии в § 5. Проведем еще раз эти йычисления, но несколько иным способом. Пусть Г —общий двусторонний сдвиг, соответствующий процессу {хп} с конечным пространством состояний р (пример 1.2), и пусть Л — поле событий, наблюдавшихся в момент времени 0 (поле с атомами {л;0 = /}, сю /ер). Так как V ТпЛ = оГ, то из теоремы 7.1 следует h(T) = h(ut, Г). Вычислим h{JL, T) по формуле Л(^, Г)= Нт Я П-»оо ЛIV ТкЛ k-l
102 ГЛ. 2. ЭНТРОПИЯ п Произвольный атом поля V TkJL имеет вид {#_i = Li, ... ..., х_п = /_«}, и, следовательно, Н\Ж\У TkM = 2 Р{х.х = и ..., x.n = Ln}X \ л-1 / ^ ..'.. t_n Отсюда вытекает, что энтропия сдвига удовлетворяет условию А (Г) < In г, (7.1) где г —число состояний. Если Г —сдвиг Бернулли (рь ..., рг), то Р {х0 = i01 л:_1 = /_i, ..., л:_л = Lrt) = pf- и все Н\Л | V Г\т£ совпадают с — 2 Pi In Pi- Итак, А(Г) = А(Л, Г) = -21л In л. (7.2) Пусть теперь Г —сдвиг Маркова, соответствующий матрице перехода П = (р/;.) и стационарным вероятностям р = (р{). На этот раз Р{лг0 = *0| *-i ^ *-i> •••> *-« = *'-«} = /?;._!;0> так что \ « —1 / х_1» •••» *_/^ • • • P*_2i_, 2 Р«_,г0 = — 2 РгРг/ In pt{. h if Поэтому А (Г) - A (Л, Г) = - 2 р/Лу In p,;, (7.3) а и это справедливо без каких бы то ни было предположений регулярности, относящихся к матрице П. Этот результат можно также установить, доказав что Н[\/ Г\*) = -(л-1) 2 PiPij In PiJ- 2 Pi\nPi (л>1). \Л-0 / ij i Разумеется, сдвиг Бернулли является также марковским сдвигом, и в этом случае (7.2) и (7.3) дают одинаковый результат. Таким образом, два сдвига Бернулли, или, более общо, два сдвига Маркова неизоморфны, если их энтропии различны. В частности, сдвиги Бернулли (1/2, 1/2) и
7. СВОЙСТВА ФУНКЦИИ h(T) 103 (1/3, 1/3, 1/3), имеющие энтропии In 2 и 1пЗ соответственно, неизоморфны. Не представляет труда показать, что сдвиг примера 3.3 имеет энтропию — (уJ jj Piin Pi- i В силу следствия теоремы 7.1 соотношения (7.2) и (7.3) справедливы для односторонних сдвигов Бернулли и Маркова. оо Интересно, что если Т обратимо и V Т~п<А = <&~, то h(T) = h{At T) = 0. Интуитивно: в этом случае прошедшее определяет будущее или будущее определяет прошедшее; это зависит от того, какая выбрана ориентация, и, следовательно, соответствующая условная энтропия должна стремиться к 0. Доказательство заключается в облечении этой идеи в математическую форму. В самом деле, из этого следует, ооч что <Л с of = Т~1£Г = V Т~*<Л9 так что по теореме 6.1 поле 00 п (J V ТиЖ содержит для каждого s такое конечное под- п=\ i = \ поле &% что Н{А\ЭВ)<г. Но тогда H\Jt\\J ТЛ<А\^ <Я(с^|^)<е для большего п, так что в силу (В^ h{T) = h{<A, Т) = 0. Опираясь на этот факт, можно показать, что энтропия иррационального поворота окружности (пример 1.5) равна 0. Пусть атомы поля Л — верхняя полуокружность Л и ее дополнение Ас. Если Гсо = ссй, то полуокружность Т'пА начинается в точке с~п. Если с не является корнем из единицы, то множество {С1, <г2, ...} всюду плотно и, следовательно, любая полуокружность может быть аппроксимирована полу- оо окружностями Т~пА и, таким образом, лежит в V Т~пА. Из этого вытекает, что V Т~пА содержит любую дугу и, следовательно, совпадает с <^. Из соотношений (В4) и (В2) вытекает, что h{Tk) = kh(T) для k^l. Если Т обратимо, то h(T) = h(T~l), так как нIV т-*л\ = н(V{г1ткл\. \л-о' / Wo /
104 ГЛ. 2. ЭНТРОПИЯ Таким образом, мы можем вычислить энтропию любой степени преобразования Г. Теорема 7.2. Если &> 1, то h(Tk) = kh(Г). Если Т обра- тимо9 то h (Tk) «s | k | • h (T) для любого целого k. Если Г— вращение окружности Гсо = С0, где с — корень из единицы, то Л (Г) — 0. Действительно, если с есть корень fe-й степени из единицы, то Г* = /, так что h(T) = k • /г(/)~0. Некоторые обобщения *) Пусть i?! и а?2 "*" о-подполя поля ST\ если каждое множество из J?i отличается от некоторого множества ^из £?2 на множество меры 0 и обратно, то будем писать i?i =<£?2. Следующая теорема содержит в числе других результатов теорему 7.1. Теорема 7.3. Пусть {&п} ~ неубывающая последовательность (конечно аддитивных) полей. Если оо оо V Vrt^oT или еслы Т обратимо и V V т'#я^<зг, tl=>\ * = -оо ТО Л(Г)= lim sup Л(ст€, Г). Доказательство. Дадим доказательство для случая оо оо П V V Т-1£?п^=<&". Если $?й- поле, порожденное U Т~1&п> и оо (^0 — поле U 3@пу то каждое множество поля <&* отличается от некоторого множества су-поля, порожденного полем af0, на множество меры 6, откуда в силу теоремы 6.1 и соотношения (В5) следует (так же как в центральном пункте доказательства теоремы 7.1), что А (Г)- sup h(£, T). (7.4) 1) Изложенные в этом разделе результаты в дальнейшем использо ваны не будут.
7. СВОЙСТВА ФУНКЦИИ h{T) 105 Если & cz оГ0, то J? содержится в е%?„ при некотором я и, следовательно *), имеет атомы Bh ...,• Bk вида / п BU=\J Л r'Giu„, «=1, .... /г, где G/otg^. Если о^ —поле, порожденное множествами с» Gittv, то оно конечно, Ас=: £?п и jP c= V Г"'^. Поэтому в силу (В2) и (В3) имеем M^JXMV г'Л, л = ли, Г)< sup AU, Г): Так как правый член этого неравенства не убывает по п, то теорема следует из (7.4). Случай обратимого Т разбирается аналогично. Если о?п есть а-поле и Т~1^п с: <£?„, то Т может рассматриваться как сохраняющее меру преобразование Тп на пространстве (Q, $fn, P). Если это так, то из теоремы 7.3 следует, что если последовательность {£?п} не убывает и оо V #«■*• сГ, то /г(Г) = НтЛ(Г„). Взяв в теореме 7.3 в качестве S?n поле ЛУ получаем как следствие теорему 7.1. Следствие 1. Если {Лп} — неубывающая поъледова- оо тельность конечных полей, причем V <An=<3F\ то л=1 h(T)= lim h(<An, T). tl->oo оо Следствие 2. Ясли ^ cz V Г~^ или если Г обратимо i**=0 оо и ^с= V Г^, то й(#, Г)<Л(о€, Л- t = -oo Для доказательства этого следствия рассмотрим 71 как оо преобразование на (Q, <^0, Р0), где (У0 — поле V Г"*^ или оо V 7^ и Р0 — сужение Р на d^0. / оо ' *) Если cv^ и gV —поля, то поле, порожденное полем <Л U <^\ состоит из конечных объединений множеств вида М f| N» где М е g^ и Л' & «V\
106 ГЛ. 2. ЭНТРОПИЯ Следствие 3. Если !& — некоторое поле и либо оо оо V Г'& = <&~, либо Т обратимо и V Т1&^<&~, то /г(Г)= sup hU, Г). Следствие 4. £сли <3?~0 — поле, порождающее &', то h{T)= sup h(JL, Г). Это последнее следствие дает возможность вычислять энтропию прямых произведений. Пусть Tt (/=1, 2) —сохраняющее меру преобразование на пространстве (Qt-, 4Fu Pi)\ тогда прямое произведение Тх X Г2 —сохраняющее меру преобразование на произведении этих двух пространств: (Т{ X Т2) (с»!, щ) = (7>ь Т2®2). Теорема 7.4. Прямое произведение преобразований Тг и Т2 обладает свойством /г(Г1ХГ2) = й(Г1) + Л(Г2). Доказательство. Если с^ —конечное подполе поля сУi (/ = 1, 2), то, обозначив 2,= {0, QJ, имеем V (Т{ X Г2Г Мх X <Л) = V (77U X 22) V V (2i X r2"U2)- (Если <А\ и ст£2 — это сг-поля в пространствах Qj и Q2, то Ж\ X Ж2 ecfb сг-поле в Q{XQ2> порожденное Л1 X Л2, где Л! и А2 лежат в Лх и Л2 соответственно. Если Л\ и ст£2 — конечные поля, то поле Л\ X Л2, также конечно и его атомами являются множества А{ X Л2, где Ах и А2— атомы полей c^i и Л2 соответственно. Два поля в правой части этого равенства независимы в том смысле, что если М и N принадлежат соответственно этим полям, то P(M[)N) = P (M)P {N), где Р = Pj X Р2; отсюда следует, что Я(\/ (Т{Х Т2Г1(ЛгХЛ2)) = = Я (V {ГМх X 22) ) + Я (V (2! X Г21Л^ J = = #(V 77Ui) + #(V Т21Л, \*-0 / \*-0 2 •
8. ПРОБЛЕМА ПОЛНОТЫ 107 Деля на п и переходя к пределу, получаем h (JLX X <А2, Тх XT2) = h {Ли Г,) + h {А2, Т2). Теперь теорема вытекает из следствия 4, так как прямоугольники с основаниями в <£Г{ и &~2 порождают поле Ъ? 1 X G^2* В качестве последнего вычисления найдем энтропию примера 1.7 с мерой Р, определенной как произведение мер по формуле n+k Р {со: ^(o)sB„ п < / < п + £} = П И (Ед* (7.5) где [х есть мера на борелевских подмножествах прямой. И& следствия 3 вытекает k h (T) = sup S т| (ix (£,)), где верхняя грань берется по всем разбиениям Яь ..,, Ek прямой на борелевские множества. Если [х не состоит исключительно из точечных масс, то h(T) = оо. Если [х состоит из точечных масс, скажем, ри р2, ..., то оо л(г) = -2р/1пР/. Если этот ряд расходится, то h(T) бесконечна. Замечание. Материал этого и предыдущего параграфов почерпнут из работ Халмоша [4] и Брауна [l], а также из статей Колмогорова и Синая. Дальнейшую информацию по этому поводу можно получить из превосходной обзорной статьи Рохлина [2]. Статьи более позднего времени включены в библиографию, помещенную в концеу книги. 8. ПРОБЛЕМА ПОЛНОТЫ 1) Некоторые нерешенные задачи В § 5 мы отметили, что если Tk — циклическая перестановка k точек равной массы, то к(Тк) = 0, хотя различные Tk неизоморфны. Кроме того, энтропия любого вращения окружности также равна 0, хотя оно неизоморфно никакой 1) Материал этого параграфа, который состоит преимущественно из* вопросов, встречается в последующем изложении лишь эпизодически.
108 ГЛ. 2. ЭНТРОПИЯ > 0 0 1 2 1 _ 2 о 1 1" 2 2 о 1 ! 2 2 1 о о г ° V > 14 1 о о | i i о о о • ±i о о lij перестановке Tk. Энтропия, таким образом, не является полным инвариантом. Если Г —сдвиг Маркова, то, как мы видели, h{T) = -^piPij\nPij. Рассмотрим три матрицы перехода 2 2 2 2 и соответствующие стационарные распределения вероятностей (1 L) (1 1 1 1W1 1 I IV \2 ' 2 Г \4 ' 4 ' 4 ' 4/' \4 ' 4 ' 4 ' 4/» пусть Гь Г2 и Г3 — соответствующие сдвиги Маркова. Тогда Тх — перемешивающий сдвиг, Г2"~эРг°Дический> но не перемешивающий, а 73*~Даже не эргодический; в частности, никакие два из этих сдвигов неизоморфны. Так как энтропия всех сдвигов равна In 2, то она не является полным инвариантом и для сдвигов Маркова. Общий вопрос об условиях, при которых энтропия является полным инвариантом, порождает несколько специальных неразрешенных вопросов. Вопрос 1. Является ли энтропия полным инвариантом для сдвигов Бернулли? Пусть Т — сдвиг Бернулли (рь ..., рг), а Т— сдвиг Бернулли (рь ..., р~). Если Г и Т изоморфны, то - 2 pi in Pi = — 2 pi in ph t i (8.1) Следует ли из (8.1), что Т и f изоморфны? Ответ неизвестен. Если (рь ..., рт) — некоторая перестановка (рр ..., р~) (г = г), то ответ положителен — это тривиально. Однако возьмем наборы вероятностей (1/4, 1/4, 1/4, 1/4) и (1/2, 1/8, 1/8, 1/8, 1/8). Тогда (8.1) выполняется, но a priori у нас не больше оснований ожидать изоморфность Г и Г, чем изоморфность
fi. ПРОБЛЕМА ПОЛНОТЫ 109 сдвигов Бернулли (1/2, 1/2) и (1/3, 1/3, 1/3). Мешалкин доказал поразительный факт: Г и Г изоморфны. Это позволяет думать, что ответ на вопрос 1 положителен. В этом направлении Синай доказал следующую замечательную теорему. Сказать, что два сохраняющих меру преобразования Т и Т изоморфны, значит сказать (пренебрегая множествами меры 0), что существует взаимно однозначное отображение ф пространства й на й, которое переводит меру Р в Р и удовлетворяет условию Г<р == <рГ. Пусть мы требуем, чтобы областью значений отображения ср было все Q, чтобы ф переводило Р в Р я удовлетворяло условию Гф = фГ, но не требуем, чтобы оно было взаимно однозначным. Если такое отображение существует, говорят, что f есть факторпреобразование преобразования Т. Легко показать в этом случае, что h{f)^h{T). Если Г и Г являются факторпреобразованиями друг друга, то h(T) = h{T); тогда говорят, что они слабо изоморфны. (Можно показать, что слабый изоморфизм сохраняет не только энтропию, но и свойства эргодичности и перемешивания.) Синай показал, что два сдвига Бернулли с одинаковой энтропией слабо изоморфны и отображения ф: й->й и -ф: Q->G, входящие в определение слабого изоморфизма, могут быть выбраны так, чтобы они зависели только от прошлого. Это означает, что п-я координата (ф(о)„ [(i|)g>)J точки фсо|/фа>] является функцией координат ..., ©„«!, (D„[..., (*)„_!, ып] точки со [со]. Хотя обратное тривиально, но неизвестно, когда слабый изоморфизм влечет обычный изоморфизм. Для того чтобы показать заключенную здесь трудность, рассмотрим такой пример. Пусть Г= Г —двусторонний сдвиг Бернулли (1/2, 1/2) с пространством состояний {0, 1}. Тогда Г и Г слабо изоморфны: соответствующие отображения ф и -ф определяются соотношениями (ф(о)д = 0Л_! + со„ (mod 2), (i|)(5)n = (5„_i + &п (mod 2). Разумеется, будучи тождественными, Т и Т изоморфны. Но каждое из отображений ф и ф является однозначным отображением, при котором точке соответствуют два прообраза, и весьма трудно понять, как их можнб использовать для того, чтобы восстановить тождественное или любое другое обратимое отображение, которое делает Г и Г изоморфными.
110 ГЛ. 2. ЭНТРОПИЯ Вопрос 2. Является ли энтропия полным инвариантом для перемешивающих сдвигов Маркова? Ответ на этот вопрос также неизвестен. Сдвиги Колмогорова Прежде чем поставить наш третий вопрос, введем новое понятие. Пусть Л — поле событий, наблюдавшихся в момент времени 0, для общего сдвига с пространством состояний р оо (пример 1.2). Если о?~п — V T~kJl, то 3?'п есть ст-поле, ПОрО- жденное множествами {xk = /}, где /ер и k^n. Сдвиг Т называется сдвигом Колмогорова» если все множества сг-поля оо оГ^ = f) <&~п тривиальны, т. е. имеют меру либо 0, либо 1. Множества из of ^ зависят от „сколь угодно далекого будущего" (см. конец § 4, где подобный класс множеств определен для преобразования, связанного с непрерывными дробями). Существует общее понятие преобразования Колмогорова*), определяемое инвариантным образом и приводящее к упомянутому выше понятию в случае сдвига. В § 11 мы увидим, что любой сдвиг Колмогорова — перемешивающий. Можно построить пример, показывающий, что не все сдвиги, обладающие свойством перемешивания, являются сдвигами Колмогорова. Из закона нуля —единицы следует, что любой сдвиг Бернулли является сдвигом Колмогорова. Следующее рассуждение показывает, что сдвиг, соответствующий неприводимой непериодической цепи Маркова, является сдвигом Колмогорова. Действительно, в этом случае lim p{jf = р., п так что если е„= nlax \pf) — р,\9 то Hme„ = 0. Из теории цепей Маркова следует, что если множество А принадлежит сг-полю, порожденному множествами {** = /}, гДе k^t9 а множество В принадлежит сг-полю, порожденному множествами {#£ = /}, где k^l + n (т. е. полю <^/+л), то \Р(АПВ)-Р(А)Р(В)\<вя. (8.2) 1) В отечественной литературе принят термин К-автоморфизм. Определение /(-автоморфизма см. в сноске 2 на стр. 111. — Прим. ред.
8. ПРОБЛЕМА ПОЛНОТЫ 111 Если В принадлежит полю ^*ов, то оно принадлежит и полю ofi+п при всех я, так что дл^ любого цилиндра А Р(А(]В) = Р(А)Р(В). (8.3) Но совокупность множеств Л, для которых справедливо (8.3), образует ст-поле и, следовательно, совпадает с &Г\ Таким образом, (8.3) имеет место для Л = В, так что Р (В) равняется либо 0, либо 1. Вопрос 3. Является ли энтропия полным инвариантом для сдвигов Колмогорова? Ответ неизвестен. В качестве последнего вопроса рассмотрим следующую проблему изоморфизма, которую одна энтропия разрешить не может. Пусть Т и Г —два варианта преобразования примера 1.7, соответствующие произведениям двух различных мер \х и ji на прямой (см. (7.5)). Если ни та, ни другая меры не состоят исключительно из точечных масс, то h(T) = = Л(Г) = оо. При каких условиях в этом случае Т и f изоморфны? Если меры \х и Д совсем не имеют точечных масс, то хорошо известно, что существует отображение прямой на саму себя, переводящее \х в Д. Это отображение можно расширить так, чтобы получить изоморфизм между Г и Г. А что можно сказать о Смешанном случае? Замечание. По поводу изоморфизма сдвигов Бер- нулли (1/4, 1/4, 1/4, 1/4) и (1/2, 1/8, 1/8, 1/8) см. Мешалкин [1]. О понятии слабого изоморфизма см. Синай [8]*). Колмогоров [2] ввел преобразование Колмогорова, назвав его квазирегулярным ^). 1) См. также Синай [9]. — Прим. ред. 2) Общее определение таково: обратимое сохраняющее меру преобразование Т пространства (Q, оГ, Р) называется автоморфизмом Колмогорова (или К-автоморфизмом)> если существует cr-поле <^0 с: ^ со свойствами: 1) T^QzD<r0i2) V Г^о^^, 3) Д Тп<Г0 тривиально. В слу- п п чае сдвига в пространстве последовательностей в качестве <^"0 можно взять а-поле, порожденное величинами xt при /<0 или при />0. — Прим, ред.
ГЛАВА 3 Условные вероятности и математические ожидания1) 9. УСЛОВНЫЕ ВЕРОЯТНОСТИ Конечный случай Понятие условных вероятностей относительно а-поля лежит в основе многих построений современной теории вероятностей. Рассмотрим сначала понятие условной вероятности множества М относительно другого множества Л. Эта вероятность определяется равенством Р (М \ А) = Р (М f] A)/P (А) (если только Р(А) не равна нулю, в последнем случае она вообще не определена). Если Тихе выбирает точку со из пространства Q в соответствии с вероятностной мерой Р (на а-поле о?"), то Р{М) есть вероятность того, что со взята из М. Если эта выбранная точка принадлежит А и если Тихе сообщает об этом (и только об этом) экспериментатору, то для него Р(М\А) есть вероятность того, что со принадлежит также и М. Будем исходить из этой эвристической формулировки. С другой стороны, если точка, выбранная Тихе, оказалась принадлежащей Ас и экспериментатору сообщено об этом, то для него новая вероятность события со е М равна Р(М\А€). Удобно связать эти две условные вероятности ступенчатой функцией fM = Р(М\А)= Р(рщ] , если юеД >{М\АС)^Р{^\ если шеЛ*. Если Тихе сообщает экспериментатору, какому множеству — А или Лс —принадлежит выбранная ею точка, то вероятность события ®&М для экспериментатора равна /(со). Хотя экспериментатор не знает аргумента со функции /, он бла- !) Читатель, знакомый с понятиями условных вероятностей и математических ожиданий относительно а-поля, может опустить эту главу, при необходимости находя в ней нужные ссылки. Читатель, незнакомый с этими идеями, также может- опустить ее, если он согласен принять несколько дальнейших теорем без доказательства или если он будет предполагать, что встречающиеся в этих теоремах сдвиги являются марковскими.
9, УСЛОВНЫЕ ВЕРОЯТНОСТИ 113 годаря Тихе достаточно осведомлен для зычисления /(со). Заметим, что значение f(co) определяет, будет ли сое Л или со е Ас, если только не выполняется равенство Р(М \А\ = = Р(М\АС) (означающее независимость М и Л), вследствие которого условная вероятность множества М совпадает с безусловной. Поэтому вместо того, чтобы сообщать, принадлежит са множеству А или Ас, Тихе могла бы сообщать значение /(со). Множества А и Ас образуют d^-разбиение пространства Q. Только что изложенное приводит нас к произвольному ^-разбиению, или, что то же, к произвольному конечному подполю Л поля сУ. Если Ль ..., Ат являются атомами подполя Ж> то для любого М из <zf рассмотрим ступенчатую функцию ДсоНР(М1Л,0=Р^У , если шеЛ,, *=1, ..., г. Тихе, выбрав точку со из Q в соответствии с мерой Р, говорит экспериментатору, какой из атомов подполя Ж ее содержит. Новая вероятность множества М для экспериментатора имеет значение f (со). Как и раньше, экспериментатор после сообщения Тихе имеет достаточные данные для вычисления /(со), даже если само со ему неизвестно. И снова знание /(со) равносильно знанию того, какое из At содержит со. Будем обозначать через Р{М||с^} функцию (случайную величину) / и называть ее условной вероятностью множества М при заданном конечном поле Л. Аргумент со обычно опускается, но в случае необходимости будем писать Таким образом, Р{М\\Ж} — ступенчатая функция, значение которой на At равно обычной условной вероятности P(M\At). Это определение требует дополнения, так как Р{М\Аг) не определена при Р(Лг) = 0. Мы можем оставить Р{М|)с^} неопределенной на таких атомах поля Ж> а можем приписывать ей какое-то фиксированное значение, скажем, 0. Выберем третий путь: если Р(Л,) = 0, то значение Р{М||сД} на Аь есть произвольное действительное число *). Итак, если Л содержит атомы меры 0, то Р{М\\А) является для них целым семейством функций на й. Чтобы подчеркнуть это, мы будем называть Р{М||с7£} вариантом условной 1) Мы требуем, чтобы это значение было одним и тем же для всех точек Л/, так что Р {M\\c/t} есть ступенчатая функция, для которой атомы поля <А являются множествами ее постоянства. $ Зак. 1491
114 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ вероятности множества М при заданном Л. Заметим, что любые два варианта равны почти всюду. Любой вариант случайной величины Р{М||ст£} обладает двумя основными свойствами: 1) эта функция интегрируема и измерима относительно Л 1) и 2) равенство \p{M\\A)dP = P{M{\A) (9.1) А справедливо для любого множества А из конечного поля <А. Легко показать, что любая случайная величина, обладающая этими двумя свойствами, является вариантом функции Р{М\\Ж). Общий случай Так как Л состоит из конечных объединений непересекающихся атомов Аи ..., Аг, то знание того, какой из атомов поля Л содержит со, равносильно знанию того, какое из 2Г множеств поля Л содержит со, а какое нет. Этот второй подход переносится на произвольное cr-подполе поля <^. Если i? — такое сг-подполе, то можно представить себе, что Тихе выбирает точку со и затем открывает экспериментатору, какие из множеств G поля & содержат со, а какие нет2). Определим функцию Р{М\\&}, значение P{M\\Sr}(d которой в точке со является тем, что, как мы интуитивно чувстзуем, должно быть для экспериментатора новой вероятностью события соеМ после получения сообщения Тихе. Для любого М из ъГ определим Р{М\\5?} как интегрируемую случайную величину, которая а) измерима относительно ст-подполя <£? и Ь) удовлетворяет функциональному уравнению J* Р{М\\&]dP = Р(МП G), Gel?. (9.2) о Если & конечно, то это определение сводится к предыдущему (см. 9.1). Условие (а) соответствует требованию, чтобы Р{М\\£?} можно было вычислить на основании только одного сооб- *) Для этого мы требуем, чтобы Р {М\\<Л} была постоянна даже на атомах меры 0. 2) Тихе предъявляет не со, а вектор с компонентами IQ (со), отмеченными индексами G из <^.
9. УСЛОВНЫЕ ВЕРОЯТНОСТИ 115 щения Тихе. Условие (Ь) допускает игровую интерпретацию. Предположим, что Тихе, передав экспериментатору свое сообщение, предоставляет ему возможность поставить на наступление события М (если М не лежит в <£?, он не знает, наступило это событие или нет). Она требует выплаты начальной ставки и берется выплачивать одну драхму, если событие М наступило, и ничего — в противном случае. Если условная вероятность события М 'для экспериментатора после сообщения Тихе равна Р{М||<£?}, то справедливый размер начальной ставки равен, Р{М\\Щ драхм. Если экспериментатор решит принять пари и внесет эту ставку, то он выиграет 1 — Р{М\\£?} в случае наступления М и — Р{М\\&} в противном случае, так что его выигрыш равен {\-Р{М\\Щ)1м + {-Р{М\\П1мс = 1м-Р{М\\$У (9.3) Если он отклоняет пари^ то его выигрыш автоматически равен 0. Предположим, что он придерживается стратегии принимать пари, если наступает событие G и отклонять его в противном случае. (G здесь есть некоторое множество из <£?.) Его ожидаемый выигрыш при этой стратегии равен интегралу от (9.3) по множеству G: J (1М -Р{М || Щ)йР. (9.4) G Но (9,2) является в точности требованием того, что (9.4) равно нулю для каждого G из !?. Если Р{М\\£?) удовлетворяет нашим эвристическим требованиям, то справедливая начальная ставка не приведет ни к выгодной, ни к невыгодной для экспериментатора стратегии. Нужно, разумеется, доказать существование случайных величин Р {М ||^}, удовлетворяющих условиям (а) и (Ь), что мы сделаем, применяя теорему Радона — Никодима. Определим вполне аддитивную функцию ф множества на а-поле £? равенством (p(G) = P(MnG), Ge=£?. Тогда ф есть конечная мера на J?, которая, очевидно, абсолютно непрерывна относительно меры Р, рассматриваемой на <£? (для Се^ из P(G) = 0 вытекает ф(6) = 0). Следовательно, в силу теоремы Радона — Никодима существует интегрируемая функция /, измеримая относительно <£? и 8*
116 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ удовлетворяющая условиюг) J/dP = v(G), Gg^. (9.5) G Возьмем в качестве f функцию Р{М\\&} и назовем ее условной вероятностью события М при заданном &\ тогда (9,5) принимает вид (9.2). Таким образом, функция, определяющая условную вероятность, существует. Может существовать и более одной такой случайной величины P{M\\ff]. Мы видели, что это может быть так даже для конечного £?. Тогда, как и раньше, говорят о некотором варианте условной вероятности. Любые два таких варианта f и g интегрируемы и измеримы относительно & и удовлетворяют соотношению J fdP = J gdP для всех G G G из <£?; отсюда следует, что /==g п. в. С точностью до этого обстоятельства условные вероятности определены единственным образом2). Пример 9.1. Предположим, что AfG^, что всегда имеет место, если, например,, & совпадает со всем ог-по- лем <&~. Тогда Р{М\\а?} = 1м п. в. Интуитивно, если Ме<£?, то знание того, какой элемент из & содержит со, означает, в частности, знание того, наступило или не наступило событие М. Пример 9.2. Если £? = 2 = {0,Q}, то Р {М || <^}ю = Р (М) для любой точки со. Из сообщения Тихе экспериментатор не узнает* ничего такого, чего бы он не знал раньше. Пример 9.3. Пусть Q — плоскость R2 и <ЗГ — класс бо- релевских множеств на этой плоскости. Любая точка со из U есть пара (л: (со), у (со)), х и у — координатные переменные. Пусть or-подполе & состоит из вертикальных полос, т. е. 1) Мы применяем здесь теорему Радона — Никодима не в исходном пространстве с мерой (Q, <^~, Р), а в пространстве (Q, &, Р). Это обеспечивает измеримость / относительно &. Хотя / dP есть тогда интеграл G от / в смысле (й, &, Р)у нетрудно показать, что он совпадает с интегралом в смысле (Q, еГ, Р). 2) Наше определение слегка отличается от данного Дубом [1]. Он допускает в качестве варианта любую функцию Р {М\\&}, измеримую относительно еГ, интегрируемую, удовлетворяющую функциональному уравнению (9.2) и равную п. в. некоторой функции, измеримой относительно &. Если & конечно, это равнозначно отказу от требования, чтобы Р [М\\Щ была постоянна на атомах, имеющих меру 0.
9. УСЛОВНЫЕ ВЕРОЯТНОСТИ 117 элементами поля & являются прямые произведения EXR1 = = {со: #(со)е£}, где Е — борелевское множество* на прямой. Если экспериментатор знает для каждой вертикальной полосы Е X Я}9 содержит она со или нет, то он знает это, в частности, для каждой полосы Шх/?1, где | — действительное число, и обратно. Таким образом, сообщение Тихе эффективно дает значение л; (со). Предположим теперь, что Р — вероятностная мера на £Г, имеющая плотность р(|, ч\) относительно плоской меры Лебега: м Покажем, что если М = {со: у (со) <= F}, где F — линейное борелевское множество, то вариантом функции Р{М\\&) является я)?(л:(со)), где J Р (Ь Ч) dr\ *(6)-Л ' (9'6) J Р (I, у) dx\ Так как \|э {х (со)) — измеримая функция от л: (со), она измерима относительно &. Элемент & имеет вид {со: х (со) е £}, поэтому нужно только показать, что J" ty(x(<i>))P{d(x>) = P{xz=Ey yz=F}. (9.7) Однако так как случайная величина х имеет распределение на прямой с плотностью р(|) = J p(|, Tj)dTj, то левая часть я1 равенства (9.7) равна /р(е*(Б)*&-П Jp(6, 4)d4\dl = Е Е KF J = J J p(l, r\)dldi\ = P{x<=E, yezF}, EXF где предпоследнее равенство следует из теоремы Фубини. Таким образом, \f> (л: (со)) есть вариант функции Р{М\\!$}. Правая часть равенства (9.6)* является классической формулой для условной вероятности события {//gF} при условии я = |. Наше обсуждение может рассматриваться как оправдание этой классической формулы или как
118 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ пример, оправдывающий наше математическое определение условной вероятности. Если х — случайная величина на вероятностном пространстве (й, <&*, P), то а-поле &, порожденное ею (наименьшее а-поле, относительно которого величина х измерима), состоит из множеств вида {со: х(со)^Е}, где Е пробегает различные линейные борелевские множества. Так как знание того, какие множества этого вида содержат со, а какие нет, равносильно знанию значения л: (со), назовем Р{М\\а?} условной вероятностью события М при заданном х и будем обозначать ее Р{М||л:}. Пример 9.3 представляет собой частный случай. Таким же образом определим условную вероятность Р{М||лгь х2, ...} события М при заданной конечной или бесконечной последовательности величин хи *2, ... как P{M\\S9), где & есть а-поле, порожденное этими величинами. Пример 9.4. Рассмотрим марковский сдвиг (пример 3.1). Мера Р определяется соотношением Р {*п = 1п, ...» Xn+l = W = PinPinin+l • • • Ptn+i-itn+Г (В этом примере существенно именно это соотношение, а не сам сдвиг.) По формуле условной вероятности относительно конечного поля имеем Р{*о = /||*-п, ..., *.i}(dbPx4((d)j п- М- (9.8) Но для того, чтобы доказать интуитивно очевидную формулу Р {х0 = i\\ ... *_2, х-г}ф = рх^ы), i п. в., (9.9) потребуется следующая теорема, простым следствием которой эта формула и является. Теорема 9.1. Пусть &0 — {конечно аддитивное) поле, порождающее а-поле £?. Интегрируемая функция f является вариантом функции Р{М\\а?}> если она измерима относительно & и J fdP = P{M{]0) (9.10) а для всех G из S?Q. Доказательство. Каждая часть равенства (9.10) как функция множества G является мерой на <£?. Так как функции совпадают на <^0> то они должны совпадать и на ff. 1) Случайные величины хп принимают не числовые значения; их значения лежат в конечном множестве р. Условные вероятности таких величин все еще определяются в терминах а-полей, которые они порождают.
9. УСЛОВНЫЕ ВЕРОЯТНОСТИ 119 Пример 9.5. Пусть Т — диадическое преобразование rco = 2(o(mod 1) на единичном интервале с мерой Лебега (й, <£Г, Р) (см. пример 1.6). В § 1 мы показали, что если М инвариантно и F лежит в поле а^0, состоящем из конечных объединений непересекающихся диадических интервалов, то М и F независимы, так что j P(M)dP = P(M (]F). Так F как <&\ порождает сУ, то из теоремы 9.1 следует Р{М\\&) = Р(М). Но (см. пример 9.1) Р {М||<У) = /Ж п. в. Поэтому Р(М) равна либо 0, либо 1, и мы получаем новое доказательство эргодичности преобразования Г. Следующий пример показывает, что интерпретация условной вероятности, использующая поведение Тихе, не проходит в некоторых патологических случаях. Пример 9.6. Пусть (Q, <£Г, Р) — единичный интервал Q с мерой Лебега Р на а-поле <?Г борелевских множеств и & есть а-подполе множеств, которые либо счетны, либо имеют счетные дополнения. Тогда функция, тождественно равная Р(М), является вариантом функции Р{М\\&}: P{M\\&}Q = P(M) п. в. (9.11) Но так как В содержит все одноточечные множества, то знание того, какие элементы из & содержат со, а какие нет, равносильно знанию самой точки со. Таким образом, после получения сообщения Тихе экспериментатор знает, наступило событие (ogM или нет, и мы должны иметь ( 1, если соеЛТ, Р{М\\&}ъ= л ,., (9.12) 1,1,(0 [ 0, если cd^M. v 7 Математическое определение приводит к (9.11), эвристическое—к (9.12). Разумеется, (9.11) правильно, а (9.12) — нет1). Несмотря на то что наша интерпретация в некоторых случаях непригодна, она дает удобный способ представления условных вероятностей и не может привести к трудностям, так как доказательства на нее не опираются. 1) В этом частном случае можно избежать трудностей, допуская варианты, почти всюду равные некоторой измеримой относительно 2? функции. Более сложные примеры (те самые, которые демонстрируют возможное несуществование условных вероятностных мер, см. конец этого параграфа) показывают, что это не всегда помогает.
120 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Свойства условных вероятностей Для любого варианта условной вероятности имеем J P{M\\^}dP = P{Mf]G)>0 при Ge0l Так как Р{М\\&} G измерима относительно <£?, то она почти всюду неотрицательна. Аналогичное рассуждение показывает, что она почти всюду не превосходит 1: (РО 0<Р{ЛЩ£?}<1 п. в. Если Р (М) = 1, то J* Р {М || Щ dP = P (G) для всякого G €= &; G следовательно, (Р2) Р {М || &} = 1 п. в., если Р (М) = 1 Аналогично (РЭ Р {М II #} = 0 п. в., если Р (М) = 0 Докажем, что (Рз) P{A«iUAf2||#} = = Р{Л*,||#} + Р{М2||#} п. в., если М,ПЛ12=0. Мы должны показать, что правая часть равенства (Р3) удовлетворяет двум требованиям, налагаемым на варианты функции Р{МХ 1Ш2||£?}. Ясно, что она измерима относительно <£?. Так как Мх и М2 не пересекаются, то для Ge^ ^{P{Ml\\&} + P{M2\\tf})dP = а = j P{Ml\\&}dP + \ P{M2\\&}dP = G G = P(M1nG) + P(M2nG) = = P((M1UM2)flG), так что функциональное равенство выполнено. Аналогичными рассуждениями можно доказать, что (Рз) Р{М1-М2\\&} = Р{М1Ц&}-Р{М2\\&} п.в., если М2<^М{; (РзО Р.{мс\\&} = 1-Р{М\\&}п.в.\ (РП |P{Af1||^}-P{Af2||^}|<P{Al1 + A*2||^}n. в.1) 1) Как обычно, 4- означает симметрическую разность,
9. УСЛОВНЫЕ ВЕРОЯТНОСТИ 121 Предположим теперь, что {Мп}~ невозрастающая последовательность множеств с пересечением М> это обозначается Мп | М. В силу (Рз) и (РО последовательность Р{Мп\\ <^}tt п. в. не возрастает и, следовательно, имеет предел /(со) п. в. Функция / измерима относительно <£?; в силу (Р{) и сходимости ограниченной монотонной последовательности f fdP= Hm f P{Mn\\&}dP = lim P (Mn[\ G) = P {M f) G) £ П->оо i tl->oo для любого Се^, Поэтому / есть вариант функции Р {М\\Щ\ (Р4) PWA&WPWW п. в., если Мп\М. Аналогично (РО P{MJ|#)t Р{М\\&] п. в., если МЛ М. Наконец, в силу (Рз) и (рО имеем (Р5) P]UMn№\ = %P{Mn\\9} п. в., если Мт()Мп=* 0 (тфп). Пример 9.7. Из соотношений (9.8) и (9.9) для цепей Маркова следует, что Р {*0 = i II - • • t *-2i *-1> в ^ {*0 =* * ll*-l} П. В. Аналогичное рассуждение показывает, что если М — цилиндр, зависящий от координат с неотрицательными индексами, то Р{М||..., *_2, х^} = Р{М\\х^} п. в. (9.13) Используем только что доказанное свойство, чтобы показать, что равенство (9.13) справедливо, если М — произвольное множество из а-поля, порожденного лс0, хь .... Для любого такого М и любого положительного е существует цилиндр Ме, содержащий лишь координаты с неотрицательными индексами и такой, что Р (М + Ме)<&. В силу (Рз") имеем Д = | Р {М || х_г)-Р{Мв\1х-1}\<{М + АМ*.,} п. в. Так как ^ Р {М +MJx^}dP ^ Р (М +Мг)<г, то Q Р{Д>Я}<^<|. Аналогично | Р {М \\..., х_2, *-J — Р {Ме ||..., #_2, *-i) | превосходит Я с вероятностью, не большей еД. Поэтому левая
122 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ и правая части равенства (9.13) отличаются друг от друга более чем на 2А с вероятностью, не превосходящей 2е/А. Полагая е->0, а затем А->0, получаем (9.13). Функции и меры В этом параграфе принята „глобальная" точка зрения. Мы связываем с каждым фиксированным М из 4F некоторую функцию (точнее, класс функций) Р{М\\&}9 определенную на всем пространстве Q. Что будет, если мы изменим точку зрения, фиксируя со и предполагая, что Мпробегаете? Получим ли мы вероятностную меру на 4fi Если это так, то, разумеется, только что доказанные результаты (РД ..., (Р5) сводятся к стандартным фактам, относящимся к мерам. Пусть i?■-конечное поле с атомами Gb ..., Gr. Если P(Gi) = 0 и P{Gi)>0 для остальных /, то вариантом функции Р{М\\&} будет —в in \ 9 если coeG/, * = 2, ..., г, Р{М\\&}„ = \- р^ I 0, если со е G\. При таком выборе варианта условной вероятности Р {М\\ЯУ}р как функция от М является вероятностной мерой на <*?, если со е G2U ... U Gry и не является мерой, если (dgGj, Мы выбрали „неправильный" вариант. Если взять, скажем, вариант ' P{M(\Gj) р{м\\т« p^G) , если ©е^, / = 2, ..., г, Р(М)9 если (dgGi, то Р{М\\&}& есть вероятностная мера по М для каждого со. Ясно, что такие варианты существуют, если & конечно. Можно было бы подумать, что для любого а-поля & варианты различных Р{М\\&} могут быть выбраны так, что Р {М\\&}ъ являются вероятностными мерами по М для каждого 1) со из Q. Можно показать на примере, что это не так (см. Дуб [1]). Предположим, что точка со0 обладает тем свойством, что Р (G) > 0 для любого G из <£?, содержащего со0. Это верно, например, если одноточечное множество {со0} принадлежит 47" и имеет положительную меру. Фиксируем любые варианты функции Р{М\\£?} для всех М из 47". Для любого М мно- 1) Если это можно сделать для почти всех со, то ясно, что это можно сделать и для всех со.
10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 123 жество {со: Р {М \\ 3)^ < 0} лежит в & и в силу (Pj) имеет меру 0, а следовательно, не может содержать со0. Таким образом, Р {М || 8} > 0. Аналогично Р {Q || S?}^ = 1, и если Мп не пересекаются, то Р ((J Мп II &) = 2 Р {Мп || #}«,. Следова- тельно, Р{М\\&] есть вероятностная мера, если М пробегает qF\ Таким образом, условные вероятности ведут себя должным образом в точках, имеющих положительную вероятность. То, что они могут плохо вести себя в точках вероятности 0, не вызывает затруднений, поскольку отдельные такие точки не влияют на вероятности множеств. Разумеется, множество точек, каждая из которых имеет меру 0, оказывает влияние, но здесь мы возвращаемся к глобальной точке зрения, из которой мы исходили *). Замечание. Колмогоровым [1] было введено впервые общее! понятие условных вероятностей. Приведенное изложение следует во всем Дубу [1]. 10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Определение Пусть х — интегрируемая случайная величина на (Q, <^~, Р) и <£? есть сг-подполе поля of'. Определим функцию ф множества на 8 равенством v(G)=jxdP9 Ge^. G Тогда ф — конечнозначная (даже ограниченная), вполне аддитивная функция. Более того, она абсолютно непрерывна относительно Р (рассматриваемой на а?). В силу теоремы Радона — Никодима существует функция £{д:||<£?}, интегрируемая, измеримая относительно 8 и удовлетворяющая равенству ф (G)= j E{x\\&)dP для всех Gg^. Обозначим G через Е{х\\а?}а значение функции £{#||<£?} в точке со. 1) Желание сохранить локальную точку зрения, наложив на пространство с мерой подходящие ограничения, приводит к понятиям пространства Лебега и измеримого разбиения; см. Рохлин [7]. Для эргодической теории эти понятия очень полезны. — Прим. ред.
124 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Будем называть эту функцию условным математическим ожиданием (или ожидаемом значением) величины х относительно £?. Она определяется требованиями, чтобы а).Е{х\\&) была интегрируемой и измеримой относительно <^иЬ) £{л;||а?} удовлетворяла функциональному уравнению \ E{x\\&}dP=\ xdP, , Gg^, (10.1) о о Вообще говоря, существует много таких.функций; их называют вариантами условного математического ожидания. Любые два варианта совпадают почти всюду. Если <£? = 2, то функция, тождественно равная Е{х}, является вариантом функции Е{х\\с?}. Если £? = о^ то х само есть вариант функции Е{х\\а?}. Для любого & функция, тождественно равная Е{х}> удовлетворяет приведенному выше7 условию (а) (которое становится более ограничительным с уменьшением <£?), а само х удовлетворяет условию (Ь) (которое становится более ограничительным с расширением £?). Эти два условия работают в противоположных направлениях, и между ними находится класс вариантов функции Е{х\\&]. Мы интерпретируем Е{х\\&}& как новое ожидаемое значение случайной величины х для экспериментатора, когда Тихе сообщает ему, какие из множеств в.^ содержат выбранную ею точку со, а какие нет. Условия (а) и (Ь) соответствуют аналогичным в определении условной вероятности. Согласно первому, экспериментатор может вычислить значение Е{х \\&] после получения сообщения Тихе. Если после этого сообщения она предлагает ему выплачивать х драхм в ответ на некоторую предварительную ставку, то справедливая начальная ставка равна Е{х\\а?} драхм при выполнении интуитивных требований, связанных с условным математическим ожиданием. Если стратегия экспериментатора заключается в том, что он принимает пари в случае наступления G и отвергает его в противном случае (здесь G^<^), то математическое ожидание его выигрыша равно J (x — E{x\\a?})dP. Соотношение (10.1) требует, чтобы такая о стратегия не давала преимуществ ни экспериментатору, ни богине. Если <£? —конечное поле, то Е{х\\&}а должно равняться J xdPfP(Gi) для со из атома Gh имеющего положительную о вероятность, в то время как Е{х\\£?} может принимать
10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 125 любое постоянное значение на атоме с нулевой вероятностью. Это связывает наше общее определение с классическим понятием условного математического ожидания при заданном множестве G: E{x\G}—p^[xdP (P{G)>0). G Заметим, что для множества Mg^ определяющие свойства функции Е{1М\\&} и Р{М\\!&} совпадают. Таким образом, E{IM\\Z?} = PW\\m п. в., что обобщает соотношение Е{1М} = Р(М). Пример 10.1. Если х = 2^аь — простая функция, то Я {* || #} = 2 a*P{4i || #} п. в. i Пример 10.2. Исследуем предельную функцию f в эрго- дической теореме. Если / интегрируема, то в соответствии с этой теоремой Hm|yf(rM = f(o)) п. в. (10.2) Для каждого множества А произведение IAf имеет свою „функцию с крышечкой" (/лЛ~> к которой оно сходится в среднем: п—1 lim ±%IA(Tk<*)f(Tk<*) = (IAfr(<*) п. в. (10.3) п + ~ tZ Если А инвариантно, так что IA(Tk(x>) = 1Л(со) п. в., то из (10.2) и (10.3) следует IA(a>)f (<о) = (lj)~ (о) п. в. Так как (Ijy и Ijd имеют одинаковые математические ожидания, то jlJdP-jdjjn-dP-jIjfdP или jfdP=jfdP. (10.4) А А Очевидно, что класс 0 множеств, инвариантных относительно Г, образует ст-подполе поля $F и функция f, будучи инвариантной, измерима относительно 9\ Так как (10.4)
126 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ выполнено для всех 4е^, то f есть вариант функций E{f\\3). Пример 10.3. Легко показать с помощью замены переменной, что если у{(й) = х(Т(й), то Е{у\\Г19}„ = Е{х№Тт п. в. (10.5) В частности, Р{Г1М\\Г1&}ф = Р{М№т* п. в. (10.6) Основные свойства Большинство примеров и результатов предыдущего параграфа переносятся непосредственно. Например, теорема 9.1 имеет очевидный аналог. Кроме того, те же методы, которые были использованы для доказательства (Pi), (P2) и (Р3), достаточны для установления следующих трех результатов. Мы всюду предполагаем, что величины х, у и т. д. интегрируемы. (Ei) Если х = а п. в. (а — постоянная), то Е{х \\а?} = а п. в. (Е2) Если *<# п. в., то Е{х\\&}^Е{у\\&} п. в. (Е3) Если а и Ь — постоянные, то Е{ах +Ьу\\£?} = аЕ{х\\£?}+ + ЬЕ{у\\&) п. в. Из этих утверждений вытекает очевидное следствие, что если х = у п. в., то Е{х\\&} = Е{у\\&} п. в. Так как — | л: |^л;<| л; |, то в силу (Е2) и (Е3) -E{\x\\\»}<iE{x\\ff}<tE{\x\\\&} п. в. и, следовательно, (Е4) |£{д:||^}|<£{|л:|||^} п. в. Нам понадобится следующее обобщение теоремы Лебега о переходе к пределу под знаком интеграла: (Е5) Если limx„ = A; п. в. и |*л|^# п. в., где у интегрируема, то lim Е {хп \\ &} = Е {х \\ 0?) п. в. Для п доказательства рассмотрим zn = sup\xk — х\. Имеем zn \ 0 п. в. и \E{xn\\&)-E{x\\9}\<lE{z*\\9) п. в. в силу (Е3) и (Е4). Достаточно поэтому показать, что £ {zn || <£?}|0 п. в. В силу (Е2) последовательность E{zn\\c?} п. в. не возрастает и, следовательно, имеет п. в. предел g. Нужно доказать, что
10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 127 g = 0 п. в. или, поскольку g неотрицательна, что Е {g} = 0. Но в силу теоремы о переходе к пределу под знаком интеграла, примененной к величинам zn (j гп | ^ 2у), E{g}<JE{zn\\&}dP-jzndP->0. Если х измерима относительно «?, то, разумеется, Е {х\\а?}=х п. в. Постоянно приходится пользоваться следующим обобщением. Теорема ЮЛ. Если х измерима относительно & и если у и ху интегрируемы, то Е{ху\\&} = хЕ{у\\&) п. в. (10.7) Доказательство. Предположим сначала, что x = Ig0, где G0e£?. Нужно показать, что lGuE{y\\$?} есть вариант функции £ {/g0# II с?}- Так как lG0E{y\\c?}> очевидно, измерима относительно I?, то нужно только проверить функциональное равенство J IGoE {у || $}dP=\ IGoy dP, G<=&. G Q Но это сводится к равенству J E{y№dP= j ydP, G[\G0 G(]G0 которое выполняется в силу определения Е{у\\£?}. Таким образом, (10.7) выполнено, если л: —характеристическая функция множества из &. Далее, для любой функции х, измеримой относительно £?, существуют ступенчатые функции хП9 измеримые относительно £? и такие, что |*я1^|*| и \\тхп = х. Так как \хпу\^*\ху\ и функция \ху\ интегри- п руема, то из (Е5) вытекает ИтЕ{хпу\\а?} = Е{ху\\с?} п. в. v п Но Е{хпу\\£?} = хпЕ{у ||£?} в силу уже доказанного и, разумеется, lim хпЕ {у \\&}=хЕ {у ||£Р}. Поэтому Е {ху \\&} = хЕ{у\\ Щ. п Заметим, что мы не предполагали функцию х интегрируемой. Повторные условные математические ожидания Взятие условного математического ожидания можно рассматривать как операцию осреднения, или сглаживающую операцию. Переходя от л; к Е{х\\&}9 мы делаем х „более
128 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ близкой к константе". Это можно видеть графически на единичном интервале с мерой Лебега, если ^ конечно и имеет своими атомами подинтервалы. Естественно ожидать поэтому, что осреднение х относительно а-поля &2> а затем осреднение результата относительно более „грубого" (меньшего) а-поля £?i должно привести к тому же результату, что и приведенное сразу" осреднение относительно &х. Теорема 10.2. Если х интегрируема и а-поля £?х и £?2 удовлетворяют соотношению &\ d <£?2, то Е{Е{х\\&2}\\&\} = Е{*\\&\} п. в. (10.8) Доказательство. Докажем, что Е{Е{х||<£?2}II&\) есть вариант функции Е {х || о^}. Разумеется, Е {Е {х || £?2} II °?i) измерима относительно &\. Если G е <^ь то \е{Е{х || #2} || #,} dP = \ Е {х || <£?2} dP; G Q но так как G лежит также и в <£?2» правая часть этого равенства равна J xdP. Таким образом, Е {Е {х\\а^2}\\^\} G удовлетворяет функциональному уравнению для вариантов функции Е{х\\&х). Мы получим второе доказательство равенства (10.8), установив, что Е\х\\о?\} есть вариант функции Е{Е{х\\^^\\^\}. Так как Е{х\\&\} измерима относительно &и то нужно только проверить функциональное равенство J Е {х W&JdP = \ Е {х \\&2) dP, G е= &х: G G Но если Ge^i, то Ge^2 и обе части равенства совпадают с J xdP. G Если <^2 = оГ, то Е{х\\£?2} = х п. в., так что* (10.8) тривиально. Если <£?i = 2, то (10.8) принимает вид Е {Е {л;||<£?2}} = = Е{х} — частный случай формулы (10.1). Если ^|С^2, то случайная величина Е {*||a?i}, будучи измеримой относительно &и измерима и относительно £?2'> она не изменяется при взятии ее математического ожидания относительно <£?2: £{£{jc!|^1}||^2} = £{jc||^1} п. в. Но это дополнение к (10.8) бесполезно.
10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 129 Неравенство Йенсена Для обычных интегралов и математических ожиданий неравенство Йенсена состоит в том, что если функция ф вещественна и выпукла *), то Ф(£{х})<£{ф(х)} (10.9) в предположении, что математическое ожидание существует. Обобщение на случай условных математических ожиданий таково: если х и ф(х) интегрируемы, то ф(£{*||#})<£{ср(*)||#} п. в. (10.10) Если а? = 2, то (10.10) сводится к (10.9); если cp(0 = UI» °н° сводится к (Е4). Мы докажем (10.10) только для одного случая, который нам нужен, а именно когда х принимает значения из конечного отрезка [а, й], а ф определена на этом отрезке. В этом случае ф непрерывна и ограничена. Если Аи ..., Аг есть сзГ-разбиение пространства Q, то 2 Р {А, || &}& = 1 для почти всех со. Для любого такого со и любых чисел схь ..., аг из [а, Ь] имеем Ф (S а,Р {At || По) < 2 Ф КО Р {Л, || Лео в силу основного свойства выпуклых функций. Поэтому (10.10) выполняется для простых случайных величин. Но любая случайная величина х со значениями из [а, Ь] является пределом простых случайных величин хп со значениями из [а, Ь]. Так как последовательности {хп} и {у{хп)} равномерно ограничены, то (10.10) вытекает из (Е5). Одна специальная формула В дальнейшем нам понадобится тот факт, что если Л — конечное поле с атомами Аи •.., Аг> то Для почти всех со, для которых знаменатель в правой части обращается в нуль, числитель также обращается в нуль, и мы принимаем отношение равным 0. Если <£? = 2, то (10.11) 1) Изящное изложение вопросов выпуклости можно найти в гл. 1 книги Зигмунда [1]. 9 Зак. 149]
130 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ обращается в исходную формулу для условных вероятностей относительного конечного поля Л. Покажем, что сумма в правой части равенства (10.11) является вариантом функции Р{М\\Л V «^}. Так как эта сумма измерима относительно Л V &* нужно только проверить выполнение функционального равенства. Но Л V $ состоит из конечных объединений непересекающихся множеств вида Aj[\G, где G е <£?, следовательно, достаточно проверить, что J £/л^Р = р(МПЛуЛО), (10.12) AjOG i где gi = Р {М П At \\&}/P {А{ ||<£Р}. Так как А{ не пересекаются и gj измеримы относительно <£?, то левая часть равенства (10Л2) равна AjOG j lA;gjdP=j IAjgjdP=j Е [IAjgj\\»]dP- G G ~ j gjP{Aj\\9}dP- j P{M(\Aj\\9}dP-P(M()Aj()Q). Пример 10.4. Пусть Л —такое множество, для которого Р(Л)>0. Определим меру Р{ соотношением Р1(В)-Р(В|Л), Ве^г. (10.13) Докажем одну формулу, связанную с (10.11): Px№W-£№$JP-n.*.Pl (10.14) (равенство имеет место с точностью до множества Ррмеры 0), Заметим, что в силу абсолютной непрерывности Рх относительно Р обе части равенства (10.14) определены с точностью до множеств Ррмеры 0. Правая часть равенства (10.14) измерима относительно &\ нужно показать, что она удовлетворяет равенству Р{М[\А\\&} G 1Ти^^"*(МПв), Ое* которое эквивалентно J* P{pM{^lpdP = P(M(\Ar\G), G^. 1 {А II»)
10. УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ 131 Но если G е £?, то левая часть этого соотношения равна J 1л Р{А\\&] аи~] hY* Р{А\\&) Р|«^- G G G G что доказывает (10.14). Если А оказывается лежащим в с?, то (10.14) принимает вид Р^М ||^} = Р{МЦ^} п. в. Рл. (10.15) Пример 10.5. Если Г —неэргодический сдвиг, то он не имеет своим респектом некоторый цилиндр С. Так как предельная функция Нт^У/с(Гй(о) = /с(«>) (Ю.16) не является тогда константой почти всюду, то существует такое а, что инвариантное множество Л0 = {со : /с (со) < а) удовлетворяет условию 0<Р(Л0)<1. Так как С— цилиндр, то Л0 лежит в сг-поле, цорожденном хь, хп+ь ... для любого я, что следует из (10.16). Обращая временную шкалу (рассматривая Г-1), мы видим, что существует также нетривиальное инвариантное множество А, которое для любого п принадлежит а-полю, порожденному ..., хп_и хп. Определим Рх равенством (10.13); в силу (10.15) имеем РХ {М || ... , *я_ь Хп} = Р {М || . . . , X„_b Хп} П. В. Р, для каждого /г = 0, ±1, ... и для каждого М из <э?~. В частности, Р\{хп+1 = Ц\ •••> **-ь *J = Р{^+i = *II ...» W, *„} п. в. Pj. (10.17) Поэтому если Т неэргодично относительно Р, то существует вероятностная мера Рх на <?f, которая отлична от Ру абсолютно непрерывна относительно нее и имеет ту же структуру, что и Р [в смысле (10.17)]. Предположим теперь, что Т — неэргодический марковский сдвиг относительно Р с матрицей вероятностей перехода П и стационарным распределением р. Из (10.17) следует, что Г относительно Pi также является марковским сдвигом с матрицей вероятностей перехода П. Если Р{ отлична от Р, то сдвиг должен иметь другое стационарное распределение, 9*
132 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Таким образом, Т эргодично, если существует только одно стационарное распределение для П; это уже было получено в § 3 другим способом. Замечание. Дальнейшие сведения относительно условных математических ожиданий см. Дуб [1]. И. ТЕОРЕМА СХОДИМОСТИ Можно задать вопрос, будет ли функция Е{х\\&] при изменении <£? непрерывна в каком-нибудь смысле. Пусть оо ^i с ^2 с ... и & = V &п (мы будем обозначать это записью а?п f <£?). В этом параграфе мы покажем, что тогда lim E{x\\ffn} = E{x\\&] п. в. Теорема Докажем сначала результат, который служит той же цели, что и максимальная эргодическая теорема. Теорема 11.1. Предположим, что функция х интегрируема и <^! с ^2 с ,,, . Тогда для всех положительных h Pjsup£{U|[|^}>^}<-J£{U|}. (11.1) Доказательство. Достаточно показать, что для каждого п справедливо неравенство PI max E{\x\\\2?k}>X\<±-E{\x\}. (П.2) iKK/i I л Для п = 1 это— неравенство чебышевского типа, так как £{1*1 \\&\} есть случайная величина с математическим ожиданием Е {\х |}. Чтобы перейти к общему случаю, рассмотрим множество Mk (k ^ п) точек со, для которых Е {\ х | || &j) ^ X при I < k и Е{ \х |||<£?/J> Я. Тогда Мь ..., Мп — непересекающиеся множества, объединение которых М есть множество, фигурирующее в (11.2). Если /<&, то функция £{| *|||<£?/}, будучи измеримой относительно <£?;, измерима также относительно £?k (здесь мы используем предположение <£?2 с:'<^2 cz ...). Так как Mk определено в терминах Е{ ,x|||<£^h где /<£, то оно
И. ТЕОРЕМА СХОДИМОСТИ 133 лежит в <£?£. Следовательно, п п ЛР(М) = 2 J4dP<J] j E{\x\\\,9k}dP = = s Jl*ldp<£{l*l>. k = l Mk Теорема доказана 1). В силу непрерывности по X можно заменить знак > в (11.1) знаком >. Можно также заменить £{| х |||<g?J на \Е{х \\&п) | или на Е{х \\&п}, поскольку Е{х ||#я}<| Е {х \\&п) К <E{)xM\&J. Теорема 11.2. Если ^п \ &% то для любой интегрируемой функции х lim Е {х || &п) - Е {х || &} п. в. (11.3) ^ для любого М ^<&~ lim Р{М||^} = Р{М||^} п. в. (11.4) Доказательство. Равенство (11.4) является, конечно,- частным случаем равенства (11.3). Далее, если (11.3) выполнено для любой интегрируемой и измеримой относительно <£? функции ху то, даже когда она неизмерима относительно <£?, это равенство имеет место, если заменить х на Е {х \\&}: lim E{E{x\\ff}\\ffJ = E{E{x\\&}\\&} п. в. (11.5) Но (11.5) сводится к (11.3) по теореме 10.2. Следовательно, можно считать х измеримой относительно <£?, и тогда (11.3) принимает вид 2) lim Е{х\\ё?п} = х п. в. (11.6) Если х измерима относительно какого-нибудь <£?ъ то Е{х\\а?п} = х п. в. для n^k, и мы непосредственно получаем (11.6). Мы докажем (11.6) для произвольной х, 1) Неравенство (11.1) и похожее на него неравенство Колмогорова для сумм независимых случайных величин являются частными случаями мартингального неравенства. См. Дуб [1]. 2) В дальнейшем нам понадобится только (11.4). Однако только что предпринятый шаг приводит нас от (11.4) к (11.6) при х> измеримой относительно & и, в этом случае, ограниченной. Другими словами, используя применяемую технику, доказать (11.4) не легче, чем (11.3).
134 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ измеримой относительно <£?, аппроксимируя ее такими случайными величинами. Для заданного е выберем такую случайную величину хе, измеримую относительно некоторого a?ky что *) Е{\х-хв\}<е. Имеем \E{x\\S?J-E{x\\tfn}\^ <\Е{хл\\&я}-Е{хвМ\ + 2*ирЕ{\х-хв\\\91}. (11.7) Так как Е{хе\\£?п}->хе п. в., то первое слагаемое в правой части неравенства (11.7) стремится к нулю при т, п->оо. Следовательно, в силу теоремы 11.1 Р[ Ш \E{x\\&J-E{x\\ffJ\>M^2-E{\x-xe\}<%-. Полагая е->0, видим, что вероятность в левой части неравенства равна 0. Таким образом,^ последовательность Е{х\\а?п} почти всюду фундаментальна 2). Следовательно, предел y — limE{x\\&n} существует почти п всюду. Нам нужно идентифицировать у с х. Предполагая, что у интегрируема и интегрирование можно производить под знаком предела, получаем (ydP^lim \E{x\\&JdP. (11.8) А А Если Ле^й> то j E{x\\tfn}dP= j xdP для всех n*^k, А А J ydP^ j xdP. так что Но если это равенство имеет место для всех А из (J^, к то оно им§ет место и для всех А из <£?, так что в силу измеримости х и у относительно $ имеем у = х п. в. *) Это возможно, поскольку х может быть аппроксимирована (в среднем) ступенчатой функцией, измеримой относительно &, и каждое множество, связанное с этой ступенчатой функцией, может быть аппроксимировано множеством из поля М &п. п 2) Это рассуждение соответствует первому доказательству эргоди- ческой теоремы в § 2.
11. ТЕОРЕМА СХОДИМОСТИ 135 Следовательно, нужно доказать только интегрируемость у и оправдать (11.8)*). Так как в силу леммы Фату \\y\dP<,\im \\E{x№A\dP<\}m \Е{\х\ШйР<>Е{\х\}, /1-Х» П-> оо то у интегрируема. Чтобы установить (11.8), достаточно доказать, что Um..\\E{x\M-y\dP = 0. (11.9) Если хп = Е {х\\£?п}, то j\xn-y\dP^ J" \xn-y\dP + {\хп\<Ц + J E{\x\\\#n}dP+ j \y\dP. {\xn\>4 {\*n\>K) Так как множество {|*J>X} лежит в <£?д, то второе слагаемое в правой части последнего соотношения равно J \x\dP; полагая Nk= | sup| хп\>к}, получаем {|*я|>4 j\Xn~y\dP<, f \xn-y\dP + f(\xl+\y\)dP. {|*«|<Ч NK Для фиксированного -К первое слагаемое в правой части при л->оо стремится к 0 в силу теоремы о переходе к пределу под знаком интеграла. Так как Р(Л^)->0 при Л->оо в силу теоремы 11.1, то получаем (11.9)2). Примеры оо Пример 11.1. Если Ле V <ЛЮ где Жп — конечные поля, д=1 для которых iici2c..,, то рПтР{А\Ш = 1А (11.10) П-> оо *) Для ограниченной х это очевидно, поэтому (11.4) уже установлено. Следующее далее, рассуждение соответствует второму из наших доказательств эргодической теоремы. 2) Здесь можно обойтись без ссылки на теорему 11.1, если, не вводя множество N^ заметить, что (\х\ + \ y\)dP -> Q равномерно J А,->оо (\*п\>4 по п\ — Прим. ред.
136 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ (сходимость по вероятности). Этот сильно ослабленный вариант равенства (11.4) можно доказать непосредственно с помощью энтропии. Если (Л — конечное % поле с атомами А и А\ то, как показывает теорема 7.1, Н(Л\<Ап)->0. Но H(JL\JLr!) есть математическое ожидание величины г\(Р{А\Ш) + ц(Р{АсЫп}), которая сходится, таким образом, по вероятности к нулю. Так как функция r\(t) равна нулю только в точках 0 и 1, то P{e<P{4M,J<l-e}->0. Но Р (А П {Р {А \\Лп) <г}) = J Р{А || Лп} dP < е. {Р {Л || <*„}<£} Из этих двух соотношений вытекает, что Р(ЛП{Р{Л|М„}<1-8})<28 для больших п. Аналогично P(#n{PM<M„}<l-8})<28 длл больших п. Теперь легко получаем соотношение (11.10). Пример 11.2. Пусть Р — мера Лебега на классе^ борелевских множеств в Q = [0, 1) и ^„ — конечные поля, имеющие атомами диадические интервалы [(&— 1)/2", k/2n) ранга п. Тогда ^п\^, так что, если л: (со) измерима по Борелю и интегрируема по Лебегу, то Е{х\\&п}-+ х п. в. Вариантом величины £{л:||<^п}0) является / J x (со') dcoM \Tn, \иа (со) // где ип (со) — диадический интервал ранга п, содержащий со. Таким образом, — J х (со') d©' -> х (со) ил(0) для почти всех со. По существу это основная теорема исчисления. Пример 11.3. Пусть {хп} — координатные величины, соответствующие сдвигу с пространством состояний р. Если о?п есть а-поле, порожденное величинами Х-п, ..., jc_i, и <£? — поле, порожденное ..., #_2, х„и то &п\а$г, так что в силу теоремы 11.2 lim P {xQ = i\\x-nt ..., Х-{} = Р (а:0 - *||..., *_2, х^} п. в.
11. ТЕОРЕМА СХОДИМОСТИ 137 Если {хп} — марковская цепь, то это равенство очевидно в силу (9.8) и (9.9). Пример 11.4. Теорема 11.2 вновь приводит нас к критерию эргодичности для марковского сдвига. Покажем сначала, что если множество А инвариантно, то Р(Л + М) = 0 для некоторого М, лежащего во всех сг-полях £Гт где &'п порождено хп> хп+ь .... В самом деле, А может быть аппроксимировано (в смысле малости симметрической разности) цилиндром Е. Но ГтЕ аппроксимирует Т'тА = А и ГтЕ принадлежит STn, если т достаточно велико. Таким образом, А может быть аппроксимировано элементами из &'п. Отсюда легко следует, что Р(А + Вп)==0 для некоторого Вп из <>Гп. Возьмем М равным, скажем, МтВп. п Так как М лежит в <2?Vn, то из очевидного обобщения равенства (9.13) вытекает, что P{M\\...t хп-и хп} = Р{М\\хп} п. в. Так как Р(Л + Л1) = 0, то А и М имеют равные почти всюду условные вероятности и, следовательно, Р{А\\..:\ хп-и хп} = Р{А\\хп} п. в. Так как cr-поля $?п, порожденные последовательностями ..., хп-Ь хп> удовлетворяют соотношению &п\Зг, гДе ^~ полное сг-поле, порожденное всеми координатными величинами, то теорема 11.2 дает теперь lim P{A\\xn} = IA п. в. П->оо Таким образом, ИтР{|Р{Л||*я}-/л|>вН0. (11.11) В силу (10.6) и того, что А инвариантно, имеем Я{Л||хя+1}а) = Р{Л||хя}Гса. И, опять-таки в силу инвариантности Л, имеем /л(со) = = /л(Гсо). Следовательно, если Нп есть множество, вероятность которого фигурирует в (11.11), то Г~Я« = Ягг+1. Так как Т сохраняет Р, то эта вероятность равна 0 для всех п. Таким образом, Р{Л||л;0} = /л п. в. Следовательно, существует такой цилиндр В, зависящий только от координаты х0, что Р{А + В) = 0. Таким образом,
138 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Т эргодично тогда и только тогда, когда не существует такого цилиндра В, что Р(В + Г1В) = 0 и 0<Р(5)<1. Это сразу приводит к критерию эргодичности из § 3: Г эргодично тогда и только тогда, когда матрица вероятностей перехода П неприводима (в предположении, что все^ стационарные вероятности pt положительны). Этот вывод обладает тем преимуществом, что,он проходит даже в случае, когда пространство состояний р не дискретно (см. Дуб [1]). Убывающие <т-поля* ЕСЛИ a^i'CZ <£?2 С . . . И Хп=*Е{х\\а?п), ТО Е{хп+1\\хЬ ...» */J = *rt П. В. Любая последовательность интегрируемых случайных величин, удовлетворяющих этому соотношению, называется мартингалом. Дубу принадлежит известнай теорема о сходимости мартингалов почти всюду, которая содержит теорему 11.2 в качестве частного случая. оо Предположим теперь, что ^ id <^2 =э ... и <£? = Р| &п (обозначаем это записью &n\S9). Следующий результат также вытекает из теоремы Дуба. Если а?п^а?, ТО lim Е{х\\&п}-Е{х\\&} п. в. (11.12) для любой интегрируемой функции х и lim P{M\\&n} = P{M\\m п. в. (11ЛЗ) Мы не будем доказывать этот результат, но .проиллюстрируем его, используя для доказательства перемешивающего свойства любого колмогоровского сдвига. Напомним (см. § 8), что Т является сдвигом Колмого- оо рова, если каждое множество из а-поля аГ'„ = Р| &Гп (где <§Г п порождено координатными величинами хп, хп+ь ...) имеет меру либо 0, либо I. Для того чтобы доказать, что преобразование Т перемешивающее, достаточно в силу теоремы 1.2 показать, что lim Р {А П ГпВ) = Р (А)Р(В), (IIЛ4) П->оо
И. ТЕОРЕМА СХОДИМОСТИ 139 если только В — цилиндр. Не ограничивая общности, будем предполагать, что В зависит только от неотрицательных координат, а в этом случае Т~пВ е <&~Л для ;всех я. Так как ^п\^^ то в силу (11.13) UmP{A\\<rn} = P{A\\<rj п. в. П->оо Так как любое множество из 4F „> имеет меру либо О, либо 1, то P{A\\Srcx} = P{A) п. в., так что ^ = Р{А\\<&~п}-Р(А)-+0 п. в. Но, так как ГпВ^^ю то \Р{А[\ГПВ)-Р{А)Р{В)\ = \ KdP <£{|AJ}. Так как |ДП|<2, то £{|Д„|}-*0, что доказывает (11.14). В конце § 4, посвященного непрерывным дробям, было показано, что если а?п есть а-поле, порожденное ап(со), оо ап+{ (со), ..., то &„> = Г\°?п содержит лишь множества меры п=»1 О или 1. Только что приведенное рассуждение доказывает также, очевидно, и то, что преобразование, рассматриваемое в § 4, является перемешивающим. Доказательство того, что ^^ тривиально, содержащееся в § 4, опирается только на соотношение (4.15). Это легко приводит к следующему критерию. Предположим, что Г — сдвиг, обладающий тем свойством, что существует такая положительная константа С, что -~-Р(В)<Р(В|Л)^СР(В) (11.15) для цилиндров Я — / — • — ' \ (11.10) где m^.n<u^.v. Тогда преобразование Т является сдвигом Колмогорова и, следовательно, обладает свойством перемешивания1). *) Тривиальность 0-поля е^ вытекает уже из одного левого неравенства (11.15). Если же выполнено только правое неравенство, то найдется такое конечное поле <А, что любое множество из Р^ отличается от некоторого множества из <Л на множество меры 0. Так обстоит, например, дело в случае марковского сдвига. — Прим, ред.
140 ГЛ. 3. УСЛОВНЫЕ ВЕРОЯТНОСТИ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Если Г —сдвиг Маркова, соответствующий матрице вероятностей перехода П с положительными элементами, то (11.15), разумеется, выполнено. Если матрица П неприво- дима и апериодична,то существует такое натуральное число k9 что Tlk имеет только положительные элементы. В этом случае (11.15) выполнено, если в (11.16) u — n^k, и нетрудно видеть, что наше доказательство по-прежнему проходит. Таким образом, мы получаем еще одно доказательство того, что сдвиг Маркова с неприводимой апериодической матрицей вероятностей перехода является сдвигом Колмогорова и, следовательно, перемешивающим. Замечание. Соотношение [11.4] принадлежит Леви [2]. Теорию мартингалов см. в книге Дуба [1].
ГЛАВА 4 Сходимость энтропии 12. ОБОБЩЕНИЕ УСЛОВНОЙ ЭНТРОПИИ1) Определение Если JL — конечное подполе поля #~, а <£? —его сг-подполе, то положим Я(Л|#) = £{2т1(Я{Л||#})}, (12.1) где сумма берется по всем атомам поля i, а т| определяется, как обычно, соотношением (5.11). В случае когда <*? конечно, величина (12.1), которую мы будем называть условной энтропией поля Л при заданном <£?, свЪдится к выражению (6.1), использованному в гл. 2. Тихе выбирает точку со в соответствии с распределением Р и сообщает экспериментатору, какие элементы поля <£? содержат со, а какие нет. В соответствии с эвристическими рассуждениями предыдущей главы Р{Л||£?} есть новая вероятность множества Л, так что энтропия 2 ц{Р {М&}) А является мерой остающейся неуверенности экспериментатора относительно исхода Ж. Величина H{d\&) дает среднее значение этой остающейся неуверенности. Можно рассматривать а? как сложный эксперимент. Если экспериментатор знает исход <£?, то он все же до некоторой степени неуверен в исходе Л и получает некоторую дополнительную информацию, когда узнает исход Л. Остающаяся неуверенность и эта дополнительная информация измеряются одной и той же величиной Н{<Л\&). Эта величина имеет другую форму: Н(А\&) = Е\ - 2 Ia In P {А\\&}\. (12.2) Правая часть этого равенства в силу теоремы 10.1 равна (вспомним, что Е{Е{х\\а?}} = Е{х}) £{£{~2/л1пР{Л||^}11^}} = = E{-%E{IJ&}\nP{A\\ff}\=H(<A\&). 1) Читатель может опустить этот параграф, если согласится предполагать некоторые сдвиги в последующих параграфах марковскими.
142 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ Свойства функции Н{Л\е?) Это расширенное понятие условной энтропии обладает теми же свойствами, что и ранее рассмотренное; (С,) Н{ЛУ &\&) = Н{Л\&) + Н{Ж\А V 8). (С2) Н(А\9)<,Н(Я?\9)> если с^с=^. (С8) Н{А\&хЖН{Л\&2), если &л => &2. (С4) Н{АУ &\&)^Н(Л\&) + Н(Я\&). (С5) Н(Г1Л\ГХ&) = Н{<А\&)- Докажем (Q), (С3) и (С5), остальное получается, как раньше. Согласно (10.11), имеем P{B\UV$} = %IAP{p^!%] п. в., (12.3) А где суммирование распространяется на атомы поля Л. Для любой точки со все слагаемые в (12.3), кроме одного, обращаются в нуль. Поэтому In Р {ВЫ V #} = J Л» In Р{рщ^] п. в. (12.4) А Но %1А(]В1пР{АГ)В\\т = А,В = 2 /л/в1пр{Л||^} + 2 /Л/в in ^ДУ ■ А,В А,В ~%1л1пР{А№ + %1в1пР{В\\<ЛУ Я}. А В Взяв математическое ожидание и применив (12.2), получим (С2). Для доказательства (С3) используем неравенство Йенсена (10.10). Пусть x = P{A\\&i}. Так как функция ц выпукла, то Е {ц {х)\т <ц(Е {х\\&2}) = Л (Р {А\\&2}), :> вытекает из теоремы 10.2. Пер< киданиям в обеих частях неравенс Е{Ч{Р{А\\${})}<,Е{ч{Р{А\\$г})}. где равенство вытекает из теоремы 10.2. Переходя к математическим ожиданиям в обеих частях неравенства, получаем
12. ОБОБЩЕНИЕ УСЛОВНОЙ ЭНТРОПИИ 143 Суммирование по всем атомам поля А дает (С3). Это рассуждение в скрытой форме повторяет доказательство свойства (А3) из § 6. Из (10.6) вытекает х[{р{ГхА\\Гха]^г\(Р{Атт^ Интегрируя, получаем Е {г]{Р {г1А\\Гг&})} = Е{ц(Р {А№)}> а суммирование по атомам поля А дает (С5). Рассмотрим а-поля <£?„ и <£?. Теорема 12.1. Если а?п\£?, то lim Н(А\&п) = Н{А\&). п Доказательство. В силу теоремы 11.2 НтР{Л||#я} = Р{Д||#} п. в. /г->оо Так как функция x\{t) непрерывна и ограничена, то утверждение теоремы следует из определения (12.1). Можно использовать теорему 12.1 для нового доказательства теоремы 7.1, представляющей основополагающий результат Колмогорова. Центральный этап этого доказательства состоит в доказательстве того, что если конечные поля Ап удовлетворяют требованию А\.а А2 с .. . оо и Acz\J Ап> то НтЯ(с^|с^/г) = 0. В силу теоремы 12.1 и я=1 п свойства (С3) \/ AJ*£H(A\A) = 0. л=1 / Сравните это с примером 11.1. Из теоремы 12.1 и свойства (В^ из § 6 следует lim Н{А\Ап) = Н[А \/Г*а\. (12.8) h(A, Т)=*Н\А\ Аналогично если Т обратимо, то h{A, Г) = #Ы V T*a\. (12.6) В § 6 мы интерпретировали h(A9 T) как приближенное количество информации, извлекаемой при проведении экспе-
144 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ римента Л, если известны результаты большой, но конечной серии предыдущих проведений этого эксперимента. Теперь можно интерпретировать эту величину как точное значение количества информации, полученное от проведения эксперимента, при условии, что известна вся предыстория. Две специальные формулы 1) оо оо Введем обозначения ЛГ = V Т1Л и ЯГ = V Т~1&. Теорема 12.2. Пусть преобразование Т обратимо. Если либо $ с: Л, либо Л с J7, то lim 1 Я( V Г^ | JM = Я (Л\Л~). (12.7) Доказательство. Рассмотрим сначала случай <%аЛ. В силу свойства (Q) (обобщенного по индукции) и (С5) /п-1 \ "~J l k-l ~я V ткл\^-) = ±-Ун1тк<А\^~ v V гл k = 0 n~\ = \2 я^> r^ v • • • v T~hjl v r^+1)^ V Г(*+2)J> V ...). fc=0 Если &czuiy то теорема 12.1 дает lim НЦ\ ГХ<Л V ... V Т'кЛ V Г(^+1)^ V ...) = # (Л\Л~). &->оо Теперь (12.7) следует из теоремы о средних арифметических. Рассмотрим случай Л а $. Так как Л с: i?~", то в силу (С3) и первого случая (при Аг=&) имеем lim - Я [ V ТкЛ I М~) < lim - Я (V 7^ И") = Я (^ | ^"). (12.8) 1) Последние два результата этого параграфа используются только при доказательстве теоремы 17.3. Возможно, лучше будет вернуться к ним еще раз, когда они понадобятся.
12. ОБОБЩЕНИЕ УСЛОВНОЙ ЭНТРОПИИ 145 С другой стороны, используя поочередно (Q), (С3) и (Q), каждый раз применяя первый случай, получаем lim -#(V ТкА\ЯГ) = л->°° \k=0 /л—1 = lim \-H\ V T*SB\3B )--я( V Г* re->ooL" \fe=0 / n \k=0 1 /"_1 n \ft-o Vr*iv # j\> (n-\ fe=0 ln-\ vV^vX)| = /5 = 0 = lim 1-Я V T*&\<A~)--H V Г* ,г->оо[,г u=o J n \fe=o = lim-tf(V ТкЛ\Л) = Н{Л\Л~). П->ооП \k = 0 J Это вместе с (12.8) дает (12.7). Теорема 12.3. Если преобразование Т обратимо, то Н(Л V Я\ Л~ V ЯГ) = Н\А\Л~ V ._V Т1Я?\ + Н(Я?\ ЯГ). Доказательство. Теорема 12.1 дает \\тН\Л\Л~ V %~ V V Ткт = Н\Л\Л~ V V Т*#). (12.9) л->°° \ fe=0 / \ i = -oo / В силу (СО и (С5) /л-1 л-1 \ я V ткл\А~ у %~ v V г> = л-1 / л-1 Л-1 \ = Swfi|i"vf"v Vr^vV г^ U fe=0 \ г=0 /=0 / л—1 / n—k- k~0 \ *=0 / Л / k-l fc=0 \ г=0 Отсюда, из (12.9) и теоремы о средних арифметических следует lim -tf(V r^li'Vf'VV Т*#) = НШЛ~У V Г'^Ч. л-><~ « \fe = 0 fc=0 / \ t = -oo / 1J Зак. 1491
Ш' ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ С другой стороны, в силу (Q) и двукратного применения предыдущей теоремы (сначала с Л V ЗВ вместо Л и J?, а затем с Я вместо Л и Л V 3& вместо^) имеем [п-\ п-\ \ lim ~Я V ТкЛ\Л~ \J %~V\J Tkm = п + оо ni \k=0 k=0 I = lim -#( V ^iVV r^j^ V ЯП- Л U=o /J = Я(^ V &\JT V ^")-Я(^|^"). Замечание. Теоремы 12.2 и 12.3 принадлежат Рохлину и Синаю [1]. 13. ТЕОРЕМА ШЕННОНА - МАКМИЛЛАНА - БРЕЙМАНА Если Г —общий сдвиг (пример 1.2) с пространством состояний р, а Н(х0, ..., xn-i) обозначает энтропию конечного поля, имеющего своими атомами гп множеств (г есть объем множества р) вида {со : лг0(со) = /0, ..., хп-.\ (со) = /ft_J, то в силу теоремы Колмогорова h(T)= lim ±Н(х0, ..., *„-,). (13.1) Я-»оо а Напомним, что (13.1) —теорема, а не определение. Для лгрбой последовательности (/0, ..., in-\) элементов из р положим р(/0, ..., in-l) = P{x0 = iQ, ..., хя-1 = /л-1}. Тогда p(jc0(co), ..., л:^^!(со)) есть вероятность фактически наблюдаемой последовательности (а:0 (со), ..., a:„_i(co)). Так как — In p(jc0(co), ..., лг^.х (со)) имеет математическое ожидание, равное Я(л:0, ..., Jtn-i), то из (13.1) следует lim£{-^lnp(x0(co), ..., xn-x{v>))\ = h{T). (13.2) Результат В эргодическом случае в соответствии со следующей теоремой, последовательно усиливаемые варианты которой принадлежат Шеннону, Макмиллану и Брейману, величина, стоящая под знаком математического ожидания в соотношении (13.2), сходится к h(T) почти всюду. Для больших п вероятность р (xQ (со), ..., .*:„_! (со)) наблюдаемой последовательности должна быть близка к e~nh{T\
13. ТЕОРЕМА ШЕННОНА — МАКМИЛЛАНА-^ БРЕЙМАНА J 47 Теорема 13.1. Если Т — эргодический сдвиг, то Нт{-~-1пр(д:0(со), ..., хп-х (со)) i = h (T) п. в. (13.3) Доказательство. Разберем сначала два поучительных частных случая. Если Г —сдвиг Бернулли (рь ..., рг), то р (/0, ..., *„_,) == pio ... pw так чад п-\ - -i 1П p (*б ((О), . . ., *„-! (CO)) = - 1 J 1П р (w). fe-0 Из эргодической теоремы, которая в этом случае сводится к усиленному закону больших чисел для испытаний Бернулли, следует, что левая часть этого равенства сходится почти всюду к Е {- In рХо ((0)} = - 2 pt In pt = h(T). Если Т — эргодический сдвиг Маркова, порожденнный начальными вероятностями pi и вероятностями перехода р/7-, то - - In р (х0 (со), ..., xn-i(co)) = * - - 1П PXq (G)) - j 2d ln Р*^ (a), xk (о))- Соотношение (13.3) получается и в этом частном случае после применения эргодической теоремы. Доказательство в общем случае опирается на эргодиче- скую теорему и теорему 11.2 о сходимости условных вероятностей. Мы будем использовать функции g0(co)=- 1пр(*0(со)), g,(cp)--inp(^vmVv,^l(^^(fl>))> 6ftV ' р (*_*(©), ..., лг-1 (со)) ' '* v ' р (*-*(©),..., л:-! (со)) Заметим, что /j^(co) есть взятый с обратным знаком логарифм величины P{xQ = i\\x-.k, ..., *_,}«>. Заметим также, что все эти функции неотрицателк,^. Непосредственное вычисление показывает, что п—\ -llnp(x0(co), ..., xn-l{u))r±%gh(Tka). (13.4) Jfc-° Если бы функция gfe(co) не зависела от £, то правая часть равенства (13.4) имела бы вид среднего, к которому приме- 10*
148 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ няется эргодическая теорема, и мы получили бы (13.3). Хотя, вообще говоря, £*>(со) зависит от к, мы покажем, используя теорему (11.2), что g*^ (со) сходится к некоторой функции g((o) при &~*оо. После этого идея доказательства заключается в том, чтобы проверить, что среднее в (13.4) близко к ~2j§(Tk®)' (Бернуллиевский случай разбирается просто, поскольку для всех неотрицательных k функции gu(co) совпадают со своим пределом g(co). Марковский случай прост, так как gk (со) = g (со) для положительных k.) В силу теоремы 11.2 P{x0 = i\\x-k> • ••> *-i) сходится почти всюду к Р {х0 = i II ..., х~2> #-i}. Из непрерывности логарифма следует, что /^(ю) сходится п. в. (предел может быть равен + оо). Так как gk{®) совпадает с f^i®) на цилиндре {со : х0 (со) = /}, то предел г(ю) = НтЫю) (13.5) &->оо существует п. в. Так как функции g"^(co) неотрицательны, то g (со) также неотрицательна, но то, что мы пока знаем, не противоречит предположению о том, что на множестве положительной меры она может равняться + оо. Покажем теперь, что Е Jsup£*(co)j<oo. (13.6) В частности, получим, что g (&) интегрируема и, следовательно, конечна п. в. Если £*-{©: max gy(co) <Я < gk(<x>)\, TO P{Ek)^^P{{x^i){\Ek)^^P{{x^i}{\FT\ i i где Ff = I со: max ff (©) < X< /<f> (©) \. Так как Fk} принадлежит а-полю, порожденному величинами Х-ь ..., ЛГ_ь ТО P(U0 = 0n/7f)= \P{x*=*i\\x.k ... x„ddP~ Fjp - u ' le<mP№<**P(№
13. ТЕОРЕМА ШЕННОНА — МАКМИЛЛАНА — БРЕЙМАНА И9 Так как F{k при различных k не пересекаются, то* 2/>(£*)<2^2>(£10)<^-\ И i к где г — объем множества р. Следовательно, Р | со: supgfc(o)>a,|</4T\ откуда следует (13.6). Таким образом, g интегрируема. Интегрирование соотношения (13.4) и замена переменной дают Е {g} = lim E {gk} = lim Е Ц У gk (Г*со) = h (T). Запишем п—\ п—\ , я—1 fe=0 fe = 0 & = 0 По эргодической теореме (вспомним, что Т эргодично) lim ~ S 8 (Г*©) « Я fe) - Л (П п. в. (13.8) Если G^ (со) = sup | g-^ (со) — gr (со) |, то для любого N lim д-> оо П-\ iS (g* (т-*©)-г (У*©)) fe=o п-1 < < lim iSl^M-s^K п-1 < Пл^У G„(r*co) = £{G„} п. в. Но G^(co) сходится к нулю почти всюду и мажорируется интегрируемой функцией g (со) + sup gk (со), так что lim E{GN} = 0. k N ->оо Значит, вторая сумма в правой части равенства (13.7) стремится к нулю почти всюду, что вместе с (13.8) дает "mi У 8к(Тки>)-ЦТ) п. в. Теперь (13.3) следует из (13.4), что завершает доказательство теоремы.
150 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ Другие варианты теоремы Если Г не обязательно эргодично, то (13.8) нужно заменить соотношением п-\ Ит ^g(Tk*)~&(u>) п. в., п->°° *=о где £--инвариантная функция со средним значением E{g} = = h(T). Аналогично следующее за (13,8) неравенство должно быть заменено неравенством lim п-\ ^(gk(Tk<»)-g(Tka>)) fc=0 ^ GN(to) п. в., где теперь GN (со) = sup | gk(a>) -£(©) I и E{GN} = E{GN}. Левая часть этого неравенства превосходит X с вероятностью, не превосходящей E{Gn}/k. Полагая N->oot А->0, получаем, что она равна 0 почти всюду. Отсюда следует, что Нт \-±lnp(xQ(ti>), ..., ATn_i(CD))} = ^(CD) П. В. Если Т эргодично, то мы снова приходим к (13.3). Теорема 13.1 Сохраняет силу и для одностороннего сдвига Т. Если задан односторонний эргодический сдвиг Г, то построим двусторонний сдвиг Т с теми же конечномерными мерами. Так как эргодичность связана только с конечномерными мерами, то Т также эргодичен. Отображение, переводящее бесконечную в обе стороны последовательность (..., (о_ь со0, ©J, ...) в последовательность (о0, щ, ...), переводит соотношение (13.3) для сдвига Т в соответствующее соотношение для Г. Таким образом, теорема 13.1 выполнена и для односторонних сдвигов. Из теоремы 13.1 для одностороннего сдвига ^можно вывести более общий на вид результат. Пусть Г —произвольное эргодическое, сохраняющее меру преобразование на вероятностном пространстве (Q, g§T, P), a d£—'конечное подполе поля а?~. Если /?п (со) —вероятность того атома поля п-1 V T"kJL, который содержит со, то lim {-\\npaifb)\ = h(A, Т) п. в. (13.9)
13. ТЕОРЕМА ШЕННОНА-МАКМИЛЛАНА ~ БРЕЙМАНА 151 (Если V ТкЛ = ъГ, то h(Jt, Т) можно отождествить с А (Г).) Поэтому нужно только перенести задачу на пространство односторонних последовательностей с помощью отображения со->(/(со), /(Г©), ...), где /-некоторая функция, принимающая различные значения на разных атомах поля Л, С помощью (13.9) можно, полагая Л полем событий, наблюдаемых в момент времени 0, снова прийти к теореме 13.1. Аналогичный результат имеет место, если Л заменить (Т-полем, соответствующим счетному (а не конечному) ^-разбиению пространства Q. Если рп(со) — по-прежнему вероят- ность того атома поля V Т~кЛ, который содержит со, и V ГкЛ = ЗГ, то lim \--~\npn(<*)\ = h(T) п. в.1) Отсюда следует, например, что преобразование, связанное с непрерывными дробями, имеет энтропию л2/6 In 2 (см. (4.22)). Теорема Шеннона — Макмиллана — Бреймана связана с условиями Липшица, которым удовлетворяют некоторые функции распределения на единичном интервале. Возьмем в качестве Т преобразование Г0 = г(о(тос11) на полуинтервале [0, 1] (пример 3.5), и пусть Р — мера, сохраняемая преобразованием Т. Пусть Л — конечное поле с атомами [ilr> {i+ l)/r), i = 0, 1, ..., r-1. В этом случае ря(ю) есть Р-мера того r-адического интервала ип(а>) ранга п, который содержит 0. Если Т эргодично относительно Р,то из (13.9) оо и того, что V Т~кЛ есть ст-поле of всех борелевских мно- жеств, вытекает, что с точностью до множества Р-меры 0. Если (13.10) выполняется в точке со, то ^ h(T) , ч | оо, если а> v 7 , ш.ш-1 ;-, ,.з.п) 0, если а<-г^-. П -> оо {rnf 1) Доказательство см. в работе Чжун Кай-лая [1].
152 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ Если F (х) = Р [О, х), то prt(co) равно приращению функции распределения F на интервале ип(<й). Так как этот интервал имеет длину г~п, то (13.11) означает, что F удовлетворяет условию Липшица в точности порядка h(T)/lnr в точке со. Таким образом, F удовлетворяет условию Липшица в точности порядка h(T)/\nr на множестве Р-меры 1. (В § 3 отмечалось, что F сингулярна, если только не имеет места тождество F(x) = x, в последнем случае h{T)/lnr= 1.) Установить условие Липшица для F на множестве лебеговой меры 1 представляется затруднительным. Свойство равнораспределенности Пусть Г —снова двусторонний сдвиг. Для любого натурального Ъ отображение (d->(xi(a>), ..., xb(®)) индуцирует вероятностную меру на множестве рь упорядоченных групп из Ь элементов пространства р, причем вероятность такой упорядоченной группы и= (il9 ..., ib) равна р{и) = Р {fo, ..., хь) = и) = Р {(хп+1, ..., хп+ь) = и}. Согласно теореме 13.2, при больших Ь множество рь разлагается на два подмножества, из которых одно имеет малую общую вероятность, а другое состоит из упорядоченных групп по Ъ элементов, таких, что вероятность каждой группы близка к e~bh{T) — факт, известный под названием свойства асимптотической равнораспределенности. Теорема 13.2. Пусть Т — эргодический сдвиг с энтропией h. Тогда для любого е>0 существует такое натуральное число Ь0(г), что рь при b^bQ(&) разлагается на два множества Н и L со свойствами: 1) 2 р(и) = Р{(хи ..., *,)€=£}< в, 2) e'b^h+e)<p(u) = P{(xu ..., хь) = и}<е-ь&-*\ если и<==Н. Доказательство. Перейдя в (1°.3 к пределу по вероятности, получим р lim {--g" In р (*!(©), ..., *ft (©))} = А. Ъ -> оо I и У Выберем такое Ь0(е), что р{®: |~ J 1пр(хг(®), ..., л^(со))-/г|>е}<е
14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 153 при Ь~^Ь0{е)> Пусть Н (группа высокой вероятности) состоит из тех упорядоченных групп и по Ь элементов, для которых ~1пр(и)-й <е, и пусть L (группа низкой вероятности) является дополнением множества Н в р6. Ясно, что Я и L обладают требуемыми свойствами. Замечание. Исходные работы в этой области принадлежат Шеннону [1], Макмиллану [1] и Брейману [1]. Другое доказательство теоремы 13.2 см. в работе Тома- сяна [1]. 14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ* Классическое определение В 1919 г. Хаусдорфом было введено понятие размерности, которое, как оказалось, имеет любопытную связь с энтропией. Пусть М — множество в метрическом пространстве, скажем в евклидовом. Внешняя мера 1а{М) (а-мерная) определяется для положительного а следующим образом. Назовем р-покры- тием множества М счетное покрытие этого множества замкнутыми шарами St диаметра, меньшего р. Положим la{M, p) = inf 2 (диам. Si)a, (14.1) i где нижняя грань берется по всем р-по'крытиям множества М. При убывании р нижняя грань в (14.1) распространяется на все меньший класс покрытий и, следовательно, 1а(М, р) возрастает или, во всяком случае, не убывает. Поэтому предел (конечный или бесконечный) la(M)=limla{M, p) р->0 существует. Ясно, что функция /а(-) монотонна: */а(М)</а(М')> если МаМ'. Для заданной последовательности множеств Мп выбираем такие р-покрытия {Sni}, что S (диам. Sni)a < <k(Mn> Р) + Фп<:1а(Мп) + Фп. Все шары Sni вместе образуют р-покрытие множества (Jm„, причем 2 (диам. Snif < ^ 2 1а{Мп) ■+■ е. Следовательно, функция /а(-) полу аддитивна:
154 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ la(U Мп)^.%1а{Мп). Таким образом, ta(M) как функция \ п In от М является внешней мерой. Хаусдорфова размерность множества М определяется поведением 1а(М) не как функции от М, а как функции от а. Покажем, что если 1а{М) конечно, то 1а'(М)~0 для любого а'><х. Если {SJ — некоторое р-покрытие множества М, для которого 2 (Диам. S,)a</a(Aff р) + 1 </а(А1) + 1 =7С<оо, то /^(М, р)<2(диам. Sf <ра,"а2(дйам. 5,)a<pa"a/C. / i Так как a'>a, то, полагая р->0, получаем 1а'(М) = 0. Если ta(M) конечна для некоторого конкретного значения а, то 001 ■ I i 0 ос0 Рис. 4. она равна нулю для всех больших значений. Следовательно, существует „точка перехода"— такая точка а0, что /а(М) = оо для а<а0 и /а(М) = 0 для а>а0 (рис. 4). Функция 1а(М) в точке а0 может равняться нулю, принимать конечное положительное значение или оо. (Крайние случаи а0 = 0 (/а(М) = О для всех а>0) и а0=оо (/а(Л1) = оо для всех а>0) могут иметь место, хотя в евклидовом пространстве второй случай невозможен.) Однозначно определяемое число а0 и есть хаусдорфова размерность множества М, мы ее обозначаем dimAf. Имеем dim М = sup {a: /a (M) = оо} = inf {a: la (M) = 0}. Мы постоянно используем следующие четыре факта: \)la(M)>0^dimM>a;2)dimM>a^la(M) = oo;3)la(M)< <oo=#>dimAf<a; 4) dimM<a=#/a(M) = 0. Отметим два основных свойства хаусдорфовой размерности. Прежде всего, она, очевидно, монотонна: dim М < dim M', (14.2)
14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 155 если М cz M'. Во-вторых, dim(jM„ = sup dimAf„. (14.3) п п Действительно, если dimMrt<a для всех п, то 1а(Мп) = 0 и в силу полуаддитивности функции /а(«) имеем lJ\J Мп\= О и, следовательно, dim(jM^<a. Таким образом, dim(jAf„< п п <sup d\mMn. Обратное неравенство очевидным образом сле- п дует из (14.2). Для оправдания хаусдорфова определения покажем, что размерность достаточно гладкой поверхности в трехмерном пространстве равна 2. Итак, предположим, что поверхность М определяется уравнением z = f(x, у) над единичным квадратом на плоскости. Без всяких дальнейших предположений можно доказать, что dimAf!>2. Для этого будем считать, что М покрыто шарами Si диаметра dt. Если р — вертикальная проекция на плоскость (х, у), то pSi покрывают рМ. Так как pSt- есть круг диаметра d{ (с площадью Jtd?/4), а рМ есть единичный квадрат (с площадью 1), то 2 яй?/4^ 1, или i 2 (диам. Si)2^4/n. Таким образом, /2(М)>0, так что dimM>2. Обратное неравенство можно доказать, если предположить выполненным условие Липшица со?(б) = 0(б), где ©f(в)«sup{|f(х, y)-f(x\ #')|:|*-x'|<6, I^~^К6} есть модуль непрерывности функции /\ Из этого условия следует непрерывность /; с другой стороны, если, например, f непрерывна и имеет ограниченные частные производные, то это условие выполнено. Докажем, что dimM^2, показав, что /2+е(М) = 0 при любом е>0. Выберем /(> 1 так, что cof (6)</(6. Разобьем теперь единичный квадрат*на п2 маленьких квадратов со сторонами, равными 1/п. Так как вариация функции f на любом из этих маленьких квадратов меньше, чем К/п, то часть поверхности М, лежащая над таким маленьким квадратом, может быть заключена в куб с ребром К/п, который в свою очередь может быть заключен в шар диаметра Y^K/n, Таким обр азом, _поверхность М может быть покрыта п2 шарами диаметра ^З/С/д. Для этого
156 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ покрытия имеем 2 (диам. S/)2+Es=("|/*3/c) 1пг. Выбирая п _ i так, что <р, получаем /2+е(м, р)<(|/з/с)2+Е/^ и, полагая п~>оо, имеем /2+e(Af, р) = 0. Таким образом, /2+е Ш) = 0, так что dim M < 2. Такое рассуждение показывает, что хорошие множества имеют именно ту размерность, которую и следует ожидать. Далее мы не будем заниматься подобными рассмотрениями, так как нас будут интересовать крайне нерегулярные множества, размерность которых не есть целое число. Размерность в единичном интервале Далее множество М будет подмножеством единичного интервала. Нетрудно видеть, что для такого множества tx(M) есть обычная внешняя мера, так что ^(МХЛ. Таким образом, dimM лежит между 0 и 1. Если М — борелевское множество положительной лебеговой меры, to/i(M)>0, так что dimM=l. С другой стороны, каждое одноточечное множество, а следовательно, и каждое счетное множество имеет нулевую размерность1). Между этими крайними случаями лежит канторово множество, которое, как показал Хаусдорф, имеет размерность 1п2/1пЗ. (Мы докажем это ниже.) Хаус- дорфова размерность измеряет величину множеств на единичном интервале таким образом, что дает возможность решить вопрос о том, какое из двух множеств меры 0 „больше". Пусть М (/?) — множество точек на единичном интервале, содержащих 1 в своих диадических разложениях в пропорции /?, т. е. со = 0, coj^ ... лежит в М(р) в том и только п том случае, когда limn"1 2 Щ== Р- Так как Af (1/2) есть мно- п k=l жество чисел, нормальных по основанию 2, то его лебегова мера равна 1. Если р Ф 1/2, то М(р) состоит из чисел, не являющихся нормальными и, значит, имеет меру 0. Поэтому интересно узнать его размерность2). В 1949 г. Эгглстон доказал, что dimM(p)~ -- ^[pin р + (1 - р)\п(1 - р)]. [) Так как интервал есть объединение одноточечных множеств, то соотношение (14.3) не имеет места для несчетных сумм. 2) В силу (14.3) и того, что множество рациональных чисел имеет размерность 0, вопрос о том, конечно или бесконечно разложение рационального о), не влияет на эту размерность.
14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 157 Этот результат тесно соприкасается с хаусдорфовым результатом относительно канторова множества. Более общим образом, фиксируем основание г, и пусть хп(®) есть /г-й знак в разложении со по основанию г. Таким оо образом, со = 2 хп(ы)/гп. Пусть число ЛМсо,/г) указывает, сколько раз / встречается среди знаков хх (со), ..., x„(co). Для вероятностного вектора (р0> •••> рг-\) пусть М(р0, ..., pr_Y) обозначает множество тех со, для которых НтА^(©, п)/п — рь п г = 0, 1, ..., г—1. Эгглстон показал, что г-1 dim М (р0, ..., рг_,) = ~ 1^7" S ^^1п Л- <14-4) г=о Мы дадим доказательство, демонстрирующее связь размерности с энтропией. Обобщенное определение • Для истолкования (14.4) дадим сначала другое (эквивалентное) определение хаусдорфовой размерности, а затем обобщим его. Для единичного интервала каждый шар есть некоторый интервал, а его диаметр— длина этого интервала. Поэтому (14.1) сводится к равенству i где нижняя грань берется по всем покрытиям множества М интервалами v{ длины [ vt |<p. Далее r-аддический интервал и = [тг. i7*L)> л=1, 2, .... / = 0, 1, ..., гя-1, будем называть цилиндром, так как он имеет вид {со: **, (со) = *ъ k = 1, ..., п} при подходящих ik. (Здесь и далее г есть некоторое фиксированное основание.) Если MM, p) = inf2|t>,r, (14.5) где нижняя грань берется теперь только по покрытиям множества М цилиндрами длины, меньшей р, то Яа(М, р) отличается от /а(М, р), но это отличие не сказывается при
158 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ вычислении размерностей. Действительно, мы покажем, что /«(Af, р)<Яа(М, р)<2г/а(М, р), (14.6) откуда будет следовать, что если Ка(М) = lim \(M, р), то К (М) = сю при а < dim М и Ха (М) = 0 при а > dim M, так что можно определить dimM через Яа(М) так же, как и через Ш). Левое из неравенств (14.6) очевидно. Докажем правое неравенство для случая г = 2 (доказательство в общем случае проводится аналогично). Достаточно показать, что если и — произвольный интервал, то существуют четыре цилиндра, каждый длины, не превосходящей | и |, покрывающие и. Выберем внутри и цилиндр v{ максимальной длины | vx | = (Л/2Г, так что и уже не содержит цилиндров длины (1/2)п~1. Если vQ и v2~ цилиндры длины (1/2)", лежащие слева и справа от Vi соответственно, то один из интервалов v0\J vx или v{{] v2 является цилиндром длины (1/2)п"1. Для определенности положим, что это интервал v0\}v\. Так как он не может лежать в и; то v0 заходит за левый конец интервала и. Если а3 —цилиндр длины (1/2)л, лежащий справа от v2, то v2[) v3 есть цилиндр длины (1/2)п~1 и, следовательно, он не может лежать в и. Таким образом, v3 простирается за правый конец интервала и и v0, ..., v3 покрывают и. При этом Ы = (1/2)л<|и|. Итак, можно определить dimM как такое число а0, что Яа(М) = оо для а<а0 и Яа(М) = 0 для а>а0. Это новое определение полезно для вопросов, связанных с г-адическими разложениями, поскольку в нем фигурируют только покрытия r-адическими интервалами (или цилиндрами, как мы их только что называли)1). Придав новую форму определению, обобщим его. Пусть \х — вероятностная мера на борелевских множествах единичного интервала. Положим MM, P) = inf2i*(i>,y\ (14.7) где нижняя грань берется по jx-p-покрытиям множества М> т. е. по покрытиям цилиндрами vt с мерой \i(vi)<p. В даль- ]) Определим размерность исходя из формулы (14.5), только теперь нижнюю грань будем брать по р-покрытиям интервалами из заданного класса &. При каких условиях, налагаемых на &, определенная таким образом размерность совпадает с хаусдорфовой? Мы доказали это совпадение для случая, когда & — класс r-адических интервалов, но мне неизвестны никакие общие условия. Результат такого рода, связанный с непрерывными дробями, см. Кинни и Питчер [1].
14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 159 нейшем мы будем для простоты предполагать, что мера \i неатомическая; в противном случае ц,-р-покрытия множества М могло бы и не существовать вовсе. Если \х — мера Лебега, которую мы будем обозначать А,, то (14.7) сводится к (14.5). При р->0 функция ^(М, р) монотонно стремится к пределу ИчхС^О- Как и раньше, можно показать, что \ia(M) как функция от М есть внешняя мера и что для фиксированного М существует такое а0, что м.а(М)==оо при а<а0 и Мчх(М) = 0 при а>а0. Это а0 называют размерностью множества М относительно \х и обозначают dim^M. Ясно, что dim^M совпадает с исходной dimM для любого М из единичного интервала. Для любого \i имеем O^dim^M^l; кроме того, dim^Af—О для счетных М и dim^M^l для борелевских множеств М, для которых ji(M)>0. Соотношения, аналогичные (14.2) и (14.3), также выполняются. Основной результат Пусть ип (со) — цилиндр длины (1/г)я, содержащий 0, т. е. тот единственный интервал вида {о : xk(0) = ikt & = 1, ..., п}, который содержит 0» Заметим, что со' лежит в ип{а>) в том и только том случае, когда разложения 0 и о/ по основанию г совпадают' на первых п местах. Пусть \i и v —две вероятностные меры на интервале. Теорема 14.1. Если Me=(0:Hm1lnv(^i(O!;^6|, (14.8) I n + oo 1ПМИП(Ю)) J ТО dim^M = 6dimvM. (14.9) Чтобы быть уверенным в том, что отношение логарифмов в (14.8) всегда определено, условимся считать, что при 0<£, л<1 1п6 = Inl = 1пХ =п In 0 1пт1 In О U> In 0 In | In 0 /1 л 1л\ . ~_i.ras.-_. = ОО, (14.10) In я In I In l * In 0 In 1. In 0 lnl = 1. Прежде чем доказывать теорему, приведем подтверждающее ее эвристическое рассуждение и покажем, как из нее следует результат Эгглстона.
160 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ Представим себе, что для каждого со из М отношение In v (ип (со)) In \i (ип (со)) не только сходится к б, но что оно равно б для всех п. Если {Vi} — произвольное покрытие множества М цилиндрами, каждый из ,которых пересекается с М, то любой цилиндр имеет вид Vi = un{®) при некотором п и некотором со из М и, следовательно, v(vt) = \i{vi)6. Таким образом, 2v(^)a = i = 2М'(у;)а Для любого покрытия {vf}. Но тогда va(M) = i = \ia6(M), откуда, очевидно, следует (14.9) Это рассуждение делает утверждение теоремы правдоподобным. Чтобы доказать результат Эгглстона с помощью теоремы 14.1, будем считать \х мерой Лебега Я. Так как Я (ип (со)) = 2~п, то из теоремы следует (берем б = Э/ln г), что из М с (со : lim Г™ In v (ип (со) )1 = в ) (14.11) вытекает dimM = ln^dimvM. (14.12) Если мы построим меру v, для которой выполнено (14.11) и для которой v(M)>Qy то dimvM = 1 и, следовательно, в силу (14.12) dimAl = 0/lnr. Пусть v — вероятностная мера на единичном интервале, относительно которой {хп} есть последовательность независимых случайных величин- с v {со: хп (со) = /} = piy / = 0, 1, ..., г—1 (см. пример 3.5). Так как г-1 1 1 / / ч ч \Ч Ni (со, п) « --lnv(a„(co)) = - 2j—^ 1п Ри то ясно, что (14.11) выполняется, если М = М(р0, ..., рг_х) г—\ ч и 0==— 2/^lnp;. Так как М(р0, ..., рг.{) имеет v-меру 1 i=0 в силу усиленного закона больших чисел, то приходим к результату Эгглстона. В качестве следующего приложения рассмотрим число Nij{<d, п) тех &<я, для которых xk(a>) = i и #£+1(со) = /. Если lim -iV/;-(co, п) = щр /, /==0, ..., г-1, (14.13)
И. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 161 то (щ/) есть (г X г)-матрица с неотрицательными элементами, такими, что если pt = 2 Щ]> то 2 яу/ = Pi и 2 Р/ = 1- Пусть р.. = п../рь тогда (рг-;-) есть стохастическая матрица, для которой pi — стационарные вероятности. Предположим для простоты, что р^ положительны. Если v —мера, относительно которой {хь х2, ...} —соответствующий марковский процесс, то lim Г-1 in v («„(©))] = - YiPiPij^Pij для любого (о из множества М(я), определенного равенством (14.13). Так как v(M(tt))=l, то, как и раньше, получаем dim М (я) = - -у^ J) PiPij In pu. if Из сравнения этих результатов с теоремой Шеннона — Макмиллана — Бреймана видна их связь с энтропией. Для третьего приложения теоремы 14.1 предположим, что г = 3 и ро= Р2 — 1/2» Pi = 0. Пусть v — мера, относительно которой {хи х& ...} —независимые случайные величины и v{xn = i}=pi (v —канторова мера из § 3). Величина — п'1 In v (ип (со)) равна In 2, если все хп(ы) равны либо 0, либо 2, т. е. если со лежит в канторовом множестве. Таким образом, М с ( со : lim In v (ип (со)) = In 2 1, если М — канторово множество, так что в силу того, что из (14.11) следует (14.12), dim М = -jjg- dimv М. Так как v(M)=l, то мы получаем результат Хаусдорфа: dimM = ln2/ln3. Перейдем к доказательству теоремы 14.1. Достаточно показать, что из (14.8) вытекает неравенство dim^M>6dimvM, (14.14) так как обратное неравенство получится, если помейять \i и v местами, а 6 заменить на 1/6. Докажем несколько больше, а именно что неравенство (14.14') выполняется, если McU-.Hm \nv{(Un{;\\>b\. (14.15) 11 Зак. 1491
162 ГЛ. 4. СХОДИМОСТЬ ЭНТРОПИИ Сначала докажем этот результат в предположении, что ^(у)>0 для любого цилиндра а, пересекающего М; позднее мы укажем на изменения, необходимые для исследования общего случая. Достаточно показать, что если 1/б<т) и dim^M < £, то dimvM<T]g. Если (ogM, то в силу (14.15) v(ип(со))Т|^\х(un(со)) для всех nt. больших некоторого натурального Л" (со). Пусть М9 — множество тех со, которые лежат в М и при каждом п удовлетворяют одному из двух неравенств: |i (ия (ю)) > р или v (ия (©) )л < м- (ип (со).). (14.16) Ясно, что Мр возрастает с убыванием р, мы покажем, что Мр f М при р | 0. Если (ogM, возьмем р = \i (uN (со) (со)) > 0 (здесь нам нужно предположение, что цилиндры, пересекающие Му имеют положительную ji-меру). Если \i (ип (со)) < р, то n>N(<u), так что v(^((u))T1<p,(^(a>)). Таким образом, (о удовлетворяет (14.16) для всех п, т. ё. ttGMp. Так как Мр f M, то в силу (14.3) достаточно доказать, что dimvMp<T]g (14.17) для всех положительных р. Предположим, что 0 < Pi < p и е!>0. Так как dimjLlMp<g, то S|i(o/)S<ei i для некоторого ц-р^покрытия {vt} множества Мр. Можно предположить, что все vt пересекают Мр. Но тогда Vt = un((o) для некоторого G)GMp) так что в силу М-(^/) ^ Pi < p имеем v(t^)11^ р. (£>/)• Поэтому Sv(0()*<8l. i Но {t;.j есть v-pj^-noKpbiTne множества Мр, и, следовательно, так как ej и pj произвольно малы, то v^(Mp) = 0, что доказывает (14.17). Остается снять ограничение ji(a)>0 для всех цилиндров v, пересекающихся с М. Пусть ^ — объединение всех цилиндров ix-меры 0. Так как dim^£^ = 0, то dim^ A = dim^B, если симметрическая разность множеств А и В входит в Е^ (ис- по ьзуем (14.3)). Если со лежит в множестве, фигурирующем в правой части соотношения (14.15) (при б>0), и если
14. СВЯЗЬ С ТЕОРИЕЙ РАЗМЕРНОСТИ 163 [х (ип (со)) = О для некоторого /г, то v (ит (со)) = 0 для некоторого т в силу соглашения (14.10). Таким образом, МП^с cMfl^v Мы уже знаем, что (14.14) справедливо для М — Е^ следовательно, dim^ М = dim^ (М - EJ > б dimv (M - EJ > > 6 dimv (М - £v) = б dimv M. Замечание. Относительно связи хаусдорфовой размерности с топологической -размерностью см. Гуревич и Вол- мэн [1]. Гуд [1] выдвинул предположение о том, что имеет место (14.4). Доказано это соотношение было Эгглстоном [1]. Бил- лингслей [1, 2] получил дальнейшие результаты методами этого раздела, а Кинни и Питчер [1] применили эти методы к проблемам размерности, связанным с разложениями в непрерывные дроби. О связи с теоремой кодирования для канала без шума см. Биллингслей [3]. Реньи [2] исследовал связь между размерностью и энтропией1). [) В работе' Фюрстенберга [1] изучена связь хаусдорфовой размерности с так называемой топологической энтропией (см. Адлер и др. [1]). Соответствующие результаты близки к содержанию этого параграфа. ~ Прим* ред. 11*
ГЛАВА 5 Кодирование 15. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА БЕЗ ШУМА Обозначения В этой главе мы будем рассматривать одновременно несколько сдвигов и поэтому следует сразу договориться об обозначениях. Кроме конечного множества р (пространства состояний), понадобятся еще два множества, которые мы обозначим а и т. Конечное множество р [а, т] состоит из г [s, t] элементов, причем общий элемент будем обозначать / [/, k]. Мы называем эти множества алфавитами, а их элементы — буквами. Обозначим через X [F, Z] пространство бесконечных в обе стороны последовательностей л: = (..., лг_ь х0, хи ..•) [у = = (..., у-и Уо> Уи •••)> г = (..., z-ь z0, 2Ь'...)] элементов из р [а, т], а через X [W, %] обозначим а-поле, порожденное цилиндрами. Позволим себе некоторую вольность в обозначениях, а именно будем использовать символ хп в двух смыслах —для обозначения п-й координаты (при фиксированном х) и для обозначения координатной переменной (при фиксированном п). Кроме того, мы будем рассматривать пространства, подобные X X F, и тогда хп будет обозначать функцию, значение которой в точке (х, у) есть п-я координата для х. Эти соглашения относятся также к уп и гп. Сдвиги будем обозначать Тх, Txxy и т. д. или, если нет опасности путаницы, просто Г. Символ рп [а}\ хп\ обозначает множество наборов по п элементов из р [<т, т]. Если \х — некоторая вероятностная мера на *#\ которая сохраняется преобразованием Тх, обозначим всю структуру (X, X, |я, Тх) просто [X, \х]. Единственный меняющийся элемент здесь |я; говорят, что мера \х (или [X, \х]) эргодическая [перемешивающая и т. д.], если сдвиг Тх эргодический [перемешивающий и т. д.] относительно \i. Энтропия меры [X, \х] есть энтропия сдвига Тх. Подобные замечания относятся и к пространствам F, Z. Будем называть [X, \х] источником, или источником информации (см. § 5). Мы рассматриваем хп как буквы, создаваемые источником, а последовательности (хт, ..., хп) и *»(♦.., х-и хо> хь •••) как сообщения. Мера ц описывает структуру этого источника.
15. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛАЧеЗ ШУМА 165 Канал без шума Теорему кодирования для канала без шума можно формулировать в терминах кодируемых сообщений как утверждение о том, как сделать эти сообщения наиболее короткими или как использовать наименьший алфавит. Мы рассмотрим теорему кодирования с этой последней точки зрения, Алфавит б Передатчик 1 ■ - JP-"1 '■- Алфавит а Приемник Пространство У Пространство У Рис. 5. и это послужит введением к Оолее сложным проблемам последующих, параграфов. Канал без шума состоит из передатчика и приемника, каждый из которых использует алфавит 0 (рис. 5). Математически канал без шума есть просто конечный алфавит а объема 5 и соответствующее пространство последовательностей (У, 2/). (Мера здесь не участвует.) Если сообщение у Алфавит р ( Источник У>— Пространство X Кодирующее устройство -*— Пр Алфавит б Передатчик остранство \ У /7/ Алфавит а Приемник юстранство / V Декодирующие устройство Алфавит р ■>-/ Адресат j Пространство X Рис. 6. посылают по каналу, то на другом конце канала его получают без всяких искажений. Предположим теперь, что сообщения должны быть посланы источником по каналу некоторому адресату, причем источник и адресат пользуются алфавитом р, а канал — алфавитом ст. Если р и ст различны, то, очевидно, сообщение должно быть кодировано 1) некоторым образом до передачи и декодировано впоследствии (рис. 6). Если источник создает, скажем, одну букву в секунду, то мы требуем, чтобы по каналу передавалась тоже одна буква в секунду--ни быстрее, ни медленнее. [) Слово „код" здесь не имеет ничего общего с секретным сообщением.
166 ГЛ. 5. КОДИРОВАНИЕ Предположим, что объем г алфавита р не превышает объема s алфавита a^(r^s). Например, р может состоять из г = 10 знаков 0, 1, ..., 9, а а — из s = 26 букв Л, £,..., Z. Ясно, что сообщения, создаваемые источником, можно кодировать таким^ образом, чтобы они могли быть переданы по каналу (отложим на время точное математическое определение понятия кода). Действительно, возьмем некоторое взаимно однозначное отображение я|) алфавита р в алфавит а; оно существует, если г ^.s. Кодируем последовательность х, заменяя каждый символ ^символом #rt = я|? (#J> и пошлец сообщение, состоящее из этих элементов алфавита or, по каналу. Для того чтобы восстановить посланное сообщение на другом конце канала, к полученным буквам можно применить обратное отображение о|Г . Последовательность х может быть передана по каналу, даже если r>s. Это ясно, когда, например, существует такое подмножество р0 множества р, объема не больше 5, что |i{^Gp0}=l. Рассмотрим менее тривиальный пример: пусть г = 4, 5 = 2, и пусть структура меры jx такова, что каждая буква с вероятностью 1 повторяется, т. е. M-f-^^^+J^ 1. (Этот источник не вполне стационарен, но пример можно изменить так, чтобы он был вполне стационарным; см. пример 3.3.) В р2 имеются только четыре возможных значения {%2ю *2n+i)- Пусть ф —взаимно однозначное отображение этих элементов на четыре элемента из а2. Если сообщение кодировано с помощью -ф: (y2nt у2п+1)«-ф (х2п, x2n+i)> то хп можно однозначно восстановить по уПУ и, следовательно, код делает возможной передачу лг'по каналу. Итак, задача состоит в том, чтобы кодировать х w у предпочтительно таким образом, чтобы затем х можно было восстановить по у. Мы должны теперь точно определить, что мы понимаем под кодом.. Код есть измеримое отображение ф пространства X в пространство Y. Можно потребовать, чтобы код обладал некоторыми нужными свойствами. 1. Стационарные коды. Код <р стационарен, если равенство срТхх = Тущ (15.1) справедливо для всех х из X. Это означает, что структура кодирующего устройства не меняется со временем. Мы всегда будем требовать, чтобы код был стационарным; с этого момента стационарность является частью определения кода. 2. Обратимые коды. Код ф обратим, если он по существу взаимно однозначен, т. е. в X существует такое множество Х0, что \х(Х0)~1 и ф — взаимно однозначное отображение множества XQ на F0 — q>XQ. Мы требуем также, чтобы ТхХ0 = Х0
15. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА БЕЗ ШУМА 167 и фЛ^2/ для любого множества Л, для которого АаХ0 и А^Ж (так что, в частности, У0еу), Код ф называют обратимым, когда такое множество Х0 существует. Если код обратим, то посланное сообщение (по существу) однозначно восстанавливается по полученному. В то время как понятие кода определяется безотносительно к какой бы то ни было мере \х на X, обратимость конкретного . кода зависит от того, какую меру \х мы рассматриваем. Для того чтобы подчеркнуть роль меры р, говорят, что код ф обратим по отношению к \i. Предположим, что код ф обратим по отношению к ц. Покажем, что сдвиг Тх с мерой ц и сдвиг Ту с мерой щг1 изоморфны. (Значение щг1 на B^<2/ есть ^(ф""1^); напомним, что ф всегда предполагается измеримым. Мера дор""1 является распределением полученных сообщений.) Очевидно, что У,Л&У% ^1ф"1(К0)=1 и TYY0=Y0. Пусть ф0-сужение ф на Х0. Предположим, что АаХцу и положим В = ф0Л. Тогда если Ле#, то Be2/ в силу определения обратимости- кода ф; если Bg2/, то А = Х0{)(р~1В && в силу измеримости ф, и если Л е X, то, разумеется, \х(А)^=\1^"1(В). Так-как %Txx = TYyQx для всех х из Х0, то тройка (А^, Y^ ф0) удовлетворяет уело* виям (Ii), (I2) и (13) изоморфизма (см. § б). Пусть, с другой стороны, сдвиг- Тх с мерой [х на X изоморфен сдвигу Ту с мерой у на Y. Так как Тх и Ту обратимы, то из замечания 5, следующего за определением изоморфизма в § 5, вытекает, что они изоморфны относительно тройки (Х0, У0> Фо)> обладающей тем специальным свойством, что ТХХ0 = Х0 и TYYQ~Y0. В этом случае ф0 почти является обратимым кодом (но не вполне), так как отображает Х0 на К0> а не Jf в У. Расширим ф0 до отображения ф с областью определения Х> полагая фх = ф0# для х из Х0 и йзяв в качестве (рх для х из X — Х0 некоторый элемент (...,/, /, /, • • •) пространства К, все коМпон£н?ы которого одинаковы (общий образ для всех х из Д — Х0У -Тогда ф обратим по отношению к \х, его сужение на Х0 есть снова ф0 и мера щГ1 идентична мере у. Таким образом, обратимый код по существу является изоморфизмом. Поэтому теория кодирования связана с теорией, развитой в гл. 2. 3. Коды без предвосхищения. Код ф называется кодом без предвосхищения, если для всех / из а и всех целых п множество ф"1 {у \ уп = /} = {х : (фл:)^ = /} принадлежит а-полю, порожденному случайными величинами ..., хп.и хп. (Обращаясь к мере ^1 на X, можно более общим образом потребовать только, чтобы ф-1 {у : уп = /} отличалось на множество
168 ГЛ. 5. КОДИРОВАНИЕ меры 0 от некоторого элемента этого а-поля. Но мы не нуждаемся в таком расширенном определении.) 4. Коды с обращениями без предвосхищения. Если код ср обратим, то сужение qp0 кода qp, которое отображает Х0 на У0, имеет обращение ф^1, отображающее Y0 на Х0. Такое обращение ф"1 можно расширить одним или несколькими спо* собами до некоторого обратимого кода, отображающего Y в X. Можно также требовать от одного из этих расширений, отличающихся друг от друга лишь несущественно, чтобы оно являлось кодом без предвосхищения. В этом случае декодирующее устройство может не отставать от кодирующего. Большая часть этих условий накладывается на понятие кода, что затрудняет доказательство существования кодов с заданными свойствами и облегчает доказательство их несуществования. Теоремы кодирования В случае канала без шума проблема состоит, в следующем.-Для заданного источника [X, \х] с алфавитом р и канала без шума с алфавитом а ищут код ф (из X в 7), обратимый по отношению к \х. Если такой код ф существует — и это является доматематической идеей, лежащей в основе проблемы, — то сообщение х может быть кодировано в виде фд: и послано по каналу к приемнику, где посланное сообщение может быть восстановлено из ух. Кажется интуитивно ясным, что для каждого из двух примеров, предшествовавших определению кода, обратимый код существует. В первом из этих примеров множество р мало (или по крайней мере буквы, создаваемые источником, принадлежат маленькому подмножеству р0 множества р), а во втором примере источник повторяет каждую букву дважды. Каждая из этих двух характеристик ограничивает скорость, с которой источник создает информацию. Дело в том, что обратимый код существует в том и только том случае, если энтропия источника [X, |х] не превышает In s. Теорема 15.1. Если энтропия h источника [X, [х] превышает Ins, то не существует кода (из X в 7), обратимого по отношению к \i. Доказательство. Если обратимый код ф существует, то сдйиг Тх (с мерой |х) изоморфен сдвигу Ту (с мерой [Хф"1). Но тогда Ту также имеет энтропию h. Так как алфавит а
15. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА БЕЗ ШУМА 169 содержит s букв, то (см. (7.1)) /г=* /г(7>Х In s, что доказывает теорему. Основной момент этого доказательства заключается в том, что из изоморфности Тх и Ту мы делаем вывод, что h(Tx) = = h(TY)\ это указывает на важность инвариантного определения энтропии. С другой стороны, естественная мера скорости, с которой источник [X, \х] создает информацию, есть lim Т 2 Ч (И*о = «о. • • •» *»-i = k-i)) П->оо а . *"". (т. е. h{JL, Тх), где с^~ поле событий, наблюдаемых в момент времени 0), и если h{Tx) не совпадает с этой величиной, то h(Tx) не является естественной мерой скорости создания информации; это указывает на важность теоремы Колмогорова. Таким образом, доказательство фактически использует все содержание гл. 2. По поводу обращения теоремы 15.1 мы докажем только один условный результат. Гипотеза. Источник [X, \i] имеет энтропию /г, и сдвиг Тх с мерой \i изоморфен любому сдвигу Бернулли с энтропией h. Если энтропия — полный инвариант (см. § 8) для сдвигов Бернулли (соответственно перемешивающих сдвигов Маркова, сдвигов Колмогорова и т. д.), то это предположение выполнено в случае, когда источник [J, \х] является бернул- лиевским (соответственно перемешивающим марковским, колмогоровским и т. д.). Возможно, что это предположение не выполняется вообще ни для какого источника. „Теорема" 15.2. Если h^lns, то rtpu справедливости высказанного предположения существует код {из X в У), обратимый по отношению к [л. Доказательство. Функция 2^|(Ру) вектора вероятностей (ри ..., ps) принимает все значения между ее минимумом 0 и максимумом Ins (например, если I изменяется от 0 до 1, то 2 Л (Is"1 + (1 — Ю S7-i) непрерывно меняется от 0 до Ins).,Поэтому если /z^lns, то существуют такие вероятности pi, ..., ps, что 2ri(p/) = /*. Если у — мера на У, кото- рая делает сдвиг Ту сдвигом Бернулли (ри ..., р5), то Ту имеет энтропию /г. По нашему предположению сдвиг Тх с мерой \х изоморфен сдвигу Ту с мерой y; следовательно,
170 ГЛ. 5. КОДИРОВАНИЕ существует код qp, обратимый по отношению к \i (и, между прочим, обладающий свойством \xcp~1 = у). Этот результат справедлив, но, быть может, бессодержателен; отсюда кавычки. Вопрос, является ли этот результат бессодержательным, эквивалентен вопросу о том, является ли энтропия полным инвариантом. Если эта „теорема" осложняется предположением, что наш код —код без предвосхищения, то это означает на самом деле, что вопросы, поставленные в § 8, осложняются требованием зависимости изоморфизма только от прошлого —сравните с результатом Синая о слабом изоморфизме. Замечание. Начало изучению этих проблем кодирования положил Шеннон [1]. Теорема 15.1 предложена мною — по крайней мере я не встречал ее в литературе. Это, конечно, весьма простое следствие теории Колмогорова. Не встречал я и „теорему" 15.2. Теорему кодирования для каналов без шума, изложенную с других точек зрения, можно найти у Файнстейна [2], Хин^ина [3] и Билли'нгслея [3]. В этих работах имеются варианты теоремы 15.1, по-разному неудовлетворительные, но в них содержатся конструктивные варианты „теоремы" 15.2. 16. КАНАЛ С ШУМОМ Определения Рассмотрим теперь канал, в котором на передаваемые сообщения действует шум, т. е. канал, в котором полученное сообщение может не быть точной копией переданного. Здесь передатчик и приемник могут использовать различные алфавиты (рис. 7). Для математической формализации этой схемы рассмотрим пространства (К, У) и (Z, %). Предположим, что для каждого //gF имеется некоторая вероятностная Mepav^(-) на" %. Будем считать, по техническим соображениям, что для каждого множества С из % мера vy(C) как функция от у измерима относительно ЗЛ Тройка [F, vyi Z] называется каналом; функция vy(*) называется ядром канала. Идея состоит в том, что если сообщение у передается по каналу, то полученное сообщение, которое будет, вообще говоря, искажено каким-либо случайным шумом, находится с вероятностью vy(C) в подмножестве С множества Z. В случае канала с шумом проблема состоит в кодировании данного
16. КАНАЛ С ШУМОМ 171 источника [X, \х] в Y так, чтобы канал использовался наиболее эффективно. Например, можно задаться вопросом, выгодно ли бороться с шумом, повторяя Каждую букву дважды. (Структуру канала и источника мы предполагаем полностью известной и не рассматриваем проблему статистического вывода.) Шум Алфавит б Передатчик > * - Алфавит г Приемник Пространство Y Пространство t Рис. 7. Хотя мы можем здесь без потери общности использовать один и тот же алфавит для источника, передатчика и приемника, мы все же, для упорядочения обозначений, возьмем алфавиты р, а и т соответственно. Если F = Z и vy представляет собой единичную массу, сосредоточенную в t/, то мы имеем канал без щума, описанный в предыдущем параграфе. Если vy — единичная масса для каждого у (Z может отличаться от Y), то мы имеем некоторый код из Y в Z. Канал стационарен, если Это, как обычно, означает, что свойства канала не меняются со временем. Мы всегда будем предполагать канал стационарным и включим это требование в определение. Канал называется каналом без предвосхищения, если для каждого п и каждого 1гет функция vy{z : zn = k} измерима относительно ст-поля, порожденного элементами • ••» Уп-ь Уп- (Код есть специальный род .канала. Понятие канала без предвосхищения соответствует понятию *кода без предвосхищения.)
172 ГЛ. 5. КОДИРОВАНИЕ Канал без памяти Рассмотрим такой специальный вид канала: пусть (cjk) есть (s X ^-матрица неотрицательных чисел, строки и столбцы которой нумеруются элементами алфавитов а и т соответственно и суммы по строкам равны 1. Ядро vy{*) задается формулой п vy {zi = kh m < / < п) = П Cykh l=m Этот канал передает буквы входного сообщения независимо; если по каналу передается буква /, то буква k получается на выходе с вероятностью Cjk. (Разумеется, сами буквы на входе не предполагаются независимыми; в самом деле, меры на пространстве У не участвуют в описании структуры канала.) Канал такого рода — очевидно, что он стационарный и без предвосхищения — называют каналом без памяти1). Заметим, что если а = т и Cjj=l для всех /, то мы имеем канал без шума, описанный в предыдущем параграфе. Доказывая, что хорошие (в смысле выполнения некоторых свойств) коды не существуют, мы не будем накладывать на каналы никаких ограничений. Доказывая, что хорошие коды существуют, мы основное внимание уделим каналу без памяти. Совместное распределение на входе и выходе Предположим, что задана мера [л на У такая, что [У, \х] есть источник. Мы хотим определить на произведении пространств (У X Z, 2/Х %) некоторую вероятностную меру Р, которая будет описывать совместное распределение на входе и выходе канала. Очевидно, нам нужно, чтобы для В^ У и Се % выполнялось равенство Р(ВХС)= \vy{C)p{dy). (16.1) в Этот интеграл определен в силу предположения, что vy(C) как функция от у измерима. Положим для множества М из 2/Х % P{M)=\vv{z\{y, z)e=M}ii(dy), У 1) Более общее понятие канала с конечной памятью см. например, у Хинчина [3]. (См. также Такано [1], который исправил* ошибку в рассуждении Хинчина.)
16. КАНАЛ С ШУМОМ 173 при М = ВХС это сводится к (.16.1). Класс множеств М из 2/Х%, для которых подинтегральное выражение есть функция, измеримая относительно 2/, содержит, конечные' объединения непересекающихся прямоугольников В X С и в силу монотонности совпадает с$УХ%. Итак, интеграл определен. Теперь легко проверить, что Р есть вероятностная мера и что , это единственная мера, удовлетворяющая (16.1). Если источник и канал стационарны, а мы всегда предполагаем, что это так, то мо^кно ожидать, что сдвиг Tyxz сохраняет меру Р. Теорема 16.1. Мера Р сохраняется при сдвиге Tyxz1)- Доказательство. Достаточно показать, что T=Tyxz сохраняет меры прямоугольников В X С. В силу (16.1) имеем Р (Г1 (В X С)) = J v, (Tz'c) \i(dy) = TylB = j vT-ly (Г-'С) (i (dy) = J vy (C) v, (dy) = P (B X C). в Y в Распределение, индуцированное мерой Р на F, совпадает с \i. Распределение, индуцированное на Z, есть распределение на выходе канала; как следует из теоремы 16.1, оно сохраняется при сдвиге Tz. Скорость передачи Определим теперь скорость передачи по каналу [Y, vyy Z] для источника [F, ц]. Каждому из трех сдвигов Tyxz (с мерой Р), Ту [с мерой \х(В) = Р (В X Z)] и Tz [с мерой Р {Y X С)] приписывается некоторая энтропия. Скорость определяется формулой R = h(TY) + h(Tz)-h(Tyxz). Интуитивный смысл этой формулы мы обсудим несколько позже. Более детально скорость можно изучить^ с помощью теоремы Колмогорова. Пусть 3S (соответственно ??) обозначает конечное поле в УХ % с атомами {(#, z):yQ = j}, j^o (соответственно {{у, z):zQ = k}, k<=%). Обозначим через ^?V^ поле событий из Y X Z, наблюдаемых в момент l) Tyxz Действует по формуле TYxz{y1 z) = (TYy, Tzzy — ITpuM. ред.
174 ГЛ. 5. КОДИРОВАНИЕ времени 0. Нетрудно показать, что если ^ — конечное поле в У с атомами {y:y0=*j}, /еа, то #( V rf&o) = ЯI V Г"^], где Г = 7>xz. Поэтому в силу теоремы Колмогорова h (Ту) = = h(Tv, &0) = h(T, &). Применяя аналогичное рассуждение к сдвигу Tz, видим, что если ввести обозначения то # = \ft-o / //( V Г* (Я V *)) « Я (г/о, л •, yrt-i, z0> . = lim -{Я(г/0> ..., Уп-\) + Н(го> --> *п-\)- — Я(г/0> ..., уп-и zQ, • •» ^я-1/> .. z*-i». (16.2) Используя свойство (А') из § 6, можно переписать выражение, стоящее в фигурных скобках в (16.2), двумя способами. Имеем: Я (|/0, ..., Уп-\) + Н(г0у .„, гп_г)-Н(у09..., Уп-и z0» •••» Z/i-iH -Я(у0. .... Уп-\)-Н{Уь> .... У/1-i 1«о» •••» *«-iH «Я(*0. •••> 2я-1НЯ(г0, -., «я-il^o. •••» Уя-i)- (16-3) Средний член формулы (16.3) имеет следующую интерпретацию, Если бы мы получили сообщение у0>'•• *9 уп-и то (среднее) количество полученной информации равнялось бы Я(Уо> •••» Уп-\) ~* прирост информации равен устраненной неопределенности. Однако если сообщение у0, ..., уп_х было передано по каналу таким образом, что мы получили вместо него искаженное сообщение z0, ..., zn„u то к той неопределенности, которой обладало посланное сообщение у0, ..., уп_и прибавляется еще некоторая неопределенность— (среднее) количество этой неопределенности есть Н (у0,..., уп„{ |г0,..., гп_{). Поэтому разность между этими двумя величинами, т. е. средний член формулы (16.3), является разумной мерой (среднего) количества получаемой информации. Итак, полученная информация = = информация в посланном сообщении минус неопределенность от искажения при передаче.
16. КАНАЛ С ШУМОМ 175 Таким образом, R= lim--{tf(y0, ..., yn-i)-H(y0, ..., yn-\\z0, ..., zn_x)} представляет собой количество полученной информации, приходящейся на букву, и, следовательно, задает скорость. Величина \im ~Н(у0у ..., 0Я-,|2О,-..., 2я.1) = А(Гк)-/г = Л(ГуХ2)-Л(Гг) называется ненадежностью (на букву). Если энтропия источника фиксирована, то увеличение скорости передачи равносильно уменьшению ненадежности. Если мы принимаем ту интерпретацию энтропии и условной энтропии, которая была предложена в гл. 2, то эти определения естественны: высокая скорость (малая ненадежность) хороша, а низкая скорость (большая ненадежность) плоха. Другой подход к измерению эффективности пары источник — канал состоит в рассмотрении проблемы реального построения эффективного алгоритма для восстановления посланного сообщения по полученному. Хотя этот второй подход косвенным образом опирается на материал § 18 и 19, мы не будем изучать его систематически !). Явно вычислить скорость мы можем только в специальных случаях. Пусть (cjk) есть (s X 0-матрица, описывающая канал без памяти.,Так как Н(Zq, ..., zn-i\y0, ..., j/ft_i) = = ~ 1 ( S' Ыо • • • Ч-iVi)1п (ч*о • • • ^ivJ) i* (*»>• Y U0.-.Vl ' J TO H\z0, ..., zn.x \yQ, ..., y^i) = nH (z01 Уо) (16.4) независимо "от распределения величины уп. Для любого множества вероятностей ри ..., ps на,алфавите а определим другое множество вероятностей qu ..., qt на алфавите т по формуле 1) Сравнение этих двух подходов обсуждается у Файнстейна [2, гл. 3].
176 ГЛ. 5. КОДИРОВАНИЕ и положим /г / k / /г /Л Если ^{у'-Уо^П^Рр /еог» О6-6) то, даже если #„ не независимы относительно ц,, г(ри •••> Рз) = Н{у<))-Н{у0\20) = = H(z0)-H(z0\y0) = = Н(у0) + Н(г()-Н(уо,г0). (16.7) Если выполняется (16.6) \и <?суш #,г независимы, то Я(*/0, ..., jfo-i) + #(z0, •••> *п-1)-Н(Уо> ••-. У/i-b ^о» ...,.z„_i) = = яЯ Ы + ^Я (г0) - дЯ (г/0, г0) = пг (ри ..., /?Д так что скорость задается формулой R = r(Pl,:.., Ps). (16.8) Это соотношение может не выполняться, если уп не независимы. Пример 16.1. Пусть имеется канал без памяти, где 5 = 2, ^ = 3, и матрица (cJk) есть Г 1 0 0 "1 oil Lu 2 2 J Для любых вероятностей на входе (рь р2) матрица {pjcjklqk) есть Г1 0 0] 0 1 1 Г
16 КАНАЛ С ШУМОМ 177 так что Н (yQ\zQ) = 0. Даже если уп не независимы, то в силу свойств (А4) и (Аз) из § 6 п-\ Н \Уо> • • •» Уп-\ Г^о> • • • > zn- <2H(y,\zt) = 0, так что ненадежность исчезает. Для этого канала скорость всегда совпадает с энтропией на входе1). Пример 16.2. Пусть имеется канал без памяти, где все строки матрицы (cjk) одинаковы: cjk не зависят от /. Тогда Н (201 yQ) = H (zQ) и, следовательно, в силу (16.4) #(z0, ..., 2я-1)-Я(г0, ..., гп-х\у0, ..., уп-\) = = tf (z0> ..., z^O-tttf (z0). В силу свойства (А4) из § 6 эта величина равна нулю. Скорость всегда нуль, независимо от входа; по этому каналу не может быть передано никакой информации2). Пример, описывающий промежуточную ситуацию между двумя крайними, представленными примерами 16.1 и 16.2, показывает, что скорость обычно зависит не только от, источника и не только от канала, а от их взаимодействия. Пример 16.3. Пусть имеется канал без памяти, где s = / = 4, и матрица (cjk) есть Г1 О О О "I 0 10 0 Из (16.5) следует г (рь ..., р4) = т)(р\) + Л (р2) + т|(р3 + Р4). (16.9; Предположим теперь, что у£ независимы относительно jx, так что (16.9) задает скорость передачи, а Л(Р1) + л(р2) + л(Рз) + лЫ (16.10) !) Канал, подобный этому, называется каналом без потерь. См. Файнстейн [2]. ч 2) Характеристика каналов без памяти, обладающих этим свойством, дана у Файнстейна [2]. 42 Зак. 1491
178 ГЛ. 5. КОДИРОВАНИЕ — энтропия источника [Г, \х]. Если Pi = P2 = 0> T0 скорость (16.9) равна нулю, в то время как энтропия (16.10) может достигать In 2; такой источник плохо согласуется с каналом. С другой стороны, если р4 = 0, то скорость (16.9) и энтропия (16.10) совпадают, хотя их общее значение может равняться нулю; такой источник хорошо согласуется с каналом. Пропускная способность канала Скорость передачи зависит и от источника [F, \i]> и от канала [Г, v^, Z]; для фиксированного канала [F, v^, Z] скорость есть функция R^ щеры \х, описывающей вероятностную структуру источника. Верхнюю грань этих скоростей C = sup/?u (16.11) называют пропускной способностью. Пропускная способность — это скорость, с которой информация может быть передана по каналу, если он используется наиболее эффективным образом — путем выбора источника, „подходящего" этому каналу. (В действительности мы обычно не знаем, достигается ли эта верхняя грань.) По техническим соображениям мы должны различать две пропускные спо-~ собности. Если верхняя грань в (16.11) берется по всем мерям ц, которые сохраняются сдвигом Ту, то мы дшеем стационарную пропускную способность Cs. Если верхняя грань берется только по тем \i, относительно которых сдвиг Ту эргодичен, то мы имеем эргодическую пропускную способ- ность Се. Очевидно, что Ce^.Cs. Заметим, что для канала без шума, описанного в предыдущем параграфе, Ce = Cs= Ins. Вообще вычислять пропускную способность довЬльно трудно, но для канала без памяти это сделать можно. Теорема 16.2. Для канала без памяти С3 = Се = тахг(р{, ..., р5), где (pi, .*.»р5) пробегают все возможные распределения вероятностей на алфавите а. Доказательство. Выбирая р^..., ps так, чтобы максимизировать r(pj, ...,p5) (используя компактность), и вспоминая, что сдвиг Бернулли эргодичен, в силу (16.8) получаем Се > max г (рх, ..., ps).
16. КАНАЛ О ШУМОМ 179 Для доказательства неравенства С5< maxr (plf ..., ps) достаточно -показать, что для любой меры \i на входе и для любого п справедливо неравенство 0> • • • > %п-\ I Уо> • • •» Уп-\ ^nH(z0)-nH(z0\y0). Очевидно, что Н (z0> • • •, 2«-i) < #t*o) + ... + Я (*«-i) = "# (z0), и наше утверждение следует из (16.4). Это рассуждение показывает, что для канала без памяти верхняя грань в, определениях Cs и Се достигается; для более сложных каналов это доказать трудно. В примере 16.1 пропускная способность канала равна In 5 = In 2; в примере 16.2 она равна 0, а в примере 16.3 она равна 1пЗ. Эргодичность процесса передачи Можно задаться вопросом, какие условия на канал [F, vy, Z] обеспечивают эргодичность входной — выходной меры Р [определенной соотношением (16.1)], какова бы ни была мера jx. Необходимые и достаточные условия неизвестны. Сформулируем и докажем следующий результат, который в дальнейшем использоваться не будет. Теорема 16.3. Канал без памяти обладает тем свойством, что мера Р эргодична, какова бы ни была мера \i Доказательство. Достаточно показать (теорема 1.4), что п-\ lim — У Р {Е П Г1Е') = Р{Е)Р (£') (16.12) П + оо П £4 для цилиндров Е и Е'. Будем доказывать (16.12) в предположении, что £ = {(#, г): y0 = j, г0=*}и£,={(г/, г): y0=j'',z0 = fc'}; более общий случай доказывается аналогично. Левая часть равенства (16.12) есть /Z-1 Ит~7гХР^о = /> 2о = &> #/ = /', 2/ = £'} = п->оо п ЛЯЛ п-\ = ^т т 2 И»ов /• Уг = Л c,kc,>k> = " I* [Уо Т1} И [Уо = /'} citfn' = р (£)р (Е'). 12*
180 ГЛ. 5. КОДИРОВАНИЕ где предпоследнее равенство справедливо в силу эргодичности [I. Замечание. Изложенные здесь идеи принадлежат Шеннону [1]. Макмиллан [1], Файнстейн [1] и Хинчин [3] дали им точную математическую формулировку. Брейман [2] обобщил теорему 16.2, доказав, что Ce = Cs и верхняя грань достигается для некоторого класса каналов с конечной памятью. По поводу обобщения теоремы 16.3 см. Адлер^ [1]/ 17. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА С ШУМОМ Проблема В общих словах теорему кодирования для канала с шумом можно описать следующим образом. Сообщения посылаются от источника [X, \i] по данному каналу [Y, vy, Z] к адресату (рис. 8). Мы должны вставить в схему кодирующее ( щм j Алфавит р Источник Кодирующее \устройство\ Алфавит б Передатчик „ у / ' „ Алфавит г Приемник V Декодирующее устройство Адресат Пространство X Пространство Y \ Пространство 7 / канал Рис. 8. устройство, которое будет работать эффективно. Эффективность измеряют скоростью, с которой информация передается от источника к приемнику, игнорируя при этом вопрос о том, как использовать эту информацию в приемнике для восстановления посланного сообщения. Код ф из пространства X в пространство Y приводит к сложному каналу из X в Z, т. е. сообщение х посылается в кодирующее устройство, после чего закодированное сообщение у посылается по каналу и на выходе получается сообщение z. Пусть энтропия источника равна h и пропускная способность — скажем, стационарная пропускная способность — канала равна h. Прямая теорема кодирования утверждает, что при h ^ С существует такой код ф, что ско-
17. ТЕОРЕМА КОДИРОВАНИЯ~ДЛЯ КАНАЛА С ШУМОМ 181 рость передачи по сложному каналу равна h. Обратная теорема кодирования утверждает, что при h > С такого кода ср не существует. Есть различные варианты этих теорем. Пусть нам дан канал [У, v^, Z] и код ф из I в 7; Очевидно, что v9 {х) (•) — ядро и, следовательно, [X, v9 {х) (•), Z] — сложный канал. Рассмотрим для заданной меры \i на X меру Р на XX YXZr определенную формулой Р(АхВХС) = J vvU)(C)|i(d*). (17.1) ЛПф~*В Мера Р индуцирует частные распределения Рх, Рх х y и т. д. Заметим, что Рх = М<> Py^Px^^W1 tTaK ка* Р(Л ХВ ХС) = = Р(Л Пф""1^ X Y X С)] и Pxxz задает совместное распределение на ^ входе и выходе для источника [X, \i] и сложного канала [X, v<pU), Z]. Пусть h — энтропия источника, С5 — стационарная пропускная способность канала [У, vtJ1 Z]. Скорость передачи по сложному каналу [X, v9(X), Z] (с мерами Рх, Pz, Pxxz) Для источника [X, \i] есть Rv = h(Tx) + h(Tz)-h(Txxz). Ненадежность есть величина h(Tx)-R» = h(Txxz)-h(Tz), на которую эта скорость меньше энтропии источника [J, \i]. Мы ставим перед собой задачу разыскания кода, при котором скорость высока (ненадежность мала), игнорируя при этом, как уже отмечалось, проблему, заключающуюся в, восстановлении X ПО Z. Простое обращение Следующий результат является частным случаем теоремы 17.3. Теорема 17.1. Если код ф обратим по отношению к \i, то R^^Cs. Следовательно, при h>Cs не существует кода, обратимого по отношению к \ху для которого R[X = h. Доказательство. По определению стационарной пропускной способности скорость передачи по каналу [У, vy, Z] для источника [У, \щГ1] есть величина h(Ty) + h{Tz)-h(TYxz), не превышающая Cs.
182 ГЛ, 5. КОДИРОВАНИЕ Следовательно, достаточно доказать равенство h (Тх) + h (Tz) -h(Txx z) = ft (Ту) + h (Tz) - A (7> x z\ (Здесь сдвигу Tz соответствует мера Pz) Так как по предположению код ф обратим, то сдвиги Тх и Ту изоморфны и, следовательно, А(Гх) = А(7у). Таким образом, нужно только доказать, что • h(Txxz) = h(TYxZ)- Но если Тх изоморфен Ту относительно тройки (Z0, F0, ф0), то, как легко видеть, Txxz. изоморфен TyXz относительно тройки (Х0 X Z, Y0 X Z, -ф0), где ty0(x, г) = {щх, г), и теорема доказана. В случае когда [F, vy, Z] —канал без шума, теорема 17.1 сводится к теореме 15.1. И снова для доказательства необходимо инвариантное определение энтропии. Если мы предполагаем,, что \i эргодична, то и [Хф~! эрго- дична, и в этой теореме можно заменить Cs на Се. Заметим, что мы не предполагали, что ф —код без предвосхищения. На практике проблема декодирования заключается в восстановлении х по 2, а не по уу ибо предположение обратимости в теореме 17.1 неестественно. В теореме 17.3 это предположение снимается. Комментарии к прямой теореме для канала без памяти Нам представляется соблазнительной попытка доказать для канала без памяти условный результат, подобный „теореме" 15.2. Наше предположение таково: Гипотеза. Источник [X, \i] имеет энтропию А, и сдвиг Тх с мерой \х изоморфен любому сдвигу Бернулли с энтропией А. Ясно сознавая, что нам не удастся дать для- нижеследующей „теоремы" ни условного, ни безусловного доказательства, мы все же сформулируем утверждение и исследуем возникающие весьма поучительные трудности. Напомним, что структура канала без памяти задается (s X /)"матрицей (cJk), описанной в § 16, и пропускная способность С = Ce = Cs дается максимумом величины (16.5). „Теорема" 17.2. Пусть имеется канал без памяти, источник [Xt \i] удовлетворяет высказанной гипотезе
17. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА С ШУМОМ 183 и h^C. Тогда существует такой обратимый по отношению к \i код ф, что скорость передачи R^ no сложному каналу равна h. Рассмотрим сначала специальный канал без памяти [У, vy, Z], для которого можно провести доказательство,— канал из примера 16.3. Пропускная способность этого канала равна 1пЗ. Если А<!1пЗ, то для, р4:=0 и подходящим образом выбранных ри р2 и р3 величины (16.9) и (16.10) принимают одинаковое значение h. Пусть у— мера на пространстве У, которая делает сдвиг Ту сдвигом Бернулли (рь ..., р4). Тогда h(TY) = h, скорость передачи по каналу [У,~vy9 Z] для источника [У, у], равна h и ненадежность исчезает. По предположению существует код ф (из X в У), обратимый по отношению к \х, такой, что у — И-Ф"1- Из обратимости кода ф следует, как и в доказательстве 1 теоремы 17.1, что скорость передачи по сложному каналу для источника [X, \i] имеет то же значение А, что скорость передачи по каналу [У, v^, Z] для источника [У, (Хф"1]. Это рассуждение работает, если только канал обладает тем специальным свойством, что при h^.C существует на У мера у, удовлетворяющая условиям: 1) Ту — сдвиг Бернулли относительно меры у; 2) [У, у] имеет энтропию й; 3) скорость передачи по каналу для источника [У, у] равна h (или, что эквивалентно в силу условия 2, ненадежность равна 0). Этим свойством обладает канал из примера 16.3 и любой канал без шума („теорема" 15.2), но им не обладает общий канал без памяти — например, в случае, когда все cjk строго положительны. Для общего канала без памяти можно доказать, что при /г<!С существует мера y на пространстве У, удовлетворяющая условиям 2 и 3. Однако для того, чтобы провести наше доказательство полностью, необходимо при невыполнении условия^ 1 усилить основную гипотезу таким образом, чтобы обеспечить изоморфизм сдвигов Тх (с мерой \i) и Ту (с мерой v). Для того чтобы превратить „теорему" 15.2 в настоящую теорему, скажем, для перемешивающего марковского источника [X, pj, нужно потребовать полноты энтропии для перемешивающих сдвигов Маркова. Для того чтобы превратить „теорему" 17.2 в'настоящую теорему для того же источника, нужно потребовать полноты энтропии для некоторого более широкого класса сдвигов —достаточно широкого, чтобы включить сдвиг Ту с мерой у-
184 ГЛ. 5. КОДИРОВАНИЕ Эти замечания предлагают некоторую возможную программу доказательства прямой теоремы кодирования для канала без памяти. Параграфы 18 и 19 можно рассматривать как конечное конструктивное приближение к этой программе: мы построим меру у, приближенно удовлетворяющую условиям 2 и 3, и затем построим почти обратимый код ср, переводящий \х в у. Усиление обращения* Теорема 17.1 показывает, что если между источником и передатчиком действует обратимый код, то скорость передачи от источника к приемнику не может превышать пропускной способности канала. Интуитивно ясно, что это утверждение должно быть справедливо и в случае необратимого кода, и в случае случайного кода. Случайный код— это просто канал [J, £^, Y]; если его ядро £х( •) есть единичная масса в точке щ, то мы имеем снова обычный код ср. Сложный канал, который получается в результате введения случайного кода, —это канал [X, $х, Z], где ядро Р.Л •) определяется формулой Ь(СУ= j ZAdy)vy{C). Y (Заметим, что $х (С) — измеримая функция от х.) Мы покажем, что скорость передачи по каналу [ft, $х, Z] для источника [X, \х] не может превышать скорости передачи по каналу [F, vy, Z] для источника [F, А], где k(B)= J \i(dx)Zx(B); х разумеется, это вторая скорость не может превышать стационарной пропускной способности Cs канала [Y, vy, Z]. Определим меру Р на X X Y X Z формулой Р(АХВХС)= j \ \ix(dx)Zx(dy)vy(dz) = ABC = J jli(dx)lAdy)vy(C). (17.2) А В [Если код [X, g^, Y] не случайный, то (17.2) сводится к (17.1).] Пусть Л — поле событий, наблюдавшихся в момент времени О, для пространства X, вложенного в произведение X X Y X Z, т. е. Л — конечное подполе поля JX2/X 2 с атомами {(х, у, г) : х0 = /}, / е р. Аналогично пусть 38 и <? — поля событий, наблюдавшихся в момент времени 0, соответственно для
17. ТЕОРЕМА КОДИРОВАНИЯ ДЛЯ КАНАЛА С ШУМОМ \%§ X и Z, вложенных в X X Y X Z. Если Г — сдвиг на X X Y X Z (с мерой Р, определенной формулой (17.2)), то две упоминавшиеся выше скорости есть R(x->z) = h{<A9 Г) + й(*Г. D-M^VSf, Г) и R{tj-»z) = h{&, T) + h(V, T)-h(£W, T). Мы хотим доказать интуитивно ясное соотношение R (x~>z)^. <^R{y-->z)y которое сводится к h{<AV%, T)-h(<At T)>h(SPW, T)-h{#,T). (17.3) оо оо , оо Пусть JT0= V Тп<Л,У0= V ТЯЗВ и %0= V Т"%; заме- П=— оо Я=—оо «== — оо тим, что, например, Х0 состоит из множеств вида AXYXZ, где А принадлежит X. Основной факт, который мы используем, заключается в том, что если Me %0, то Р {М \\&0 V %} = Р {М ||2/0} п. в. (17.4) Это соотношение, аналогичное свойству марковости, вытекает из (17.2): если М = XX У X С, то общее значение правой и левой частей равенства (17.4) в точке (#, х/, г) есть vy(C). В силу (12.5) имеем h(Jt\/V> T)*>H(<AvV\J~ V%~)9 где <>Г = V ТпА и £Г = V Т"^. Тогда по теореме 12.3 гс<0 п<0 h(A V ?, Т)=Н{ЛУ% \Л~У%~)=Н{% \ЧГ V Я0)+Н(Л \Л~). Аналогично (Л» V ?, Г) = Я( 38 V ^ 13f V *Г)=Я (Sf \ЧГ V %) + Я (Л» \В~). Наконец, h{<A, T) = H(<A\-A~) и h(ffi, T) = H{&\®~). Поэтому (17.3) эквивалентно неравенству н<? isrv jt0)> я'(£? \чг v %). Так как в силу свойства (С3) из § 12 Я (Sf |*Г V Jr„) > Я (ST |«" V ^о V %), то вся задача сводится к доказательству равенства Я (S? 18- V ^о V %) = Я (8* 1ЧГ V %). (17.5) Если мы покажем, что Я (? \%-п V ^о V %) = Я (^ |*ГП V 30, (17-6)
186 ГЛ. 5. КОДИРОВАНИЕ где ^~п = V Г^, то справедливость соотношения (17.5) -/г<& <0 будет следовать из теоремы 12.1. Но в силу свойства.(Q) из § 12 соотношение (17.6) представляется в виде h(v v %"n (^о v %)- н(^-п\х0 v %)== И, наконец, в силу (17.4) имеем #(^-"|jr0v%) = #(^|%) и H(ff V 8"я \#0 V %) = Я(^ V 8"" |Уо)- Мы доказали следующий результат. Теорема 17.3. Для любого случайного кода R(x->z)^ ^.R(y->z)^.Cs. Если h —энтропия источника [X, ^ — превышает CSi то не существует случайного кода, для которого /?(*-> г) = А. Замечание. Теоремы 17.1 и 17.3 по существу содержатся в результатах Пинскера [1]. § 18. ТЕОРЕМА ФАЙНСТЕЙНА Вернемся теперь к анализу прямой теоремы кодирования для канала с шумом. Ограничимся рассмотрением канала без памяти. Сама теорема приводится в § 19ь Здесь мц докажем два предварительных результата, принадлежащих Файнстейну. Решающая схема Канал без памяти задается (s X /)-матрицей {cjk) из § 16. Его пропускная способность С = CS= Се есть максимум выражения (16.5). Теорема 18.1. Рассмотрим канал без памяти с пропускной способностью С. Если 0<е<С, то существует такое положительное целое число &i(e), что аь" при Ь^Ьх{г) состоит из N различных точек иь ..., uNi а хь распадается на N непересекающихся множеств Vb ..., VN, где щ и Vx таковы, что P{(zu ..., zb)^Vi\{yu ..., ^) = ^}>l-e, ,/=1, ...,#, (18.1) и N>eb(C'eK (18.2)
18. ТЕОРЕМА ФАЙНСТЕЙНА 187 Если Ui=(ji, ..., jt,)^ob, то левая, часть неравенства (18.1) есть просто где сумма берется по наборам (ku ..., kb) из подмножества Vi множества т&. Следовательно, условные вероятности определяются только каналом, так что теорема применима к любой мере у на входе F. Сущность этой*теоремы состоит в следующем. Допустим, посланное сообщение (у и ..., Уь) получено в виде сообщения (zi, ..., zb). Если известно, что (уи ..., уь) — один из наборов иь ..., uNi a (zb ..., ^6) принадлежит Vh то в силу (18.1) представляется разумным предположить, что (уи ..., уь) есть действительно наОор и/# И если источник может кодироваться обратимым или почти обратимым образом, причем так, что переданное сообщение с большой вероятностью принадлежит {иь ..., uN}y то посланное источником сообщение должцо с хорошей точностью восстанавливаться по полученному, и, следовательно, ненадежность должна быть малой. Наборы щ и V/ дают схему для решения вопроса о том, каково,было переданное сообщение. (См. обсуждение скорости и ненадежности в § 16.) Эта идея лежит в основе теоремы кодирования следующего параграфа. . Идея доказательства теоремы 18.1 такова. Предположим, что алфавит а содержит ровно две буквы, скажем, 0 и 1. Пусть Ь — четное' число, 6 = 2а, и пусть последовательность их состоит из а нулей, за которыми следует а единиц, а последовательность и2 состоит из а единиц, за которыми следует а нулей. Если Ъ велико и (уи ..., уь) = их, то с высокой условной вероятностью частоты в (zu ..., za) почти совпадают с первой строкой матрицы (сд), в то время как частоты в (za+ii ..., zb) почти совпадают со второй строкой матрицы. Если (уь ..., Уь) = и2, то верно то же самое, но две первые строки матрицы (cjk) меняются местами. Так как эти две строки различны (если только пропускная способность не равна 0), то распределение(гь ...,z6) при условии {уи ...,У&) = "1 сильно отличается (при большом Ь) от распределения при условии (уи ..., уь) = и2 в силу того, что нули и единицы расположены в их и и2 не одинаковым образом; и это-позволяет нам найти непересекающиеся множества V\/n V2, для которых имеет место (18.1). Доказательство опирается на тщательный анализ условных распределений на выходе для большого класса различных входных последовательностей.
188 ГЛ. 5. КОДИРОВАНИЕ Так как заключение теоремы 18.1 тем сильнее, чем меньшее-, то, доказывая ее, можно предполагать, что 0<е<±. Поскольку результат не зависит от того, какова входная мера y» можно выбрать ее так, чтобы упростить доказательство. Выберем меру у так, чтобы уп были независимы относительно у, причем y{yo==j} = pji где рь ..., ps выбраны так, чтобы функция г(ри ..., р5), определенная формулой (16.5), была максимизирована. Тогда в силу теоремы 16.2 С = #(0)-Я(0|/), где qk = lZjpjCjk> величина я(0) = 2т|Ы k — энтропия на одну букву на выходе канала, а я(0|/)=2ряМ jk — условная энтропия на выходе при фиксированном входе. (Везде в доказательстве индекс / пробегает алфавит а, а индекс k пробегает алфавит т.) Выберем к так, что Я>1, jr<-j> <18-3) где s — объем алфавита а. Далее, выберем К так, что -3sX*l2%lnqk<K (18.4) ь и ~ЗЯ3/2Ц1п^<^, (18.5) где суммы берутся только по тем 6, для которых ^>0, и по тем (/, k)y для которых с^>0. Наконец, выберем положительное целое число Ь\(г) так, что при Ь^Ьх(г) (что мы в дальнейшем будем предполагать) 1п(4/«) + 2*уТ<в> (186) Обозначим символом П меру на оь X т&, индуцированную набором (уи ..., уь, zu ..., zb): IL(E)~P{(yu .... ft, ги ♦ .., **)€=£}, £с=сг'хт'. (18.7)
18. ТЕОРЕМА ФАЙНСТЕЙНА 189 Мера П приписывает точке (/ь ..., jb, ku ..., kb) массу pj{ ... pjbCflkl ... cibkb- Если В ciGb [с cir% будем писать П(В)[П(С)] вместо П(Я X т*)[П(а* X С)]; это не должно привести к путанице. Наконец, для С ать и и^оь мы пишем Пв(С) = Р{(г„ ..., zb)s=C\(yu ..., у,) = ц}. (18.8) Если и = (/ь ..., /ft), то очевидно, что П„ (С) есть 2 с/,*,. •. c\bkb, где суммирование ведется по всем (ku ..., &6) из С. Для и^оь и /еа пусть N(j\u) обозначает число компонент набора и, равных /; аналогично для v e т6 и Sgt пусть Л/(&|а) обозначает число компонент набора у, равных k\ наконец, для aGaft, dgtj, / е а и & е т- пусть N{jk\uv) есть число тех Z, l^Z^ft, для которых /-е компоненты наборов и и v равны соответственно / и k. Тогда П (v) = ехр 2 N (k | у) In <yft (18.9) и Utt(v) = ехр 2 # (/fe |ио) In суЛ. (18.10) ik Говорят, что и есть ^-последовательность, если \N(j\u)-bpj\<xVb для всех / е а; говорят, что последовательность у порождена последовательностью и, если - |^(//е|^)-^(/Ча)^|<Я/Ж(7Й для всех / е а и &^т. Нам потребуются следующие четыре леммы, из которых первые две непосредственно вытекают из неравенства Чебы- шева и условий (18.3). Лемма 1. Если S — множество р-последовательностей, то n(S)>l-f>l/ Лемма 2. Если Gu — множество последовательностей из ть, порожденных последовательностью и} то n.(Og)>l—}.
190 ГЛ. 5. КОДИРОВАНИЕ Лемма 3. Если последовательность v порождена некоторой р-последовательностью, то II(v)^e-bH(0)+KVF. Лемма 4. Если Ва — число элементов множества Ga, то для каждой р-последовательности и Для доказательства леммы 3 заметим, что если и порождает v, то N{k\v) = ^N{jk\uv)^^[N{i\u)cjk-KV¥W)l в то время как если и есть р-последовательность, то bp}-XV~b< N{j\u) < bpj + Я Y~b < 2Kb, так что N (k | v) > b 2 PjCjk -slV~b- 25Я3/з Yb > bqk - 3s^/2 Y~b. h Отсюда и из (18.9) и (18.4) следует лемма 3. Для доказательства леммы 4 заметим, что если и есть р-последовательность и она порождает и, то N(jk\uv)^N(j\u)cjk + xYNlJW)< <(bpj + kYb)cjk + xYbpj + X УТ< <6р;.^ + ЗЯ3/2/б~> так что в силу (18.10) и (18.5) IIa{v)^e-bH(0^-KVb~. Так как nu(G„)^l, то лемма доказана. Для доказательства самой теоремы 18.1 рассмотрим элементы иь ..., uN из аь и подмножества Yj, ..., VN из ть, удовлетворяющие следующим четырем свойствам: 1) каждая щ есть р-последовательность; 2) ПИ/(1//)>1—е для каждого /; 3) каждое подмножество V\ состоит из последовательностей, порожденных последовательностью и{ и не содержащихся в V, U ... U Км> т. е. 1/,= Gai - (1/, U .. • U Км); 4) не существует uN+l и l/yV+i таких, что ии ...,. а^+1 и Ki, ..., VN+[ удовлетворяют условиям 1, 2 и 3.
18. ТЕОРЕМА ФАЙНСТЕЙНА 191 В силу лемм 1 и 2 такие щ и Vi существуют (быть может, при N=1). Затем если и есть р-последователь- ность, не принадлежащая множеству ии ..., uN, то nu(Gu(](v\[}...l)VN))>-Y. (18.11) В. противном случае мы могли бы взять uN+l = и и VN+x = Gu-(Vi\)...\}VN), ' противоречащие условию 4, так как по лемме 2 ПЦу+1 (VN+l) = = Ilu(Gu)-Ila(Gu()(Vl[)...l}VN))>l-el2-el2=l-e, С другой стороны, если и принадлежит множеству ии ..., uN> скажем, и = щ, то ЙЙ(С„П (7, U ... U VN))>Uu(Vl) = Uul(Vl)> >1— е>е/2. Таким образом, неравенство (18.11) выполняется для любой р-последова!ельности г/. Поэтому n(F1u...u^)>2n^n»^u---^>4n<s)>-r в силу леммы 1. Из леммы 3 следует, что число элементов в объединении V\\J - - • \)VN не меньше 4 е Но в силу леммы 4 число элементов 7j [} ... U VN не больше доеья<о|/)+к>Т# Комбинируя эти оценки и используя (18.6), получаем N^-j-ebc'2KVF>eb^c'E\ чем доказательство завершается. (Если множества Vi не исчерпывают всего ть, дополним одно из них.) Применения Вспоминая еще раз, что теорема 18.1 справедлива при любой входной мере у на пространстве Y, предположим, что для входной меры Р{(Уи ...» Уь)^{Щ> ..., uN}}-= = Y{(</i, ..., Уь)^{иъ ..., uN}}==L (18.12) Наш ближайший результат состоит в том, что в такой обстановке переданному сообщению (уи ..., уь) отвечает лишь малая-неопределенность, если полученное сообщение (zi9 ..., zb) известно. Остается проблема конструирования почти обратимого кода, для которого свойство (18.12) выполняется.
192 ГЛ. 5. КОДИРОВАНИЕ Теорема 18.2. Для ut и Vt из теоремы 18.1 справедливо неравенство Н(уь ..., уь\гъ ..., zft)<Ti(e) + Ti(l-e) + eln** (18.13) при условии, что выполняется свойство (18.12) и е<1/е. Доказательство. Вспомним, что объем алфавита т равен /. Мы должны ограничить сверху величину Щу19..., yb\zh ..., zb) = H(#'\V), где 31' — конечное подполе/ поля У У, % с атомами {(*/> г): (уи ..., уь) = и}, ug= oby a %' — конечное подполе с атомами {{у, z): (zu ..., zb) = и}, v e xb. Пусть 3S имеет атомы Bi = {{y> г)'ЛУъ -... Уь) = щ)> /=1. ..-, ЛЛ На самом деле эти множества исчерпывают Y X Z с точностью до некоторого множества меры 0; объединим это множество меры 0 с одним из множеств Вг (это не внесет изменений в вычисления). Наконец, пусть <? имеет атомы С/= {(*/, z):(zb ..., zb)^Vi}9 /=1, ..., N. В силу (18.12) каждый нетривиальный атом поля 38' отличается на множество меры 0 от некоторого нетривиального атома поля i?, и обратно. Отсюда и из' того факта, что <? cr S?', получаем #(*/ь ..., уь\ги ..., ^) = Я(^|^) = Я(^|^)<Я(^|^). (18.14) Для любого / в силу (18.1) имеем Р(С/|В/)>1 —е. Из этого следует, что 2 Р (Bi) P (Cci | Bi) < е, и по теореме 6.2 Н (J* | #)< Т1 (8) + Т1 (1 - 8) + 8 It! (N - 1), (18.15) при условии, что е так мало, что функция г](0 не убывает на [0, е] и не возрастает на [1 —8, 1], что справедливо при е<1/е. Для того чтобы получить (18.13), воспользуемся теперь неравенствами (18.14) и (18.15). Замечание. Файнстейн [1, 2] первый доказал результаты' этого параграфа (для каналов с конечной памятью). Приведенное здесь доказательство теоремы 18.1 содержится у Вольфовица [1]. Помимо обобщений теоремы 18.1, детальное исследование Вольфовица содержит результаты, обратные этой теореме, гласящие, что если (18.1) справедливо, то N не может превышать некоторой верхней грани. С помощью этих результатов Вольфовиц получил обратную теорему кодирования.
1&. БЛОКОВЫЕ КОДЫ 193 19. БЛОКОВЫЕ КОДЫ Определение Рассмотрим канал из предыдущего параграфа —канал без памяти —вместе с эргодическим источником [X, \х] с энтропией h. Цель настоящего параграфа —показать, что если h<C и 6>0, то существует такой код qp без предвосхищения (из X в F), что если сообщение х посылается по сложному каналу, то скорость превышает h — 6. Мы докажем теорему в терминах b-блоковых кодов. Пусть для любого п тогда х = (..., х~ь *о> *ь ••"•) есть элемент пространства X последовательностей элементов из р&. Аналогично определим уу F, z9 Z. Под ^-блоковым кодом ф мы понимаем отображение ф: X->F, определяемое (измеримым и стационарным) кодом ф: X-+Y с помощью формулы ((ф*)л*+ь •-., Ф*)Я&+*Н (ф*)я. Заметим, что Ь-блоковый код измерим, но не вполне стационарен, будучи стационарным только для блоков длины Ь, т. е. уТхх = ТЬущ. Если ф — код без предвосхищения, то ^-блоковый код ф также называют кодом без предвосхищения. (В этом случае передатчик должен запаздывать по времени на Ь единиц по сравнению с источником. Если даны ..., хпЬ-Ь xnbi т. е. известны ...^ хя_2, *„_,, то кодирующее устройство может выдать блок уп_х кодированного сообщения и буквы У(П-1) ь+и •••» Упъ этого сообщения могут быть переданы в течение следующих Ь единиц времени.) Код, который мы получим, зависит только от настоящего в том смысле, что (фх)п зависит только от хп. Так как код ф нестационарен, предыдущие определения скорости, ненадежности и т. д. непосредственно неприменимы. Мы определим эти величины для х, у, z, разделив на Ь соответствующие величины для х, у, z, хотя нетрудно видеть, что такие пределы, как lim n~lH{zu ..., гя), сущест- п вуют в любом случае. Прямая теорема в терминах блоковых кодов Теорема 19.1. Рассмотрим канал без памяти и некоторый эргодический источник [X, \i\. Пусть С — пропускная способность канала и h — энтропия источника. Если h<C 13 Зак. 1491
194 tn. 5. КОДИРОВАНИЕ и 6>0, то для некоторого b существует такой Ь-блоковый код ф, что скорость передачи сообщения х по сложному каналу превосходит h — 8. Доказательство. Выберем е так, что Л + е<С-е, л(в) + т|(1-в) + е1п*<-|-, elnr<-§-, •<-5- (Как всегда,./* и / — объемы алфавитов р и т.) Все вычисления основываются на вероятностях Р(АХВХС)= J" ^и)(С)|1(<**), апч~1в где v^ —ядро рассматриваемого канала и ф — тот блоковый код, который нужно построить. Если b превосходит Ь0(&) из теоремы 13.2, то независимо от того, каков код ф, алфавит рь распадается на два множества Я и L так, что Р{(хи ..-> xb)e=L}<e и Р{(*1. ..., ^) = Ш}>^^8) (19Л) для любого w е Я. Если 6 превосходит 6j (e) из теорем 18.1 и 18.2, то Н{уь -.., %|z„ ..., z,)<r)(e) + n(l-e) + e&]n/, (19.2) если только код ф таков, что {уь ..., уь) с вероятностью 1 принадлежит множеству элементов иъ ..., uN из оь. Напомним (см. (18.2)), что N^eb (C~8). Выберем и зафиксируем некоторое число Ь, превышающее и 60(8)> и bi(s). Далее, из (19.1) следует, что члсло элементов множества Я меньше, чем еъ {h+e) < еь (с~8) ^ Л/'. Поэтому существует отображение -ф, переводящее рь в а& так, что множество Я отображается взаимно однозначно на собственное подмножество -ф(Я) множества {ии ..., и^} и все элементы множества L отображаются на некоторый эле-
1§. ЁЛоКОЁЫЁ КбДЫ 198 мент ии не принадлежащий гр (//). Определим ф (а следо* вательно, и ср) формулой По построению ух = ^(хх) принадлежит множеству {иъ ..., uN}y так что в силу (19.2) Я(у1|21)<т|(е) + г1(1-е) + еЬ'1п/<-у-. (19.3) Если у\ принадлежит множеству г^> (//), то тем самым хх полностью определен; следовательно, если иеф(Я), то это означает, что величина S r\{P{xx = w\yx = u}) (19.4) обращается в нуль. Так как р6 содержит гь элементов, то (19.4) во всяком случае не больше \пгь. Из соотношения Р \ух Et|)(ff)} = PftG Я} следует tffoluXelnr*^. (19.5) Далее, tf(*i|2iX#(*i. У1|21) = Я(у1|г1) + Я(*1|уь ZjX <tf(»i|2i) + tf(*i|&). Применяя теперь (19.3) и (19.5), получаем Н(хх\гх)<Ь6. Но п Н{хх Хц\^и • • •» %п г = 1 <2#№г) = /гЯ(*,|5,), так что ~Н(ХЬ ..., *n|zb ..., 2й)<Ьв. Переходя к пределу, мы* видим, что ненадежность для 6-блокового процесса (х переходит в г по сложному каналу) меньше чем 66. Разделив на Ь, получаем, что ненадежность при передаче самого х меньше чем б. Поэтому скорость превосходит А — б. Заметим, что построенный код qp, вообще говоря, необратим. Так или иначе это несущественно, ибо проблема декодирования состоит в возвращении от z к х, а не от у 13*
196 ГЛ. 5. КОДИРОВАНИЕ к х. Мы достигли нашей цели, состоявшей в оценке ненадежности сложного канала величиной 6. На протяжении этой главы мы измеряли эффективность кода, связывающего источник с каналом, посредством скорости передачи информации от источника к приемнику. В § 17 мы игнорировали проблему использования информации в приемнике для восстановления посланного сообщения. С другой стороны, в теореме 19.1 мы теоретически строим эффективный код, явным образом сталкиваясь с указанной проблемой и используя при этом теорему Файнстейна. Однако реальное построение кодов в практической ситуации производится совершенно иначе. Очевидно, что теоремы 17.1 и 17.3 о несуществовании некоторых кодов могут быть также сформулированы в терминах ^-блоковых кодов. С другой стороны, не ясно, как переформулировать теорему 19.1 таким образом, чтобы обойтись без блоковых кодов. Замечание. Эти теоремы принадлежат Шеннону [1], хотя его доказательства были неполными. Файнстейн [1] дал первое полное доказательство. См. также Флйнстейн [1], Хинчин [3], Такано [1], Добрушин [1]. и Пинскер [1]. Более широкие исследования в теории связи см. у Реза [1] и Мейер-Эпплера [1].
Литература1) Абрамов Л. М. 1. Энтропия производного автоморфизма, ЦАН СССР, 128, № 4 (1959), 647—650. 2. Об энтропии потока, ДАН СССР, 128, № 5 (1959), 873—875. 3. Энтропия автоморфизма соленоидальной группы, Теория вероятн. и ее примем,., 4, вып. 3 (1959), 249—254. 4. Некоторые вопросы метрической теории динамических систем, Диссертация, МГУ, 1959. Абрамов Л. М., Рохлин В. А. 1. Энтропия косого произведения преобразований с инвариантной мерой, Вестник ЛГУ, сер. мат. и мех., 7, вып. 2 (1962), 5—13. Адлер (Ad 1 е г R. L.) 1. Ergodic and mixing properties of infinite memory channels, Proc. Amer. Math. Soc, 12 (1961), 924—930. 2. On a conjecture of Fomin, Proc. Amer. Math. Soc, 13 (1962), 433—436. 3. A note on the entropy of skew product transformations. Proc. Amer. Math. Soc, 14 (1963), 665—669. Адлер, Конхейм, Мак-Эндрью (AdlerR. L., KonheimA. G., M с A n d re w M. H.) 1. Topological entropy, Trans. Amer. Math. Soc, 114 (1965), 309—319. Биллингслей (В i 11 i n g s I e у Р.) 1. Hausdorff dimension in probability theory, ///. У. Math., 4 (1960), 187—209. 2. Hausdorff dimension in probability theory. II, ///. /. Math., 5 (1961), 291—298. 3. On the coding theorem for the noiseless channel, Ann. Math. Statist., 32 (1961), 594—601. Биркгоф (Birkhoff G. D.) 1. Proof of the ergodic theorem., Proc Nat. Acad. USA, 17 (1931), 656—660. Блюм, Хансон (Blum J. R., HansonD. L) 1. On the isomorphism problem for Bernoulli schemes, Bull. Amer. Math. Soc, 69 (1963), 221—223. l) Литература, отмеченная звездочкой, добавлена при переводе,— Прим. ред.
198 ЛИТЕРАТУРА Браун (Brown Т. А.) 1. Entropy and conjugacy, Ann. Math. Statist., 34 (1963), 226—232. Б р е й м а н (Breiman L) 1. The individual ergodic theorem of information theory, Ann. Math. Statist., 28 (1957), 809—811. Поправка к статье в Ann. Math. Statist., 31 (1960), 809—810. 2. On achieving channel capacity in finite-memory channels, ///. /, Math., 4 (1960), 246—252. Вольфовиц Дж. 1. Теоремы кодирования теории информации, «Мир», М, 1967. Г ен и с А. Л. 1. Метрические свойства эндоморфизмов я-мерного тора, ДАН СССР, 138, № 5 (1961), 991—993. Грейвс (Graves R.) 1. The Greek myths, v. I, II, Penguin Books, 1955. Гуд (Good I. J.) 1. The fractional dimensional theory of continued fractions, Proc. Camb. Phil. Soc, 37 (1941), 199—228. Гуревич Б. М. 1. Энтропия потока орициклов, ДАН СССР, 136, № 4 (I960), 768—770. Гуревич В., Волмэн Г. 1. Теория размерности, ИЛ, М., 1948. ДанфордН., Шварц Дж. Т. 1. Линейные операторы. Общая теория, ИЛ, М., 1962/ Дёблин (Doeblin W.) 1. Remarques sur la theorie metrlque des fractions continues, Compo- sitio Math., 7 (1940), 353—371. Добрушин Р. Л. 1. Общая формулировка основной теоремы Шеннона в теории информации, УМН, 14, вып. 6 (1959), 3—104. Дуб Д ж. Л. 1. Вероятностные процессы, ИЛ, М., 1956. Зигмунд А. 1. Тригонометрические ряды, т. II, «Мир», М., 1965. Кац М. 1. Статистическая независимость в теории вероятностей, анализе и теории чисел, ИЛ, М., 1963. К и н н и, П и т ч е р (К i n n е у J. R., P i t с h e r T. S.) 1. The dimension of some sets defined in terms of f-expansions, Z. Wahr., 4; №> 4 (1966), 293—315. Колмогоров А. Н. 1. Основные понятия теории вероятностей, М., 1936. (Впервые на немецком языке, 1933). 2. Новый метрический инвариант транзитивных динамических систем и автоморфизмов пространств Лебега, ДАН СССР, 119, № 5 (1958), 861—864. 3. Об энтропии на единицу времени как метрическом инварианте автоморфизмов, ДАН СССР, 124, № 4 (1959), 754—755. Кузьмин Р. О. 1. Об одной задаче Гаусса, ДАН СССР, сер. А (1928), 375—380. Л ев и (Levy Р.) 1. Sur les lois de probabilite dont dependent les quotients complets et incomplets d'une fraction continue, Bull. Soc. Math., 57 (1929), 178—194. 2. Theorie de l'addition des variables aleatoires, Paris, 1937.
ЛИТЕРАТУРА 199 Макмиллан (McMillan В.) L The basic theorems of information theory, Ann. Math. Stat., 24, (1953), 196—219. Мецер-Эпплер (Meyer-Eppler W.) 1. Grundlagen und Anwendungen der Informationstheorie, Kommuni- kation und Kybernetik in Einzeldarstellungen, 1, Springer, 1959. МешалкинЛ. Д. 1. Один случай изоморфизма схем Бернулли, ДАН СССР, 128, № 1 (1959), 41—44. Нейман (von Neumann J.) 1. Proof of the quasiergodic hypothesis, Proc. Nat. Acad. USA, 18 (1932), 70—82. 2. Einige Satze iiber messbare Abbildungen, Ann. Math., 33 (1932), 574—586. Пинскер M. C. 1. Информация и информационная устойчивость случайных величин и процессов, Изд-во АН СССР, М., 1960. 2. Динамические системы с вполне положительной и нулевой энтропией, ДАН СССР, 133, № 5 (1960), 1025—1026. Райт (редактор) (Wright F. В.) 1. Ergodic theory, New York, 1963. Реза (RezaT. M.) 1. An introduction to information theory, New York, 1961. Реньи (Ren у i A.) 1. Representations of real numbers and their ergodic properties, Acta Math. Acad. Sci. Hungar., 8 (1957), 477—493. 2. Dimension, entropy and information, Transactions of the Second Prague Conference on Information Theory, Statistical Decision Functions, Random Processes, 1959, стр. 545—556. Рисе (Riesz F.) 1. Sur la theorie ergodique, Comm. Math. Helvetici, 17 (1945), 221—239. Розенблат (Rosenblatt M.) 1. Random processes, New York, 1962. P о х л и н В. А. 1. Об энтропии метрического автоморфизма, ДАН СССР, 124, № 5 (1959), 980—983. 2. Новый прогресс в теории преобразований с инвариантной мерой, УМН, 15, вып. 4 (1960), 3—26. 3. Точные эндоморфизмы пространства Лебега, Изв. АН СССР, сер. мат., 25, № 4 (1961), 499—530. 4. Об энтропии автоморфизма компактной коммутативной группы, Теория вероятн. и ее примеч., 6, № 3 (1961), 351—352. 5. Аксиоматическое определение энтропии преобразования с инвариантной мерой, ДАН СССР, 148, № 4 (1963), 779—781. *6. Избранные вопросы метрической теории динамических систем, УМН, 4, вып. 2 (1949), 57—125. *7. Об основных понятиях теории меры, Матем. сб., 25(67), № 1 (1949), 107—150. Рохлин В. А., С и н а й Я. Г. 1. ТПостроение и свойства инвариантных измеримых разбиений, ДАН СССР, 141, № 5 (1961), 1038—1041. Рыль-Нарджевский (Ryll-Nardzewski С.) 1. On the ergodic theorems. II, Studia Math., 12 (1951), 74—79. Синай Я. Г. 1. О понятии энтропии динамической системы, ДАН СССР, 124, № 4 (1959), 768—771.
200 ЛИТЕРАТУРА 2. О потоках с к©нечн®й энтропией, ДАН СССР, 12?, № 6 (1959), 1200—1202. 3. Динамические системы и стационарные марковские процессы, Теория вероятн. и ее примеч., 5, № 3 (1960), 335—338. 4. Геодезические потоки на многообразиях отрицательной постоянной кривизны, ДАН СССР, 131, № 4 (1960), 752—755. 5. Геодезические потоки на компактных поверхностях отрицательной кривизны, ДАН СССР, 136, № 3 (1961), 549—552. 6. Динамические системы со счетнократным -лебеговским спектром, Изв. АН СССР, сер. мат., 25, № 6 (1961), 899—924. 7. Вероятностные идеи в эргодической теории, Int. Congress of Math. (1962), 540—559. 8. Слабый изоморфизм преобразований с инвариантной мерой, ДАН СССР, 147, № 4 (1962), 797—800. *9. О слабом изоморфизме преобразований с инвариантной мерой, Матем. сб., 63(105), № 1 (1963), 23—42. Т а к а н о (Takano К.) 1. On the basic theorems of information theory, Ann. Inst. Stat. Math.t 9 (1958), 53—77. Томасян (Thomasian A. J.) 1. An elementary proof of the AEP of information theory, Ann. Math. Statist., 31 (1960), 452—456. Успенский (Uspenski J. V.) 1. Introduction to mathematical probability, New York, 1937. ФайнстейнА. (FeinsteinA.) 1. A new basic theorem of information theory, IRE, Trans. PGIT, Sept. 1954, 2—22. 2. Основы теории информации, ИЛ, М., 1960. Феллер В. 1. Введение в теорию вероятностей и ее приложения, т. I, II, «Мир», М., 1967. Фюрстенберг (Furstenberg H.) *1. Disjointness in ergodic theory, minimal sets and a problem in Dio- phantine approximation, Math. Syst. Theory, 1, № 1 (1967), 1—50. X а л м о ш П. (Halmos P. R.) 1. Measurable transformations, Bull. Amer. Math. Soc, 55 (1949), 1015—1034. 2. Теория меры, ИЛ, М., 1953. 3. Лекции по эргодической теории, ИЛ, М., 1959. 4. Entropy in ergodic theory, мимеографические записи, The University of Chicago, 1959. 5. Новый прогресс в эргодической теории, сб. Математика, 6:3 (1962), 17—27. X а р д и, Р а й т (Н а г d у G. H., W r i g h t E. M.) 1. An introduction to the theory of numbers, Oxford, 1959. X a p p и с (Harris Т. Е.) 1 On chains of infinite order, Pacific J. Math., 5 (1955)', 707—724. X и н ч и н А. Я. 1. Metrische Kettenbruchprobleme, Compositio Math., 1 (1935), 361—382. 2. Zur metrischen Kettenbruchtheorie, Compositio Math., 3 (1936) 275—285. 3. Об основных теоремах теории информации, УМН, 11:1, № 67 (1956), 17-75. 4. Цепные дроби, Физматгиз, М., 1961. Хо п ф Э. 1. Эргодическая теория, УМН, 4, вып. 1 (1949), 113—182.
ЛИТЕРАТУРА 201 Чжун Кай-лай (Chung К. L.) 1. A note on the ergodic theorem of information theory, Ann. Math. Statist., 32 (1961), 612—614. ШеннонК-3. 1. Математическая теория связи, 1948, стр. 243—332. Эгглстон (EgglestonH. G.) 1. The fractional dimension of a set defined by decimal properties, Quart. J. Math. Oxford Ser.t 20 (1949), 31—36. Якобе (Jacobs K.) 1. Neuere Methoden und Ergebnisse der Ergodentheorie, Springer, 1960. 2. Lecture notes on ergodic theory, University of Aarhus, 1962—1963.
Указатель примеров Пример 1.1 (стр. 11). Двусторонний сдвиг Бернулли. Q: со = (..., со_ь со0, соь ...), где хп(со) = co„ — элемент конечного множества р, ГСО = (..., С00, С0Ь С02» • -•). Т- б. Хп(Т(д) = Хп+1((д)у n+k~\ Р{со: xt((xi) = ih /г</</г + /г} = П Pir Свойства: обратимый (стр. 13); эргодический (стр. 22); перемешивающий (стр. 22); h(T) = —^ pilnpi (стр. 80 и 102). i Пример 1.2 (стр. 13). Общий двусторонний сдвиг. Q: со = (..., со_ь со0, соь ...), где хп(со) = co„ — элемент конечного множества р, Гсо = (..., со0, «ь ю2, -.-). т- е- хп(Т(д) = хп+1((о)у Р — любая вероятностная мера, сохраняющаяся при преобразовании Т. Свойства: обратимый. Пример 1.3 (стр. 14). Нециклическая перестановка. Q = {а, 6, су d, e}> Т = {а, b, c)(d9 e)9 Р(а) = Р(Ь) = Р(с) и P(d) = P(e). Свойства: преобразование обратимое; неэргодическое, если только Р(а) = Р(Ь) = Р(с) не равны 0 или P{d) = P(e) не равны 0 (стр. 16); не перемешивающее (стр. 22); /г(Г)=0. Пример 1.4 (стр. 14). Циклическая перестановка. Q = {а, Ь, с, dy е}у Т = (a, by с, dy e)y P(a) = P(b) = P(c) = P(d)-P(e)~±r..
УКАЗАТЕЛЬ ПРИМЕРОВ 203 Свойства: обратимое; эргодическое (стр. 16); не перемешивающее (стр. 22); ВД = 0. Пример 1.5 (стр. 15). Поворот окружности. Q —единичная окружность в комплексной плоскости, Гсо = ссо, где с — элемент из Q, Р — нормированная круговая мера Лебега. Свойства: обратимое; эргодическое в том и только том случае, если с не является корнем из единицы (стр. 18); не перемешивающее (стр. 22); h(T) = 0 (стр. 103 и 104). Пример 1.6 (стр. 15). Диадическое преобразование, & = [0, 1] Гсо = 2со (modi), Р — мера Лебега. Свойства: необратимое; эргодическое (стр. 20 и 119); перемешивающее (стр. 22); h (Г) = In 2. Пример 1.7(стр. 28). Сдвиг для вещественнозначного процесса. Q: со = (..., со_ь со0, соь .. .), где хп{а>) = сол —точка вещественной прямой, Гсо = (..., со0, соь со2, ...), т. е. хп(Тсо) = хп+1 (со), Р — любая вероятностная мера, сохраняющаяся при преобразовании Г. Свойства: обратимое. Пример 3.1 (стр. 41). Сдвиг Маркова. Частный случай общего двустороннего сдвига (пример 1.2), задаваемого формулой Р{о: хп+1_{ (©) = ih /=1, ..., k} = pixpixi2 ... ptk^tky где pi для матрицы вероятностей перехода (ptj) стационарны и строго положительны. Свойства: обратимый; эргодический в том и только том случае, если матрица {pi/) неприводима (стр. 42, 43, 131 и 138); перемешивающий в том и только том случае, если матрица (pij) неприводима и непериодична (стр. 44 и 140); Л(Г) = = —1£iPiPijlnpij (стр. 102).
204 УКАЗАТЕЛЬ ПРИМЕРОВ Пример 3.2 (стр. 44). Общий односторонний сдвиг. Q: со = (со2, со2, ...), где хп(со) = соп — элемент конечного множества р, Гсо = (со2, со3, ...), т. е. хп(Гсо) = *„+1 (со), Р — любая вероятностная мера, сохраняющаяся при преобразовании Т. Свойства: никогда не обратим; свойства эргодичности и перемешивания, а также значения энтропии совпадают с аналогичными свойствами и значениями для соответствующего двустороннего сдвига. Пример 3.3 (стр. 45). Частный случай общего двустороннего сдвига (пример 1.2), в котором исходы независимы, но каждый повторяется. Свойства: обратимый; эргодический (стр. 45); не аеремеши- вающий (стр. 45); h(T) = — -^2j ptln pi (стр. 103). i Пример ЗА (стр. 45). r-адическое преобразование. Q = [0, 1), Гоэ = гф (mod 1), Р — мера Лебега. Свойства: необратимое; эргодическое, перемешивающее; h(T) = lnr. Пример 3.5 (стр. 46). Q = [0, 1), Г(о = гсо(тос1 1), Р — любая вероятностная мера, сохраняющаяся при преобразовании Г. Свойства: необратимо.
ДОПОЛНЕН НЕ Алгебраические автоморфизмы тора и цепи Маркова Б. М. Гуревич и Я. Г. Синай Как отмечено в предисловии редактора перевода, важность изложенной в книге теории объясняется не только ее связями с теорией вероятностей, но и возможностью успешного применения к изучению динамических систем, порождаемых диффеоморфизмами и векторными полями на гладких многообразиях. В этом дополнении мы подробно рассматриваем один весьма популярный пример такого рода — алгебраический автоморфизм тора — и устанавливаем, что с точки зрения эргодической теории он изоморфен марковскому автоморфизму (см. стр. 41) с конечным или счетным пространством состояний. Читателю предоставляется возможность самому судить, какая из областей — алгебра или теория вероятностей — от этого больше выигрывает. § 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ ОБ АВТОМОРФИЗМЕ /z-МЕРНОГО ТОРА Тор М получается из д-мерного евклидова пространства Rn, рассматриваемого как топологическая группа, факторизацией по целочисленной решетке Zn. Геометрически тор можно представлять себе как единичный д-мерный куб {0^#j;^ 1; /= 1, 2, ..., /г} с мерой Лебега \х, у которого отождествлены противоположные (я — 1)-мерные грани. Расстояние d(xu x2) между точками хи х2^М определяется равенством d(xu x2) = pACXl, CX2\ (1) где р —метрика в Rn, а СХх, С*2 — классы смежности Rn по Z", отвечающие точкам хь х2. Любая целочисленная матрица А порядка п переводит решетку Zn в себя. Если, кроме того, |detA|=l, то Л"1 обладает тем же свойством и, следовательно, А отображает Zn на себя взаимно однозначно. В таком случае матрица А индуцирует групповой автоморфизм тора М = Rn/Zn, сохраняющий меру \х. Всякий групповой автоморфизм тора получается описанным здесь способом.
ж ДОПОЛНЕНИЕ Будем обозначать я естественную проекцию (естественный гомоморфизм) пространства Rn на тор, т. е. отображение, сопоставляющее каждой точке у е Rn содержащий ее класс смежности по подгруппе Zrt. Если Ат — матрица, индуцирующая автоморфизм Г, то лАту = Тлу, y^Rn. Формула (1) с помощью я может быть записана в виде и \Х\, Х2) = min p(yu у2). Пусть Яь Я2, ..., А5 — собственные значения матрицы Ат и пи п2у ..., ns — их кратности. Так как матрица вещественна, то каждому вещественному Xt отвечает комплексно- сопряженное число Лу = Я£, имеющее ту же кратность, что и %i. Приведя матрицу Ат к жордановои форме, мы получим для каждого вещественного %ь /г-мерное инвариантное подпространство Нь пространства ^ив Ht базис, в котором Ат имеет вид жордановои клетки 1 1 О Если Я/, Я/ — ,0 1 V пара комплексно-сопряженных собственных значений, то можно найти 2п-мерное инвариантное подпространство Я/ и в нем базис, в котором матрица имеет вид жордановои клетки fA, Л/ Е 0 о Е Л/ где Л/ = Re Я/ ImA/ -ImA/ Re A/ Е = 1 (Г 0 1, Назовем расширяющимся подпространством и обозначим Яр прямую сумму подпространств Ht по тем /, для которых | Xt\> 1. Аналогично сжимающееся подпространство Яс есть прямая сумма тех Я,-, для которых |AJ<1. Из определения видно, что Яр и Яс инвариантны относительно Лг. В дальнейшем мы будем рассматривать лишь такие матрицы Ат, которые не имеют собственных значений, равных по модулю единице. Это условие, очевидно, эквивалентно равенству яРеяс = /Г.
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОЁА £0? Так как | det Ат |= 1, то оба подпространства Яр и Яс в рассматриваемом случае нетривиальны. Пусть % = И |Л/| и |1р, \ic — лебеговы меры соответ- ственно, на Яр и Яс. Пользуясь каноническим видом матрицы Лг, заключаем, что для любых измеримых множеств BD Нр и Всс Яс |1р0*гЯРНЛМЯр). Vc(AtBc) = Ы1\1с(Вс). (2) Выясним теперь поведение длин векторов в пространствах Яр и Яс под действием степеней матрицы Ат. Длину вектора у е Rn будем обозначать \у\. Лемма 1 *). Существуют такие константы aCi ар, Ас < 1, Яр>1, что для любых векторов yff^Hz, у' натурального m ./г I I *-т ' Яр и любого \A7y"\<aX \у |, \Af-y |^аРлр-\у \. (3) Доказательство. Так как подпространства Нс и Нр меняются ролями при замене Ат на А~т, достаточно доказать первое из неравенств (3). Воспользуемся каноническим представлением матрицы Ат в подпространстве Яс. Возьмем любое q=£0 и сопоставим клеткам fa* 1 о Л/ Л/ О О 1 A,; J 10 в этом представлении соответственно клетки Е Л 1 0 0 п}-1 Q Q2 о Qnrl х) Из этой леммы вытекает, что если матрица Ат не имеет собственных значений, по модулю равных единице, то автоморфизм Т является У-системой в смысле Аносова (см. [2]).
208 ДОПОЛНЕНИЕ где Q = qE. Матрица, состоящая из этих клеток, приводит Ат к виду, получающемуся из канонического заменой элементов 1 и Е соответственно на q и Q. Пусть еи еъ ..., ek — базис, в котором Ат имеет только что описанный вид. Вве- k п дем в Яс новую норму, положив || у" ||2 = 2 <%9 если */" = 2 cter Пользуясь тем, что все собственные значения, относящиеся к Яс, по модулю меньше единицы, нетрудно проверить, что если q достаточно мало, то || Ат ||< 1 (в подпространстве Яс). Другими словами, можно так подобрать Яс<1, чтобы для любого у" ^ Яс и, следовательно, М?Л<аг11А "* = о> 1, • ••• Интересующее нас неравенство (3) вытекает теперь из эквивалентности любых двух норм в конечномерном линейном пространстве. Рассмотрим в пространстве Rn гиперплоскости, параллельные подпространству Яр, и назовем их расширяющимися. Преобразование Ат переводит расширяющиеся гиперплоскости друг в друга. То же самое можно сказать и о сжимающихся гиперплоскостях, параллельных подпространству Яс. Образы при отображении я гиперплоскостей каждого семейства будем называть соответственно расширяющимися и сжимающимися слоями (на торе). На любой расширяющейся или сжимающейся гиперплоскости отображение я взаимно однозначно. Достаточно проверить это для расширяющихся гиперплоскостей', так как сжимающиеся гиперплоскости являются расширяющимися по отношению к Ат . Очевидно, можно ограничиться подпространством Я . Пусть y'v #2 *"" векторы из #р и пу\ = пу'г Это значит, что у'ъ = у[ — у'2 — целочисленный вектор, также принадлежащий Яр. По лемме 1 |Л™г/з|-->0 при т->—оо, что невозможно, если у'ъ ф 0 (в этом случае Л? — ненулевой целочисленный вектор). Тем самым наше утверждение доказано. Лемма 2. Любой расширяющийся или сжимающийся слой всюду плотен на торе. Доказате лье т в о. Здесь снова достаточно рассмотреть слойяЯр. Пусть яЯр —его замыкание. Множество яЯр является замкнутой связной подгруппой тора Ыъ инвариантной отно-
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 209 сительно автоморфизма Г. Факторгруппа М/лНр имеет тогда, как известно, вид М/яН, где Я —замкнутая подгруппа группы /?*, содержащая Яр и целочисленную решетку Zn и инвариантная относительно Ат. При этом обе группы М/лН и Rn/H изоморфны тору некоторой размерности k<n (см. [4, гл. 7, § 1, п. 5]). Покажем, что & = 0. Введем метрику р' в группе Rn/H, положив расстояние между двумя ее элементами равным расстоянию в Rn между соответствующими смежными классами. Пользуясь инвариантностью подгруппы Я относительно Лг, перенесем это преобразование в Rn/H, где оно останется гомеоморфизмом. Возьмем любые два смежных класса Сх и С2 из Rn/H. Нетрудно найти точки У\^С{ и у2^.Съ проекции которых на Яр совпадают. Отсюда следует (см. лемму 1), что р'(АтСи АтС2)->0 при m->oo. Но в силу компактности группы RnjH это возможно лишь в случае, когда множество RnjH состоит из одной точки, что и требовалось доказать. § 2. МАРКОВСКИЕ РАЗБИЕНИЯ И ЭРГОДИЧЕСКИЕ СВОЙСТВА АВТОМОРФИЗМОВ ТОРА В этом параграфе мы введем марковские разбиения и докажем с их помощью ряд эргодических свойств автоморфизмов /г-мерного тора. Существование марковских разбиений будет установлено в следующем параграфе. Напомним еще раз, что по предположению все собственные значения рассматриваемой матрицы Ат не равны по модулю единице. Пусть V, V" ~ измеримые ограниченные множества в подпространствах Яр и Яс соответственно, IntV, Int V" —их открытые ядра (по отношению к Яр и Яс) и 3V = У' \ Int У\ ду" =* у" \ int V" — их границы (черта обозначает замыкание). Назовем множество V = (V, V") = {y^Rni y = y' + y", /еГ, /еГ}1) параллелограммом в Rn> если \хр(dVr) = \ic (dV") = 0. Образ параллелограмма VczRn при отображении я будем также называть параллелограммом, если я на множестве V является 1) Здесь у, yf, у" обозначают /i-мерные векторы. В дальнейшем будет употребляться запись у~(у\ у"). 14 Эак. 1491
210 ДОПОЛНЕНИЕ гомеоморфизмом. В этом случае »(nV) = wP(V')nAV"), (4) где у ~ константа, зависящая от угла между подпространствами Яр и #с. Легко видеть, что пересечение двух параллелограммов в Rn есть снова параллелограмм. В дальнейшем мы будем пользоваться следующей леммой, доказательство которой несложно и предоставляется читателю. Лемма 3. Пусть 6 = тах(|Лг|, |Л?11) и U\, U2 — связные параллелограммы на торе, диаметры которых меньше 1/46, причем U2 = пУ2, где V2 — связный параллелограмм в Rn. Тогда найдется такой связный параллелограмм V\CiRn, что Ui = 7tVb U{ (]TU2 = n{V y(]ATV2) и на множестве V\[JATV2 отображение п является изометрией и, следовательно, гомеоморфизмом. Утверждение останется справедливым, если заменить в нем Т и Ат соответственно на Т~1 и Ат. Граница dV параллелограмма V aRn совпадает с объединением множеств Tp(V) = (V't dV") и Tc{V) = {dV, V"). Первое из этих множеств будем называть расширяющейся границей, второе — сжимающейся. Аналогично множества яГр(1/) = Гр(я1/) и яГс(1/) = Гс(я10 образуют соответственно расширяющуюся и сжимающуюся границы параллелограмма nV. Будем называть расширяющимся слоем параллелограмма VaRn пересечение любой расширяющейся гиперплоскости с У и граничным расширяющимся слоем — пересечение расширяющейся гиперплоскости с Tp(V). Аналогично определим сжимающийся слой и граничный сжимающийся слой парал* лелограмма V. Отображение я переводит все указанные слои в одноименные слои параллелограмма U=*nV. Определим теперь разбиение тора на параллелограммы. Так мы будем называть конечную или бесконечную последовательность а параллелограммов UiCiM, удовлетворяющую трем условиям: 1) (Jf/* = M, 2) Int C/t-П Int С//= 0 при^'^Д i 3) Ц (\J Int С/Л = 1. Заметим, что а не является, вообще говоря, разбиением в строгом смысле слова. В частности, его элементы могут пересекаться. Однако все их пересечения со- держатся в множестве r(ct) = (Jd(/j, имеющем нулевую меру. i В случае когда а крнечно, условие 1) можно записать в виде
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 211 (J[/j = jW, а необходимость в условии 3) отпадает, так как i оно вытекает из 1) и определения параллелограмма. Положим Гр(а) = иГр(^), rc(aHUrc№ i В случае конечного а очевидно, что Гр(а) = иГр(^), rc(a) = Urc(^). / i Определение (см. [5]). Разбиение а на параллелограммы называется марковским, если Гр (Т'1а) с: Гр (а), Гс(Га)сГс(а). В следующем параграфе мы покажем, что рассматриваемый автоморфизм Т обладает конечным марковским разбиением с элементами произвольно малого диаметра. Отсюда вытекает утверждение, на котором будет основано дальнейшее изучение автоморфизмов тора. Теорема 1. Для всякого е > О существует марковское (по отношению к Т) разбиение р, элементы которого Bt связны, открыты и удовлетворяют условию diamB^e, /=1, 2, .... Доказательство. Пусть [/ — произвольный элемент конечного марковского разбиения а. Открытое ядро Int U параллелограмма U также является параллелограммом. Разобьем множество Int U на связные компоненты, их может быть конечное или счетное число. Нетрудно проверить, что каждое из получившихся множеств — открытый параллелограмм и эти множества образуют разбиение тора на параллелограммы. Обозначим это разбиение р. Тот факт, что оно марковское, вытекает из марковского свойства разбиения а и соотношений Гр(р) = Гр(а), Гс(р) = Гс(а). Основной результат этого параграфа содержит Теорема 2. 1) Автоморфизм Т изоморфен сдвигу Маркова с конечным или счетным множеством состояний. 2) h(T) = \nX {напомним, что Я= Ц Я,Л. 3) Т является К-автоморфизмом (см. определение на стр. 111). Доказательство. 1) Пусть р — марковское разбиение, описанное в теореме 1, В\> В2> ...—его элементы, являющиеся открытыми связными параллелограммами, причем 14*
212 ДОПОЛН ЕНИЕ diamB^ 1/26, /= 1, 2, ... (6 определено в лемме 3). Введем матрицу пересечений S = (st-/)> где Г 1, если Bt (}TBf¥=0, SiI~~{0, если BiCiTBf=0J и рассмотрим в пространстве Q бесконечных в обе стороны последовательностей натуральных чисел множество Q$, состоящее из тех последовательностей о = {®к}, для которых s<»£, а>£+1 = 1, — оо<&<оо. Нетрудно проверить, что Qs измеримо, т. е. принадлежит а-алгебре &, порожденной цилиндрическими множествами, и инвариантно относительно сдвига Т, переводящего последовательность <о = {(оЛ в о/={а>П, где Покажем, что для любого пг^О и любой последовательности (fl = K)eQ5 B Rn найдутся такие параллелограммы С(о0 = (Со)0, Сшо), Ca>m = (Co,m, Coo J, ЧТО В®0 = яС(оо, В(дт = яСют, (о) т Пусть /п=1. Пользуясь леммой 3, найдем в Rn параллелограммы Со)0 = (С©0, Сщ) и С0)1=(С©1, С©,), для которых Вщ = яСо)0, Вщ = яСЮ1, 5q)0 П ГВ©, = я (С©, П ^гС©,) и на C^lMr^©, отображение я является гомеоморфизмом. Тогда множества С©0, С©с, ^jC^, Л^С©, связны и открыты (в соответствующих подпространствах) и С©0Г) ДтС©, =^= 0, С©0 П ^гС©, ^ 0. В силу марковского свойства разбиения £ ГЛГВ^сГеф), а потому dUrCiJnci^. (6) Отсюда следует, что Cu0czATC'o, (7) В самом деле, если это не так, возьмем любую точку из Со)0П(Яр \ ATCaJ и соединим ее непрерывной кривой, лежащей в С©0, с какой-нибудь точкой из Сщ{\АтС'щ, На этой кривой обязана найтись точка цз Ат(дС®) = д(АТС®Х что противоречит равенству (6),
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 213 Аналогичные рассуждения, но с использованием условия Гр(г"~1Всо0)с:Гр(р), показывают, что АтС^ с= С£. (8) Из (7) и (8) вытекает, что Ссоо Л АтСщ = (Ссо0 П ЛтСщу Ссо0 П АтС®) — (Ссо0, АтС®\ (9) т. е. при m = 1 наше утверждение справедливо. По индукции легко доказать его для любого т>0, пользуясь инвариантностью множества Qs относительно 7\ Совершенно так же устанавливается, что в Rn существуют параллелограммы D©0 = (£)^0, />©0) и Ao__m = \D®_m> ^ю.т)> для которых Всо0 = JtDto0, Bu_m = JtDco-m, П TkB»k = n(ArmD^ DZ0). ATD^m с D... (W) fe=0 При этом можно считать, что Ао0 = Ссо0. Заменив обозначение Dco_m на Ссо_т, комбинируя (5) и (10), получим равенство m f} rfeBa)^ = jt (ЛrmC©_m, ЛгС©^, из которого следует, что fe=-m m множество Bm (®) = f") ^^ непусто и diam Bm(со) < fe=-m <(асЯГ + арЯрШ)/25 (см. леммы 1 и 3). Тогда fj Bm (<*>)- единственная точка тора М, и мы можем определить отображение ф множества Q5 в М, положив ф(«>)= П Bm(©), coe=Q5. 1 m\ < oo Это отображение удовлетворяет условию ф(?(й) = Гср((й), (ogQ5. (11) Покажем, что оно измеримо. Пусть Вт — замкнутое множество вида - f) Т1Вк? где Bkr —m^i^m, — произвольные \t\<m l _ элементы разбиения р. Если Вт Ф 0, то в Qs найдется точка со, для которой £m(co)=Bm. Поэтому diamBm = в diam 5^ (со) < em, где е^ = (асЯ™ + арЯрш)/26. Занумеруем
214 дополнение при фиксированном т множества Вт в последовательность Вт, Вт, ... И ПОЛОЖИМ Ст = Вт, Ст = Вт\ Ст, . . . > Ст = = Вт\ [J Ст, .... Множества Ст, k = 1, 2, ..., не пересе- оо каются и образуют разбиение множества (J Вт на конечное или счетное число борелевских подмножеств, диаметры которых не превосходят ет. Так как \xi (J Вт = 1, то множество оо М \ (J Вт можно разбить на счетное число борелевских k=\ подмножеств произвольно малого диаметра. В итоге мы получаем разбиение \т тора М на счетное число борелевских множеств, диаметры которых не превосходят ет, причем lim гт = 0. Из определения ф видно, что при любых т и k Я->оо множество ф~1(вт) есть пересечение некоторого цилиндра с Q5, т. е. ф"1 (Вт) ^ $?- Отсюда следует, что прообраз любого элемента разбиения \т принадлежит J?, и для доказательства измеримости ф достаточно установить, что совокупность элементов всех \ш т=1, 2, ..., порождает а-алгебру $ борелевских подмножеств тора. Но это непосредственно вытекает из доказанной в книге леммы 3 § 51). Итак, отображение ф измеримо, но, как легко понять, не взаимно однозначно. Однако для ф можно найти обратное отображение, если предварительно выкинуть из тора некоторое множество меры 0. В самом деле, объединение оо \J Bk элементов разбиения р есть открытое множество меры 1. оо Поэтому множество D = f] Т1[)Вк, инйариантное относи- |И < оо fc=l тельно Г, является борелевским и также имеет меру 1. х) Если ввести а-алгебру &Qi атомами которой служат параллело- оо граммы Ви В2, ... и множество М\ U ^k, T0 доказанное утверждение k можно сформулировать в виде равенства \J \/ Tl<$Q$L<$ (огтределе- k i—* ние символа ^ см. на стр. 104).
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 215 В силу измеримости ф отсюда следует, что D = ф""1 (D) е &. Заметим, что любая точка сое£) имеет единственный прообраз ф^Чю)^^. Поэтому на D можно определить отображение if», обратное к ф и переводящее D в D. Это отображение измеримо, так как для любого цилиндра F множество Ф"Ч^П5) = ф(?пЬ) = ф(?)Пф(5)==ф(^Р)П/) является боре- левским. Зададим на а-алгебре SB меру р, формулой &{B)-v4B()D)-vl(<p(B()D)), Be=@. Мера р, инвариантна относительно Т и сосредоточена на инвариантном множестве Ь. Вместе с равенством (11) это означает, что преобразования (Г, SB, \i) и (f, i?, \i) изоморфны (см. определение на стр. 66). Покажем, что Т — сдвиг Маркова. Пусть Bt = nCh с,-(с;, с-), цр(сэ-*;. |^(сп-*Ги Pi~i»(bi). Ptrbjs^b'?. Из (5) с учетом (3) и (4) вытекает, что если Bi[\TBj ф 0, то К*/ Л ГВ;.)- \ ft (С*)цр(q) = ц(Д,)-^ = ц(5,)-^ // » т. е. для цилиндра F = {co: со0 = /, ©! = /} д(Я = 1х(ф(^п5)) = 1х(ф(ЛПф(0)) = = |х (Ф (F) П D) = ix (Ф (F))-ix (В, П ГВ7) = р^у. Отсюда, суммируя по /, заключаем, что матрица Р = (/?,/) стохастическая. Чтобы доказать нужное нам утверждение, достаточно проверить для любых элементов В*о, В^, ..., В*т разбиения р равенство i* Л/ЧHoIKw (12) которое, как мы уже видели, справедливо при т = 1. Есди s, , = 0 хотя бы при одном k<m, to обе части равен- ства (12) обращаются в 0. Если же s, , =1 при & = 0, 1, ..., m—1, то правая часть равна ybifiij^™, а левая в силу (5) есть jx (я (С©о, Л?Сюда)) = yb'ifljT™. Тем самым равенство (12) доказано»
216 ДОПОЛНЕНИЕ 2) Чтобы вычислить энтропию Л (Г), вернемся к конечному марковскому разбиению а. Если его элементы Ub U2> ..., Us достаточно малы, то всякое пересечение вида k ^\Т'1иг. (/ = 0, 1; &=1, 2 ...) представляет собой паралле- /-/ лограмм. Пусть х — произвольная точка инвариантного множества В и U(x, /) — элемент разбиения а, содержащий Т1х. k Рассмотрим параллелограмм С){x) = \jT~lU(x, i). По лемме 1 при k—> оо диаметр любого расширяющегося слоя этого параллелограмма стремится к нулю, а потому множество Cj {х) = Р) С/ (х) содержится в сжимающемся слое паралле- k лограмма T~jU{x, /), проходящем через точку х. С другой стороны, из соотношения между марковскими разбиениями аир вытекает, что Cj(x) содержит проходящий через х сжимающийся слой того элемента разбиения Г^р, в котором лежит х. С помощью проекции я, которая, как мы знаем, взаимно однозначна на каждой сжимающейся гиперплоскости, перенесем меру Лебега с этих гиперплоскостей на соответствующие сжимающиеся слои, сохранив для получившейся меры на слое обозначение |ic. Из построения множеств Cj(x) видно, что каждое такое множество измеримо на содержащем его сжимающемся слое и функции V>i(x)=p,c(Ci(x))t / = 0, 1, определенные на множестве полной меры, измеримы. Рассмотрим алгебру Л подмножеств тора, атомами которой служат параллелограммы Ub U2, ..., Us и множество M\\J U(. При всяком /=1, 2, ...,'s условная мера ц( Ui\ V Т~1ЛЛ почти всюду равна М^/П Ci (*))/m-i (*)• В самом деле, согласно теЬреме 11.2, достаточно проверить, что почти всюду UmJu^T-u)-^^ . (13) В любой точке х^В условная мера ц( Ut\ V Т~1Ж\ совпадает с \л (Ui | С\ (#)). Если при всех k, начиная с некоторого, множества Ul и С\{х) не пересекаются, то обе части равен-
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 217 ства (13) равны нулю. Предположим, что и1{]С\{х)ф0 при бесконечно многих k. Так как хеВ, то х — внутренняя точка параллелограмма £/z. Поэтому при достаточно большом k любой расширяющийся слой параллелограмма С\{х), пересекающийся с Uи содержится в Uг. Отсюда следует -(см. (4)), что где L\{x) — сжимающийся слой параллелограмма С\ (х), проходящий через точку х> и так как Сх (x) = f]Lk\ (x)t то функ- k ции \xc(Lk\(x)) и Hc(Ui(]L^(x)) сходятся при &->оо соответственно к iic{C\{x)) = \ii{x) и Hc(UifiCiXx)). Тем самым равенство „(„.ivr^-fciu^ доказано. Теперь заметим, что по построению С0{х) = ТС\(т'1х) при х^В и Ui[)Ci(x) = Co(x) при x&BOUi. Поэтому при xezBftUt ^\ l ill / М*) ЬрЛх) Отсюда, пользуясь соотношением (12.2) (см. стр. 141), получим h(T,^ = hU\yru)-- JinJj£9rdji-in* + + J (in щ (х) - In |i! (T~lx)) ф. M Левая часть этого равенства конечна, так как h(Г, с^)^ <Я(^). Значит, функция g(*) = f(x)-f(T'lx)ti где /(*) = = ln|Xi(jc), интегрируема. По теореме Биркгофа левая часть равенства JV-1 £E*(r,*)-£(Krw-,*)-/(r1*)) t=0
218 ДОПОЛНЕНИЕ при N->oo сходится почти всюду к функции g(x)> для которой j £(л:)ф= J g(x)d\i. Правая же часть, как нетрудно м м понять, может сходиться только к нулю. Следовательно, Jg(*)rf|i = 0, А (Г, с^) = 1пЯ. м В заключение установим, что Л (Г, Л) = 1г{Т). k Рассмотрим конечную алгебру Жь*= V Т1Л, k— 1, 2, /—* Любой атом этой алгебры, имеющий положительную меру, k очевидно, представим в виде (J Т1и1г Пусть dk~ максималь- ный из диаметров-таких атомов. Если параллелограммы Uu U2> ..., Us достаточно малы, то, повторяя рассуждения пре- оо дыдущего пункта, можно показать, что Нтбд, = 0 и V Ль&ЗВ. Поэтому (см. следствие 1 на стр. 105) Л(Г) = ПтА(7\ <Ak), и для завершения доказательства остается заметить, что h(T, utk) = h(T, Л) при любом &. В итоге получаем h(T) = h(T, <^) = 1пЛ. 3) Для того чтобы доказать, что Т является /С-автомор- физмом, рассмотрим вместо Т сдвиг Т. Если марковское разбиение р конечно, то, согласно § 11 книги, достаточно проверить неприводимость и апериодичность матрицы Я. То же верно и при бесконечном р. В самом деле, для неприводимой апериодической матрицы Р выполняются соотношения limp(^) = jf?/ (/, /== 1, 2, ...), где p{ff — элементы матрицы Р (см. [6, стр. 384—385]). Отсюда, пользуясь свойствами цепи Маркова и теоремой Дуба (см. стр. 138), нетрудно вывести, что если &k есть а-алгебра событий, зависящих от поведения рассматриваемой цепи Маркова в моменты l^k, a F — произвольный цилиндр, то почти всюду lim f! (F \ &k) = £! (F). Пусть В — любое множество из ст-алгебры &00!==f]&k и k /g—его характеристическая функция. Для Б (как и для
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 219 всякого измеримого множества)^ можно подобрать такую последовательность множеств Bki что каждое Bk есть объединение конечного числа непересекающихся цилиндров и почти всюду Ig -*/§ при &->оо, т. е. почти всюду llmJ{lSh\*J-E(!s\*J-Is. По доказанному Е (Ig \$? \ = ji(Bfe). Это означает, что почти всюду Ig = \хФ) и, следовательно, Д(В) = 0 или 1. Таким образом, Т является /С-автоморфизмом, если матрица Р не- приводима и апериодична. Заметим, что оба эти условия заведомо выполняются, если для любых Biy Bj найдется такой номер k0{i, /), что Bi(]TkBf ф 0 при всех k'^k0(i, /). Существование для нашей матрицы чисел fe0(/, /) с указанным свойством мы установим, опираясь на лемму 2. Из нее вытекает, что для всякого 8>0 найдется такое число 7?Е, что любой шар радиуса /?е, лежащий в расширяющемся слое1), является е-сетью для тора. В самом деле, пусть L —■ какой-нибудь расширяющийся слой. Так как по доказанному он всюду плотен на торе, шары радиуса е/2 с центрами в точках слоя L образуют покрытие тора. Выделив конечное подпокрытие, мы получим конечную (е/2)-сеть, состоящую из центров выделенных шаров. Шар 0'{х), лежащий в слое L, с центром в заданной точке x^L и достаточно большого радиуса R{x, е/2), содержит эту (е/2)-сеть, а потому и сам является (е/2)-сетью. Для любой точки х^ М обозначим L{x) расширяющийся слой, проходящий через точку х. Пусть хь хъ ..., ^ — произвольная конечная (е/2)-сеть и О'— шар радиуса 7? = /?е = max R{xki е/2) с центром в произвольной Kfe</ точке ху лежащий в слое L{x). Найдем точку xkt для которой d{x, Arfe)<e/2. Шар 0'{xk), лежащий в слое L{xk)t образует (е/2)-сеть. Из неравенства R^R(xk> е/2) следует тогда, что шар (У образует е-сеть. Наше утверждение доказано. Пусть теперь Bh В/ — любые элементы разбиения р. Каждое из этих множеств, будучи открытым, содержит некоторый шар. Обозначим эти шары соответственно Ot и О/, а их центры — х{ и xj. Пересечение шара О/ с расширяю- 1) Так естественно называть множество вида яО, где О —пересечение ^-мерного шара радиуса Re с расширяющейся гиперплоскостью, содержащей центр этого шара.
220 ДОПОЛНЕНИЕ щимся слоем L{xj) есть некоторый шар 0'р лежащий в слое L{x^ Пусть е = г/2, где г— радиус шара Ot. Найдем соответствующее /?е. На основании леммы 1 существует такое k0, что при k>k0 множество ТкО^ содержит шар радиуса REt лежащий в слое L(TkXj). По доказанному этот шар является е-сетью и, значит, пересекается с шаром Оь. Но OtczBt и TkO'}czTkBj. Следовательно, при k>k0 пересечение Bt(]TkB} непусто. Теорема полностью доказана. § 3. СУЩЕСТВОВАНИЕ МАРКОВСКОГО РАЗБИЕНИЯ 1. Марковские разбиения для Т и Гш. Мы назвали разбиение а на параллелограммы марковским для автоморфизма Г, если оно удовлетворяет условиям Гр (Т~1а) с: Гр (а), rc(ra)czrc(a)f Прежде чем строить такое разбиение, заметим, что достаточно найти марковское разбиение of для Тт при каком-нибудь т>01). В самом деле, пусть Гр(Гта')сГр(<х'), rc(rV)<=rc(a'). (14) Множества вида ... (\rlUi_x{\Uio(\TUix{\ ... {\Tm'lUim^ где ^ — произвольные элементы разбиения а', очевидно, также образуют разбиение тора на параллелограммы. Для этого разбиения введем обозначение a = r~m+1a'v ... VT~la'\/ V & V Т^о! V ... V Tm~la'. Легко проверяются следующие соотношения между границами а и а': m-l m—1 Гр(а)= U гр(Г*«0, Гс(а)= (J Гс(Г>0. (15) fc= — m+1 fc=—m+1 Из (14) и (15) вытекает, что а —марковское разбиение для Тг причем размеры его элементов не превышают размеров соответствующих элементов разбиения а'. 2. Разбиение, полученное из покрытия. Построим какое- нибудь конечное покрытие тора параллелограммами, т. е. 1) Подпространства Яр и Яс, а вместе с ними параллелограммы и градшцы параллелограммов, очевидно, от m не зависят.
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 221 систему и параллелограммов Uu U2, ..., Ust дающих в сумме весь тор. Такая система получится, если включить каждую точку тора в какой-нибудь открытый параллелограмм, а затем выделить в случае необходимости конечное.подпокрытие. Данный способ позволяет получить покрытие, размеры элементов которого произвольно малы. Опишем теперь один общий способ перехода от покрытия к разбиению, который в дальнейшем будет неоднократно применяться. Пусть % = {Xh f=l, 2, ..., s) — произвольное конечное семейство подмножеств некоторого множества X и ^ — разбиение этого множества, состоящее из двух элементов: Xt и X\Xt. Сопоставим семейству т разбиение £(т), где £(т)= Vl/1)- Взяв в качестве т совокупность и парал- лелограммов Uh *= 1, % ..., s, образующих покрытие тора, мы получим разбиение £(и). Элементы этого разбиения уже не обязаны быть параллелограммами. Построим, исходя из покрытия и, разбиение тора на параллелограммы. Пусть Ut — произвольный элемент нашего покрытия и Ui, Ut2, ..., [/^ — элементы покрытия, пересекающиеся с и{. Если размеры элементов покрытия и достаточно малы, то в пространстве Rn найдутся такие параллелограммы Vi=(v't, v7), Vt^(vtl9 v7),..., Vik~(y'ik, Vtk), что Ut = nVi, Uix = nVix, ..., Uik — nVik и отображение я на множестве Vi U Vi U ... U Vtk является гомеоморфизмом. Отсюда, в частности, следует, что каждое множество из семейств v'i-{v'H[\Vu /— 1, 2 Л} и v'i'-iv'^nv'/, /=1, 2, ..-., А} непусто. Построим описанным уже способом разбиение l(v'() множества V\ и разбиение \{р'[) множества V". Пусть С — произвольный элемент первого из этих разбиений, а С" — второго. Легко видеть, что \хр (дС) = \хс (дС") = О, и мы получаем некоторое разбиение £г параллелограмма Vt на параллелограммы вида С *={С, С"). Разбиение параллелограмма Ut — nVi, образованное параллелограммами вида лС, обозначим т)^ 1) Если |i, |2, ...» I*~разбиения множества X, то произведение S V/ |/ есть по определению разбиение множества X, образованное множе- ствами вида (| Ckv где С^ — произвольный элемент разбиения |/.
222 ДОПОЛНЕНИЕ Любой элемент разбиения £(и), содержащийся в параллелограмме Uh состоит из элементов разбиения i\t. Другими словами, каждый элемент разбиения ць содержится в некотором элементе разбиения %{и). Действительно, пусть точки Xi,x2^Ui принадлежат разным элементам разбиения %{и) и xx = nyv *2 = ш/2, yv y2&Vit yl=(y/v у'{), У2 = (у'2, У2). Это значит, что среди параллелограммов Vtl9 Vt2, ..., Vik найдется такой параллелограмм F/, что либо yx^Vj, У2ФУj^ либо У\фУ4, y2^Vj- В каждом из случаев либо точки у\> у'2 принадлежат разным элементам разбиения £(^-)» ли^° точки У'\* У^ —разным элементам разбиения \{р'[). Но тогда точки Уи У2 принадлежат разным элементам разбиения ^ и, следовательно, точки хь х2 — разным элементам разбиения т]г. Пользуясь доказанным утверждением, рассмотрим на каждом элементе Cg(a> разбиения %{и) произведение разбиений y\i по тем i, для которых С% (и) a Ut. Полученное таким образом разбиение тора на параллелограммы обозначим а(и). Заметим, что а (и) является разбиением в строгом смысле слова, но некоторые из его элементов могут не иметь внутренних точек. Выбросив эти элементы и взяв открытые ядра остальных, мы можем при желании получить разбиение тора на открытые параллелограммы в смысле § 2. Это разбиение также будем обозначать а(и). S 3. Границы разбиения а (и). Пусть Тр(и) = (J Гр (щ), Гс (и) = = (J Гс(^) —соответственно расширяющаяся и сжимаю- щаяся границы покрытия и. Сейчас мы установим связь между Гр(и), Тс(и) и соответствующими границами Гр(а(и)), Тс(а(и)) разбиения а (и). Предположим, что элементы покрытия и и элементы разбиения а(и)~открытые множества. Тогда связь между Гр(#) и Тр(а(и)) выражается следующим образом: Тр(а(и)) состоит из всех граничных расширяющихся слоев элементов покрытия и и тех расширяющихся слоев, которые пересекаются с граничными расширяющимися слоями. Аналогичное утверждение относится к сжимающейся границе. Очевидно, доказательство достаточно провести лишь для Гр(а(и)). Включение Гр {и) а Гр (а (и)) следует из того, что по построению Гр(£/г)сГр(т]г)с=Гр(а(г/)) для любого /. Покажем, что любой расширяющийся слой параллелограмма Uit пере-
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 223 секающийся с граничным расширяющимся слоем некоторого параллелограмма £//, также входит в Гр(а(и)). Вместо Uh [// будем рассматривать параллелограммы Vi9 V/. Пусть L{ = = (у\, */"), Lj = (V'p у") — соответствующие расширяющиеся слои. Тогда у" = у'{ и У\{\У^Ф 0. Из построения видно, что точка у" = у'{ =* y'f принадлежит границе одного из элементов разбиения §(f"), а множество V\ состоит из элементов разбиения §(^). Поэтому всякая точка слоя L^=(1^, у") принадлежит Гр(^) и, следовательно, nLiciTp('r]i)c:Tp(a(u}). Обратно, пусть ^ЕГр(а(м)) \ Гр(«). *Тогда xsUif]Tp(r\i) при некотором /, и если у = (*/', у ) = л~1х — соответствующая точка параллелограмма Vt> то */^Гр(£г). Отсюда вытекает, что точка у" принадлежит границе некоторого элемента разбиения \{^'[\ Значит, среди параллелограммов Vi^ Vt2,..., Vtk, пересекающихся с Viy найдется такой параллелограмм Vj = = (У/, V"), что y"^dV". Но тогда расширяющийся слой Ц = (У I» #")» содержащий точку у, пересекается с граничным расширяющимся слоем 1/ = (У/, у"\ Тем самым наше утверждение доказано. 4. Марковское разбиение и марковское покрытие. По аналогии с марковским разбиением введем понятие марковского покрытия. Покрытие и тора параллелограммами мы будем называть марковским^ если Г?{Г1и)аТр(и), Тс(Ти)аГс(и). В предыдущих пунктах описан метод, позволяющий перейти от покрытия параллелограммами к разбиению на параллелограммы. Выясним теперь, при каких условиях этот метод приводит к марковскому разбиению. Рассмотрим покрытие u = (Uu t/2, ..., Us) тора М параллелограммами достаточно малого диаметра. Пусть jtef/^ и Lp(x, /), Lc(xy i) — соответственно расширяющийся и сжимающийся слои параллелограмма Ui9 содержащие точку х. Назовем покрытие и правильным относительно Г, если при некотором е>0 оно удовлетворяет двум условиям: 1) для любой точки jfGM найдется содержащий ее параллелограмм Uh такой, что d(x, dLp(x, i))>e, d(xy dLc{x, /))>8I 2) для любого i = 1, 2, ..., s и любой точки х^ Ut diamCr^Lpfo /))<e, diam(TLc(x, i))<&
224 ДОПОЛНЕНИЕ Покажем, что если и — правильное марковское покрытие, то а (и) — марковское разбиение. Здесь, как и раньше, достаточно проверить лишь одно из требуемых включений, например Tc(Ta(u))cz Тс(а(и)) или, что то же самое, 7ТС (а (и)) cz Гс (а (и)). Если *еГс'(и), то включение Тх^Гс(а(и)) очевидно, так как Тс(и)аТс(а(и)) и покрытие и — марковское. Пусть х е Гс (а (и)) \ Гс {и). Пользуясь результатом предыдущего пункта, найдем параллелограмм Ui и в нем сжимающийся слой Ьь~Ьс{х, /), содержащий х и пересекающийся с граничным сжимающимся слоем L/ некоторого другого параллелограмма £//. В силу правильности покрытия и для точки Тх найдется такой параллелограмм Uk и в нем сжимающийся слой Lk, что Тх^ Lk и й(Гх, dLk)>e. Отсюда видно, что TLtczTLk (так как diam(7T;)<e) и, "значит, TLj[}Lk^ 0. Но в силу марковского свойства покрытия и любая точка множества TLj принадлежит некоторому граничному сжимающемуся слою. Это означает, что Lk пересекается с таким слоем. Следовательно, слой Lk, а с ним и точка Тх, содержится в Тс(а(и)). Таким образом, мы свели вопрос о существовании марковского разбиения для автоморфизма Т к вопросу о существовании правильного марковского покрытия. Однако условия 1) и 2), определяющие правильное покрытие, до некоторой степени противоположны друг другу, и это затрудняет построение правильного марковского покрытия непосредственно для Г. Выход подсказывается результатом пункта 1, согласно которому достаточно получить марковское разбиение для автоморфизма Тт при каком-нибудь т>0, что в свою очередь сводится к построению для Тт правильного марковского покрытия. 5. Построение правильного марковского покрытия для Тт. Пусть х — любая точка тора и у = (у', у") — один из ее прообразов при отображении я. Рассмотрим при достаточно малом е>0параллелограмм.Oe(z/) = (Oe, 0&)czRn, где Ое, О" — открытые шары радиуса е в подпространствах Яр, Яс с центрами в точках у'у у" соответственно. Параллелограммы вида пОе(у) образуют открытое покрытие тора. Выделив из него конечное подпокрытие пОг{у{), пО&{у2)1 ...,' пОе (ys) и после этого заменим каждый параллелограмм Ог{уь) параллелограммом Vi = 02e{yi), /=1, 2, ..., 5. Тогда параллелограммы Ui=nVh /== 1, 2, ..., 5, также образуют покрытие тора, которое удовлетворяет первому из требований, предъ-
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 225 являемых к правильному покрытию. Теперь можно, пользуясь леммой 1, подобрать настолько большое т, что покрытие u = (Uu U2,-.-<> Us) станет правильным по отношению к автоморфизму Тт (выбор т мы в дальнейшем еще уточним). Остается превратить наше покрытие в марковское для Тт> не нарушив его правильности. Для начала заметим, что в проведенном построении точки yt = (у'р у'Г) можно было выбрать так, чтобы выполнялось условие рМ)<т8; <16) это непосредственно вытекает из леммы 2. Каждый параллелограмм Vи а с- ним и AtVi, пересекается тогда с подпространством Яр. Рассмотрим вместе с каждым Vi9 i = 1,2,... ..., 5, все его сдвиги на целочисленные векторы. Получившиеся 5 семейств параллелограммов образуют в совокупности некоторое покрытие v пространства Rn, причем любое ограниченное множество в Rn пересекается лишь с Конечным числом элементов этого покрытия. Покрытие v обладает, очевидно, теми же свойствами правильности по отношению к А™, что и и (по отношению к Тт). Поэтому для каждого параллелограмма A™Vt — (A^Vu Л?]/") можно найти такие элементы Vr./ = (V^./, F^), /=1, 2, ..., s., покрытия v, что si AfViCz{JVfih p(0, dVii)>e (17) /-t ЛТП Г 7 ?t Т Г ft • 1 С\ , . ,. . tVi czVu при каждом /=1, 2, ..., St в силу правильности у. По условию параллелограмм Vtj получается из некоторого Vu 1^/^s, сдвигом на подходящий целочисленный вектор zl^(z'v z'{), т. е. Vi} имеет вид Vl + zr Сравнивая (16) и (17), получаем оценку ki<48- (18) Заменим теперь обозначение У\ на 17£(0) и Vr{] на V'if{0). Пусть v' (0) — совокупность множеств V\ (0), w' (0) — совокупность множеств V^(0), j=l, 2, ..., s, /=1, 2, ..., sr и r(^(0)) = (Jai/;(0), Т{т8>'{0)) = [)дУИ(0). Будем строить ин- i i, i дуктивно последовательности {v'(k)} и {w'(k)}, fe = 0, 1, ..., 15 Зак. 1491
226 ДОПОЛНЕНИЕ где v' (k) — совокупность множеств V'{ (k)y i = 1, 2, ..., s, до'(&) —совокупность множеств V'if (k), /=1, 2, ..., s., и V'ijW^ViW + z'i. Если v'(k) и w'(k) уже построены, то положим VUk+l) = A}m([JVh(k)J. (19) Из этого определения вытекает, что для любых /, / после* довательности множеств {^(&)} и {V-,(&)} возрастают. Пусть V't (°°) = [Jvt (*)» F// (°°) = U V'u №> v' («>)-совокупность мно- k . k жеств 7^(оо) и w' (oo)~ совокупность множеств F^(oo). Займемся изучением свойств построенных множеств. Для этого введем величины d'(£) = maxdiam V'^k), k = 0> 1,..., оо, r'(^) = max sup 9{jf,dV\(k)), k = 0, 1,..., * y'^dv't(k+\) которые, очевидно, связаны между собой неравенством d'(k+ l)^d'(k) + 2r'(k). По построению d'(0) = 4e. Из леммы 1 и соотношения (19) нетрудно вывести, что /(0)<4aPC4 /(£+1)<арл;т/(&), *-О, 1, ..., и, следовательно, /(£)<4е8*+\ d'(&)<4e(l + 28p 2 9pj, (20) где Эр = арЯрт. Выбором достаточно большого т можно добиться, чтобы было 8р<1/7. Тогда ^(оо)=ДтйЧ^)-48П + 2ер2еЧ==48(1 + Т^-]<6е и для любого /=1, 2, ..., s dum(i47wW(oo))<8pdiam(W(«>))<e. (21) Теперь покажем, что ЛгГ(1/(оо))сГ(о/(°о)) (22)
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 227 цР;(Г(*/(оо))) = 0. (23) Включение (22) следует из соотношений A?V\ (оо)■- Q AfV't (ft) = U U V'h (ft - 1) - A1? d{v'i {<*>)) = д{АУУ\ {<*>)) = (si \ si = д (J ^ (~) <= U д Mi (°°)) <= Г (^ («0)- Равенство (23) доказывается сложнее. Прежде всего заметим, что множество A!rkV\(k) можно представить в виде (J (W, (0) + гЧш о + A?zlf,,+ ...+ Atl) %. *-i), (24) где 2, 0, ^ j, ..., г, ^j —проекции на tfp целочисленных векторов zh Qi zlv ..., zt k_v Это легко проверить по индукции, вспомнив способ построения V\{k) (см. (19)). Равенство (24), очевидно, останется справедливым, если в левой его части заменить V\(k) на V't(k+l), а в правой Wjfo) на VJ.(l). Отсюда и из (20) вытекает, что для любой точки y'ezdAFv'dk+l) Р {у, dAkTmV'i (k)) < г (0) < 4ЭР8. Пусть r(k, /) = sup p(t/', дАк*У\Щ. Тогда при всех k, I > 0 r(fe, /)<r(fe, 1)+ sufr р(*/', <ЭЛ^(£+1))< <r(fe, l) + 6p sup p(y', дЛ<*+1)Я|У{(*+1))в *=r(k% l) + 6pr(fe+lf i-l)« ... ...«r(ft, i) + epr(/e+1, i)+... +ep"V(fe + /-i, i)< <40pe(l + ep+ ...+е^)<у^<|е. 15*
228 ДОПОЛНЕНИЕ Переходя к пределу при /~>оо и фиксированном &, получаем r(k, oo)= sup р(У, дАк™У[Щ^~г- <25) у'^дАктту[{оо) Вернемся к покрытию v пространства Rn. Пересечения элементов этого покрытия с Яр образуют некоторое покрытие v' подпространства Яр. Построим разбиение g(t/) (см. п. 2). Из (16), (18) и (24) вытекает, что если т достаточно велико, то при любых /, k множество AjViik) состоит из элементов g(t>0- Действительно, рассмотрим вместе с множеством V = = V\ (0) + z'ijtо + Afz'ij, i + ... + Лг~1)тг///, k-i параллелограмм У = Уч(0) + гч,0 + А?гч,1+ ... + A(Tk'l)mzljtk^ В силу (18) 140+^?;.,+... +аГ1)%,^\< <|е(1 + 6с + 6с2+ ... +Qtl)<jeT^f (26) где 8с = аДГ (см. лемму 1). Если т выбрано так, что 6С< 1/7, то в силу (16) и (26) V П Яр ф 0 и, следовательно, У f) #р = I7'. Остается вспомнить, что по определению разбиения \(v') множество V П Яр состоит из элементов этого разбиения. Установим теперь еще одно необходимое нам свойство \{р')\ существует конечное число элементов разбиения l(v')t сдвигая которые на векторы из Яр, можно получить все остальные элементы этого разбиения. Сначала заметим, что аналогичным свойством обладает покрытие v'. Именно, для любого его элемента V найдется такое /, 1</<5, что Vf = У\{0) +zf.y где V^(0) — шар радиуса 2е, принадлежащий системе а'(О), и г^ —вектор из Яр. Зафиксировав для каждого V так подобранное / и выделив элементы с одним и тем же /, разобьем совокупность элементов нашего покрытия на s классов, причем элементы одного класса будут получаться друг из друга с помощью сдвигов на векторы из Яр. Оценим снизу длины этих векторов и их разностей. Пусть V'i, Sf'i и V/, V'f — элементы соответственно /-го и/-го классов. Тогда найдутся такие параллелограммы Vi9 Vt, Vj> Vjf являющиеся элементами покрытия v, что У/ = У*Г)ЯР, V'i = Vif) H9f У/'-К/ПЯр, V; = Vit)HP9 Vt-Vt + гь Vf = Vf + zh где zt = (z'i> z"i) й zj = (zn z")~~Целочисленные векторы. Пользуясь тем, что все рассматриваемые параллелограммы пересекаются
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 229 с Яр, а их проекции на #с имеют диаметр 4в, легко проверить, что если векторы z't, zrp z[ —£y ненулевые, то | z; | > 1 т 8е, | г] | > 1 - 8е, | z\ - г] | > 1 - 16е. (27) Отсюда, в частности, следует, что при е<1/12 элементы одного класса не могут пересекаться друг с другом. Рассмотрим произвольный элемент С разбиения l{v'). По определению С есть пересечение некоторых элементов покрытия v' с дополнениями к остальным элементам покрытия. При 8<1/16 элементы покрытия v\ содержащие С, принадлежат разным классам. Значит, таких элементов конечное число, и их можно записать в виде последовательности V* , У/2, ..., V'ik> где индекс /v (v=l, 2, ..., k)~номер класса, которому принадлежит v\v* Из (27) следует, что при е < 1/20 k элементы покрытия о', пересекающиеся с P)V*V, также при- v=l надлежат разным классам. Пусть Vjl9 V/2, ..., У\г — те эле- менты покрытия v'y которые пересекаются с H^V но не V-1 , содержат С (/v — номер класса, которому принадлежит Vj , v= 1, 2, ..., I). Тогда с=(;п/ф(п(яР\^)). Таким образом, мы сопоставили каждому элементу С разбиения l{v') символ /(С) = (/ь 1Ъ ..., ik, /ь /2, ..., //), в котором все индексы различны и принимают значения от 1 до s. Так как существует лишь конечное число таких символов, осталось доказать, что если элементам Си С отвечает один и тот же символ 7(С) = /(С), то С получается из С сдвигом на вектор, лежащий в Яр. Пусть /(С) = /(С) = (/Ь 1Ъ ..., 1Ь ]и /2, ..., /,), т. е. с=(п^)п(п(яР\^)), с = (П/ф(Л(яР\^)), где ^Jv-V;v + «*v, ^/v = ^/v + 2/v; z'iv, z^ezHp. Покажем, что все г', и г' совпадают с г'. Пусть у',, у'. — любые точки V 'V *1 Ч 'V
230 ДОПОЛНЕНИЕ из V, , V't соответственно и у' = у' + z' у' = у' + z't . Из М 'v М Ч *i 'v 7v 'v определения множеств 7£ , V'f следует, что тогда P(^V ^)<8е' P(*V ^v)<8e' а ?0Т0МУ \z'ix~~z'i |<16е- Если 2г' ф z'j , то при е<1/32 это противоречит последнему из неравенств (27). Аналогично доказывается, что z\v = г\х, v- 1, 2, ..., £. Итак, С = С + г*г Следовательно, при е<1/32 разбиение £(?/) обладает нужным нам свойством. Из доказанного свойства вытекает существование такого числа ejX), что каждый элемент С разбиения l{v'), имеющий положительную меру jxp, содержит некоторый шар Оех(С) радиуса еь лежащий в #р. При этом шар Ое (С) для каждого С можно выбрать так, что если С — элемент разбиения |(я')» получающийся из С сдвигом на вектор г'еЯр, то 0&i(C) = 0&l{C) + z'. Тогда найдутся такие числа е2>0 и б<1, что е2-окрестность De2 (С) границы дС не пересекается с Оех(С) и np(De2(C)nC) Ир (С) •<б. (28) Пусть Wt (k) — объединение элементов разбиения £(a')i пересекающихся с 2е-окрестностью множества dA^mVf{{k). В силу неравенства (25) dAkTmV\{oo)czW\(k). Из определения Wt{k) и оценки для r{kt 1) вытекает, что sup p(y\ dAkTmV'i(k))<Qp sup pG/', dAFl)mV't(k)) + + sup p {y, dAkTmV'i (k)) < 69P8 + 49pe = 109pe (29) и, следовательно, A~TmWi{k+ l)czWi(k)9 если 9P< 1 /7. iijA-^Wtik + D) „ Оценим отношение —^—,w ,,u -. Пусть С —элемент ИР\wi W) разбиения £(?/), принадлежащий №*(&), и цр(С)>0. Если множество ATmWt(k+ 1) пересекается с С и пересечение не содержится в De2{C), то в A-mWt {k + 1) найдется такая точка у\ что р(у', дС)>е2. По доказанному dAkTmV[ (k) содержится в объединении границ элементов разбиения £(*/)• Отсюда
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 231 следует, что р(г/', dA^mV/i(k))>er Еще раз увеличив, если это необходимо, число т, можно добиться выполнения условия 1О0р8<82. Неравенство (29) показывает, что тогда Ci]A-mW.(k+l)czDe2(C). Используя (28), получим а это значит, что lim \ip(A}kmWi{kj) = 0. Тем самым равен- fe->oo ство (23) доказано, так как dV\ (оо)сЛ^т Wt (k) при каждом fe. Теперь можно утверждать, что множества (у£(оо), У"(0)), /=1,2, ..., 5, являются параллелограммами. Взяв их образы при отображении я, мы получим некоторое покрытие й тора параллелограммами. Каждый элемент этого покрытия содержит соответствующий элемент покрытия и. Отсюда и из неравенства (21) вытекает, что й — правильное покрытие. В силу (22) й обладает одним из свойств марковского покрытия, а именно Гс(Гтй)сГс(й). (30) Чтобы получить настоящее марковское покрытие и (одновременно правильное), достаточно повторить рассуждения этого пункта, отправляясь от й и поменяв ролями расширяющееся и сжимающееся пространства. В самом деле, построение, превращающее й в й, будет затрагивать лишь сжимающуюся границу покрытия, а потому для и вместе с включением Гр(Т~ти)аТр(и) будет выполняться и (30). Правда, число m при переходе от й к й придется еще несколько увеличить. Впрочем, из анализа изложенного доказательства видно,/ что подходящее m зависит лишь от начального покрытия и и, значит, может быть выбрано заранее. § 4. МАРКОВСКИЕ РАЗБИЕНИЯ В ДВУМЕРНОМ СЛУЧАЕ Для автоморфизма двумерного тора можно построить конечные марковские разбиения, не прибегая к описанному выше процессу последовательных приближений. Это было замечено Адлером и Вейссом (см. [1]). Мы приведем здесь соответствующее построение. Пусть Ат = Рассмотрим \пг п\ \Р Я\ для простоты случай mq — np = l. Начало координат О есть неподвижная точка преобразования Г. Условие отсутствия
232 ДОПОЛНЕНИЕ собственных значений, по модулю равных 1, в двумерном случае сводится, как нетрудно проверить, к наличию двух вещественных собственных значений Яс, | Яс |< 1, и Ар, | Яр |> 1, каждое из которых иррационально. Отвечающие им собственные направления имеют иррациональные тангенсы углов наклона. Рассмотрим более внимательно расширяющийся и сжимающийся слои Lc и Lp, проходящие через точку О. Допустим, что Яс>0, Яр>0 и что нам удалось построить такое разбиение а на параллелограммы, что Гс(а) = Гс есть отрезок слоя Lc, содержащий О, а Гр(а) = Гр есть отрезок слоя Lp, также содержащий О. Такое разбиение непременно будет марковским, поскольку 7ТС с: Гс, T~lTp cz Гр. Мы сейчас увидим, что существуют разбиения тора на два параллелограмма с указанным свойством. Вообще говоря, таких разбиений счетное множество. Будем считать слои Lc и Lp ориентированными. Рассмотрим два ориентированных отрезка TlczLc и Г2с:1р, выходящих из точки О и пересекающихся в точке Oj*), причем 0{ служит конечной точкой для обоих отрезков. Проведем затем из точки О в направлении, противоположном направлению.Гь отрезок Г3 вшють до первого пересечения с Г2. Пусть это пересечение произошло в точке 02. Ясно, что на Г2 точка 02 лежит между О и 0\. Пусть Гс = Г1иГ3. Заметим, что Гс —отрезок сжимающегося слоя, содержащий точку О внутри себя. Наконец продолжим Г2 в первоначальном направлении вплоть до первого пересечения с Гс (в точке 03) и полученный отрезок обозначим Гр. Нетрудно убедиться непосредственно, что отрезки Гс и Гр разбивают тор на два параллелограмма, которые мы обозначим U и £/'. Расширяющиеся стороны одного параллелограмма суть отрезки ООх и 0203, а другого — отрезки 002 и 0\Ог. В силу сказанного выше построенное разбиение а на два параллелограмма будет марковским. Однако разбиение а не совсем удобно, так как элементы разбиений T~ka V ... V Tla могут оказаться несвязными и их диаметры не будут стремиться к нулю при k, /->oo. Чтобы исправить положение, введем разбиение р, элементами которого служат связные компоненты элементов разбиения а V Га. Эти связные компоненты будут по-прежнгму парал- 1) В топологической теории динамических систем такие точки, следуя Пуанкаре, называют гомоклиническими.
АЛГЕБРАИЧЕСКИЕ АВТОМОРФИЗМЫ ТОРА И ЦЕПИ МАРКОВА 233 лелограммами, сжимающиеся границы которых содержатся в сжимающихся границах параллелограммов U, U'. Разбиение р будет марковским (см. п. 1, § 3). Нетрудно показать, что при любых k, />0 элементы разбиения pi=r~*pv ... V^'p представляют собой связные параллелограммы, диаметры которых стремятся к нулю при k, /~>oo. Замечание. Адлер и Вейсс [1] установили, что два автоморфизма двумерного тора, у которых совпадают модули собственных значений, метрически изоморфны. Известно, что существуют автоморфизмы двумерного тора с таким свойством, алгебраически неизоморфные. Из одной теоремы Аров а [3] вытекает, что этот метрический изоморфизм можно установить только при помощи разрывного (но, конечно, измеримого) отображения тора на себя. Отметим, что не выяснено, к какому классу Бэра принадлежит это отображение. Перенесение результатов Адлера и Вейсса на многомерный случай является, по-видимому, трудной задачей. ЛИТЕРАТУРА 1. Адлер, Вейсс (Adler R., Weiss В), Entropy, a complete metric invariant for automorphisms of the torus, Proc. Nat. Acad. ScL USA, 57, №6 (1967), 1573-1576. 2. А н о с о в Д. В., Геодезические потоки на замкнутых римановых многообразиях отрицательной кривизны, Труды МИ АН, 90 (1967), 3-209. 3. А р о в Д. 3., О топологическом подобии автоморфизмов и сдвигов коммутативных компактных групп, УМН, 18, 5 (1963), 133-138. 4 Бурбаки Н., Общая топология, Физматгиз, М., 1958. 5. С и н а й Я. Г., Марковские разбиения и У-диффеоморфизмы, Функц. анализ и его приложения, 2, 1 (1968), 64-897 6. Ф е л л ер В., Введ'ение в теорию вероятностей и ее приложения, „Мир", М., 1964.
Алфавитный указатель Адлер (Adler B. L.) 163, 180 Алфавит 164 Атом 74 Биллингслей (Billingsley P.) 163, 170 Биркгоф (Birkhoff G. D.) 40 Борелевские множества 15, 82 Браун (Brown Т. А.) 107 Брейман (Breiman L.) 146, 153, 180 Буква 77, 164 Вариант 113, 124 Вероятностная мера 10, 11 Ьолмэн (Wallman H.) 163 Вольфовиц (Wolfowitz J.) 192 Вращение 15, 17 Гаусса мера 55 — проблема 61 Гильбертово пространство 30 Грейвс (Graves R.) 12 Гуд (Good I. J.) 163 Гуревич (Hurewicz W.) 163 Даниель (Daniell) 11 Данфорд (Dunford N.) 84 Дёблин (Doeblin W.) 62, 63 Диофантово приближение 57, 59 Добрушин Р. Л. 194 Дуб (Doob J. L.) 116, 123, 132, 133, 138, 140 Замкнутость 43 Зигмунд (Zygmund A.) 129 Изометрический оператор 30, 89 Изоморфизм 64, 65, 167 Инвариант 72 Инвариантная функция 22 Инвариантное множество 16 Информация 76, 174 Источник информации 77, 164 Йенсена неравенство 129 Канал без памяти 172 потерь 177 предвосхищения 171 щума 165 -— с шумом 170 — сложный 181, 184 Кантора мера 48, 161 — функция 48 Канторово множество 156 Кац (Кае М.) 29, 63 Кинни (Kinney J. R.) 158, 163 Код 166 — без предвосхищения 168 — блоковый 193 — обратимый 166 — случайный 184 Кодирование 81, 164 Кодирования теорема для канала без шума обратная 169 прямая 168 с шумом обратная 181 прямая 180, 182, 193 Колмогоров А. Н. 10, 73, 78, 80, 93, 111, 123, 133 Колмогорова теорема 80, 100, 143, 169 существования 11, 14, 46, 49 107 Конечное подполе 73 Кузьмин Р. О. 63 Леви (Levy P.) 63, 140 Лидер 37 Липшица условие 151 Макмиллан (McMillan В.) 146, 153, 180 Мартингал 138 Мейер-Эпплер (Merer-Eppley W.)
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 235 Мешалкин Л. Д. 109, 111 Монотонный класс 12 Морзе 77 Нейман (von Neumann J.) 40, 93 Ненадежность 175 Неопределенность 76 Непериодичность 44 Неприводимость 43 Нормальное число 25, 46 Перемешивание 21 Пинскер М. С. 186, 194 Питчер (Pitcher T. S.) 158, 163 Полный инвариант 73 Преобразование диадическое 15 — обратимое 10, 13 — пекаря 69 — связанное с непрерывными дробями 52 — сохраняющее меру 10 — эргодическое 16 Проблема полноты 107 Пропускная способность 178 канала 178 стационарная 178 эргодическая 178 Пространство состояний 9 Прямое произведение 106 Равномерная распределенность 25 Равнораспределенности свойство 152 Радона—Никодима теорема 115 Разбиение 73, 74 Размерность 153 Райт (Wright F. В.) 52 Реза (Reza Т. М.) 194 Реньи (Renyi A.) 63, 163 Респект 26 Рисе (Riesz F.) 40 Розенблат (Rozenblatt M.) 52 Рохлин В. А. 29, 63, 107, 123, 146 Рыль-Нарджевский (Ryll-Nardzew- ski С.) 63 Сдвиг 13, 28, 45 — Бернулли 14 — двусторонний 45 — Колмогорова 110 — Маркова 41 —односторонний 45 Симметрическая разность 17 Синай Я. Г. 93, 107, 109, Ш, 146 Сингулярная мера 49 Скорость передачи 173 Случайность 75 Сообщение 164 Сопряженность 70, 81 Спектральная эквивалентность 89 Стационарность 13, 166, 171 Стохастическая матрица 41 Стохастический процесс 13 Строго инвариантное множество 17 Такано (Takano К.) 172, 194 Тихе 12 Томасян (Thomasian A. J.) 153 Траектория 15, 19 Условная веррятность 112 — энтропия 93, 141 Условное математическое ожидание 123 Успенский (Uspenski J. V.) 62 Файнстейн (Feinstein A.) 170, 175, 177, 180, 186, 192, 194 Файнстейна теорема 186 Феллер (Feller W.) 41, 44 Фундаментальный интервал 54 Фюрстенберг (Furstenberg H.) 163 Халмош (Halmos P. R.) 10, 12, 21, 29, 90, 93, 107 Характеристическая функция множества 16 Харди (Hardy G. Н.) 52 Харрис (Harris Т. Е.) 52, 93 Хаусдорфова размерность 154 Хинчин А. Я. 52, 62, 170, 172, 180, 194 Хопф (Hopf E.) 29 Цепочка 88 Цилиндр И, 157 — тонкий 11 Чжун Кай-лай (Chung К. L.) 151 Шварц (Schwartz J. T.) 84 Шеннон (Shannon С.) 73, 78, 93, 146, 153, 170, 180, 194 Шеннона—Макмиллана—Бреймана теорема 146, 147 Эгглстон (Eggleston H. G.) 156, 160, 163 Эквивалентность множеств 81 Эксперимент 75, 76
236 АЛФАВИТНЫЙ УКАЗАТЕЛЬ Экстремальная точка 51 Энтропия 73, 93, 141 Эргодическая теорема 22, 23 индивидуальная 31 максимальная 30, 35 — теория 10 Ядро 170 Якоби (Jacobi) 18 Якобе (Jacobs К.) 29, 93 еГ-разбиение 73, 74 U 32 L2 30 ^-последовательность 89, 90 r-адический интервал 46, 157 r-адическое преобразование 46 ji-p-покрытие 158 р-покрытие сг-поле 10 — тривиальное 62, ПО — хвостовое 61
Оглавление ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА 5 ПРЕДИСЛОВИЕ К АНГЛИЙСКОМУ ИЗДАНИЮ 7 ВВЕДЕНИЕ 8 Глава U Эргодическая теория г 9 1. Преобразования, сохраняющие меру 9 Введение 9. Определения 10. Примеры U. Эргодичность 15. Эргодичность вращений 17. Эргодичность диадического преобразования 20. Перемешивание 21. Формулировка эргодиче- ской теоремы 22. Следствия из эргодической теоремы 24. Критерии эргодичности 26. Более сложный сдвиг 28 2. Доказательство эргодической теоремы .' 30 Первое доказательство 30. Максимальная эргодическая теорема 35. Второе доказательство 38 3. Дальнейшие примеры . 41 Сдвиги 41. Меры на интервале 45. Теорема существования 49, Эргодичность и экстремальные точки 51 4. Применение к непрерывным дробям 52 Преобразование 52. Мера Гаусса 55. / Применение к диофанто- вым приближениям 59. Перемешивание и проблема Гаусса 61 Глава 2. Энтропия .- 64 5. Проблема изоморфизма - 64 Изоморфизм 64. Инварианты 71. Энтропия 73. Изоморфизм и сопряженность 81. Изоморфизм и спектральная эквивалентность 89 6. Свойства функций Н (<А) и h (<A, T) 93 Свойства функций Я (с£) и Я (<Л \ $8) 94. Свойства функции Л (с*, 7>98 7. Свойства функции h (T) 100 Теорема Колмогорова 100. Вычисление энтропии 101. Некоторые обобщения 104 8. Проблема полноты 107 Некоторые нерешенные задачи 1.07. Сдвиги Колмогорова ПО Глава 3. Условные вероятности и математические ожидания 112 9. Условные вероятности 112 Конечный случай 112. Общий случай 114. Свойства условных вероятностей J20. Функции и меры 122
238 оглавление 10. Условные математические ожидания 123 Определение 123. Основные свойства 126. Повторные условные математические ожидания 127. Неравенство Йенсена 129. Одна специальная формула 129 11. Теорема сходимости 132 Теорема 132. Примеры 135. Убывающие а-поля 138 Глава 4. Сходимость энтропии 141 12. Обобщение условной энтропии 141 Определение 141. Свойства функции Н (<А\ &) 142. Две специальные формулы 144 13. Теорема Шеннона —Макмиллана —Бреймана 146 Результат 146. Другие варианты теоремы 150. Свойство равнораспределенности 152 14. Связь с теорией размерности 153 Классическое определение 153. Размерность в единичном интервале 156. Обобщенное определение 157. Основной результат 159 Глава 5. Кодирование 164 15. Теорема кодирования для канала без шума 164 Обозначения 164. Канал без шума 165. Теоремы кодирования 168. 16. Канал с шумом 170 Определения 170. Канал без памяти 172. Совместное распределение на входе и выходе 172. Скорость передачи 173. Пропускная способность канала 178. Эргодичность процесса передачи 179 17. Теорема кодирования для канала с шумом . . . 180 Проблема 180. Простое обращение 181. Комментарии к прямой теореме для канала без памяти 182. Усиление обращения 184 18. Теорема Файнстейна 186 Решающая схема 186. Применения 191 J9. Блоковые коды 193 Определение 193. Прямая теорема в терминах блоковых кодов 193 ЛИТЕРАТУРА 195 УКАЗАТЕЛЬ ПРИМЕРОВ 202 Дополнение. Алгебраические автоморфизмы тора и цепи Маркова. Б. М. Гуревич, Я. Г. Синай 205. АЛФАВИТНЫЙ УКАЗАТЕЛЬ 234
Я. Биллингслей Эргодическая теория и информация Редактор Л, Б. Штейнпресс Художник Н. Д. Смеляков Художественный редактор В. И. Шаповалов Технический редактор Н. В. Соколова Сдано в производство 18/Х 1968 г. Подписано к печати 6/V 1969 г. Бумага № 3 60X90716=7,5 бум. л. 15 усл. печ. л. Уч.-изд. л. 12,33. Изд. № 1/4127 Цена 85 коп. Зак. 1491 ИЗДАТЕЛЬСТВО *МИР» Москва, 1-й Рижский пер., 2 Ленинградская типография № 2 имени Евгении Соколовой Главполиграфпрома Комитета по печати при Совете Министров СССР- Измайловский проспект, 29,
ИЗДАТЕЛЬСТВО „МИР44 выпускает в 1969 г. В СЕРИИ „СОВРЕМЕННАЯ МАТЕМАТИКА" (ПОПУЛЯРНАЯ СЕРИЯ) КНИГУ Мостеллер Ф., Рурке Р., Томас Дж., ВЕРОЯТНОСТЬ, перевод с английского, издательство „Мир", 20 изд. л. Эта книга составлена видными американскими математиками и педагогами на основе выпущенного ранее учебника по теории вероятностей для средней школы; она предполагает у читателей весьма скромную подготовку и будет интересна и полезна всем любителям математики, начиная с увлекающихся математикой школьников старших классов. Отличительную ее черту составляет изобилие подробно разобранных примеров, содержание которых заимствовано из обыденной жизни, и задач для самостоятельного решения. Большое внимание уделяют авторы вопросам практических приложений теории вероятностей и математической статистики, которой посвящена последняя глава. В настоящее время значение теории~~вероятно- стей и математической статистики настолько возросло, что знакомство с элементами этих наук можно считать необходимой компонентой математической культуры; настоящий учебник дает возможность приобрести эти знания.
85 к. ИЗДАТЕЛЬСТВО «МИР»-