Текст
                    Р.Л. Стратонович
ТЕОРИЯ ИНФОРМАЦИИ
М., «Сов. радио», 1975,424 с.
Книга посвящена одному из главных направлений теоретической кибернетики.
Дается систематическое изложение важнейших, ставших уже традиционными,
результатов шенноновской теории информации, а также ряда новых вопросов,
разработанных автором. К числу последних относятся теория ценности
хартлиевского, больцмановского и шенноновского количеств информации,
аппарат потенциальных функций, использующий параметры типа «температуры».
Подчеркивается общность математического аппарата теории информации и
статистической термодинамики. Содержание книги сгруппировано в соответствии
с тремя вариационными задачами, характерными для теории информации.
Автор является крупным специалистом по случайным процессам,
математической статистике и теории информации. Он опубликовал более ста
оригинальных статей и три монографии.
Книга рассчитана на научных работников — специалистов в области
кибернетики и статистической теории связи, а также аспирантов и студентов
высших учебных заведений.
Оглавление
Предисловие 3
Введение 5
Глава 1. ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ И ЭНТРОПИИ ПРИ
ОТСУТСТВИИ ПОМЕХ
§1.1. Определение энтропии в случае равновероятных возможностей 11
§ 1.2. Энтропия в случае неравновероятных возможностей и ее свойства 13
§ 1.3. Условная энтропия. Свойство иерархической аддитивности 16
§ 1.4. Асимптотическая эквивалентность неравновероятных возможностей 91
равновероятным
§ 1.5. Асимптотическая равновероятность и энтропийная устойчивость 25
§ 1.6. Определение энтропии непрерывной случайной величины 30
§ 1.7. Свойства энтропии в обобщенной версии. Условная энтропия 37
Глава 2. КОДИРОВАНИЕ ДИСКРЕТНОЙ ИНФОРМАЦИИ ПРИ
ОТСУТСТВИИ ПОМЕХ И ШТРАФОВ
§ 2.1. Основные принципы кодирования дискретной информации 44
§ 2.2. Основные теоремы для кодирования без помех. Равнораспределенные . „
независимые сообщения
§ 2.3. Оптимальное кодирование по Хуфману. Примеры 53
§ 2.4. Погрешности кодирования без помех при конечной длине записи 57
Глава 3. КОДИРОВАНИЕ ПРИ НАЛИЧИИ ШТРАФОВ. ПЕРВАЯ
ВАРИАЦИОННАЯ ЗАДАЧА
§ 3.1. Прямой способ вычисления информационной емкости записи для
одного примера
§ 3.2. Дискретный канал без помех и его пропускная способность 64
§ 3.3. Решение первой вариационной задачи. Термодинамические 67


параметры и потенциалы § 3.4. Примеры применения общих методов вычисления пропускной 7„ способности § 3.5. Метод потенциалов в случае большего числа параметров 79 § 3.6. Пропускная способность канала без шумов со штрафами в обобщенной версии Глава 4. ПЕРВАЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА И СВЯЗАННЫЕ С НЕЙ РЕЗУЛЬТАТЫ §4.1. Потенциал Г или производящая функция семиинвариантов 85 § 4.2. Некоторые асимптотические результаты статистической „„ термодинамики. Устойчивость канонического распределения § 4.3. Асимптотическая эквивалентность двух видов ограничений 96 § 4.4. Некоторые теоремы, касающиеся характеристического потенциала 101 Глава 5. ВЫЧИСЛЕНИЕ ЭНТРОПИИ ДЛЯ ЧАСТНЫХ СЛУЧАЕВ. ЭНТРОПИИ СЛУЧАЙНЫХ ПРОЦЕССОВ §5.1. Энтропия отрезка стационарного дискретного процесса и удельная энтропия § 5.2. Энтропия марковской цепи 114 § 5.3. Удельная энтропия части компонент дискретного марковского . _„ процесса и условного марковского процесса § 5.4. Энтропия гауссовых случайных величин 129 § 5.5. Энтропия стационарной последовательности. Гауссова 1 _ . последовательность § 5.6. Энтропия случайных процессов в непрерывном времени. Общие . понятия и соотношения § 5.7. Энтропия гауссового процесса в непрерывном времени 144 § 5.8. Энтропия точечного случайного процесса 152 § 5.9. Энтропия дискретного марковского процесса в непрерывном времени 162 § 5.10. Энтропия диффузионных марковских процессов 165 §5.11. Энтропия комбинированного марковского процесса, условного 11(. процесса и части компонент марковского процесса Глава 6. ИНФОРМАЦИЯ ПРИ НАЛИЧИИ ПОМЕХ. ШЕННОНОВСКОЕ КОЛИЧЕСТВО ИНФОРМАЦИИ §6.1. Потери информации при вырожденных преобразованиях и при л о п lol простых помехах § 6.2. Информация связи дискретных случайных величин 186 § 6.3. Условная информация. Иерархическая аддитивность информации 189 § 6.4. Количество информации связи в общем случае 195 § 6.5. Информация связи гауссовых величин 198 § 6.6. Удельная информация стационарных и стационарно связанных процессов. Гауссовы процессы § 6.7. Информация связи компонент марковского процесса 212 Глава 7. ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ. ВТОРАЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА В РАЗЛИЧНЫХ
ФОРМУЛИРОВКАХ §7.1. Принципы передачи и приема информации при наличии помех 227 § 7.2. Случайный код и средняя вероятность ошибки 230 § 7.3. Асимптотическая безошибочность декодирования. Теорема Шеннона „ . (вторая асимптотическая теорема) § 7.4. Асимптотическая формула для вероятности ошибки 237 § 7.5. Усиленные оценки для оптимального декодирования 241 § 7.6. Некоторые общие соотношения между энтропиями и взаимными информациями при кодировании и декодировании Глава 8. ПРОПУСКНАЯ СПОСОБНОСТЬ КАНАЛОВ. ВАЖНЫЕ ЧАСТНЫЕ СЛУЧАИ КАНАЛОВ § 8.1. Определение пропускной способности каналов 257 § 8.2. Решение второй экстремальной задачи. Соотношения для пропускной 9 ,_ способности и потенциала § 8.3. Вид оптимального распределения и статистическая сумма 267 § 8.4. Симметричные каналы 270 § 8.5. Двоичные каналы 272 § 8.6. Гауссовы каналы 275 § 8.7. Стационарные гауссовы каналы 285 § 8.8. Аддитивные каналы 291 Глава 9. ОПРЕДЕЛЕНИЕ ЦЕННОСТИ ИНФОРМАЦИИ 296 § 9.1. Уменьшение средних штрафов при уменьшении неопределенности 297 § 9.2. Ценность хартлиевского количества информации. Пример 301 § 9.3. Определение ценности шенноновского количества информации и а- информации § 9.4. Решение третьей вариационной задачи. Соответствующие ей „11 потенциалы § 9.5. Решение вариационной задачи при некоторых дополнительных предположениях § 9.6. Ценность больцмановского количества информации 325 § 9.7. Другой подход к определению ценности шенноновской информации 329 Глава 10. ЦЕННОСТЬ ШЕННОНОВСКОЙ ИНФОРМАЦИИ ДЛЯ ВАЖНЕЙШИХ БЕЙ-ЕСОВСКИХ СИСТЕМ § 10.1. Система с двумя состояниями 334 § 10.2. Системы с однородной функцией штрафов 338 § 10.3. Гауссовы бейесовские системы 344 § 10.4. Стационарные гауссовы системы 353 Глава 11. АСИМПТОТИЧЕСКИЕ РЕЗУЛЬТАТЫ, КАСАЮЩИЕСЯ ЦЕННОСТИ ИНФОРМАЦИИ. ТРЕТЬЯ АСИМПТОТИЧЕСКАЯ 360 ТЕОРЕМА § 11.1. О различии между ценностями различных родов информации. „ ,.. Предварительные формы § 11.2. Теорема об асимптотической равноценности различных количеств _ , _ информации
§ 11.3. Быстрота исчезновения различия в ценности шенноновской и хартлиевской информации § 11.4. Другие способы записи основного результата. Обобщения и частные случаи § 11.5. Обобщенная теорема Шеннона Глава 12. ТЕОРИЯ ИНФОРМАЦИИ И ВТОРОЙ ЗАКОН ТЕРМОДИНАМИКИ § 12.1. Информация о физической системе, находящейся в состоянии термодинамического равновесия. Обобщенный второй закон термодинамики § 12.2. Приток шенноновской информации и превращение теплоты в работу § 12.3. Энергетические затраты на создание и запись информации. Пример § 12.4. Энергетические затраты на создание и запись информации. Общая формулировка § 12.5. Энергетические затраты в физических каналах Приложение. НЕКОТОРЫЕ МАТРИЧНЫЕ (ОПЕРАТОРНЫЕ) ТОЖДЕСТВА § П. 1. Правило переноса оператора слева направо § П. 2. Детерминант составной матрицы Список литературы Предметный указатель Предметный указатель 376 386 392 398 399 402 407 410 413 416 416 417 418 420 а-информация 308 Бит 13 Больцмана формула 10 Вероятность апостериорная финальная 123 — ошибки 229 средняя 230 Ветвь аномальная 265, 308 — нормальная 265, 308 Гиббса распределение каноническое 70, 85, 89, 398 — теорема 89 Длина записи 45, 51 W-процесс вторичный апостериорный 124 Емкость информационная 65 Задача вариационная первая 65, 67 вторая 257, 258, 259 третья 311 Закон сохранения количества информации 43 — термодинамики второй 400, 405 обобщенный 400, 405 Иенсона неравенство 15 Информация связи парная (взаимная) 184 случайная 187 тройная 193 удельная 206 условная 189 Канал абстрактный 258, 260 — аддитивный 291 — гауссов 275 стационарный 285 — двоичный 272, 274 — дискретный без помех 64 — симметричный 270 — физический 413 пропускная способность 413 Код 45, 228 — дешифруемый 49
Крафта 49 — оптимальный 46 — Шеннона случайный 231 Кодирование информации 43, 44 «блочное» 44 оптимальное 43 скользящее (текущее) 44 Количество информации больцмановское 14, 326 хартлиевское 12 шенноновское 181, 186 Котельникова теорема 290 Леви формула 104 Лежандра преобразование 80, 88, 239 Маркова условие 122 Метод неопределенных множителей Лагранжа 67 «Микросостояние» 10 «Модель Изинга» 77 Наг 13 Негинформация 297 Область «активная» 67, 260, 314 Ошибка декодирования 58, 230 Параметр канонический 85, 86 — термодинамический внешний 79 внутренний 79, 85 сопряженный 80, 86 Плотность энтропии 165 Помеха простая 183 Последовательность бейесовских систем информационно-устойчивая 374 Потенциал термодинамический 73 — характеристический 29, 86, 101, 133,197,203,211 условный 249 Принцип аддитивности 12 Пропускная способность 61, 65, 258 Процесс вторичный апостериорный 119,124 — дискретный 110 марковский 114 стационарный 114 стационарный 110 — марковский диффузный 165 условный 120, 172, 215 , энтропия 120 — стационарно-связанный 205 — стационарный периодический 145 — точечный случайный 152 Равноценность информации асимптотическая 367 Радона-Никодимова производная 34 Распределение каноническое 86 — экстремальное 308 Риск 307 Свободная энергия 70 Свойство иерархической аддитивности 19, 39, 190, 191 Система бейесовская 307 гауссовая 344 стационарная 353 Случайный поток 152 Сообщение элементарное 47 Соотношение термодинамическое 70, 71,263,316 Стерлинга формула 158 Сумма статистическая 70, 82 Теорема асимптотическая вторая 234, 236 первая 99 третья 363, 367, 374 Условие мультипликативности 40, 42 — нормировки 67, 312 Условный марковский процесс 172, 215 Устойчивость информационная 236 — каноническая 95 — энтропийная 25, 28
достаточное условие 27 Фокера — Планка уравнение 165,175 стационарное 168 Функция правдоподобия 229 — семиинвариантов производящая 87 — ценности информации 303, 329 — штрафов 64, 303 Хартли формула 10. 13 Хинчина теорема 235 Ценность информации 296, 298, 303 больцмановской 326, 327 дифференциальная 298, 299 случайная 320 хартлиевской 304 шенноновской 308, 329 Цепь марковская 114 Чебышева неравенство 22 Чернова неравенство 102 Шеннона теорема 234, 259 обобщенная 360, 392, 394 Штраф средний 307 Энтропия 10, 11 — больцмановская 14 — конца отрезка 109, 113 — максимальное значение 15, 38 — непрерывной случайной величины 33,34 — свойства 15, 16 — случайная 14 — удельная 23. 109, 111, 165 — условная 17, 39 Энергия свободная 70
Предисловие Толчком к написанию настоящей книги послужило чтение автором курса лекций по теории информации на физическом факуль- тете МГУ в 1963—1965 гг. Сначала книга писалась в соответствии с содержанием этих лекций. Планировалось построить ее так, чтобы отразить все важнейшие достижения шенноновской теории информа- ции. Но в процессе работы над книгой автор «сбился» на более при- вычный для него стиль работы, в котором доминирующее место за- нимает самостоятельная разработка, вместо досконального штуди- рования имеющихся результатов. Это привело к включению в кни- гу оригинального материала и к оригинальной трактовке многих положений теории. Оригинальный материал вытеснил часть уста- новившихся результатов, которые планировалось включить в кни- гу. Так, например, была опущена глава, посвященная известным конкретным способам кодирования и декодирования в каналах с помехами. Включенный в книгу материал располагается по трем ступеням: первая, вторая и третья вариационные задачи и соответственно пер- вая, вторая и третья асимптотические теоремы. Тем самым создает- ся четкая панорама основного, наиболее принципиального содержа- ния шенноновской теории информации. Всякий стиль работы имеет свои достоинства и свои недостатки. Недостатком принятого стиля является то, что остается неотражен- ной (или недостаточно отраженной) работа многих ученых в данной области. Этот факт не следует расценивать как свидетельство недостаточного уважения к ним. Как правило, не дается оценка оригинальности материала, классификация авторской принадлеж- ности результатов. Исключение делается лишь для немногих явных фактов. В книге принят «принцип нарастающей сложности материала», заключающийся в том, что в начале книги (а также главы) помещает- ся более простой и доступный материал. При этом от читателя не требуется знакомства с более сложным и специальным материалом, расположенным ближе к концу книги (главы). Такой принцип поз- воляет включать в книгу сложный материал, не делая ее недоступ- ной для довольно широкого круга читателей. Хочется надеяться, что многие читатели почерпнут из книги кое-что полезное для себя. При рассмотрении общих вопросов автор старался вести изло- жение с наибольшей возможной общностью. Для этого он иногда пользуется языком теории меры (например, распределение вероят- ностей записывает в виде Р (dx)). Это не должно отпугивать тех, кто не владеет,указанным языком. Дело в том, что, опуская детали, можно пользоваться простым словарем, переводящим эти 3
«страшные» термины в привычные. Так, например, Под «вероятност- ной мерой Р (dx)» можно понимать вероятность Р {х) в случае ди- скретной случайной величины или произведение p\x)dx для непре- рывной случайной величины, где р (х) — плотность распределения вероятностей, a dx = dxx ... dxr — дифференциал, соответствую- щий пространству размерности г. Ориентируясь на различных читателей, автор при изложении материала не придавал значения выдержанности терминологии, считая, что безразлично сказать, допустим, «математическое ожи- дание» или «среднее значение», «вероятностная мера» или «распре- деление». Если пользоваться обобщенными функциями, то всегда существует плотность распределения вероятностей и ею можно пользоваться. Часто не возникает надобности различать знаки ми- нимизации rnin и inf, имея в виду, что, еслиинфимум на рассма- триваемом множестве не достигается, всегда можно «включить в действие» совершенно стандартную е-процедуру и в сущности в результатах ничего не изменится. В тексте книги довольно свободно делается переход от дискретного вероятностного пространства к не- прерывному. На несущественных деталях автор старался не за- держивать внимание читателя, чтобы не отвлечь от главного. Общие положения теории проиллюстрированы в книге много- численными частными случаями и примерами. Вследствие общего значения теории и примеров при их изложении специальная радио- физическая терминология не употребляется. От читателя, интере- сующегося применением изложенного материала к проблеме пере- дачи сообщений по радиоканалам, требуется умение наполнить абстрактные понятия радиофизическим содержанием. Так, напри- мер, при рассмотрении каналов с помехами (гл. 7) входной случайный процесс х = {xt} нужно трактовать как переменный информацион- ный параметр сигнала s (t, xt), излучаемого радиопередатчиком, а вы- ходной процесс у = {t/t} — как сигнал на входе приемника. Пра- вильная конкретизация понятий нужна для применения любой ма- тематической теории. Автор выражает благодарность первому читателю этой книги Б. А. Гришанину, который оказал большую помощь при подготов- ке ее к печати, а также проф. В. И. Тихонову за обсуждение затро- нутых вопросов и ряд сделанных замечаний.
Введение Термин «информация», указанный в заглавии-книги, понимается здесь не в том широком смысле, в каком его понимают работники печати, радиовещания и народного хозяйства, а в том узком науч- ном смысле, какой ему придал К. Шеннон. Другими словами, пред- метом настоящей книги является специальная математическая ди- сциплина — шенноновская теория информации, которая в состоя- нии решать не .всеобъемлющие, а определенные, сравнительно спе- циальные задачи, относящиеся к ее компетенции. Содержанием этой дисциплины являются абстрактно формули- руемые теоремы и результаты, которые по-разному могут конкре- тизироваться в различных отраслях знания. Теория информации имеет многочисленные приложения в теории передачи сообщений при наличии помех, в теории записывающих и регистрирующих уст- ройств, в математической лингвистике и других науках, вплоть до генетики. Теория информации вместе с другими математическими дисци- плинами, такими, как теория оптимальных статистических решений, теория оптимального управления, теория алгоритмов и автоматов, теория игр и другие, входит в состав теоретической кибернетики — науки об управлении. По своему основному содержанию указанные дисциплины являются самостоятельными и не связанными между собой. Но это не значит, что они совершенно оторваны одна от дру- гой, что мосты между ними не возможны. Без сомнения, возможно и вероятно появление комбинированных теорий, в которых исполь- зуются понятия и результаты различных дисциплин и которые соединяют между собой различные дисциплины. Картина подоб- на деревьям в лесу: стволы их стоят отдельно, а кроны пере- плетаются. Первое время они растут независимо, а затем, перепле- таясь ветвями, проникают друг в друга. Конечно, в целом высказанное утверждение об объединении ди- сциплин является предположительным, однако срастание друг с другом некоторых первоначально оторванных дисциплин является уже реальностью, свершившимся фактом. Как видно из ряда работ и из предлагаемой книги, срастаются три дисциплины: 1) статистическая термодинамика как математическая теория, 2) шенноновская теория информации, 3) теория оптимальных статистических решений (вместе с ее многошаговыми (последовательностными) разновидностями — опти- мальной фильтрацией и динамическим программированием). Из содержания настоящей книга будет видно, что цементом, объединяющим указанные три дисциплины, являются «термодинами- ческие» методы с такими типичными их атрибутами, как «термодина- 5
мические» параметры и потенциалы, преобразования Лежандра, экстремальные распределения, асимптотический характер важней- ших теорем. Статистическую термодинамику лишь условно можно относить к кибернетическим дисциплинам. Однако в некоторых вопросах статистической термодинамики ее кибернетическая подоплека вы- ступает довольно отчетливо. Достаточно вспомнить второй закон термодинамики и «демона Максвелла», который является типичным автоматом, перерабатывающим информацию в физическую энтро- пию. Информация является «горючим» для вечного двигателя вто- рого рода. Эти вопросы рассматриваются в гл. 12. Если статистическую термодинамику считать кибернетической дисциплиной, то Л. Больцмана и Дж. К. Максвелла следует наз- вать первыми выдающимися кибернетиками. Важно учесть, что фор- мулу, по которой энтропия выражается через вероятности, ввел Л. Больцман. Он также дал распределение вероятностей, которое является решением первой вариационной задачи (как называются входящие в формулу функции — энергией или штрафами, разу- меется, совершенно безразлично). При возникновении шенноновской теории информации появле- ние в ней такого хорошо известного в термодинамике понятия как энтропия воспринималось некоторыми как курьез, и этому не придавалось серьезного значения. Считалось, что эта энтропия не имеет ничего общего с физической энтропией (вопреки деятельности вышеупомянутого «демона»). В связи с этим можно вспомнить бес- численное множество кавычек, в которые заключено слово «энтро- пия» в первом издании русского перевода статей К. Шеннона (сбор- ник под ред. А. Н. Железнова, ИЛ, 1953). Я думаю, что теперь даже такой термин как «температура» в теории информации можно писать без кавычек, понимая под этим просто параметр, определен- ным образом входящий в выражение для экстремального распре- деления. Однотипные закономерности имеют место и в теории;ин- формации и в статистической физике, и их условно можно называть «тер модинамическими». Сначала (с 1948 г. по 1959 г.) в шенноновской теории информа- ции фигурировало ^ лишь одно «термодинамическое» понятие — энтропия. В ней, казалось, нет места для энергии и других анало- гичных термодинамических потенциалов. В этом отношении теория выглядела однобокой по сравнению со статистической термодина- микой. Но это было временным явлением. После осознания того, что в прикладной теории информации, понимаемой как теория пере- дачи сигналов, аналогом энергии является функция штрафов, ана- логом средней энергии является риск, положение изменилось. Стало очевидным сходство в числе основных понятий и в соотноше- ниях между ними. Если, в частности, иметь в виду первую вариа- ционную задачу, то можно говорить о подобии, «изоморфизме», данных двух теорий. Математические соотношения между соответст- вующими понятиями в обеих дисциплинах одни и те же, а они-то 6
и составляют содержание математической теории — той теории, ко- торая рассматривается в этой книге. Указанными соотношениями не исчерпывается содержание те- ории информации. Помимо энтропии, в ней имеются и другие по- нятия, такие, как шенноновское количество информации. Кроме первой вариационной задачи, связанной с экстремумом энтропии при фиксированном риске — энергии, в ней возможны также ва- риационные задачи, в которых энтропия заменяется на шеннонов- ское количество информации. Поэтому содержание теории информа- ции шире математического содержания статистической термодина- мики. Новые вариационные задачи обнаруживают замечательную ана- логию с первой вариационной задачей. В них имеется тот же набор сопряженных параметров и потенциалов, те же формулы связи по- тенциалов посредством преобразования Лежандра. И это не удиви- тельно. Можно показать, что все это появляется при рассмотрении любой невырожденной вариационной задачи. Остановимся на этом подробнее. Пусть заданы хотя бы два функ- ционала Фх [Р], Ф2 [Р] от аргумента («распределения») Р, и тре- буется обратить в экстремум один функционал при фиксированном значении второго, скажем, Фх [Р] = extr при Ф2 [Р] = А. р Вводя множитель Лагранжа ос, который служит «термодинами- ческим» параметром, канонически сопряженным с параметром А, будем исследовать экстремум выражения A) при фиксированном значении ос. Экстремальное значение К (а) = Фх [Pextrl + аФ2 [Pextrl = 0>1 + аЛ служит «термодинамическим» потенциалом, так как dK. = йФ1 + + adФ2 + Ф2??а = Ф2??а, т. е. = A. B) Использованное здесь соотношение = [Фй (Pexlr + 6Р) — Ф1 (Pextr)] -f а [Ф2 + 8Р) — Фа (Pextr)] = О следует из A). Здесь взята частная вариация 6Р= Pextr ( ) —pextr(a^ обусловленная приращением параметра А, т. е. парамет- ра а. Функция L (А) = К — аЛ =К—a (dK/da) является потенциа- лом, сопряженным по Лежандру с К (а). Пои этом из B) имеем dL (A)fdA = —a.
Эти обычные в термодинамике соотношения справедливы, оче- видно, независимо от природы функционалов Фх, Ф2 и аргумента Р. Излагаемые в данной книге результаты теории информации связаны с тремя вариационными задачами, решение которых при- водит к ряду соотношений, параметров и потенциалов. Вариацион- ные задачи играют в теоретической кибернетике большую роль потому, что в ней рассматриваются в первую очередь оптимальные конструкции и процедуры. Как видно из содержания книги, с рассмотренными вариацион- ными задачами связаны также важнейшие закономерности (теоремы), носящие асимптотический характер, т. е. справедливые для больших составных систем. Первой вариационной задаче соответствует факт устойчивости канонического распределения, который существен для статистической физики, и факт асимптотической эквивалент- ности ограничений, наложенных на точные и средние значения функции. Со второй вариационной задачей связан известный результат Шеннона об асимптотической безошибочности передачи информа- ции через каналы с помехами, а с третьей — факт асимптотической равноценности шенноновской и хартлиевской информации. Послед- ние результаты являются замечательным примером единства ди- скретного и непрерывного, примером того, как при повышении слож- ности дискретной системы ее удобно описывать непрерывными ма- тематическими объектами; того, как сложная непрерывная система ведет себя асимптотически подобно сложной дискретной системе. Заманчиво было бы видеть нечто подобное, скажем, в будущей асимптотической теории алгоритмов или автоматов.
Глава 1 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ И ЭНТРОПИИ ПРИ ОТСУТСТВИИ ПОМЕХ В современной науке, технике и общественной жизни большую роль играет информация и связанные с ней операции: получение информации, передача информации, переработка ее, хранение и т. п.)- Значение информации, по-видимому, переросло значение другого важного фактора, который играл доминирующую роль в прошлом веке, а именно — энергии. В будущем, в связи с усложнением науки, техники, экономики и других отраслей значение правильного управления ими будет все возрастать, и поэтому будет возрастать значение информации. Что же такое информация, возможна ли теория информации, существует ли для информации какие-либо общие закономерности, не зависящие от конкретного содержания информации, которое может быть весьма различным? Ответы на эти вопросы далеко не очевидны. Информация является более трудным для исследования понятием, чем, скажем, энергия, занимающая определенное, давно выясненное место в физике. Информация имеет две стороны: количественную и качественную. Иногда важным является общее количество информации, а иног- да — качественный вид сообщения, его конкретное, содержание. Кроме того переработка информации из одного вида в другой яв- ляется технически более сложной задачей, чем, скажем, превраще- ние энергии из одной формы в другую. Все это затрудняет разра- ботку теории информации и ее использование. Не исключено, что во многих практических задачах ситуация такова, что обращение к общей теории информации не принесет пользы, и их следует решать независимыми инженерными методами. И тем не менее общая теория информации существует, сущест- вуют такие образцовые ситуации и задачи, в которых основную роль играют закономерности общей теории. Поэтому теория информации важна и с практической точки зрения, не говоря уже о ее большой принципиальной роли, философской роли, роли в формировании кругозора исследователя. Из сказанного видно, насколько нелегким делом было открытие закономерностей теории информации. Важнейшим этапом в этом отношении явились работы К. Шеннона [1, 2], опубликованные в 1948—1949 гг. И по постановке задачи, и по результатам они были 9
многими восприняты как неожиданность. Более внимательное осмысливание, однако, приводит к заключению, что новая теория продолжает и развивает прежние идеи, а именно, идеи статистиче- ской термодинамики, связанные с именем Л. Больцмана. Не слу- чайной является глубокая общность математического аппарата этих двух направлений, доходящая до прямого совпадения формул (например, для энтропии дискретных случайных величин). Кроме того, логарифмическая мера для количества информации, являю- щаяся исходной в теории Шеннона, была предложена примени- тельно к задачам связи еще в 1928 г. в работе Р. Хартли [1]. В настоящей главе мы введем эту логарифмическую меру коли- чества информации и изложим ряд вытекающих из нее важных свойств информации, таких, как свойство аддитивности. Понятие количества информации тесно связано с понятием энт- ропии, являющейся мерой неопределенности. Приобретение ин- формации сопровождается уменьшением неопределенности, поэтому количество информации можно измерять количеством исчезнувшей неопределенности, т. е. энтропии. В случае дискретного сообщения, т. е. дискретной случайной величины, энтропия определяется формулой Больцмана где | — случайная величина, а Р (?) — ее распределение вероят- ностей . В данной главе большое значение придается тому, что эта фор- мула является следствием (в асимптотическом смысле) более про- стой формулы Хартли Я = In M. Важным результатом теории информации является тот факт, что множество реализаций энтропийно устойчивой (это понятие опре- делено в § 1.5) случайной величины можно разбить на два подмно- жества. Первое иЗ них имеет исчезающе малую вероятность, и по- этому его можно отбросить. Второе подмножество содержит прибли- зительно ея? реализации (т. е. вариантов записи), оно часто значи- тельно меньше полного числа реализаций. Реализация этого второго подмножества приближенно можно считать равновероятными. Следуя терминологии, введенной Больцманом, эти равновероятные реализации можно называть «микросостояниями». Теория информации является математической теорией, исполь- зующей понятия и методы теории вероятностей. При ее изложении нет особой надобности придерживаться специальной «информаци- онной» терминологии, применяемой обычно .в приложениях. По- нятие «сообщения» без ущерба для теории можно заменить на по- нятие «случайной величины», понятие «последовательности сооб- щений» — на «случайный процесс» и т. п. Тогда для применения общей теории, разумеется, требуется правильная формализация прикладных понятий и перевод их с прикладного языка на язык 10
теории вероятностей. Такому переводу мы не будем здесь уделять особого внимания. Основные результаты, изложенные в § 1.1—1.3 и относящиеся к дискретным случайным величинам (или процессам), которые имеют конечное или счетное число состояний, могут быть обобщены на случай непрерывных (и вообще произвольных) величин, принимаю- щих значения из многомерного действительного пространства. При таком обобщении приходится преодолевать известные трудности, мириться с определенным усложнением важнейших понятий и фор- мул. Основное усложнение заключается в следующем. Если при- менительно к дискретным случайным величинам для определения энтропии было достаточно одной меры, одного распределения ве- роятностей, то в общем случае для определения энтропии необхо- димо ввести две меры. Поэтому энтропия теперь характеризует не одну меру (степень «неопределенности» в ней), а две меры, и харак- теризует тем самым соотношения между этими двумя мерами. В на- шем изложении формула для энтропии в обобщенной версии аргу- ментируется (выводится из больцмановской формулы) на примере уплотнения точек, изображающих случайные величины. Специально теории информации посвящены вышедшие на русском языке книги Голдмана [1], Файнстейна [1], Фано И], по которым удобно знакомиться с простейшими понятиями (см. также книгу Кульбака [1]). 1.1. Определение энтропии в случае равновероятных возможностей Пусть имеется М равноправных и, следовательно, равновероят- ных возможностей. Например, при бросании правильной игральной кости М = 6. Конечно, не во всех примерах формализация усло- вий проводится так просто и определенно, как в случае игральной кости. Мы предполагаем, тем не менее, что она проведена, что дей- ствительно осуществляется одна из М возможностей и никакая иная, что эти возможности равноправны. Тогда имеется априорная неоп- ределенность, прямо связанная с М (т. е. чем больше М, тем боль- ше неопределенность). Измеряющая ее численная величина носит название энтропии и обозначается Н: H = f{M), A.1.1) где / (•) — некоторая возрастающая неотрицательная функция, оп- ределенная по меньшей мере для чисел натурального ряда. При бросании кости и выяснении выпавшего числа приходит информация, количество которой обозначим /. После этого (т. е. апостериори) никакой неопределенности не остается: апостериор- 11
ное М — 1 и этому значению должно соответствовать Hps — f A) = = 0. Количество пришедшей информации естественно измерять величиной исчезнувшей неопределенности: ! = HP,,-HPS. A.1.2) Здесь индекс рг означает «априори», a ps — «апостериори». Мы видим, что пришедшее количество информации / совпадает с первоначальной энтропией. Также и в других случаях (в част- ности для приводимой в дальнейшем формулы A.2.3)) сообщение, имеющее энтропию Н, может передавать количество информации /, равное Н. Для определения вида функции / (•) в A.1.1.) используем вполне естественный принцип аддитивности. В применении к игральной кости он гласит: энтропия двух бросаний кости в два раза больше, чем энтропия одного бросания, трех бросаний — в три раза больше и т. д. В применении к другим примерам данный принцип указы- вает, что энтропия нескольких несвязанных систем, рукояток управ- ления и т. п. равна сумме энтропии отдельных систем, рукояток управления и т. п. Но число равноправных возможностей сложной системы М равно произведению числа возможностей т каждой из подсистем («простых» по отношению к сложной). При двух бро- саниях игральной кости число различных пар (|ъ |2) (где |х при- нимает одно из шести значений и |2—также одно из шести значений) равно 36 == б2. Вообще, в случае п бросаний число равноправных возможностей равно 6". Применяя формулу A.1.1) для этого числа, получаем энтропию / F"). Согласно принципу аддитивности на- ходим / F») = nf F). При других т >¦ 1 эта формула имела бы вид f(m») = nf(m). A.1.3) Обозначая х = тп, имеем п = In je/ln m и из A.1.3) получаем f (х) =/С In *, A.1.4) где К = f (tn)/ln tn — положительная константа, не зависящая от х. Она связана с выбором единиц информации. Итак, вид функции f (¦) определен с точностью до выбора единиц измерения. Легко проверить, что отмеченное ранее условие /A) = 0 действитель- но выполняется. Впервые логарифмическую меру информации ввел Хартли [1], поэтому величину Н = КЫМ называем хартлиевским количест- вом информации. Укажем три основных выбора единиц измерения информации: 12
1) если в A.1.4) положить К, — 1, то энтропия будет измеряться в натуральных единицах (натахI*: Янат = 1пМ; A.1.5) 2) если положить К = 1/ In 2, то будем иметь энтропию, вы- раженную в двоичных единицах (битахJ': #6lIT = -^-lnM = ]og2M; A.1.6) 3) наконец, мы будем иметь физическую шкалу, если в качестве К возьмем постоянную Больцмана k = 1,38 • 10~23 Дж/град. Энтропия, измеренная в этих единицах, будет 5-ЯфИз = А:1пМ. A.1.7) Из сопоставления A.1.5) и A.1.6) JieiKo видеть, что 1 нат крупнее 1 бита в log3 е = 1/1п 2 « 1,44 раза. В дальнейшем, если не будет специальных оговорок, будем поль- зоваться натуральными единицами (формула A.1.5)), опуская ин- декс «нат». Пусть указанные равноправные возможности заключаются в том, что случайная величина % принимает одно из М значений, скажем 1, ..., М. Вероятность каждого отдельного ее значения тогда равна Р (|) == ММ, ? = 1, ..., М. Следовательно, формулу A.1.5) можно записать Я = — ЫР{1). A.1.8) 1.2. Энтропия в случае неравновероятных возможностей и ее свойства 1. Пусть теперь вероятности различных возможностей (реализа- ций) не равны друг другу. Если, как и раньше, число возможностей равно М, можно рассматривать случайную величину ?, принимаю- щую одно из М значений. Взяв в качестве ? номер возможности, получим, что эти значения равны 1, ..., М. Вероятности Р (|) этих значений неотрицательны и подчинены условию нормировки: 2РФ 1 Если применить формально равенство A.1.8) к этому случаю, то получим, что каждому значению % соответствует, вообще говоря, своя энтропия н (|) = -in p а). A.2.1) J) «нат» — сокращение английских слов natural digit, что означает «на- туральная единица». 2) «бит» — сокращение слов binary digit, означающих «двоичная единица (знак)». 13
Тем самым мы приписываем определенное значение энтропии каж- дой реализации величины ?. Поскольку g—случайная величина, то эту энтропию можно рассматривать как случайную величину. Как и в § 1.1, апостериорная энтропия, имеющаяся после вы- яснения реализации |, равна нулю. Поэтому информация, полу- чаемая при выяснении реализации, численно равна первоначальной энтропии / (?) = # (Б) =-In Я (?). A.2.2) Она, как и Н (?), оказывается зависящей от вида реализации сооб- щения (от значения ?), т- е- является случайной. Из этой формулы видно, что информация и энтропия велики, когда априорная ве- роятность данной реализации мала, и наоборот. Это вполне соот- ветствует интуитивным представлениям. Пример. Допустим, что нам интересно знать, сдал или не сдал экзамен данный студент. Примем следующие вероятности этих zmyx событий: Р (сдал) = 7/8. Р (не сдал) = */8. Отсюда видно, что этот студент является довольно сильным. Если нам сообщили, что он сдал экзамен, мы вправе сказать: «Ваше сообщение мне мало что дало, я и без этого предполагал, что он сдал». Количественно по формуле A.2.2) информация этого сооб- щения равна / (сдал) = log2 G?) = 0,193 бита. Если нам сообщили, что не сдал, мы скажем: — «Неужели?» и по- чувствуем, что в большей степени обогатились знаниями. Количест- во информации такого сообщения равно / (не сдал) = log2 8 = 3 бита. В теории, однако, большую роль играет не случайная энтропия (соответственно информация) A.2.1), A.2.2), а усредненная энтро- пия, определяемая формулой ()(). A.2.3) Будем называть ее больцмановской энтропией или больцмановской информацией. В приведенном выше примере усреднение по обоим сообщениям дает /6 = Я6 = 4- 0,193 + 4-= 0,544 бита- о о Случайная величина ?, стоящая в индексе символа #| (в отличие от величины, стоящей в скобках в Н (?)), является «слепой», т. е. энтропия #g описывает случайную величину ? (зависит от вероятно- стей Pi), но не зависит от значения |, от реализации ?. Такая си- стема обозначений в расширенном виде, включающем условные энт- ропии, будет нами применяться и далее. 14
Неопределенность типа 0 In 0, встречающаяся в A.2.3), когда отдельные вероятности равны нулю, всегда понимается в смысле О In 0 = 0. Вследствие этого множество из М возможностей всегда можно дополнить любыми возможностями нулевой вероятности, а также в индексе энтропии дописать детерминированные (не слу- чайные) величины. Например, справедливо равенство Щ = Ни при любой случайной величине |. 2. Свойства энтропии. Теорема 1.1. Как случайная, так и средняя энтропия всег- да неотрицательны. Это свойство связано с тем, что вероятность не может превзойти единицу и с тем, что постоянная К в A.1.4) берется обязательно положительной. Поскольку Р (|) <| 1, то —In Р (?) = Н (I) > 0. Это неравенство сохраняется, конечно, и после усреднения. Теорема 1.2. Энтропия имеет максимальное значение, рав- ное In M, когда возможности (реализации) равновероятны, т. е. когда Р (I) = ММ. Доказательство. Это свойство является следствием не- равенства Иенсена (см., например, Рао [1]) A.2.4) справедливого для любой выпуклой (вверх) функции / (х). (Функ- ция / (л:) = In х является выпуклой при х > 0, поскольку f" (х) = —лг2 < 0). В самом деле, обозначая 2 = УР (?), имеем ^) = ЯЕ. A.2.6) Подставляя A.2.5), A.2.6) в A.2.4), получаем #l<lnAf. Для частного вида функции / (?) = In ? неравенство A.2.4) легко проверить непосредственно. Усредняя очевидное неравенст- во получаем A.2.4). В общем случае для доказательства A.2.4) удобно рассмотреть касательную / (MQ + /' (М?) (? — М?) к функции / (Q в точке ? = М?. Вследствие выпуклости имеем Усредняя это неравенство, получаем A.2.4). Как видно из приведенного доказательства, теорема 1.2 осталась бы справедливой, если в определении энтропии логарифмическую 15
функцию заменить на любую другую выпуклую функцию. Перей- дем к свойствам энтропии, которые являются специфическими для логарифмической, функции, а именно, к свойствам, связанным с ад- дитивностью энтропии. Теорема 1.3. Если случайные величины |1; |2 независимы, то полная (совместная) энтропия Н^г распадается на сумму энтропии: Ньь = Нъ + Нъ,- A-2.8) Доказательство. Допустим, что имеются две случай- ные величины ?ь |2, первая из которых принимает значения 1, ..., тъ а вторая — значения 1, ..., т2. Существует тгтг пар g = (?х, У, причем они имеют вероятности Р (%lt |2). Нумеруя пары в произвольном порядке номером | = 1, ..., тхтъ имеем Вследствие независимости имеем Поэтому In P (Slf У = In Р (У + In Р (У; Я & У = Н (У + -)- Я (У. Усреднение последнего равенства дает Я^ = Я^ Е, = //|, + + Я^, т. е. A.2.7). Доказательство закончено. Если имеются не две независимые случайные величины, а две группы .(Hi, ••¦, ЦГ и Si, ¦•¦, Q независимых величин (Р (т^, ..., г]г, ^i, •¦•, ts) = Р Ь\х, ¦¦¦, Пг) Р (Si, .-., У), то приведенное рассужде- ние остается применимым при обозначении совокупности (г^, ..., т]г) или ее номера через |х, а (^, ..., Q — через |2. Свойство, указанное в теореме 1.3, является проявлением прин- ципа аддитивности, который был взят нами за основу в § 1.1 и привел к логарифмической функции A.1.1). Оно обобщается на случай нескольких независимых случайных величин %lt ..., ?п.При этом что легко доказывается аналогичным способом. 1.3. Условная энтропия. Свойство иерархической аддитивности Обобщим формулы A.2.1), A.2.3) на случай условных вероят- ностей. Пусть имеются случайные величины \г, ..., ?п, описываемые совместным распределением Р (|1( ..., !„). Условной вероятности г (Sft, •¦•» Snl fei> ¦¦¦¦ 5/4-1) P (ll Sft-i) IB
сопоставляем случайную условную энтропию //(Sh,...,5nli1,...,lft-1) = -ln/>(Eh,...lgn|g1 ?*_!). A.3.1) Введем особое обозначение для результата усреднения ее по |ft1 ...| X in A.3.2) 7-</ этап: выбор ?n \ \ \ I \\ \ ! w \ i Второй этап: Выбор 4- Первый этап: Выбор i \ / / / / / / Рис. 1.1. Этапы разбиения и «дерево выборов» в общем случае. также для результата полного усреднения: A.3.3) Если еще менять & и п, то мы будем иметь большое число различных энтропии, условных и безусловных, случайных и неслучайных. Между ними существуют определенные тождественные соотношения, которые рассматриваются ниже. Прежде чем перейти к формулировке основного иерархического тождества A.3.4), покажем, как можно ввести иерархическое мно- жество случайных величин ^, ..., ?п, даже если первоначально была лишь одна случайная величина Ъ,. Пусть ? принимает одно из М значений с вероятностями Р (?). Выбор одной реализации будем производить в несколько этапов.На первом этапе пусть указывается принадлежность тому или иному подмножеству из полного набора неперекрывающихся подмножеств 17
Elt ..., Emi. Пусть ix указывает номер этого подмножества. На вто- ром этапе каждое подмножество делится на более мелкие подмно- жества Еы,. Вторая случайная величина ?2 указывает, какому более мелкому подмножеству принадлежит реализация случайной величины. Эти более мелкие подмножества делятся, в свою очередь, до тех пор, пока мы не получим подмножества, состоящие из одного элемента. Число п нетривиальных этапов разбиения, очевидно, не может превосходить М — 1. Фиксированной схеме разбиений можно сопоставить «дерево», изображенное на рис. 1.1. Дальнейшие рассуждения будут относиться к какому-то одному выбранному «дереву». Чтобы указать реализацию I, необходимо и достаточно Рис. 1.2. «Дерево выборов» для одно- го конкретного примера. фиксировать совокупность реализаций (?х, 12 In)- Чтобы указать «узел» (k + 1)-го этапа, нужно указать значения |х, ..., |&. Тогда значение lh+1 указывает ту ветвь, по которой мы будем выходить из этого узла, В качестве примера «дерева» можно указать простое «дерево», изображенное на рис. 1.2, которое рассматривал Шеннон. С выбором на каждом этапе связана некоторая неопределенность. Рассмотрим соответствующую ей энтропию. Первый этап имеет один узел, и энтропия выбора равна Н^. Фиксация |х определяет узел второго этапа. Вероятность пойти по ветви |2 из узла 1Х равна условной вероятности Энтропия, связанная с выбором одной ветви из этого узла, есть не что иное, как условная энтропия типа A.3.2) при п = 2, k = 2: Усреднение по всем узлам второго этапа, как и в A.3.3), дает полную энтропию выбора на втором этапе: 18
Вообще энтропия выбора на k-м этапе в узле, который определяется значениями |lt ..., Ik-и равна i ih-i а полная энтропия &-го этапа Для примера на рис. 1.2 энтропия первого этапа равна Я|,= 1 бит. Узел А имеет энтропию #gs ([| gj = 1) = 0, а узел В — энт- ропию Яь gj = 2) = | log| + i log 3 = log2 3 — | бита. Средняя энтропия второго этапа, очевидно, равна Щгщх=— Щг(\2) = = — log2 3 — г бита. Важная закономерность состоит в том, что сумма энтропии всех этапов равна полной энтропии #g, которую можно вычислить без разбиений выбора на этапы. Для указанного примера о 2 что, действительно, совпадает с суммой #g, + #|,| g,. Это имеет место не только для данного примера. Теорема 1.4. Энтропия обладает свойством иерархиче- ской аддитивности: н\х 6П = Я&» + Я6«1Ь + #Ы51Ь+ ••• + #*„ 16,,.. .?„_!- A.3.4) Доказательство. По определению условных вероят- ностей они обладают следующим свойством иерархической мульти- пликативности: A.3.5) Логарифмируя A.3.5) и учитывая определение A.3.1) случайной условной энтропии, имеем + НЦп\1г ?„_!). A.3.6) Усредняя это равенство в соответствии с A.3.3), получаем равенство A.3.4). Доказательство закончено. Свойство, о котором идет речь в теореме 1.4, является проявле- нием того простого принципа аддитивности, который был принят в § 1.1. Оно является следствием выбора логарифмической функции в A.1.1). Легко понять, что из этого свойства вытекает свойство ад- дитивности A.2.8), A.2.9). В самом деле, для независимых случай- ных величин условная вероятность совпадает с безусловной. Ло- гарифмируя эти вероятности, имеем Я (I2|ii) — Я (|2) и после 19
усреднения Я^ц, = Я|2. Следовательно, равенство Н^*г = Я|,+ + #?.№. обращается в tfWi = Нь + Нъ,. Частное проявление свойства A.3.4) для двухэтапного разбиения было принято Шенноном [1], а также Файнстейном [1] в качестве одной из аксиом для вывода формулы A.2.3), т. е. в сущности для специализации логарифмической меры информации. И при других аксиоматических способах определения количества информации свойство аддитивности в той или иной (может быть слабой и частной) форме приходится постулировать, чтобы выделить специальную логарифмическую меру. В заключение этого параграфа докажем одну теорему, касаю- щуюся условной энтропии. Сформулируем сначала следующее важ- ное вспомогательное предложение. Теорема 1.5. Каковы бы ни были распределения вероятностей Р (I) и Q (?), выполняется неравенство 2P(gLn-|^->0. A.3.7) Доказательство близко к доказательству теоремы 1.2. Оно основано на использовании неравенства A.2.4) для функции / (х) = In х. Положим теперь ? = Q (?)/Р (?) и будем проводить усреднение с весом Р (?). Тогда Подстановка этих значений в A.2.4) дает что завершает доказательство. Теорема 1.6. Условная энтропия не может превосходить безусловную: НШ<Щ. A.3.8) Доказательство. Пользуясь теоремой 1.5, заменим в ней Р (I) на Р (?|r)), Q (I) на Р (?); тогда будем иметь Усреднение этого неравенства по т] с весом Р (г\) приводит к нера- венству 20
что совпадает с A.3.8). Доказательство закончено. Аналогично до- казывается следующая теорема. Теорема.1.6а. При добавлении условий условная энтро- пия не увеличивается: Нш<Нш. A.3.9) 1.4. Асимптотическая эквивалентность неравновероятных возможностей равновероятным Идея о том, что общий случай неравновероятных возможностей (состояний) асимптотически сводится к случаю равновероятных, лежит в основе теории информации в отсутствие помех. Эта идея принадлежит Л. Больцману, который и вывел формулу A.2.3) для энтропии. К- Шеннон возродил эту идею и широко использовал для получения новых результатов. При рассмотрении данного вопроса в настоящем параграфе мы не будем стремиться к общности, поскольку эти результаты заве- домо будут перекрыты более общими результатами в § 1.5. Возьмем набор независимых реализаций r\ = (glt ..., ?„) случайной величины ? = tj, принимающей одно из двух значений 1 или 0 с вероятностями Р [? = 1] = р < 1/2; Р [?• = 0] = 1 — р = q. Очевидно, что чис- ло различных таких наборов — реализаций равно 2п. Пусть реа- лизация х\ (обозначим ее цП1) имеет в своем составе пх единиц и п — пх = п0 нулей. Тогда ее вероятность равна РЫ^Р^а"-- 0-4.1) Конечно, эти вероятности при различных пг различны. Отношение Р (г\0)/Р (r\n) = (qlp)n самой большой вероятности к самой малой велико и сильно растет с ростом п. О какой же равновероятности можно говорить? Дело в том, что по закону больших чисел число единиц /*i = ii + ... + in имеет тенденцию принимать значения, близкие к своему среднему значению Найдем дисперсию D«x = D \\х + ... + |„] числа единиц. В силу независимости слагаемых имеем Dnx = nDl = п [Щ? — (MEJ], причем М?2 = ]Щ=р; М?2 — (М?J = р—p2=pq. Следовательно, Dn^npq; D(n1/n) = pq/n. A.4.2) Мы получили, таким образом, что среднее отклонение Апх = пх — пр ~ У pqn 21
растет с ростом п, но медленнее, чем растет среднее значение пр и длина всего возможного диапазона 0 ^ пг ^ п. Типичное от- носительное отклонение Ь.пх1пх убывает по закону кпх1пх— Yqlnp. В пределах диапазона \пх — рп\ ~ Vpqn неодинаковость вероят- ностей Р (т^) все-таки довольно велика: (как следует из A.4.1)) и увеличивается с ростом п. Но это увеличе- ние происходит относительно медленно, т. е. гораздо медленнее, чем увеличивается обратная величина самой вероятности. Соот- ветствующее неравенство щ. Р{^] L при Апх та Vpqn становится все более и более сильным с ростом п. Сформулируем сказанное точнее. Теорема 1.7. Все 2п реализаций х\ можно разделить на два множества Ап и Вп так, что 1) суммарная вероятность реализаций одного множества (Ап) исчезает: Р(Лп)->0 при п-^оо; A.4.3) 2) а реализации второго множества Вп становятся относительно равновероятными в следующем смысле: 1пР(я)-1пР(д') "" \ш» "* * v > _yQ ti f В ¦ \\' ? В A4 4) Доказательство. Используя неравенство Чебышева (см., например, Гнеденко 11]), имеем Учитывая A.4.2) и полагая е = п'/*, находим отсюда P[K-pn|>/z3/4]<Wn-i/2. A.4.5) Реализации т)„,, для которых \ пх — рп | > n'f*, отнесем к множе- ству Ап, а остальные — к множеству Вп. Тогда первая часть A.4.5) будет Р (Ап) и предельный переход п-> 0 в A.4.5) докажет A.4.3). Для реализаций второго множества справедливо неравенство рп — я3/"< пх< рп + п'1*, из которого, учитывая A.4.1), полу- ем чаем n-?- . A,4.6) 22
Отсюда имеем -2- при Р Следовательно, 1пР(Т1)-1пР(Т1') In P (ц) 2ft -1/4 lnJL p . , n — p In p — qlnq — я ' In— Чтобы получить A.4.4), здесь остается совершить предельный пере- ход л->оо. Доказательство закончено. Неравенство A.4.6) позволяет, кроме того, оценить число эле- ментов множества Вп. Теорема 1.8. Пусть Вп — множество, описанное в теореме 1.7. Число М его элементов таково, что — j—plnp—q\nq^EaH^ при п->оо. A-4.7) Эту теорему можно сформулировать также в следующей форме. Теорема 1.8а. Если считать реализации множества Ап имеющими нулевую вероятность, а реализации множества Вп равновероятными и вычислять энтропию Нц по простой формуле Нц = In M (см. A.1.5)), то удельная энтропия Нч1п в пределе будет совпадать с энтропией, вычисленной по формуле A.2.3), т. е. ^ A.4.8) В описанном смысле формула A.2.3) получается как следствие более простого соотношения A.1.5). Доказательство. Согласно A.4.5) сумма оценивается неравенством d m \ i d i a \ -^ \ РЧ Указанная сумма распространяется на элементы множества Вп и имеет М членов. Вследствие A.4.6) каждый член можно оценить сверху: Р (ц)< exp\n(plnp + q In q)+n3t* In-2-1 . 23
Следовательно, число членов не может оыть меньше определенного выражения тахР (ц) \ у п J A.4.9) С другой стороны, %Р (ц) ^ 1 иа силу A.4.6) n3'4 In-2-1 , так что Р(Вп) ^ 1 :expf—п(р In p + q In q) min P (r\) min P ( A.4.10) М-- Р Логарифмируя полученные неравенства A.4.9), A.4.10), имеем Я, —п-'/4 In JL + in i 1 BS-\ ^ lnM P. \ \n Предельным переходом я -> oo доказываем требуемые соотношения A.4.7), A.4.8). В случае, когда ^ принимает одно из т значений, имеется тп различных реализаций] процесса т] = {%lt ..., \п) с независимыми значениями. Согласно вышеизложенному из них заслуживают вни- мания лишь М = enH%i реализаций, которые можно считать равно- вероятными. Когда Р (?2) = Mm, H^ = In m, указанные два числа равны один другому, в противном случае, когда #|,<; In m, доля епИ^/тп заслуживающих внимания реализаций неограниченно умень- шается с ростом п. Следовательно, подавляющее большинство реа- лизаций при этом является несущественным и его можно отбросить. Этот факт лежит в основе теории кодирования (см. гл. 2). Рассмотренный выше факт асимптотической равновероятности имеет место и при более общих предположениях в случае зргодиче- ских стационарных процессов. Указанные равновероятные реали- зации Больцман называл «микросостояниями», противопоставляя их «макросостояниям», образованным ансамблем «микросостояний». 24
1.5. Асимптотическая равновероятность и энтропийная устойчивость 1. Изложенные в предыдущем параграфе идеи, касающиеся асимптотической эквивалентности неравновероятных возможностей (сообщений) равновероятным, могут быть распространены на зна- чительно более общий класс случайных последовательностей и про- цессов. Необязательно, чтобы случайные величины ^, образующие отрезок последовательности г\п = (Ъ,ъ ..., ?п), принимали лишь одно из двух значений. Необязательно, чтобы они имели одинаковый закон распределения Р (?7). Необязательно, наконец, чтобы они были статистически независимыми и не обязательно даже, чтобы т)" была последовательностью AЪ ..., ?„). Что же является обязатель- ным для описанной асимптотической эквивалентности? Дать общую формулировку свойства асимптотической эквива- лентности неравновероятных возможностей равновероятным по- могает понятие энтропийной устойчивости семейства случайных величин. Семейство случайных величин {if1} является энтропийно устой- чивым, если отношение Hiy^lH^n при я->оо сходится по вероят- ности к единице. Это значит, что каковы бы ни были е > 0, ii > О, найдется такое N (e, ц), что будет выполнено неравенство -\\^г}<Ч A.5.1) при любом п ^ N (г, т]). В приведенном выше определении подразумевается, что все 0< Нчп<с оо и Нцп не убывают с ростом п. Обычно Нцп _*. оо> Факт асимптотической равновероятности можно сформулировать при помощи понятия энтропийной устойчивости в виде следующей общей теоремы. Теорема 1.9. Если семейство случайных величин {цп} яв- ляется энтропийно устойчивым, то множество реализаций каждой случайной величины можно разбить на два подмножества Ап и Вп таким образом, что 1) суммарная вероятность реализаций подмножества Ап исче- зает: Р{Ап)^0 при п->оо; A.5.2) 2) реализации второго подмножества Вп становятся относи- тельно равновероятными в смысле соотношения lnP(t))-lnP(Ti') 1пР(ц) -О при n-^oo, tieBn,ti'e Bn; A.5.3) 3) число Мп реализаций множества Вп связано с энтропией соотношением ) п р НцП соотношением при п-+оо. A-5.4) 25
Доказательство. Полагая, например, е = Mm, ц — Mm, из A.5.1) имеем Р{\Н(г\«)/Нцп— l|>l/m}<l/m A.5.5) при п^ N (Mm, \/m). Пусть т увеличивается, пробегая последо- вательные целые значения. Множества Ап определяем как множест- ва реализаций, удовлетворяющих неравенству -1|>1//и A.5.6) пр-и N (Mm, Mm) ^ n<L N (М(т + 1), l/(m + 1). При таком опре- делении, очевидно, свойство A.5.2) выполняется в силу A.5.5). Для дополнительного множества Вп имеем V (rf€Sn), A.5.7) откуда получаем i")—\пР(ц'п) -\пР(цп) 2НГ)П/т 2/т — In P (tj") l — 1/m при T)"g Bn, f\'n? Bn, что доказывает свойство A.5.3) (сходимость п = N (Mm, Mm) вызывает сходимость т-> оо). Вероятности Р (г\п) всех реализаций множества Вп согласно A.5.7) лежат в диапазоне В то же время суммарная вероятность Р (Вп) = %Р (т]«) заключена между 1 — Mm и 1. Отсюда получаем следующий диапазон для числа членов: (слева наименьшее число делится на наибольшее, а справа — наи- большее на наименьшее). Поэтому , 1 , 1пA —l/m) 1п1И„ . , 1 т Нпп Нцп т откуда вытекает A.5.4). (Член 1пA — МтIН п стремится к нулю вследствие неубывания энтропии Я „.) Доказательство закончено. Свойство энтропийной устойчивости, играющее согласно теоре- ме 1.9 большую роль, удобно проверять для различных примеров, вычисляя дисперсию DH (tf) = 1W Я2 (г\") —Н2цП случайной энтропии. Если эта дисперсия не слишком быстро растет с ростом га, то применением неравенства Чебышева можно доказать 26
A.5.1), т. е. энтропийную устойчивость. Сформулируем три отно- сящиеся к этому вопросу теоремы. Теорема 1.10. Если существует равный нулю предел = o, A.5.8) то семейство случайных величин {цп} является энтропийно устой- чивым. Доказательство. Согласно неравенству Чебышева для любой случайной величины с конечной дисперсией при любом е >» 0 имеем Полагая здесь ? = Н (ц п)/Нцп и учитывая A.5.8), получаем (л") Hr\n при п->0 \ при любом е. Отсюда вытекает A.5.1), т. е. энтропийная устойчивость. Теорема 1.11. Если энтропия Н п неограниченно возра- стает и существует ограниченный верхний предел A.5.9) то семейство случайных величин энтропийно устойчиво. Для доказательства нужно лишь учесть, что величина D# (t]")/#^i, которую в силу A.5.9) можно оценить как - ^ Не (где п>А/(е)), стремится к нулю вследствие возрастания Н „ (и произвольности е) так что к данному случаю можно применить теорему 1.10. Во многих важных для практики случаях существуют конечные пределы Я^Пт— #„; Dx = lira — ПН (т)«), A.5.10) которые можно назвать удельной энтропией и удельной дисперсией. Для их вычисления разработан ряд более или менее общих методов. Согласно приводимой ниже теореме конечность этих пределов гаран- тирует энтропийную устойчивость. Теорема 1.12. Если пределы A.5.10) существуют и конеч- ны и первый из них отличен от нуля, то семейство случайных ве- личин энтропийно устойчиво. 27
Для доказательства учтем, что из A.5.10) следуют соотношения A.5.11) г). A.5.12) Здесь, как обычно, о (п) обозначает, что о (п)!п -*¦ 0. Поскольку •Яг>0, энтропия Я „ неограниченно нарастает. Поделив выражение A.5.11) на A.5.12), получим конечный предел „ft л. оо П1 -]- О (I) П i Тем самым выполнены условия теоремы 1.11, чго доказывает энтро- пийную устойчивость. Пример. Пусть задана бесконечная последовательность {|,-} дискретных случайных величин, статически независимых, но по разному распределенных. Предположим, что энтропии Н%} всех этих величин конечны и равномерно ограничены снизу. #^>С„ A.5.13) а дисперсии равномерно ограничены сверху: DH(lj)<C2. A.5.14) Случайные величины rf определяем как набор п первых эле- ментов последовательности rf = j^, ..., ?„}. Тогда вследствие A.15.10), A.5.14) и статистической независимости, т. е. аддатив- ности энтропии, будем иметь ЯТ)(г>С1я; DH(rln)<C2n. В этом случае условия теоремы 1.11 являются выполненными и из нее вытекает энтропийная устойчивость семейства {rf}. Другие более сложные примеры энтропийно устойчивых слу- чайных величин, не распадающихся на статистически независимые величины, будут рассмотрены в дальнейшем. Понятие энтропийной устойчивости можно, правда менее строго, применять не к последовательности случайных величин {цп}, а к одной случайной величине т). Тогда под энтропийно устойчивой случайной величиной т) нужно понимать такую величину, для кото- рой при некотором малом значении е вероятность -1 <е достаточно близка к единице, т. е. Я (ц)Шц достаточно близко к еди- нице. В дальнейшем будут введены другие понятия: понятие информа- ционной устойчивости, канонической устойчивости и пр., которые во многих отношениях напоминают энтропийную устойчивость.
2. Для получения ряда результатов, связанных с энтропийно- устойчивыми случайными величинами, иногда удобно рассматри- вать характеристический потенциал (х0 (а) энтропии Н (г\), опреде- ляемый формулой еи. (а> = ^ е«« (ч) р ft) = 2Р1'а (ii), A.5.15) подобный тем потенциалам, которые рассматриваются в дальнейшем (§4.1, 4.4). При помощи этого потенциала удобно исследовать бы- строту сходимости A.5.2)—A.5.4) в теореме 1.9. Этот вопрос затра- гивается в следующей теореме. Теорема 1.13. Пусть потенциал A.5.15) определен и диффе- ренцируем в отрезке s1 < а <. sz (s1 < 0; s3 > 0) и пусть урав- нение ^(8) = A+е)Я„ (в>0) A.5..16) имеет корень s?[0, s2]. Тогда подмножество А реализаций г\, определенное условием A.5.17) имеет вероятность Р(Л)<е-^'о(8>+^(8). A.5.18) Остальные реализации, составляющие дополнительное подмножество В, имеют вероятности, связанные соотношением 1ПР(Т1)-1ПР(Т)') 1пР(п) 2s 1-е A-5.19) причем число М этих реализаций удовлетворяет неравенству 1 + JL in [1 " sv A>5.20) Доказательство во многом аналогично доказатель- ству теоремы 1.9. Соотношение A.5.19)вытекает из A.5.17). Неравен- ство A.5.17) эквивалентно неравенству Учитывая его и равенство 2 в находим, что число членов в этой сумме, т. е. число реализаций в В, удовлетворяет неравенству 29
Следовательно, A—в)//„ Отсюда вытекает A.5.20), если учесть отрицательность In [1 — Р (А)] и неравенство A.5.18). Итак, для завершения доказательства тео- ремы остается обосновать A.5.18). Это соотношение мы получим, если применим доказываемую в дальнейшем теорему 4.7 (§ 4.4) при I = г), В (?) = Я (т)). Доказательство закончено. Из формул, приведенных в предыдущей теореме, можно полу- чить ряд простых приближенных соотношений, если использовать условие малости е. При е = 0 имеется нулевой корень s = 0 урав- нения A.5.16), так как-j^ @) = Нп. При малых е значение s мало, и правую часть уравнения A.5.16) можно разложить в ряд Маклорена так что корень уравнения будет иметь вид Разложим далее в ряд выражение, стоящее в экспоненте A.5.18): в|*;(*)(*) ^@) Подставляя сюда A.5.21), получаем (Е2Н2 1 3- П+О(в8)]- A.5.22) 2^'@)} Здесь \i'a @) > 0 — положительная величина, в силу общих свойств характеристического потенциала, равная дисперсии A.5.23) Мы видим, что характеристический потенциал энтропии помо- гает исследовать вопросы, связанные с энтропийной устойчивостью. 1.6. Определение энтропии непрерывной случайной величины До сих пор предполагалось, что случайная величина ?, энтро- пия #| которой изучалась, может принимать значения из не- которого дискретного пространства, состоящего из конечного или счетного числа элементов, например, сообщений, символов и т. п. Между тем в технике большое распространение имеют также непре- рывные величины, т. е. величины (скалярные или векторные), кото- рые могут принимать значения из непрерывного пространства X, 30
чаще всего пространства действительных чисел. При этом случайная величина | описывается плотностью распределения вероятностей р (I). задающей вероятность попадания ? в область АХ указанного пространства X, имеющую объем AV (d? = dV — дифференциал объема). Как определить энтропию Я| такой случайной величины? Один из возможных формальных путей таков. В формуле #5= -^Р(Е) 1пР(Е)= -М1пРШ, A.6.1) пригодной для дискретной величины, вероятности Р (?) под зна- ком логарифма формально заменяются на плотность вероятности и берется, следовательно, выражение A)\пр®41 A.6.2) Такой способ определения энтропии не очень обоснован. Остается неясным, как определять энтропию в комбинированном случае, когда в непрерывном пространстве, кроме непрерывного распреде- ления, имеется еще концентрация вероятности в отдельных точках, т. е. плотность вероятности содержит еще дельта-образные особенно- сти. Энтропия A.6.2) обладает также тем недостатком, что является неинвариантной, т. е. меняется при невырожденном преобразовании переменных г\ = / (|) в отличие от энтропии A.6.1), которая при этом остается инвариантной. Поэтому целесообразно дать несколько другое определение эн- тропии непрерывной случайной величины. Подойдем к этому опре- делению исходя из формулы A.6.1). Будем предполагать, что | — дискретная случайная величина, вероятности которой сосредоточе- ны в точках At непрерывного пространства X: Это означает, что плотность распределения имеет вид рф = !>*бA-лг), ie*. A-6.3) Используя формулу A.6.1), в этом случае имеем Hl=-^P(At)\nP(At). A.6.4) Пусть далее точки At расположены в пространстве X довольно плотно, так что даже в сравнительно малой области АХ, имеющей объем АV, располагается довольно большое число AN их. Область 31
ДХ предполагается малой в том смысле, что внутри ее вероятности Р (At) приблизительно равны ?? при Лг€ДХ. A.6.4а) Тогда для суммы по точкам, лежащим внутри АХ, будем иметь Суммируя по всем таким областям АХ, увидим, что энтропия A.6.4) запишется в виде Яе«— 2 АР In— . A.6.5) Если ввести меру v0 (I), указывающую плотность точек А и интегри- рованием которой вычисляется число точек АЛ/= \ vo(l)dl внутри любой области АХ, то энтропию A.6.4) можно записать 1пмв* (L6-6) Плотности распределения A.6.3), очевидно, соответствует дельта- образная плотность v0 (i) вида От этих дельта-образных плотностей можно перейти к сглаженным плотностям vo(l)= При этом, если «радиус сглаживания» г0, соответствующий ширине функции К (х), относительно невелик (нужно, чтобы на таких рас- стояниях вероятности Р (At) не успевали существенно измениться), то сглаживание мало повлияет на отношение плотностей: 7F) „ РF) v0 (I) " Vo (I) ¦ Поэтому из A.6.6) будем иметь dg. A.6.8) П (I) 32
Эту формулу можно получить также из A.6.5), так как АР як pAV, &.N & vokV, когда «радиус» г0 много меньше размеров областей А.Х. Но если «радиус сглаживания» г0 значительно превосходит среднее расстояние между точками Аг, то сглаженные функции A.6.7) будут иметь простой (гладкий) вид, который предполагался, скажем, в формуле A.6.2). Отбросив значки ~ в A.6.8) у обеих плотностей, мы, следова- тельно, получим в качестве формулы, определяющей энтропию #§, вместо A.6.2) формулу (l)ln-^-dl A.6.9) Здесь v0 (|) — некоторая вспомогательная плотность, которая пред- полагается заданной. Она необязательно нормирована на единицу. Более того, в соответствии с приведенной выше интерпретацией энтропии A.6.9) как частного случая энтропии A.6.1) нормировоч- ный интеграл $ v0 (?)</? = # A.6.10) 'х предполагается достаточно большим числом (N ~^> 1), интерпрети- руемым как общее число дискретных точек Аь в которых сконцен- трированы вероятности Р (At). Такая интерпретация, однако, не- обязательна, и можно, в частности, брать N = 1. Если ввести нормированную плотность ?(E) = vo(?)/tf A.6.11) (что можно сделать, когда N конечно), то, очевидно, из формулы A.6.9) будем иметь (g)ln?ig-dS. A.6.12) Определение A.6.9) энтропии #j может быть обобщено и на комбинированный случай, и на общий случай абстрактной случай- ной величины. Последняя считается заданной, если фиксировано некоторое пространство X точек I и борелевское поле F (сг-алгебра) его подмножеств. При этом говорят, что задано измеримое про- странство (X, F). На этом поле далее определена вероятностная мера Р (А) (А ? F), т. е. такая мера, что Р (X) = 1. Для определе- ния энтропии мы требуем, чтобы на измеримом пространстве (X, F) была задана также вспомогательная мера v(A) такая, что мере Р абсолютно непрерывна относительно v. Мера Р называется абсолютно непрерывной относительно меры v, если для каждого множества А из F, для которого v(A) = 0, имеет место равенство Р (А) = 0. Согласно известной теореме Радона— Никодима из условия абсолютной непрерывности меры Р относи- 33
тельно меры v вытекает существование /"-измеримой функции / (х), обозначаемой dP/dv и называемой производной Радона—Никодима, которая обобщает понятие плотности распределения. Она определе- на для всех точек пространства X, за исключением, может быть, некоторого подмножества Л, для которого v (Л) = 0, а значит и Р (Л) = 0. Итак, если условие абсолютной непрерывности выполнено, то энтропия Я| определяется при помощи производной Радона—Нико- дима по формуле Я|=- J ln^(i)PD). A.6.13) Х-Л-Ло Подмножество Л, для которого функция dPIdv не определена, не влияет на результат интегрирования, так как ему соответствуют нулевые меры Р (Л) = v (Л) = 0. Также несущественным является то подмножество Ло, в котором функция dP/dv определена, но равна нулю, так как для него Л, Л„ даже если v (Ло) ф 0. Поэтому некоторая неопределенность функции / (?) = dP/dv и бесконечные значения In / (?) в точках, где / (|) = 0, не мешают определению A.6.13) энтропии #g в слу- чае абсолютной непрерывности Р относительно v. Величина #(?) = — In — (g) A.6.14) при этом играет роль случайной энтропии, аналогичной случайной энтропии A.2.2). Она определена почти всюду в X, т. е. во всем про- странстве, за исключением, может быть, множества Л + Ло нулевой вероятности Р. По аналогии с A.6.11), если N = v (X)<oo, можно ввести вместо v (А) нормированную, т. е. вероятностную меру A.6.15) и преобразовать A.6.13) к виду A.6.16) аналогичному A.6.12). Величина A.6.17) является неотрицательной. Это утверждение аналогично теореме 1.5 и может быть доказано тем же способом. Вследствие указанной неотрицательности величину A.6.17) можно называть энтропией 34
распределения Ёероятности Р относительно распределения вероят- ности Q. Данное в настоящем параграфе определение энтропии A.6.9), A.6.13) позволяет рассматривать энтропию A.6.2) как частный слу- чай этого общего определения. Именно формула A.6.2) есть энтро- пия A.6.13) для того случая, когда мере v соответствует равномерная единичная плотность v0 (?) = dvld\ = 1. Нужно отметить, что энтропия A.6.17) вероятностной меры Р относительно вероятностной меры Q может быть использована как показатель степени различия мер Р и Q (по данному поводу см. книгу Кульбака [1]). Этому благоприятствует то обстоятельство, что она обращается в нуль для совпадающих мер Р (•) = Q (•) и положительна для несовпадающих. Другим показателем различия мер, обладающим этими же свой- ствами, может служить «расстояние», определяемое формулой Q s (P, Q) = infjj ds, A.6.18) = 2 fin Р-^- P{dl). A.6.19) причем Произведя разложение функции —In A ± 8P/P) по 8Р/Р, нетруд- но убедиться, что эта метрика может быть задана также эквивалент- ной формулой |^ j A.6.20) Соединим точки Р и Q «линией» — семейством точек Р%, завися- щих от параметра к так, что Ро = Р, Р± = Q. Тогда A.6.18) можно записать 1 s(P, Q) = inf Г— d%, A.6.21) J dX J о где в силу A.6.20) Здесь и ниже предполагаются выполненными условия дифференци- руемое™. Из A.6.22) вытекает, что 'i(dS). A.6.23) 35
В самом деле, разность этих выражений a t'^W дХ дк равна нулю вследствие того, что тождественно исчезает выражение Зк ЛЧ =/ дх Из указанного определения видно, что при сближении точек Р и Q энтропии Hp/Q, HQ/p и величина — s3 (P, Q) перестают раз- личаться. Можно сформулировать, однако, теорему, связывающую указанные величины не только в случае близких точек. Теорема 1.14. Квадрат «расстояния» A.6.18) ограничен сверху суммой энтропии: s2 (P, Q) < Нр/$ + №!р. A.6.24) Доказательство. Соединим точки Р и Q линией /Md?)=e-r<A>[P(dQ]'-*Q(dE)* A.6.25) (Г (Я) = ln$[P(rfQ]' Для нее получаем a2 In Px (dt) d2 Г (X) Следовательно, в силу A.6.23) также J In P. (iit\ i л„ \ 9. A.6.26) Далее нетрудно убедиться, что выражение A.6.17) можно записать в такой интегральной форме 36
Здесь учтено, что J' [д (In /\ (dt,))/dl] Po (dt) = 0 при X = 0. При- нимая во внимание A.6.26), отсюда находим Аналогичным образом, меняя местами Р и Q при неизменной соединительной линии A.6.25), получаем 1 №1р= Г Г I — У dX'. A.6.28) Сложим A.6.28), A.6.27) и применим неравенство Коши—Шварца: г 1 J L 0 Это даст f J dX' а, следовательно, и A.6.24), если учесть A.6.21). Доказательство закончено. 1.7. Свойства энтропии в обобщенной версии. Условная энтропия Определенная в предыдущем параграфе энтропия A.6.13), A.6.16) обладает рядом свойств, аналогичных свойствам энтропии дискрет- ной случайной величины, рассмотренным ранее. Такая аналогия является вполне естественной, если принять во внимание изложен- ную в § 1.6 интерпретацию энтропии A.6.13) как асимптотического случая (при больших N) энтропии A.6.1) дискретной случайной величины. Свойство неотрицательности энтропии, о котором шла речь в те- ореме 1.1, для энтропии A.6.13), A.6.16) выполняется не всегда, а лишь при достаточно больших N. Условие приводит к неотрицательности энтропии Н%. Перейдем к теореме 1.2, в которой рассматривалось максималь- ное значение энтропии. В случае энтропии A.6.13) при сравнении различных распределений Р меру v нужно оставлять фиксиро- 37
ванной. Как указывалось, величина A.6.17) является неотрицатель- ной, поэтому из A.6.16) имеем неравенство Я| < 1п N. В то же время, если положить Р = Q, то, очевидно, будем иметь Это доказывает следующее утверждение, являющееся аналогом теоремы 1.2. Теорема 1.15. Энтропия A.6.13) принимает максимальное значение, равное In N, когда мера Р пропорциональна мере v. Этот результат является вполне естественным в свете данной в § 1.6 дискретной интерпретации формулы A.6.13). В самом деле, пропорциональность мер Р и v означает именно равномерное рас- пределение вероятности по дискретным точкам At, и теорема 1.15 становится перефразировкой теоремы 1.2. Аналогом теорем 1.2 и 1.15 для энтропии #f^Q является следующее утверждение: энтро- пия fi?/Q принимает минимальное значение, равное нулю, когда распределение Р совпадает с Q. В соответствии с теоремой 1.15 энтропию H\iQ, определенную формулой A.6.17), целесообразно интерпретировать как дефект энтропии, т. е. как нехватку этой величины до ее максимального значения. До сих пор предполагалось, что мера Р является абсолютно непрерывной относительно меры Q или (что при конечных ./V то же самое) меры v. Возникает вопрос, как определять энтропию Н^ или Н%/<?, когда этой абсолютной непрерывности нет. Ответ на этот во- прос можно получить, рассматривая формулу A.6.16) как асимпто- тический случай (при очень большом ./V) дискретной версии A.6.1). Если, уплотняя точки Л г-, о которых шла речь в § 1.6, вероятности Р (Л j) некоторых таких точек, вопреки формуле Р (Лг) « &P/(N&Q) (см. A.6.4а)), оставлять конечными: Р (At) > с > 0 (с не зависит от N), то в пределе N -*- <х мера QN не будет абсолютно непрерыв- на относительно меры Р. Дефект #f/c при N-^oo в этом случае будет неограниченно возрастать. Это дает основание считать, что если мера Р не является абсолютно непрерывной относительно Q (т. е. является сингулярной относительно ее). Сказанное, правда, еще не определяет энтропии Н% при отсутствии абсолютной непре- рывности, так как для нее согласно A.6.16) получается неопределен- ность типа оо—оо. Для ее определения требуется более детальный анализ предельного перехода N -*- оо, связанного с уплотнением точек At. Прочие свойства энтропии в дискретной версии, указанные в те- оремах 1.3, 1.4, 1.6, касаются энтропии многих случайных величин и условной энтропии. При соответствующем определении последних 38
понятий данные свойства будут иметь место и для обобщенной версии, основанной на определении A.6.13). Пусть имеются две случайные величины \, т]. В соответствии с A.6.13) они имеют энтропию *!). A-7.1) В то же время, применяя формулу A.6.13) к одной случайной величине § или т], имеем Здесь v1( v2 — некоторые меры; их связь с v рассматривается ниже. Условную энтропию Нцп определим как разность т. е. так, чтобы было выполнено свойство аддитивности Яе„ = #„ + /%,. A.7.3) Учитывая A.6.13), A.7.2), легко видеть, что для //|in будем иметь формулу J^ (L7-4) где Р (й^|Лт|), v (d||r)) — условные меры, определяемые как про- изводные Радона—Никодима при помощи обычных соотношений (множества А, В произвольны). Определению A.7.4) соответствует случайная энтропия | т)) Данное выше определение условной энтропии Нцп можно много- кратно использовать при поэтапном рассмотрении цепочки случай- ных величин \г, \г, ..., \п. При этом соотношение A.7.3) приведет к выполнению свойства иерархической аддитивности: аналогичного A.3.4). 39
Чтобы энтропии Я|, Я|)т) и другие можно было интерпретиро- вать как меры неопределенности, необходимо, чтобы в обобщенной версии выполнялось неравенство ЯЕ>#6|Ч, A-7.46) обычное для дискретной версии. Между тем это неравенство удается доказать не в самом общем случае, как это можно видеть из после- дующей формулы A.7.6). Теорема 1.16. Если выполнено условие v(dg, d^Xv^dgK^T,), A.7.5) то неравенство Н§^ Нцц выполняется. Доказательство. Для разности Н^ — Нцч будем иметь + Mln Vl№) . A.7.6) v(dE/T]) Но для любых вероятностных мер Plt Р2 справедливо неравенство flnZlMp (dg)>0, A.7.7) которое является обобщением неравенства A.3.7) и может быть доказано тем же самым способом. Применяя A.7.7) к A.7.6) при Рх (dl) = Р №/т)), Р2 (di) = P (rfi), получаем, что первый член в правой части A.7.6) неотрицателен. Второй член можно записать так: Отсюда видна его неотрицательность в силу условия A.7.5). Сле- довательно, разность A.7.6) неотрицательна. Доказательство за- кончено. Неравенство A.7.5) естественным образом выполняется, когда v (А) интерпретируется согласно сказанному в § 1.6 как число ди- скретных точек в А, имеющих ненулевую вероятность. Тогда Vj (Д?) интерпретируется как число таких точек на интервале [?, ? + А?], a v2 (Ati) — как число точек на интервале [х\, т] + Ат]]. В прямо- угольнике [?, % + А^] х 1т), г]+ Ат]], естественно, остается не более vx (A^)v2 (Ar)) разрешенных точек. Если не придерживаться указанной интерпретации, то условие A.7.5) придется постулировать независимо. Особенно удобно при- нимать условие мультипликативности A.7.8) которое мы будем в дальнейшем постулировать. 40
Итак, Энтропия в обобщенной версии имеет обычные свойства, т. е. не только обладает свойством иерархической аддитивности, но и удовлетворяет обычным неравенствам, если выполняется условие мультипликативности A.7.8). Когда имеется несколько случайных величин %!, ... ?„, удобно выбирать меру v, удовлетворяющую условию полной мультипликативности и v (</&,...,</?„)= П ПЙ), A-7.9) которое мы понимаем как условие согласования вспомогательных мер. Согласно A.7.9) мера v комбинированной случайной величины ? = (?х, ..., \п) распадается на произведение «элементарных» мер Vfc. Тогда в соответствии с приведенными выше формулами будем иметь Я (Ю=-In-^Т, A.7.10) 0, A.7.11) ^-1) = -'п Р№||';;'ы , A.7.12) V (ag) U-1 p^iSift-i) _ A-7ЛЗ) Если случайные величины %ъ ..., Ъ,п являются статистически независимыми, то Р (dlu\%i> ••¦з ^ь-i) = Р №ft) (c вероятностью единица). Следовательно, и из A.7.4а) получаем свойство аддитивности п Я?. 5,г= 2 Я^' совпадающее с A.2.9). Перейдем к рассмотрению нормированных мер Q (dl, di\) = v (dl, di\)IN, Qt №) = v, {dl)INu где и соответствующих им энтропии A.6.17). Для них справедливы со- отношения 41
tn A.7.14) Hl^lnN1 — Я|/о'; Яч = 1пЛГ2—H%'Q' типа A.6.16). Полагая A.7.15) и принимая условие мультипликативности N^N.N,; Q(dld4)) = Q(dl)Q(dv\), A.7.16) определяем условную энтропию естественной формулой A-7.17) так что Яц^ЬЛ^-Я^. A.7.17а) При этом выполняется свойство аддитивности Htf=H™ + H%%. A.7.18) Учитывая A.7.2), приведем неравенство A.7.46) к виду Используя A.7.14), при A.7.15), A.7.16), отсюда получаем ттР/Q hP/Q Вследствие A.7.18) это неравенство можно записать НГ<НЦ1 A.7.19) Сравнивая его с A.7.46), видно, что знак ^ для энтропии НрП заменился на обратный (^). Это является убедительным свидетель- ством тому, что энтропии H%IQ, НЩ нельзя трактовать как меру неопределенности, как это делается сэнтропиями A.6.1) или A.6.13). В случае многих случайных величин целесообразно принимать условия типа A.7.15), A.7.16) для многих величин и пользоваться свойством иерархической аддитивности Л|6 = Л| f Я6И^ + Я|15 i i ^v A-7.20) Это свойство аналогично A.3.4) и A.7.4а).
Глава 2 КОДИРОВАНИЕ ДИСКРЕТНОЙ ИНФОРМАЦИИ ПРИ ОТСУТСТВИИ ПОМЕХ И ШТРАФОВ Определение количества информации, данное в гл. 1, получает свое оправдание при рассмотрении преобразования информации из одного вида в другой, т. е. при рассмотрении кодирования информа- ции. Существенно, что при таком преобразовании выполняется за- кон сохранения количества информации. Полезно провести аналогию с законом сохранения энергии. Этот закон является главным осно- ванием для введения понятия энергии. Правда, закон сохранения информации сложнее закона сохранения энергии в двух отношениях. Закон сохранения энергии устанавливает точное равенство энергий при переходе энергии из одного вида в другой. При превраще- нии же информации имеет место более сложное соотношение, а именно «не больше» «;), т. е. информация не может вырасти. Знак равенства соответствует оптимальному кодированию. Поэтому при формулировке закона сохранения информации приходится говорить, что возможно (существует) такое кодирование, при кото- ром имеет место равенство количеств информации. Второе осложняющее обстоятельство заключается в том, что равенство не является точным. Оно является приближенным, асимп- тотическим, справедливым для сложных (больших) сообщений, для сложных случайных величин. Чем больше система сообщений, тем точнее выполняется указанное соотношение. Точный знак равенст- ва имеет место лишь в предельном случае. В этом отношении имеется аналогия с законами статистической термодинамики, которые спра- ведливы для больших термодинамических систем, состоящих из большого числа (практически порядка числа Авогадро) молекул. При выполнении кодирования предполагается заданной (боль- шая) последовательность, сообщений \lt i2, ... вместе со своими ве- роятностями, т. е. как последовательность случайных величин. Следовательно, может быть вычислено соответствующее ей коли- чество информации (энтропия//). Эта информация может быть запи- сана или передана различными реализациями записи или передачи. Если М — число таких реализаций, то указанный закон сохранения количества информации заключается в равенстве Н = In M, ослож- ненном двумя отмеченными обстоятельствами (т. е. в действитель- ности Н < In M). Возможен двоякий подход к решению задачи кодирования. Мо- жет осуществляться кодирование бесконечной последовательности 43
сообщений, т. е. текущее (или «скользящее»). Такой же ха- рактер будет носить и обратная процедура — процедура декоди- рования. Для текущей обработки характерно, что количественное равенство между кодируемой и закодированной информацией под- держивается лишь в среднем. При этом возникает и нарастает с те- чением времени случайная временная задержка или опережение. Для фиксированной длины последовательности сообщений длина ее записи будет иметь случайный разброс, растущий с течением вре- мени, и наоборот: при фиксированной длине записи число элемен- тарных переданных сообщений будет характеризоваться нарастаю- щим разбросом. Другой подход можно назвать «блочным». При нем подлежит кодировке конечная совокупность (блок) элементарных сообщений. Различные блоки, если их несколько, кодируются и декодируются независимо. При таком подходе не происходит нарастания случай- ных временных сдвигов, но зато происходит потеря некоторых реализаций сообщения. Некоторая небольшая часть реализаций сообщений не может быть записана и теряется, так как для нее не хватает реализаций записи. Если блок является энтропийно устойчивой величиной, то вероятность такой потери достаточно ма- ла. Следовательно, при блочном подходе необходимо исследование вопросов, связанных с энтропийной устойчивостью. Следуя традиции, мы рассматриваем в этой главе в основном скользящее кодирование. В последнем параграфе изучаются по- грешности рассмотренного ранее вида кодирования, возникающие при конечной длине кодирующей последовательности. 2.1. Основные принципы кодирования дискретной информации Подтвердим правильность и эффективность принятого ранее определения энтропии и количества информации рассмотрением преобразования информации из одной конкретной формы в другую. Такое преобразование носит название кодирования и применяется при передаче и хранении информации. Пусть сообш,ение, которое требуется передать или записать, пред- ставляет собой последовательность \ъ ?2, ?з. ¦•• элементарных со- общений или случайных величин. Каждое элементарное сообщение пусть представляет собой дискретную случайную величину |, при- нимающую одно из т значений (скажем 1, ..., т) с вероятностью Р (I). Требуется преобразовать сообщение в последовательность Hi, г)а, ... букв некоторого алфавита Л = (А, Б, ..., Я). Число букв алфавита обозначим через D. Интервал между словами, знаки пре- пинания и т. п. включаем в число букв алфавита, так что сообщение записывается в этих обозначениях слитно. Требуется так записать сообщение, чтобы по записи можно было восстановить сообщение без потерь и ошибок. Теория должна указывать, при каких усло- виях и как это можно сделать. 44
Ввиду того, что число элементарных сообщений никак не связа- но с числом букв алфавита, тривиальное «кодирование» одного со- общения одной особой-буквой является в общем случае неприемле- мым. Будем сопоставлять каждому отдельному сообщению, т.е. каждой реализации \ = i случайной величины свое «слово» V (i) = = (г\[, ..., г\'п) в алфавите^ (lt — длина этого слова). Полная сово- купность таких слов (число их равно т) образует код. Зная код, мы по реализации сообщения \lt |2, .,., записываем это сообщение в алфавите Л. Оно, очевидно, примет вид где под V (?,) следует понимать последовательность букв. Ввиду того, что все слова V (?,-) пишутся слитно друг с другом, возникает непростая задача разделения последовательности букв %, тJ, ... на слова V (^) (раздельная запись слов означала бы не- который частный вид — и к тому же неэкономный — вышеописан- ного кодирования, поскольку интервал можно считать рядовой буквой). Об этой задаче будет речь ниже (см. § 2.2). Желательно сделать запись сообщения как можно короче, если только это возможно без какой-либо потери содержания. Теория информации указывает границы, до которых можно сжимать длину записи (или время передачи сообщения, если сообщение передается в течение какого-то времени). Поясним выводы теории рассуждением, используя результаты § 1.4, 1.5. Пусть полное сообщение (?х, ..., ?„) состоит из п одинако- вых независимых элементарных сообщений ^ = ?. Тогда (?,lt ..., ln) — t, будет энтропийно устойчивой случайной величиной. Если п велико, то согласно сказанному в § 1.4, 1.5, можно рассматривать следующую упрощенную модель полного сообщения: можно счи- тать, что осуществляется только одно из enHt равновероятных сооб- щений, где Нг = —~2>Р (?) In P (?). В то же время в буквенной записи, содержащей последовательно L букв, реализуется одна из DL возможностей. Приравнивая эти два числа, мы получаем, что длина L записи определяется уравнением пНг = L In D. B.1.1) Если использовать более короткую запись, то в некоторых слу- чаях сообщение неизбежно будет искажаться, а если использовать запись длины больше nH^/ln D, то такая запись будет неэкономной, неоптимальной. Выводы из § 1.4, 1.5 можно применить не только к последова- тельности Si. i2i ••» ?т но и к буквенной последовательности ¦%, т]2, .., r\L. Максимальная энтропия (равная L In D) такой последова- тельности достигается при распределении для каждой буквы, неза- висимом от соседних букв и при равновероятном распределении по всему алфавиту. Но вероятности букв однозначно определяются ве- роятностями сообщений и выбором кода. При фиксированных ве- 45
роятностях сообщений остается подбирать кодовые слова и ста- раться достичь указанных выше оптимальных распределений букв. Если при некотором коде достигается максимальная энтропия L In D буквенной записи, то тогда имеется etlnD == DL существен- ных реализаций записи и устанавливается взаимно-однозначное соответствие между ними и существенными реализациями сообще- ния, число которых епЯ?. При этом выполняется оптимальное соот- ношение B.1.1). Такие коды назовем оптимальными. Поскольку буквы записи для них независимы, имеем Н (f]j+i\f]}, tij-i- •¦•) — = Н (f\j+1), а так как осуществляется равновероятное распределе- ние Р (п;-+1) = 1/D по алфавиту, то каждая буква несет одинако- вую информацию tf(T|,+1) = lnD. B.1.2) Это соотношение говорит о том, что каждая буква используется как бы на «полную мощность»; оно является признаком опти- мального кода. Возьмем какую-либо конкретную реализацию сообщения \ = j. Она содержит согласно A.2.1) случайную информацию Н (!) = = —In P (/). Но каждая буква алфавита в силу B.1.2) при опти- мальном коде несет информацию In D. Отсюда следует, что'кодовое слово V (I) этого сообщения, в оптимальном коде также несущее информацию Н (!) = —In Р (!), должно состоять из / (!) = = —In P (!)/lnD букв. При неоптимальном кодировании каждая буква несет меньше информации, чем In D. Поэтому длина кодового слова / (!), несущего информацию —In Р (!) = Н (g), должна быть больше. Следовательно, для любого кода Усреднение этого неравенства дает /cp>tf|/lnD, B.1.3) что согласуется с B.1.1), поскольку /ср = Цп. Итак, теория указывает, чего нельзя достичь (нельзя сделать, чтобы длительность L записи была меньше, чем nH\l\n D), чего можно достичь (можно сделать, чтобы длительность L была близка к пНфп D) и как этого достичь (подбирая код, дающий по возмож- ности независимые равновероятные распределения букв по алфа- виту). Пример. Пусть имеется случайная величина % со следующими значениями и вероятностями: 1 Pit) 1 1 4 2 1 4 3 1 8 4 1 8 5 1 16 6 1 16 7 1 16 8 1 6
Сообщение записывается в двоичном алфавите (А, Б), так что D = 2. Возьмем кодовые слова = (ААА); 1/B) = (ААБ); 1/C) = (АБА); УD) = (АББ); B.1.4) УE) = (БАА); V F) = (БАБ); 1/G) = (ББА); 1/(8) = (БББ). Чтобы сказать, хорош этот код или нет, сравним его с оптималь- ным кодом, для которого выполняется соотношение B.1.1). Вычис- ляя по формуле A.2.3) энтропию элементарного сообщения, имеем Я| = 1п2 + — 1п2 + 1п2 = 2,75 бита. В коде B.1.4) на элементарное сообщение тратится три буквы, тогда как в оптимальном коде на это сообщение может быть согласно B.1.1) затрачено Lin = #|/ln 2 = 2,75 буквы. Следовательно, воз- можно сокращение записи на 8,4%. В качестве оптимального кода можно выбрать код V A) = (АА); V B) = (АБ); V C) - (БАА); V D) = (БАБ); B.1.5) V E) = (ББАА); V F) = (ББАБ); V G) = (БББА); 1/(8) = (ББББ). Легко проверить, что вероятность появления буквы А на первом месте равна 1/2. Поэтому энтропия первого символа равна НЦ1 = = 1 бит. Далее, при фиксированном первом символе условная вероят- ность появления буквы А на втором месте по-прежнему равна 1/2. Это дает условные энтропии Н^г (| %) = 1 бит; Н^г/П1 = 1 бит. Аналогично Нц. (| %, т]2) = 1 бит; Яч> | г,, т,2 = 2 бит; #„,, „, „, „, = 1 бит. Итак, каждая буква независимо от ее места несет одну и ту же информацию 1 бит. Случайная информация элементарного сообще- ния § при этом условии равна длине соответствующего кодового слова: Н (I) = I (I) бит. B.1.6) Следовательно, средняя длина слова равна информации элементар- ного сообщения: #! = /ср бит = /ср In 2 нат. Это согласуется с B.1.1), так что код является оптимальным. Со- отношение Р(|) = A/2)'(?\ которое эквивалентно равенству B.1.6), является следствием независимости распределения букв в буквенной записи сообщения. Соотношение B.1.3) со знаком равенства справедливо в предполо- жении, что п велико, когда можно пренебречь вероятностью Р (Ап) несущественных реализаций последовательности |х, ..., Ъ,п (см. тео- ремы 1.7, 1.9). В этом смысле оно является правильным асимпто- 47
тически. Для конечного п подобного соотношения установить не удается. В самом деле, если мы потребуем пунктуального воспроиз- ведения буквально всех сообщений конечной длины п (а их число тп), то длина L записи будет определяться из соотношения DL = тп. Сократить ее (например до значения пН^/Ы D) окажется невозмож- ным без потери некоторых сообщений, вероятность которых при конечных п конечна. С другой стороны, допуская непостоянство длины L = L (?ь ..., §„) при конечных п можно так закодировать сообщения, что B.1.3) заменится на обратное неравенство 1ср<ЩПпП. Покажем это для случая п = 1. Пусть имеются три возможности % = 1, 2, 3, с вероятностями 1/2, 1/4, 1/4. Выбрав код VF) (А) (Б) (АБ) 1 , 2 ", B.1.7) соответствующий D — 2, получаем /ср = -»- + -j- + -г- = 1,25, в то 12 2 время как #|= у In 2 + -г In 2 + -г- In 2 = 1,5 бита. Следовательно, для данного единичного сообщения неравенство B.1.3) нарушается. 2.2. Основные теоремы для кодирования без помех. Равнораспределенные независимые сообщения Рассмотрим тот случай, когда имеется неограниченная (в одну сторону) последовательность |ь ?2, ?3, ... одинаковых независимых сообщений. Требуется осуществить ее кодирование. Чтобы приме- нить рассуждения предыдущего параграфа, требуется разбить эту последовательность на отрезки, называемые блоками, содержащие по п элементарных сообщений каждый. Тогда при больших л можно использовать описанные выше общие асимптотические («термодина- мические») соотношения. Для исследования кодирования в отсутствие помех, имеется, однако, и другая возможность — избегнуть разбиения последова- тельности на блоки и отбрасывания несущественных реализаций. Соответствующую теорию мы изложим в этом параграфе. Код B.1.7), пригодный для передачи (или записи) единичного сообщения, не приспособлен для передачи последовательности таких сообщений. Например, запись АБАБ можно истолковать как за- пись V A)У B ) V C) сообщения (llf ?2, 1Я) = A 2 3) и как запись V C) V A) V B) сообщения C 1 2) (при п ^ 3), не- говоря уже о сообщениях (?1( %2) = C 3); (?1( 12, 13, у = A21 2), которые соответствуют другим я. Он не дает возможности однозначно рас- 48
шифровать сообщение, и мы должны его забраковать, если хотим передавать последовательность сообщений. Обязательное условие, чтобы длинную последовательность кодо- вых символов можно было однозначно разбить на слова, существенно ограничивает класс допустимых кодов. Назовем дешифруемыми кодами такие коды, в которых любая полубесконечная последова- тельность кодовых слов разбивается на слова однозначным образом. Как доказывается, например в книге Файнстейна [1], для этих кодов выполняется неравенство V, D-' B.2.1) Удобнее рассматривать несколько более узкий класс дешифруе- мых кодов — назовем их дешифруемые коды Крафта (см. работу Рис. 2.1. Пример кодового Второй этап: А Первый этап: А Вторая буква Первая буква Крафта [1]). В этих кодах ни одно кодовое слово не является перед- ней частью («префиксом») другого слова. В коде B.1.7) это условие нарушено в слове (А), поскольку оно является передней частью слова (АВ). Коды можно рисовать в форме «дерева» (рис. 2.1), на- подобие «деревьев», изображенных на рис. 1.1 и 1.2. Однако (если рассматривать код отдельно от сообщения %) в отличие от них «ветвям» «кодового дерева» не сопоставляются вероятности. Выбор ветви осуществляется по этапам записью очередной буквы т) слова. Концу слова соответствует особый конечный узел, который мы на рисунке обозначаем треугольником. Каждому кодовому слову соответствует кодовая линия, идущая от| начального узла до ко- нечного. На рис. 2.1 изображено «дерево», соответствующее коду B.1.5). Для дешифруемых кодов Крафта ни один конечный узел не лежит на другой кодовой линии. Теорема 2.1. Неравенство B.2.1) является необходимым и достаточным условием существования кода, дешифруемого по Крафту. Доказательство. Докажем сначала, что неравенство B.2.1) выполняется для любого кода Крафта. Из каждого конечного узла кодового дерева выпустим максимальное число (равное D) вспомогательных линий, изображенных волнистыми линиями на рис. 2.2. Пусть они размножаются максимальным образом (каждая 49
делится на D линий) на всех последующих этапах. Подсчитаем число вспомогательных линий на каком-то высоком этапе, соответствую щих номеру k. Предполагаем, что k больше длины самого длинного кодового слова. Конечный узел слова длины 1A) дастО*-'<?> вспомо- гательных линий на k-u этапе. Полное число вспомогательных линий равно 2'<6). B.2.2) Будем теперь выпускать вспомогательные линии не только из ко- нечных узлов, но и из каждого промежуточного узла, если из него выходит меньше, чем D кодовых линий. На других этапах пусть Рис. 2.2. Проведение дополнитель- ных линий и их подсчет на уровне k (при k—3, D=2). эти линии, в свою очередь, размножаются максимальным образом. На k-м этапе число вспомогательных линий возрастает по сравнению с B.2.2) и станет равным Поделив обе части этого неравенства на Dk, получим B.2.1). Оче- видно, что знак равенства имеет место в том случае, если.все вну- тренние узлы кодового дерева используются максимальным образом, т. е. из каждого узла выходит D кодовых линий. Докажем теперь, что условие B.2.1) достаточно для дешифруе- мости по Крафту, т. е. что всегда можно построить кодовое дерево с изолированными конечными узлами, если задан набор длин / (?), удовлетворяющих условию B.2.1). Проведение кодовой линии задан- ной длины на дереве означает заполнение слова заданной длины буквами. Какие препятствия при этом могут встретиться? Пусть имеется m-i = mil (?) = 1)] однобуквенных слов. Заполнение этих слов буквами может встретить препятствие только тогда, когда не хватит алфавита, т. е. когда тх > D. Но это неравенство противо- речит условию B.2.1). В самом деле, оставив в левой части B.2.1) только члены с / (?) = 1, получим лишь усиление неравенства: 2 D <i. Mi)=l D Так что т.! < D, и алфавита должно хватить для заполнения всех однобуквенных слов. Рассмотрим двухбуквенные слова. Кроме 50
использованных букв, стоящих на первом месте, имеется еще D — тх букв, которые мы можем поставить на первое место. К первой букве можно прибавить любую из D букв. Всего имеется (D—тг) D возможностей. На «дереве» любой узел из D — тг неконечных узлов первого этапа дает D линий. Этих возможных двухбуквенных соче- таний (линий) должно хватить для заполнения всех двухбуквенных слов, число которых обозначим т2. В самом деле, оставляя в левой части B.2.1) лишь члены с Z (?) = 1 и / (?) = 2, имеем т. е. т2 <: D2 — Dm^ Это и означает, что двухбуквенных сочетаний хватит для заполнения двухбуквенных слов. После этого заполне- ния остаются свободными D2 — Dm± — тг двухбуквенных сочета- ний, которые можно использовать для прибавления новых букв. Числа трехбуквенных сочетаний, равного (D2 — Dmx — m2)D, достаточно для заполнения трехбуквенных слов и т. д. Каждый раз при доказательстве используется часть членов суммы ^D—l№ в B.2.1). Доказательство закончено. Как видно из приведенного доказательства, не представляет труда фактическое построение кода (заполнение слов буквами), если задан приемлемый набор длин Z A), ..., I (п). Перейдем теперь к основным теоремам. Теорема 2.2. Средняя) длина слова /ср меньшая, чем Я|/1п D, является недостижимой ни при каком кодировании. Доказательство. Рассмотрим разность Используя очевидное неравенство —In х > 1 — х, B.2.3) получаем 1—М———, т. е. 1п РA) так как 2 Т Учитывая B.2.1), отсюда находим /срlnD—7/g> I— 2>D~'«) > О Доказательство закончено. 51
Вместо неравенства B.2.3), можно использовать неравенство A.2.4). Следующие теоремы утверждают, что к значению //j/ln D, огра- ничивающему среднюю длину /ср снизу, можно подойти довольно близко, выбирая подходящий способ кодирования. Теорема 2.3. Можно указать такой способ кодирования рав- нораспределенных независимых сообщений, что Доказательство. Выберем длины / (|) кодовых слов так, чтобы они удовлетворяли неравенству 7 } JnP(@ j ( 25 Такой выбор возможен, ибо в этом диапазоне заведомо имеется одно целое число. Из левого неравенства следует Р (?) ^ D~l^\ так что 2 т. е. выполняется условие дешифруемости B.2.1). Как видно из рассуждений перед теоремой 2.2, нетрудно фактически построить ко- довые слова с выбранными длинами / (?). Усредняя обе части пра- вого неравенства B.2.5), получаем B.2.4). Доказательство закон- чено. Приведем следующую теорему, которая носит асимптотический характер. Теорема 2.4. Существуют такие способы кодирования бес- конечного сообщения \ъ |2, ..., что средняя длина элементарного сообщения может быть сделана сколь угодно близкой к H\l\n D. Доказательство. Возьмем произвольное целое п > 1, разобьем последовательность gb ga, ... на группы по п случайных величин. Каждую такую группу будем рассматривать как одну слу- чайную величину ? = (?i, ..., Нп) и применим к ней теорему 2.3. Неравенство B.2.4) для нее примет вид где Hi = ratf|, lcvi — средняя длина слова, передающего сообще- ние t — (llt ... , In). Очевидно, что ?CPs = nlcp, поэтому B.2.6) дает ЯЕ 1 Увеличивая п, величину 1/га можно сделать сколь угодно малой, что доказывает теорему. 52
Приведенные результаты получены для случая стационарной последовательности независимых случайных величин (сообщений). Эти результаты могут быть распространены на случай зависимых сообщений, на нестационарный случай и др. При этом существенным является то, чтобы последовательность удовлетворяла определенным свойствам энтропийной устойчивости (см. § 1.5). 2.3. Оптимальное кодирование по Хуфману. Примеры Предыдущее рассмотрение не только решает принципиальные вопросы существования асимптотически оптимальных кодов, т. е. кодов, для которых средняя длина сообщения стремится к мини- мальному значению, но и дает практические способы их отыскания. Выбрав я и определив длины кодовых слов при помощи неравенства ^ +1, получим код, который согласно теореме 2.4 является асимптотиче- ски оптимальным. Такой код, однако, может быть не вполне опти- мальным для фиксированного я. Другими словами, может оказаться, что сообщение ? = (|ь ..., ?„) можно закодировать лучше, т. е. с меньшей длительностью /ср. Хуфман [1] (см. также Фано [1]) нашел несложный способ опти- мального кодирования, которому соответствует минимальная сред- няя длительность из всех возможных для данного сообщения. Рассмотрим сначала случай D = 2 и зададимся некоторым кон- кретным оптимальным кодом К для сообщения ?. Исследуем, какими обязательными свойствами должен обладать оптимальный код или соответствующее ему «дерево». На каждом этапе, кроме, может быть, последнего, из каждого неконечного узла должно выходить максимальное число D линий. В противном случае конечную линию с последнего этапа можно было бы перенести в этот «неполный» узел и этим сократить длину /ср. На последнем этапе должно быть как минимум две линии. Иначе последний этап был бы излишним] и его можно было бы исключить, укоротив соответствующую кодовую линию. Среди линий послед- него этапа есть две линии, которым соответствуют две наименее вероятные реализации ?х> ?г сообщения из всех реализаций ?t, ... ..., ?ш. В противном случае можно было бы поменять местами сооб- щения, приписав более длинному слову менее вероятную реализа- цию сообщения и тем самым укоротить среднюю длительность слова. Но если два наименее вероятных сообщения имеют кодовые слова, кончающиеся на последнем этапе, то можно считать, что их линии выходят из одного узла предпоследнего этапа. Если в К это не так, то поменяв местами два сообщения и добившись этого, 53
мы будем иметь другой конкретный код, имеющий ту же среднюю длительность и, следовательно, не хуже первоначального К- Превратим узел предпоследнего этапа, из которого выходят две рассмотренные ранее линии в конечный узел. Соответственно этому две наименее вероятные реализации ?ъ ?2 будем считать за одну. Число различных реализаций будет теперь равно т — 1 и им будут соответствовать вероятности Р (?х) + Р (?*), Р (?3), ..., Р (?т). Можно считать, что имеется новая («упрощенная») случайная ве- личина, новый код и новое («урезанное») «дерево». Средняя длитель- ность слова для этой величины может быть выражена через преж- нюю среднюю длительность по формуле Очевидно, если первоначальное кодовое «дерево» минимизирует /ср, то «урезанное» кодовое «дерево» минимизирует l'cv и наоборот. Следовательно, задача отыскания оптимального кодового «дерева» свелась к задаче отыскания оптимального «урезанного» кодового «дерева» для сообщения cm — 1 возможностями. К этому «упро- щенному» сообщению можно применить все те рассуждения, которые относились выше к первоначальному сообщению, и полу- чить «дважды упрощенное» сообщение cm — 2 возможностями. К последнему также применяется вышеприведенное рассуждение и т. д., пока не получится тривиальное сообщение с двумя возмож- ностями. В процессе описанного упрощения кодового «дерева» и сообщения две ветви кодового «дерева» на каждом шаге сливаются в одну и в конце полностью выясняется его структура. Аналогичное рассмотрение можно провести и при D > 2. Пред- положим, что все узлы кодового «дерева» полностью заполнены. Это имеет место, когда т — 1 без остатка делится на D — 1. В самом деле, каждый узел (кроме конечных) добавляет т — 1 новых линий (если считать, что к первому узлу подходит снизу одна линия) и частное (т—l)/(D — 1) равно числу узлов. Каждое «упрощение» в этом случае уменьшает число реализаций случайной величины на D — 1. При этом сливаются воедино D наименее вероятных воз- можностей; D самых длинных ветвей кодового «дерева» из оставших- ся укорачиваются на единицу и заменяются на один конечный узел. Некоторое осложнение вносит тот случай, когда число {т — 1)/(D — 1) не целое. Это значит, что из внутренних узлов кодового «дерева» хотя бы один должен быть неполным. Но в опти- мальном дереве, как отмечалось, неполные узлы могут принадле- жать лишь последнему этапу, относиться к последнему выбору. Без ухудшения «дерева» можно так переставить сообщения, относящие- ся к словам максимальной длины, что: 1) неполным будет лишь один единственный узел и 2) сообщения, относящиеся к этому узлу, будут иметь самую меньшую вероятность. Обозначим через г (О <С г <С D — 2) остаток, получающийся от деления т — 1 на D — 1. Тогда единственный неполный узел будет иметь г -\- \ ветвей. В соответствии с вышесказанным первое «обрезание» де- 54
рева и упрощение случайной величины будет заключаться в сле- дующем: выбираются г -\- \ наименее вероятных реализаций из Si. ••¦> ?m и заменяются на одну реализацию с суммарной вероят- ностью. «Урезанное» дерево будет иметь уже заполненные внутрен- ние узлы. При дальнейшем упрощении берутся D наименее вероят- ных реализаций из получившихся при предыдущем упрощении и заменяются на одну с суммарной вероятностью. То же самое произ- водится и в дальнейшем. В этом заключается рецепт построения оптимального кода по Хуфману. Приведенные выше рассуждения говорят о том, что полученное в результате кодовое «дерево», воз- можно, не совпадает с оптимальным «деревом» К., но не хуже его, т. е. имеет такую же среднюю длину lcv. Пример. Рассмотрим кодирование в двоичном (D = 2) алфа- вите (А, Б) бесконечной последовательности ?lt |s, ... одинаковых элементарных сообщений. Каждое элементарное сообщение ? пусть будет такого же типа, как и в примере из § 1.2, т. е. т = 2; Р @) = 7/8, Р A) = 1/8. 1) Если взять п= 1, т. е. кодировать каждое элементарное сооб- щение в отдельности, то в качестве кода остается лишь выбрать тривиальный код: Для него /ср = 1, в то время как #g/lnD = 0,544 B.3.1) и, следовательно, возможно lcv = 0,544. Сравнение последней цифры с 1, показывает, что можно добиться значительного выигрыша в краткости, если перейти к усложненным вариантам кодиро- вания — к я > 1. 2) Положим п = 2. Тогда будут такие возможности и вероят- ности Р(С) 1 И 0,015 2 10 0,110 3 01 0,110 4 00 0,765 Здесь ? означает номер пары (|ь g2). При первом «упрощении» можно объединить реализации ? == 1 и ? = 2 в одну реализацию, имеющую вероятность 0,015 + 0,110 = = 0,125. Среди оставшихся после «упрощения» реализаций, имею- щих вероятность 0,110; 0,125; 0,765, снова объединяем две наиме- нее вероятные. Схема этих «упрощений» и соответствующее им ко- довое «дерево» показаны на рис. 2.3, 2.4. Остается лишь расставить буквы А, Б вдоль ветвей, чтобы получить следующий оптимальный код: 55
с Si?2 i 11 ААА 2 10 ААБ 3 01 АБ 4 00 Б Для него средняя длительность слова равна /ср 5 = 0,015-3+ 0,110-3+ 0,110-2+ 0,765 =1,36, 1 0,015^^ \OJ10 . v Ч / 0,235 3 у 0,110 ,0,125 ^^ Ч 0,765 0,755 0,765 Рис. 2.3. Схема упрощений для я=2. B.3.2) Рис. 2.4. Кодовое «дерево» в рассмотренном примере при п=2. 3) Возьмем п — 3. Теперь имеем следующие возможности 1 P(Q 1 111 0,002 2 ПО Р.014 0 3 101 ,014 0, 4 ОН 014 0 5 100 ,096 6 010 0,096 7 001 0,096 8 000 0,668 На рис. 2.5 показано соответствующее кодовое «дерево». Расстав- ляя буквы вдоль ветвей, находим оптимальный код ЛАААА ААААБ АААБА АААББ С 5 6 7 8 V(C) ААБ АБА АББ Б Подсчитываем для него среднюю длительность кодовых слов: = 2,308, /cp = -L/cp? = 0,577. 56
Эта величина уже значительно ближе к предельному значению /ср = 0,544 B.3.1), чем /ср = 0,68 B.3.2). Увеличивая п далее Рис. 2.5. Кодовое «дерево» при п = 3 1 2 3 \ / \ О,16\ V 0,041\ \ 0,140 if У 0,02В 5 6 \ / v о,ззгХ 7 / У0,192 8 / и конструируя оптимальные коды описанным способом, можно сколь угодно близко приблизиться к значению 0,544. Это достигается, конечно, усложнением кодирующей системы. 2.4. Погрешности кодирования без помех при конечной длине записи Методы кодирования, описанные в § 2.2, таковы, что длина за- писи фиксированного числа сообщений является случайной. При- веденная теория дает оценки для средней длины, но ничего не го- ворит о ее разбросе. Между тем практически длина записи или вре- мя передачи сообщения бывает ограниченно техническими условия- ми. Может оказаться, что запись сообщения не сможет уложиться в допустимые пределы и данная рализация сообщения поэтому не сможет быть записана (или передана). Это вносит определенные по- тери информации или искажения (зависящие от разброса длины записи), исследование которых является особой проблемой. Как видно из дальнейшего, определяющим фактором в этом отношении является энтропийная устойчивость случайных величин Пусть длина записи I (цп) сообщения цп не может превосходить фиксированной величины L. Выберем код, определяемый согласно 57
B.2.5) неравенствами — lnP(Ti»)/ln?></(Tin)< — lnP(i\n)/lnD+ 1. Тогда запись тех реализаций сообщения, для которых выполнено условие <L, B.4.1) заведомо сможет уложиться в заданных пределах. При декодирова- нии эти реализации будут восстановлены безошибочно. Запись не- которых реализаций не сможет уложиться. При декодировании в этом случае можно указывать любую реализацию, что, как пра- вило, будет сопряжено с появлением ошибки. Возникает вопрос, как оценить вероятность правильного и ошибочного декодирования. Очевидно, что вероятность ошибки декодирования не будет пре- восходить вероятности неравенства B.4.2) которое обратно неравенству B.4.1). Неравенство B.4.2) можно записать в виде Нцп Нцп Но для энтропийно устойчивых случайных величин отношение Н (ч\пIН п стремится к единице. Принимая во внимание определение энтропийно устойчивых величин (§ 1.5), получаем отсюда следую- щий результат. Теорема 2.5. Если случайные величины г\п энтропийно устой- чивы и если длина записи L = Ln так растет с ростом п, что вы- ражение 'inD—1 НГ]п остается больше некоторой положительной постоянной 8, то ве- роятность Рош ошибки декодирования стремится к нулю прип-+ оо. Очевидно, что условие в приведенной теореме можно заменить на более простое условие если НцП-> оо при п -> оо. Не поместившиеся в записи и поэтому неправильно декодирован- ные реализации при этом относятся к множеству Ап несущественных реализаций, о котором идет речь в теореме 1.9. 58
Используя результаты § 1.5, можно получить более детальные оценки для вероятности ошибки Рощ, оценить быстроту ее исчез- новения. Теорема 2.6. Вероятность ошибки декодирования при фик- сированной длине записи L > (Я „/In D) -}- 1 удовлетворяет нера- венству ош ^ • (/.4.0) [{L — l)lnD — Нцп]2 Доказательство. Воспользуемся неравенством Чебы- шева (е > 0 любое) для случайной величины ? = Н (г\")/Н п. Полагая e = -^-lnD— 1, Нг\п отсюда имеем p|iM^>JpiLlnD |<!iiiiIOlicLLlnD_1"I~2 что доказывает B.4.3). Для последовательности равнораспределенных независимых со- общений из B.4.3) получаем убывание Рат с ростом п по закону \1п, если L — 1 растет линейно с ростом п и дисперсия DH (I) ко- нечна. В самом деле, подставляя ; L-l=Ljn B.4.4) в B.4.3), находим рои<1_ЛШ_. B.4.5) /г [LlnD#]2 Используя теорему 1.13, нетрудно доказать более быстрый экспо- ненциальный закон убывания вероятности Рош. Теорема 2.7. При фиксированной длине L > Hnl\n D + 1 вероятность ошибки декодирования удовлетворяет неравенству ^'<5>, B.4.6) где ц (а) — потенциал, определяемый формулой A.5.15), a s — положительный корень уравнения ц' (s) = (L - 1) In D, если этот корень лежит в области определения и дифференцируе- мости потенциала. 59
Для доказательства нужно лишь воспользоваться формулой A.5.18) теоремы 1.13, полагая При малых е в пределах применимости формулы A.5.22) нера- венство B.4.6) можно заменить следующим: Рош<ехР(- К*'>'пРЯ,,1Ч B.4.7) В случае одинаково распределенных независимых сообщений, когда справедливы соотношения B.4.4) и формула B.4.5), в силу B.4.7) имеем такое соотношение: L. B.4.8) 2 Dtf(g) j Оно говорит об экспоненциальном законе убывания вероятности Рош с ростом п. Полученные формулы B.4.7), B.4.8) соответствуют такому слу- чаю, когда распределение вероятности для энтропии можно считать приближенно гауссовым в силу центральной предельной теоремы.
Глава 3 КОДИРОВАНИЕ ПРИ НАЛИЧИИ ШТРАФОВ. ПЕРВАЯ ВАРИАЦИОННАЯ ЗАДАЧА Количество информации, которое можно записать или передать, определяется логарифмом числа различных реализаций записи или передачи. Подсчет этого числа, однако, не всегда являет- ся простым делом. Он может осложняться наличием каких-либо ограничений, наложенных на допустимые реализации. Вместо не- посредственного вычисления числа реализаций во многих случаях целесообразно вычислять максимальное значение энтропии записи, беря максимум по распределениям, совместимым с условиями, на- ложенными на математическое ожидание определенной случайной величины штрафов. Это максимальное значение энтропии носит на- звание пропускной способности канала без помех. Описанная ва- риационная задача является первой из ряда основных вариацион- ных задач, играющих большую роль в теории информации. Соотношения, полученные в результате решения указанной ва- риационной задачи, оказываются аналогичными соотношениям ста- тистической термодинамики (см., например, учебники Леонтови- ча [1, 2]). Для нахождения пропускной способности и оптимальных распределений удобно применять разработанные там методы. Эти методы основаны на систематическом использовании термодинамиче- ских потенциалов и формул. Функция штрафов при этом служит ана- логом энергии. В теории подобающее место находят температура, свободная энергия и другие термодинамические понятия. Тем самым математический аппарат этого раздела теории информации смыкает- ся с аппаратом статистической термодинамики. Подобная аналогия будет наблюдаться и в дальнейшем для второй и третьей вариационных задач (§ 8.2, 9.4 соответственно). Следует подчеркнуть, что указанная аналогия имеет не только принципиаль- ное, но и практическое значение. Она позволяет-использовать мето- ды и результаты статистической термодинамики. Рассмотрение и решение ряда частных задач (пример 3 из § 3.4) на оптимальное кодирование со штрафами математически эквива- лентно расчету одномерной модели Изинга, хорошо известной в ста- тистической физике. В конце главы приведено распространение результатов на более общее определение энтропии, справедливое для непрерывных и про- извольных случайных величин. 61
3.1. Прямой способ вычисления информационной емкости записи для одного примера Рассмотрим один пример записи информации, для которого под- счет информационной емкости или пропускной способности In M, где М — число различных вариантов записи, не тривиален. Это случай неодинаковой длительности символов. Пусть имеются т сивмволов Vlt ..., Vm, которые имеют длину / A), ..., I (т) соответственно. Возможно (но необязательно), что они являются комбинациями более элементарных равнодлинных букв Аъ ..., AD, и / (г) есть число таких букв. Тогда символы Vi будут, в сущности, кодовыми словами наподобие тех, которые были рассмотрены ранее. Теперь, однако, заполнение буквами является фиксированным и не меняется в процессе нашего рассмотрения. Возьмем для примера четыре телеграфных символа: Символы I Vi l(i) Точка Тире Промежуток между буквами Промежуток между словами + - 2 ±±±~ з 6 Во второй колонке, приведена запись этих символов в двоичном (D = 2) алфавите: А = + и Б = —.В третьей колонке указана их длительность в этом алфавите. Конечно, символы Vi можно называть не «словами», а «буквами» некоторого нового, более слож- ного алфавита. Пусть имеется запись (или передача) VtlVt, V,k C.1.2) из k символов. Ее длина, очевидно, равна L — I (/х) + / (г2) + + ... + /(**)¦ Зафиксируем эту суммарную длину записи и будем подсчиты- вать число М (L) различных реализаций записи данной длины. Отбрасывая последний символ Vik, получаем последовательность меньшей длины L — I (i^). Каждая такая укороченная последова- тельность может быть осуществлена М (L — / (ik)) различными способами. Суммируя различные возможности, получаем уравнение M(L)= 2Af(L-/(t)), C.1.3) которое позволяет найти М (L) как функцию от L. После того, как число M(L) найдено, легко определить информацию, которая может быть передана записью длины L. Как и в предыдущих случаях, мак- 62
симальная информация достигается, когда все из М (L) возможно- стей равновероятны. При этом HLIL = In M (L)/L (HL = Ну, ...v. —энтропия записи). Взяв предел этого отношения 1 lh при L-> оо, получим энтропию записи, рассчитанную на единицу длины: C.1.4) Как видно из этой формулы, нет надобности находить точное решение уравнения C.1.3), а достаточно рассмотреть лишь асимптотическое поведение In M (L) при больших L. Уравнение C.1.3) является линейным и однородным. Как и для всякого такого уравнения, можно искать решение в виде M(L) = CeXL. C.1.5) Подобное решение обычно оказывается возможным лишь при определенных («собственных») значениях А, = A,lf А,2, .... С помощью спектра этих «собственных» значений общее решение записывается в виде M(L) = ^Cae^L, C.1.6) а где постоянные Съ С2,... определяются из начальных условий. Под- ставляя C.1.5) в C.1.3), получаем «характеристическое» уравнение т 1= N] е-*'С\ C.1.7) i=i позволяющее найти собственные значения Xlt A,2, .... Функция '«), C.1.8) как легко видеть, является монотонной убывающей функцией от X на полупрямой X > 0, причем юна убывает от оо до 0, поскольку все / (г) >> 0. Следовательно, существует лишь один единственный положительный корень W уравнения 2Г-'<<> = 1. C.1.9) Уравнения C.1.7), C.1.9) переходят одно в другое, если поло- жить X=lnW. C.1.10) Поэтому, уравнение C.1.7) также имеет лишь один действительный корень. При достаточно больших L в сумме, стоящей в правой части C.1.6), превалирующим будет член с максимальным значением дей- 63
ствительной части собственного значения Яа. Отметим это собствен- ное значение кт индексом т: При этом из C.1.6) будем иметь M(L)&CmeK™L- C.1.11) Поскольку функция М (L) не может быть комплексной и знакопе- ременной, то собственное значение обязано быть действительным: Im ^m = 0. Но C.1.10) есть единственное действительное собственное значение. Следовательно, значение In W и есть искомое собствен- ное значение Хт с максимальной действительной частью. Формула C.1.11) принимает вид M{L)^CmWL, а предел C.1.4) оказывается равным H = lm = \nW, C.1.12) что дает решение поставленной задачи. Оно впервые было получено Шенноном [1]. 3.2. Дискретный канал без помех и его пропускная способность Рассмотренная ранее запись или передача в заданном алфавите, имеющая фиксированную длину, является примером дискретного канала без помех. Дадим здесь более общее определение этого по- нятия. Пусть имеется величина у, принимающая дискретное множество Y (не обязательно с конечным числом элементов) значений. Далее на Y задана некоторая (числовая) функция с (у). По причинам, которые ясны из дальнейшего, ее будем называть функцией штрафов. Пусть задано некоторое число а и фиксировано условие с(у)^а. . C.2.1) Система [Y, с (у), а] полностью характеризует дискретный канал без помех. Условие C.2.1) выделяет из множества Y некоторое подмножест- во Ya, -число Ма элементов которого предполагается конечным. Этими элементами можно записывать или передавать информацию, и число Ма интерпретируется как число различных реализаций записи, подобное числу М (L) в §3.1. Для частного случая, рассмотренного в §3.1, множество Y есть множество различных записей y~Vh Vik. C.2.2) 64
В этом случае целесообразно выбрать функцию c(y) = Kii)+---+l(ih). C-2.3) Тем самым длинные записи сильнее штрафуются, в этом косвенно отражена желательность сокращения длины записи. При таком выборе условие C.2.1) совпадает с условием li.h)Л Y4ip)<L (L играет роль а), C.2.4) т. е. с требованием, чтобы длина записи не превосходила заданной величины L. Рассмотрение этого примера будет продолжено в § 3.4 (пример 4). Величина Ма (число реализаций) говорит о возможностях дан- ной системы (канала) записывать или передавать информацию. Мак- симальное количество информации, которое может быть передано, очевидно, равно In Ma. Это количество можно назвать информа- ционной емкостью или пропускной способностью. Непосредствен- ное вычисление Ма, однако, иногда сопряжено с некоторыми труд- ностями, как это видно из примера, рассмотренного в § 3.1. Поэтому понятие пропускной способности канала удобнее определять не как In Ma, а несколько иначе. Введем распределение вероятностей Р (у) на У и заменим усло- вие C.2.1) аналогичным условием для среднего значения Ъс(у)Р (у) < а. C.2.5) Его нужно понимать как ограничение, наложенное на распределе- ние Р (у). Пропускную способность С или информационную ем- кость канала [Y, с (у), а] определяем как максимальное значение энтропии C = suptfa. C.2.6) Максимизация здесь производится по различным распределениям Р (у), которые совместимы с условием C.2.5). Таким образом, пропускная способность канала определена как решение некоторой вариационной задачи. Как будет видно из дальнейшего (§ 4.3), между величиной C.2.6) и Ма имеется прямая асимптотическая связь. Если говорить о приложениях этих идей к статистической физике, то соотношение C.2.1) (взятое со знаком равенства) соответствует микроканони- ческому, а C.2.5) — каноническому распределению. Асимптоти- ческая эквивалентность этих распределений хорошо известна в ста- тистической физике. Приведенные выше определения канала и его пропускной спо- собности можно несколько модифицировать, заменив, например, неравенства C.2.1), C.2.6) двухсторонними неравенствами с (у) Р (г/)< а2 C.2.7) у 65
или неравенствами, направленными в другую сторону (если при этом число реализаций остается конечным). Кроме того, в более сложных случаях могут быть заданы несколько числовых функций или функция со значениями из какого-либо другого пространства. Все эти модификации обычно не связаны с принципиальными изменениями, и мы не будем на них особо останавливаться. Функция штрафов с (у) в различных задачах может иметь различный физический или технический смысл. Она может описы- вать «стоимость» отдельных символов, указывать неодинаковые за- траты, идущие на запись или передачу того или иного символа, например, различное количество краски или электроэнергии. Она может соответствовать штрафам, налагаемым на различные небла- гоприятные факторы, например, штрафовать чрезмерную высоту букв и т. п. В частности, если подвергается штрафам длина симво- лов, то выполняется C.2.3) или с (у) = I (у) при у = i. Введение штрафов, платежей и т. п. типично для математической статистики, теории оптимального управления, теории игр, и мы неоднократно будем их рассматривать в дальнейшем. Когда функция с (у) действительно имеет физический смысл штра- фов или потерь, затрачиваемых на передачу информации, и зат- раты приносят пользу, то максимальное значение энтропии в C.2.6), как правило, имеет место при наибольших затратах из допустимых, так что в C.2.5) или C.2.7) можно оставить лишь знак равенства, полагая 2с(у)Р(у) = а. C 2.8) '/ К вариационной задаче C.2.6), C.2.8) близко стоит другая, обратная вариационная задача: задача отыскания распределения Р (у), минимизирующего средние потери (риск) R^2c (у) Р (у) = min C.2.9) ч при фиксированном значении энтропии -%Р(у)\пР(у) = 1, C.2.10) У где / — заданное число. Наконец, возможен третий вариант постановки задачи: требует- ся максимизировать некоторую линейную комбинацию указанных выражений HV-PR^-%P (у)\п Р (у)-?>%с(у) Р (y) = min. C.2.11) Существенно, что все три указанные постановки задачи приводят к одному и тому же решению, если параметры a, I, P должным образом согласованы между собой. Любую из указанных разно- видностей мы называем первой вариационной задачей. Эти вопросы удобно исследовать при помощи вводимых ниже термодинамических потенциалов. 66
3.3. Решение первой вариационной задачи. Термодинамические параметры и потенциалы 1. Сформулированные в предыдущем параграфе вариационные задачи C.2.6), C.2.8) и задачи C.2.9), C.2.10) являются типичны- ми задачами на условный экстремум, и их можно решать методом неопределенных множителей Лагранжа. К указанным условиям необходимо добавить условие нормировки yiP(y)=i. C.3.1) у Далее должно выполняться требование неотрицательности ве- роятностей р(у)>о, у е у. (з.з.2) Однако его можно не вводить в число условий, так как решение, получаемое без его учета, оказывается (как показывает последую- щая проверка) автоматически ему удовлетворяющим. Вводя мно- жители Лагранжа р, у, будем искать экстремум выражения K=-IiP{y)\nP(y)-Plicte)P(y)-y2P(y). C.3.3) У У V Вследствие неопределенности множителей р, у отыскание этого экстремума эквивалентно отысканию экстремума аналогичного выражения, построенного для задачи C.2.9), C.2.10) или для задачи C.2.11) при помощи других неопределенных множи- телей. Условия экстремума имеют вид 1пР(у)+1+рс(у) + у = 0. C.3.4) Дифференцирование здесь проводится по тем и только по тем Р (у), которые отличны от нуля в экстремальном распределении Р (•). Предполагается, что это распределение существует и един- ственно. То подмножество из Y, элементы которого имеют ненуле- вые вероятности в экстремальном распределении, обозначим Y и будем называть «активным» множеством. Следовательно, уравне- ние C.3.4) справедливо лишь для элементов у из множества Y. Из C.3.4) имеем Р(у) = а-1-ч-$с(у), y?Y. C.3.5) Для прочих у, не входящих в Y, вероятности равны нулю. Мы видим, что экстремальные вероятности C.3.5) оказываются всегда неотрицательными, так что условие C.3.2) как дополнитель- ное условие можно не принимать во внимание. Множитель e~'~v не- медленно определяется из условия нормировки C.3.1), что дает Р (у) = е-friv) /2е-Рс<*\ C.3.6) / // если сумма в знаменателе сходится. 67
В задаче C.2.11) параметр $ является заданным и специально его определять не требуется. В задачах C.2.6), C.2.8), C.2.9), C.2.10) его следует определить из дополнительных условий C.2.8) или C.2.10) соответственно. 2. Полученное решение экстремальной задачи упрощается бла- годаря справедливости следующей теоремы. Теорема 3.1. При решении задачи на максимум энтропии C.2.6) при условии C.2.8) в экстремальном распределении отличны от нуля вероятности всех элементов множества Y, в которых функ- ция штрафов с (у) принимает конечные значения. Следовательно, если функция с (у) для всех элементов конечна, то множество Y совпадает со всем множеством Y. Доказательство. Предположим противное, т. е. что в экстремальном распределении Ро (у) некоторые элементы у ? Y имеют нулевую вероятность Ро (у) = 0. Поскольку распределение Ро экстремальное, то для другой меры Рх (даже ненормированной) с тем же нулевым множеством Y — Y справедливо соотношение Р0(У) •••¦= 0[(P1 — P0J\. C.3.7) Возьмем теперь Р(у^фО, Л б ^—^ и положим Р(у) = 0 в других точках подмножества Y — Y. Прочие вероятности Р (У)' У € ^ подберем так, чтобы были выполнены условия 2/>(#) = !; Iic(y)P(y)-=Ilc(y)P0(y) C.3.8) У У и разности Р (у) — Ро (у) (у ? Y) линейно зависели от Р (г/j). Не- нулевая вероятность Р (у^ Ф 0 приведет к появлению в выражении для энтропии Ну дополнительного члена —Р (г/х) In P (уг). Полагая Pi(y) = P(y) ПРИ y?Y и учитывая C.3.7), получаем - 2 Р (у) in Р (у) - р V с (у) Р (у) - у 2 Р (у) + = — p ы inP (^)—[pc Ы+7] я Ы -f о i(P—Pj)8]. Используя C.3.8), будем иметь C.3.9) 68
При достаточно малых Р (ух) (когда —In P (ух) — рс (уг) — у + + О (Р (у±)) > 0) выражение в правой части C.3.9) будет заведомо положительным. Следовательно, энтропия распределения Р, удов- летворяющего тем же условиям C.3.8), будет превосходить энтро- пию экстремального распределения Рд, что невозможно. Значит, элемента ylt имеющего в экстремальном распределении нулевую вероятность, не должно быть. Доказательство закончено. Итак, вследствие установленного теоремой 3.1 факта совпаде- ния Y и У при конечных значениях с (у), мы будем в дальнейшем пользоваться формулой C.3.5) или C.3.6) для всего множества Y. Выражение C.3.6) аналогично соответствующему выражению для распределения Больцмана, хорошо известному в статистиче- ской физике. При этом с (у) является аналогом энергии, а C = 1/71 является параметром, обратным абсолютной температуре (если поль- зоваться шкалой, в которой постоянная Больцмана равна единице). Имея в виду эту аналогию, будем называть Т температурой, а с (у) — энергией. Тот факт, что термодинамически равновесное распределе- ние типа C.3.6) является решением задачи на экстремум энтропии при фиксированной энергии, т. е. экстремальной задачи C.2.6), C.2.8) также является известным фактом статистической физики. 3. Проверим, что найденное распределение C.3.5), C.3.6) дей- ствительно соответствует именно максимуму (а не минимуму, ска- жем) энтропии Ну. Вычисляя вторые производные от энтропии, имеем дР(у)дР(у') Р(у) аи "'" ^ " где dyv> — символ Кронекера. Следовательно, учитывая исчезно- вение первых производных и пренебрегая членами третьего порядка относительно отклонения АР (у), у ? Y от экстремального распре- деления Р, будем иметь ~у Р (У) Поскольку входящие сюда Р (у) все положительны, то раз- ность Ну — С является отрицательной, что и доказывает макси- мальность С. Можно доказать, что если р > 0, то найденное выше экстре- мальное распределение соответствует минимуму средних штрафов C.2.9) при фиксированной энтропии C.2.10). Для этого нужно учесть, что для функции C.3.3), рассматриваемой как функция не- зависимых переменных Р (у), у ? У (пусть их число равно т), по аналогии с C.3.10) справедливо соотношение 1 [AP(y)f<0. Уву Р (У) 69
Следовательно, в экстремальной точке имеет место максимум выра- жения Ь\. Теперь нужно учесть, что нас интересует условный экстремум, соответствующий условиям C.2.10) и C.3.1). Последние выделяют в m-мерном пространстве Rm гиперповерхность размерности т — 2, проходящую через экстремальную точку. Следует ограничиться лишь смещениями от экстремальной точки внутри этой гиперпо- верхности. Но если для любых смещений в экстремальной точке имеет место максимум, то и частному виду смещений вдоль гипер- поверхности также соответствует максимум. Поскольку при смеще- нии внутри гиперповерхности первый и третий члены C.3.3) остают- ся неизменными, значит экстремальная точка является точкой услов- ного максимума выражения —C2с {у) Р (у), т. е. точкой минимума средних штрафов (если Р > 0). Доказательство закончено. 4. Найденное распределение C.3.6) позволяет найти пропуск- ную способность С и средние штрафы R как функцию от р1 или «температуры» Т — 1/р. Исключая из этих зависимостей параметр р или Т, нетрудно найти зависимость С от R = а (для задачи C.2.6), C.2.8)) или зависимость R от С = / (для задачи C.2.11), C.2.10)). При практическом проведении расчетов удобно использовать технику, которая разработана в статистической физике. Сначала вычисляется (предполагаемая конечной) сумма г = 2е-с<Ш7\ C.3.11) называемая статистической суммой. Она является нормировочным множителем в распределении C.3.6). Через нее выражается сво- бодная энергия fG) = — TlnZ, C.3.12) при помощи которой уже вычисляется энтропия С и энергия R. Докажем ряд обычных в термодинамике соотношений в форме от- дельных теорем. Теорема 3.2. Свободная энергия связана с энтропией и средней энергией простым соотношением F = R~TC, C.3.13) хорошо известным в термодинамике. Доказательство. Используя формулы C.3.12), C.3.11), записываем распределение вероятностей C.3.6) в виде Р (У) = е Т (распределение Гиббса). Согласно A.2.1) находим случайную энтропию 70
Усреднение этого равенства по у приводит к соотношению C.3.13). Доказательство закончено. Теорема 3.3. Энтропию можно вычислять, дифференци- руя свободную энергию по температуре С = —dFldT. C.3.15) Доказательство. Дифференцируя выражение C.3.12) по температуре и учитывая C.3.11), получаем с (У) dT dT у Г2 т. е. в силу C.3.6), C.3.11) Принимая во внимание теперь равенства C.3.12), C.3.13), находим dT ~~ ^ что и требовалось доказать. Как видно из формул C.3.13), C.3.15), энергия (средние штра- фы) выражаются через свободную энергию следующим образом: R — F — Т . (о.оЛб) Легко проверить, что эту формулу можно записать в следующем более компактном виде: = 4т)- C-3-17) После вычисления функций С (Т), R (Т) легко найти пропуск- ную способность С = С (а) C.2.6). Уравнение C.2.8), т. е. урав- нение R (Т) = а C.3.18) определит Т (а), и пропускная способность будет равна С (а) = = С(Т (а)). Аналогично для задачи C.2.9), C.2.10) находятся минималь- ные средние штрафы C.2.9) для данного количества информации /. Уравнение C.2.10), принимающее вид С (Т) = /, определяет температуру Т (/), соответствующую данному количест- ву информации /. При этом минимальные средние штрафы C.2.9) будут равны R (Т (/)). В заключение этого параграфа сформулируем две теоремы, ка- сающиеся фактов, хорошо известных в термодинамике. 7!
Теорема 3.4. Если распределение C.3.6) существует, т. е, сумма C.3.11) сходится, то справедлива формула -^- = 7\ C.3.19) dC так что при Т > 0 средние штрафы являются возрастающей функ- цией энтропии, а при Т < 0 — убывающей. Доказательство. Взяв дифференциал от выражения C.3.13), имеем dR = dF + CdT + TdC. Но в силу C.3.15) dF + CdT = 0, так что dR = TdC. C.3.20) Отсюда следует искомая формула C.3.19). Соотношение C.3.20) является не чем иным, как известным тер- модинамическим равенством dH = dQ/T, где dQ — количество теплоты, пришедшей в систему и давшей увеличение dR ее внутренней энергии; Н = С — энтропия. Теорема 3.5. Если распределение C.3.6) существует,а с (у) непостоянна в Y, то R является возрастающей функцией температуры. Пропускная способность (энтропия) С при Т > 0 является возрастающей функцией от Т. Доказательство. Дифференцируя C.3.17), получаем dT Г2 dp2 Если подставить сюда C.3.20), то будем иметь — = — d*m . C.3.22) dT T3 dp3 Чтобы доказать теорему, остается показать, что п"{рг) р. /о о OQ\ ; J> U, (O.O.ZO) dP2 т. е. что р/7 является выпуклой функцией от р. Согласно C.3.12) р/7 есть не что иное, как —In Z. Поэтому 22 I { dZV C.3.24) dP3 Z dp3 V 2 dp ) Дифференцируя C.3.11), получаем 72
в силу C.3.6). Следовательно, выражение C.3.24) есть не что иное, как дисперсия штрафов: М [с (у) — Мс (у)]2, которая является не- отрицательной величиной (положительной, если с (у) непостоянна в У). Это доказывает неравенство C.3.23) и в силу C.3.21),C.3.22) всю теорему. Вследствие C.3.15) формула C.3.22) дает / dC \ d°- F Id2 \ dT I dTl Ts dP2 откуда в силу C.3.23) можно заключить о выпуклости функции F (Т) при Т > 0 и вогнутости при Т < 0. Приведенные выше факты являются частным проявлением свойств термодинамических потенциалов, примерами которых являются функции F (T), lnZ(f3). Эти потенциалы, следовательно, играют роль не только в термодинамике, но и в теории информации. В сле- дующей главе будут затронуты вопросы, связанные с асимптотиче- ской эквивалентностью условия типа C.2.1) и условия типа C.2.5). 3.4. Примеры применения общих методов вычисления пропускной способности Пример 1. Пусть для простоты сначала имеются лишь два символа: m = 2; у = 1,2, которым соответствуют различные штра- фы сA) = Ь — а, сB) = Ь + а. C.4.1) Статистическая сумма C.3.11) в этом случае равна По формуле C.3.12) ей соответствует свободная энергия F = 6—Г1п2 — Tlnch— . т Применяя формулы C.3.12), C.3.13), находим энтропию и среднюю энергию Графики этих функций приведены на рис. 3.1. Там же показано, как графически легко определить пропускную способность при заданном уровне затрат R = Ro. При изменении температуры от 0 до оо энтропия меняется от 0 до In 2, а энергия от Ь — а до b (а > 0). Так же и в более об- щем случае при 71-»- с» энтропия Ну имеет своим пределом In m. 73
Это значение, являющееся пропускной способностью, соответствую- щей отсутствию условий, нельзя превзойти ни при каких средних штрафах. Аддитивный параметр Ь в штрафах C.4.1) является малосу- щественным. От него не зависит ни энтропия, ни распределение ве- роятностей. Это соответствует тому факту, что аддитивная постоян- ная в выражении для энергии (a R является аналогом энергии) может быть выбрана произвольно. Оптимальное распределение ве- роятностей в данном примере согласно C.3.14) имеет вид Р (], 2) = е±а/т/2 ch (а/Т). C.4.2а) Рис. 3.1. Термодинамические функции для примера 1. Найденные функции C.4.2) можно применять для расчета тех слу- чаев, когда имеется последовательность yL = (ух, ..., yL) длины L из символов описанного вида. Если число различных элементарных символов равно 2, то число различных последовательностей, очевидно, есть т = 2L. Будем предполагать, что штрафы, прихо- дящиеся на всю последовательность, аддитивно складываются из штрафов, приходящихся на символы, из которых она состоит, так что L с (yL) = ^c(yj). C.4.3) Применение полученной ранее формулы C.3.6) к последователь- ности показывает, что оптимальное распределение вероятностей для последовательности в этом случае распадается на произведе- ние вероятностей для отдельных символов. При этом термодинами- ческие функции F, R, Н для последовательности равны сумме соответствующих термодинамических функций составляющих сим- волов. В стационарном случае, когда символам, стоящим на раз- личных местах, соответствует одинаковое распределение штрафов, имеем F = LFX, R = LRX; И = LHX, где Fx, Rx, Hx — функ- ции для одиночного символа, которые были найдены ранее [см., например, C.4.2)]. Пример 2. Рассмотрим более сложный пример, когда принцип аддитивности штрафов C.4.3) не имеет места. Пусть выбор того 74
или иного символа у = 1 или у = 2 не связан с какими-либо затра- тами сам по себе, но требует затрат смены символа, т. е. переклю- чение с одного символа на другой. Если в последовательности сим- вол 1 следует за 1 или 2 за 2, то штрафов нет; если же за 1 следует 2 или за 2 следует 1, то берется некоторый (один и тот же) штраф 2d. Легко понять, что в этом случае суммарный штраф всей последова- тельности yL записывается в виде L C.4.4) Требуется найти условную пропускную способность такого канала и оптимальное распределение вероятностей для него. Начнем с вы- числения статистической суммы C.3.11): „ L—1 2|3йб„ „ Z = e-2P<nt-n 2 Пе "JvJ+\ C.4.5) Ее удобно записать при помощи матрицы в виде ^SzT-'W C-4.6) Рассматривая ортогональное преобразование \MV2 1/|/ приводящее указанную матрицу к диагональному виду, можно найти Следовательно, по формуле C.3.12) ( — В соответствии с C.3.15), C.3.16) отсюда получаем (L—l)T\nch( — = Lln2 + (L— l)lnch[— ) —(L— 1I —Uh (— ) , 75
При помощи этих функций легко найти пропускную способность и средние штрафы, рассчитанные на один символ в асимптотиче- ском пределе L ->- оо: C1 = lim^- = ln2 + lnch- -th— ; L-oo L T T T Rx = d — d th (d/T). Оптимальное распределение вероятностей для символов записи теперь уже не будет распадаться на произведение распределения вероятностей для отдельных символов. Другими словами, последо- вательность уъ у2, ..., yL не будет процессом с независимыми зна- чениями. Она будет, однако, простой марковской цепью. Пример 3. Перейдем к комбинированному случаю, когда имеются штрафы обоих видов: и аддитивные^ штрафы C.4.3) того же вида, как и в примере 1, и парные штрафы C.4.4). Полная функция штрафов имеет вид c{yL) = bL + a^ (- iy, +2d L|' A-6,. ,._i). Вычисление статистической суммы, которая соответствует этой функции, удобно, как и в примере 2, проводить матричным методом, пользуясь несколько более сложной, чем C.4.6), формулой Z= 2 expl-pat-lHO^-'Kyz, Теперь, однако, матрица имеет более сложный вид: —(За — p \ C.4.7) Практический интерес представляет асимптотический случай больших L. Если заранее ограничиться этим случаем, то вычисле- ния сильно упростятся. Наиболее существенную роль в сумме Z будут играть члены, соответствующие наибольшему собственному значению %т матрицы C.4.7). Как и в других подобных случаях (см., например, §3.1), при взятии логарифма In Z и делении его на L в пределе окажут влияние лишь эти члены, и мы будем иметь lim Jn? = ln^. C.4.8) L, —>-со L, Матрице C.4.7) соответствует характеристическое уравнение =0 (Я' = е-е»-е<'Я), т. е. уравнение 76
¦ Взяв наибольший корень этого уравнения и учитывая C.4.8), находим предельную свободную энергию, рассчитанную на один символ ,т = 6 — Tin |ch — Обычным способом отсюда можно получить среднюю энергию, рас- считанную на один символ, и соответствующую ей пропускную спо- собность. Как и в примере 2, оптимальное распределение вероятностей соответствует марковскому процессу. Соответствующая ему ве- роятность перехода Р (yj+1\yj) связана с матрицей C.4.7) и отли- чается от нее нормировочными множителями. Приведем результи- рующие выражения РA | 1) = Л1еР«+ Р^; РB| 1) = Л1е"Ра-^; Р A 12) = Аг еР°- №; Р B12) = Аг е~Ра+ Prf A~l =-ePa^ |М_|-е-|3а + Iм). Статистические системы, рассмотренные в двух последних при- мерах, исследовались в статистической физике под названием «мо- дели Изинга» (см., например, Хилл [1], Стратонович [2]). Пример 4. Рассмотрим теперь методами изложенной общей теории тот случай различных длительностей символов, который был исследован в § 3.1. Под величиной у будем понимать совокуп- ность величин k, Vtl, ..., Vt , где k — число последовательных символов в записи, a Vt. — вид символа, стоящего на /-м месте. Если / (i) — длительность символа вида i, то в качестве функ- ции штрафа следует взять функцию C.2.4). Согласно общему методу вычислим для данного примера ста- тистическую сумму k U lh k = о _ 1 (если выполнено условие сходимости Zx (P) <С 1). Здесь обозначено Z1(P)=2e-P'<i>. C.4.9) i Применяя формулы C.3.17), C.3.13), получаем C.4.10) 77
Пусть L — фиксированная длина записи. Тогда условие C.2.8), C.3.18) будет иметь вид уравнения dZlAf] =L, C.4.11) из которого определяется р. Формулы C.4.10), C.3.11), C.4.9) дают решение задачи вычис- ления пропускной способности С (L). Представляет интерес также найти удельную пропускную способность d = СИ = CIR = Р — Р {FIR) C.4.12) [использовано C.3.13)] и особенно ее предельное значение при L = R-r оо. Дифференцируя C.4.9), легко получить, что —Zj1 dZjdfy имеет смысл средней длины символа: по аналогии с C.3.25). Поэтому уравнению C.4.11) можно придать вид Zj (р)/A — Zj (р)) = L//cp, из которого видно, что Zx (P) стремится к единице: Zi (Р)-+ 1 при L//cp^ оо. C.4.13) Но, очевидно, A — Zj) In (I — Zj) -> 0 при Zx -+ 1. Следовательно, в силу C.4.10), —^= ^^о (l-Z1)ln(l-Z1)-»-0 при L-^oo, C.4.14) если dZJdfy (т. е. /ср) при этом стремится к конечному значению dZ1 фо)Щ. Согласно C.4.12) и C.4.14) имеем в этом случае C1 = limp=p0. C.4.15) Предельное значение р0 в силу C.4.13) определяется из уравнения Z1(p0)=l. C.4.16) Это уравнение вследствие C.4.9) есть не что иное, как полученные ранее уравнения C.1.7), C.1.9). Формула C.4.15) при этом совпа- дает с соотношением C.1.12). Итак, мы видим, что общий стандарти- зованный метод приводит к тем же результатам, что и примененный ранее специальный метод. 78
3.5. Метод потенциалов в случае большего числа параметров Изложенный в § 3.3, 3.4 метод потенциалов может быть обоб- щен на более сложные случаи, когда имеется большее число внеш- них параметров. При этом данный метод еще в большей степени перерастает в методы, обычно применяемые в статистической термо- динамике. Наметим здесь пути этого обобщения, отложив более подробное рассмотрение до следующей главы. Пусть функция штрафов с (у) = с (у, а) зависит теперь от чис- лового параметра а и является дифференцируемой по этому пара- метру. Тогда свободная энергия F(T, a)=— Г1п^е-С<^">//' C.5.1) и и прочие функции, введенные в § 3.4, будут зависеть не только от температуры Т (или параметра |3 — 1/Т), но и от значения а. То же самое относится и к оптимальному распределению C.3.14), имеющему теперь вид n/ i \ IF {Т, а) —с {у, а) Л /о г о\ Р (у 1 а) = ехр I ' 7, I ¦ C.5.2) Формула C.3.15) и прочие результаты из §3.3, разумеется, со- хранят свое значение, если при вариации параметра Т параметр а считать постоянным, т. е. обыкновенные производные заменить частными. Энтропия распределения C.5.2), следовательно, равна Н dF(T,a)_ 3.5.3) У дТ К В дополнение к этим результатам теперь можно получить формулу для частных производных по новому параметру а. Дифференцируя C.5.1) по а, находим или .—!_:—^-=>———'-Р(у\а)= —М[В(у)\а], C.5.4) г/ если учесть C.5.2), C.5.1). Функция называется случайным внутренним термодинамическим параметром, сопряженным с внешним параметром а. 79
Вследствие формул C.5.3), C.5.4) полный дифференциал сво- бодной энергии можно записать: dF (T, а) = —Ну dT— Ada. C.5.5) Отсюда, в частности, имеем А = _iL . C.5.5а) да Внутренний параметр А, определяемый подобной формулой, назы- вается сопряженным с параметром а относительно потенциала/7. В формуле C.5.5) Н у и А = MB мыслятся как функции от Т и а. Их, однако, можно интерпретировать как независимые перемен- ные, а вместо F (Т, а) рассматривать другой потенциал Ф (Ну, А), выражающийся через F (Т, а) преобразованием Лежандра: Ф(#,„ A) = F + HyT + Aa = F-Hy-^ а-^-. C.5.6) Оиу ОН Тогда параметры Т, а будут получаться как функции от Н у, А дифференцированием: Т=-™-, a = i®, C.5.7) дНу ЗА ' К ' поскольку из C.5.5), C.5.6) будем иметь йФ = TdHy -\- adA. Преобразование Лежандра можно, конечно, совершить и по одной из двух переменных. Указанными потенциалами и их про- изводными удобно пользоваться при решении различных вариацион- ных задач, связанных с условной пропускной способностью. В ка- честве независимых переменных удобно брать те переменные, кото- рые заданы в условии задачи. Из многих возможных задач, касающихся выбора оптимального кодирования при наличии штрафов с учетом ряда условий, наложен- ных на количество информации, средние штрафы и прочее, мы рас- смотрим один иллюстрационный пример. Пример. Пусть сообщение следует закодировать символами р. Каждому символу р приписывается некоторый штраф с0 (р). Кроме этого штрафа пусть требуется учесть еще один дополнительный расход т) (р), скажем, количество краски, которое идет на данный символ. Если ввести стоимость краски а, то полные штрафы будут иметь вид с (Р) = с0 (р) + ац (р). C.5.8) Rj Пусть требуется найти такое кодирование, при котором записы- валось бы (передавалось) заданное количество информации / (в рас- чете на один символ), при этом тратилось бы фиксированное коли- чество К краски (в среднем на один символ) и, кроме того, миними- зировались бы средние затраты Мс0 (р). Для решения этой задачи вводятся параметры Т и а как вспомогательные, которые сначала являются неопределенными, а 80
затем находятся из дополнительных условий. Расход краски г\ (р) на символ р мы берем в качестве случайной переменной т). В качест- ве второй переменной ? выбираем переменную, дополняющую г\ до р, так что р = (т), ?,). Штрафы C.5.8) при этом можно записать с (л. О = с0 (т), Q + ал- Теперь мы можем применить к данной задаче формулы C.5.1)— C.5.7) и другие при В= — г\. Свободная энергия F (Т, а) согласно C.5.1) находится по формуле = у). C>5-9) а оптимальное распределение C.5.2) имеет вид Р(ц, ?) = ехр[p\F—РсоСЧ. ?)— ?>ах\\- C.5.10) Для окончательного определения вероятностей, энтропии и прочих величин остается конкретизировать параметры Т и а, поль- зуясь условиями, сформулированными ранее. Именно, средняя энтропия #y,? и средний расход краски М л предполагаются фик- сированными: Нц1 = 1; Л = Мл = К. C.5.11) Используя формулы C.5.3) и C.5.4), получаем систему двух уравнений dF(T,a) , дТ dF(T, a) да =к C.5.12) для определения параметров Т = Т (I, К) и а = а (/, /С). Оптимальное распределение C. 5.10) минимизирует как полные средние штрафы R = Me (r\, Q, так и частичные средние штрафы Ф = Мс0 (т|, С) = R — аМц ^ аА, поскольку при вариациях разность R — Ф = аК остается постоян- ной. Ввиду того, что R = F + ТНЦ, легко видеть, что частичные штрафы Ф = F + ТЯг, +аЛ, рассматриваемые как функция от Нц, А, получаются из F (Г, а) преобразованием Лежандра C.5.6), т. е. являются примером потенциала Ф (Ну, А). Учитывая формулы C.5.7), оптимальное распределение C.5.10) можно записать в сле- дующей форме: дФ Р (р) = const exp ЗА дФ После полного определения оптимальных вероятностей Р (р), можно осуществить фактическое кодирование по рецептам § 3.6. 81
3.6. Пропускная способность канала без шумов со штрафами в обобщенной версии 1. В § 3.2, 3.3 рассматривалась пропускная способность ди- скретного канала без шумов, но со штрафами. Как указывалось, ее вычисление сводится к решению первой вариационной задачи теории информации. Приведенные там результаты могут быть обобщены на случай произвольных случайных величин, могущих принимать, в ча- стности, непрерывные значения. Некоторые относящиеся к обобщен- ной версии формулы, приведенные в § 1.6, подсказывают, как это сделать. Будем считать, что задан канал без шумов (необязательно ди- скретный), если задано измеримое пространство (X, F), значения из которого может принимать величина ?, и /•'-измеримая функция с (?), называемая функцией штрафов, а также мера v на (X, F) (нормировка которой не требуется). Для уровня потерь а опреде- ляем пропускную способность С (а) как максимальное значение энтропии A.6.9): ^g-. C.6.1) совместимое с условием |'c(S)P(dg) = a. C.6.2) Данная вариационная задача решается в принципе так же, как это делалось в § 3.3, частные производные при этом заменяются вариационными производными. После вариационного дифференци- рования по Р (dx) вместо C.3.4) будем иметь условие экстремума - = pF-|fc(S). C.6.3) где f>F = — 1 — 7. Отсюда получаем экстремальное распределение =epF-pc(l)v(d|). C.6.3a) Усредняя C.6.3) и учитывая C.6.1), C.6.2), находим Я* = рМс(|) — РЛ С = р# — pf. C.6.36) Последняя формула совпадает с равенством C.3.13) дискретной версии. Как и в § 3.3, можно ввести статистическую сумму (инте- грал) служащую обобщением C.3.11), и свободную энергию F (Т)— = —Т In Z. 82
Таким же способом, как и в § 3.3, доказывается соотношение C.3.15) и прочие результаты. Аналогичным образом обобщаются на данный случай формулы из § 3.5. При этом формулы C.5.1), C.5.2) заменяются на F (Т, а) = - Т In J e~c ll' a)/T v (d|), C.6.5) р {dl, а) = exp \^tzp^L] v D). C.6.6) Результирующие же равенства C.5.3), C.5.5) и другие остаются не- изменными. 2. Рассмотрим в качестве примера тот случай, когда X — г- мерное действительное пространство ? = (х1г .... хт), а функция с (I) имеет вид линейной квадратичной формы где ||сг7-|| — невырожденная положительно определенная матрица. Будем полагать, что v (dl) = d\ = fifx1; ..., dxr. Тогда формула C.6.2) примет вид ехр Г— со|3 ^-ЪУгСцу^уу^ ..., dyr Вычисляя интеграл и логарифмируя, находим F (Т) = с0 + -|- In det || рс« || = г о - -^- In Т + ^ In det || cu |. Следовательно, уравнение C.3.18) при учете C.3.16) принимает вид с0 + гГ/2 = а, C.6.7) а формула C.3.15) дает С (а) = ^- A + In Т) - ~ In det ;| cw ||, т. е. в силу C.6.7) С (а) = — [l — 1п 1 5- In det Ц си ||. W 2 L 2 (а-Со) J 2 " и" Экстремальное распределение в этом случае является гауссовым, и его энтропия С (а) может быть также найдена при помощи формул § 5.4.
Глава 4 ПЕРВАЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА И СВЯЗАННЫЕ С НЕЙ РЕЗУЛЬТАТЫ В предыдущей главе для одного примера (см. § 3.1, 3.4) было показано, что при подсчете максимальной энтропии (т. е. пропускной способности каналов без помех) ограничение с (у) ^ а, наложенное на допустимые реализации, при достаточно большой записи эквивалентно ограничению Мс (у) ^ а для среднего значе- ния Же (у). В настоящей главе будет доказано (§ 4.3), что такая эк- вивалентность имеет место при определенных предположениях в об- щем случае. Это составляет содержание первой асимптотической теоремы. Кроме нее в дальнейшем будут рассмотрены еще две асим- птотические теоремы (гл. 7 и 11). Указанные асимптотические теоре- мы представляют собой наиболее глубокие результаты теории ин- формации. Всем им свойственна следующая общая черта: в конечном счете они утверждают, что для предельно больших систем исчезает разница между дискретным и непрерывным, что характеристики массовых дискретных объектов могут быть подсчитаны при помощи непрерывных функциональных зависимостей, затрагивающих ус- редненные величины. Применительно к первой вариационной зада- че это выражается в том, что дискретная функция Н = In M от а, имеющая место при ограничении с (у) ^ а, асимптотически заме- няется на непрерывную функцию Н (а), подсчитанную при решении первой вариационной задачи. По методу доказательства первая асимптотическая теорема оказывается родственной теореме об устойчивости канонического распределения (§ 4.2), важной в статистической термодинамике. Там ее, по существу, доказывают при выводе канонического рас- пределения из микроканонического. Здесь мы рассматриваем ее в более общей и абстрактной форме. Родственность первой асимпто- тической теоремы и теоремы о каноническом распределении еще раз говорит о единстве математического аппарата теории информации и статистической термодинамики. В процессе доказательства указанных теорем используется по- тенциал Г (а) и его свойства. Нужный для этого материал излагает- ся в § 4.1. Он связан с содержанием §3.3. Однако вместо обычной физической свободной энергии F рассматривается безразмерная свободная энергия — потенциал Г = —FIT. Вместо обычных в тер- модинамике параметров Т, а2, а3, ... вводятся симметрично опреде- 84
ленные параметры ах = —1/Т, а2 = а21Т, а3 = а3/Т, .... При таком выборе температура выступает как рядовой параметр наряду с прочими. При систематическом использовании «термодинамических» по- тенциалов оказывается удобным трактовать логарифм (л (s) = In в (s) характеристической функции в (s) как характеристический по- тенциал. В самом деле, он является производящей функцией семи- инвариантов, как и потенциал Г (а). В § 4.4 излагаются вспомогательные теоремы, касающиеся характеристического потенциала, которые используются в дальней- шем при доказательстве второй и третьей асимптотических теорем. 4.1. Потенциал Г или производящая функция семиинвариантов Для термодинамической системы или информационной системы, к которой относится формула C.5.1), введем симметрично определен- ные параметры alt ..., ат и соответствующий им потенциал Г (а), который математически эквивалентен свободной энергии F, но имеет перед ней то преимущество, что является производящей функ- цией семиинвариантов. Для физической термодинамической системы равновесное рас- пределение обычно задается формулой Гиббса D.1.1) где 1> = (р, Я) — динамические переменные — координаты и им- пульсы; $?(?, а) — функция Гамильтона, зависящая от параметров а2, ••¦, ат. Формула D.1.1) является аналогом формулы C.5.2). Предположим, что функция Гамильтона линейна по указанным параметрам Ж{1, а) = #„@-02/"(О---а,-/="'(?)• DЛ.2) Тогда D.1.1) примет вид P№) = exp{F-&io&) + a,F2® + ... + arFr(Q]dl D.1.3) Введем новые параметры —Р; а2-=-а2/Г: ... ; аг^аг/Т, D.1.4) которые будем называть каноническими внешними параметрами. Параметры В1 = Ж0; 52 = Я;...; Br = Fr D.1.5) называем случайными внутренними параметрами, а 85
—каноническими внутренними параметрами, сопряженными с внеш- ними параметрами alf ..., а,.. Вводя также потенциал.Г,. запишем распределение D.1.3) в каноническом виде P(dt\d) = exp[-T(a) + Bl(Z)a1 + ... + B'{Z>)ar]dZ>. D.1.6) Здесь —Г (а) — FIT, или, как следует из условия нормировки, r(a) = lnZ, D.1.7) где Z = Г exp [fi^-f ... + Braf] dl D.1.8) — соответствующая статистическая сумма. В симметричной форме D.1.6) температурный параметр ах вы- ступает на равных правах с другими параметрами а2, ..., аг, кото- рые связаны с а2, ••-, аТ. В этой форме представляется также (при условии линейности с (у, а) по а) выражение C.5.2). Проинтегрируем D.1.6) по переменным г|, таким, что (В, т)) в совокупности образуют ?. Тогда получим распределение по слу- чайным внутренним параметрам B, D.1.9) где Ва = В1а1+ ... +Brar; f e~*(B)dfi= [ dt,. кв АВ Его, в свою очередь, назовем каноническим. В случае канонического распределения D.1.6) легко выразить характеристическую функцию в (ш) = ( е'вВ Р (dB | a) D.1.10) случайных величин Въ ..., Вг через Г. В самом деле, подставляя D.1.9) в D.1.10), имеем в (/«)=-- е"Г(а> ("ехр [(/« + «) 5 — Отсюда, учитывая, что a — Ф E)] dfi D.1.10а) в силу нормированное™ распределения D.1.9), получаем в (ш) =ехр [Г (а + «0 —Г1 (а)]. D.1.11) Логарифм |х (s) = In в (s) = In К esB (J) P (dl, [a) D.1.1 la) характеристической функции D.1.10) представляет собой характе- ристический потенциал или производящую функцию семиинвариан- 86
Тов (кумулянтов), поскольку они, как известно, вычисляются его дифференцированием: д'"@). D.1.12) dsh ¦¦¦dsJm Подставляя сюда вытекающее из D.1.11) равенство |i(s) = r(a + s) —Г(а), D.1.12а) находим окончательно = а" г (а) D113 ¦'1 J/TZ Отсюда видно, что потенциал Г (а) является производящей функцией семиинвариантов для целого семейства распределений Р (dB\a). При т = 1 из D.1.13) имеем дШ.. .4Л-14) Первая из этих формул эквивалентна формулам C.3.16), C.3.17). Остальные формулы эквивалентны равенствам Л dF 1-2 г dai типа C.5.5а). При данном определении параметров, когда энергия (средний штраф) и температура имеют вид рядовых параметров, своеобразную форму имеет соотношение, определяющее энтропию. Подставляя D.1.1) в формулу для физической энтропии или, взяв аналогичную формулу для дискретной версии, имеем Н = — FIT + A/7) ЛЩ?, а), D.1.14а) Подставляя сюда D.1.2) и учитывая обозначения D.1.4), D.1.5), получаем Н = Г — аЖВ или, если учесть D.1.14), Я = Г(а)-2«/-^. D.1.146) / = i daj 87
Приведем еще одно следствие из формулы D.1.13). Теорема 4.1. Канонический потенциал Г (а) является во- гнутой функцией от параметров а. в области Qa определения пара- метров. Доказательство проведем при дополнительном усло- вии двукратной дифференцируемой потенциала. Воспользуемся формулой D.1.13) при т = 2, принимающей вид *«=-тТ-- DЛЛ5) дщ да и учтем, что корреляционная матрица ktj является неотрицательно определенной. Поэтому и матрица вторых производных д2Г73агда^ является неотрицательно определенной, что доказывает вогнутость потенциала. Доказательство закончено. Следствие. При наличии лишь одного параметра alt г = 1, функция Н (А}), определяемая преобразованием Лежандра Я(Л1) = Г-а1(Л1)Л1 (A1=-^-((h)), D.1.16) является выпуклой. В самом деле, как следует из формулы D.1.16) и формулы для обратного преобразования Лежандра справедливы соотношения d?Y(ay) dA1 \d2H(A1) da\ dax ' dA\ dAt Так как в силу теоремы 4.1 <fT/cfa? ^ 0 (при условии дифферен- цируемое™), то dAJda,! ^ 0, и, следовательно, dA\ dAt Это утверждение можно доказать также, не используя условие диф- ференцируемости. В заключение параграфа приведем формулы, касающиеся ха- рактеристического потенциала энтропии, определенного ранее фор- мулой типа A.5.15), но относящиеся теперь к обобщенной версии. Теорема 4.2. Для канонического семейства распределений 'v(dS) D.1.17) характеристический потенциал H0(s0)= In f eSo//(S|a)P(<i?|a) D.1.18) случайной энтропии 88
имеет вид fxo(so) = r((l— so)alt ... , A—so)ar) — — A—so)r(a1, ..., ar). D.1.19) Для доказательства достаточно подставить D.1.17) в D.1.18) и учесть формулу Г (а) = In J eaS(?> v(dQ типа D.1.10а), определяю- щую Г (а). Дифференцируя D.1.19) по s0 и приравнивая s0 нулю (по анало- гии с D.1.12) при т = 1), можно найти среднее значение энтропии, совпадающее с D.1.146). Повторным дифференцированием можно получить выражение для дисперсии. 4.2. Некоторые асимптотические результаты статистической термодинамики. Устойчивость канонического распределения Наиболее глубокие результаты теории информации и статистиче- ской термодинамики носят асимптотический характер, т. е. имеют вид предельных теорем при увеличении совокупной системы. Прежде чем рассматривать первую асимптотическую теорему теории информа- ции, приведем родственный (как это видно из доказательства) ре- зультат статистической термодинамики, а именно: важную теорему об устойчивости канонического распределения. В случае одного па- раметра последнее имеет вид Если под В (|) = Ж (р, q) понимать энергию системы — функцию Гамильтона, а ср (|) полагать равной нулю, то указанное распреде- ление принимает вид канонического распределения Гиббса: Г F(T)—W(p, q) exp ' к ! ' F{T)TT где Т = —I/a — температура. Теорема об устойчивости этого рас- пределения, т. е. о том, что оно получается из «микроканонического» распределения для совокупной системы, включающей термостат, известна под названием теоремы Гиббса. Следуя принятому в этой главе общему и формальному стилю изложения, сформулируем указанную теорему в абстрактном виде. Предварительно введем несколько дополнительных понятий. Назовем условное распределение ^(ib-.l» D.2.2) п-й степенью распределения Pi №). D-2.3) если РпAи -. In I«) = ^i A11 «) Л (In I «)• D-2-4) 89
Пусть распределение D.2.3) является каноническим: lnP1Ei|a)=-r1(a) + afln(g1)-91(g1). D.2.5) Тогда вследствие D.2.4) для совместного распределения D.2.2) имеем -<Pn(Si. •¦•- U, D.2.6) причем 5nEl. -.?„) = 2 *!&)• ФпA1. -.Sn)= ^ Ф1 (ift)- ft=l ft=l Оно, очевидно, тоже является каноническим. Параметров а = (аъ ..., ат) может быть несколько, тогда под аВ нужно понимать скалярное произведение 2агБг. Канонические внутренние параметры В± (?ft), для которых спра- ведливо соотношение Вп = ^Вх (|ft), называются экстенсивными, k а внешние соответствующие им параметры а — интенсивными. Нетрудно доказать, что если я-я степень распределения является канонической, то и само это распределение каноническое. В самом деле, используя D.2.4) и определение каноничности для D.2.2), получаем Положим здесь |х=. |2 = ... = gn. Это даст т. е. для «малой» системы D.2.3) действительно выполнено условие каноничности D.2.1), причем Получение канонического «малого» распределения из канониче- ского «большого» распределения, конечно, является естественным. Более глубоким является доказываемый ниже факт, что прибли- женно каноническое «малое» распределение получается также из не- канонического «большого» распределения. Каноническая форма рас- пределения является, следовательно, устойчивой в том смысле, что она получается асимптотически из различных «больших» распре- делений. Этим и объясняется большая роль канонического распре- деления в теории, в частности, в статистической физике. Теорема 4.3. Пусть заданы функции В1 (?), ц>г (|), кото- рым соответствует каноническое распределение 5)-ф1(|)]. D.2.7) 90
Кроме того, задано распределение «большой» системы X D.2.8) где функции х?п(А) определяется из условия нормировки, А играет роль параметра. Тогда получаемое из него суммированием Pi(li\A)= % РпA„--Лп\А) D.2.9) распределение «малой» системы асимптотически переходит в рас- пределение D.2.7) при замене параметра а = а (А). Именно In Рг (I, | А) =- - тр (А) + а (А) Вх &) - Я?ХИ) + О(«-2). D.2.10) Вид функций "ф(Л), а (А), %(А) определяется нижеследующими формулами D.2.17). Предполагается, что функция D.2.13) диффе- ренцируема достаточное число раз и что уравнение D.2.15) имеет корень. Распределение типа D.2.8) в статистической физике называется «м икроканон ическим». Доказательство. Пользуясь интегральным представ- лением дельта-функции 8(Х) = — Т e"«dx, D.2.11) — со запишем «микроканоническое» распределение D.2.8) в виде -~ ( k= 1 и подставим это равенство в D.2.9). В получающемся выражении cm "V 1 ехр > — т„(Л)—~ 91
произведем суммирование по ?2> • ••>?т>> пользуясь формулой D.1.10а). Это приводит к результату оо Р1{11\А)= — \ ехр{ 2я J ф1(|1)]/, D.2.12) где r(a)=ln2exp[ofi1(gft)-91(gk)]. D.2.13) h Интеграл в D.2.12) возьмем методом скорейшего спуска, исполь- зуя то, что п принимает большие значения. Определим седловую точку in = а0 из условия экстремума выражения, стоящего в экспоненте D.2.12), т. е. из уравнения (n-l)^L(ao) = n4-B1(g1). D-2.14) da Ввиду того, что точка оказывается зависящей от ?, удобно рассма- тривать также точку аъ не зависящую от |Х) определяемую урав- нением da D.2.15) которая при больших п близка к а0- Как следует из D.2.14), D.2.15) я— 1 Отсюда А — Вг 1 Г'" , А— В1 С -—- (п-1)Г" 2 Г" (л—1)Г" L J^idnM. + О (и"»). D.2.16) 2 (п-1J(Г"K Поскольку Г" (а) согласно D.1.15) можно интерпретировать как дисперсию а2 = кХ1 некоторой случайной величины, то Г"(а0)>0 D.2.16а) и, следовательно, в точке а0 (а также в ах) направление скорейшего спуска функции (п — 1) Г (а) — апА + аВх перпендикулярно дей- ствительной оси. В самом деле, если разность а — a0 =iy мнимая, то (п— 1)Г(а) — паЛ + а51 = (п— 1)Г(а0) — па„Л + + а0В, - ± (п- 1) Г" (а0) у'+О (г/3). 92
Проводя контур интегрирования через точку а0 в направлении скорейшего спуска, воспользуемся вытекающим из формулы *« D.2.166) [с/8а2+...] приа>0; равенством = exp Un—l)T (i%)-\-i 2я J = [2я(п-1)Г>0)]-'/2ехр|(я-1)Г(а0) + ао[В1(Ы-пА] + ш^ Здесь, используя D.2.16), значение а0 нужно выразить через аъ произведя разложение в ряд по 8 = а0 — ах и учитывая требуемое число членов. Это приводит к результату / = [2л (я-1) Г" К)]- '/2 ехр {(п-1) Г К) + «! [В, ftJ-nA]- B(Q] [ВЩАУ Г1У Q^- 2пГ" (ахJ 2пГ" (aj 8иГ" (с Подставляя это выражение в D.2.12) и обозначая г|з (Л) = ?„ (Л)—(я— 1) Г (Oi) + naxЛ + — In [2я (п — 1) Г" (ах) 2nY"{a1) 2иГ" ( , .. , А . Г'"(а1) а (Л) = а, -\ v 1; ; к ' 1 /ir(«) 2nr"(aJ D.2.17) получаем D.2.10). Доказательство закончено. Первое равенство из D.2.17) не обязательно принимать во вни- мание, так как функция if (Л) однозначно определяется функциями а (А), % (Л) в силу условия нормировки. Поскольку ряд членов в D.2.17) в пределе п—>- °о исчезает, то предельное выражение D.2.10) имеет вид In Рг ША) = const + аВ1 (У - ф1 (^) (Г' (а) = Л), или In Pt (l\A) — —Г (а) + аВг (gx) — фх (%]), как это следует из соображений нормировки. Теорема 4.3 может быть обобщена в различных направлениях. Тривиально обобщение на тот случай, когда имеется не один, а не- сколько (г) параметров В1, ..., Вг. При этом дельта-функцию в D.2.8) нужно заменить на произведение дельта-функций, а выражение аВ 93
понимать в смысле скалярного произведения. При другом обобще- нии дельта-функция в формуле D.2.8) может быть заменена дру- гими функциями. Для применения теории к рассмотренной в § 3.2 задаче вычисления пропускной способности каналов без помех большую роль играют функции / () М), при х<0, а также функции типа &+ (х) — 0+ {х—с) = #_ (х — с) — {L (х). В самом деле, введение функции $•_(•) в распределение „ х >- ? «Pi эквивалентно введению условия ^ ^1Aй)^лЛ, т. е'. условия к = 1 C.2.1) при с(у)= ^(Ы- « = «^- Аналогично первое условие C.2.7) соответствует введению функ- ции О- ( S iUfc)^ ( i Желая охватить эти случаи, «микроканоническое» распределение D.2.8) нужно заменить более общим распределением D.2.19) Здесь ¦&(¦) — заданная функция, имеющая спектральное пред- ставление «(г) = J егиг Э (ix) dx. D.2.20) Такое обобщение потребует весьма незначительных изменений в доказательстве теоремы. Разложение D.2.11) нужно заменить разложением D.2.20), после чего в экспоненте в формуле D.2.12) и других появится дополнительный член In Э (jx). Это приведет к несущественному усложнению окончательных формул. Результаты теоремы 4.3 допускают обобщение также в другом направлении. Можно не требовать того, чтобы в формулах D.2.8), -2 ф,(|й) D.2.19) независящий от А сомножитель е k==l , пропорциональ- 94
ный условной вероятности Р AЪ ..., lk\A, Вп) = Р AЪ ..., lh\Bn), распадался на произведение сомножителей, тем более одинаковых. Однако для справедливости асимптотического результата тогда нужно ввести какое-то более слабое требование. Чтобы его сформу- лировать, введем понятие канонической устойчивости случайной величины. Назовем последовательность случайных величин {?„, п = 1, 2, ...}, описываемых распределениями вероятностей Рп (?„) в пространстве Z, не зависящем от п, канонически устойчивой от- носительно Рп (?„), если значения их характеристических потен- циалов MP)=ln2ePCn/>n(U D.2.21) при разных р неограниченно возрастают пропорционально друг другу (дружно стремятся к оо). Последнее означает следующее: Цп (P ) Цо(Р ) при n-v оо, где ц0 (Р) — некоторая функция, не зависящая от п [Q — область значений |5, для которых D.2.21) имеет смысл]. Легко видеть, что случайные величины, равные расширяющимся суммам 1п= 2 51&) независимых и одинаково распределенных случайных величин, яв- ляются канонически устойчивыми, так как для них ц„ ф) = пцг (f>). Однако возможны и другие случаи канонически устойчивых семейств случайных величин. Формулируемая ниже теорема является по- этому обобщением теоремы 4.3. Теорема 4.4. Пусть имеется последовательность вероятност- ных распределений Рп (?n, r\n), n = 1, 2, ... такая, что последова- тельность случайных величин t,n является канонически устойчивой. При помощи них строится совместное распределение = 6 (Вг (У+ In-К) е-грп {А)~*> ^ Рп (?п, Л„), D-2.22) (Э(-) — не зависящая от п функция со спектром 0 (Ы)). Тогда для получаемого из D.2.22) суммированием по г\п и ?,п распределения Р (%i\An) имеем выражение типа D.2.10). В нем функции -ф (Ап), а (Ап), % (Ап) определяются соответствующими формулами напо- добие D.2.17); при п -> оо функция а (Ап) переходит в функцию, обратную функции Ап = &{а), D.2.23) 95
a -vp (An) переходит в Г (а (Ап)), где MP) = In 2 e«"/>„(?„), i Предполагается, что уравнение D.2.23) имеет корень, стремящий- ся при п -> оо к некоторому пределу. Доказательство аналогично доказательству теоремы 4.3. Разница лишь в том, что теперь дополнительно присутствует член In Э (Ы) и что выражение (п — 1) 1\ (ш) должно быть заме- нено на \in (i%). Вместо формулы D.2.12), после суммирования по г\п и ?,п, теперь будем иметь Седловая точка w = а0 определяется из уравнения корень которого асимптотически близок к корню а уравнения D.2.23). Именно, Прочие изменения не требуют пояснений. Приведенные в этом параграфе теоремы характеризуют большую роль канонических распределений подобно тому, как центральная предельная теорема характеризует роль гауссовых распределений. Этим, по существу, объясняется фундаментальное значение канони- ческих распределений в статистической термодинамике. 4.3. Асимптотическая эквивалентность двух видов ограничений Рассмотрим асимптотические результаты, связанные с содержа- нием гл. 3. Покажем, что при вычислении максимальной энтропии (пропускной способности каналов без помех) ограничения, наложен- ные на средние значения, и ограничения, наложенные на точные значения, асимптотически эквивалентны друг другу. Эти результа- ты тесно связаны с теоремой об устойчивости канонического распре- деления, доказанной в § 4.2. Будем вести изложение в более общей форме, чем в § 3.2 и 3.3, используя вспомогательную меру v (dx), подобно тому, как это делается в § 3.6, 96
Пусть задано пространство X с мерой v (dx) (не нормированной на единицу). Энтропию будем определять формулой D.3.1) [см. A.6.13)]. Имеется ограничение В (*)< А D.3.2) или, более обще, В (х) 6 Е, D.3.3) где Е — некоторое (измеримое) множество, В (х) — заданная функ- ция. Энтропию уровня А (или множества Е) определим максими- зацией Я = sup Г— [p(dx)\n P{dx) I D.3.4) peat J ' v{dx) J Здесь множество G перебираемых распределений Р (¦) характери- зуется тем, что вероятность сосредоточена в подпространстве X а X, определяемом условиями D.3.2) или D.3.3), т. е. Р(Х)=1; Р[В(х)?Е] = \. D.3.5) Условия D.3.2), D.3.3) будут ослаблены, если их заменить аналогичными условиями для математических ожиданий: МВ(х)<Л, или МВ(х)еЕ, D.3.6) где символ М соответствует усреднению с мерой Р. Усредняя D.3.2), D.3.3) с мерой Р из G, мы получим D.3.6), следователь- но, множество G распределений Р, определяемое условием D.3.6), включает в себя множество G, определяемое условием D.3.5). По- этому, если ввести энтропию Я = sup Г— [P(dx)\n P{dx) I D.3.7) то будем иметь H^H. D.3.8) Отыскание энтропии D.3.7) при условии D.3.6) есть не что иное, как первая вариационная задача (см. §3.3, 3.6). Энтропия Я совпа- дает с энтропией некоторого канонического распределения Р (dx) = ехр [ — Г (а) + аВ (х)] v {dx) D.3.9) (эта формула совпадает с C.6. За) при В (х) = с (х); g = х; а = —Р). При этом MB (х) = ?Е. Значение М5 (х) совпадает обычно с da максимальной или с минимальной точкой интервала Е. 97
Нетрудно убедиться, что энтропия D.3.4) определяется форму- лой # = lnv(X), D.3.10) в то время как для энтропии D.3.7) из D.3.9) получаем da D.3.11) [см. C.6.36)]. Глубокие асимптотические результаты, связанные с первой ва- риационной задачей, состоят в том, что энтропии D.3.10) и D.3.11) в некоторых случаях близки друг другу, и для вычисления одной величины можно находить другую. Обычно вместо D.3.10) удобно вычислять энтропию D.3.11) канонического распределения D.3.9), применяя обычные в статистической термодинамике методы. Ука- занные результаты, подтверждающие большую роль канонического распределения D.3.9), родственны результатам, изложенным в пре- дыдущем параграфе как по содержанию, так и по методам дока- зательства. Описанную выше «систему» (или канал без помех), к ко- торой относятся v (dx), В (х), А, будем реализовать двояким обра- зом. С одной стороны, будем полагать заданной «малую систему» (канал), которая имеет vx (dx^, B1 (х5), Av Сдругой стороны, пусть имеется «большая система» (канал), для которой vn{dx,... d*n) = v1(d*1)... v^dxj; Она является n-й степенью «малой системы». Приведенные ранее формулы D.3.1)—D.3.11) можно применять к обеим указанным си- стемам. Определение энтропии Нп, Нп можно провести как для «малой», так и для «большой системы». Значения Нъ Нх для «малой системы» существенно различны, но для «большой системы» эти зна- чения #„, Нп согласно нижеизложенному относительно близки в асимптотическом смысле: НпШп-*\ при п-+оо. D.3.12) Поскольку, как легко убедиться, Нп = пНл, то соотношение D.3.12) можно записать — Нп-*НХ. D.3.13) Эта формула, а также различные ее обобщения и составляют основ- ной результат первой асимптотической теоремы. 98
Для «большой системы» условия D.3.3), D.3.6) берем в виде 2 B1(xh)-AneE0\ M 2 B1(xh)-An^EQ, где Ео не зависит от п. Если ввести функцию 0B) = A при г^?°; | 0 при г вне ?0, то условие 25Х (xh) — Л„ ? ?0 можно заменить формулой P(dx1...dxn\An) = = const* B ^ (*,,)-дл/>(</*,... d*j. Экстремальное (дающее Яп) распределение имеет вид Р(dxx... ^х,г | Ап) = N-1 ® BSi (^)-/4„) vx (d^)... va (dxj, D.3.14) где TV — нормировочная постоянная, весьма просто связанная с энтропией Н: fB) D.3.15) Очевидна аналогия формулы D.3.14) с D.2.19) и D.2.22). Это го- ворит о том, что задача вычисления энтропии D.3.15) родственн- задаче вычисления парциального распределения D.2.9), рассмот- ренной в предыдущем параграфе. Как и там, условия точной мультипликативности vn{dx1... dxn) = v1{dxl)... ViidXn) и точной аддитивности вп{Хх,.,., *„)=2 яхы /г=1 не являются обязательными для доказательства основного резуль- тата— сходимости D.3.12). Сформулируем результат сразу в общем виде, используя введенное в § 4.2 понятие канонически устойчивой последовательности случайных величин (при этом под \п будем подразумевать набор хх, ..., хп). Теорема 4.5. (первая асимптотическая теорема). Пусть задана последовательность мер vn (d%n), n = 1, 2, ... и последова- тельность случайных величин Вп (tn)> канонически устойчивая от- носительно распределения ) = vn(dtn)/vn(Bn) D.3.16) 99
(мера vn B„) всего пространства значений %п предполагается конечной). Тогда энтропию Нп можно подсчитывать по асимпто- тической формуле \[Г(а1)] + О(\), D.3.17) где уп (Ап) = а1Ап — Гп Ы =—Нп (Г/, К) = Ап), Гп (а) = In j exp [аВп (gn)] vn (dgn) D.3.18) — потенциал, входящий в D.3.11). Следовательно, при п-> оо имеет место сходимость D.3.12). Условие vn (En) <С оо нужно только для существования вероят- ностной меры D.3.16). Если оно не выполняется, то нужно лишь модифицировать определение канонической устойчивости дляВл (?п), а именно, потребовать, чтобы при п -> оо дружно стремился к бесконечности не характеристический потенциал, а потенциал D.3.18). Для доказательства, как и в § 4.3, воспользуемся ин- тегральным представлением D.2.20). Произведем в соотношении интегрирование по Ъ,п после подстановки D.2.20). В силу D.3.18) будем иметь Н= In [ exp { — ЫАп + Гп (Ы) + In 9 (ix)} dx. Вычисление интеграла можно проводить методом перевала (скорей- шего спуска), т. е. при помощи формулы D.2.166) с различной сте- пенью точности. Точка перевала ix = а0 определяется уравнением Применимость метода перевала обеспечивается условием канониче- ской устойчивости. Для доказательства теоремы 4.4 достаточно такой точности: Н = - сс0 Ап + Г„ (а0) - -i-ln J[-^ Г; (а0)] [ 1 + о (Г-1)] J = Здесь ах — величина, определяемая из уравнения Г^ (ах) = Ап, мало отличающаяся от а0: Доказательство закончено. 100
Разумеется, аналогичным образом можно получать и более точ- ные асимптотические результаты. Как видно из доказательства, условия канонической устойчиво- сти случайных величин Вп достаточно для справедливости теоре- мы. Однако ниоткуда не следует, что это условие является необ- ходимым, что нельзя указать какого-либо более слабого условия, при котором теорема справедлива. Без сомнения, теорему 4.5 (а также, возможно, и теорему 4.4) можно распространить на более общий случай. Об этом косвенно говорит тот факт, что для примера, изло- женного в § 3.1 и 3.4, условие канонической устойчивости не выполняется, а предельный переход D.3.12) при L-»- оо, как мы видели, имеет место. Наряду с другими асимптотическими теоремами, которые будут рассмотрены в дальнейшем (гл. 7 и 11), теоремы 4.3—4.5 составляют основное содержание теории информации, понимаемой в широком смысле как «термодинамической», т. е. асимптотической теории. Многие важные понятия и соотношения этой теории приобретают свое значение в процессе предельного перехода, связанного с уве- личением рассматриваемых систем, и являются в этом смысле асим- птотическими. 4.4. Некоторые теоремы, касающиеся характеристического потенциала 1. Характеристический потенциал ц (s) = In в (s) случайных величин Bi (?) (или производящая функция семиинвариантов) был ранее определен формулой D.1.11а). Если задано семейство распре- делений р (?|а) = ехр [—Г (а) + осВ (|) — ф0 (?)], то ц (s) вы- ражается через потенциал Г (а) по формуле D.1.12а). Если же задано не семейство распределений, а просто случайная величина ? с распределением вероятностей Р (dt), то можно построить семей- ство распределений Р (d\ I «) = const еаВ (&> Р (dQ. Вследствие D.1.11а) постоянная нормировки выражается через II (а), так что D.4.1) Тем самым на основе Р (?) построено семейство {Р (dQa), a ? Q}. Помимо характеристического потенциала \i (s) исходного распре- деления по формуле D.1.12а), т. е. по формуле р (s|a) = fi (a + s) - ц (a), D.4.2) можно находить характеристический потенциал любого распреде- ления D.4.1) указанного семейства. 101
2. Рассмотрим сначала простой случай одной величины В (Е), г = 1 и докажем несложную, но полезную теорему. Теорема 4.6. Пусть область Q значений параметра, вхо- дящего в D.4.1), включает отрезок Sj < а < s2 (sx <C 0, s2 > 0), причем потенциал \\ (а) дифференцируем на этом отрезке. Тогда функция распределения F{x) = PlB(l)< х] D.4.3) удовлетворяет неравенству Чернова F(x)<exp [ — sn'(s) + p,(s)], D.4.4) где ц' (s) = х, D.4.5) еош последнее уравнение имеет корень s ? (s1, 0]. Доказательство. Учитывая D.4.1), запишем D.4.3) в виде F(x)-= 2 expfn(a)-ofl(g)]P(g|a) D.4.6) вA)<х вариант дискретной случайной величины |). Очевидно, что 2 е-«в (Е) Р(||a)< e~ax S РA\а) при а<0 D.4.7) F< в(?)< и, кроме того, 2 P(g|a)<l. D.4.8) Подставляя D.4.7), D.4.8) в D.4.6), получаем F(xXe-^+Ma> D.4.9) при любом a ? (sx, 0], в том числе и при a = s, где s — корень уравнения D.4.5), если он существует. Для этого корня, очевидно, D.4.9) переходит в D.4.4). Доказательство закончено. Поскольку значение ц' @) есть не что иное, как среднее значение то для выполнения условия s <Г 0, вследствие монотонности (не- убывания) функции \k' (a) (|a" (a) ^ 0 по теореме 4.1) необходимо выполнение условия х <С А. Когда имеет место противоположное неравенство х>А, то теорему нужно заменить нижеследующей. Теорема 4.7. Если выполнены условия предыдущей тео- ремы с той лишь разницей, что уравнение D.4.7) имеет положи- тельный корень s g [0, s2], то вместо D.4.4) выполняется не- равенство l-^cXe-^' <s) + n<s) . D.4.10) 102
Доказательство этой теоремы аналогично предыдущему, и мы не будем на нем останавливаться. Сравнивая D.1.5) с D.1.14) [см. также C.5.5.а)], нетрудно ви- деть, что х играет роль параметра, сопряженного с а относительно потенциала ц (а). Выражение Y(*) = s(x)*—n(s) = s|i'(s) —n(s), D.4.11) рассматриваемое как функция от х, есть преобразование Лежандра потенциала ц (а). При помощи потенциала D.4.11) формулы D.4.4), D.4.10) принимают более короткий вид P{[B(g)—*]signY'(*)>0}<e-v<*>. D.4.12) Сформулированные выше теоремы допускают также многомер- ное обобщение, т. е. обобщение на случай многих (г) переменных В1 (%), ..., Вг (?). В этом случае возможны не две различные форму- лы D.4.4), D.4.10), а 2Г формул в зависимости от знаков корней slt ..., sr. В правой части всех этих формул, которые можно записать так: [Br-xr] sign -^-^ 0]<e-v {Xi Ч D.4.13) дхг J неизменно стоит одно и то же выражение e~v, где D.4.14) — преобразование Лежандра многомерного характеристического потенциала ц (s) = In MesB. Вероятности в левой части соотношений D.4.12), D.4.13) при другом возможном обобщении могут браться в соответствии с рас- пределением (в частности D.4.1)), а не с р (?). Тогда вместо D.4.13), D.4.14) будем иметь Р{[ВХ —^isigns^O,..., [Br —*r]signs,>0}<exp[ —Г(а) + + ах—у{х)], D.4.15) где (^ ) D.4.16) — преобразование Лежандра потенциала Г (а). Чтобы убедиться в справедливости этих формул, нужно принять во внимание D.1.12а) и формулы D.4.13), D.4.14) предыдущего случая. 103
3. Выведем формулы, выполняющиеся, в отличие от D.4.3), D.4.10), D.4.13), D.4.15), со знаком равенства, но являющиеся асимптотическими, т. е. справедливыми при больших п или Г. Теорема 4.8. Пусть случайная величина В есть сумма одинаково распределенных независимых случайных величин Вг (|), ..., ... , Вп (?) и соответствующий ей характеристический потенциал ц (а) = nfa (а) определен и дифференцируем (достаточное число раз) на отрезке st <С а ^ s2 (s1 <C 0, s2 > 0). Тогда при значениях хи для которых уравнение \i'(s) = nx1 = x D.4.17) имеет корень s ? (sx, s2) u для которых выполняется неравенство YUXminfsxii'fo) —iifo), saja'(s2) — |i(s2)], D.4.18) функция распределения D.4.3) случайной величины В определяется асимптотической формулой: при Х<ШВ Р{х) при х > MB \ — F{x) у (х) = sx— |x (s), p,'(s) = x. D.4.19) Доказательство. Возьмем значения л; <С М5 и х'~> MB такие, что соответствующие им корни s и s' уравнения D.4.17) лежат на отрезке (slt s2), и воспользуемся для них известной форму- лой обращения С Ч ' — Г 2я J Ч е 1Д:~е гД: e^Wdt D.4.20) it (формула Леви). Здесь е^(г7' = e"^i(t7) — характеристическая функ- ция. Предел в правой части D.4.20) представим как предел раз- ности двух интегралов -Л re-z*+n(z)-lnz dz L_ Ге-гх' + д (г)-In 2 dz = I—/' 2ni J 2ni J D.4.21) В качестве контура интегрирования L возьмем контур, идущий из —ic в ic через седловую точку г = z0 первого интеграла, которая определяется уравнением ц'(г0)—х = 0 или M-i (го)—xi -=° г0 пг0 D.4.22) Оно получено приравниванием нулю производной от выражения, стоящего в экспоненте. Обозначим через L' контур, идущий из —ic 104
в ic через Седловую точку z'q второго интеграла, определяемую из уравнения —х[ пг0 и постараемся во втором интеграле D.4.21) заменить контур инте- грирования L на L'. Поскольку пх1 < MB = пц.{ @), a nxj > MS = п\л'\@), то указанные две седловые точки при достаточно больших п лежат по разные стороны от начала координат г = 0. Поэтому, чтобы изме- нить указанным образом контур интегрирования L на L', во втором интеграле в D.4.21) нужно учесть вычет в точке z = 0, что дает 2ni L _ _!_ ( n-zx' + \x (z) p-u @) (A A O4\ 2ni J г V ; L' Интегралы в D.4.21), D.4.23) будем брать методом скорейшего спуска. Учитывая, что ц'( (z0) ^ 0 (теорема 4.1), легко видеть, что направление скорейшего спуска перпендикулярно действительной оси: j у у I it 1 у\ j *-1 у .— у y I 11 / у \ In? 11 " 17 ^ 11" С.Л ] 1Л \ / ' 0 ^ — г^ V 0/ ^ fl ^^^ М' \ 0/ i/ 2 Используя разложение пц, (г) _ In z ^ _J_ exp (— согласно D.2.166) получаем г 1 I —nzx 4-nu (z) UlC 2ni J г -1/2 D.4.24) (Наибольший член остатка 0 (я) дается четвертой производной Г1У и имеет вид ^ ц1/ (n'i)~2.) Сравнивая D.4.22) с уравнением 105
(a[ (s) — xx = О, эквивалентным уравнению D.4.17), имеем Hi (s){zo-s) + {z — sf... = — ; zo—s = 1-—- + O(n-2). nza nz0 ill (s) D.4.25) Для вывода требуемого соотношения D.4.19) достаточно взять фор- мулу, вытекающую из D.4.24) и D.4.25) / = — e~s*+K-<s>J2rcn|4(s)r1/2[l j-O^)], D.4.26) где sx — y(s) = у (х), \i' (s) = х (s < 0). Аналогично берется второй интеграл D.4.23), что дает /[{V()} f+Oi-1)] — I (s'>0). D.4.27) s Подставляя D.4.26) и D.4.27) в D.4.21), в силу D.4.20) имеем F(x')—F(x)= l — hns'^ix" (s')]'^' ^') [I +0 (п-^)]~ -1)j D.4.28) (здесь учтено, что s-<0; корни [...l^1/2 берутся положительные). Это равенство определяет F (х) и F (х1) с точностью до некоторой аддитивной постоянной: [][j F (%') = 1 — [2я |я" (s') s'2l/2 e-v U') [l -f 0 (n~x)] + tf (n). Чтобы оценить постоянную К (п), возьмем точку s% из отрезка (sb s) и s* из отрезка (s', s2) и соответствующие им значения х*, х*. Учитывая неравенство F (х„) ^ 1 — F (х*) + F (х^), и подстав- ляя D.4.28) в его правую часть, будем иметь F (х*) < [2я и" (s*) s5] /a e-v м [ 1 + 0 (п)] + Следовательно, F (л;*) = О (e-»vi С.)) + О {e"nyi (Vi (^i) == — Y(^) = ^iM-i— M-i! ^*i = V«> x\ = x*/n). Подставляя это выражение в равенство 1 -F(x') =-F (x,) + [2V' is') «'I /2 e-v (*') [ 1 + О (д-1)] 106
вытекающее из D.4.28) при х = *„., находим 1— F (х') = 2л[\х" (sr) s'2]-1'* e-v (х'){\ +0 (п-1)] + 4-0(e-"v,(*,1))f0(e""'''W)). D.4.29) Из D.4.28), D.4.29) нетрудно получить F (х) - 2я [|я" (s) s2} ^1/2 е~* <*> [ 1 + О (п)] + -f О (e-«vi <*..)) -f О (e-"v.«))_ D.4.30) Если л:^!, s, и х*, s* не зависят от п и выбраны таким образом, что Yi(**i)>Yi(*i); YiW)>Yi(*i). D.4.31) то члены О (e-"Vi(-«.i))> о (е-""''1*-*!') в D.4.30) стремятся к нулю при h -> оо быстрее, чем е~"Vj(*i) О (ft), и мы из D.4.30) получа- ем первое равенство D.4.19). Второе равенство вытекает из D.4.29) при выполнении неравенств Yi(*«)>Yi(*i); Yi(*i)>Yi(*i')- D.4.32) Поскольку 7 (x) является монотонной на отрезках ц' (sx) ^ <С х ^ ц' @) и |л' @) ^ х ^ |j,' (s2), точки х^! и л;1, для ко- торых выполнялись бы неравенства D.4.31), D.4.32), заведомо можно подобрать, если выполнено условие D.4.18). Доказатель- ство закончено. Как видно из приведенного доказательства, отмеченное в усло- вии теоремы 4.8 требование, чтобы случайная величина В равня- лась сумме одинаково распределенных независимых величин, яв- ляется f необязательным. Достаточно дружного (пропорциональ- ного) возрастания результирующего потенциала ц (s) для того, чтобы члены, подобные члену цп'/(ц"J в правой части D.4.24), были малы. Поэтому формула D.4.19) справедлива и в более общем случае, еслизаменить 0 {п) на О (ц) и понимать эту оценку в толь- ко что отмеченном смысле. Если формулу D.4.19) применить не к распределению р (В), а к распределению р (В\а), зависящему от параметра, то вслед- ствие D.1.12а) будем иметь \% (s) = Г (а + s) — Г (а); ц" (s) = = Г" (а + s); s ц' (s) — ц (s) = s Г' (а + s) — Г (а + s) + -+- Г (а) = у (х) — а х + Г (а), и формула D.4.19) примет вид при я-< Г'(«) F(x) при х>Г'(а) l—F(x) X е-г (e)+o*-v u) [1 +0 (Г-1)], D.4.33) где у(х) = ах—Г (а) (Г'(а) = х)—преобразование Лежандра. 107
Не представляет труда также обобщить теорему 4.8 на случай многих случайных величин Ви ..., Вг. Соответствующее этому обобщение формулы D.4.19), если применить ту же форму записи, что и в D.4.13), будет P{[B1-x1]signs1^O,..., [Br — xr] signs, = det-1/^ II 2я д* *E) st Sj | | П + О (Г '1) D.4.34) где у (х) определена посредством D.4.14). Наконец, обобщение последней формулы на случай парамет- рического распределения [а формулы D.4.33) на многомерный слу- чай] запишется следующим образом: Р {(В,—хх) sign sx > 0,..., (Br—xr) sign sr > 0 | a} = X ¦)]• D.4.35) Приведенные выше результаты свидетельствуют о важной роли потенциалов и их отображений по Лежандру. Примененный метод доказательства объединяет теорему 4.8 с теоремами 4.3 — 4.5.
Глава 5 ВЫЧИСЛЕНИЕ ЭНТРОПИИ ДЛЯ ЧАСТНЫХ СЛУЧАЕВ. ЭНТРОПИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ В настоящей главе излагаются методы подсчета энтро- пии многих случайных величин или случайного процесса в ди- скретном и непрерывном времени. Особый интерес с принципиальной, а также прикладной точки зрения представляют стационарные случайные процессы и их тео- ретико-информационные характеристики, в частности, энтропия. Такие процессы являются относительно простыми объектами, особенно дискретный процесс, т. е. стационарный процесс с ди- скретными состояниями, протекающий в дискретном времени. По- этому на его примере удобно иллюстрировать основные положения, и мы с него начнем. Основное внимание будет уделено определению такой важной характеристики стационарного процесса, как удельная энтропия, т. е. энтропия, отнесенная к единице времени, к одному такту. Кроме того вводится энтропия Г конца отрезка. Она вместе с удель- ной энтропией Нг определяет энтропию длинного отрезка длины Т по приближенной формуле Нт « Я, Т + 2 Г, которая тем точнее, чем больше Т. Обе постоянные Н1у Г вычис- ляются для дискретного марковского процесса. Обобщенное определение энтропии, данное в § 1.6, позволяет применять это понятие как к непрерывно-значным случайным ве- личинам, так и к тому случаю, когда число этих случайных величин континуально, т. е. к случайному процессу с непрерывным парамет- ром (временем). Ниже показано, что на случай непрерывного пространства зна- чений и на случай непрерывного времени могут быть распростра- нены многие результаты, относящиеся к дискретному процессу. Так, для стационарных процессов в непрерывном времени может быть введена удельная энтропия, отнесенная уже не к одному так- ту, а к единице времени, и энтропия конца отрезка. Энтропия слу- чайного процесса на отрезке приближенно представляется в виде двух членов по аналогии с приведенной выше формулой. 109
Для нестационарных процессов с непрерывным временем, вме- сто постоянной удельной энтропии, нужно рассматривать плот- ность энтропии, которая, вообще говоря, непостоянна во времени. Энтропия и ее плотность подсчитываются для различных важных случаев процессов с непрерывным временем: гауссовых процессов и диффузионных марковских процессов. Проводимый здесь подсчет энтропии случайных процессов дает возможность подсчитывать для случайных процессов шеннонов- ское количество информации, о котором будет сказано в гл. 6. 5.1. Энтропия отрезка стационарного дискретного процесса и удельная энтропия Будем предполагать, что имеется последовательность слу- чайных величин ..., ^А_1? ?й, ?й + 1 Индекс (параметр) k можно трактовать как дискретное время /, принимающее целочисленные значения ..., k— 1, k, k -f- 1, .... Число различных значений ин- декса может быть неограниченно в обе стороны: — оо < k < оо; неограниченно в одну сторону, например: О <С k <С оо , или ко- нечно: 1 ёС k <C N. Указанные значения образуют область К, оп- ределения параметра. Каждая случайная величина \h пусть при- нимает одно из конечного или счетного числа значений, например, ?fe = (Аъ А2, ..., Ат) (для дальнейшего существенна не столько конечность т, сколько конечность энтропии Н^ ). Описанный про- цесс — дискретную случайную величину как функцию дискрет- ного параметра к, будем называть дискретным процессом. Дискретный процесс является стационарным, если все законы распределения Р (?&,, ..., |А ) (произвольной кратности г) не ме- няются при сдвиге: Р [?*! = *!>•••, ?цг =" Xr] = P [?fc1 + a — *!,..., bi,+a = XA E-1.1) (а — любое целое). Величина сдига а предполагается такой, что значения kx -f -f- a, ..., kr + а не выходят из области К определения парамет- ра k. В дальнейшем мы это не будем оговаривать, предполагая, скажем, что область определения параметра не ограничена в обе стороны. Рассмотрим различные условные энтропии одной из случайных величин \ъ дискретного стационарного случайного процесса. Ее безусловная энтропия Н% = — 2Р (?h) In P (?ft) вследствие k свойства E.1.1) не зависит от выбранного значения параметра k. Аналогично согласно E.1.1) условная энтропия Н%k\th_ не за- висит от k. Применяя теорему 1.6, имеем неравенство ПО
Или, учитывая стационарность, ih, 16. = нь i h = • • • ¦-= fhk i б*-1 < иь = # б, = •••=- #6* • Если ввести условную энтропию //|ft i |ft—1 gft_0, то примене- ние теоремы 1.6а при \ = \h, т] = sa—а> С == ^й-a Даст неравенство Согласно условию стационарности E.1.1) эта энтропия не зави- сит от k. Аналогичным образом, увеличивая число случайных величин в условии, мы и дальше будем иметь монотонное изменение (невоз- растание) условной энтропии: Hlk> HU [ U-1 > HU I lk~\ • U-2>---> >Hhllk_l,...,lk_l>...>0. E.1.2) Кроме того, все условные энтропии неотрицательны, т. е. ограни- чены снизу. Отсюда вытекает существование неотрицательного предела ^1=!^^*|Е*-......6*-/, E-1.3) который мы будем обозначать также h, чтобы избежать увеличения числа индексов. Этот предел мы определяем как удельную энтропию, рассчитан- ную на один элемент последовательности {ёь}. Основанием для такого наименования является следующая теорема. Теорема 5.1. Если {?,(} — стационарный дискретный про- цесс, такой, что Н% <С оо, то предел 1-юо существует и равен пределу E.1.3). Доказательство. Рассмотрим энтропию //|, ... | и представим ее в виде Поскольку согласно E.1.3) (здесь oj A)-> 0 при /-> оо ), то из E.1.4) имеем (после деления на т + п) Т_Т ТТ m-\-n 111
Пусть тип стремятся к бесконечности так, что п/пг -> оо; тогда п 1(т + п) будет стремиться к 1, а отношение #gm ... |/(m + + п), которое можно оценить будет, очевидно, стремиться к 0. Поэтому из равенства E.1.5) получаем утверждение теоремы. Доказательство закончено. Нетрудно доказать также, что с ростом I отношение Я^ ... Е // меняется монотонно, т. е. не возрастает. Ддя этого образуем раз- ность б —— Я 1 „ _ 1 и представим ее в виде ~1 б = [Яг, е, — 1Н'-,, , \%, ? ,1 = / Г/4-П L Si--- S/ ^/+ 1 | Si- ¦¦ S/J 1 Вследствие неравенств E.1.2) слагаемые в правой части E.1.6) являются неотрицательными, откуда вытекает неотрицательность разности б. Согласно теореме 5.1 имеет место равенство Я|,...!:„ = /гЯ1 + «олA)- E.1.7) Образуем комбинацию Легко доказать, что она является монотонной функцией от т при фиксированном п (или наоборот). В самом деле, ее можно за- писать в форме Н1т+1-т+п\Ь---1т- E.1.9) Поскольку условные энтропии не возрастают с ростом т согласно E.1.2), то выражение E.1.9) не убывает при увеличении т. То же самое можно сказать и о зависимости от п, так как в E.1.8) тип 112
входят симметрично. Из E.1.9) очевидна также неотрицательность комбинации E.1.8) (в силу теоремы 1.6 при ?=(?т + 1 1т + п))- Рассмотрим предел 2Г = Нт lim [%. .ы + НЪх .?„-% .. lim [Я?, ..?т + ЯЕ1 ..En_tf?l...? ]. E.1.10) m-»oon-+» Менять порядок пределов здесь можно вследствие уже отмеченной симметрии относительно перестановки т и п. В силу указанной монотонности этот предел (конечный или бесконечный) всегда су- ществует. Переходя от формы записи E.1.8) к форме E.1.9), с ис- пользованием иерархического соотношения п ТТ \^ ТТ т т m , = 1 '" ' ' (типа A.3.4)) равенство E.1.10) можно записать, выполнив пре- дельный переход т -> оо: 2Г = lim [#?,...!„ — пНЛ, E.1.11) П —>-оо так как Я|т, i ^ lm+i-\~*H\ при т-^оо. Если энтропию Я| ... | здесь представить в виде иерархиче- ской суммы A.3.4), то формула E.1.11) примет вид 2Г= 2 [Яб/ + ,1б, . lj — Яф E.1.12) Согласно E.1.11) имеем п пA)- E.1.13) Эта формула уточняет E.1.7). Поскольку на один элемент последовательности {lh} прихо- дится в среднем энтропия Яь то на п таких элементов приходится пНх. Согласно E.1.13) энтропия 2Г отличается от пН1 при боль- ших п на величину 2Г, которую можно трактовать как энтропию, приходящуюся на концы отрезка. Таким образом, энтропия каж- дого конца отрезка стационарного процесса в пределе равна Г. Если один длинный отрезок стационарного'процесса разбить на два отрезка и ликвидировать статистические связи (корреляции) между процессами на этих отрезках, то энтропия возрастет прибли- зительно на 2Г, так как появятся два новых конца. Применяя формулу E.1.13) для трех отрезков длиной т, п и т + п и образуя комбинацию E.1.8), теперь имеем Это согласуется с E.1.10) и подтверждает сказанное об увели- чении энтропии на 2Г. 113
5.2. Энтропия марковской цепи 1. Пусть дискретный (необязательно стационарный) процесс {?ft} является марковским. Это значит, что совместные законы распределения последовательно идущих случайных величин рас- падаются на произведение Р(ъи> Sft+i>---> lft+z) = -=Р(%к)nk(bi> ?ft+i)--- nk+i~i(bt^i-i' %k+i) E.2.1) функций П] (?, ?') = P (V \ S), которые называются вероятно- стями перехода. В E.2.1) вероятности Р (?й) соответствуют одно- кратному распределению случайной величины ?&. Р^3*л Вероятность перехода nj (?7-, Sj+i), равняясь условным веро- ятностям Р (lj + ! | ?;), обладает свойством неотрицательности и нор- мировки 2 MS. ?')-!• E-2-2) Дискретный марковский процесс называют также марковской цепью. Переходя от вероятностей E.2.1) к условным вероятностям, лег- ко получить, что в случае марковского процесса P(l,i+m+i \l,t,..., l,!+m) =nk+m(lh+m, ?ft+m+1) (любое m> 1) и, следовательно, P \\h+m+l I Sft Sft+m) = ^ (Sft + m+1 I Sft+m)- Поэтому •^(l/i+m+l Sftc-ч l/t+m)^1—'n л/1+тп (bft+m, 5/i+m+l) "^ ~ H (Sft+m+1 I Sft+m)- E.2.3) Благодаря E.2.3) иерархическая формула A.3.6) принимает вид E.2.4) Аналогичным образом для средних энтропии имеем lk+m' E.2.5) +...+//6п1е|1_1. E-2.6) Дискретный марковский процесс является стационарным, если вероятности перехода лк (§, |') не зависят от значения параметра k и если все однократные распределения РAъ) одинаковы (равны Рст(|)). Образуя многократные распределения по формуле E.2.1), 114
легко доказать, что они также удовлетворяют условию стацио- нарности E.1.1). Стационарность однократного распределения Рст (?) означает, что выполняется уравнение 2/>ст(?)я(?, П = ^стA')- E-2.7) Последнее легко вывести, записывая согласно E.2.1.) двукрат- ное распределение Р (lh, lk + 1) = Рст (lh) я (lh, l,t+1) и суммируя его по In = |, что дает Р (|fe+1). Учитывая E.2.3), легко видеть, что для стационарного мар- ковского процесса удельная энтропия E.1.3) совпадает с энтро- пией, соответствующей вероятностям перехода я (?, ?') при ста- ционарном распределении вероятностей: tfi^-S^cT^IMg, ГIпяA, I'). E.2.8) В самом деле, усредняя E.2.3) со стационарными вероятностями Рст (?) я (?, |'), убеждаемся, что всем значениям пг ^ 1 соответ- ствует одна и та же условная энтропия Я* , , г. , е равная E.2.8). Усредним далее формулу E.2.4) со стационарными вероятно- стями. Это даст равенство E-2.9) Сравнивая его с E.1.13), видим, что в стационарном марковском случае ^ E-2Л°) I. I' "ст (б / и оп A) = 0, т. е. формула //?l...Ejl = n^ + 2r E.2.11) выполняется точно. К результату E.2.10) можно прийти также при помощи формулы E.1.12). В самом деле, поскольку, как отмеча- лось, //|., j i|, ...g. = Нъ то в сумме в правой части E.1.14) остает- ся лишь единственный ненулевой член: 2Г = Н^ — Hlt что совпадает с E.2.10). 2. Итак, для вычисления энтропии, если задана матрица веро- ятностей перехода я = 11 л (g, |') II. E.2.12) следует найти стационарное распределение и воспользоваться фор- мулами E.2.8), E.2.9). Уравнение E.2.7) вполне однозначно определяет стационарное распределение Р(.т (?), если марковский процесс является эргодическим, т. е. если собственное значение К = 1 является невырожденным собственным значением матрицы 115
E.2.12). Согласно теореме о разложении определителей, из урав- нения det (я—1) = 0 будет вытекать E.2 7), если положить М6-г, E.2.13) " где Ац> — алгебраические дополнения элемента ац> матрицы \\аш- || = || я (|, I') — бц'|| = я — 1. Значение I' здесь любое, так что достаточно вычислить алгебраические дополнения одного столбца указанной матрицы. Если марковский процесс неэргодический, то стационарное распределение не определяется полностью матрицей перехода, а зависит еще от начального (или какого-либо другого однократ- ного) распределения. В этом случае в формуле E.2.13) алгебраи- ческие дополнения равны нулю и, следовательно, имеет место не- определенность типа 0/0. Стационарное распределение при этом может быть выражено через миноры меньшего порядка и начальное распределение. Как известно [Дуб, 1], состояния дискретного марковского процесса можно расположить в таком порядке, чтобы переходная матрица имела следующий «ящичный» вид: E.2.14) я01 я11 0 я02 0 я22 я03 0 0 где /0 я01 0 П01- 0 0 0 и т. д. Здесь я" означает матрицу, имеющую размерность гг X г,- и описывающую переход из подмножества Е(, содержащего tt состояний, в подмножество Е} с г, состояниями. На прочих ме- стах стоят нули. Множества Еъ ?й, ... образуют эргодические классы. Из множества Ео происходят переходы в эргодические классы Еи Е2, ¦¦¦ ¦ Из каждого такого класса нет выхода. Поэтому внутри каждого класса устанавливается свое стационарное рас- пределение. Оно может быть найдено по формуле типа E.2.13) 2 44' при?б?г E.2.15) с той лишь разницей, что теперь берутся алгебраические допол- нения подматрицы ЦяЦ' —6ц'||,?, \' ? Ег, которые уже не равны нулю. Вероятности Р1СТ (?) сосредоточены на ?,. Полное стацио- 116
нарное распределение есть линейная комбинация PcT(l) = IiQiPcT{l) E.2.16) частных распределений E.2.15), которые, как легко видеть, яв- ляются ортогональными 2РстШ/>стф = 0 ПРИ 1ф]\ I Коэффициенты qt этой линейной комбинации определяются началь- ным распределением Р (|х) = Рх (|х). Они совпадают с резуль- тирующей вероятностью попадания в тот или иной эргодический класс и удовлетворяют условию нормировки Б qt = 1. Принимая « во внимание вид E.2.14) переходной матрицы и суммируя переходы из Ео в Ег на различных этапах, можно найти, как они явно выра- жаются через начальное распределение: + (П00 П°0«' + (П00 П00 n° В круглых скобках здесь стоит матричное произведение. Суммируя степени матрицы П00, имеем <7*= 2^1F)+ 2/31 Учитывая E.2.16), E.2.14), получаем, что удельную энтропию E.2.8) удобно представить суммой Нх=-Ъй1Н\> E.2.17) где частные энтропии Н\ =- Se? Р[т(Юя"(?. ГIпя"A. Г) E-2.18) вычисляются совершенно аналогично эргодическому случаю. При- чина этого в том, что неэргодический процесс является статисти- ческой смесью (с вероятностями qt) эргодических процессов, име- ющих меньшее число состояний гг. Суммирование в E.2.17),* E.2.18) проводится только по эрго- дическим классам Еъ Е2 Подпространство же Ео имеет нуле- вую стационарную вероятность. Соединение всех эргодических клас- сов Ег + Е% + ... = Еа, на котором концентрируется стацио- нарная вероятность, можно назвать «активным» подпространством. На удельную энтропию Нг распределения и переходы в «пассив- ном» пространстве Ео оказывают влияние лишь постольку, поскольку они влияют на вероятности qt. Если процесс эргодический, т. е. имеется, кроме Ео, лишь один эргодический класс Еъ тогда ^i = 1 и пассивное пространство вообще не оказывает никакого влияния на удельную энтропию. В этом случае удельная энтропия марков- 117
ского процесса в пространстве Ео + Еа совпадает с удельной энт- ропией марковского процесса, протекающего в подпространстве Еа = Ех и имеющего матрицу перехода я11. 3. Чтобы проиллюстрировать применение формул, полученных в этом параграфе, рассмотрим несколько несложных примеров. Пример 1. Рассмотрим сначала простейший дискретный марков- ский процесс — процесс с двумя состояниями. Матрица E.2.12) является при этом 2 X 2-матрицей. Вследствие условия норми- ровки E.2.2) ее элементы не являются независимыми. Имеются лишь два независимых параметра ц. и у, определяющих матрицу я: /1— |Х [X \ у 1— у, Поскольку в данном случае -[X [X то согласно E.2.13) имеем стационарное распределение Р A)= v ; РстB) =—V— E.2.19) ст р+у ' р+у и кроме того \р я g )|| =__!_/V~~1J/V ^v Ц+У \ (XV (X—(XV I Применяя формулу E.2.8), находим удельную энтропию )), E.2.20) 2М + ^МЧ где А2(х)= — х In x — A-х) In A-х). E.2.20а) Далее по формуле E.2.10) нетрудно получить граничную энтро- пию M-+V Пример 2. Пусть теперь имеется процесс с тремя состояниями, имеющий переходную матрицу / 1—ц. (х' \i" л=- v" i__v v' | (\i = \i'-\-\i* и т. a.) \ X' X" 1-Х. При этом, очевидно, / — [X (X' JJ," a =1 v" _v v' \ X' X" —Xj 118
По формуле E.2.13) находим стационарное распределение РС1(|) = Л|1/(Л11+Л21 + Л31), E.2.21) где —К ' v" + X" v"; Удельная энтропия E.2.8) оказывается равной Нх Р„ A) А3 (ц', (х") + PGI B) /г3 (v', v") + Рст C) Л3 (А/, Г), где обозначено E.2.22) Данный процесс с тремя состояниями будет неэргодическим, если, например, X' = Я," = 0; \i" = v' = 0, так что матрица перехода имеет «ящичный» вид 1 я = "(X V 0 [X 1—V 0 0 0 1 При такой матрице третье состояние остается неизменным, а пере- ходы совершаются только между первым и вторым состояниями. Алгебраические дополнения E.2.21) обращаются в нуль. Стацио- нарными, как легко понять, являются следующие распределения: при 1=1; при ? = 2; P§T(g)=-6p. при g = 3; 0 Первое из них совпадает с E.2.19). Указанные функции P?T (%), Per (%) являются ортогональными. Задаваясь начальным рас- пределением Рх (^), по формуле E.2.16) находим результирующее стационарное распределение Рст (I) = [Pi (l) + Pi BI Plr (I) + Px C) PI, (I)- Теперь согласно E.2.17) нетрудно записать удельную энтропию Я1 = [Pi 0) + Pi BI (vft (ix) + 1жЛ (v))/(ji+v). 119
5.3. Удельная энтропия части компонент дискретного марковского процесса и условного марковского процесса 1. Вычислим удельную энтропию стационарного немарковского дискретного процесса {г/&}, который, однако, может быть дополнен до марковского процесса присоединением добавочных компонент хк. Совокупность !¦ = (х, у) будет образовывать фазовое пространство марковского процесса, и процесс {|ft} = {xh, yh) уже будет мар- ковским. К нему можно применять результаты предыдущего пара- графа и, в частности, находить удельную энтропию, которую будем обозначать Н\у = hxV. Энтропия НУ1 ... Уп исходного процесса отличается от энтропии fil1...in = fiy1...yn + fix1...xn\y1...yn E.3.1) марковского процесса на условную энтропию HXi ... Хп \У1 ... Уп называемую энтропией условного марковского процесса {xh} (при, фиксированном {у к})- Наряду с удельной энтропией hxy = /ig стационарного марков- ского процесса введем удельную энтропию исходного «/-процесса hv=\\m±Hy Уп E.3.2) П-* со П 1 и условного лг-процесса А»1„= lim — Нх х ху у . E.3.3) Они вследствие E.3.1) связаны с hxy соотношением hy+hxly = hxy. E.3.4) Нетрудно понять, что можно также рассматривать л;-процесс как априорный немарковский (в общем случае) процесс и условный «/-процесс при фиксированном х. Им будут соответствовать удель- ные энтропии Ая= Нт — Я»г..»п; hy\x= \\mjlyy..yn\xx...xn. E.3.5) Соотношения E.3.1), E.3.4) при этом заменяются на HXl...xn + НУ1.. .Уп \х1...хп = Hh... Sn; E.3.6) hx + hylx = hxy. E.3.7) Поскольку энтропию марковского процесса мы уже умеем нахо- дить, достаточно научиться вычислять лишь одну из величин hy или hx\y. Вторая находится при помощи E.3.4). Вследствие симмет- рии соответствующая величина из hx, hy\x будет вычисляться тем же способом, а вторая — из соотношения E.3.7). 120
Излагаемый ниже (п.2) метод можно применять для вычисления энтропии условного марковского процесса как в стационарном, так и в нестационарном случае. Стационарные же распределения ве- роятностей и пределы E.3.2), E.3.3), E.3.5), как правило, суще- ствуют только в стационарном случае. Условную энтропию Я*, *n\vi- ¦ ¦ у„ м°жно представить в ви- де суммы Hxi хп\У1 Уп = НН\Ух Уп+Нх2\х1У1 ••** + + Нх,\х1хгу1 .. уп+ ¦¦¦ + Нхп\Х1...хп_1У1 . . уп и предел E.3.3) заменить на предел hx\y= lim H4\xt . х. у ..*/„ = ft-юо, n— fe-vco " « i> l = я**1 .4-*ik^ykyk+1 ¦¦¦ E-3-8) Об эквивалентности двух таких представлений удельной эн- тропии была речь в теореме 5.1. Конечно, теперь процесс {хк} яв- ляется условным и поэтому нестационарным. Прямо применять к нему теорему 5.1. нельзя, поэтому необходимо произвести ее обобщение. Теорема 5.2. Для стационарного процесса {\п) — {xh, yk) пределы E.3.3) и E.3.8) совпадают. Доказательство. Поскольку Уп = НХ | | Е , 1Ь Н | 1 'К. 1 lim п— k-+ оо lim Их ft-* оо то имеем Hxk \ xi Н ,1 ;'A xk\xi h ¦ h- Xh-l4l [) + °п-к xh-lyl гУиУь- Уп ~- A) *h\ ¦Zh-2h-iyhyk+i---~r E.3.9) (предполагается, что оценка о„_й A) равномерна по k). Представим п в виде суммы трех чисел: л = т + т + s. Под- ставляя E.3.9) в равенство X X \ L U ~~ П х X \ U V ~\~ П х I? % U , U "Г 1 п | ч\ ип 1 тп\ а\ уп m+ll 6i snt "m+i "n -4-... -4- Яу , i s ? и и ~\~ m+r I sl ьт+л-1 "m+r ¦ un x получаем n 121
H=cm+r+i xn\h ¦ Лт+гУт+г+1 ...Уп- E.3.10) Здесь m = 2 Hxk\xi й 1 НхтЛ r+i • хп | ?i Wr «m+r+l УП ^ S^A ' так как условная энтропия не больше безусловной. Поэтому, если в E.3.10) совершить предельный переход m ->- оо , г -»- оо, s ->- оо, причем г/т-*- оо; r/s ->- оо, то в этом выражении оста- нется лишь один член Ях | , g y . Это доказывает теорему Как видно из приведенного доказательства, теорема 5.2 справед- лива не только в случае марковского совокупного процесса {xh, yh}. Для марковского же процесса вследствие условия Маркова, имеем P(xh\x1,... , xh-1y1, ..., уп) = h_1, yk-lt yh,..., yn) (л>/г) Следовательно, формула E.3.8) принимает вид 2. Перейдем к вычислению энтропии «/-процесса и условного процесса для марковского совокупного процесса. Для этого рас- смотрим условную энтропию Я^К... уъ^ —MlnP(yh\ylt ..., ук-л), E.3.11) определяющую согласно E.1 3) в пределе V-bm^K...^ E-3.12) удельную энтропию hv. Пользуясь условием марковости E 2 1), запишем многомер- ное распределение вероятностей Р &,..., gn)=P(gi)n(|1I У... я (%h_u gft), где ^ обозначает пару л;;, у} Применяя формулу обратной вероятности (формулу Бейеса), отсюда получаем х Ilx P(h)nfa, Ы ...я(ЕА_1? \к) Р(Ук\У1> ¦¦¦ ' Ук-г)= Xl_'h . Ъ PFi)n(Ei. Ы- я(Ел-..Е*-1) E.3 13) 122
Следуя теории условных марковских процессов (Стратонович [9]), введем финальные апостериорные вероятности P(xk-i\yi, ¦¦¦, yh-i) = Wk-1(xh-1) = 2 Р (Si) Я (Si. Ы.--П(ЕА_2, S*-l) = **• ••*»-« . E.3.14) 2 P(S)(S E)(g g) При помощи них выражение E.3.13) запишется так: У1, • • • . J/h-i) = 2j ^ь-i(*>t-i) я (%-i. Uk-i> хк, уh) xh-i> xk или Р(Уи\У1, •¦-, Уь-i) =1iWi,_l(x)n(x, iju-i, i/k), E.3.15) х если обозначить 2я (х, г/; х', г/') = я (*, г/; у'), и формула E.3.11) ж' принимает вид Нук \У1... ук_, = - М In Г| Wh-X (х) к (х, yh_i, yk)\ Здесь символ М указывает усреднение по уъ ..., t/u-i, у и- Если же подставить E.3.15) в формулу Hvh\y1...yh-1 = — т1>Р(Ук\У1 Ун-1)^Р(Ук\У1 Ун-i), то будем иметь НУк | Иг- ¦ ¦ .УЛ_! =-- —М 2 [S ^ft-! (-V) Л (Х, yh-{, yh)] X X hi\yiWh-l(x)n(x, y,^; yk) , E.3.16) де символ М обозначает усреднение по уъ ..., yh-i- Удобно рассматривать апостериорные вероятности Wft_1(-) как распределение по обеим переменным (х, у) = I, доопределяя их формулой = У^' E-3.17) 0 при Ч Тогда формула E.3.15) примет вид Р(Ук\У1-Ук-1)=2№ь-1{1)пA, ук) I и равенство E.3.16) можно будет записать )- E-3.18) 123
Здесь, как и в E.3.16), М указывает усреднение по ух, ..., yh-lt но подлежащее усреднению выражение, очевидно, зависит от Ух, ..., yh-x лишь через посредство апостериорных вероятностей №ft_i (•). Поэтому в E.3.18) можно считать, что символ М соот- ветствует усреднению по случайным величинам Wft_i (Ах), ..., Wft-i (Аь), (Ах, ..., AL — пространство состояний процесса \ = = (х, у), L — число его состояний). Вводя закон распределения Р (dWh-x) Для этих случайных величин, придаем формуле E.3.18) вид = - [ р (dwh.x) 2 2 wVi (g) я (i, у') in 2 wk_x (Г) я (Г. ^/')- E.3.19) Это и есть основной результат. Мы видим, что для вычисления условной энтропии части компонент марковского процесса нужно исследовать апостериорные вероятности {Wk (•)} как самостоя- тельный случайный процесс. Этот процесс изучается в теории ус- ловных марковских процессов. Известно, что с ростом k указанные вероятности преобразуются по определенным рекуррентным соот- ношениям. Чтобы вывести последние, запишем равенство, анало- гичное E.3.14), но с заменой k — 1 на k: Wh (xh) = 2 [ 2 P(gl)n(El. I.)-.- n xk-l xh <-xlm • ¦ xh-2 Подставляя сюда E.3.14), получаем рекуррентные соотношения 2 Wft-l^fc-l)!! (Xft-i, г/й-ъ Xh, yh) Wk{xh) = ^ . E.3.20) Процесс{№й (•)}, рассматриваемый как самостоятельный случай- ный процесс, носит название вторичного апостериорного W-npo- цесса. Как известно из теории условных марковских процессов, он является марковским. Рассмотрим его вероятность перехода. Преобразование E.3.20), которое можно также записать , E.3.21) 2П-1(Е)«(Е. ун) I" явно зависит от случайной величины у^. Ее апостериорные вероят- ности Р (Ук\Ух> ¦¦¦> Ук-i) совпадают с E.3.15) и, следовательно, полностью определяются «состоянием» №й_г (•) вторичного апо- стериорного процесса в момент к — 1. Итак, каждое преобразо- 124
вание E.3.21) осуществляется с вероятностью E.3.15). Это значит, что «плотность вероятности» перехода вторичного процесса {Wh} можно записать х2^-1Й>E', Ук). E-3-22) Здесь б (W) — L-мерная дельта-функция, определяемая формулой Она соответствует мере, сосредоточенной в начале координат L-мерного пространства. Итак, мы видим, что энтропия процесса {yh}, немарковского, но являющегося частью марковского процесса, может быть опре- делена методами теории марковских процессов после перехода к вто- ричному апостериорному уже марковскому процессу. В стационар- ном случае обычным способом может быть найдено стационарное распределение РСТ (dW), к которому сходится при k -*¦ оо распре- деление Pk{dW), входящее в E.3.19). Подставляя E.3.19) в E.3.12) и переходя к пределу k ->- оо , получаем удельную энтропию W(®n(l, y)\n^W(l')n{l',y). E.3.23) \ V Затем уже по формуле E.3.4), если нужно, можно найти hx\y. Прежде чем перейти к рассмотрению примера, приведем сле- дующую теорему, имеющую прямое отношение к вышеизложен- ному. Теорема 5.3. Энтропия НУг ... У1\У1 немарковского у-про- цесса совпадает с аналогичной энтропией вторичного апостериор- ного {марковского) процесса: Ну2... уг | ух = Hw2. ..wt\ w±- E.3.24) Следовательно, совпадают и удельные энтропии: hy = hw- Доказательство. Поскольку справедливы равен- ства а также формула E.3.12) и аналогичная формула для {Wh}, то достаточно доказать равенство E.3.25) 125
Здесь Hwh \vt1 . wh_1 = Hwk | wh_1 в силу марковского свойства. Пусть So — некоторая исходная точка пространства значений W(•)• В соответствии с E.3.21) из нее возможны переходы в раз- личные точки S (yh) в зависимости от значения yh (S (yk) — точка с координатами E.3.21)). Эти точки не совпадают при несовпадаю- щих yh. В самом деле, если бы две точки из S (yh), скажем S' = = S (у') и S" = S (у"), совпадали, т. е. имело бы место равен- ство WUx, y) = Wi(x, у), из него можно было бы получить 2>И*,!/)=2Ж(*. </)• E-3.26) X X Но согласно E.3.17) 2 Wk (X, Ij) = ЬиУк = Ьуу; и равенство E.3.26) означало бы совпадение у' = у". Итак, между точками S (yh) и значениями yh можно установить взаимно однозначное соответствие. Поэтому Но при должном выборе точки So = Wh_1 события, стоящие в ус- ловии, совпадают, и после усреднения мы получаем E.3.25). Это завершает доказательство. 3. Пример. Пусть немарковский процесс {yh} есть процесс с двумя состояниями, т. е. yh может принимать одно из двух зна- чений, скажем 1 или 2. Пусть далее его можно превратить в марков- ский, если добавлением переменной х разбить состояние у = 2 на два состояния: \ = 2 и состояние 1 = 3. Именно, g = 2 соот- ветствует х = I, у — 2, ag = 3 соответствует х = 2, у = 2. С со- стоянием у = 1 можно сопоставить, скажем, \ = 1 и х = 1. Совокупный процесс {?ft} = {xh, yk) является стационарным марковским и описывается матрицей перехода l33/ Апостериорные распределения Wh (g) = Wh (x, у) согласно E.3.17) имеют вид (Wh(l=l), Wh& = 2), Wh(l = Z)) = (l, 0, 0) при yh=-\, E.3.27) Wh{\=\), Wh{\-2), ^ft(| = 3))-@, WkB),Wk{3)) при г/,^2. 126
Значению yh = 2 согласно E.3.21) соответствует преобразо- вание B) = h ^Й1 B) (я22 + я23) + Wft _ i C) (я32 + я33) ' E.3.28) WkC)=l-Wh{2). Точку A, 0, 0) трехмерного пространства значений (W A), W B), WC)), соответствующую распределению E.3.27), обозначим So. Исследуем возможные переходы из этой точки. Подставляя значение Wh~x = {\, 0, 0) в E.3.28), получаем переход в точку —^— ; E.3.29) Я12 +Я13 WC)= Щз которую обозначим Sx. Вследствие E.3.18) такой переход осуществ- ляется с вероятностью р1 = я12 + п13. E.3.30) С вероятностью 1 — рг — пп сохраняется пребывание в точке 50. Рассмотрим теперь переходы из точки St. Подставляя значения E.3.29) в качестве WJl^l в формулу E.3.28) при yh = 2, получаем координаты W{2)= Jt12n22+Jti3Jt32 . E.3.31) ^12 (Я22 +з) +3 (Я32 +Я33) W{3) = \-W{2) новой точки 52. Переход из S2 в S2 происходит с вероятностью ^ гт.1 Это выражение получено подстановкой E.3.29) в формулу = Wh^ B) (л,2 + л43) -1- №„_, C) (я32 4 п83), E.3.33) получаемую из E.3.17а). С вероятностью 1—р2 происходит возврат в точку So. Аналогично, подставляя значения E.3.31) в E.3.33), находим вероятность Рз = E.3.34) 127
перехода из S2 в следующую точку S3 и т. д. Описанным способом последовательно вычисляются вероятности перехода ph в следую- щие друг за другом точки Sh. Каждый раз с вероятностью 1 — ph происходит возврат в точку So. Вероятность того, что к моменту к еще не произошел возврат в точку So, очевидно, равна рхр2 ... ph. Если последовательные значения pk не стремятся к единице, то эта вероятность стремится к нулю при А->- оо. Поэтому обычно с вероятностью, равной единице, происходит в итоге возврат в точку So. Если бы в качестве начальной точки была взята какая- либо другая точка So, то происходило бы движение по какой-то другой последовательности точек с последующим переходом (сколь угодно близким к достоверности) в точку So- После такого перехода будет происходить уже описанное выше движение по точкам 50, Si, S2 , ... с вычисленными вероятностями переходов. Описанная выше картина переходов вторичного марковского процесса позволяет легко найти стационарное распределение ве- роятностей. Оно будет сосредоточено в точках 50, Sx, Sit ... . Для этих точек матрица вероятностей перехода имеет вид •1-Pi Pi О О E.3.35) 1—р3 0 0 р3 Учитывая равенства Рст {Sh) = РиРСт (Sft-i)> k — 1» 2, ..., вытекающие из E.2.7), E.3.35), и условие нормировки, находим стационарные вероятности указанных точек k=l,2, ... E.3.36) Для вычисления удельной энтропии E.3.12) остается лишь под- ставить выражения E.3.36) в формулу E.3.37) которая вытекает из E.3.23) или из теоремы 5.3 и формулы E.2.8), примененной к вероятностям перехода E.3.35). В том частном случае, когда значение х не влияет на переходы от одного значения у к другому, имеем л2з + я23 = я32 + п33- E.3.38) Здесь выписана вероятность Р (yh = 2\yh^1 =2, х) = 1 — v (v — вероятность перехода Р (yh — i\yk-i — 2,х)), которая теперь не зависит от х. В этом случае E.3.33) дает = л22 + п23 = 1 —v E.3.39) 128
и из E.3.37) получаем hv = Рст (So) Л, (и) + [ 1 -Per (So)J К (v) (И = Pi = "i2 + л1Я), E.3.40) причем в силу E.3.36), E.3.39) Формула E.3.40) поэтому совпадает с E.2.20), и это естественно, поскольку при выполнении условия E.3.38) процесс {yh} становит- ся марковским сам по себе. В рассмотренном примере стационарные вероятности были сосре- доточены на счетном множестве точек. Применяя терминологию из § 5.2, можно сказать, что активное пространство Еа W-nponecca состояло из точек So, Slt S2, ... и, следовательно, было счетным, хотя полное пространство Еа + Ео представляло собой континуум. Можно ожидать, что и в других случаях дискретных процессов {Xk, Уь) положение такое же, то есть в довольно общем случае ко- нечного или счетного числа состояний совокупного процесса {*&> Ук) стационарное распределение Рс,г (dW) сосредоточено на счетном множестве Еа точек. 5.4. Энтропия гауссовых случайных величин 1. Рассмотрим/ гауссовых случайных величин ?ь ..., \t, кото- рые описываются вектором средних значений М ?ft = mh и не- вырожденной корреляционной матрицей Ru = TA(li — ml)(lj-mj). E.4.1) Как известно, такие случайные величины имеют плотность рас- пределения вероятностей xexp —f yfo-mAand-mM, E.4.2) где ||а^|| = H^ijll^1 — матрица, обратная корреляционной. Чтобы определить энтропию указанных величин, введем вспо- могательную меру v (d\u ..., d%i), удовлетворяющую условию мультипликативности A.7. 9). Для простоты выберем меры у} (dl,j), которым соответствует одинаковая равномерная плотность рас- пределения ^- = v1 = (v0)>/«. E-4.3) Как будет видно из дальнейшего, удобно полагать Vj = Bле)-]/2. E.4.4) 129
При этом v(dlu ... , dl,) = \i1dl1 ... dl, = {2ne)-dlx ... dl,. Учитывая E.4.2), можно видеть, что при постоянной плотности выполнено условие абсолютной непрерывности меры Р относи- тельно меры v. В самом деле, равенство \ {А) = 0 для некоторого множества А, состоящего из точек /-мерного действительного про- странства Rh означает, что /-мерный объем множества А равен нулю. Но для таких множеств вероятность Р (А) также равна нулю. Указанное условие абсолютной непрерывности не было бы выпол- нено, если бы корреляционная матрица E.4.1) была вырожденной. Поэтому условие невырожденности является существенным. При описанном выборе мер случайная энтропия A.6.14) имеет вид i. i Чтобы вычислить энтропию A.6.13) остается произвести усредне- ние этого выражения. Учитывая E.4.1), получаем + — v; auRu=-— 1п2л + 11п\1 + 2 / Т= 1 2 + _Lindetfl«iy|| + -i.. E.4.6)- При выборе E.4.4) имеет место простой результат Нь... Ег=- — lndet|/?iy||. E.4.6а) Матрица R =- }\Rij\\ является симметричной. Поэтому, как из- вестно, существует унитарное преобразование U, приводящее эту матрицу к диагональному виду: Здесь Яг — собственные значения корреляционной матрицы, удов- летворяющие уравнению 2R)hUhr = KU]r. E,4.7) к 130
При помощи этих собственных значений энтропию Н^ g мож- но записать в виде «I, h= v SlnV E-4.8) Этой формуле можно придать также вид #Sl...6/ = -i-SplnR. E.4.8а) Полученный результат позволяет, в частности, легко найти условную энтропию Н% \?t ... t . Используя иерархическое свой- ство энтропии, можно записать и, вычтя одно выражение из другого, получить Каждую из энтропии, входящих в правую часть этого равенства, можно вычислить по формуле E.4.8). Это приводит к соотношению Я? it * = — Splnr<« -Splnr^-1', E.4.9) где / 7?u ... ^i,ft_i \ r'*>=J I, r'*-1'- Аналогичным способом можно вычислить энтропию НЬ*к-г\*1 5А_2 =Hti lk — Hh ih_2 и т. н. 2. Выберем теперь более сложные меры vh(dlk). Именно, поло- жим, что они имеют- плотность распределения Nhqh (|ft), где Яч(\ъ) — гауссова плотность распределения Условие мультипликативности A.7.9) предполагается выполненным. При этом случайная энтропия A.6.14) оказывается равной ^^ + 2(lii)u(j) E.4.10) 2 k >-ft 2 i, i где tV = П Nh. 131
Ее усреднение приводит теперь к соотношению Aft Вводя матрицу R = ||A;,fift,.||n используя матричную форму записи, равенству E.4.11) можно придать вид Hh....h - 1" Л/ + -i-Sp In (R-1 R)- ~ Sp R (R-R) — -(m — mO'R(m — m). E.4.12) Здесь мы учли, что det R — det R - det R"XR; SpR R = ----- Spl -- /; m -- m - матрица-столбец; Т означает транспо- нирование. Сравнивая E.4.12) с A.6.16), нетрудно видеть, что мы нашли тем самым энтропию Н^ ... ,g распределения Р по распреде- лению Q, которая оказалась равной H~JQ... t, --- Sp G (IT1 R) + ~ (m-m)r R^1 (m —m), E,4. 13) где G (x) — (.v— 1 — In x)<2. Последняя формула получена в предположении мультиплика- тивности A.7.9) меры v ((/?(. ..., <!%[), а, следовательно, и Q (d§!, ..., d%). Однако ее нетрудно распространить и на более общий случай. Пусть мера Q является гауссовой и определяется вектором mh = MQ%h и корреляционной матрицей Rhr, необя- зательно диагональной. Энтропия HplQ является инвариантной относительно ортогональных преобразований (и вообще не вырож- денных линейных преобразований) /-мерного действительного про- странства Ri. Совершив преобразование поворота, можно добить- ся того, чтобы матрица R стала диагональной, и после этого при- менить формулу E.4.13). Но формула E.4.13) уже является инва- риантной относительно линейных невырожденных преобразований и поэтому справедлива не только в случае диагональной, но и не- диагональной матрицы R. В самом деле, при линейном преобра- зовании \'k — 2Cftr gr, т. е. %' = С?, имеют место преобразова- ния т' — т' =- С (т — т), R' = CRC3', R' = CRCr и, следо- вательно, (R-1)' ^(C7)-1 R-KZ-MR^R)' = С^1 R-1 RC7'. Поэтому комбинации Sp/ (R-1R) и (m—m)rR-1(m — m) остаются инвариант- ными. Это доказывает, что формула E.4.13) сохраняет свое значе- ние не только в мультипликативном случае A.7.9), но и в более общем случае, когда формулы E.4.8), E.4.9), E.4.10) могут быть несправедливы. 132
3. В заключение этого параграфа вычислим дисперсию энтропии, которую полезно знать при исследовании вопроса об энтропий- ной устойчивости (см. § 1.5) семейства гауссовых случайных ве- личин. Начнем со случайной энтропии E.4.5). Вычитая E.4.6), находим случайное отклонение =--~-цгщ-~~-^-8р1=~-цтац -, E.4.14) средний квадрат которого совпадает с искомой дисперсией. Мы обо- значили r\j — %j — rtij. При усреднении квадрата этого выра- жения нужно принять во внимание, что ЩПЬ. 4rila=/?*.#rs-f RirRbt+RuRkr E.4.15) согласно известным свойствам гауссовых величин. Поэтому будем иметь т. е. Переходя к случайной энтропии E.4.10), имеем - ~ Sp (а - /Г1) R — -L (m - т)Т R -1 ц. Используя, в свою очередь, E.4.15), получаем +¦— (m — m/R^RR^ — m). E.4.17) He представляет особого труда вычислить и другие статисти- ческие характеристики случайной энтропии гауссовых перемен- ных, в частности, ее характеристический потенциал 133
(см. A.5.15), D.1.18)). Так, подставляя сюда E.4.5) и принимая во внимание вид E.4.2) плотности распределения вероятностей, по- лучаем Ио (s) =' , х X Гехр|— si j 'If au 4j\ d\]lt..., </ть = / ' I In det-1/2 [A — s)al + Здесь использована формула Гехр Г—~ 2 Ц-, d,j tJ drj,, - det/2 2л E.4.18) E.4.19) справедливая при любой невырожденной положительно определен- ной матрице \\dtj\\. Поскольку a —R, то в E.3.18) члены с In det~1/2 R сокраща- ются, и мы получаем что справедливо при s< 1. Отсюда можно получить, в частности, формулу E.4.16). 5.5. Энтропия стационарной последовательности. Гауссова последовательность 1. В § 5.1 была рассмотрена энтропия отрезка стационарного процесса {?ft} в дискретном времени, т. е. стационарной последо- вательности. При этом предполагалось, что каждый элемент по- следовательности представляет собой дискретную случайную ве- личину. Данное в § 1.6 обобщение понятия энтропии позволяет рас- смотреть энтропию стационарной последовательности, составлен- ную из произвольных, в том числе непрерывных случайных вели- чин, обобщая тем самым результаты § 5.1. Если вспомогательная мера v удовлетворяет условию мульти- пликативности A.7.9), то, как показано выше, условные энтропии в обобщенной версии обладают всеми свойствами, которыми об- ладали условные энтропии в дискретной версии. Указанные свой- ства (и по существу только они) были существенно использованы при изложении материала в § 5.1. Поэтому все сказанное в § 5.1 может быть отнесено к произвольным случайным величинам, к эн- тропии в обобщенной версии. 134
Мера v предполагается мультипликативной причем из соображений стационарности «элементарные» меры vk предполагаются одинаковыми. Предполагается также, что выпол- нено условие абсолютной непрерывности вероятности Р (d\h) отно- сительно vft (d\h). Процесс {?ft} является стационарным по отноше- нию к распределению Р, т. е. выполнено условие типа E.1.1) при любых къ ..., kr, a. Формулой E.1.3) вводится удельная энтропия Я1. Теперь под Hik\ik_l i , однако, следует понимать энтропию A.7.13), так что указанное определение соответствует формуле Н — fin ^ (^ift I Ife-i. lfe-г»--- ) р i ye it e \ /4 n. o\ ni — — in 7ТГТ r \atfo I gft-j, Sft_2.-" )¦ (o.o.z) J v №) В обобщенной версии также справедлива теорема 5.1, которая доказывается точно так же, как и раньше. Теперь она означает ра- венство tf1=—lim — Г ... (in p(dll-^i) P(dtx...dl,). E.5.3) Далее, по аналогии с E.1.11), E.1.12) может быть введена ве- личина [ЯЕ,...6в-иЯ1]= |] [Я|/+1||/...|1-Я1], E.5.4) П-»ОО j_Q которая неотрицательна, поскольку ^/+i|6/--.l.>'/E/+i|E/6/_i...^^ri- E-5-5) Она может быть интерпретирована как энтропия концов рассмат- риваемого отрезка последовательности. Кроме приведенных выше величин и соотношений, основанных на определении энтропии A.6.13), могут быть рассмотрены анало- гичные величины и соотношения, основанные на определении 1.6.17). Именно, по аналогии с E.5.2), E.5.4) можно ввести X P(dlh\lk-X, lu-i,...), E.5.6) E-5.7) Для энтропии HP/Q, однако, согласно A.7.19) имеет место неравен- ство 135
обратное неравенству E.5.5). Поэтому «этропия конца» Тр1Ч обя- зана быть неположительной. Подставляя выражения типа A.7.13), E.5.2) для условных энтропии, нетрудно убедиться, что разность Н% \^ g —Нъ а следовательно, и граничная энтропия Г оказывается не завися- щей от vft. Аналогично Tp/Q оказывается не зависящей от Q (при выполнении условия мультипликативности), причем справедливо тождество Тр№ = — Г. Это полезно иметь в виду при записи формулы E.1.13) для обеих энтропии, которая принимает вид E.5.7а) Последние соотношения позволяют найти этропию отрезка ста- ционарного процесса точнее, чем простым умножением удельной энтропии Нх на его длину I. 2. Найдем удельную энтропию Нх для случая стационарной гауссовой последовательности. а) Предположим сначала, что задана стационарная последо- вательность ?ь ..., \t на круге, распределение которой инвариант- но относительно вращений круга. При этом элементы корреляцион- ной матрицы Rij будут зависеть лишь от разности / — k и удовлет- ворять условию периодичности: RJh = R}_h, Rj_k + l = R}-h. Уравнение E.4.7) при этом будет иметь решения: ?/,,.-—^е2"'"/', E.5.8) у I ^' г = 0, 1,..., /—1. E.5.9) s = 0 В самом деле, подставляя E.5.8) в E.4.7), получаем равенство 2 Ri-н z2nikr/l = К е2""'"', k которое удовлетворяется в силу E.5.9). Итак E.5.8) определяет преобразование, которое диагонализует корреляционную матрицу Rj _ k. Легко проверить его унитарность. В самом деле, эрмитово- сопряженный оператор вследствие ]1авеиств I JU I ?i I 1— 8 r-l r=0 совпадает с обратным оператором U. 136
После вычисления собственных значений E.5.9) для получения энтропии Я^ 5г остается воспользоваться формулой E.4.8). В рассматриваемом случае инвариантности относительно пово- ротов легко вычислить также энтропию E.4.13). Предполагается, конечно, что описанной симметрией («круговой стационарностью») обладает не только мера Р, но и мера Q. Корреляционная матрица Rjk /последней обладает, следовательно, теми же свойствами, что и Rjh. Кроме того, для обеих мер средние значения mk, mk постоян- ны (соответственно равны т и in). Унитарное преобразование U = || Ujr \\ диагонализирует не только матрицу R, но и матрицу R (даже, если условие мульти- пликативности не выполнено), причем по аналогии с E.5.9) ее средние значения имеют вид '—' ~ %г•= 2 'Rae~'2}llsr"> л=1,...,/-1. E.5.10) s=0 Вектор m — m при этом преобразовании переходит в вектор i i .2. U+(m-m)=—[— В результате в соответствии с формулой E.4.13) будем иметь fi 1^ EЛ1) где G(x) = — (х— 1— \пх). Для энтропии, отнесенной к одному элементу последователь- ности, согласно E.4.8), E.5.11) получаем k'?nK' E-5л2) = -t-y In f-^^l -Ь-L («~^),, E.5.13) 137
б) Пусть теперь |1; ..., |, составляют отрезок стационарной по- следовательности, так что Rjk = Rj-h, j, k ~ I, ...,/, но условие периодичности Rj _ h + x = Rj _ k не выполняется. Тогда каждый из концов отрезка играет некоторую роль и дает свой вклад Г в суммарную энтропию E.5.7а). Если этим вкладом пренебречь, то можно соединить концы отрезка и перейти к разобранному ранее случаю круговой симметрии. При этом нужно образовать новую корреляционную функцию Rj,j+s = Rs= 2 Я.+/ч. E.5.14) 11 = —оо которая уже обладает свойством периодичности. Если Rs заметно отличны от нуля лишь при || s || «i l, то добавочные члены в E.5.14) заметно повлияют лишь на небольшое число элементов корреля- ционной матрицы Rjk, стоящих в углах, где / ^ч /, / — k \ I или / — /«/, k « /. После перехода к корреляционной матрице E.5.14) (и, если нуж- но, после аналогичного перехода для второй матрицы R) можно воспользоваться полученными ранее формулами E.5.12), E.5.13), E.5.9), E.5.10). Учитывая E.5.9), для собственных значений теперь будем иметь К= 2 '2 Ъше~2п""" = 2 0 п- сю s = или hr — ф (г/1), если ввести обозначение 2 Лое-2Я'|". E.5.15) а= — ° Аналогично Формулы E.5.12), E.5.13), очевидно, примут вид г Будем теперь увеличивать длину / выбранного отрезка После- довательности. Совершая в последних формулах предельный пере- ход I -*~ оо, получаем вместо сумм интегралы 1 1/2 tf^-l-fliKpdi)^--^ j" 1пф((А)ф, E.5.17) i) ~*1/2 138
4Щ t, + J- (m~m ф (и) / 2 ф @) 2ф@) E.5.18) Здесь при изменении пределов интегрирования учтено свойство Ф ((* + 1) = ф (|*), вытекающее из E.5.15). При больших / концы отрезка дают относительно малый вклад по сравнению с большой полной энтропией, имеющей порядок 1НХ. Переход E.5.14) к корреляционной функции Rs изменяет энтропию Я| it на некоторое число, не возрастающее с ро- стом /. Поэтому имеет место совпадение пределов lim — //>•., Е =Iim_L // Здесь Н соответствует корреляционной функции Rs, a H—функ- ции Rs. Следовательно, выражения E.5.17), E.5.18) совпадают с определенными ранее удельными энтропиями E.5.3), E.5.6). Тем самым мы вычислили удельные энтропии для случая стацио- нарных гауссовых последовательностей. Они оказались выражен- ными через спектральные плотности ср (fi), ср ((*). Условие абсолютной непрерывности меры Р относительно ме- ры Q принимает вид условия интегрируемости функции С(ф(|*)Лр([л)), входящей в E.5.18). Формула E.5.18) справедлива не только при выполнении усло- вия мультипликативности E.5.1). Для стационарного гауссового случая это условие означает, что матрица Rjh кратна единичной: Rjk ~— фб,Л, ср (fi) — ф = const. Тогда формула E.5.18) дает Приведенные результаты обобщаются и на тот случай, ког- да имеется не одна случайная последовательность {..., |1( ?2. •••}> а несколько (г) стационарных и стационарно связанных последо- вательностей {..., Щ, Щ. ...}, а = 1, ..., г, описываемых корреля- ционной матрицей |Un||, а,р=1 г или матрицей спектральных функций ф (ц) = || фаР ([i) ||, фа|3(ц) == оо Ra е~2ш^а и вектором-столбцом (по индексу а) средних значений m = II та 139
При этом формула E.5.17) заменяется на матричное обобщение 1/2 1/2 #i = Y J Sp[ln<pOi)jdji = -I- J In [detV(fi)]dfi. E.5.19) — 1/2 — 1/2 Мера Q пусть описывается матрицей спектральных функций ср (|*) = || сраР (fi) || и средних значений m - || та ||. Тогда, вместо E.5.18), будем иметь аналогичную матричную формулу //*/«= f SpG(?-1(fA)cp(fA))^+^-(m-rb)^-1(O)(m~m). -1/2 E.5.20) Приведенные результаты, разумеется, вытекают из формул E.4.6а), E.4.13). По виду же они представляют собой синтез формул E.4.6а), E.4.13) и E.5.17), E.5.18). 3. Полученные результаты позволяют сделать заключение об энтропийной устойчивости (см. § 1.5) семейства случайных величин {?'}, где \1 = {%ъ ..., ?,}— отрезок стационарной гауссовой по- следовательности. Энтропия #|х g; растет с ростом / прибли- зительно линейно. Дисперсия энтропии согласно E.4.16) также ра- стет линейно. Поэтому отношение D Н (?ь ..., ?;)///§ | стремится к нулю, так что условие A.5.8) энтропийной устойчи- вости для энтропии E.4.5) оказывается выполненным. Перейдем к энтропии E.4.10). Условия DH(h,-,li) , о Pffp/q(Ei,-, li) , Q для нее будут выполнены, если дисперсия DH (|1э ..., |,) — — DHp/u (|1( ..., ?,), определяемая формулой E.4.17), возрастает с ростом / приблизительно линейно, т. е. если существует конечный предел Di-limJ-D//''/^,..., у. E.5.21) Для вычисления предела E.5.21) выражения E.4.17) можно применить те же методы, какие были использованы для вычисления предела lim -r- H^/Q..,, 5,. соответствующего выражению E.4.13). Подобно тому, как из E.4.13) мы получили E.5.18), из формулы E.4.17) находим предел E.5.21) + (/л-"J(Р@) . E.5.22) 2 J/2 L ФОО J 4Ф2@) 140
5.6. Энтропия случайных процессов в непрерывном времени. Общие понятия и соотношения I. Обобщенное определение энтропии, данное в гл. Б, позво- ляет вычислять энтропию случайных процессов {?,}, зависящих от непрерывного параметра / (времени). Будем предполагать, что процесс \t задан на некотором интервале а ^ t ^ Ь. Для произ- вольного подынтервала а <! t <! р, принадлежащего интервалу определения процесса, будем пользоваться обозначением |„ = = {%ь а^/<;р}. Следовательно, ?« обозначает совокупность значений процесса {|(} на подынтервале [a, pi.- Исходный процесс {?,} описывается вероятностной мерой Р. В соответствии с определением энтропии, данным в § 1:6, чтобы определить энтропию' #gp для любых различных интервалов [а, р], нужно ввести вспомогательную ненормированную меру v или со- ответствующую ей вероятностную меру Q. Мера v (или Q) должна быть определена на том же измеримом пространстве, т. е. на том же поле событий, касающихся поведения процесса | (f) на всем ин- тервале [а, Ь]. При этом процесс {? (t)}, имеющий вероятности Q, можно интерпретировать как новый вспомогательный случайный процесс {ц (t)}, отличающийся от исходного процесса {? (t)}. Мера Р должна быть абсолютно непрерывна относительно меры Q (или v) для всего поля событий, относящихся к поведению про- цесса | (t) на всем интервале определения [а, Ь]. Следовательно, условие абсолютной непрерывности будет выполнено и для любого его подынтервала [a, pi. Применяя формулу A.6.17) для значений случайного процесса на некотором выбранном подынтервале la, pi, получаем следующее определение энтропии для этого подынтервала: р(аф- E.6.1) Далее в соответствии с содержанием § 1.7 (см. A.7.17)) можно вве- сти условную энтропию = ('in Р(^1^ P{dlUtv), E.6.2) где \у, 8] —другой подынтервал, не перекрывающийся с 1а, р]. Введенные энтропии подчиняются обычным соотношениям, встре- чающимся в дискретной версии, например, соотношению аддитив- ности -H%Q+H^?p , o<p<fi. E.6.3) 141
При записи формул E.6.2), E.6.3) предполагается, что меры Q, v удовлетворяют условию мультипликативности Q {d& 4v) - Q (dg2)Q W. v (dSS О = Vl (rfgg) v2 (d#) E-6-4) ([a, p] не перекрывается с [у, б]), которое аналогично A.7.8). Приведенлое условие мультипликативности для меры Q означает, что вспомогательный процесс {x\t} таков, что его значения |„ и ?$ для неперекрывающихся интервалов [а, [3], [у, б] должны быть независимыми. Условие мультипликативности для меры v означает кроме того, что постоянные определяются некоторой возрастающей функцией F (t) по формуле A/^ = eF(P)~/r(«). E.6.5) В случае стационарного процесса функция F (t) линейна, так что Учитывая E.6.5), безусловную энтропию типа A.6.16) и ус- ловную энтропию типа A.7.4) можно определить по формулам //tS=f(fl)-f(o)-W7e, E.6.6) Я В .b=F{$)-F{a)-Hptfb, E.6.7) где стоящие справа величины определены соотношениями E.6.1), E.6.2). 2. В дальнейшем будем рассматривать стационарный случай- ный процесс {\t}, определенный при всех /. В этом случае вспо- могательный процесс {iii} естественно выбирать также стационар- ным. Ввиду того, что энтропия в обобщенной версии при выпол- нении условия мультипликативности обладает теми же свойст- вами, что и энтропия в дискретной версии, на рассматриваемый случай непрерывного времени могут быть перенесены рассуждения и результаты, изложенные в §5.1, 5.5 применительно к стацио- нарному процессу в дискретном времени. Вследствие обычных общих свойств энтропии условная энтро- пия Н,х | t° (ст > 0) монотонно не возрастает с ростом ст. Отсюда вытекает существование предела lim#tj =яьт ,о , E.6.8) который мы определяем как Н т о 142
Поскольку в силу общего свойства A.7.3) ,0 — Н*Vi I .0 * — а *0 S-c E.6.9) а в силу условия стационарности to, переходя в E.6.9) к пределу а-> оо, получаем s0 ь— ее «О* *--« Следовательно, условная энтропия Я,т i .о линейно зависит от т. S 0 | & — оо Соответствующий коэффициент пропорциональности определяем как удельную энтропию: E,6.10) Ь0|ь-оо Аналогом теоремы 5.1 в непрерывной версии будет следующая теорема. Теорема 5.4. Если энтропия H*t конечная, то удельную энтропию E.6.10) можно вычислять предельным переходом Л=Ит —Я , t У IX) / V> q E.6.11) Доказательство проводится тем же методом, что и до- казательство теоремы 5.1. Пользуясь свойством аддитивности A.7.4а), представим энтропию Н%t в виде ! + ИгвЛ2. Вследствие E.6.8), E.6.10) имеем E.6.12) E.6.13) где Oo+ft A) стремится к 0 при а -^ оо. Подставляя E.6.13) в E.6.12), получаем , ll.t — , и „с t i0 0 + я ic -*—оа{\). E.6.14) Устремим здесь а и п к бесконечности, но так, чтобы п/а —*¦ оо. Поскольку Н.о^-Н^+Н^ и+....+Я,в Кт_,</пЯ I (т-\а] + 1), ¦ 1 I so 143
то при этом член Я?О^—цг~^е1 будет стремиться к 0. Член —I—ос (I) также будет стремиться к 0, а —;—h — к h, поскольку О -j- tl О -J- tl п/{а + п) -*¦ 1. Следовательно, из E.6.14) получим требуемое со- отношение E.6.11). Доказательство закончено. На случай непрерывного времени обобщаются и те высказывания \и § 5.1, которые касаются граничной энтропии Г. По аналогии с E.1.10) ее можно определить по формуле 2i"= lim (Нк<у-\- Я,, — //^(Н-тЛ О-> сю , т —» оо I ^q ^q Sq f E.6.15) и представить в виде Т=±-[(Н^ бо -АЛ), E.6.16) "о "° ~г аналогичном E.1.12). При помощи величин h, Г энтропия Н^ конечного отрезка ста- ционарного процесса выражается по формуле Ht =th-\ 2Vi nt(\). E.6.17) Из определения E.6.15) граничной энтропии Г, если учесть E.6.1), нетрудно усмотреть, что она не зависит от выбора меры Q или v подобно тому, как это было в § 5.4. Для энтропии Нр№ при выполнении условия мультипликатив- ности по аналогии с E.6.17) будет справедлива формула //7°=/й''/<г_2Г-| о,A), E.6.18) где Г — та же величина, что и в E.6.17). 5.7. Энтропия гауссового процесса в непрерывном времени 1. Гауссов случайный процесс \ (/) при непрерывном времени i (a < t < b), подобно случайным величинам, рассмотренным в § 5.4, характеризуется вектором средних значений М | (t) = = т (t) и корреляционной матрицей R (t, t') = M [g (t) — — т (t)\ l| (/') — m (/')]. Разница лишь в том, что теперь вектор представляет собой заданную на интервале [а, Ь] функцию от t, тогда как в § 5.4 вектор состоял из / компонент. Матрица (скажем, R) 144
теперь является функцией двух переменных t, t', определяющей линейное преобразование y(t)=<JR(t,t')x(t')dt' {t?[a,b\) вектора х (I). На этот случай, как известно, могут быть перенесены все основные результаты теории конечномерных векторов. При этом требуется произвести такое тривиальное видоизменение фор- мул, как замена суммы на интеграл и т. и. С описанными видоизме- нениями на случай непрерывного времени могут быть распростра- нены изложенные в § 5.4 методы вычисления энтропии. Результи- рующие матричные формулы E.4.8а), E.4.13) сохраняют свое зна- чение при новом понимании матриц и векторов. Разумеется, указанные выражения теперь не обязаны быть ко- нечными. Условие их конечности связано с условием абсолютной непрерывности меры Р относительно меры v или Q. При обобщенном понимании векторов и матриц формулы E.4.8а), E.4.13) справедливы как для конечных, так и для бесконечных интервалов [а, Ь) определения процесса для стационарного и для нестационарного случаев. В дальнейшем мы ограничимся рассмот- рением стационарных процессов и вычислим для них удельные эн- тропии h, hpl4. Для этой цели может быть применен прием, использованный в п. 2 § 5.5, заключающийся в переходе к периодическому ста- ционарному процессу. Рассматривая на интервале [О, Т] процесс, имеющий корреляционную функцию R (t, f) = R (t — t'), можно сконструировать новую корреляционную функцию E.7.1) которая помимо стационарности будет обладать еще свойством пе- риодичности. Формула E.7.1) аналогична формуле E.5.14). Та- кую корреляционную функцию имеет процесс в пределе при N ->• оо. Стационарная периодическая матрица R (t—f) типа E.7.1) лиагонализуется унитарным преобразованием U, имеющим матрицу У,,-—L_e?«"'/r teiO.T], r--..., —1,0, 1,2,... 145
При этом собственные значения л матрицы R (t — t") оказывают- ся такими: г j о Если учесть E.7.1), то отсюда будем иметь кг= Г e-2Ww/f/?(T)dT^SBrt-^^, E.7.2) — со где через S (со) обозначена спектральная плотность e-'««/?(T)dT = S( —й) E.7.3) процесса I (t). Подставляя E.7.2) в E.4.8а), получаем Перейдем к энтропии Н^т®, которая находится по формуле E.4.13). Эту формулу удобно применить после диагонализации мат- риц R (t — О. Т* С — О- Тогда E.7.5) где %r-^'sBn — \ S= Г e-imR(T)d.T E.7.6) — со по аналогии с E.7.2), E.7.3). Второй член в правой части E.4.13) после диагонализации примет вид — (mT—mr) R (m —й) = с+U-1 R" Uc- = SV~'cr (c = U+(m—m)). E.7.7) Поскольку 1 \т — rrij при то из E.4.13) вследствие E.7.5), E.7.7) будем иметь cr=[Utr[m(t)-m(t)]dt = { VT{m-m) при r = 0, J I 0 при гфО S@) 146 E78)
Сумма по г в правой части E.7.8) содержит бесконечное число членов. Чтобы ряд сходился к конечному пределу, необходимо чтобы отношение S Bnr/T)/S Bnr/T) стремилось к 1 при \г\ -*¦ оо, так как функция G (х) = (х — 1 — In x)/2 обращается в нуль (в области положительных значений х) лишь при х— 1. Вблизи точки х = 1 функция ведет себя так: G() ( Поэтому при выполнении условий ^ SBnr/T) K ' энтропия E.7.8) оказывается конечной, что свидетельствует об абсолютной непрерывности меры Р относительно Q. 2. Перейдем к вычислению удельной энтропии для стационар- ного процесса, заданного на бесконечной временной оси. Посколь- ку замена E.7.1)- корреляционной функции оказывает существенное влияние лишь на граничные эффекты, то энтропии E.7.4), E.7.8) отличаются от энтропии, соответствующих корреляционной функ- ции R (х) величиной порядка 1, а не порядка Т > 1. Поэтому най- денные выражения-E.7.4), E.7.8) можно использовать для вычис- ления удельной энтропии h-= lim —Hrr = lim — H •/• У -> ос Т S о Т ->¦ сю Т i о ' 7'->ОО 7 ?q Т-ЮО Т Sq Итак, в полученных формулах следует совершить предельный переход Т ->¦ се . При этом суммы по г' обратятся в интеграл. Из E.7.4) будем иметь 1 ! 1 • VI i о / ZI" \ ¦?"¦ 1 Г 1 о / \ j /г- -г 1 л\ Л = lim > nS = —\ lnS((o)dco, E.7.10) 4л г^оо ^ { Т j Т 4л J V ^ ' V 7 Г = — со — ос а E.7.8) даст 2л J VS(cd)/ S@) (o+("~;")a ¦ E.7Л1) S@) V У 0 Эти результаты можно получить также из формул E.5.17), E,5.18), определяющих удельную энтропию стационарных после- 147
довательностей как предельный результат при неограниченном уплотнении точек на временной оси. Выбрав точки th = kA из стационарного гауссова процесса в непрерывном времени t, можно получить стационарную гауссову последовательность {? (th)}, которая будет иметь корреляционную матрицу Rjh= Я ((/-Л) А) и те же средние значения т. Сравнивая формулу E.5.15) с E.7.3), нетрудно видеть, что соД \ . °° °? G — — оо — оо т. е. функции ср (ц), 5 (со) связаны между собой соотношением Ф (ji) А — 5 (со) 4 Од A) при [А=соД/2я, [со[ —-1. E.7.12) Относя энтропию не к одному элементу последовательности, а к единице времени, имеем h^WmHjA, hp'Q = lim Hl['QlA. Д-юо Д-^-0 Подставляя сюда E.5.17), E.5.18) при учете равенства E.7.12) и аналогичного равенства для ф, S, получаем я/А h-= — lim f [ — In A 4-In 5 (со)] dto, E.7.13) 4л. д->о J —я/Д E.7.14) fG[4fi,4 2я J V S (со) / 2 S @) — oo Формула E.7.14) совпадает с E.7.11), a E.7.13) отличается от E.7.10) членом —In А, который может быть отнесен к соответ- ствующим образом подобранной мере v. Пользуясь свободой вы- бора меры v, можно представить формулы E.7.10), E.7. 13) в дру- гой, более удобной форме. Предположим, что спектральная плот- ность S (со) стремится при со —>- оо к конечному отличному от нуля пределу S(oo)=, lim 5 (со). I @ |->оо Учитывая, что согласно E.7.12) ср (ц) А = 5 Bя[г/А) 4- одA), будем иметь, следовательно, что при фиксированном ц в процессе предельного перехода А -> 0 значение ф(ц)А будет стремиться к 5 (оо). Это предельное значение целесообразно выделить, запи- сав формулу E.5.16) в виде 1 2 А 2/ г**0 5(оо) 148 E.7
Определим теперь меру v не формулой E.4.4), а формулой 1/г. E.7.16) Тогда первый член в E.7.15) будет отнесен к мере v и вместо E.7.15) будем иметь J'JPM* E.7.17) tfl yin. 1 2/ ?d S (со) Соответственно этому формула E.5.17) заменится формулой 1/2 Я, =— \ n YVt^—аи, -1/2 а из последней по аналогии с E.7.13) получим 4я с» fi,,AMd(o. E.7.18) J S(x)) Здесь подынтегральное выражение стремится к нулю при |со| —>- оо. Поскольку In A + у) = у — у + .... то интеграл в E.7.18) схо- дится, если оо оо I —у__1 \2iL db)<i оо, \ — 1 с/со < оо E.7.19) J S(=o) JLS(^) J с с (с — некоторое число). Таким образом, мы получаем для удельной энтропии h конечное значение, если выполняется-условие E.7.19) и все особенности спектральной плотности (где она обращается в бесконечность или нуль) являются логарифмически интегрируе- мыми, как, например, нули и полюса вида S(u))_|(O — Wl|', |Г|<ОО. При выполнении этих условий мера Р является абсолютно непре- рывной относительно специальным образом сконструированной меры v, определенной соотношением E.7.16) и условием мульти- пликативности. Условие сходимости другого интеграла E.7.11) в верхнем пре- деле имеет вид °°'Г S(«) ,12 а ^ /с т m \ 1 —1 dco<oo, E.7.19а) S «о) с аналогичный E.7.9). Оно является необходимым условием аб- солютной непрерывности меры Р относительно Q. 149
Если для меры Q выполнено условие мультипликативности то (в стационарном случае) ее корреляционная матрица должна быть кратна единичной матрице, а спектральная плотность посто- янна; S (со) = 5. Для абсолютной непрерывности необходимо равенство 5 (оо) = S (оо), следовательно, S (со) = S (оо). Под- ставляя это значение в E.7.11), получаем при совпадающих средних формулу ^ (() { )/). E.7.20) — оо Сходство последней с E.7.18) является очевидным, различие за- ключается лишь в выборе подынтегральной функции. Пример 1. Пусть имеется стационарный гауссов процесс со спектральной плотностью о/ \ о CO2-fv2 5 (со) = 50 ¦ co2-f[52 Вычислим для него удельные энтропии. Поскольку 5 (оо) = 50, то в соответствии с E.7.18) имеем о Применяя далее формулу E.7.20), находим 2я J V со2 + Р2 ' 2я о 6 = х1^~""л ~"ЖG~РJ" E'7'21) Граничная энтропия Г, входящая в соотношения E.6.17), E.6.18), может быть вычислена методом, который предложен Стратонови- чем [61. Для данного примера она оказывается такой: Пример 2. Пусть теперь рассматриваемый процесс имеет спек- тральную плотность 5 (со) = S0/(co2 + Р2)- Тогда применение формулы E.7.18) не дает конечного результата. Чтобы получить конечную удельную энтропию по формуле E.7.14), нужно подо- брать подходящую спектральную плотность S (со). Положим S(co) = S0/o32. E.7.22) 150
Тогда интеграл в E.7.14) сведется к интегралам, стоящим в E.7.21) (при у = 0), и мы будем иметь $/4. E.7.23) При выборе спектральной плотности E.7.22) мера Q, описывающая случайный процесс ц (t), не удовлетворяет условию мультиплика- тивности. Однако это условие будет выполнено для производной г] (t) = dr\ (i)ldt, так как последняя будет иметь равномерную спектральную плотность So. При переходе к произЁодной -п (/) процесс % (t) также нужно заменить на его производную | ((). Мож- но считать поэтому, что результат E.7.23) согласуется с условием мультипликативности. .3. Для стационарного гауссового процесса, как и для гауссовой последовательности (см. § 5.4., п. 3), из линейного роста диспер- сии DH (%70) с ростом Т при условии линейного нарастания средней энтропии Н*т вытекает выполнение условия энтропийной устойчи- во вости A.5.8). Поэтому в случае ненулевой конечной удельной эн- тропии h для доказательства энтропийной устойчивости следует проверить конечность предела Do = lim ± Чтобы его вычислить, нужно применить формулу E.4.17). Диаго- нализуя входящие в нее матрицы, нетрудно получить (подобно тому, как из E.4.13) было получено выражение E.7.14)) следующее равенство: J f [JM lW (mjJS@) . E.7.24) 2я J |_ S (со) J 4§2 @) Оно является обобщением на случай непрерывного времени равен- ства E.5.22). Условие конечности интеграла в E.7.24), очевидно, связано с указанным ранее условием E.7.19а). Таким образом, ус- ловие энтропийной устойчивости для гауссовых мер оказывается тесно связанным с условием абсолютной непрерывности меры Р относительно Q. Вышеизложенное может быть обобщено и на случай несколь- ких стационарных и стационарно связанных процессов {?а (t)}, Которые характеризуются столбцом средних значений m = ||ma|| и матрицей спектральных плотностей S (а) = !|S«P (со) |, SaP(co)^ J е-'«« X — оо X M[|a (t) — ma] №(t-\-T) — mP] (It. 151
Так, если мера Q описывается матрицами m, S (со), то формула, обобщающая формулу E.7.14), имеет вид = J_ Г SpG(S-1(coM((o))d(o+ 2я J -I- ^-(mr^mOSfO)-1 (m — m). E.7.25) Очевидна аналогия этой формулы с E.5.20). 5.8. Энтропия точечного случайного процесса Рассмотрим точечный случайный процесс на интервале а ^ t ^ b, представляющий собой совокупность случайных то- чек, положение и число которых случайно. Иногда подобный про- цесс называют «случайным потоком», однако, этот термин нам представляется неудачным, поскольку слово «поток» естествен- нее употреблять в другом смысле, связывая его с движением в про- странстве, подобно тому, как это делается в физике. Обозначим через п число выпавших точек, а через т1 т„ места их выпадения (так что все тг ? [а, Ь\). Будем предполагать, что величины т1( ..., т„ пронумерованы в порядке неубывания: Ti ^ тг ^ •¦• ^ тн- Совпадение т; = т,-, 1ф\ предполагаем име- ющим нулевую вероятность. 1. Для описанного процесса мера Р характеризуется заданием вероятностей Р(п) = Р„ E.8.1) и системы плотностей распределения р(т,|1), р(т1? тя|2) E.8.2) удовлетворяющих условию нормировки ь ь ь ь JdxjJdr^dxB... J dinp{i1, ..., х„[я) = 1. E.8.3) а х, X, хп_1 Требуется определить энтропию данного точечного процесса. Вероятности E.8.1) и плотности E.8.3) определяют вероятность !, ..., AJ E.8.4) того, что первая точка тг из п последовательных случайных точек тх < ... < т„ попадет в интервал [?,, /, -\- Дг], вторая — в ин- тервал [t&, /2 -+ А2] и т. д., последняя — в интервал Un, tn -f- A2] 152
при условии, что в других местах интервала [а, Ь] не выпадет ни одной случайной точки. Простейшей системой случайных точек является пуассоновская система, для которой 'пК.-,тп) = н!р(т1)...р(тп)/ р(/)А . E.8.5) Здесь P (т) — средняя плотность точек, которая в стационарном случае постоянна. Рассмотрение случайных точек хг, ..., т„ эквивалентно рассмот- рению случайного процесса Выпадение случайных точек на неперекрывающихся интер- валах [а, р], [у, б] для пуассоновского процесса является взаимно независимым (или-, иначе говоря, ?? независимы от |6). Поэтому для выполнения условия мультипликативности E.6.4) удобно брать энтропию точечного процесса, определенную в соответствии с A.6.16), A.6.17), выбирая меру Q, соответствующую пуассонов- скому процессу. Будем полагать для простоты, что мере Q соответ- ствует постоянная пуассоновская плотность р. В соответствии с E.8.5) для отношения элементарных вероят- ностей типа E.8.4) в стационарном случае будем иметь dP _PnPn(tu .... tn) dQ р«е-Э(б-а) ¦ Поэтому энтропия A.6.17) будет определяться формулой n=0 a - n )pn(^i.-, /„)?-»]*!...*„. E.8.6) Выделяя р из-под знака логарифма, это выражение, очевидно, мож- но записать в виде tf^Q = (P-l)r-lnpMn + tf^Ql (T = b-a), E.8.7) со S PnPn{tl tn)K t b >An\^PnPn{h '„Pi-*»- E-8-8) — энтропия, соответствующая пуассоновской мере Qx с единичной плотностью. 153
Из энтропии E.8.8) можно выделить энтропию Нп случайного числа точек Н — — v Р \\\Р E.8.9) представив E.8.8) в форме HP,Q, = HPIQ,H lb lb\n " и а< где '" n=0 a it ' . .. tn- b X\r\\eTpn{tx, ..., /„)]*!...<. E.8.10) Вследствие общих свойств энтропии выражения E.8.6), E.8.8) — E.8.10) всегда неотрицательны. Возьмем для примера пуассоновскую систему точек с постоян- ной плотностью у. Тогда в силу E.8.5), E.8.8) будем иметь HP/bQi = Mln(er~yl уп)^уТ\пу + {\ — у)Т, E.8.11) поскольку Ми = уТ. Далее из E.8.7) получаем P'Q fl) + VF-a)b-^-- E-8.12) Поделив этот результат на Ь — а, найдем удельную энтропию од- ной пуассоновской меры по другой: Энтропии E.8.11), E.8.12) пропорциональны b — а вследствие того, что пуассоновские процессы являются процессами с неза- висимыми значениями. Более сложно зависят от длины интервала энтропии E.8.9), E.8.10). Вводя функцию 00 yll S(x)=-e~x V —Inn!, эти выражения для пуассоновской меры Р можно записать Я„ =- уТ[1-Ы (уТ)\ + S(yT), Hl''Ql =T + S (yT)-yT In T. s0 I" 2. Приведенные выше формулы основывались на определении A.6.17) энтропии одной вероятностной меры по другой. Можно перейти к энтропии A.6.13), A.6.16), соответствующей ненорми- рованной мере v. Эта мера будет удовлетворять условию мульти- 154
нликагивности, если будет пропорциональна пуассоновской ве ро'ятностной мере Q. Согласно сказанному в § 1.6 обобщенную энтропию A.6.16) можно интерпретировать как предельный случай энтропии дискрет- ной версии, в которой число возможных исходов является конеч- ным или счетным. Чтобы перейти от случая непрерывного времени t к дискретному случаю, разобьем рассматриваемый интервал на конечное число элементарных интервалов I/,',, /,'„_к) и вместо ин- тервала [а, /;] будем рассматривать множество Z точек t'o — a; t[, ..., i,\/-u I'n = b. Точечный процесс на Z определим так: пусть %' (t'm) = 1, если на интервал 1С г'т+л) попадает хотя бы одна точка т,, и %' (t'm) = 0 в противном случае. Имел в виду рас- смотреть в дальнейшем стационарный процесс, будем полагать раз- биение равномерным: tmn— t'n = A, m = 0, 1 #—1 (N = (b~a)li\). Вероятность выпадения на элементарном интервале больше одной точки предполагается величиной порядка Д2, т. е. высшего порядка малости. Тогда при достаточно большом N число п случай- ных точек, выпавших в [а, Ь] с вероятностью, близкой к единице, Л'—1 не будет отличаться от числа точек п' = 2i' W). выпавших в Z. Точечный процесс на Z является дискретным процессом, име- ющим в общей сложности 2V различных реализаций. Событие п' -= 0 реализуется одним способом. Событие п' - I реализуется N различными способами, т. е. включает yV различных реализаций. Событие п' —- 2 состоит из N (N — 1)/2 различных реализаций и т. д. Вводя как в § 1.6 меру, указывающую число различных реализаций, имеем ... , v(n')=N\/n'\(N — n')\ , ... Причем П' =0 Нетрудно подсчитать также число реализаций того события, что Tj попадет в интервал Мъ tx + А^, в то же время т2 попадает в интервал U2, t2 + А2) и т. д., т„ попадет в интервал [tn, tn + + А„). В предположении, что Лй )>> А, п <^ N, число таких ре- ализаций равно 155
Напомним, что вероятность такого множества задается формулой E.8.4). Поскольку то применяя формулы A.6.5), A.6.6), получаем Hv «-vpn Pn (/, tn) In \Р„ р„ (/,, ... , /„) Д. Вынося Л из-под знака логарифма, полученный результат можно выразить через энтропию E.8.8): Нъ. «in — Mn + b—a— HPJbQ\ E.8.13) Это обосновывает введение энтропии HlIQl меры Р относительно нуассоновской меры Qt. Если разбиение интервала [а, Ь\ произ- водить не равномерным образом, а согласно соотношению tm+1 — — tm = Р (tm)A, то энтропия #g< по аналогии с E.8.13) будет выра- жаться через энтропию H%IQ меры Р по пуассоновской мере Q, име- Р() ющей неравномерную плотность 3. В случае стационарного точечного процесса можно рассмат- ривать удельную энтропию, приходящуюся в среднем на единицу времени. Укажем два способа ее вычисления. 1) В соответствии с теоремой 5.2 ее можно вычислять по формуле E.6.11). Имея в виду применить эту формулу, исследуем поведение энтропии E.8.8), E.8.10) при больших п. В случае стационарного процесса среднее число точек Ми == п пропорционально длине интервала b — а = Т. Для эргодического процесса, кроме того, зависимость дисперсии Dn от Т при больших п, как правило, приближается к линейной: и случайная величина п подчиняется центральной предельной тео- реме. Вероятность неравенства п0 ^ п ^ п0 + AN при больших п может быть вычислена при помощи гауссового распределения: АР я* 1_^-е"(~"J/2Р"ЛУУ (AyV2<<Dn), E.8.14) ~]/2nDn где AN имеет тот же смысл, что и в A.6.4а). Это позволяет вы- числить Нп приближенно как энтропию гауссовой переменной. Из E.8.14) имеем Н(п) =- —1пР„« — In—^ — lnBnD«)+ ("~ ^ , v ; " Д/V 2 V 2D,j E.8.15) 156
что является частным случаем формулы E.4.5). Усредняя E.8.15), находим Нп да — In 2ne Dn да — In BneD0T). Из найденной зависимости следует, в частности, исчезновение пре- дела lim — Н„ =0. Гц Это означает, что вклад энтропии Нп в удельную энтропию E.6.11) сводится к нулю. На удельную энтропию, следовательно, оказывает влияние лишь энтропия E.8.10): ^. E 8.16) Вводя обозначение $ <j Pn(tlt ...,gx х ln[eTpn(ti, -, tn)]dty...dtni E.8.17) ее можно записать так Я^ = Д|Ф(«). E.8.18) Величина п при больших Т является квазинепрерывной. Для нее п мало отличается от [п] (скобки [...] означают целую часть). Разности Ф'(п)=Ф(я+ 1) —Ф(/;), <1)" (п) = Ф (п + 1) - 2Ф (п) + Ф (а — 1) можно интерпретировать как производные. Пренебрегая несущест- венными усложнениями, связанными с дискретным характером величины п, из E.8.17) будем иметь МФ (л) = М [ф (п) + Ф' (п) (п — п) + — Ф" (n) (n — 7iJ + .. .1 = = Ф(п) + — <D*(n)Dn +.... Подставляя это выражение в E.8.18) и E.8.16), получаем, что '= lim — Ф(п), E.8.19) Т-*оо Т если НтФ"(«)—= 0. E.8.20) Т-+ос Т 157
Уже указывалось, что обычно отношение Dn/T стремится при Т -> -+оо к конечному пределу Do. Следовательно, условие E.8.20) выполняется, если Ф" (п) -> 0 при Т -» оо. E.8.21) Как показывает исследование, условие E.8-.21), говорящее о при- ближении зависимости Ф (п) при п — сТ к прямой пропорциональ- ности, выполняется для большого числа практических случаев. Итак, в соответствии с формулой E.8.19) удельную энтропию можно вычислить, считая число случайных точек, выпавших на большом интервале [О, Т], неслучайным, заранее известным и рав- ным гх = Мя. Пример. Вычислим этим способом энтропию пуассоновского процесса. Предполагается, что число точек на всем интервале яв- ляется неслучайным и равным п = уТ. При этом рп (tx ..., tn) = — п\Т"'\ Подставляя эту функцию в E.8.17), находим Ф (п) = Т + 1п п ! — п In Т. Пользуясь формулой Стирлинга п! = ппе~п у2пп получаем Ф (п) -^Т + п\пп~п4- ~ In Bлп) — п In Т. Условие E.8.21) действительно имеет место, поскольку ф» (,7) ~ ± _ _L. п уТ Подставляя найденное выражение для Ф (л) в E.8.19) при п = — уТ и перехояя к пределу Т ->¦ оо, имеем hp/Qi = \+y\ny — y, E.8.22) что, конечно, совпадает с удельной энтропией, находимой из E.8.11). 2) Другой способ вычисления удельной энтропии основан на ее определении E.6.10) как условной энтропии. Фиксация процесса i^-oo означает фиксацию всех случайных точек ..., т_2,'т_1, т0 < О, выпавших до момента t = 0. Поэтому E.6.10) можно записать: U T T) \PV>Z6) Энтропию H^{Q (| ..., %_ъ х0), здесь следует определять форму- лой E.8.8), но при замене вероятностей Рп и плотностей 158
р„ (Tj,..., т„) условными вероятностями и плотностями Р(п\..., T_ltT0), p,t(^i тп|-, т_х, т0), E.8.24) т. е. формулой Я^/<г'A-Л-1,т0)=2 /)(п|...,т_11 т„Ь' S о П = О xf ¦•• I Pn(^i. -Л! -Л], т0) In [eTf>71(n|...,T-i. то)Х X/>n('i, ••¦- '«I-. r-1,T0)]dt1...dtn. E.8.24a) Длину т интервала [0, т] желательно брать небольшой, чтобы вероятности выпадения двух и более точек на этом интервале были пренебрежимо малы и их можно было бы не учитывать. Тогда в вы- ражении E.8.24) можно будет оставить лишь два члена, полагая при этом рх (t± |..., x_lt т0) = 1/т. Обозначая кроме того limP(rt=l |... , т_х, то)/т = р@|... , т_ъ то), т -* О из E.8.24) будем иметь ... , т.!, т0) -[1 -р@ | ... , т_х , то)т] X -jo(O|..., т_ь то)т]} + или H'^.Qi(\... ,-Т-!, то)--=т—р@|... , T_lt хо)т + + р@|..., т_1? то)т1пр(О|..., т_1? т0) + О(х2). E.8.25) Подставляя это выражение в E.8.23) и переходя к пределу т—>-0, получаем искомую удельную энтропию hp'Q' = М [1 —р@ |... , т_!, то) + р(О |... , т_1( т0) х Xlnp@|..., T_lf т„)], E.8.26) где М обозначает усреднение по случайным точкам ..., т_и т0. Пример 1. Применим найденную формулу к стационарному то- чечному процессу с ограниченным последействием. Будем полагать, что интервалы сг =- /m+1 — tm между соседними случайными точ- ками являются независимыми случайными величинами, имеющими одинаковую плотность распределения вероятностей w (сг). Тогда, очевидно, / — т, так что р@\... , т_х, то)-= ш(— т0) / [ ay(cr)<icr. / -т, 159
Подстановка в E.8.26) дает Л''/g. = 1 In w (о) w (p) dp w(a) P{do), E.8.27) w (p) dp где P (do) = P [ex < — т0 < ex -f cW = p (o) dcx — закон рас- пределения для случайного расстояния от фиксированной точки t = 0 до ближайшей слева случайной точки. Его можно выразить через плотность w (а) несложной формулой / s r do с p (о) da = -=- ^ a. о = E.8.28) Вследствие равенств E.8.27)-, E.8.28) получаем hp/Q' =\-\ ~\ \nw(a)-ln[ w(p)dp—\ w{a)da, E.8.29) что дает решение задачи вычисления удельной энтропии. Пример 2. Рассмотрим несколько более сложный пример. Пусть дан стационарный точечный процесс. Интервалы т,н+1 — тт, по-прежнему, взаимно независимы, но имеют (через один) различ- ные плотности распределения; wx (о) или &у2 (сг). Если тП1+1 — хт распределен по wx, то тт+2 — тт+] распределен по w2; интервал хтп — Tm+2 u снова распределен по wu а хт+4 — т„г+3 — по w2 и т. д. Такой точечный процесс эквивалентен стационарному про- цессу с двумя состояниями Ai и Л2, когда времена пребывания в каждом состоянии взаимно независимы и имеют законы распре- деления w1 (для времени пребывания в Лх) и w2 (в А2). Случайные точки можно при этом классифицировать дополнительным пара- метром -д, полагая $т~ 1, если в точке т,„ происходит скачок из Лх в Л2, и #т = 2, если происходит обратный скачок из Л2 в At. В описанном случае плотность вероятности р @1 ..., х„г, т0) зависит не только от времени т„ выпадения последней случайной точки, 'но и от ее типа Фо. Именно р@|..., т_х, то)-р@|т0, до)=-йУ#о(—То)/ S E.8.29а) Усреднение в E.8.26) будет проводиться как по т0, так и по 1%- Обозначим через Р (и, da) совместное распределение для слу чайных величин # = •&„, а = — х„. Тогда из E.8.26), E.8.29а) будем иметь н = 1 In в (p)dp 1 X 160
(сг) К> P(&,do). E.8.30) J Щ (9) dp а Остается вычислить Р (¦&, da). Априори вероятность попадания на элементарный интервал [—ст, —ст + da] случайной точки любого из двух типов одна и та же и равна dP = - ст_ , оо — [ pw® (p) dp, поскольку для каждого типа средняя плотность точек равна (о± + о^)- Если выпала точка д0 = 1, то с вероятностью X она будет последней, т. е. в [—ст + dcr, 0] не выпадет а ни одной другой точки. Если ¦&„ = 2, то точка т0 будет последней ~ 00 с вероятностью j w2 (p) dp. Поэтому формулу E.8.30) можно за- а писать 2 со Г оо flP/Qt = 1 _|_ _!__ 2 J 1ПШФ(О) — Inj W Xwi>(a)da. E.8.31) Пусть, например wlt w% имеют экспоненциальный вид Тогда и из E.8.31) получаем = 1 + Jiiii2_ У [In ^ — 1] = li2). E.8.32) Если, в частности, (i1 = (i2 = у, то формула E.8.32) совпадает с E.8.22), так как при этом рассматриваемый точечный процесс переходит в пуассоновский. 161
5.9. Энтропия дискретного марковского процесса в непрерывном времени Рассмотрим марковский процесс ? (t) с дискретным простран- ством состояний, т. е. имеющий конечное или счетное число воз- можных состояний. В отличие от процесса, рассмотренного в § 5.2, он протекает теперь в непрерывном времени. Пусть его вероятности переходов определяются дифференциальной вероятностью перехода щ (х, х') в соответствии с формулой В силу условия нормировки имеем 2>nt (х, х') = 0, что соот- х' ветствует E.2.2). Если процесс \ (t) стационарный, то матрица nt (x, х') = = я (х, х') не зависит от времени t. На данный марковский процесс могут быть распространены ме- тоды и результаты, изложенные в § 5.2. Любая конечная совокупность случайных значений I (tj), ..., I (th) является для данного процесса совокупностью ди- скретных случайных величин. Поэтому их энтропию можно вы- числить по формулам дискретной версии. В частности, если про- цесс задан на интервале [О, 71, энтропия начального значения \ @) равна E-9.1) Если, однако, мы хотим вычислить энтропию непрерывного мно- жества значений |?, то мы должны применить формулы обобщен- ной версии, т. е. теорию § 1.6 и 5.6. Обозначим через {т,-} те точки временной оси, т. е. те моменты времени, в которых происходят скачкообразные изменения состоя- ния процесса. Вспомогательную меру Qx (|J) определим как пуас- соновскую меру (с единичной плотностью) для системы случайных точек {т;}. Выделяя энтропию начального значения E.9.1) по фор- муле S so + oIs [ ' условную энтропию Я, т it/ni или короче Н.тл(П\ определим формулами A.7.17а), A.7.17), E.6.1) обобщенной версии. Тогда будем иметь E.9.1a) 162
Вследствие мультипликативного свойства меры Qx энтропия <? обладает свойством иерархической аддитивности гтР/Qt _ rrP/Q, . f la |l (a) la | i (a) Согласно условию марковости процесса последнюю формулу можно записать Так что П т =-П|@) Л- E.9.16) Это равенство является аналогом равенства E.2.6), относящегося к случаю дискретного времени. Как отмечалось в § 5.6, для стационарного процесса | (t) эн- тропия яС(Я'о пропорциональна т. Вследствие условия Маркова это относится и к энтропии #^|@) • Формула E.6.10) прини- мает вид E.9.2) Учитывая это, из E.9.1а) или E.9.2) имеем Сравнивая эту формулу с E.6.18), видим, что в данном случае о,A) = 0 и 2Г = Щ (о) = - 2 Р (| @)) In P (| @)). E.9.3) 1@) Соотношением E.9.2) удобно воспользоваться при малых т, чтобы вычислить удельную энтропию /ip/Qi по аналогии с тем, как это было сделано в § 5.8 (см. E.8.23), E.8.24а)). При малых т можно пренебречь вероятностью выпадения на (О, т] больше чем одной точки перехода. Тогда останутся лишь та- кие возможности: не произойдет перехода с вероятностью или произойдет переход в состояние х' Ф \ @) с вероятностью я A@), х') х + 0(т2). Аналогично E.8.25) записываем энтро- 163
пию этих событий: ln{e'fl+n(E@), 6@))т]} + + , Ъ q я (|@), V) х In [е* л (|@), 1')} + О(%2). Усредняя по ? @) и совершая предельный переход /ip/«« = lim — Нрщ,\ , т-о т 1^|5@) отсюда получаем ft"/<?. = l+H[Jt(U)+2it (g, g') In я(g, ГI Я(g). E.9.4) Учитывая, что я(|, |)=— 2 я(|, |'), в силу E.9.4) имеем Здесь, как и в E.9.4), Р (|) — стационарные вероятности, опре- деляемые из уравнения dt Последнее уравнение аналогично E.2.7), а формула E.9.4) является обобщением на случай непрерывного времени приведен- ной ранее формулы E.2.8). Пример. Пусть имеется процесс с двумя состояниями, харак- теризуемый дифференциальными вероятностями перехода яA,1) яA,2П яB,1) яB,2)/ Уравнение E.9.5) принимает вид - (хР A) + vP B) = 0, так что стационарные вероятности оказываются такими: ^ А E.9.7) (ср. с E.2.19)). По формуле E.9.4) записываем удельную энтропию iil 2]. ц+v Этот результат совпадает с E.8.32) и это естественно, посколь- ку рассмотренный в примере 2 § 5.8 процесс становится марков- ским процессом с двумя состояниями, если распределения 164
щ(о), w2 (о) экспоненциальные. При других видах распределений процесс с двумя состояниями будет немарковским, но станет мар- ковским, если к ? (t) добавить еще одну переменную, а именно вре- мя т = t —¦ X], прошедшее после момента xj последнего переско- ка. Комбинированный процесс {\Ц), a(t)} будет марковским. Пространством состояний для него будут две полупрямых. Несмот- ря на такое усложнение, к нему применима почти без усложнений описанная выше теория. Сформулируем в заключение этого параграфа указанное обоб- щение на произвольное пространство в более полном виде. Пусть пространство состояний X марковского процесса произ- вольно. Дифференциальная вероятность перехода л (х, х') такова, что из каждой точки х ? X возможны переходы лишь в конеч- ное или счетное множество точек. Тогда удельная энтропия оп- ределяется формулой ^ (||)(( ))] E-9.8) где />ст (d|) — стационарное распределение, определяемое из уравнения \) 2 я(&,?') = О {А произвольно), обобщающего E.9.5). В данном случае формула E.9.1) может оказаться несправедливой, и для определения Яцо) может потребоваться мера Q. Приведенные формулы E.9.4), E.9.8) можно применять не толь- ко в стационарном случае для вычисления, средней по времени удель- ной энтропии. Они пригодны также вследствие марковских свойств процесса и в нестационарном случае, а именно, определяют плот- ность энтропии h (t), рассчитанную на единицу времени, которая может зависеть от времени t. При этом усреднение в них следует производить с нестационарным распределением Р (d|). 5.10. Энтропия диффузионных марковских процессов Пусть {х, (t), t?lQ, T]} — соответствующий мере Р диф- фузионный марковский процесс, характеризуемый сносом а (х, t) и локальной дисперсией b(x, t) > 0. Он описывается уравнением Фоккера — Планка PtW=-{;№*№+ тБ[ЬрЛх)ь EЛ0Л) где pt{x)dx=P{xt?[x, x + dx]}. 165
Чтобы определить для йего энтропию Нхт, нужно подобрать меру Q, относительно которой мера Р является абсолютно непрерыв- ной. При этом желательно, чтобы она была максимально простой. Известно (например, Стратонович [4]), что такой мерой является мера, соответствующая диффузионному процессу с той же локаль- ной дисперсией Ъ (х, t) и нулевым сносом, т. е. мера, для которой E.10.1) заменяется уравнением ki (х) = у ^ [bt q (x)} (qt (x) dx = Q {xt ?[х,х+ dx]}). При этом производная Радона — Никодима имеет вид етр Q{dx%) q{x(Q)) J b(x(t), t) -±-a{x{t),t)dt] E.10.2) где стохастический интеграл j ...d*x(t) понимается в смысле Ито. Постараемся теперь удовлетворить условию мультипликативности E.6.4), чтобы была применима теория § 5.6. Для этого представим процесс {x(t), *е[0, Г]} как процесс {? @), I (t), t 6@, Я}, где ? @) = х @), | (t) = х (t), t > 0, и потребуем, чтобы Ъ (х, t) = Ь (t). не зависела от х. Тогда мера Q будет соответствовать гауссовому дельта-коррелированному процессу: так что условие мультипликативности E.6.4) будет выполнено. Используя E.10.2), нетрудно вычислить энтропию E.6.1), а также в предположении стационарности удельную энтропию т It Х 1о т М ХI * (*) При этом энтропию HpJt%Xlxit) удобно вычислять приближенно, пользуясь малостью т, а затем совершить предельный переход Лр/о = Ит —ЯР/+т| • E.10.3) т->0 х xt |*<О При малых т из E.10.2) имеем Mln —-—¦ =М I —i—LiZ. \d*x(o) — Qld[x(a)-x(t)], a? (t, t+x]} J & L 166
Для вычисления H^j% \x(t) проводим усреднение 7 ч Учитывая, что в соответствии с определением сноса а справедливо соотношение М [x(t + х) — х @ | *(*)] = а(х(/))х + о (х), будем иметь Подставляя это выражение в E.10.3), находим плотность эн- тропии m[a{x{t))}\ E.10.4) которая не зависит от t в стационарном случае. Выше предполагалось, что а и b не зависят от времени t в соот- ветствии с условием стационарности. Если бы это условие не было выполнено,, мы получили бы описанным способом зависящую от времени энтропийную плотность ia((*} ^ E.10.5) ) M 2 b{x(t),t) (условие независимости b от х здесь также может быть не выпол- нено). Через нее получаемая из E.10.2) полная энтропия *» Q (dxl) выражается интегрированием г HPITQ = Нрх% + \ HpJQ(t) dt. E.10.6) хо о В стационарном же случае при b = const плотность энтропии мо- жет быть вычислена по формуле E.10.4) при помощи стационарной 167
плотности распределения рст (х), удовлетворяющей стационарному уравнению Фоккера — Планка Если ввести потенциальную функцию (x)dx, E.10.7) то стационарное распределение можно записать E.10.8) и из E.10.4) будем иметь 2WV J [ dx J Интегрированием по частям (при учете исчезновения плотности рст (ж) на границах, например, при ?-> ± оо ) эту формулу можно привести к виду x M E.10.9) Пример. Пусть функция а (х) линейна: а(х) = — рдг + у. Чтобы процесс был стационарным, необходима положительность [3 > 0. Функция E.10.7) имеет вид pY, и распределение E.10.8) является гауссовым: Применение формулы E.10.9) дает Ар/« = р/4. E.10.10) Данный процесс является, как известно, гауссовым процессом, имеющим спектральную плотность S (со) = 26/(со2 -Ь р12). Поэтому он совпадает с процессом, рассмотренным в § 5.7 (пример 2). Ре- зультат E.10.10), естественно, совпадает с соответствующим ре- зультатом E.7.23), полученным на основе теории гауссовых про- цессов. Приведенные в этом параграфе результаты допускают обоб- щение на многомерный случай, когда имеется многокомпонентный марковский процесс {x(t)} = {хг{г), ..., x((t)}. Пусть он харак- 168
теризуется сносами ар (х, t), р = 1, ..., /, и матрицей локальных дисперсий ЬРа (х, t), р, а = 1, ..., /. Тогда выбирая меру Q, опи- санную в формулировке теоремы 4.1 монографии Стратоновича [4], имеем производную Радона — Никодима что служит обобщением формулы E.10.2). Здесь 6^-V — матрица, обратная невырожденной подматрице ЬР'с, р', а' = 1, ..., V ^ /, матрице локальных дисперсий Ьра, р, о = 1 /. Тем же приемом, что и в одномерном случае, получаем из E.10.11) плотность энтропии hPIQ(t) = ± м 2 Р'.С E.10.12) В частности, если 1x1 -матрица Ьра невырожденна, то сум- мирование в E.10.12) по р' и а' нужно проводить от 1 до I, а мера Q соответствует той же матрице локальных дисперсий Ь9а, но нуле- вому вектору сносов. В стационарном случае усреднение в E.10.12) означает интегри- рование со стационарной плотностью распределения рст(х), удовлетворяющей стационарному уравнению Фоккера — Планка р "лр 2 P, а "лр"ло В важном частном случае стационарное распределение таково, что потоки вероятности обращаются в нуль: 1 'V' д 2 ^"^ дх В этом случае из E.10.12) имеем UPIQ(+\ — 7 I П^- ft / \h /_ п 1 Лу Лг II- V / ' ^^ 1 Р P(J Д ICTJl Л^РТ J *-*'А/\ ' • • UA[ • ^ р', а', я J я Применяя формулу Грина и учитывая исчезновение интеграла по границе, получаем hp/Q {t) = _ _L ^ Г йа^я рст J- [ap^ bp. U dXl... dxt = 4 р', о', я J п р 4 169
Если матрица bpa невырожденна и не зависит от х, то имеет место следующая простая формула: 4 р, а, я 4 ^"^ дх 4 которая является многомерным обобщением формулы E.10.9). 5.11. Энтропия комбинированного марковского процесса, условного процесса и части компонент марковского процесса 1. На случай непрерывного времени могут быть обобщены ре- зультаты и методы, изложенные в § 5.3. Предполагается, что сово- купный процесс {1@} = {*@> y(t)} является марковским. Теория марковских процессов позволяет вычислять энтропию Нрф — HPtQt, где Q — вероятностная мера, относительно ко- а а а торой мера Р является абсолютно непрерывной. Меру Q удобно подбирать таким образом, чтобы процессы {х (t)} и {у (t)} были для этой меры независимыми: и марковскими, т. е. чтобы Тогда будут справедливы соотношения E.11.1) а У'а У а ха \ Уа , E.11.2) E.11.3) 1 г , Ц \хаУа xt Vt \х (О У (О аналогичные соотношениям E,3.1), E.3.6), E.2.5) дискретной вер- сии. В случае непрерывного времени удобно ввести энтропийные плотности E.11.4) 170
E.11.5) Vt Va -HPn\]. E.11.6) ха\Уа\ Полагая в E.11.1) сначала Т = t + т, а затем Т — t, взяв разность этих выражений и используя свойство аддитивности типа A.7.18), получаем соотношение Н Vt \ ха Уа Vt I ха\ Va Поделив E.1L7) на х и перейдя к пределу т->0, получим со- отношение {t). E.11.8) Аналогичное соотношение PJQP/Q P{ft) E.11.8а) справедливо, очевидно, и для другой пары энтропийных плотно- стей т->0 Т L ya \ха Уа\ха В стационарном случае плотность hXy , как видно из E.11.4), не зависит от t. Другие энтропийные плотности при этом целесооб- разно определить с помощью дополнительного предельного пере- хода а->— сю. В этом случае энтропии будут строго пропорцио- нальны т и предельный переход т -»- 0 станет излишним. Формулы E.11.5), E.11.6) заменяются следующими: т I Г Г LJ 0-ОО '¦a \va xa\ Va (и аналогично для другой пары hp'x\ h^1). При этом соот- ношения E.11.8), E.11.9) сохраняют свое значение. Все эти энтро- пийные плотности в стационарном случае будут постоянными. Можно доказать, что они совпадают с удельными энтропиями, т. е. доказать равенства: 171 /T\ f(J = lim J-//7f ,
Можно доказать кроме того, что для плотности hx(y' (и аналогич- но для hyi®*) в стационарном случае справедлива формула p/Qi I ,,p/Qi x I у _ 1 H — — И X (X) l/_c (т>0 любое). Все эти утверждения распространяют на случай непрерывного времени соответствующие утверждения, доказанные в § 5.3. РI Обобщая методы § 5.3, можно вычислить энтропию Н г РI Qi h/Q или ее плотность hy/Q* для части компонент {у} марковского 1- T*PIQi 1 р/о, процесса g и энтропию п т \ т или пх\у условного марковского х0 | УО процесса {x(t)}, а также аналогичные энтропии Н г \ хо У0\х0 Р/О C Р/О Рассмотрим энтропию Н t-Cxi t • Ее можно представить vt I уо в таком виде: р/п. Н \ t =Mln- I г/о Ч] Тогда имеем Р[<1у\+Х\у*о] E.11.10) у'о] t/o В силу условия Маркова Ц), y(t)] указанное равенство можно записать так: ), E.11.11) где обозначено Подставляя E.11.11) в E.11.10), получаем формулу P[dy\ + X\x{t),y{t)\ Я t+x] t =Mln *< г/о E.11.12) Если апостериорную меру W трактовать как распределение в ком- бинированном пространстве | = (х, у) (см. E.3.17)), то формула 172
E.11.12) запишется в виде или t vt t =Mln vo • р(М+хЩ W(dl) y) P(d ¦yt P[dy\ t+x ¦W{dt) E.11.12a) где усреднение М проводится только по случайным переменным W (•), образующим вторичный апостериорный W-процесс, явля- ющийся марковским процессом с известными вероятностями пере- хода. Формулы E.11.12), E.11.12а) являются обобщением формул E.3.15), E.3.16) дискретной версии. Они справедливы при любых т, но для вычисления hPIQ* ими удобнее пользоваться при малых т. Это будет видно из рассматриваемых ниже частных случаев. 2. Пусть теперь {x(t)} — марковский процесс с дискретным числом состояний, подобный процессу, рассмотренному в § 5.9. Он характеризуется введенной в § 5.9 дифференциальной матрицей перехода nt (х, х'), определяющей вероятности перехода Р (? (t + + Д) | \ (t)). Выбирая в качестве Qx пуассоновскую меру для то- чек перехода, получаем плотность hPIQl (t) энтропии HpxtQi t 2,[\nnt[x{t),x')—l] nt[x{t), x' E.11,13) Процесс {y{t)} — {tjx (t), ..., yl (t)} пусть строится следующим образом. Задан зависящий не только от у (t), но и от х (/) вектор сносов ap(x(t), y(t), t), а также матрица локальных дисперсий bpa (y(t), t). Последнюю предполагаем невырожденной и не зави- сящей от х (t). Тогда при фиксированной реализации {x(t)} процесс у (t) бу- дет диффузионным процессом, рассмотренным в § 5.10. Применяя полученные там результаты, мы можем найти плотность hP[Qxl(t) энтропии НРт\'т. В качестве меры Q2 выбираем меру диффузион- но I о ного процесса с нулевыми сносами и с той же матрицей локальных дисперсий Ьра (у, t). В соответствии с E.10.12) имеем it\xT0) = i- 2 t) X p, a Xaa{x(t), y(t), t)p{dy(t)\xT0) E.11.14) 173
Для получения плотности hPyfc энтропии Я^г^г остается в E.11.14) произвести дополнительное усреднение по х\: p (*@. У if), t) b? (y(t), t) x Xac{x(t), y(t), t)p{dy(t) dx{t)). E.11.15) В силу аддитивности E.11.2), E.11.9) тем самым найдена эн- тропийная плотность hxyQ для комбинированного марковского процесса {1@} = {x(t), y(t)j. Именно, в E.11.9) следует под- ставить выражения E.11.13), E.11.15). Другие энтропийные плотности h^Qs и hx(y' согласно E.11.1) связаны аналогичным соотношением E.11.8). Поэтому для завер- шения вычисления всех плотностей остается вычислить одну из них. Описанный выше процесс {#(/)} (при нефиксированной реа- лизации {x(t)}) является немарковским процессом. Соответствую- щую ему энтропию вычислим, используя формулу E.11.12). При малых т из E.10.11) имеем Р [dy\+x\ X @, у @]/Qa Wt + X\ У (t)} = exp I S яР Va1 X Ip.cr X [Мг + т)-ЫО-^аа1 + о(тО)=1+2-«Р&Ра X ^ J J p, a {t + T:)-yo(f) %-aaj + y ^«p V* [Уа(t + x)- — Уа @1 1Уя V + Х) — У" W] ^ av + ° (T)' Подставляя это выражение в E.11.11) и для краткости обозначая 2 ... НР( (х() = Mps ..., будем иметь p, с Согласно E.11.10), E.11.12) следует взять логарифм от последнего выражения. При его логарифмировании нужно оставить лишь сле- дующие члены: *] {М )Ь г 174
XMps(avap) i- E.11.16) Усреднение его будем проводить в несколько этапов: сначала усред- ним по y*t+x при фиксированных x(t), у\, потом по x(t) (с весом Wt (x(t))) при фиксированных у'о и в последнюю очередь по у\ или, что то же самое, по W. На первом этапе усреднения нужно учесть формулы x)-ye{t)\x{t), y{t)} = aa(x(t), y(t), t)x + o(x), = ban(x(t),y(t),t)x так что — M In- Т ( (Mp8flp)^(JVlpgaa)o(l). Дальнейшее усреднение приведет к результату =4"м (Mps flp) 6pv {Mps a<j)+°{1)> Совершая предельный переход т ->¦ 0, найдем v \ 2 р, <т =y\p ^dWu dy^ 2 2 r<(х)ар (х> ^@> О х х, х' р, а X 6ра(«/@. t)aa(x', y(t), t) Wt{x'). E.11.17) Найти входящее сюда распределение P(dWu dy(t)) помогает то обстоятельство, что переменные {Wt, yt} образуют марковский процесс, названный в монографии Стратоновича [4] вторичным апостериорным 1^-процессом. Там найдено уравнение Фоккера — Планка, которому удовлетворяет плотность распределения вероят- ностей pt(W, у) процесса {Wt, у (t)}. Оно имеет вид Т 2 \v W \- W- 175
X [aa(x')-Mpsaa] W{xlpt)+ ^^—{w(x) X X [ар(х)-трвар\Р1} + ~2 дуд]у [apoPtl E.11.18) Указанные результаты справедливы как в стационарном, так и в нестационарном случае. В стационарном случае функции nt (х, х'), ар (х, у, t), bpa (у, t) не зависят от времени. Плотность энтропии hy/Q* при этом постоянна и вычисляется по формуле E.11.17) при помощи стационарного распределения РСТ (dWudy(t)), являющегося решением стационарного уравнения E.11.18), в ко- тором следует положить dpt/dt = 0. По аналогии с E.3.17) вместо W {х) можно рассматривать W(-) как распределение Wt (dxdy) во всем «фазовом пространстве» I — (х, у) марковского процесса (такой процесс {Wt (.) } будет марковским). Тогда формулу E.11.17) можно будет записать сле- дующим образом: il p. a Итак, удельная энтропия hPuIQ\ а значит и энтропия hpj®2 = == hxlQ' — hp/Ql вычисляется методами, использующими резуль- таты теории условных марковских процессов. Пример. Пусть {х(t)} — процесс с двумя состояниями и мат- рицей перехода E.9.6). В § 5.9 была найдена соответствующая ему удельная энтропия * =1+ _!!?_ inJil. E.11.19) Процесс {y(t)} определим как одномерный диффузионный про- цесс с постоянной локальной дисперсией b и с не зависящими от у и t, но зависящими от х сносами а (х). Тогда формула E.11.15) дает E.и.20) или если учесть E.9.7). Сумма выражений E.11.19), E.11.20) дает удельную энтро- пию hPyQ комбинированного процесса. 176
Перейдем к вычислению удельной энтропии h^IQ' для данного примера. Вводя переменную zt = Wt A) — Wt B), средний снос Mps а можно представить в виде г. Подставляя это выражение в E.11.17), имеем [ со + -I-[a(l)-aB)]V}. E.11.21) Нетрудно понять, что усреднение апостериорных вероятностей Wt (х) = Р [xt == х \у{0] приводит к априорным вероятностям Р [xt = х], которые в стационарном случае имеют вид E.9.7). Поэтому [ ] [ ) и формулу E.11.21) можно преобразовать к виду 86 1 г ИЛИ 86 — 1 Г J E.11.22) Процесс {zt} в данном случае является марковским сам по себе. Ему соответствует уравнение Фоккера — Планка вытекающее из E.11.18). Приравнивая производную рст (г) нулю и интегрируя получа- ющееся уравнение, получаем стационарную плотность распреде- ления вероятностей E.11.23) 177
Входящий в выражение E.11.22) интеграл с этой плотностью рас- пределения был вычислен в [4] и оказался равным +i/ -v.(^h+:/ -f E.11.24) где q = у (v — (л), a /C9 B) — функция Макдонольда (Рыжик И. М., Градштейн И. С. [1]). Подстановка E.11.24) в E.11.22) решает задачу вычисления удельной энтропии hyIQ* стационарного немарковского процесса у. Комбинируя E.11.19),. E.11.20), E.11.22), легко найти энтропию hxff1 = hx/Qi + hy(x* — hyIQz условного марковского процесса X (t). 3. Изложенный выше вывод формулы E.11.17) применим и в дру- гих случаях, например, когда процесс (x(t)} является диффузион- ным марковским процессом или образует часть компонент комби- нированного диффузионного марковского процесса {^(t)} = {x(t), y(t)}. Рассмотрим последний случай подробнее. Пусть комбинированный марковский процесс, имеющий компоненты ' = #р@, Р = т+ I,..., т+1, описывается вектором сносов а} (g, t) и (m + /) X (m + /)- матрицей локальных дисперсий bjh (g, t), j, k = 1, ..., m + /. Пред- полагается, что I x I — подматрица последней bpa (i, t), p, a = m + 1, ..., m-\- l является невырожденной и независящей от х. Тогда по аналогии с E.11.17) справедлива формула , т + 1 hPIQ4t\— —ДО V (М aU"'[M a) E11251 р, а = т+ 1 где усреднение Мрз соответствует усреднению с апостериорной плотностью вероятности Mpsаа = ^ав(х, у, t)wt(x)dxv.. dxm, которая удовлетворяет полученному в указанной монографии [4] уравнению j_ w . , 1 ^ а2 Н' 178
m+l d* , [¦¦¦¦¦- п. 11 ~л —-I—Mpsaa . M.o=mT. dt J Второе усреднение в E.11.25) соответствует усреднению по марков- скому процессу {wt(x), y(t)} как стационарному случайному про- цессу. 4. До сих пор процесс {y(t)} предполагался диффузионным Аналогичные результаты можно получить, скажем для того слу- чая, когда процесс {у (t)} есть процесс с конечным или счетным числом состояний. Пусть {x{t)} — марковский процесс с матрицей перехода Я( (х, х'), подобный процессу в п. 2. При фиксированной реализа- ции {х @} процесс {y(t)} пусть является марковским процессом с дискретными состояниями, описываемыми дифференциальными вероятностями перехода nt (х, у, у'), зависящими от х = х (t). Тогда комбинированный процесс {Ё@} = {x(t), y(f)} также будет марковским процессом с дискретными состояниями. Ему будет соответствовать дифференциальная матрица перехода nt(l,l') = nt(x,x')8vr + nt(x,y,y')8^. E.11.26) В данном случае энтропия процесса {x(t)} и энтропия комби- нированного процесса {x(t), y{t)} могут быть подсчитаны путем применения формулы E.9.4). Подсчет энтропии HPfQ* или ее плот- но ности hy1®* (t) требует особого рассмотрения, поскольку процесс {у (t)}, взятый в отдельности, является немарковским. В принципиальном отношении соответствующий расчет может быть проведен так же, как и в п. 2. Воспользуемся формулой E.11.12), выбирая теперь в качестве меры Q2 пуассоновскую меру (для моментов перескока процесса y(t)) с единичной плотностью. При малом г будем иметь P[dyft+X\x(t), y(t)] [1+я, (*(*). y(t),y(t))x}+0(%*) при nt{x{t), y(t),y(t + x))x+O{x*) при у Подставляя это выражение в E.11.12), находим НР1%\ | t = М [1+ Mps яг [х (t), у (*), у @) т] In (еН 1 + nt{x(t), y(t), y(t))x}\ + 2 Mpsnt{x(t), y{t), ' y(t+x)*y(t) (t+x)*y(t) E.11.27) 179
Здесь, в первую очередь, произведено усреднение М [... \x(t), у{ (t)\ по у\ + х, затем усреднение М [...|г/01 по х (t) с весом Wt, а потом усреднение по прочим переменным. Из E.11.27) вытекает следующая формула для энтропийной плот- ности: hP/Q>(t) = Mi\ + 2 [MpsK{x(t),y(t),y')}x X [in [мр, я (*(*), y(t), «/')]-!]}• E.11.28) Отличие этой формулы от формулы E.11.29) (т. е. от формулы E.9.4), взятой при g = у) в том, что я (у, у') заменены на апостериорные средние имеется усреднение не по у (t) с весом P{dy), а усреднение по у (t)} с весом Р [dWtdy (t)]. Процесс {Wt, у (t)} является вто- ричным апостериорным марковским процессом и для него нетрудно найти вероятности перехода, которые определяют, в частности, стационарное распределение Рст [dWt dy(t)}. Формулу E.11.28) интересно сравнить с условной энтропией x[\nn[x(t),y(t),y')-l\}. E.11.30) Это выражение мы записали по аналогии с E.11.29), считая значение х (t) фиксированным, а затем усредняя по нему. Изложенный метод вычисления плотности энтропии hy может быть распространен и на сличай, когда процесс {х (t)} в отдельности не является марковским, а марковским процессом (с дискретными состояниями) является комбинированный процесс {x(t), y(t)}. Пусть он описывается дифференциальной матрицей перехода Я( (х, у, х', у'). В этом случае вид результирующей формулы E.11.28) остается без изменения. Аналогично вычисляется и hP/Q. Из вышеизложенного видно, что описанный метод вычисления энтропии для части компонент марковского процесса имеет широ- кую область применения. В нем наиболее трудным этапом является отыскание распределения Р (dWt, dy (t)) для вторичного апосте- риорного ^-процесса.
Глава 6 ИНФОРМАЦИЯ ПРИ НАЛИЧИИ ПОМЕХ. ШЕННОНОВСКОЕ КОЛИЧЕСТВО ИНФОРМАЦИИ В настоящей главе рассматривается введенное Шенно- ном количество информации связи двух случайных величин или двух групп случайных величин. Это понятие является централь- ным в теории информации, самостоятельное развитие которой на- чато в работах Шеннона A948 г.). Оно определяется как разность априорной и апостериорной (условной) энтропии. Явное вычисление количества информации в сложных случаях, когда в качестве рассматриваемых случайных величин берутся случайные процессы, является, вообще говоря, непростой задачей. В двух последних параграфах главы эта задача решается для част- ных случаев: вычисляется удельное количество информации в слу- чае стационарных гауссовых и марковских процессов. При этом используются методы и результаты гл. 5. 6.1. Потери информации при вырожденных преобразованиях и при простых помехах 1. Пусть имеется случайная величина х с конечным числом т состояний (числом реализаций) и соответствующие ей вероятности Р (х). Рассмотрим некоторое преобразование г) = / (х) этой сл-у- чайной величины. Функция /, естественно, определена для всех возможных значений случайной величины. Если преобразование т) = / (х) является невырожденным, т. е. существует обратная функция'/ ("п) = х и может быть уста- новлено взаимно однозначное соответствие между х и ц, то эн- тропия при преобразовании не меняется: В самом деле, вследствие взаимно однозначного соответствия между значениями х и значениями т) выражения типа A.2.3) для энтропии Нх и Я,, будут отличаться лишь порядком следования членов, нумерацией этих членов. Указанные значения можно ну- меровать также числами 1, ..., т. Вследствие этого мы можем, как 181
это делали ранее, заменить множество значений случайной вели- чины х на множество 1, ..., т. Сложнее обстоит дело, если преобразование т) = / (х) яв- ляется вырожденным. Тогда фиксированному значению г) соот- ветствует подмножество Е (ц) элементов х, число Й (т)) элементов которого больше единицы. Зная rj, мы не в состоянии сказать, какое значение х из Е (rj) породило данное значение ц. Чтобы ответить на этот вопрос, требуется помимо т) знать номер ? исходного элемен- та х в множестве Е (т)). Пара (rj, ?) уже в состоянии заменить х. Между возможными значениями этой пары и множеством воз- можных значений х можно осуществить взаимно однозначное соот- ветствие и, следовательно, Случайная величина ? является дополнительной по отношению к т); она дополняет ц до х. Пусть, например, на натуральных числах задана функция ц = U/10], где скобки обозначают целую часть. Тогда число г) представляет собой номер десятка, в котором на- ходится натуральное число х. Дополнительной величиной ? в дан- ном случае является номер числа в десятке. Пара (т), ?) есть не что иное, как представление числа х в десятичной системе и, разумеется, заменяет х. Применяя формулы из § 1.3 [типа A.3.4)], имеем Нх = Hn + Hzl „. Отсюда получаем НХ>НЮ F.1.1) так как Н^ ^ 0. Рассмотрим, когда имеет место знак равенства в F.1.1). По- скольку то #?!,, = 0 тогда и только тогда, когда условная энтропия Hi (|т)) исчезает для всех зачений г], имеющих ненулевую вероят- ность. Но энтропия 2 обращается в нуль, лишь если вероятности Р(?|т)) сосредоточены на одном единственном элементе из Е (т)). Выбирая этот элемент, мы можем осуществить взаимно однозначное соответствие между значениями i), имеющими ненулевую вероятность, и значениями (т), ?) = х, имеющими также ненулевую вероятность. Следова- тельно, равенство Нх — Нц — 0, т. е. Нц^ = 0, означает, что данное преобразование может быть сделано невырожденным в результате удаления элементов, имеющих нулевую вероятность, и что оно эк- вивалентно невырожденному преобразованию. Если же преобра- 182
зование существенно вырожденное (т. е. объединяет хотя бы два каких-то элемента с ненулевыми вероятностями в один), тогда имеет место строгое неравенство Нх>Нп. F.1.2) Итак, мы доказали следующее: Теорема 6.1. Существенно вырожденное преобразование случайных величин х -*¦ ц уменьшает (разрушает) информацию Н, которая может содержаться в случайной величине. 2. Перейдем теперь к рассмотрению помех. Передача сигналов в канале связи обычно сопровождается помехами или искажения- ми. Если х — сигнал на одном конце канала, то сигнал у на дру- гом (приемном) конце, вообще говоря, отличается от х вследствие случайных искажений. Если х обозначает запись, сделанную в за- поминающем устройстве в некоторый момент времени, то через определенное время запись может исказиться и вместо записи х в запоминающем устройстве будет содержаться другая запись у. Такие случайные искажения описываются вероятностями пе- рехода Р (у\х). Если через Р (х) обозначить вероятности перво- начального сообщения или записи, то искаженное сообщение или запись будет, очевидно, иметь вероятности Совместное распределение вероятностей будет Р (х,у) = Р (х)Р (у\х). F.1.3) В отличие от рассмотренного раньше преобразования r\ = f (x) теперь преобразование х в у, связанное с помехами, является рандо- мизированным, т. е. носит случайный характер (у случайно, даже если х фиксировано). Покажем, что иногда, несмотря на это кар- динальное отличие, между вырожденным преобразованием и меж- ду случайными искажениями имеется много общего. Рассмотрим специальный случай простых помех. Будем назы- вать помехи простыми, если они перемешивают значения х лишь внутри некоторых классов. Точнее говоря, пусть область значений х можно разбить на неперекрывающиеся подмножества Ех, ?2, ..., а область значений у —на подмножества Glf G2, ..., обладающие следующими свойствами: а) из области Ek можно попасть лишь в область Gk: P(y€Gi\x?Eh) = 0, если 1фк, F.1.4) б) Из всех точек области Ek происходит переход в у ? Gk с одинаковыми вероятностями P(y\xeEh) = P(y\k). F.1.5) Легко видеть, что из а) следует = 0 F.1.6) 183
или, что эквивалентно, Hh = Hhl F.1.7) (k — номер области ?ft, / — номер области G,). Из б) же выте- кает = #»!*• F.1.8) Теорема 6.2. Простые помехи с информационной точки зрения эквивалентны нерандомизированному вырожденному пре- образованию k = k (х) (где k (x) — номер той области Eh, которой принадлежит х), т. е. Нх\у = Hx\k- Для доказательства следует рассмотреть апостериор- ное распределение вероятностей Р(х\у). Подставляя F.1.5) в фор- мулу обратной вероятности (формулу Байеса), приводя ее к виду Р(х\у)= %Р(х')Р(у\х') (/ = k) и сокращая на общий множитель Р (у | /), получаем Р (х|у) = Р{х) , если x?Et P(x\y) = 0, если Р (Ei) Это выражение зависит от номера I множества Gu которому принад- лежит у, но не зависит от конкретного значения у внутри Gh т. е. P(x\y) = p(x\l) (y?Gt). F.1.9) Если выполняется подобное равенство, то говорят, что перемен- ная / является достаточной переменной или достаточной статисти- кой, заменяющей у. Мы получили, следовательно, что номер / множества служит в данном случае достаточной статистикой. Из равенства F.1.9) вытекает, что Нх (\у) = Нх (| /) и (после усред- нения этого равенства) что Нх\„ = Нхи. F.1.10) Равенства F.1.9), F.1.10) означают, что наблюдение переменной у эквивалентно наблюдению переменной l=k. Доказательство закон- чено. Из определения простых помех и из теоремы 6.2 видно, что по- нятие простых помех является обратимым: помехи, соответствую- щие обратному переходу с вероятностями Р (х\у),'являются про- стыми, если простыми являются помехи прямого перехода с ве- роятностями Р (у | х). В самом деле, подставляя F.1.4) в F.1.3), легко убедиться, что отличны от нуля лишь те вероятности Р (х, у), для которых хну попадают в области Eh, Gh с одинаковым номером k. Вероятности Р(х\у) равны нулю, если номера k и / областей Eh^x, GtBy 184
не совпадают. Следовательно, свойство F.1.4) обратимо. В допол- нение к F.1.6), F.1.7) выполняются соотношения ¦ Я*м = 0, Hl = Hhl = Hh. F.1.11) Далее равенство F.1.9), очевидно, является обращением равен- ства F.1.5)., Тем самым указанная обратимость доказана: кроме вырожденного преобразования k = k (х) можно рассматривать также нерандомизированное вырожденное преобразование / = = I (у), где / — номер области Glt содержащей точку у. Из теоремы 6.2. следует, что помехи разрушают информацию, поскольку такое разрушение имеет место при вырожденном пре- образовании / = / (х) по теореме 6.1. 3. Чтобы безошибочно передавать информацию при вырожден- ном преобразовании или при простых помехах, нужно связывать информацию не с переменной х, которая искажается при преоб- разовании, а с переменной т) = k, которая останется неизменной, так как I = k. Количество передаваемой информации, следова- тельно, будет равно 1 = Нк. F.1.12) Преобразуем это соотношение к другому виду, используя тождество Hh = Hxk — Hx\h = Hx + Hhix—Hx]k, F.1.13) вытекающее из определения условных энтропии (§ 1.3). При фик- сированном х номер k (х) области Eh Э х является полностью определенным, поэтому ЯМж = 0, F.1.14) и из F.1.12), F.1.13) получаем Согласно F.1.10) это соотношение можно записать I = HX-Hxiy. F.1.15) Далее, по аналогии с F.1.14) имеем Нцу = 0 или Hk\v = 0 (что то же самое, поскольку I = k с вероятностью 1). Следовательно, Hh = Hh-Hh]v. F.1.16) Учитывая F.1.12), F.1.11), F.1.16), F.1.15), будем иметь 1 = Нь — Hh |, = Hh — Hh | у = Hx—Нх | v. F.1.17) Приведенные результаты относятся к случаю простых помех однако в менее явной форме (в асимптотическом смысле) их можно перенести и на случай произвольных помех, как это видно из по- следующего (§ 7.6). Там вместо точных соотношений F.1.17) выведе- ны приближенные соотношения G.6.19). Для этого нужно рассмат- ривать не отдельные случайные величиных и у, а последовательности хх, ..., хп и ух,..., уп этих величин при п-*- ее. Подобно тому как
случай произвольных вероятностей асимптотически сводится к слу- чаю равновероятных возможностей (см. § 1.4, 1.5), так и случай произвольных помех асимптотически (при п ->• оо) сводится к слу- чаю простых помех. Поэтому, если информацию связывать с со- ответствующими (приближенными) достаточными статистиками k (х) = 1, ..., М (для этого ее.должно быть не больше, чем Hk — — Hk\i : inM^Hh — Hk\i), то в пределе п ->• оо можно из- бежать ошибок, вызванных искажениями. Этот факт связан с из- вестной теоремой Шеннона и является одной из возможных ее интерпретаций (см. гл. 7). 6.2. Информация связи дискретных случайных величин Переходя к случаю произвольных помех, рассмотрим величину Ixv = Hx—Hx\v, F.2.1) называемую взаимной (парной) информацией связи случайных ве- личин х и у. Ее можно интерпретировать в некотором смысле как количество информации об х, содержащееся в у. Количество информации F.2.1) было введено Шенноном [1], который показал также значение этой величины в теории инфор- мации. Будем называть его шенноновским количеством информа-, ции. Имеется немало косвенных причин для того, чтобы трактовать величину F.2.1) как меру количества информации (например неот- рицательность, аддитивность и пр.), однако главной причиной в ко- нечном счете является тот факт, что количество F.2.1) асимпто- тически сводится к хартлиевскому количеству информации 1пМ. Об этом говорит рассматриваемая в дальнейшем теорема Шен- нона (см. гл. 7). Без этого использование F.2.1) в качестве меры информации носило бы более умозрительный, нежели практический характер. Поскольку Нх = Ярг — количество априорной неопределен- ности, а Нх1У = #ps — среднее количество апостериорной не- определенности при наблюдении величины у, то количество инфор- мации F.2.1), которое можно записать 1 _ Н U 1 XV — JJpr "ръ> указывает среднюю величину неопределенности, исчезнувшей при приеме информации. Подобная трактовка количества информации давалась раньше в § 1.1 A.1.2). Используя обычное соотношение Нх\у = НхУ — Hv (см. A.3.4)), мы можем записать формулу F.2.1) в виде 1ХУ = НХ + НУ-НХУ, F.2.2) 186
откуда видна симметрия этой величины — она остается неизменной, если х и у меняются ролями. Следовательно, такое же количество неопределенности в сред- нем исчезнет, если наблюдаемой переменной является х, а неизвест- ной переменной — у: 1хУ = Ну~-НуЫ. F.2.3) На рис. 6.1. наглядно изображены соотношения, имеющиеся между величинами Нх, Ну, НхУ, Нх\и, Ну\х, 1ху. Поскольку условная энтропия не превосходит безусловную (теорема 1.6), информация связи 1ху является неотрицательной. Рис. 6.1. Соотношения между инфор- мационными характеристи- ками двух случайных вели- чин. Раскрывая в F.2.2) энтропии Нх, Ну, Нху по обычной формуле типа A.2.3), записываем количество информации связи двух слу- чайных величин в виде 1хУ = М \Н{х) + Н (у)-Н (х, у)] = М In Р {х' у) . F.2.4) XV L V / \У1 \ УП Р(х)Р(у) К ' Очевидно, что возможны также и такие эквивалентные формы записи: т mi Р(х\ У) mi Р(У\Х) IхЧ = М In \-LEJ- = М In *У| ' . Р (X) Р(у) Подобно тому, как в § 1.2 помимо средней энтропии Щ мы рас- сматривали случайную энтропию Н (I) = — 1пРA), можно вве- сти случайную информацию связи Р (х) Р (у) (б.2.5) ln. Р W Тогда, как легко видеть, F.2.4) примет вид fxV = MI{x,y). F.2.6) 187
Из F.2.5) вытекает следующая формула для совместного рас- пределения: Р (х, у) = е-" w-mv) + ' <*. у). F.2.7) Следовательно, парная информация / (х, у) доопределяет одно- кратные распределения вероятностей е-н^ F.2.8) до двукратного распределения. Поскольку из двукратного распределения суммированием можно получить однократные У х то вследствие F.2.7), F.2.8) случайная информация обязана удов- летворять уравнениям Средняя информация связи F.2.4), как отмечалось, является заведомо неотрицательной величиной. Этого нельзя сказать о слу- чайной информации F.2.5). Возможны и отрицательные ее значе- ния, хотя положительные превалируют, так что усреднение при- водит к неотрицательной величине. Докажем, что уже условное ус- реднение I (х, у) только по х или по у дает неотрицательную ве- личину. Доказательство. Формулу F.2.5) запишем в виде f^ F.2.9) Р(х\У) Используя неравенство " Р(х\у) <— + Р(х\у) ' будем иметь ^—- F-2.10) Если это неравенство условно усреднить по х, т. е. взять услов- ное математическое ожидание М [... \у], то поскольку М \у) из F.2.10) получим ЩПх,у)\у]>о. 188
Заменив в этом рассуждении х на у, а у на х, получим второе требуемое неравенство :М [/ (х, у) | х] ^ 0. Любопытно отметить, что будет иметь место обратное неравен- ство (или х у если усреднение проводить не с весом Р (х\у), а с весом Р (х) (или Р(у)). В самом деле, записав правую часть F.2.9) или F.2.5) в виде In p.J и использовав неравенство Р(у\х) < Р(у\х) ) ]п < Р{У) ^ Р(У) получим вместо F.2.10) т / \ ^ Р (У I х) Усредняя это неравенство с весом Р(х), будем иметь поскольку % Р (у\х) Р (х) = Р (у). X Таким образом, отрицательных значений случайной информа- ции / (х, у) не так уже мало. Это одна из причин для того, чтобы называть количеством информации не / (х, у), а соответствующее среднее значение 1хУ. 6.3. Условная информация. Иерархическая аддитивность информации 1. Если имеется несколько случайных величин х, у, г, ..., то по аналогии с формулой F.2.5) можно определить условную ин- формацию связи, взяв вместо безусловных условные вероятности: / (х, y\z) = \n— F.3.1) или Результат частичного или полного усреднения обозначим так: 1ХУ (| z) = М [/ (х, у ] г) | г] = 2 / (х, у\г)Р(х,у\ г), х, у F.3.3) Л*у|2 = М/(х, г/|г)= 2 I(x, y\z)P(x, y,z). х, у, г 189
Подставляя сюда F.3.1) или F.3.2), будем иметь Ixy(\z) = Hx(\z) + Hy(\z)-Hxy(\z) = Hx(\z)-Hx{y(\z), F.3.4) IXy I 2 = Нх | 2 + Ну \г — Нху |2 = Яа.| г — Нх\уг. Мы видим, что информации, условные или безусловные, могут быть выражены через соответствующие энтропии, условные или без- условные. Поскольку энтропия обладает свойством иерархической адди- тивности (§ 1.3), то аналогичным же свойством обладает и инфор- мация. Пусть х в формуле F.2.1) содержит несколько составля- ющих X = (хъ ..., хп). Тогда к энтропиям Нх, Hxw можно приме- нить формулу иерархической аддитивности A.3.4), что даст #х^= нХ1 + нХг\ Х1 +... + нХп]Х1... Хп_1, Взяв в соответствии с F.2.1) разность Нх — Нх[у и группируя чле- ны попарно, имеем / (X, . . .Хп) у = [HXl ~ HXl | у\ + [НХ2 \ Xi — НХг | Xly] + • • • + + [HXn\Xl...Xn_1—HXnlXl ...Xn_lff]- Но каждая разность Я*^, ... Xhi — HXk{Xl ... Xki y в силу F.3.4) есть не что иное, как условная информация 1Х у\х ...х. ¦ Следовательно, ' (*i ••• хп) у~ 'хг у~\- 1х2 у \xi + 1Х„ у | xtx2 + ••• + Ixn y\xi ... хп_1- F.3.5) Нетрудно понять, что такая же формула справедлива и для услов- ной информации п I(Xl...xn)y\z= 2 ^hy\xl...xk_1z. F.3.6) Предположим теперь, что вторая случайная величина также является составной: у = (ух ... ут). Тогда, применяя формулу F.3.6) к каждой информации IxhV\X]_ ... xftl, будем иметь Следовательно, из F.3.5) получим формулу, содержащую двойное суммирование: '(х, ... хп) (г/, ... у,.) = У, У, Uy,\x,...Xb ,«/,. »,..• F-3.7) k=\l—\ 190
Согласно этой формуле вклад в информацию 1(х ... х } (у ... й > дают всевозможные пары xh, yv Конечно, фактический, ненулевой вклад дают лишь те пары xk, уь которые не являются статистиче- ски независимыми случайными величинами. Рассмотрим, например, информацию связи I(x х ) (у )( где величина х статистически связана лишь с ух, а х2 — лишь с г/2. Тогда в сумме F.3.7) вместо четырех будет только два члена: Л*1 *i) (У1 У г) — 1*1 Ух ~Ь 1ха У2 I *1 Уг F.3.8) Здесь /хгуг|Х1у1' = /жгуг, если Р (*а, 0a|*lt yj = Р (х2, у2), т. е. если и х2 и г/2 не зависят от х1( г/х- Подобно тому как в случае энтропии свойство иерархической аддитивности справедливо не только для средних энтропии A.3.4), но и для случайных энтропии A.3.6), так и в случае информации связи соотношения, аналогичные F.3.5)—F.3.8), могут быть за- писаны для случайных информации. Так, например, Это обоснование совершенно аналогично предыдущему при исполь- зовании A.3.6) вместо A.3.4). 2. Условные информации связи F.3.3) являются неотрицатель- ными, что может быть выведено, например, из формул F.3.4) при уче- те теорем 1.6, 1.6а. Это обстоятельство позволяет получить из фор- мул иерархической аддитивности F.3.5), F.3.7) различные неравен- ства. Именно, информация IiXl ... Хп)у или I(Xl ... xn)(Ul ... уг), стоя- щая в левой части, не меньше суммы любой части членов, входя- щих в правую часть равенства. Проиллюстрируем это на простом примере, когда рассматривается информация I{xlXi)y связи пары х1г л;2 случайных величин с величиной у. Формула F.3.5) дает hx,x,)y = IXly + Ixty\Xl- Поскольку 1ХгУ\Х1 > 0, отсюда имеем неравенство /(*„,)„>/„,. F.3.9) Знак равенства '<*,*,)* = '*.* F-ЗЛО) имеет место в том и только в том случае, когда 1х2, у\хх = Нх21х, — НХг jXlу Это условие выполняется, если P(xi\x1,y) = P(x2\x1) или Р(у\х1хг) = Р(у\х1). F.3.11) Последнее равенство есть условие марковской связи тройки х2, Xi, у. 191
Из F.3.7) можно также получить соотношение hxu X,) (уи Уг) => 1хх у, ¦ F.3.12) Итак, мы видим, что информация связи заданных случайных ве- личин не меньше информации связи части указанных величин. Это аналогично неравенству HXi < HXlX%, для энтропии (так как Hx,\Xl > 0). Между тем соотношение Нх\г < Нхяе имеет своего аналога для информации. Неравенство Ixy\z^Ixy в общем слу- чае не имеет места. Пример 1. Пусть х, у, z — случайные величины с двумя значе- ниями, описываемые вероятностями Vl/8 3/8 (h /=1,2). \ и и / Тогда Hx{\zl) = h{\/2), Hxly(\z1) = h(\lA), Яж(|г2) = /гA/4), где /i(p)=—plnp —A—p)ln(l—p). По формуле F.3.4) имеем В то же время Следовательно, Я, = ft C/8), Я„у так что /ж!/ = /гC/8)-ВД4). F.3.14) Из F.3.13), F.3.14) находим разность () = 0,183 бита>0. F.3.15) Пример 2. Предположим теперь, что случайные величины х, у, г с двумя значениями описываются вероятностями 192
В этом случае Hx(\z1) = Hx(\z2) = Hx /*у (| гх) = А A /2) — А A /4), /хИ(|г2) = /1A/2)-ЛA/3), Далее, поскольку " \ 7/48 17/48 Г \ 7/24 7/24^ то /жу = ft A/2)-А G/24). Следовательно, 1*у-1хв\г = {\12)И, A/4) + A/2)АA/3)-А G/24) = ==—0,04 бита<0. F.3.16) На знак разности 1ху — Ixy \ г в этих примерах оказала влия- ние выпуклость функции h (р) = — р\пр — A — р) In A—р). В самом деле, для выпуклой функции имеем ft(Mg) —МА(?)>0; F.3.17) значения же 3/8, 7/24 есть не что иное, как среднее: 3/8 = A/4+1/2)/2 = М?, 7/24 = Вследствие F.3.17) разность F.3.15)^ положительна, а F.3.16) отрицательна. Итак, мы убедились, что знак указанной разности может быть любым. 3. Способ определения F.2.1) парной информации связи двух случайных величин можно обобщить так, чтобы определить ин- формацию связи трех или большего числа случайных величин. Определим тройную информацию связи формулой Ixyz=Ixy — Ixy\z- F.3.18) Подставляя сюда F.3.4) и выражая условные энтропии через без- условные, будем иметь 1Хуг = Нх + Ну + Нг-Нхи-Нхг-НУг + НХУг F.3.19) или Jxvz = Hxyz + IxyJrIyx + IIX — Hx—Hy — Hz. F.3.20) Очевидна симметрия этой формулы относительно х, у, г, т. е. ее инвариантность при перестановках этих случайных величин. Формулой / (х, y,z) = H (x, y,z) + I (x, y) + I (у, z) + I (z, x) — -Н{х)-Н(у)-Щг), F.3.21) 193
которая аналогична F.3.20), определяем случайную тройную ин- формацию. Учитывая, что Н (х, у, z) = — \пР(х, у, г), получаем из F.3.21) следующую формулу для трехкратного закона распре- деления: Р (х, у, г) = ехр {-Н (х) — Н(у)—Н (г) + / (х, у) + + 1{у,г) + I (г, х) — 1 (х,у,г)}. Она является обобщением формулы F.2.7). В рассмотренных выше примерах случайная информация F.3.21) такова: Hyt.Xj, (при у = г/2, г = z2 информация не определена) для примера 1 и для примера 2. Среднее же Ixyi, соответственно равно 0,183 бита и —0,04 бита в силу F.3.15), F.3.16). Таким образом, неотрицательность тройной корреляции не яв- ляется обязательной. По аналогии с формулой F.3.19) строится информация связи и для большего числа случайных величин. В общем случае п-крат- ная информация связи определяется формулой -(-1№,...,A, F.3.22) где суммирование производится по всевозможным несовпадающим парам (п (п — 1)/1 • 2 членов), тройкам (п (п — 1) (п — 2)/3! членов) и другим сочетаниям индексов 1, ..., п, 194
Можно доказать, что информация связи F.3.22) записывается аналогично F.3.18) в виде разности безусловной и условной ин- формации меньшей кратности ht ...xn+1 = IXi ...xn — IXl ...хп\ xn+1. F.3.23) Доказательство эквивалентности формул F.3.22) и F.3.23) целесообразно проводить по индукции. Из выражения, стоящего в правой части F.3.22), следует вычесть выражение для условной информации г*г ¦ ¦ ¦ *п I *п+1 = 2 Hxi i xn+i ~ 21 Hxt xk i *n+i~~- ¦ ¦ Анализируя члены, входящие в получившееся выражение, и учи- тывая, равенство убеждаемся, что это выражение совпадает с суммой в правой части формулы F.3.22), если в последней заменить п на п + 1. Равенство F.3.22) справедливо для п = 2 и п — 3, следовательно, оно будет справедливо и для больших значений п. В случае высоких кратностей, начиная с рассмотренной выше тройной связи, уже нельзя высказать определенных суждений о неотрицательности информации, о которой шла речь в случае парной информации. 6.4.. Количество информации связи в общем случае 1. В предыдущих параграфах предполагалось, что рассматри- ваемые случайные величины являются дискретными, т. е. прини- мают значения из конечного или счетного множества состояний. При этом по существу использовались лишь общие свойства энт- ропии. Совершенно ясно, что приведенные выше формулы и ут- верждения для информации связи могут быть распространены на случай произвольных непрерывных или комбинированных случай- ных величин. В самом деле, в § 1.6, 1.7 было показано как для про- извольных случайных величин ввести понятие энтропии, обла- дающей всеми свойствами энтропии дискретной версии. Нам остает- ся лишь воспользоваться приведенными там соотношениями. На- личие обычных свойств энтропии обобщенной версии обеспечит выполнение для информации связи в обобщенной версии тех же соотношений, что и в дискретной. 195
Рассмотрим две произвольные случайные величины х, у. На абстрактном языке теории меры это означает, что задано вероят- ностное пространство (Q, F, Р) и два борелевских подполя F1 cz F, F2 cr F. Первое Fx определяется условиями, наложенными на х (а), со ? Q (т. е. условиями типа х (ш) <с), а второе F2 — условиями, наложенными на у(а>), ш ? Q. Предполагается, что кроме вероятностной меры Р заданы: 1) мера v на объединенном борелевском поле F12 = a (F1 U F2); 2) мера va на поле Fx; 3) мера v2 на F2. Эти меры таковы, что выполнено условие v1(A)v2(B), A?Flt fie^a, F.4.1) соответствующее условию A.7.8), мера Р абсолютна непрерывна на F^ относительно меры v (а значит, и меры vx (A) v2 (В)). При описанных условиях можно определить энтропии Hx=-UnJ^f-P(dx), /,x|,= _Cln?I?lf Pidxdy) J Vi (dx) 0 vi (dx) и другие. F.4.2) В соответствии с формулами F.2.2), F.2.5), F.2.6) информация связи определяется как разность I*v = Hx-Hxltt F.4.3) или, если подставить F.4.2), / Un^xjjlp xv J P(dx) ' Последнее равенство можно принять за исходное определение ин- формации связи независимо от использования понятия энтропии, что в принципе весьма удобно. Такое определение позволяет не вводить в рассмотрение вспомогательные меры v1( v3, v. Формуле F.4.4) соответствует следующее выражение для слу- чайной энтропии: Z№M F.4.5) /(M) ln. v *' P(dx) Функция, стоящая под знаком логарифма, определяется как произ- водная Радона — Никодима меры Р{А\у) по мере Р{А), A ?F±. При таком ее определении, как известно, остается некоторый произвол. Различные ее определения могут не совпадать на мно- жестве нулевой вероятности. Этот произвол, конечно, не сказывает- ся на величине средней информации F.4.4). Соотношениям F.4.5), F.4.4) можно придать также вид P{dxdy) =Ы-^МИ (б.4.б) I(x,y) ln Ы , *' Р (dx) Р (dy) Р (dy) Ixy=mi(x,y). F.4.7) 196
Эти соотношения аналогичны формулам F.2.4), F.2.5) дискретной версии. Формулы F.2.8), F.2.7) в обобщенном случае принимают вид Р (dx) = vx (dx) e-« <*>, Р (dy) = v2 (dy) e~H <«), P (dxdy) = v(dxdy) e~H <*¦«) = v (dxdy)e~HM-H <»>+' <-x- *>. Без труда могут быть продублированы и другие формулы из § 6.2, 6.3. В дальнейшем будем писать соответствующие формулы в том виде, в каком потребуется. Выполнение условия мультипликативности F.4.1) для норми- рованной меры Q(dxdy) = v(dxdy)IN = v(dxdy) l[v(dxdy) означает равенство Q(dxdy) = Q(dx)Q(dy), F.4.8) (см. A.7.16)). Следовательно, можно будет воспользоваться форму- лой A.7.17). Учитывая A.6.17), A.7.17), нетрудно убедиться, что формулу F.4.3) можно записать Ixy = HP(Q — Я^/« = Н^ч —Ирх1Ч -Нру'Ч . F.4.9) Таким образом, энтропии HPIQ также позволяют вычислять инфор- мацию связи как разность энтропии наподобие F.4.3), но с другим знаком. 2. Информация связи F.4.5), F.4.6) является случайной ве- личиной. Для некоторых целей, например для исследования ве- роятности ошибки при передаче сообщений по каналу с помехами (§ 7.2, 7.3), важно знать не только ее среднее значение 1ху = = М / (х, у), но и другие статистические характеристики. Важ- ной характеристикой этой случайной величины является ее харак- теристический потенциал }x(s). Применяя формулу типа D.1.11а) к случайной информации F.4.5) (взятой с обратным знаком), по- лучаем —sin p(dxd^ ]p(dxdy) = P{dx)P(dy)\ = In \ P1-* (dx dy) P* (dx) Ps (dy). F.4.10) Этот потенциал, как и характеристический потенциал D.1.11а) любой случайной величины В (|), обладает свойством ц @) = 0. F.4.11) Кроме того, он обладает дополнительным свойством \i A) = 0, F.4.12) поскольку \ Р (dx) P (dy) = \ Р (dx) [ P (dy) = 1. 197
Через характеристический потенциал F.4.10) выражаются важные результаты теории оптимального кодирования при наличии помех (теоремы 7.2, 7.3). 6.5. Информация связи гауссовых величин 1. Рассмотрим две группы гауссовых случайных величин: х = (*!,..., х,.), у =-- (уъ ..., уя) = (хг+х, ..., xr+s) и найдем ин- формацию связи F.4.4) между ними. Для этой цели удобно восполь- зоваться полученными в § 5.3 выражениями для энтропии гауссо- вых переменных, вычисляя информацию как разность Нх — Нх\у = = Нх + Ну — НхУ. Эту информацию можно вычислить в дан- ном случае также по формуле F.4.9), используя найденные в § 5.4 выражения для энтропии HPIQ. Указанные гауссовские переменные характеризуются векто- рами средних значений и корреляционными матрицами R=!#aelH|M(*e —/72„)(*р—т3)||, S= | = || М (г/р_ г — Пр_ г) (Уа- г — Па-. г) ||, (a,|3=l, ...,r; p,a Матрицы R,S предполагаем невырожденными (в противном случае следует отбросить часть переменных, оставляя столько переменных, каков ранг матрицы). Матрица взаимных корреляций U в общем случае может быть не квадратной (когда гфэ). Совместная корре- ляционная матрица имеет вид b F.5.1) uT s/ где Т означает транспонирование. Используя E.4.5), по формуле F.2.5) находим случайную ин- формацию /(*! х/, ylt ...,&)=--i-lndetK+-i-lndetR + + —lndetS ^ (kXi — mt)Krtj(xJ — mJ) + -]-X. 2 2 i.i=\ 2 X 2 (Xa—tna)Rai(x& — m&)+--^-- 2 (xP—mp)x a, p=l P, a = r+\ XS^iXa-fTla). F.5.2) 198
Для отыскания средней информации 1хУ целесообразно исполь- зовать простую формулу E.4.6а), которая дает 1ХУ= -lndetK + — lndetR+— In detS. F.5.3) Этому результату можно придать другую форму. Поскольку lndetA = SplnA F.5.4) для любой матрицы А, то формулу F.5.3) можно преобразовать к виду 1ХУ = — — Sp [In К + In R-1 + In S-Ц = о s-1 или, если учесть F.5.1) и перемножить матрицы, Isy = -±Sp\n( l ху 2 \U7R Lindet / * где 1 — единичные матрицы. Применим далее формулу det(A B] = det[(A^BD-1QD] F.5.5) С D/ см. приложение (П.2.4)] и получим Ixu^—— In det (I — US-1 W R^1) = = Spln(l — US-i^R) F.5.6) или /т„ = Sp In (I — UrR-1 US"). F.5.7) Если воспользоваться разложением логарифмической функции в ряд 1/1 \ ^ & /С С О\ то из F.5.7) будем иметь г - l V Sp(UrR-iUS-i)* ! v ' v XSp (US-1 Ur I?-»)*. F.5.9) 199
Мы получили несколько различных эквивалентных формул для вычисления информации связи гауссовых переменных. Неко- торыми из них, например F.5.7), можно пользоваться, приводя матрицы к диагональному виду, а некоторые формулы, например F.5.3), F.5.9), позволяют избежать этого. 2. Частный случай 1. Пусть в каждой группе имеется по одной переменной. Совместная корреляционная матрица F.5.1) имеет вид (#х — коэффициент корреляции, а матрицы R, S, U состоят из одного элемента: jR = (af), S = (al), U = (a1a2^1)). Тогда US-i UTR-i = (ax a2 /?г) (al) (ax a2 /?x) (af)-i = #? F.5.10) и из F.5.6) имеем IXB = —L.\n(\-R\). F.5.11) Частный случай 2. Возьмем три гауссовы величины с корреляционной матрицей o1oiR3 A F.5.12) и найдем информацию связи первой случайной величины с двумя остальными. В этом случае матрица К распадается на подматрицы следующим образом: Поскольку s_1= °2 J (JC-l Ijr _ имеем 200
Эта матрица состоит лишь из одного элемента. По формуле F.5.6) получаем — 2Ri R2 R3 Этот результат можно получить и из формулы F.5.3), вычис- ляя детерминанты ~~ I I 3 2 2 3 2 1 2 F.5.14) При этом F.5.3) дает IxV=-^\n(l-R\)—^-ln(l-Rtl-Rt2-Rl + 2RlRiRa), что совпадает с F.5.13). В дополнение к предыдущему вычислим тройную информацию связи F.3.19) трех гауссовых случайных величин. Без ограничения общности их корреляционную матрицу можно брать в виде F.5Л2). Используя E.4.6а), F.5.14), имеем _ 1.in a!--i- In аЗ = -1-1пA-^-^- 1аз) Z 2> ? Прибавляя сюда согласно F.3.20) парные информации IXlX3, 3, /jc33c1i которые имеют вид F.5.11), получаем Если произвести разложение найденного выражения по Rx, Rit Rz, то, как легко видеть, получим для тройной информации фор- мулу Ее полезно сопоставить с вытекающей из F.5.11) аналогичной формулой для парной информации. 3. Частный случай 3. Рассмотрим случай аддитив- ных независимых помех, когда переменные второй группы ylt Ун, ¦•¦. У г (s = г) есть результат прибавления к переменным пер- 201
Вой группы х1у ..., Х7 независимых гауссовых случайных величий fel» • • •» Sr* Уа = ха + 1а, а=1 г. F.5.15) В этом случае число переменных первой и второй групп одно и то же (s = г). Пусть R есть корреляционная матрица переменных хи ..., xr, a N — корреляционная матрица аддитивных помех it, ..., ?г. Из условия независимости помех ? от х вытекает, что корреляционные матрицы для суммы F.5.15) имеют вид S = R + N, U = R (tF = R). F.5.16) Чтобы применить формулу F.5.7), вычислим UrRUS. В дан- ном случае вследствие F.5.16) имеем но поэтому I_UrR US-1 = (RN~*+ I)-1. Следовательно, формула F.5.7) дает /xy = J_Spln(l+RN~1) =—lndet A+RN-1). F.5.17) Пусть kk— собственные значения матрицы RNh1, тогда, очевидно 2 k Если переменные xlt ..., хт и ?]( ..., ^г взаимно независимы, то обе матрицы имеют диагональный вид ЯН1ЯсАр||, N-=JiNa6aP|j F.5.18) и F.5.17) обращается в соотношение F.5.19) В противном случае можно добиться диагональности F.5.18) невырожденным линейным преобразованием С: Это преобразование оставляет информацию F.5.17) инвариантной, так как )C-1. F.5.20) 202
Поэтому и в данном случае можно пользоваться формулой F.5.19) после указанного преобразования. 4. Вычислим для гауссовых переменных характеристический потенциал F.4.10) случайной информации связи. Для этого за- пишем случайную информацию F.4.6), F.5.2) в следующем виде: X Ati(xj-m}), F.5.20а) где обозначено -1 0 \ /R UN-' /R 0 |Л1,|| = А = К-1- . . . . Подставляя F.5.20а) в формулу H(s)=lnMexp[—sl(xlt ...,xr; yx уг)] = «i.-,*,"; yL у,)- (Xi — nti)Кц1 (Xj—rrij)] dxlt..., dxr+s\ и учитывая, что при произвольной положительно определенной матрице D = ||Djj||, получаем (j.(s) = — s/xy + In det-'/2к + In det-l'2 ГA — s)K"x + 0 S; Объединим последние два члена: H(s)= — s/x lndet |l—s +sK( |1 . F.5.21) 2 1^0 S-i/J Матрица A—s) K + s ( ) заведомо является невы- рожденной и положительно определенной при 0 < s < 1 как сумма двух таких положительно определенных матриц. Поэтому формула F.5.21) и последующие формулы справедливы, по крайней мере, на интервале [0,1] Э s. 203
Полученному результату можно придать различную форму. По- скольку ~* 0) = ffA"S)R ° VbsKlx ) S-г) [\ О {l-s)Sj J /R- ON = /R sUWR-1 0| \ о s-1/ \s\JT s){ о s-v то, учитывая F.5.3), характеристический потенциал F.5.21) можно записать ц (s) = — In det К + -L^l In det R + -L-l jn det S— Л 2 2 Полученное выражение, как легко проверить, дает ц (s) = О при s = 0 и s = 1 в соответствии с отмеченными ранее свойствами F.4.11), F.4.12). После перемножения матриц в правой части равенства F.5.22) получим матрицу 1 1 Поэтому формуле F.5.23) можно придать вид 1 / 1 ,[ -In det ( -sV F.5.24) 2 ^U^Ri 1 / У Применяя формулу F.5.5), придем к результату ji(s) = -In det A — s2 US-1 U^ R-1)—s/sy -= = Lin det A —s2 B) + — In det A —B) F.5.25) 2 2 или [г (S) = L in det A —s2Ur R US) —s/xy = L In det A —s2 B)+ — In det A —B) 2, ? 204
что соответствует формулам F.5.6), F.5.7). Если использовать разложение F.5.8), то будем иметь I*00 = ~ 2 -Г ^! —1)SPB* F.5.26) по аналогии с F.5.9). В частности, легко найти дисперсию случай- ной информации связи гауссовых переменных. Для этого нужно взять коэффициент при -~ s2 в указанном разложении F.5.26), что даст D/{хх xr; ylt...,ys) = SpB = Sp В. Итак, мы видим, что все статистические свойства случайной ин- формации связи гауссовых переменных определяются лишь одной единственной матрицей В = US UrR-1 или В. Для частного случая 1, рассмотренного ранее, в соответствии с формулами F.5.25), F.5.9) имеем H(s)= 1-\n(\-s*Rl) + ^- ln(l-tff). Не представляет труда применить приведенные формулы и к дру- гим частным случаям. 6.6. Удельная информация стационарных и стационарно связанных процессов. Гауссовы процессы 1. Будем предполагать теперь, что как первая, так и вторая группа случайных величин представляют собой стационарные процессы F.6.1) в дискретном или непрерывном времени t. Эти процессы предпо- лагаются не только стационарными, но и стационарно связанными, так что комбинированный процесс г"» = {хи уи — оо<^<оо} является стационарным. Для отрезка [О, Т] можно рассматри- вать энтропии Нт, Н т, Н т, определенные в соответствии с фор- о "о го мулами и результатами гл. 5. Здесь Согласно общей формуле F.2.2) эти энтропии позволяют вы- числить информацию связи 205
Определим удельную информацию связи процессов {xt} и {yt} как предел 1х11=т1^~т1'>то- {6-6'3) Если сюда подставить F.6.2), то, очевидно, L,, = lim—Яг + lim — Нт— Пт — Нт т- F.6.4) Пределы, стоящие в правой части этого равенства, существуют в со- ответствии с теоремами 5.1 и 5.4 и соответственно равны F.6.5) (для дискретного времени, когда t — целое, Я.1. о совпадает SO ||_оо с Я|о | ... s-2l-i = ^Х> а Для непрерывного времени мы пользуем- ся формулой E.6.10), полагая в ней т = 1). Поэтому F.6.4) при- нимает вид -ту. F.6.6) Разумеется, информация F.6.2) и удельная информация F.6.6) могут быть конечными не только в том случае, когда Я г, Я г, Я тит или hx, liy, hxy конечны по отдельности. Поэтому, в принципе, можно вычислять информацию, минуя вычисление энтропии. Однако в практических случаях, когда информация ко- нечна, всегда так можно подобрать вспомогательные меры v, Q, входящие в определение энтропии (§ 1.6), чтобы были конечны все члены в F.6.2), F.6.6). Тогда задача вычисления информации связи сведется к рассмотренной в гл. 5 более простой задаче вычисления удельных энтропии, хотя бы при одном (самом удобном) выборе меры v или Q. Согласно сказанному в § 6.4 нужно следить, чтобы выполнялось условие мультипликативности F.4.1) или F.4.8), принимающее для процессов F.6.1) вид v (<hr „dyzj = v1 (dx~ J v2 (dyz J или Q (dx^dyzj - Qi (dx-J Q2 (dtr_J. F.6.7) При этом согласно F.4.9) вместо F.6.2), F.6.6) можно брать фор- мулы F,6.8) 206
где hPICi, hpiQ*, hp^^,— энтропийные плотности типа Кроме удельной информации рассмотрим информацию конца интервала, аналогичную энтропии Г конца интервала, входящей в формулу l) F.6.9) [см. E.6.17)]. Сравнивая соотношение E.6.15) с формулой F.2.2), легко ви- деть, что постоянную 2Г можно интерпретировать как информацию связи случайного процесса на одной полупрямой (— оо, 0) с про- цессом на другой полупрямой @, оо): 2Г=-/?о ?«,. F.6.10) — оо 0 Формулы F.6.9), F.6.10) справедливы для каждого из процес- сов {xt}, {yt}, {xt, yt}- Подставляя подобные выражения для каждой энтропии в F.6.2) и учитывая F.6.6), получаем + огA). F.6.11) Это равенство позволяет вычислить информацию для конечного от- резка [0, Т) более точно, чем по формуле 1хтут ~ iX!/T, выте- кающей из F.6.3). 2. Применим приведенные выше формулы для вычисления удель- ной информации ?вязи двух гауссовых стационарных случайных последовательностей {xt, t= ..., 1, 2, ...}, {yt, t= ...., 1,2, ...}. Поскольку средние значения гауссовых переменных не влияют на величину информации связи (см. например, F.5.3)) без ограниче- ния общности можно полагать, что средние значения равны нулю: Корреляционные матрицы или соответствующие спектральные плотности предполагаются заданными. Для вычисления удельной информации применим формулу F.6.6). Входящие в нее удельные энтропии для стационарных гаус- совых последовательностей были вычислены в § 5.5. Энтропии 207
HI, HI определяются равенством E.5.17), а для отыскания энтро- пии Н\у можно использовать формулу E.5.19). Итак, имеем / = T I In detune (ji) ld(i = Y J -1/2 -1/2 1 V2 Я -1/2 1 1/2 =4" 5S " 1/ 5S -1/2 Подстановка этих выражений в F.6.6) приводит к результату р ± Г 1 " 2 i/2 Ъ F6Л2) Поскольку цТ 22/ = Ry- является как бы квадратом коэффи- циента корреляции для спектральных составляющих, которые соответствуют значению ц, выражение в правой части равенства F.6.12) можно интерпретировать как сумму информации различ- ных спектральных составляющих. Каждое же слагаемое опреде- ляется простой формулой F.5.11). Перейдем к многомерному случаю. Найдем удельную инфор- мацию связи группы стационарных гауссовых последовательно- стей {xf}, a = 1, ..., гс другой группой последовательностей {УРГГ} = ix<t)> р = г + I, ..., г + s. В совокупности эти после- довательности описываются корреляционной матрицей RtLq, i,j = = 1, ...,/¦ + s или матрицей спектральных плотностей F-6.13) (фуж(ц) = Ч>хУ (ц) — эрмитово-сопряженная матрица). Здесь Ф* О*) = 1|фаР (И1)!! — матрица плотностей для группы процессов {х°}, фу (ц) = ||фР° (ц)Ц — матрица для процессов {yP-r}, a Фжу ((*) = 1|фа0 (|*I1 — матрица взаимных спектральных функ- ций. Применяя E.5.19), по формуле F.6.6) находим удельную эн- тропию /w = 4" \ [Ы det cpx([i) + \n det (Ру(ц)— -1/2 — In det фхВ (ц)] dj*. F.6.14) 208
К подынтегральному выражению можно применить все те преобра- зования, которые от формулы F.5.3) привели к F.5.6). После этого равенство F.6.14) примет вид 1 1/2 1}у = С lndet[l — ^xu(v-)ffy1(\>)%x{v)ffx1(v)]d^, 2 -1/2 F.6.15) что является матричным обобщением формулы F.6.12). Приведенные здесь результаты можно получить также при по- мощи формул F.6.8), E.5.20), как будет видно из дальнейшего. 3. Вычислим теперь удельную информацию связи двух групп стационарных гауссовых процессов: {х1}, а = 1 г и {у^~г} = = {xpt}, р = г + 1, ..,/¦ + s, протекающих в непрерывном вре- мени. Они описываются совокупной корреляционной матрицей R't-f, j, k = 1, ...,r + s, или совокупной матрицей спектральных плотностей (* обозначает комплексное сопряжение), аналогичной матрице F.6.13). Здесь Sx(a) = ||5аР(со)|| — матрица спектральных плот- ностей для первой группы {xf}, Sy (со) = ||SPa(to)|| — матрица для второй группы {уРГг}, $хУ(®) = |!5р0(со)|| — матрица взаимных спектральных функций, связывающих процессы первой и второй групп. Для вычисления удельной информации связи применим теперь формулу F.6.8), где удельные энтропии hpJQ> hy/Q, hpJyQ (при Qt = Q2 = Q) вычисляются по формуле E.7.25). В качестве ме- ры Q возьмем гауссову меру, задаваемую совокупной матрицей спек- тральных плотностей F.6.16) 0 Sy(co)/ Взаимные спектральные плотности Saa (со) здесь положены рав- ными нулю для того, чтобы было выполнено условие мультипли- кативности F.6.7). Если средние значения т выбрать совпадаю- щими с rttj (j — 1, ..., г + s) (что, конечно, совершенно необя- зательно для получения окончательного результата), из E.7.25) будем иметь /?/e = -L J SpG(S71HSa.(co))dco, 209
F.6.17) ^ = ^- ] SpG(S-1(co)S(co))(ico, OO где G(z) = (z—1—lnz)/2. Матрицы S,. (со), Sy (to) подбираются таким образом, чтобы ука- занные интегралы по о> сходились. Остается подставить выражения F.6.17) в F.6.8). Нетрудно убедиться, что при этом вклады первых двух членов г/2 — 1/2 функции G (г), взаимно уничтожатся. В самом деле, вследствие специального вида матрицы F.6.16) имеем с —1 с 1 °у—! Но это есть в точности сумма соответствующих выражений от G (S^S,) и G (VS,,). Поэтому в подынтегральном выражении останутся лишь лога- рифмические члены —Sp In S — Sp In Sx — Sp In Sy + Sp In S] dco. Члены с вспомогательными спектральными плотностями Sx, $y полностью выпадают опять-таки из-за отсутствия взаимных корре- ляций Saa (to), так как j + l^ °)] = SpInS, и мы получаем — lndetS(co)]dco. F.6.18) Здесь использована также формула F.5.4). Подынтегральное вы- ражение аналогично выражению, стоящему в правой части F.5.3). 210
Точно так же, как и в § 6.5, его можно преобразовать к виду F.5.6) или F.5.7). При этом найденная формула F.6.18) примет вид ixy = ~ F.6.19) Очевидна аналогия этого результата с соответствующей формулой F.6.15) для стационарных последовательностей. В частном случае, когда рассматривается информация связи одного процесса {xt} с одним процессом {yt} из F.6.19), имеем 1 °г 1 fi 1хи = \ 1ч 1 у 4я 3 5Х (со) Sy (со) Нетрудно применить полученные формулы к случаю аддитив- ных независимых помех (частный случай 3 из § 6.5). В этом случае имеют место соотношения yf = xf + lf, а=1,...,г, F.6.20) аналогичные F.5.15), F.5.16). Подробно тому, как формула F.5.6) приняла вид F.5.17), вследствие соотношений F.6.21) вы- ражение F.6.19) перейдет в выражение со i lndet[l+Sx((o)S|-1(co)]c(co. F.6.22) J 4я .— оо (О затронутых здесь вопросах см. работу Пинскера [1]). В случае стационарных гауссовых процессов кроме средней удельной информации связи можно вычислить также удельный характеристический потенциал случайной информации. Удельный потенциал выражается через полный характеристический потен- циал F.4.10) обычным предельным переходом г так что |*(s) ж \^(s)T. Его нетрудно вычислить при помощи формулы F.5.25), подобно тому, как удельная информация F.6.19) может быть вычислена из F.5.6). Принимая во внимание выше из- ложенное, нетрудно сообразить, какой вид будет иметь выражение для удельного потенциала в различных случаях. Так, в том случае, когда справедлива формула F.6.19), удельный потенциал имеет вид [х1 (s) = — С {In det 11 — s2 Sxy (со) S^г (со) Syx (со) Sx (со)] + — со + s In det [1 — SXIJ (со) Sy 1 (со) SlJX (со) S^r1 (со)]} da. 211
Из этого результата можно получить как удельную информацию F.6.19), так и удельную дисперсию ^~k I а также прочие удельные статистические характеристики случай- ной информации. 6.7. Информация связи компонент марковского процесса 1. Пусть заданы произвольные (необязательно стационарные) случайные процессы {xt}, {yt} в непрерывном или дискретном вре- мени t. Информация связи этих процессов на фиксированном от- резке a =sC t ^ b согласно F.4.9) равна Здесь мера Q предполагается мультипликативной, т. е. удовлетворяющей условию F.4.8) F.7.2) при любых а, Ь. Можно обозначать Q± (dxb) = Q {dxba), Q2 {dyba) = = Q(dya), имея в виду, что Qx и Q2 порождаются мерой Q(dxbadyba). Полагая в F.7.1) сначала b = t + т, а затем b — t и взяв раз- ность этих выражений, найдем приращение информации а а [а а \ l a a Это выражение можно записать при помощи условных энтропии в виде a"a t 'a * t 'a F.7.3) В самом деле, 212
Поскольку каждая разность ttPIQ zjPIQ __ неотрицательна [см. A.7.19), F.4.11I, то очевидна и неотрицатель- ность приращения F.7.3). Если процессы протекают в непрерывном времени, то F.7.3) можно поделить на т и перейти к пределу т -> О, получив анало- гичную формулу F.7.4) " ' a'a ' a'a затрагивающую энтропийные плотности , F.7.4a) T-0 T ~t fa t^O T °t fa [см. E.11.4), E.11.5), E.11.9)]. Если процессы {xt}, {yt} стационарные и стационарно связан- ные, то удобно полагать в F.7.3), F.7.4) а = — оо. Тогда выра- жение F.7.3) будет пропорционально т (и можно положить т = 1), а плотности в F.7.4а) не будут зависеть от t. При этом выражение F.7.4) совпадает с удельной информацией F.6.3). Возвращаясь к произвольному случаю, сравним энтропии P/Q P/Q Н t+x\xtyt и Н t+x\yt, входящие в правую часть F.7.3). I \ a a t \ a Очевидно, что вследствие F.7.2), Но вероятность P(dytt+X\y*0) можно записать Р (Щ+х | У*а) = М [Р (dy*+* 14, у*а) | ^]. F.7.7) Обозначим через Мх условное усреднение по х*а, yt с весом Р (йх'айу(\у{а) и через М2 усреднение по у'а с весом Р(йу*а). Тогда F.7.7), F.7.6) будут в виде РЩ+*\у% = t\1P(dy\+*\xta, у*а), 213
J'lQ Усреднения в F.7.5) можно представить как последовательные усреднения М^. Тогда разность энтропии F.7.5), F.7.6). запи- шется в форме Н P/Q м2 мЛ in х хР(^!+*к,#)- 1п р Wt t+X\ X F.7.8) Аналогично можно представить и вторую разность P/Q P{Q Нxt+x\xt + t \ a a t с—Н t+x\xt, входящую в F.7.3). Обозначим через t | а М3 усреднение по У(а+Х, xt с весом Р (dyt+xdxAxta) и через М4 усреднение по х(а с весом Р (dx{a). Тогда будем иметь И \dxt \xa, Н PIQ X м, к [ .¦."". 7 х F.7.9) Информация F.7.3) равна сумме указанных выражений F.7.8), F.7.9). Вычитаемые члены в фигурных скобках отличаются друг от друга разным порядком проведения операций усреднения и не- линейного преобразования. Нетрудно убедиться, что мера Q из них, по существу, полностью выпадает. Этими выражениями, выведенными без использования марков- ских свойств, удобно пользоваться для вычисления информации связи одной части компонент марковского процесса с другой ча- стью его компонент. Совокупный процесс {xt, yt) = {Sf} пред- полагается марковским относительно меры Р, а процесс {yt} мар- ковским относительно меры Q. Тогда (t > 0), Р {dy\+x | х*а, у'а) = Р (dy'+x | xt, yt) Q(dyt+X\x'a, y<a) [см. также F,7.2)]. 214
Поэтому усреднение М2 в формуле F.7.8) сведется к усреднению по dxidt/i, проводимому с весом Указанная формула примет вид r,plQ F.7.10) Второе усреднение М2 здесь, очевидно, относится к Wu и его можно проводить с весом Р (dWt). Если в последнем члене F.7.10) изменить порядок интегрирования по ?4 и у\+х, то F.7.10) можно записать Отсюда видно, что мера Q выпадает, и мы имеем X In F.7.11) Рассмотрим второе выражение F.7.8). Для марковского совокуп- ного процесса {xt, yt) относительно Р и марковского {xt} отно- сительно Q справедливы соотношения = Р Кроме того вес, соответствующий усреднению М3, равен х<а, yt) P [dxt dyt | *<) = 215
где Wt(dxtdyt) =P(dxtdyt\x$. Поэтому формула F.7.9) переписывается в виде i=M4( J Wt{dlt)P(dy\+x\lt)x t \ ауа F.7.12) Усреднение М4 здесь относится лишь к Wt и может проводиться с весом Р (dWt). Формулу F.7.12) по аналогии с F.7.11) можно записать также в форме, не содержащей Q: yt+r-HPJQ+x]xt = mt \wt(dit)x a t \ a .) t-y\+x) ,F,7ЛЗ) +,xt t I a Сумма выражений F.7.11), F.7.13) дает искомую информа- цию F.7.3): у\+х Гр^+'Ы*,№,> pt+x P(dx\+X\x.. , Xln — X It Коротко эту формулу можно записать, объединив оба члена: . F.7Л4) fPM+'lyiy.l.iyjp^+'ll,)^!,) 216
Для марковского совокупного процесса сумму двух первых членов в F.7.10), F.7.12) можно представить в более простом виде p/Q MHP/Q hp/q hp/q Учитывая это при суммировании выражений F.7.10), F.7.12), получаем результат также в другой форме F.7.15) где усреднения Mj, M2, M3 проводятся по %u Wt, Wt соответствен- но. В стационарном случае для этой цели нужно использовать ста- ционарные распределения Pcr{d\t), PCT(dWt), PCT(dWt). При этом формула F.7.15) дает (при т = 1) удельную информацию ixy. В случае непрерывного времени при вычислении по формуле F.7.15) удобно полагать т малым и (поделив предварительно вы- ражение на т) перейти к пределу т-> 0. Изложенный метод вычисления информации связи между ча- стями компонент марковского процесса тесно соприкасается с ме- тодом вычисления энтропии части компонент марковского про- цесса, приведенным в § 5.11. Формулу F.7.15) можно получить короче при помощи формул F.7.3), E.11.12а). Особый интерес представляет тот случай, когда один из про- цессов, скажем \xt}, является марковским сам по себе (относитель- но Р). Тогда х\+ I x х+А x> ' t \ a t \ t и в формуле ft -HPIQ >r-Hp/Q —Hp/Q —Hp/Q 217
аналогичной F.7.3), остаются лишь два члена ,Х „P/Q _ rjP/Q __ ттР/Q Поэтому для вычисления информации 1хху оказывается достаточно формулы F.7.12), где нужно поменять местами х и у. Именно »$+ '4+x\ yt) In F.7.16), 2. Переходя к рассмотрению различных частных случаев начнем с того случая, когда {хи yt) есть дискретный стационарный марковский процесс в дискретном времени, т. е. марковская цепь. При этом в формулах предыдущего пункта нет надобности вводить меру Q, ее можно опустить, заменив P(dx$/Q (dx$) на Р(х%) и Hp/Q на —Н. Можно также непосредственно использовать ре- зультаты § 5.2 и 5.3. Пусть, как и в § 5.2, 5.3, марковская цепь описывается вероят- ностями перехода я (х, у; х', у'). Применяя формулу E.2.8), на- ходим удельную энтропию комбинированного процесса Км = — 2 РСт (х, У) 2 п (*• #; х'> У">1п л (*' У' х'' У')- х- У х' , у' F.7.17) Для компонент х и у по отдельности удельная энтропия выра- жена формулой E.3.23): 2 W(x,y)n(x,y,x', у')х х, у , х' , у' X In 2 W(x", y")n(x", у"; х', у'"), х", у', у'" hy=-\Pcr(dW) Xln 2 W(x, у)п(х, у; х', у')Х х", у", х'" х ,у, х' , у' W(x", у")л(х", у", х'", у'). В приведенных формулах стационарное распределение Рст(х, у) является решением уравнения 2 Яст (х, у) я (х, у; х', у') = Рс, {х1, у') F.7.18) х, ч [см. E.2.7)], а распределение PCT(dW) = p[T (W7) П dW(Q — решением аналогичного уравнения, но соответствующего вторич- 218
ному апостериорному марковскому процессу, имеющему вероят- ности перехода E.3.22). Это уравнение имеет вид , У)) X ( 6у*к 2 W^x> У)п{-Х> У'х>> У)\ X П b\W'{x',y') —^ — — X ,. ... \ У W(x, y)n(x, y; x', yk) / \ x, у, x / X 2 W(x, y)n(x, y; x"\ yk) Y[dW(x, y) -= x, y, x" x, у = pCT(W'(x', y')). Аналогично записывается и уравнение (_ Ьх'х ЦГ(», у)п(х,у;х',у') \ X П б \W'(x', у')-- ^з X х" • V \ 2 W(x,y)n(x,y,xk, у'") \ х, у, у'" / X 2 t (х, «/) я (х, //, xft, //w) П dW (x, у) = х, у, у'" х, у служащее для определения стационарного распределения рст (W), которое соответствует вторичному апостериорному марковскому процессу W (когда наблюдается процесс {xt}). Приведенные фор- мулы, в принципе, решают задачу вычисления удельной инфор- мации ixy = hx+hy~hxy. F.7.19) Пример. Возьмем для примера марковский процесс {?t} с тре- мя состояниями g = а, Ь, с, рассмотренный в § 5.3. Его представ- ляем как комбинацию {xt, yt} процессов {xt} и {yt}, каждый из которых имеет два состояния х, у = 1, 2. Состояния ? = а, 5 = = Ь, !¦ = с интерпретируются как комбинированные состояния A = а) = {х=1, у=\), (g = fc) = (x=l, у = 2), & = с) = (х = 2, у = 2). Берем матрицу перехода /яA, 1; 1, 1) яA, 1; 1, 2) яA, 1; 2, 2)\ \\п{х, у; х', у'Ц = 1 ЯA, 2; 1, 1) пA, 2; 1, 2) пA, 2; 2, 2) = \пB,2; 1, 1) л B, 2; 1, 2) ¦ л B, 2; 2, 2)/ A — К — [х Я [х \ v l-2v v F-7.20) [I к 1 — К — [х/ 219
которая обладает определенной симметрией. Она не меняется, если процессы {х}, {у} поменять ролями (т. е. при замене х*±у, 1^2), поэтому при такой матрице перехода имеем hx = hy. F.7.20а) Найдем энтропию hxy по формуле F.7.17). Используя обозна- чение E.2.22), имеем _ 2 . !¦> *'. Л1плA, 1; х', */')=¦ ='-2 лB'2; х', у')\ппB,2; х', у') = Ъ3(К ц), х' , у' F.7.21) = A,(v, v)=— 2vlnv — (I— 2v)ln(l — 2v). Стационарное распределение Рст (х, у) обладает свойством симмет- рии РстA,1) = РстB,2). При его использовании уравнение F.7.18) дает отсюда РстB, 2) = и из F.7.17) в силу F.7.21) получаем Для отыскания информации F.7.19) вследствие F.7.20а) остается найти энтропию hx или hy. Для данного примера она была найдена в п. 3 § 5.3. Согласно E.3.36), E.3.37) она вычисляется по формуле MPi)+ 2 Pi ••• hv= ^i_ , F.7.23) где рь р2, ... — величины, определяемые соотношениями E.3.30), E.3.32), E.3.34) и т. д. Для рассматриваемого случая F.7.20) эти соотношения принимают вид P= ^ 220
Любые ph находятся последовательно по методу, описанному в в § 5.3. Взяв разность 2hy — hxy выражений F.7.22), F.7.23), полу- чим искомую удельную информацию связи ixy. 3. Предположим теперь, что {xt, yt} есть дискретный марков- ский процесс в непрерывном времени. Он описывается дифферен- циальной матрицей перехода я (х, у; х', у'), т. е. уравнением dPi Щ) - 2 Pt(xt, yt)n(xt, и x't, y't). F.7.24) X y dt д i ¦ *¦ t При помощи результатов § 5.9, 5.11 или формул п. 1 настоящего параграфа может быть вычислена плотность информации связи ixy, совпадающая в стационарном случае с удельной информацией связи. Чтобы плотность информации ixV была конечна (см. ниже) будем предполагать, что матрица я (х, у; х', у') имеет следующий специальный вид [ср. с E.11.26)]: я {х, у; х', у') = ях {х, у; х') 8уу, + я2 {х, у; у') 8ХХ- F.7.25) л1(х,у\х)=— 2 пг{х, у; х'); я2(х,у\у) = X' ф X = — 2  (л;, у; у') У' ФУ Вместо пуассоновской меры в E.11.27) выбираем теперь марковские меры Qx (хт0) и Q2 (Ут0) с дифференциальными матрицами перехода п , >\ f —-1 ПРИ х' = х> л«'(л;, х')=\ v [l/(m— 1) при х Фх; л / ,ч f —1 при и'— и, л$'(у, у)= { F y U/(/-l) при у1 фу (ш — число состояний процесса х (t), а / — процесса у (t)). Это означает, что комбинированная мера Q (хтоу1) = Qx {xT0) Q2 (z/J) описывается матрицей nv (х, у, х , у ) = —j уу{ 171— 1 6A8) вид которой напоминает F.7.25). Вычисления будем проводить по формуле F.7.26) /?/? F-7.27) [см. F.7.4)]. Вследствие E.11.12) по аналогии с E.11.28) имеем hp/Q. = 1 + М ^ *w {У, У') In l-ty- nw (у, у') 1 , F.7.28) УФУ 221
где nw(y, У')--- ^iW{x)^n(x, у; х', у'). F.7.29) XX' Аналогично = 1+М У п^{х, х'Iп\^^-п&(х,х')], F.7.30) X' =d. X Iе J где nrv(x, x')^W(y)^ji(x, у- х', у'). F.7.31) у у' v Плотность hxu подсчитывается методами, изложенными в § 5.9. Для того чтобы эта величина была конечной, и нужен спе- циальный вид F.7.25) комбинированной матрицы перехода. При помощи формулы E.9.8) для матриц F.7.25), F.7.26) получаем /4/0=2 + М 2 Щ(х, у; х'){\п\{т-\)пг(х, У;Х')]-1} + + М 2 ^ (х, у; У') {In I(l-\)n2(x, у; у')]-1). F.7.32) УФУ Вследствие F.7.25) равенства F.7.29), F.7.31) принимают вид nwiy, y')^^W(x)n2(x, у; у'), F.7.33) %(*, x') = 'Z^(y)n1(x, у; х'). у При подстановке F.7.28), F.7.30), F.7.32) в F.7.27) учтем, что х, у; /) = ММ[я2(х, у, у')\у'0]-=-- = М2я2(х, у; y')P(x\y[)-^Mnw{y, у') х и аналогично Щлг(х, у; х') = Мп^(х, х'). Последние равенства позволяют сократить линейные по л1 и члены и записать результат в следующей форме: 1ЗД =JjP(x,y)\1l пг {х, у; х') In Я! (х, у; х') + х, у \х' фх + 2-М*, у; у')\пп2(х, у; y')\-[P{dWdx)x У' Ф У ) X 2 Щ{х, х')\пп$(х, х') — X' ^ X -\PidW dy) 2 nw (у, у1) In nw (у, у'). F.7.34) J УФУ 222
Параметры мер Qb Q2 из окончательного результата, разумеет- ся, выпали. Распределения Р{х, у), P(dWdx), P(dWdy) отыскиваются как распределения вероятностей марковских процессов с известными вероятностями перехода. В стационарном случае для вычисления удельной информации нужно брать соответствующие стационарные распределения. В п. 4 § 5.11 был рассмотрен частный случай, когда процесс {л'(}, взятый в отдельности является марковским. В этом случае формула F.7.34) упрощается, из нее выпадают члены с суммиро- ванием по х'. Информация связи при этом оказывается равной разности энтропии E.11.28) и E.11.30). 4. Перейдем к рассмотрению диффузионных процессов. Будем предполагать, что комбинированный процесс {xt, yt} — {lt} яв- ляется диффузионным процессом, описываемым вектором сносов a.i (?> 0. /= 1, ...,'" + s, и совокупной матрицей локальных дисперсий 0 b,Ay,t) Подматрица Ьх — || 6йр |[, а, $ — 1, ..., г относится к компонен- там ха — la х-процесса; подматрица Ьу = Ц^рЦ, о, р = г + + 1, ...,/• + s соответствует //-процессу, т. е. другой части ком- понент совокупного процесса yp^r(f) = 1Р. Перекрестные локаль- ные коэффициенты предполагаются равными нулю: Ьа<у = 0, а = 1, ..., г; а = г. + 1, ..., г + s, чтобы не было бесконечных значений плотности информации ixy. Предполагается также, что подматрица Ьх не зависит от ух, ..., ys> а Ьу не зависит от х1г ...,хг, и эти подматрицы являются невырожденными. При этих условиях в качестве меры Q удобно взять меру, при которой процессы {xt}, {yt} являются независимыми диффузион- ными марковскими процессами каждый по отдельности. Первый имеет локальные дисерсии Ьх и нулевые сносы, второй—локальные дисперсии by и нулевые сносы. При таком выборе можно найти плотности энтропии h^yQ, hx/Q, h^IQ по формулам E.10.12), E.11.17), а значит, и плотность информации ixy = hpj® — hPJQ — hP/Q. Иначе, не вводя меру Q, информацию можно находить по формуле F.7.14). Любым способом получаем следующий результат: 1 r+s 2 e,"B=l 223
1 r+s т м p, a = r + 2 (Sap w {dz)] ^ [S fl° +l Его можно записать в следующей форме: 1 .. 2 h S ] сГр h ~ Saap r {dz)\ a, P=l r+s 2 [P"S «P F.7.35) из которой видна неотрицательность найденного выражения (в си- лу положительной определенности матрицы ||&pV||)- 5. В заключение этого параграфа положим, что процесс {xt} яв- ляется марковским в отдельности, процесс же {yt} при фиксиро- ванной реализации {xt} является многомерным диффузионным процессом с параметрами ар (х, у, t), bpa (у, t), р, а = 1, ..., s. Матрицу локальных дисперсий Ьра предполагаем не зависящей от х и невырожденной. Для вычисления информации 1ХУ или ixV в данном случае мож- но воспользоваться формулой F.7.16), определяя каждый из двух входящих в правую часть членов при помощи формул E.10.12), E.11.17) или E.11.25). Получаемой в результате этого разности ixy = ~гт 2 аР (х> У) ьро «о (х, у) — Р,о=1 1|И 2 ГС яр (х, у) Wt (dx) I bpo1 \\ аа (х, у)) Wt (dx)} 2 р, o=l Lt) J ' LJ J можно придать вид 2 [ap~^apWt(dx)} bpa1 [ao-\aaWt(dx)] = p 1 s = —M2Mps- ^ (ap — Mps ap) бр^1 (aa—Mpsao). F.7.36) 2 p, o=i Здесь, как и в F.7.35), Wt(dx) — апостериорное распределение Wt (dxt) — Р (dxtlyi), представляющее собой (вместе с yt) вто- ричный марковский Ц^-процесс с вероятностями перехода, опре- деляемыми теорией условных марковских процессов. Пример. В п. 2 § 5.11 был рассмотрен в качестве примера мар- ковский процесс xt с двумя состояниями и матрицей перехода E.9.6). Процесс yt представлял собой одномерный диффузионный процесс, для которого снос а (х) (но не локальная дисперсия Ь) зависел от х. Зависимость параметров а и Ь от у и t предполага- лась отсутствующей. 224
Апостериорное распределение W (dx) в этом примере опреде- ляется лишь одной переменной zt = Wt A) — Wt B), причем 2, WtB)~(l-zt)/2. Поэтому _ 70)- —[a(l)~aB)]- и формула F.7.36) принимает вид 1x4 " 86 1 2 \ A-22)ргт(г)^. F.7.37) Плотность распределения рст(г) указана в п. 2 § 5.11. Интеграл в F.7.37) вычисляется, и согласно E.11.24) имеем -j кС1+1 (ь / 1 Найденная информация есть не что иное, как разность вычислен- ных ранее энтропии E.11.20) и E.11.22). В заключение отметим, что результат F.7.36) справедлив не только в том случае, когда процесс {xt} является марковским. Для его справедливости нужно лишь, чтобы условный процесс yt, описываемый мерой Р (dy^\xba), был диффузионным и каузально- оандомизированно зависящим от х*а, так что НР1%\ t t = xt | хаУа — Нр{%%\ с Данное обобщение нетрудно получить из формулы xt \ ха F.7.12) (при замене в ней х на у), не ограниченной условием Мар- кова для xt. Изложенная в п. 1 теория, не использующая мар- ковские свойства, является полезной также для получения и других результатов.
Глава 7 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ. ВТОРАЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА В РАЗЛИЧНЫХ ФОРМУЛИРОВКАХ В этой главе приводятся важнейшие асимптотические результаты, касающиеся существования оптимальных кодов для каналов с помехами. Доказывается, что шенноновское количество информации является границей для асимптотически безошибочно передаваемого хартлиевского количества информации. В этом со- стоит вторая асимптотическая теорема. Приводятся формулы, показывающие быстроту убывания вероятности ошибки декоди- рования при увеличении длины блока. Изложение этих результа- тов в отличие от общепринятого ведется в терминах шенноновского количества информации, а не пропускной способности (т. е. не производится максимизация предельного количества информации по распределению вероятностей входной переменной). Теоремы 7.1, 7.3, 7.5 последовательно усиливают одна другую. Такое расположение целесообразно потому, что в таком виде лег- че знакомиться с этим материалом. С точки зрения результатов каждая из них, конечно, делает излишними предыдущие. Усиле- ние результатов, однако, достигается усложнением доказатель- ства. Имеет некоторое основание та точка зрения, что это услож- нение не окупается значимостью усиления (переход от теоремы 7.3 к значительно более сложной теореме 7.5 мало сказывается на поведении коэффициента а в области, где R близко к 1ху); мы из- лагаем все эти теоремы, чтобы читатель по желанию мог остано- виться на любой из них. Все указанные результаты могут быть распространены со случая блоков из независимых одинаково распределенных случайных величин на случай произвольного семейства информационно- устойчивых случайных величин. Это обобщение производится стандартным способом, и мы касаемся его лишь один раз (в теоре- ме 7.2). Изложение в настоящей главе ведется в простейшем дискрет- ном варианте, однако результаты имеют общее значение. Рас- пространение их на общий случай связано, по существу, лишь с из- менением способа записи формул, 226
7.1. Принципы передачи и приема информации при наличии помех Рассмотрим некоторый канал связи. Его входную переменную (в выбранный момент времени), которую условно будем называть передаваемым символом или буквой, обозначим через х. Она может принимать дискретные значения из некоторого множества X. Удобно предполагать заданными также вероятности Р (х), тогда х будет заданной случайной величиной. Будем рассматривать канал с помехами. Это значит, что при фиксированном значении х переменная на выходе канала (в фикси- рованный момент) является случайной, т. е. описывается услов- ными вероятностями Р(у\х). Случайную величину у можно на- звать принимаемым символом или буквой. Предполагается, что процесс передачи буквы х и приема бук- вы у может совершаться многократно с теми же самыми вероятно- стями Р (х), Р (у\х) (хотя возможно обобщение на случай перемен- ных вероятностей, см. теорему 7.2). Пусть п букв образуют блок или слово, например t = (xlt...,xn), л = (г/! уп) (ie^n, чеУ«). G.i.i) Желая передать по каналу какие-либо сообщения, мы естест- венно должны связать эти сообщения с входными словами при по- мощи некоторого кода. Тогда получатель на приемном конце, прочтя принимаемое слово и зная код, будет пытаться восстановить переданное сообщение. Поскольку в канале имеются помехи, есть возможность, что получатель ошибется и примет не то сообщение, которое было пе- редано. Код нужно подбирать из тех соображений, чтобы вероят- ность подобной ошибки была как можно меньше. Представляет принципиальный и практический интерес вопрос о том, чего можно добиться, выбирая хорошие коды, а также, какие коды являются хорошими и как их выбирать. Особенно ясным является случай простых помех (см. § 6.1). В этом случае передаваемое сообщение, очевидно, нужно связывать с той или иной областью — подмножеством Ек значений х, а значит и областью Gk значений у. Для простых помех при передаче буквы х из области Ek принимаемая буква у обязательно принадлежит области Gk. Поэтому, если сообщение сопоставлять с областями Eh и Gh (или, что то же, с их номером /г), то прием сообщений будет безошибочным несмотря на наличие помех в канале связи. При этом, конечно, число передаваемых сообщений не должно пре- вышать число L областей Ek (k = 1, ..., L) равное числу областей Gh). Каждая буква, очевидно, способна безошибочно передавать In L единиц информации (нат), а слово из п букв — п In L единиц. Попытка передать через канал больше информации неизбежно приведет к появлению ошибок. 227
Большой заслугой Шеннона является открытие того факта, что нечто аналогичное имеет место для произвольных (не простых) помех в асимптотическом случае п~>- оо. Если количество инфор- мации, приходящееся на букву, меньше некоторого лредела, то вероятность ошибочного приема сообщения можно сделать в сред- нем сколь угодно малой, увеличивая длину п слова, при исполь- зовании хорошего кода. Оказалось далее, что такие хорошие коды найти нетрудно: для этого достаточно выбирать кодовые слова на- удачу случайным образом. Эти вопросы, а также приемы декодиро- вания будут рассмотрены нами в настоящей главе. Предполагая независимость процессов передачи последователь- ных букв, легко записать вероятности слов G.1.1) через исходные вероятности РШ = П P(xt), РЫ1) = П P(yi\xi)< P(%, 4\) = P(t)P(r\\t) G.1.2) (в подобном случае будем говорить, что канал [P(i), P(r)jg)] является п-й степенью канала [Р(х), Р(у\х)]). Зададимся целью передать словами из п букв М сообщений, т. е. передать количество информации In M. Можно попытаться сделать это следующим образом. Из всех возможных слов типа ? = (xlt ..., хп) выберем М различных слов Sl v^ll» •••» Хщ)у ...» bAf \X\Mi ¦•¦> Хпщ. у 1.1.о) Их совокупность составит код, который должен быть известен как на передающем, так и на приемном конце канала. Каждое из М сообщений сопоставляется с одним из кодовых слов G.1.3), скажем k-e сообщение передается словом %k. При этом слово на приемном конце может быть случайным, иметь разброс из-за действия помех. Ему соответствуют вероятности Р (п|?). Приняв слово т], получатель информации еще не может сказать точно, что было передано слово §ь, а не ?; (I Ф k), если для обоих слов вероятности Р(г|||й), Р(т)||,) не равны нулю. Он может судить лишь об апостериорных вероятностях того или иного кодового слова. Если априорные ве- роятности P(k) всех М сообщений, а значит и всех кодовых слов \h считать одинаковыми (равными ММ), то по формуле обратной вероятности получим для кодового слова lh апостериорную ве- роятность i[p^\ik) , P[Z,h[r\]= = u 'Sfe; . G.1.4) i ~M~ ^' ^ i Если при фиксированном т) получатель информации выберет кодовое слово \k, то с вероятностью Р l\k\r\\ он получит правиль- 228
Ное сообщение, а с Ёероятностью 1 — Р l"?,h\\\] ошибется. Чтобы минимизировать вероятность ошибки, он, очевидно, должен вы- брать то слово \h, которому соответствует максимальная (из М возможных) вероятность G.1.4) или, что то же самое, максимальная функция правдоподобия P(r]||h). Средняя вероятность Рош ошибки будет при этом получаться усреднением вероятности ошибки 1 — Р \1и\ц\ not]: Рош = 1 -М max P ilh | тЦ = 1 - 2 max Г Р(г1'Ы 1 Р (ц) k ц и | 2]P(rilij) J (вследствие G.1.4)) или Л,ш=1—-Jr2maxP(Ti|y, GЛ 5) /И n k поскольку Выбор максимальной функции правдоподобия из функций . G-1-6) очевидно, эквивалентен выбору максимальной случайной инфор- мации / (gft, т]) = In [Р(г\%ъIР(ц)] из множества или выбору минимального «расстояния» из множества D0(llt л), ... , ZH(U, Л). G.1.7) если «расстояние» Do (?, tj) между точками ^ и т] определено фор- мулой D0(E,t,)--/(E,ti) = ln^L.. G.1.8) Согласно описанному правилу декодирования получатель инфор- мации решает, что было передано то сообщение, которое связано с кодовым словом, «ближайшим» к полученному слову т). Совокупность выходных слов 1], которые «ближе» к кодовому слову |h, чем к какому-либо другому кодовому слову, обозначим Gh. Тогда при фиксированном коде множество значений разобьет- ся на области декодирования Glt ..., GM, и решение о том, какое сообщение было передано, будет производиться по принадлежности принятого слова г] той или иной области декодирования. Схема кодирования и декодирования при некотором выбранном коде представлена на рис. 7.1. Как видно, используются не все входные слова g, а лишь кодовые слова \ъ ..., \м. 229
Передаваемое сообщение, по существу, совпадает с номером кодового слова, а принятое сообщение — с номером той области де- кодирования, которой принадлежит принятое слово. Предположив, что код фиксирован, найдем условную и среднюю вероятность ошибки. При фиксированном сообщении k вероят- к 1 о К о— • t Канал -о )G, -о ) • к 1 -,) А/ Рис. 7.1. Схема кодирования и деко- дирования для капала с по- мехами. ность ошибки совпадает с вероятностью того, что точка г), имеющая вероятности Р (r)||ft), выпадает вне области Gh, т. е. lUft)- G-1.9) лбе. Поскольку P(r\\?,h) ~ maxP(ri|^) внутри области Gft Э11 (по опре- делению этой области), то ,). G.1.10) G.1.11) Если теперь произвести усреднение м Р -= -— *- ' k=l по всем сообщениям, каждое из которых имеет вероятность ИМ, то сумма в G.1.10) распространится на все пространство значений ¦п., и мы получим формулу G.1.5). 7.2. Случайный код и средняя вероятность ошибки При фиксированном правиле декодирования, например, при описанном в предыдущем параграфе оптимальном правиле, вероят- ность ошибки (т. е. вероятность выбора получателем не того ко- дового слова %ъ> которое было передано) зависит от выбранного кода. Чтобы реже были ошибки декодирования, обусловлен- ные помехами, кодовые слова желательно выбирать по возможности более «непохожими», лежащими в некотором смысле как можно «дальше» друг от друга. Ввиду того, что одновременно увеличивать 230
«расстояние» между кодовыми точками ?ь ..., Ем нельзя без умень- шения их числа М, то желательно располагать кодовые точки «как можно равномерней» в пространстве X" значений %. Желаемая «рав- номерность» достигается по законам массовых явлений при боль- ших М (и п), если выбирать кодовые точки независимо друг от друга случайным образом. Случайный код Шеннона конструируется следующим образом. Кодовая точка \г получается в результате выбрасывания случай- ной величины !¦ с вероятностями Р (?). Вторая точка (а также тре- тья и прочие) выбрасывается независимо от других подобным же образом и является, следовательно, независимой случайной ве- личиной с вероятностями P(S2). Все кодовые точки \и ..., "Е,м в совокупности описываются распределением вероятностей Р Для каждого фиксированного кода (\ъ ..., 5м), полученного описанным способом, и фиксированного сообщения k имеется не- которая вероятность ошибки декодирования. Обозначим эту ве- роятность Рот (\k, 1Ь ..., 5м)- Согласно G.1.9) она равна Pomdk.b Ы=1- 2 Я (л 1 ift). G.2.1) Согласно определению области G,,, данному в § 7.1, суммиро- вание в G.2.1) должно проводиться по той области, где все Р ("П I 5г) < Р (т] I tk)> /=1, .-• , /е —1, /г+1, ... , М- поэтому Яош(|^, Ei , ... , Ы = 1— 2 РШн)- G-2.2) все Я (Т]15г) < Р(г\\ Ц) Вместо того чтобы вычислить вероятности ошибок Рош(\к, 5i, ... , 1м) и Рош(\%1 Ь)--^2 (|fe, Ei,..., Ы, значительно удобнее вычислить вероятность Рош(\Щ= 2 Яош (I* Лх,-Лм) Р (У ..^(Ы, G-2.3) ii. ¦ • ¦. 1м усредненную по различным случайным кодам. В этом удобстве и состоит преимущество случайных кодов. Вероятность G.2.3), как это очевидно из соображений симметрии, не зависит от номера передаваемого сообщения, и дополнительного усреднения по k, стоящего в G.1.11), в данном случае не требуется: Лш1 = Л>шA*). G-2.4) Вычисления показывают, что средняя вероятность G.2.3) имеет удовлетворительные асимптотические свойства (при п-*-оо). 231
Отсюда вытекает, что среди реализаций случайных кодов имеются коды со свойствами, по меньшей мере, такими же удовлетворитель- ными. Перейдем к вычислению вероятности G.2.3), G.2.4). Подстав- ляя G.2.2) в G.2.3) и учитывая G.2.4), находим п = 2 Р&и, л)/1- S I P(r\\lk) Иначе ш1= 2 если ввести возрастающую функцию f(x) — 1 и учесть, что 2 PF)=i- G-2.5) G.2.6) A — х) м 2 Р(г\ II) > P(tll G.2.7) В формулах G.2.2.), G.2.5), G.2.6) знак < не исключает знака <. Дело в том, что могут иметься «спорные» точки ц, равноуда- ленные от нескольких конкурирующих кодовых точек, скажем Р ЫЬ) ~ Р Oil5а) (' Ф Щ- Такие точки с равным основанием можно отнести и к области Eh и к области ?,. Если учесть неодно- значность, связанную с такими точками, то, как легко понять, вме- сто G.2.6) будем иметь неравенство G.2.8) 2 ^Eft, Л)/f 4 \ где под знаком суммы слева стоит строгое неравенство. В выраже- нии слева исключены вклады всех «спорных» точек, в выражении справа они учтены несколько раз. Рассмотрим выражение 2 ^A). являющееся РС<\\Ъ)>Р(т\\ %k) аргументом функции /. Неравенство Р (т) [ |) ^ Р (tj | |ft) или эквивалентно неравенстпам РEИ) /(Ь.ч) /7 2 9) поскольку в силу F.2.5) 232
Из неравенства P(Q sgC Р(Щц) е t{h^ (т. Неравенства G.2.9)) суммированием получаем 2 /(8. е. второго />Fh)- Данное неравенство может только усилиться, если сумму в правой части заменить на единицу: Рис. 7.2. Функция / (д-) = 1 — A —.V) ЛГ"! и мажорирующая ломаная. Используя это неравенство при рассмотрении правого неравенства G.2.8) и учитывая возрастающий характер функции Д находим Р( = М f (e G.2.10) Здесь через F (I) = Р{/ (?, tj) < /} обозначена функция распре- деления случайной информации связи / (|, г\) величин | и т|, имею- щих распределение Р E, т]). Полученная оценка выражается, та- ким образом, только через эту функцию распределения. Поведение функции / (х) показано на рис. 7.2. Эта функция на интервале 0 ^С х <! 1 возрастает от 0 до 1. Она имеет про- изводные и следовательно, является выпуклой. Очевидно, ее можно мажо- рировать ломаной — \)x, x, 1]. G.2.11) 233
После этого формула G.2.10) примет вид Me-', \]dF(/)<M Jj /> in M dF(I), G.2.12) / < In Af т. e. М J e~'dF{I) + F (In M). G.2.13) Точку излома / — In M в G.2.12) можно заменить на любую дру- гую точку / = "К; от этого неравенство только усилится. Получен- ные неравенства будут использованы в дальнейшем. 7.3. Асимптотическая безошибочность декодирования. Теорема Шеннона (вторая асимптотическая теорема) Важным и далеко не тривиальным фактом является то, что сред- няя ошибка декодирования может быть сделана подходящим выбо- ром кода сколь угодно малой при увеличении числа символов п без уменьшения уровня помех в канале и без уменьшения коли- чества передаваемой информации, рассчитанного на один символ. Этот результат получен Шенноном в 1948 г. [1] и (будучи формули- руем в терминах пропускной способности) обычно носит название теоремы Шеннона. Теорема 7. 1. Пусть (как в § 7.1) имеется канал [Р (у\х), Р (х)) и канал [Р (ц | I), Р (I)] [(см. G.1.1), G.1.2)], шляющийся п-й степенью первого. Пусть далее при п -> оо количество In M пере- даваемой информации растет по закону \п М = \п [e"R ] < nR G.3.1) (скобки обозначают целую часть), где R — не зависящая от п вели- чина, удовлетворяющая неравенству R<Jxy< оо. G.3.2) Тогда существует последовательность кодов К{пК таких, что Рош(К{п))-+0 при п-^оо. G.3.3) Доказательство. Вследствие независимости и одина- ковой распределенное™ различных символов xt и уъ, составляющих слова \ и ц G.1.1), имеем, что случайная информация / (?, г|) рав- на сумме /(!.*1)= 2 /(*«.?,) G-3.4) 234
одинаково распределенных независимых случайных величин I (xi, Hi)- Каждая из них имеет конечное математическое ожидание х, у Применяя к G.3.4) закон больших чисел (теорему Хинчина, см., например Гнеденко [1]), получаем, что ¦ xij <е и, следовательно, Р{|/(?,т]) — Iin\>ne}-+0 при n-voo, G.3.5) каково бы ни было е > 0. Рассмотрим среднюю вероятность ошибки по ансамблю случай- ных кодов, описанных в § 7.2. Положим е = (Ixy — R)I2 — = (/sr, — nR)l2n, так что п (R + е) = Ibi — па. Очевидно, что е > 0 в силу G.3.2). Поскольку . ... , ...[.Me-' при />/|г, — пе, nun [Me-', 1]< ( 1 при 7^/j,, — пе, то из формулы G.2.12) имеем ,i\)^IV]-m}. G.3.6) Рассмотрим первый член, стоящий в правой части. Из неравенства I ~> nR + пе следует, что Поэтому M f е- 1> n (R be) и в силу G.3.1) M С е~/^/7(/Хе"«е-'г«-"Е = е-'гЕ. Это выражение стремится к нулю при я-> оо. Второй член в пра- вой части G.3.6) стремится к нулю в силу G.3.5). Следовательно, Рош->0 при я->оо. G.3.7) Среди совокупности случайных кодов заведомо есть код (|J, ... • ••, ?a/)i Для которого вероятность ошибки не превосходит среднюю 235
вероятность Лш. (&?>•••.&)< Л>ш- G-3.8) Из G.3.7), G.3,8) вытекает, что для последовательности таких кодов РощA1,-Лпм)->0 при п-^оо. Этим заканчивается доказательство теоремы. Доказанная асимптотическая безошибочность передачи инфор- мации имеет место не только для каналов, являющихся степенями какого-то канала. Приведенное доказательство легко обобщает^ ся и на другие случаи. Существенным здесь является вводимое ниже условие информационной устойчивости. Определение. Последовательность случайных величин \п, цп, п = 1, 2, ... (п — индекс) называется информационно устойчивой, если А. оо >/|«,,«-> °° ПРИ п-^оо; Б. Отношение /(?", т]")//|'1т)" сходится при п-^оо по вероят- ности к 1. Соответствующее обобщение теоремы 7.1 можно сформулиро- вать так. Теорема 7. 2. (Общий вид второй асимптотической теоремы). Пусть имеется последовательность информационно устойчивых слу- чайных величин ?", г)", п = 1, 2, .... Пусть далее количество пе- редаваемой информации растет при п -> оо по закону 1пМ = /^A—11) {точнее М = [e'|%" (I~M)]), G.3.9) где ц > 0 не зависит от п. Тогда существует последовательность кодов таких, что Рош —>- 0 при п-^-оо. Доказательство. Непосредственно из определения ин- формационной устойчивости (свойство Б) имеем цп}-+®> G.3.10) при любом е > 0. Положим е = (i/2. G.3.11) Вследствие неравенства (Ме~; при />A—г) hn n, 1 при /<A — е)/^^ из формулы G.2.12) находим Рош<М \ e-'dF{I)+P{I A,1]) < / „ „—el п п\ ¦ 236
Второй член в правой части стремится к нулю при n^-оо в силу G.3.10), а первый член, используя G.3.9), можно оценить так: М X Следовательно, он стремится к нулю в силу G.3.11) и в силу свой- ства А определения информационной устойчивости. Доказательство теоремы завершают такие же рассуждения, что и в предыдущей теореме. 7.4. Асимптотическая формула для вероятности ошибки В дополнение к результатам предыдущего параграфа можно получить более сильные результаты, касающиеся быстроты исчез- новения вероятности ошибки. Оказывается, что вероятность ошиб- ки для удовлетворительных кодов убывает с ростом п в основном экспоненциально: Ллп<еа-а". G-4.1) где а — слабо зависящая от п величина, а а — постоянная, пред- ставляющая основной интерес. Для нее удается получить довольно общие формулы. 1. Теорема 7. 3. В условиях теоремы 7.1 имеет место нера- венство P0IB<2e-bn'<s)-n <»)]«, G.4.2) где (см. F.4.10), причем аргумент s заменен на t) a s— положитель- ный корень уравнения li'(s)-—Я. G.4.4) Предполагается, что R достаточно близко к 1яу для того, чтобы последнее уравнение имело решение, и что значение s принадлежит отрезку дифференцируемости потенциала ц (t). 237
Доказательство, Введем скошенную функцию распре- деления ?(*,)= J e.-'dF(l)\ jj z-'dF(I). G.4.5) — оо / v ао Формулу G.4.5) можно записать в таком виде °^-'dF(I) = [1—F(к)] J e-'dF(I). % — °o Подставляя это равенство в неравенство типа G.2.13) (но.при вы- боре точки излома К = nR) будем иметь Рош < М [ 1 -F (nR)} ^e-'dF (I) + F (nR) или со е~ ' dF (I)-\- F (nR) G.4.6) — оо вследствие G.3.1). Чтобы оценить полученное выражение, надо уметь оценивать «хвост» функций распределения F(nR), P (nR), соответствующих сумме независимых случайных величин. Это составляет содержа- ние теорем 4.6, 4.17. Применяя теорему 4.7 к функции F (nR) (при В (S) = —/ (S, 11)), имеем F (nR) = Р [ — / > лЯ] < e^t^' <s>--u <S>1 п, G.4.7) где (j G.4.8) т. е. [2]" , G.4.9) [ \x.y as— корень уравнения ц'(s) = — R. G.4.10) Корень s является положительным, поскольку —R > —Ixy — = |j,' @), а ц' (t) — возрастающая функция: |х" (t) > 0. Аналогично для скошенного распределения 1 — F (—х) = = Р[—/ <Г х] по теореме 4.6 имеем 1 — F (nR) < e-^J1" <7> -и <7>]'г. G.4.11) где ^ G.4.12) 238
причем jl'(s)=—Я, G.4.13) s<0, как как — Кц'(О) (ц/(О) = р/A) >О). Подставляя G.4.5) в G.4.12), находим G.4.14) Последнее справедливо в силу соотношения G.4.8), из которого вытекает со (j e-M/7(/)-e"^(". G.4.15) Следовательно, ?(Г)-ц(Г+1)-цA). G.4.16) Поэтому G.4.13) принимает вид ц/(? 1-1)-—/?. G.4.17) Сравнение этого равенства с G.4.10) дает: S+ 1 "S, и формула G.4.11) записывается в виде 1 — ~F (nR) < e^[<s- " i-1' (s»-^ <SH-Mi)] «, G.4.18) где учтено G.4.16). Подставляя G.4.7), G.4.18), G.4.15) в G.4.6) и учитывая G.4.10), получаем требуемую формулу G.4.2). Равенство G.4.3) следует из G.4.9). Теорема доказана. 2. Согласно приведенной теореме потенциал ц (s) определяет стоящий в экспоненте G.4.1) коэффициент a = s|i'(s)—n(s) G.4.19) как преобразование Лежандра от характеристического потенциала: a{R)= — sR — |i(s) (dji/ds-— R). G.4.20) Согласно общим закономерностям преобразований Лежандра из вогнутости функции ц (s) вытекает вогнутость функции a (R). Это можно доказать аналогично тому, как было доказано неравен- ство D.1.16а). Используя свойство вогнутости, можно экстрапо- лировать функцию a (R) касательными. Если функция a (R) вы- 239
числена, скажем, на интервале [Rlt 1лу], то можно произвести экст- раполяцию u{R) при R:s G.4.21) и заменить формулу P01I1<2e-'w«RJ менее сильной формулой ' ош ^= ¦it Типичный ход зависимости a (R) и указанная экстраполяция касательной показаны на рис. 7.3. Рис. 7.3. Типичное поведение коэф- фициента a(R)==lim шг°ш в экспоненте формулы G.4.1). Точка R = Iху соответствует значению s = 0, поскольку урав- нение G.4.4) при этом имеет вид |*' (s) = ц' @). Далее \к @) — 0, как это следует из определения функции ц (s); поэтому значению R = 1ху соответствует нулевое значение коэффициента а = 0. Исследуем поведение зависимости a (R) вблизи этой точки. Дифференцируя G.4.4) и G.4.19), получаем — |х" (s) ds = dR, da = so." (s) ds. Следовательно, da/dR — —s. Взяв дифференциал or этой производной и поделив на dR — = — n"(s)ds, найдем d* a/dR2 ^ 1 l)i" (s). В частности, в точке R — 1 xlJ, s = 0 имеем G.4.22) dR* u ц"@) Здесь [i" @), как легко видеть из определения G.4.9) функции \i (s), совпадает с дисперсией случайной информации / (х, у) (л-, (х, ¦ Р(х и) Г2 ху 240
Вычисляя аналогичным образом третью производную, имеем .?«¦=¦ H"'W . G.4.23) dRs In"(s)]3 Представляя функцию a (R) в виде ряда Тейлора и опуская члены с более высокими производными, согласно G.4.22), G.4.23) будем иметь V ; 2ц" @) 6[n"@)]3V X1J ' ' G.4.24) Приведенные выше результаты, связанные с формулой G.4.1), могут быть дополнены и улучшены в различных отношениях. Не- которые более сильные результаты будут указаны в дальнейшем (см. § 7.5). Эти результаты могут быть распространены на более общий [по сравнению с G.1.1)] случай произвольных информационно- устойчивых случайных величин, т. е. может быть произведено уси- ление теоремы 7.2 в направлении учета быстроты исчезновения ве- роятности ошибки. Мы не будем на этом останавливаться, а огра- ничимся указанием, что это делается совершенно стандартным спо- собом. Коэффициент а, не следует рассматривать в отдельности от п. Вместо этого нужно оперировать с комбинацией ап = па. Ана- логично следует рассматривать лишь комбинации Формулы G.4.2)—G.4.4) при этом заменятся формулами />ош<2е-^п(»)+дпE)> ^=_Rnt G.4.24а) ц„ @ = In J Я -' (d&» drf) Р^ (d В приведенном выше изложении изменится лишь способ записи формул. Формулы, оценивающие поведение вероятности ошибки, вы- водятся в работах Шеннона [3] и Фано [1]. 7.5. Усиленные оценки для оптимального декодирования 1. В предыдущем изложении декодирование производилось по принципу максимальной функции правдоподобия G.1.6) или, что то же самое, минимального расстояния G.1.8). Представляет инте- рес исследовать, чему будет равна оценка вероятности ошибки, если декодирование производить на основе «расстояния» D (?, г\), оп- ределенного как-нибудь по-другому. В настоящем параграфе мы будем считать «расстояние» D (?, г\) некоторой произвольно задан- 241
Ной функцией. Переход к новому «расстоянию», конечно, не можег уменьшить вероятности ошибки декодирования, но, в принципе, может уменьшить верхнюю границу оценивания указанной веро- ятности. Теорема 7.4. Пусть (как в теореме 7.1) имеется канал [Р (г) | ?), Р (§)], являющийся п-й степенью канала [Р | (у\х), Р (х)]. Пусть декодирование проводится по принципу минимального рас- стояния D(ti\)=^d(xity}), G.5.1) где d (х, у) — заданная функция. Количество передаваемой информации hi M растет с увеличе- нием п по закону lnM = ]n[e"«]<n# G 5.2) (R < Iху не зависит от п). Тогда существует последовательность кодов, имеющих вероятность ошибки декодирования Рош < 2е-п Is» **'(s»'-v ("о)]. G.5.3) Здесь s0 — один из корней s0, t0, r0 системы уравнений: Yi.so) = (pfr(ro,to), Ф/(г0,д=0, G.5.4) a y{s),q>{r,t) — следующие функции: У (s) = 1п2 esd ^'^ P (х) Р(у\х), G.5.5) ф(г,0 = 1п 2 z{r-i)d(x-v)Ytd{x'-y)P(x)P(y\x)P(x'), G.5.6) л:,г/,л:' Кроме того срг = —— , ф< — —^- . or at Предполагается, что уравнения G.5.4) имеют корни, лежащие в области определения и дифференцируемости функций G.5.5), G.5.6), причем s0 > 0, г0 < 0, t0 < 0. Доказательство. Как и раньше, будем рассматривать случайные коды и усреднять ошибку декодирования по ним. Запишем для средней ошибки равенства, аналогичные G.2.1)— G.2.4), но с произвольно заданным расстоянием D (|, т)). Будем теперь производить усреднение по т) в последнюю очередь: Рош = Лш, (I *) -- 2 Рош (I k, i\) P ft), G.5.7) где +1)...P(i«) G.5.8) 242
v \ 0, если все D(lh r\)>D(lh, ц), 1фк, G 5 9) 1, если хотя бы одно D(lhr\)^D(^k,r\), 1фк. Подставляя G.5.9) в G.5.8) по аналогии с G.2,5)—G.2.8), будем иметь )п 2 P(h)x l^kD(lv n) >D(lk, л) S(fth) /( Р(У) . G.5.10) Здесь неравенство D (\u ц) < D (ift, т)) нестрогое. Включив все те случаи, когда D (|;, rj) = D (is, ti), обозначим ^[Х]= 2 />(?,)• G.5.11) Тогда из G.5.10), используя G.2.11), получаем Яош (hi) < ъ р (? 111) / (^, id а, л)]) < < М [min {Mb\ \D(c, т))|,1} | Л]. G.5.12) Мы опустили здесь номер /г, поскольку выражения в G.5.10), G.5.12) оказываются не зависящими от него. Выбирая некоторое граничное значение nd (не зависящее от г|) и пользуясь неравен- ством I 1 при D(l,i\)>nd, G.5.13) из G.5.12) имеем ОШ{\) ^()Д) (| D (|, 11) С nd D Ц, Т|) > nd G.5.14) Усредняя это неравенство по т\, получаем для средней вероят- ности ошибки оценку Рг, G.5.15) где ^2= h РA,Ц), G.5.16) D Ц, Г]) > nd S а (^1)(г) G.5.17) I) (I, Ti) <nd D (g;, Ti) « ?> (|, t)) (в последнем выражении учтено G.5.11)). 243
Функцию распределения G.5.16) оценим при помощи теоремы ем G.5.18) 4,7. В предположении, что d> — MD (|, к]) = у' @), имеем где Г («„) = <*, so>O; G.5.19) пу (s) =-- In M cbD <5- ч), у (s) =- In M eS(i <*-»> — функция G.5.5). Вероятность G.5.17) выражается через двумерную функцию распределения D (I, T])<Xi D (§г, Ti) — D (I, ti) <X2 G.5.20) Чтобы получить для нее аналогичную оценку, нужно воспользо- ваться многомерным обобщением теоремы 4.6 или 4.7, т. е. форму- лой D.4.13). Это дает ' —Ф (Го. to)l дт I i> I I \ G.5.21) где /"о, ^0—корни уравнений cp,'(ro,g = d, Ф/(/-0,д = 0, G.5.22) а гсф (г, 0 — двумерный характеристический потенциал пФ (г, t) = InMerD (Sl ю+{lD «'• T1)-D l6' ^ = = я lnMerd {x- y^W'- y>-d (x' ")l G.5.23) [cm. G.5.6I. Предполагается, что r0 <0, to< 0. Подставим G.5.18), G.5.21) в G.5.15) и заменим М на е"«. Поль- зуясь свободой выбора постоянной d, распорядимся ею так, чтобы оценки для обоих членов в правой части формулы Рош<^Рг + Р2 G-5.24) равнялись друг другу. Это даст уравнение ''о^'Со. О"Ф(го- *о) —# = s0Y'(s0) —Y(s0). которое вместе с другими уравнениями, вытекающими из G.5.19), G.5.22), составляет систему уравнений G.5.4). Неравенство G.5.24) при этом перейдет в G.5.3). Доказательство закончено. 244
2. Остановимся отдельно на том частном случае, когда /?(</.ту) настолько далеко от 1ху, что корень г0 [см. уравнения G.5.4)] становится положительным. Тогда в неравенстве G.5.13) в качестве nd целесообразно выбрать сю, после чего оно примет вид min {MFn [D (I т]I, 1} < MFn [D& i\)]. Вместо G.5.15)—G.5.17) будем иметь Р0Ш<М 2 P(t,i\)P(l) = MF{oo,0) G.5.25) O(ij.Ti)<D A, Ti) [см. G.5.20); F (oo, X2) — одномерная функция распределения разности D {\и ц) — D (i, ti)]. Чтобы применить к неравенству G.5.25) теорему 4.6, нужно взять характеристический потенциал In 2 exp {t [D (|If T])-D (g, л)]} ^ E, Л) ый равен пер @, ?) в силу G.5.23). По ей неравенство замене М на епН) име Рош < exp {nR-n \t* ф/ @, П —Ф@, <*)]} = который равен пер @, ?) в силу G.5.23). По теореме 4.6 (при усили- вающей неравенство замене М на епН) имеем ) + «]. G.5.26) Здесь t* — отрицательный корень уравнения Ф/@, /*) = 0. G.5.27) Обратимся к уравнениям G.5.4). Обозначим через R* такое зна- чение R, при котором корень г0 равен 0. Соответствующие этому значению другие корни s0> t0 обозна- чим через So, /о- Второе уравнение из G.5.4) примет вид ф('@,/:) = 0. G.5.28) Сравнивая G.5.28) с G.5.27), видим, что t* -— ft,. Третье уравнение из G.5.4) при этом запишется так: s*0 У' К) — Y (s'o) + Ф @, П + R* ^- 0. G.5.29) Вследствие этого неравенство G.5.26) можно записать Рош < ехр {- п [s; y' {si) —у (s;) + R'-R]}. G.5.30) Последний результат справедлив, когда го>0 и когда фор- мулой G.5.3) нельзя пользоваться. Учитывая характер изменения потенциалов ф (г, t), у (s), можно убедиться, что условие г0 > 0 эквивалентно условию R < R* или s0 > sq. Введя равенствами G.4.19), G.4.20) образ Лежандра a (R) функции у (s), формулы G.5.3), G.5.30) запишем в следующем виде: *«Ч~ ~.Т*<Я<'~ G.8.31) R<R*. 245
3. Рассмотрим важное следствие из полученных результатов. Выберем функцию d (х, у) такого вида: G.5.32) где / (у) — функция, которая будет специализирована ниже. Со- ответствующее этому расстояние D (?, r\) = ^d(xit yt) является i несколько более общим, чем G.1.8). Вводя обозначение , G.5.33) х функции G.5.5), G.5.6) в этом случае можно записать y G.5.34) у Далее входящие в G.5.4) производные приобретают вид Y'(so) = e-v(s«)I]e^A-s'> + !«f(*)[/(y)-Y;(l-so)]. G.5.35) Фг К- 'о) - е~ф(Ло' U) ^ ехР IT» (! ~г0 + ^о) -т- G.5.36) )]. G.5.37) Второе уравнение G.5.4) будет удовлетворено, если положить 1 + t — г = — t, г = 1 + 2t, G.5.38) в частности г0 — 1 j- 2/0, так как при этом каждый член последней суммы обратится в нуль. Согласно G.5.35), G.5.36) первое урав- нение G.5.4) в этом случае примет вид = е-фA |-2(„, <„) у e2vy (-<„)-(-( H-2/0)f((/) jf(v4_ -yH-'o)]- " G-5-39) Чтобы удовлетворить этому уравнению, положим 1 —so= —*0, G.5.40) G.5.41) G-5.42) т. е. выберем конкретный вид функции /: 1 — sn 246
Тогда суммы в левой и правой частях G.5.39) отождествятся, и это уравнение сведется к уравнению -1. So-1)- G-5-43) Но это уравнение удовлетворяется в силу тех же самых соотно- шений G.5.38), G.5.40), G.5.42), в чем легко убедиться подстанов- кой их в G.5.34). Итак, удовлетворены два уравнения системы G.5.4). Оставше- еся уравнение вследствие G.5.38), G.5.40), G.5.43) приводится к виду A - so)Y' (So) + R = 0, G.5.44) причем в силу G.5.34), G.5.42) y(s)=- ln^exp и — so —so)l. G.5.45) J Дифференцируя это выражение или учитывая G.5.35), получим, что уравнение G.5.44) можно записать -Ytf(l-So)]- G-5.46) Остается проверить знаки корней s0, г0, 10. Полагая s0 = 0, из G.5.46) находим граничное значение /?тах--17'(8о)к=о = 2е^>[7;A)_7„A)], G.5.47) У которое совпадает с информацией 1ху. Действительно, вследствие G.5.33), поскольку ^,iP{x, у) Н (у\х), г(У) х имеем 2еуу{1)[у'у(\)-ЪA)] = Ну-Ну1х = 1ху. G.5.47а) У Анализируя выражение G.5.46), можно получить, что s0 > 0, если R < Iху. Прочие корни вследствие G.5.38), G.5.40) равны ro = 2so—I, to = so—l. G.5.48) Они, очевидно, отрицательны, если 0 < s0 < 1/2, т. е., если R до- статочно близко к 1ху. Если же корень s0 превосходит 1/2, так что г0 в силу первого равенства G.5.48) становится положительным, 247
То Следует, вместо G.5.3) использовать формулу G.5.30), как об этом говорилось в предыдущем пункте. Значения so, to, получаемые из условия г0 = 0, согласно G.5.48) оказываются такими: s*0 = 1/2, f0 = — 1/2. «Критическое» же значение R* получается из уравнения G.5.46) подстановкой sn = 1/2, т. е. оказывается равным или 2т>„<1/2) G.5.49) здесь учтены G.9.35), G.5.42)). Полученные выше результаты можно сформулировать в виде следующей теоремы. Теорема 7.5. В условиях теорем ,7.1, 7.3 существует по- следовательность кодов такая, что вероятность ошибки декодиро- вания удовлетворяет неравенству ху' G.5.50) где So € @, 1/2) — корень уравнения G.5.46), a R* — значение G.5.49). Коэффициент а0 =—s0R/(\ —s0) — y(s0) в экспоненте G.5.50) получен подстановкой равенства G.5.44) в выражение ao = soY'(s0)—T(so). G.5.51) стоящее в показателе формул G.5.3), G.5.30), G.5.31). 4. Исследуем поведение выражений, приведенных в теореме 7.5, при значениях R, близких к предельному значению Iху. Это исследование позволит сравнить указанные результаты с ре- зультатами теоремы 7.3. При любых расстояниях d (x, у), как видно из G.5.5), функция у (s) обладает свойством у @) =0. Это справедливо и для частного случая G.5.32), G.5.42). Поэтому разложение функции G.5.45) в двойной ряд по s и s0 будет иметь следующие члены: У (s) = Yio s + Y20 s2 + Tu s«o + ?зоs3 + T21 s2 s0 + +Y««; + ..., G-5-52) 248
причем Ую=-1*у G-5.53) в силу G.5.47), G.5.47а). Подставляя G.5.52) в G.5.51), получаем ... G.5.54) Чтобы выразить s0 через Iху — R, лодставим G.5.52) в урав- нение G.5.44), что дает Учитывая G.5.53), отсюда имеем hv — R = B^20 + Yii — Yio) so + CY3o + 2? 21 + + Y12-2Y2o-Yii)s5 + ---so + -.- G.5.55) и, разрешая относительно s0, S — Ъу — К Зузо+2уа1+У18 —2Yao —Yu „2 дз ° — y10 2уао+уи — y10 ° ° '" о —Y11 o+Yn—Yio 2yao + yai —Yio x(- ^—? V —.... G.5.56) V 2y + yY I Подстановка этого выражения в G.5.54) позволяет найти ве- личину а0 с точностью порядка (Ixv — RK. Коэффициенты yik могут быть вычислены при помощи G.5.45). Для удобства вычисления преобразуем это выражение к несколько другому виду, вводя условный характеристический потенциал случайной информации X X G.5.57) который связан с функцией G.5.33) очевидным соотношением yy(l-t) = H(t\y) + (l-~t)\nP(y). G.5.58) Производные от G.5.57) имеют смысл условных семиинвариантов от —/ (х, у) x, y)\y\ = —m, , y)\y]Y = G.5.59) [см. формулу D.1.12)]. 249
Подстановка G.5.58) в G.5.45) дает у (s) = In \] exp L {s\y)+ —5— ц (s01 г/) I P (у). G.5.60) г/ L 1 — so J Стоящее в экспоненте выражение, учитывая G.5.59), представ- ляем в форме \i(s | у) -h s A + s0 + sg + •••) Н. (s01 г/) = 1 о 1 ¦> -~"ms+"^" s ^Y s + ...+s( —mso + 1У Art I b0 -f" , Следовательно, exp I |x (s | y)-\ — n(s01 y) = 1—msH m2s2 m3 s3-\- 1 1 1 •-1 Ds2 -\-... ks3 + ... -—— mDsJ + m2s2s0 — mss0 -\- - D—m) ss%-\-... — 1 —ms-\ После усреднения этого выражения по г/ в соответствии с G.5.60), обозначая среднее значение чертой сверху, будем иметь = In \ — ms-\ (D + m2)s2—mss0 — +( — D—m 2 {k + 3D + )+ \ +( 6 V 2 Отсюда у (s) =- —ms + — [D + m2—(mJ] s2—mss0 — s2 + -.. G.5.61) Если в выражении G.5.60) положить s0 = 0, то оно в силу G.5.57) обратится в характеристический потенциал VL{s) = ln2e-SIlx"/)P(x, у), х, у совпадающий с G.4.3). Поэтому члены с s, s2, s3, ... в G.5.61) заве- домо пропорциональны полным семиинвариантам =— Ixy, 250
где К3 обозначает третий кумулянт. В дополнение к данным соотношениям из G.5.61) имеем Вследствие этого соотношение G.5.56) принимает вид s — X'J v —L- 0"" .,,,,m Подставим это равенство в формулу G.5.54), принимающую вид о p()g В результате получим <7563) Здесь мы учли, что согласно третьему равенству G.5.59) fi" @) = D - М1\х, у) - Рху -D = т*- Цу. Сравним этот результат с формулой G.4.24), которая справед- лива в том же приближении. При этом учтем, что ц"@)>0 и p'@)>D, поскольку условная дисперсия D не превосходит безусловную I*" @). В G.5.63) присутствуют добавочные положительные члены по сравнению с G.4.24), благодаря которым а0 > а. Следовательно, неравенство G.5.50) является более сильным, чем неравенство G.4.2) (по крайней мере, при значениях R, достаточно близких к 1Ху)- Таким образом, теорема 7.5 более сильная, чем теорема 7.3. Ряд других результатов, дающих усиленную оценку поведения вероятности ошибки декодирования, приведены в книге Фано [1]. 251
7.6. Некоторые общие соотношения между энтропиями и взаимными информациями при кодировании и декодировании I. Рассматриваемый нами канал с помехами характеризуется условными вероятностями Р (ц | Z) — ПР (г/; | х;). Вероятности Р (Е) — ПР (х,-) входной величины Е определяют способ получения случайного кода ?ь ..., Ъ.м. Передаваемое сообщение, имеющее номер k = 1, ..., М, сопоставляется с k-й кодовой точкой Еь- При декодировании наблюдаемая случайная зеличина г\ опреде- ляет номер / (л) принимаемого сообщения. Как отмечалось ранее, выбирается та кодовая точка lh которая в смысле некоторого «рас- стояния» является «ближайшей» к наблюденной точке г\. Преобразование I — I (ц) является вырожденным преобразо- ванием. Поэтому в силу неравенства F.3.9) имеем /Aii(l?i, -, Ы^/*.ч(||1, •.., Ем). G.6.1) Применяя F.3.9), нужно k отождествить с у, I отождествить с хъ а под хг понимать случайную величину, дополняющую I до т] (так что т] будет совпадать с хи х2). Код Ei, •••, 1м в G.6.1) предполагается фиксированным. Усред- няя G.6.1) по различным кодам с весом Р (Ei) ... Р (?,м) и обозна- чая результаты усреднения через hi\%1...t,M> ^ i g, ...iM, получаем /й/ц,...1м<^тц&1,,,Елг G.6-2) 2. Сравним теперь количество информации /*тц g,... ^ с 7^. Первое количество информации определяется формулой .ем-1/*яAЕ1-Ы^(Е1)-^(Ел1). G-6.3) где /ftri( |El. ••• - Е.м) = #т,( | Ei, ••• ' Ем) —-^ri|/e( I Ei, •¦• , Ем) = 2p(fe)yi/i(lt''); G>6-4) ( \{z)-=—z\x\z. G.6.5) Информацию же /^ можно записать /?, = яГ1-я^-2/Bр^р(т11^)-2р^)яч(|Е). G.6.6) Нетрудно убедиться, что после усреднения G.6.4) по Ei Еь второй (вычитаемый) член совпадает со вторым членом формулы G.6.6). Действительно, математическое ожидание 252
энтропии iiy)( | ?) не зависит от k в силу равноправности всех k (см. § 7.2), так что 2 6ft Разность информации G.6.6) и G.6.3), следовательно, равна /14-7*4 16, ... где М обозначает усреднение по Ъ,и ..., %м- Вследствие выпук- лости функции G.6.5) можно воспользоваться формулой [см. A.2.4)] при ? = % к т. е. неравенством f BР(*) МР(к) |Щ -Щ^Р(k)P(г, | |ft)j > 0. Но М/3 (т) [ |h) = 2^ (^ft)^1 (л I Ift) не зависит от k и совпадает с ар- к гументом функции / в первом члене соотношения G.6.7). Поэтому при каждом г] и из G.6.7) получаем /?ч-/*ч1б,...6м>0- G-6.8) Объединяя неравенства G.6.2), G.6.8), имеем hi<hn^hn, G.6.9) где для краткости опущены | |х ... %М- 3. Полезно связать информацию Ikl между входными и выход- ными сообщениями с вероятностью ошибки. Рассмотрим энтропию Hi{\k, lu .... |ft), соответствующую фиксированному передан- ному сообщению к. После передачи сообщения k остается некото- рая неопределенность, касающаяся того, какое сообщение будет принято. Эту неопределенность, численно равную Я, (| k; %х, ..., ?,м), пользуясь иерархическим свойством энтропии (§ 1.3), можно пред- ставить в виде суммы двух членов. Эти члены соответствуют устра- нению неопределенности в два этапа. На первом этапе указывается, является ли принятое сообщение правильным, т. е. совпадают ли Ink. Эта неопределенность равна — Pom{k; |17 ... , lM)\nPoul(k, li, ... , 1м) — 253
где Рош (/г, ?ь ..., iM) — вероятность ошибки декодирования при условии, что передано сообщение k (код фиксирован). На вто- ром этапе, если / Ф k, следует указать, какое же сообщение из остальных сообщений принято. Соответствующая неопределенность не может быть больше Рош In A — М). Следовательно, Усредним это неравенство по k, пользуясь формулой MMCXMMS), G-6.10) справедливой в силу выпуклости функции h2 (г) = —z In z — — A —z) In A —г) и неравенства A.2.4). Это дает #n<:(lii> ••• i 1м) < Л2(РОШ(^1, ..., i^) — -Pom(il, -- Ы1п(М-1). Можно далее произвести усреднение по ансамблю случайных ко- дов и аналогично, используя G.6.10) еще раз, получить Я/1*. I, ъм<Ъ(Рош) + Рот1п(М-\). G.6.11) Поскольку 1Ы и, бл, "= ^/ i е, . . . s«—Я/1 fc, El .. . iM, то из G.6.11) следует, что -1)- А2(РОШ) G.6.12) Точно те же самые рассуждения можно провести, поменяв местами k и /. Тогда по аналогии с G.6.12) будем иметь /*/16. tM>Hk—РошИЛГ— 1) — А2(РОШ) /|/)). G.6.13) В предположении равновероятности всех Л1 возможных сообще- ний k = 1, ..., М, имеем Я^ = In M. Кроме того, очевидно» /i2 (Рош) ^ In 2 = 1 бит. Поэтому G.6.13) можно записать 1пЛ1-Рош1п(Л1-1)-1п2</Ы|Б1.. Ъм. G.6.14) Ранее мы полагали М = lenR]; при этом и G.6.14) принимает вид 1п(е"«- 1)-РОш nR-\n 2 < /« | El. .. 6л(, т. е. 1 + In A -е-п*)//г/?-Рош-1п 21 nR < /«,,,... 6л/п#. 254
Учитывая G.6.9) и соотношение /?,, — nlху, отсюда имеем ре- зультирующее неравенство определяющее нижнюю границу для вероятности ошибки декоди- рования. При nR —>- оо неравенство G.6.15) переходит в асимпто- тическую формулу которой имеет смысл пользоваться при R > 1 ху (если R < 1ху, то неравенство становится тривиальным). Согласно этой формуле асимптотическая безошибочность декодирования заведомо не имеет места при R > 1 ху, так что граница Iху для R является сущест- венной. 4. Объединяя формулы G.6.9), G.6.14) и заменяя множитель при Рот на In M, будем иметь результат 1пЛГ—Рош]пМ-1п 2 </«</*„ </5ч. G.6.16) Величина In М -— I есть количество информации в хартлиевском понимании. Из асимптотической безошибочности декодирования следует, что это количество информации близко к шенноновскому количеству информации 1^. Поделив G.6.16) на In M = /, имеем 1—Л,щ —I" 2//</w//</*„//</6Т1//. G.6.17) Из теоремы 7.1 и других следует, что можно увеличивать / и производить кодирование и декодирование таким образом, что /|Л/7 ->¦ 1 при п -v 0, и в то же самое время Рош -> 0. Тогда, очевидно, длина диапазона 1 рот !2l, -Лз будет стре- миться к нулю: + 1п2//->0. G.6.18) Это значит, что с ростом п все точнее выполняются приближенные равенства или 1/п « 1м1п х Iknln « Iuln. G.6.19) Эти асимптотические соотношения обобщают равенства F.1.17), относящиеся к простым помехам. В соответствии с этим произволь- ные помехи можно считать асимптотически эквивалентными про- стым помехам. Номер I кодовой области G; является асимптотически достаточной координатой (см. § 6.3). 255
Подобно тому, как в случае простых помех (§ 6.1) обоснова- нием шенноновского количества информации 1ху = Нх-Нх]у G.6.20) являлась его сводимость (в соответствии с F.1.17)) к более просто- му «больцмановскому» количеству информации так в случае произвольных помех наиболее убедительным обосно- ванием количества информации G,6.20) является асимптотическое равенство /|т/1п Л! «1,
Глава 8 ПРОПУСКНАЯ СПОСОБНОСТЬ КАНАЛОВ. ВАЖНЫЕ ЧАСТНЫЕ СЛУЧАИ КАНАЛОВ Данная глава посвящена второй вариационной задаче, в которой отыскивается экстремум шенноновского количества ин- формации по различным входным распределениям. Канал, т. е. условное распределение на его выходе при фиксированном входном сигнале, предполагается известным. Максимальное значение ко- личества информации называется пропускной способностью. В от- личие от традиционных способов изложения здесь с самого начала вводится дополнительное условие, касающееся среднего значения некоторой функции от входных переменных, т. е. рассматривается условная вариационная задача. Результаты, относящиеся к слу- чаю отсутствия условия, получаются как частный случай приводи- мых общих результатов. В соответствии с характером изложения, принятым в настоящей книге, вводятся потенциалы, через которые выражается условная пропускная способность. Более подробно разбирается ряд важных частных случаев каналов, для которых удается получить резуль- таты в более явном виде. Так, для случая гауссовых каналов об- щие результирующие формулы, имеющие матричный вид, нахо- дятся путем применения матричной техники. Изложение в настоящей главе ведется, в основном, примени- тельно к случаю дискретных случайных величин х, у. Многие рас- суждения и результаты, однако, непосредственно переносятся на более общий случай путем изменения обозначения (например, замены Р (у | х), Р (х) на Р (dy | x), P (dx) и пр.). 8.1. Определение пропускной способности каналов В предыдущей главе предполагалось, что статистически заданы не только помехи в канале, описываемые условными вероятностями Р (у\х), но и сигналы на входе канала, описываемые априорными вероятностями Р (х). Поэтому в качестве канала связи бралась система, характеризуемая совокупностью распределений [Р (у | х), Р (х)] или, иначе, совместным распределением Р (х, у). Между тем, распределение Р (х) обычно не является неотъем- лемой частью реального канала связи, как условное распределение 257
Р(у\х). Иногда имеет смысл не конкретизировать заранее распре- деление Р (х), а фиксировать лишь некоторые технически важные требования, скажем вида ai^^c(x)P(X)^a,, (8.1.1) X где с (х) — известная функция. Обычно достаточно рассматривать лишь одностороннее условие типа Мс(х)<а„. (8.1.2) К требованиям такого типа относится, например, ограничение средней мощности передатчика. Тогда канал будет характеризо- ваться совокупностью распределения Р (у \ х) и условия (8.1.1) или (8.1.2). В соответствии с этим, ссылаясь на такой канал, мы будем употреблять выражения «канал \Р(у\х), с (х), аъ а2]», «канал [Р (у\х), с (х), а0]» или коротко «канал [Р {у | х), с (x)h. В некоторых случаях условия (8.1.1), (8.1.2) могут вообще отсут- ствовать. Тогда канал характеризуется лишь условным распреде- лением Р (у\х). Как видно из результатов предыдущей главы, важ- нейшей информационной характеристикой канала [Р (у\х), Р (х)] является величина 1ху, которая определяет верхний предел для асимптотически безошибочно передаваемого количества информа- ции. Аналогичной величиной для канала [Р (у\х), с (х)] является пропускная способность С. Пользуясь свободой выбора распре- деления Р (х), остающейся после фиксации условия (8.1.1) или (8.1.2), естественно подобрать наиболее выгодное распределение с точки зрения количества информации I ху. Это приводит к следую- щему определению. Пропускной способностью канала [Р (у\х), с (х)] называется максимальное количество информации связи между входом и выхо- дом: С-=С[Р (у, х), с (х)\ = sup 1ХЧ, (8.1.3) Р (х) где максимизация идет по всем Р (х), совместимым с условием (8.1.1) или (8.1.2). В результате указанной максимизации можно найти оптималь- ное распределение Ро (х), для которого С = /,у, (8.1.4) или хотя бы е-оптимальное РЁ (х), для которого где е сколь угодно мало. После этого можно рассмотреть систему [Р (у\х), Ро (х)] или [Р (у\х), Ps (x)\ и использовать для нее ре- зультаты предыдущей главы. Так, теорема 7.1 даст следующее утверждение: 258
Теорема 8. 1. Пусть имеется стационарный канал, являю- щийся n-й степенью канала [Р (у\х), с (х)]. Пусть при п-*-оо количество передаваемой информации \пМ растет по закону где R — не зависящая от п величина, удовлетворяющая неравенству R<C, (8.1.5) й С<оо — пропускная способность канала [Р (у\х), с (х)]. Тогда существует последовательность кодов таких, что Для того чтобы вывести эту теорему из теоремы 7.1, очевидно достаточно подобрать такое распределение Р (х), совместимое с ус- ловием (8.1.1) или (8.1.2), чтобы выполнялось неравенство R <С < Ixy ^ С. Вследствие (8.1.3), (8.1.5) это можно сделать. Аналогичным образом на каналы [Р (у\х), с (х)] распростра- няются и другие результаты, полученные в предыдущей главе для каналов [Р (у х), Р (х)]. Мы не будем на этом более останавли- ваться. Согласно определению (8.1.3) пропускной способности канала с помехами ее вычисление сводится к решению определенной экст- ремальной задачи. Аналогичная ситуация встречалась в § 3.2, 3.3, 3.6, где рассматривалась пропускная способность канала без помех. Разница между этими двукя случаями в том, что раньше максимизировалась энтропия, а теперь шенноновское количество информации. Несмотря на это различие, между данными экстре- мальными задачами имеется много общего. В отличие от прежней экстремальной задачи настоящую задачу будем называть второй экстремальной задачей теории информации. Экстремум (8.1.3) обычно достигается на границе допустимого диапазона (8.1.1) средних штрафов, поэтому условие (8.1.1) можно заменить односторонним неравенством типа (8.1.2) или даже ра- венством Мс(х)=а (8.1.6) (где а совпадает с а0 или а2). В этом случае канал можно специали- зировать как систему [Р (у, х), с (х), а] и говорить, что пропускная способность канала соответствует уровню потерь а. Рассматриваемый канал не обязан быть дискретным. Все ска- занное выше относится и к тому случаю, когда случайные величины х, у являются произвольными: непрерывными, комбинированными и т. п. При абстрактной формулировке задачи следует рассматри- вать абстрактное пространство Q, составленное из точек со, и два борелевских поля flt #2 его подмножеств. Поле § х соответствует случайной величине х, а §^ — величине у. Функция штрафов с (х) = с (со) есть § 1 — измеримая функция от ю. Кроме того должно быть задано условное распределение Р{А.\§^), А^3:2. 259
Тогда система [Р(-\§т), с (•). а] составляет абстрактный канал Его пропускная способность определяется как максимальное значение (8.1.3) шенновского количества информации ,= г в обобщенной версии (см. § 6.4). При этом сравниваются различ- ные распределения Р (•) на §ъ удовлетворяющие условию типа (8.1.1), (8.1.2) или (8.1.6). 8.2. Решение второй экстремальной задачи. Соотношения для пропускной способности и потенциала 1. Обозначим черех X пространство значений, которые может принимать входная величина х. В экстремальном распределении Ро (dx), соответствующем пропускной способности (8.1.3), вероят- ность может быть сконцентрирована лишь на части указанного пространства. Обозначим через X минимальное подмножество X 6 X, для которого Ро (X) = 1 (т. е. Р0(Х — X) = 0), и будем называть его «активной областью». При решении экстремальной задачи для удобства записи будем полагать, что х — дискретная величина. Тогда можно рассматри- вать вероятности Р (х) отдельных точек х и брать по ним частные производные. В противном случае пришлось бы вводить вариаци- онные производные, что связано с некоторым усложнением, не но- сящим, впрочем, принципиального характера. Ищется условный экстремум по Р (х) выражения ^ } j Р{х)Р{у1х) при дополнительных условиях %с(х)Р{х) = а, (8.2.1) Х^Р(х)^\. (8.2.2) X Условие неотрицательности вероятностей Р (х) пока можно не фик- сировать, а проверить его после решения задачи. Вводя неопределенные множители Лагранжа —р, 1 + р<р, которые будут затем определяться из условий (8.2.1), (8.2.2), со- ставим выражение х, у 260
- p % с (x) P (x) + A + рФ) V P (x). (8.2.3) X X Будем искать его экстремум, варьируя величины Р (х), х?Х, со- ответствующие активной области X. Приравнивая нулю частную производную от (8.2.3) по Р (х), х?Х, получаем уравнение 2Р(У I х) In Pp('j} -Ре{х) + РФ = 0 при х € X, (8.2.4) являющееся необходимым условием экстремальности. Здесь Р(у) = ^Р(х)Р(у\х). (8.2.5) Умножая (8.2.4) на Р (х) и суммируя по х с учетом (8.2.1), (8.2.2), имеем /Л.у = р(а — ер), т. е. С=р(а — ф). (8.2.6) Это соотношение позволяет исключить ф из уравнения (8.2.4), записав его в виде 2lP(y\x)\n pfr'*) =C-pa + PcW прихбХ (8.2.7) Уравнения (8.2.7), (8.2.1), (8.2.2) образуют систему уравнений, служащую для совместного определения неизвестных С, р, Р (х) (х? X), если область X является уже выбранной. При правильном выборе этой области в результате решений указанных уравнений должны получиться положительные вероятности Р (х), х?Х. Основное уравнение (8.2.4) или (8.2.7), умножая на Р (х), мож- но записать также в форме равенства %Р(х)Р(у\х)\п Р^*} =[С-ра+рс(*)]Р(*), (8-2.8) которое удобно тем, что справедливо при всех значениях х ? X, а не только при х ? X. Вне области X уравнение (8.2.7) не обязано выполняться. Не представляет труда записать обобщение приведенных урав- нений на тот случай, когда случайные переменные не являются дис- кретными. Вместо (8.2.7), (8.2.5) будем иметь С$а + $с{х), хеХ y (8.2.9) Искомым распределением при этом будет Р (dx) = p (x)dx, x^X* 2. Возвращаясь к дискретной версии, докажем следующее по- ложение. 261
Теорема 8.2. Решение уравнений (8.2.7), (8.2.1), (8.2.2) действительно соответствует максимуму информации Iху отно- сительно вариаций распределения Р (х), оставляющих неизменной активную область X. Доказательство. Вычислим матрицу вторых произ- водных от выражения (8.2.3): р (У 1А") р {у 1 х>) (8 2 10) дР(х)дР(х') dP(x)dP{x') 2d P (у) ф, ф не варьируются). Легко видеть, что эта матрица является не- положительно определенной (поскольку Р (у) ^ 0), так что К является выпуклой функцией от Р (х), х?Х. В самом деле при любых функциях / (ас). Неизменность области X при вариациях означает-, что варьи- руются лишь вероятности Р (х), х^Х. При таких вариациях функ- ция К имеет нулевые производные (8.2.4). Из выпуклости функции К следует поэтому максимальность функции в экстремальной точ- ке. Максимальность, следовательно, имеет место и для тех частных вариаций переменных Р (х), х?Х, которые оставляют неизменны- ми равенства (8.2.1), (8.2.2). Доказательство закончено. К сожалению, при записи и решении уравнения (8.2.7), актив- ное множество X заранее неизвестно, и это усложняет задачу. Для отыскания Х^ вообще говоря, следует производить максими- зацию С (X) по X. В некоторых важных случаях, например, когда для всего пространства X = X указанные уравнения дают распре- деление Р (х) > 0, этого можно избежать. Тогда С (X) есть иско- мая пропускная способность С. В самом деле, вследствие доказанной в теореме 8.2 максималь- ности информации Iху ъ этом случае нет надобности рассматривать меньшие активные области XjCzX. Распределение Рй1{х), имеющее любую меньшую активную область Хг, можно получить как предел распределений Р' (х), имеющих X в качестве активной области. Но для Р' информация Гху не больше экстремальной 1% по тео- реме 8.2. Следовательно, и предельная информация lim Гху, сов- падающая с информацией 1% для Р01, не больше, чем найденная экстремальная информация 1%. Таким образом, указанное решение является искомым решением. Утверждение теоремы 8.2 с дискретного варианта можно рас- пространить на произвольный случай, соответствующий уравне- ниям (8.2.9). 262
3. Для рассматриваемой вариационной задачи можно ввести термодинамические потенциалы, которые играют такую же роль, как и потенциалы в первой вариационной задаче, рассмотренной в § 3.2, 3.3, 3.6. Уже соотношение (8.2.6) аналогично известному соотношению Я = (Е— F)IT [см., например, D.1.14а)] термоди- намики. В нем С является аналогом энтропии Н, а — аналогом внутренней энергии Е, —ср — свободной энергии F; р = \1Т — параметр, обратный температуре. В дальнейшем средние штрафы Же (х) как функцию термодинамических параметров мы будем обозначать буквой R. Следующая теорема подтверждает указан- ную аналогию. Теорема 8.3. Пропускную способность можно вычислять дифференцированием потенциала ср по температуре: С = —d<p(T)ldT. (8.2.11) Доказательство. Будем варьировать параметр р = = 1/Т или, что то же самое, параметр а в условии (8.2.1). Эта ва- риация сопровождается вариациями параметра ср и распределения Р (х). Возьмем некоторую точку х активной области X. Если ва- риация da не слишком велика, то после вариации сохранится ус- ловие Р (х) + dP (х) > 0, т. е. х будет принадлежать проварьи- рованной активной области. В точке а: и до и после вариации вы- полняется равенство типа (8.2.4). Дифференцируя его, получаем уравнение для вариаций 2 ^n 0. (8.2.12) Суммирование здесь проводится по той области Y, где Р (у) > 0. Умножим это равенство на Р (х) и просуммируем по х. Учитывая (8.2.5), (8.2.1) и сохранение условия нормировки У У получаем (а — q)d$ — C d<$. В силу (8.2.6) это дает С=р2-^, (8.2.13) а, следовательно, и (8.2.11). Доказательство закончено. Если известен потенциал ф (Т) как функция температуры Т, то для определения пропускной способности по формуле (8.2.11) остается конкретизировать значение температуры Т (или пара- метра Р), соответствующее условию (8.2.1). Для этого удобно рас- смотреть новую функцию /?=-Т-^+ф, (8.2.14) 263
Подставляя (8.2.11) в (8.2.6), имеем уравнение ^ a, T.e.R = a, (8.2.15) служащее для определения величины Т. Формулу (8.2.14) удобно рассматривать как преобразование Лежандра функции ср (Т): R(S) = TS + <p(T(S)) (S=—^ Тогда согласно (8.2.15) пропускная способность С будет являться корнем уравнения R (С) = а. (8.2.16) Кроме того, если рассматривать потенциал (8.2.17) то уравнение (8.2.15) принимает вид -^(Р)--а- (8.2.18) Из этого уравнения находится |3. Формула (8.2.11), определяющая пропускную способность, при этом преобразуется к виду С = Г(р)-?^-. (8.2.19) Формулы (8.2.18), (8.2.19) аналогичны формулам D.1.146) и C.2.9) при учете D.1.14). Это является следствием того, что в случае второй вариационной задачи выполняются те же обычные соот- ношения (8.2.6), (8.2.11), что и в случае первой вариационной за- дачи. Взяв дифференциал от (8.2.15)^ получим dalT = —d (dy/dT) = dC, (8.2.20) что соответствует известной термодинамической формуле dH = dElT для дифференциала энтропии. 4. Полезным является следующий результат. Теорема 8.4. Функция С (а) является выпуклой: d"C(a) <0. (8.2.21) da2 ^ К ' Доказательство. Пусть вариации da соответствует ва- риация dP (х) и вариация dP (у) = 2 Р (y\x)dP (x). Умножим X 264
(8.2.12) на dP (x) и просуммируем по х?Х, учитывая, что X X в силу (8.2.1), (8.2.2). Это дает (8.2.22) Первый член здесь, очевидно, не может быть отрицательным. По- этому da df> ^ 0. Поделив это неравенство на положительную ве- личину (daJ, имеем d^/da < 0. (8.2.23) Искомое неравенство (8.2.21) вытекает отсюда, если учесть, что Р = dClda в силу (8.2.20). Доказательство закончено Знак равенства в (8.2.21), (8.2.23), как видно из (8.2.22), отно- сится к тому случаю, когда все dP [y)lda = 0 в области Y. Типичный ход кривой С (а) представлен на рис. 8.1. Точка мак- симума функции С (а) вследствие соотношения (8.2.20), которое можно записать в форме dClda = f>, соответствует значению |3 = 0. При этом частном значении уравнение (8.2.7) принимает вид V Р(у\х)\п Р{у1х) = С. (8.2.24) Здесь совершенно отсутствуют с (х), а. Уравнение (8.2.24) соответ- ствует каналу Р (у\х), определенному без учета условий (8.1.1), (8.1.2), (8.1.6). Действительно, решение вариационной задачи без учета условия (8.1.6) приводит именно к уравнению (8.2.24), ко- торое нужно дополнить еще условием (8.2.2). Это максимальное значение С обозначим Стах- Обсудим некоторые следствия теоремы 8.4. Функция а = R (С) является обратной функции С (а). Поэтому она определена лишь при С ^ Стах и является двузначной (хотя бы на некотором при- мыкающем к Стах интервале), если в (8.2.21) имеет место знак «<» при р = 0. Для одной ветви >0, т. е. Г>0 или р>0; эту ветвь мы назовем нормальной. Для другой, аномальной ветви имеем dC Легко понять, что нормальная ветвь является вогнутой: d2R(C) _ dT q {C<cC ) dC2 ~ dC raax 265
а аномальная ветвь — выпуклой: ) (С<Сшах), dC2 dC как это следует из выпуклости функции С (а). Если теперь рассмотреть функцию <р (Т), являющуюся преоб- разованием Лежандра от R (С): <p{T)=—CT + R(C(T)) (TdR T=-- dC [(см. (8.2Л5)], то, поскольку, d(p п dC dT dT ' dT2 она будет выпуклой в нормальной ветви и вогнутой в аномальной. ^тах 0 Ж ОЬласть р>о R( % Область "max) a Рис. 8.1. Типичный вид зависимости между R = a и С. В заключение этого параграфа вернемся к тому случаю, когда задано условие (8.1.1) на интервале [аъ аа]. Предыдущее исследо- вание поведения функций С (a), R (С) позволяет немедленно найти для него значение пропускной способности С. Могут встретиться три случая. 1. Если «1 < R (Сшах) < О., то, очевидно, максимальное значение пропускной способности ^ = ^тах относится к числу допустимых. В этом случае фиксация условия (8.1.1) не приводит к уменьшению пропускной способности канала. 2. Если 266
то интервал {аъ а2] относится к нормальной ветви зависимости между С и а. Функция С (а) здесь является неубывающей, и про- пускная способность поэтому равна С = С (а2). 3. Если то нужно рассматривать аномальную ветвь. Поскольку функция С (а) при а < Стах является невозрастающей, максимальное зна- чение С (а) достигается при а = ах, т. е. С = С (ах). 8.3. Вид оптимального распределения и статистическая сумма Рассмотрение, проводимое в этом параграфе, будет иметь мень- шую степень общности, чем результаты предыдущего параграфа. Оно ограничено условием существования описываемого ниже об- ратного линейного преобразования L. Как видно из формы уравнений F.2.8), F.2.9), их решение легко записать, если найдено преобразование (8.3.1) обратное преобразованию (8.3.2) или в другой записи Lf{y)= )p(y\x)f(y)dy. Обратное преобразование (8.3.1) записывается при помощи ядра Q (у, dx) = q (у, x)dx следующим образом: L g (x) - или L'1 g(x) = '*PlQ(y, x)g(x), L~1g{x) = \q (y, x)g(x)dx. x (8.3.3) Для простоты остановимся на дискретном варианте. Тогда II Q (У, х) II = IIР (У Iх) II будет матрицей, обратной матрице При помощи этой же (но транспонированной) матрицы можно записать также преобразование G(x)=F(у) L-1 - 2 F (У)Q(У, х), (8.3.4) и 267
обратное преобразованию F(y) = G(x)L = ^G(x)P(y\x). (8.3.4a) X Придавая уравнению (8.2.7) вид У или М=-№{х)-Ну(\х), хеХ (8.3.5) У и используя обратное преобразование (8.3.3), будем иметь т. е. (8.3.6) Левую часть можно записать в виде 2 Р (Х)Р (у I •*) или S ^ (х)Р (у\х). Следовательно, Применяя обратное преобразование (8.3.4), находим P(x) = ^expm—C-^Q(y,x1)l^c(x1) + Hy{\x1)]\Q(y, x). (8.3.7) Неизвестные параметры С, Р определяем при помощи (8.2.1), (8.2.2). Суммируя (8.3.7) по i и учитывая, что левая часть обра- щается в единицу, получаем уравнение {21r (8.3.8) которое эквивалентно (8.2.2). (Использовано, что 2 Q (у, х) = 1, X поскольку в силу (8.3.2), (8.3.3) функции f (у) — 1 соответст- вует g (x)= 1 и наоборот). Подставляя далее (8.3.7) в (8.2.1), имеем 2 2 exp/pa-C-2Qte, ^)[рс(х) + Я,(|х)П X j «ex l * J xQ(y, x)c(x) = a. (8.3.9) Равенства (8.3.8), (8.3.9) образуют систему двух уравнений от- носительно двух неизвестных С и р. 268
Решать указанные уравнения можно с использованием обыч- ных термодинамических методов и понятий. Удобно обозначить Ь(У)= ^Q(y,x)c(x), v(y) = exp[-2Q(#, x)Hy(\x)j . (8.3.10) Тогда выражение (8.3.8) примет вид обычной статистической суммы Z= ег = ^е-^^)у(у), (8.3.11) у определенной ранее формулами C.3.11), C.6.4). Здесь b (у) является аналогом энергии, a v (у) — «кратности вырождения». Равенство (8.3.9) при этом можно записать так: d^ (8.3.12) eb(y)v(y) ^ . Если использовать (8.3.11) для определения потенциалов Г = = In Z, ф = —Р In Z, которые аналогичны ранее введенным по- тенциалам Г, F [см. D.1.7), C.3.12)], то они будут не чем иным, как потенциалами, рассмотренными в § 8.2. Они удовлетворяют приведенным в § 8.2 обычным термодинамическим соотношениям, что совершенно естественно в свете формул (8.3.11), (8.3.12), имею- щих вид, обычный в статистической термодинамике [см. C.6.4), C.3.17I. Они соответствуют каноническому распределению P(y) = e-T~Vb(y)v{y) (8.3.13) по переменной у. Искомое же экстремальное распределение согласно (8.3.7) имеет менее обычный вид />(%) = 2e-r-P^>QQ/, x). У В дополнение к теории, развитой в § 8.2, формула (8.3.11) ука- зывает способ явного вычисления потенциалов Г, ср. Приведем в заключение следующий результат. Теорема 8. 5. Если преобразование (8.3.2) обратимо и если условная энтропия Н у (| х) = Ну \ х не зависит от х, то отношение С/(а — а0) заключено в интервале между |3 и р0. Здесь а0 и р0, р определены равенствами ap dp ap (8.3.14) т. e. Po=^-K), P = -^(fl)- da da 269
Доказательство. При Ну{х) — Ну\х из (8.3.10), (8.3.11) вследствие равенства 2 Q (у, х) — 1 (уже упомянутого х ранее) имеем Г(Р)=-Я„|, + Г0(Р), (8.3.15) где Потенциал Го (Р) очевидно обладает тем же свойством вогнутости, что и Г (Р). Поэтому его образ по Лежандру (8-3-16) является выпуклой функцией. Из (8.2.18), (8.2.19), если учесть (8.3.15), находим С + Я^ = Г0-р^, ^ = -« (8-3.17) или согласно (8.3.16) x^S0{a). (8.3.18) Вследствие указанной выпуклости отношение ISO (а) — So (ao)]/(a— —а0) лежит на интервале между -^ (а) = р и -^ (а0) = р0. Выби- рая а0 из условия So (ao) = Hy\x, получаем в силу (8.3.18), (8.2.19) утверждение теоремы. Доказательство закончено. Укажем одно следствие из данной теоремы. Если а>а0 (тогда Р ^ Ро). то будем иметь Р (а — ао)< С < ро (а — а0), (8.3.19) в частности С < р0о, (8.3.20) если к тому же р0о0 > 0- 8.4. Симметричные каналы В некоторых частных случаях пропускная способность кана- лов может быть подсчитана более простыми методами, чем методы § 8.3. Рассмотрим сначала так называемые симметричные каналы. Изложение будем вести в дискретном варианте. Канал [Р (у\х), с (х)] называется симметричным по входу, если каждая строка матрицы /Р(у1\х1) ... ЯЫ*Х) \\Р(у\х)\\^\ ) (8.4.1) \Р(У1\Хг)... Р(Ут\Хг) 270
является перестановкой одних и тех же величин plt ..., рт, имеющих смысл вероятностей. Очевидно, что для таких каналов выражение Ну(\х)=-%Р(у\х)[пР(у\х) (8.4.2) у не зависит от х и равно Нетрудно понять, что (8.4.2) совпадает с Ну\х. Формуле (8.3.5) при этом можно придать вид = — fjc(x) (х = хх, ..., хт), (8.4.3) или у х (8.4.4) если E = 0 или условие, связанное с с (х), отсутствует. Соотноше- ния (8.4.3) образуют уравнения относительно неизвестных Р (хх), ..., Р (хг). Поскольку Ну (\х) — Hv\x = Н для каналов, симметричных по входу, то количество информации Iху = Ну — —Ни\х для таких каналов равно Максимизация Iху по Р (х) сводится поэтому к максимизации энт- ропии Ну по Р (х): Формула (8.4.4) еще более упрощается для полностью симметрич- ных каналов. Канал называется полностью симметричным, если в матрице (8.4.1) каждый столбец также является перестановкой одних и тех же величин (скажем pj, } = I, ..., г'). Нетрудно убедиться, что равномерное распределение P(x) = const=l/r' (8.4.5) является решением уравнений (8.4.4) в случае полностью симмет- ричных каналов. В самом деле, вероятности для полностью симметричных каналов не зависят от у, поскольку сумма 21P(y\x) = 2jP'i 271
для всех столбцов одна и та же. Следовательно, распределение по у является равномерным Р (у) = const = 1/г. (8.4.6) Отсюда вытекает, что Ну = In r и равенства (8.4.4) выполняются, если С = In г — Н. (8.4.7) Поскольку Jmm р . р 1 то результат (8.4.7) можно записать так: С — 1пМ1/р;- — М1п1/р;-. (8.4.9) Здесь М обозначает усреднение по / с весом pjm Приведенное рас- смотрение можно обобщить и на тот случай, когда переменные х и у носят непрерывный характер. При определении симметричных каналов в этом случае вместо перестановки элементов строки или столбца матрицы Р (х, у) нужно говорить о перестановке соот- ветствующих интервалов. Формула (8.4.7) будет иметь вид J »(dy) где г, _ Г Q (dy) ' J P(dy) Вместо (8.4.9) будем иметь Р (dy) P (dy) Усреднение здесь соответствует весу Р (dx); Q (dy) — вспомога- тельная мера, на основе которой производится перестановка ин- тервалов (меняются местами равные интервалы в шкале, при ко- торой мера Q является равномерной). 8.5. Двоичные каналы 1. Простейшим частным случаем полностью симметричного канала является двоичный симметричный канал, имеющий два состояния на входе и на выходе, и матрицу вероятностей перехода 272 / ) ^г- (8.5.1)
Согласно (8.4.5), (8.4.6) пропускная способность такого канала осуществляется при равномерных распределениях Р (х) = 1/2, Р (у) = 1/2 (8.5.2) и в силу (8.4.7) оказывается равной С = 1п2—/га(р) = 1п2+р1пр + A — рIпA— р). (8.5.3) Из (8.5.1), (8.5.2) имеем р/2 A— р)/2 Вычислим для двоичного симметричного канала термодинамиче- ский потенциал \i (t) G.4.3), позволяющий оценить вероятность ошибки декодирования G.4.2) в соответствии с теоремой 7.3. Подставляя (8.5.2), (8.5.4) в G.4.3), получаем [< (/) — In {[A —рУ~ * -\-pl~~'] 2~'} — = 1п[р1-' + A— рУ~'] — tin 2. (8.5.5) Уравнение G.4.4) согласно (8.5.5) принимает вид ^- + 1п2 = Я, (8.5.6) а коэффициент а в экспоненте G.4.2) можно записать а^ —s^ — ln[pI~s + (l—p)I-s]-r-sln2-= (l v p1- p)'-s] + ln2 — R. (8.5.7) Формулам (8.5.7), (8.5.6) можно придать более удобную форму, вводя вместо s новую переменную Р= A —Р= —— Тогда, учитывая, что A — s) In p = In p1"8 = In p + In [p1-8 + A — рI-5], из (8.5.7) будем иметь a = plnp + (l— рIпA— р) + 1п2 — R = ln2 — Aa(p)—R. (8.5.8) Аналогичным образом упрощаем уравнение (8.5.6) и получаем уравнение plnp + (l —рIпA—/>) = # —1п2. (8.5.9) 273
Учитывая (8.5.9), (8.5.3), видим, чТо условие R < С означает не- равенство pln/> + (l — p)ln(l—/>)</> In/> + A—/ или (р —рIп—-—<0, 1 — р т. е. р > р, так как —-— < 1 (поскольку р < — } . Значению R = О, как видно из (8.5.9), соответствует значение 1п[4рA-р)] 1п[A-р)/р1 Когда R возрастает до С, значение р уменьшается до р. Более сильные результаты получаются при помощи теоремы 7.5, на чем, однако, мы не будем останавливаться. 2. Рассмотрим теперь двоичный, но не симметричный канал [Р (у\х), с (х)], характеризуемый вероятностями перехода и функцией штрафа Преобразование (8.3.2) в этом случае имеет вид Ему соответствует обратное преобразование (D=l —а —а'). Далее, согласно (8.5.10), Поэтому и формула (8.3.11) дает Z = exp{-^-[pc1 + Aa(a)] + -|-lpca+Aa(a')]} (b + Ss), (8.5.11) 274
где 1 \ D У Используя далее (8.3.12), получаем Далее, поскольку С = ра + Г = pa + In Z [см. (8.2.6), (8.2.17)], из (8.5.11), (8.5.12) получаем Г» ^ I _ с ^-. (8.5.13) В частности, если условие с с (х) отсутствует, то, полагая Р = О, находим 1 —а—а' В другом частном случае, когда а = а'; сх = с2 (симметричный канал), из (8.5.13) будем иметь ^ j 2_J?l+Ma)_ + _§?L_==1 2_А a l2a l2a 2V ;> l-2a l-2a l-2a что естественно совпадает с (8.5.3). 8.6. Гауссовы каналы 1. Пусть х и у являются точками многомерных эвклидовых пространств X, Y размерности г и q соответственно. Назовем канал [р (у\х), с (х)\ гауссовым, если: 1) переходная плотность вероятности гауссова Хехр -2iAa(yi—mt)(yi— тМ, (8.6.1) причем 2) Лг;- не зависят от х, а средние значения т% линейно зависят от х: i — mi ->г 2jaih xh, (O.D.Z) 3) функция штрафов с (х) есть степенная функция от х сте- пени не выше второй: fe ^ ft, i 275
Очевидно, можно так выбрать начало координат в простран- ствах X и Y (сделав замену xh + Cki1c\1) -> xh, yt— т° -> yt), что- бы линейные пох,у члены (8.6.3) и в экспоненте (8.6.1) обратились в нуль. Далее, постоянное слагаемое в (8.6.3) является несущест- венным и его можно опустить. Поэтому без ограничения общности в (8.6.1), (8.6.3) можно писать лишь билинейные члены. Приме- няя матричный способ записи, запишем (8.6.1), (8.6.3) в виде pQ/]x)=deti/2-^exp{-^(yr-XrcF)A(y-dx)j, (8.6.4) с (*)=--— хгсх. (8.6.5) Здесь подразумевается матричное произведение рядом стоящих матриц. Символ Т обозначает транспонирование; х, у — матри- цы-столбцы, а хг, уг, соответственно — строки: xT = (xlt ..., xr), yr = G/i, .-., у,). Матрица А является, разумеется, невырожденной положи- тельно определенной матрицей, которая обратна корреляционной матрице К = А. Матрицу с также будем считать невырожденной и положительно определенной. Как видно из (8.6.1), действие помех в канале сводится к при- бавлению у = dx + z (8.6.6) шумов гт = (гъ ..., zs), имеющих гауссов закон распределения с нулевым средним значением и корреляционной матрицей К: Mz = 0, Mzzr = K (8.6.7) (здесь снова применена матричная форма записи). 2. Перейдем к вычислению пропускной способности С и плот- ностей вероятности р (х), р (у) для рассматриваемого канала. Для этого обратимся к уравнению (8.2.9), которое, как указывалось в § 8.2, выполняется в подпространстве X, где имеются ненулевые вероятности р (х)Ах. В нашем случае X будет эвклидовым под- пространством исходного r-мерного эвклидова пространства X. В этом подпространстве матрица с (при помощи которой можно определить скалярное произведение), конечно, также будет невы- рожденной и положительно определенной. Плотность распределения р (х) будем искать в виде гауссового распределения x^x (8.6.8) (так что Мх = 0, Мххг = Кх). (8.6.9) Здесь г — размерность пространства X; Кж — неизвестная (не- вырожденная в X) положительно определенная корреляционная 276
матрица. Средние значения Мх выбраны нулевыми в соответствии с (8.6.4), (8.6.5) на основе соображений симметрии. Из гауссового характера случайных величин х и z, если учесть (8.6.6), вытекает, что у также являются гауссовыми случайными величинами. При этом, усредняя (8.6.6) и учитывая (8.6.7), (8.6.9), нетрудно найти их среднее значение и корреляционную матрицу Му = 0, Myyr = Ky = K + dKxdr. (8.6.10) Следовательно, (8.6.11) Подставляя (8.6.5), (8.6.11) в (8.2.9), получаем L in [det A det К„] + — М [(уг—хг dr) А (у—dx) — — утКу1у\х] = $а—-$-хтсх — С, х?Х. (8.6.12) При взятии условного математического ожидания учтем, что М [(у — dx) (уг—хт dT) | х] = Mzzr = К, М [ууг | х] = = М [(dx + z) (x* dT + zT) | x ] = dxxT d^ + MzzT = dxxT dT + К в силу (8.6.6), (8.6.7). Поэтому (8.6.12) принимает вид -ln[detKyA] + SpKA — SpK^K— xrdrK;1dx = = 2ра—рхгсх— 2С, х^Х. (8.6.13) Полагая, в частности, х = 0, имеем — In [detKy A]+ Sp (А —К^1) К = 2р а—2С (8.6.14) и [после сравнения этого равенства с (8.6.13)] xrdrK^1dx = pxrcx, x?X. (8.6.15) Начиная с этого места под операторами с, drKy xd и другими мы бу- дем понимать операторы, действующие на векторы х из подпро- странства X и переводящие их в векторы из этого же подпростран- ства (т. е. под х-операторами будем понимать соответствующие проекции исходных х-операторов). Тогда равенство (8.6.15) в силу произвольности х из X даст drK7'd = pc. Подставляя сюда равенство 1 r d7')-1A, (8.6.16) 277
следующее из (8.6.10) (поскольку К = А), получаем dr(lB + AdK*d7')-lAd = pc, (8.6.17) где 1 у — единичный «/-оператор. Используя при А* = dr, В* = AdK* операторное тождество А* A + В* А*) = A + А* В*) А* (8.6.18) [см. формулу (П. 1.1) приложения], приводим уравнение (8.6.17) к виду Aж + АКж)-1А = рс. (8.6.19) Здесь A^--drAd (8.6.20) является х-оператором, а 1Х — единичный х-оператор. Оператор с (как исходный г-мерный оператор, так и его г-мер- ная проекция) является согласно вышеуказанному невырожденным положительно определенным. Из (8.6.19) следует поэтому невырож- денность оператора (ls+AK*)-1^. Отсюда нетрудно заключить, что каждый из операторов (\х -|- + АКХ)~\ А является невырожденным. В самом деле, детерми- нант произведения AЖ + АК;».) А матриц, равный произведению де- терминантов матриц-сомножителей, не мог бы быть отличным от нуля, если хотя бы один детерминант-сомножитель равнялся бы нулю. Из неравенства же det А Ф 0 вытекает невырожденность А. Итак, существует обратный оператор А = (drAd)~1. Используя этот оператор, решаем уравнение (8.6.19): (lj. + AKJ^^PcA-1, 1ж + АКж = А(|Зс)-1. (8.6.21) Отсюда получаем Кж = — с-» — А-1 = — с-1 —(d^d)-1. (8.6.22) Р Р Далее, учитывая (8.6.10), имеем Ку = A-1—d (dr Ad) dr + — dc-1 dT. (8.6.23) Тем самым распределения р (х) (8.6.8), p (y) (8.6.11) найдены. 3. Остается определить пропускную способность С и среднюю энергию (штрафы) а = Мс (х). В силу (8.6.5) последняя, очевидно, равна а = — Мхгсх = — SpcK* (8.6.24) 278
или, если подставить (8.6.22), а = —Spf— 1 —сй-1"^— Т-— SpcA-i. (8.6.25) 2 L P J 2 2 v K ' Здесь мы учли, что след единичного лг-оператора равен размерно- сти г пространства X, т. е. «числу активных степеней свободы» случайной величины х. Соответствующая «теплоемкость» равна daldT =7/2 (8.6.26) (если г не меняется при изменении dT). На каждую степень сво- боды приходится, таким образом, средняя энергия Г/2 в соответ- ствии с законами классической статистической термодинамики. Чтобы определить пропускную способность можно использо- вать формулы (8.6.14), (8.6.25) [при использовании (8.6.16), (8.6.21)] или обычные формулы для информации связи гауссовых переменных, которые дают С =-. — In det Kv A = — Sp In Kv A. 2 y 2 y Подставим сюда (8.6.23). Легко доказать (перенося при помощи формулы (8.6.41) d слева направо), что С = — Sp In [ 1 — d (drAd)-i drA + Tdc drA] = 2 = — Sp In (TAV1), (A = drAd). Иначе, (8.6.27) Приведенную логарифмическую зависимость С от температуры Т можно получить уже из формулы (8.6.25), если учесть общее термодинамическое соотношение (8.2.20). Оно в данном случае в силу (8.6.26) принимает вид dC = da/T = 7dT/2T. Справа стоит дифференциал от (r/2)ln T + const. Найдем теперь термодинамические функции ср (Т), С (а) для рассматриваемого канала. Используя (8.2.6), (8.6.25), (8.6.27), (8.2.17) имеем —Ф(Т) = ТС—а = Г— 1пГ+ — Sp In (Sc-i)j T — ^ ^-SpA-ic, (8.6.28) 279
Далее, исключая параметр Т из (8.6.25), (8.6.27), получаем С=— ln/-i-SpcA-i + -i-aW — Spin (Ac). (8.6.29) 2 V ^ / / 2 Эти функции, как указывалось в § 8.2, облегчают использование условия (8.1.1), (8.1.2). Величина С возрастает с ростом а, зависимость между Сна в соответствии с терминологией § 8.2 является в данном случае нормальной. Если условие имеет вид (8.1.1), то пропускная спо- собность канала получается из (8.6.29) подстановкой а = а2. 4. Примеры. Простейшим является тот частный случай, когда матрица Ас кратна единичной: Ас— 1Ж/2Л/. (8.6.30) Это имеет место в том случае, когда, скажем, \ = i'-'r; (8.6.31) { 0 при /> Подставляя (8.6.30) в (8.6.29), в этом случае получаем C-=G/2)ln(l+a/7iV) (T = 2iV + 2a/7), (8.6.32) так как SpcA-> - 2N Sp 1Я - 2N7, Sp In (Ac~i) = —r In BN). В соответствии с формулами (8.6.22), (8.6.25) корреляционная мат- рица на входе имеет вид Kx = (T/2—N)lx = 1ха/7. Рассмотрим несколько более сложный пример. Пусть прост- ранства X, Y совпадают друг с другом, матрицы -^ с, d являются единичными, а матрица К диагональна, но не кратна единичной: К = || ЯЛ, ||. Помехи, следовательно, являются Независимыми, но не одинако- выми. В этом случае Ас-* = К с-1 = || bl} /2Nt ||. (8.6.33) Подпространство X есть пространство меньшей размерности. Для него отличны от нуля не все компоненты (хъ ..., хт), а лишь их часть, скажем, компоненты xit i?L. Это значит, что если i не принадлежит множеству L, то xt = 0 для (%, ..., хт) ? X. При 280
этих обозначениях матрицу (8.6.33) правильнее было бы записать так: bt,l2Nt, i?L, j?L. Приведем ряд других соотношений, используя введенное множе- ство X. Формула (8.6.22) для рассматриваемого примера прини- мает вид Nt)&u, i.jtL, (8.6.34) а равенства (8.6.27), (8.6.24) в силу (8.6.33) дают (8.6.35) — Sin Т 2 let 2Nt teL ieL Приведенные формулы полностью решают задачу, если известно множество L индексов i, соответствующих ненулевым компонен- там векторов х из X. Укажем, из каких соображений оно опреде- ляется. В случае гауссовых распределений плотности вероятности р (х), р (у), конечно, не могут быть отрицательными, поэтому под- пространство X определяется не из условия положительности ве- роятностей (см. § 8.2). Может нарушиться, однако, условие поло- жительной определенности матрицы Кх, которая задается форму- лой (8.2.22), и нужно особо проверить его выполнение. Кроме того должно выполняться условие невырожденности оператора (8.6.20). В данном примере об этом условии заботиться не прихо- дится, поскольку d = 1, но условие положительной определен- ности матрицы Кх, т. е. согласно (8.6.34) условие Nt<T/2, (8.6.36) является весьма существенным. Для каждого фиксированного Т множество индексов L определяется именно из условия (8.6.36). Поэтому в формулах (8.6.35) под знаком суммы вместо i 6 L можно записать Nt<.TI2. Полученные соотношения удобно проследить по рис. 8.2. По оси абсцисс откладывается индекс i, а по оси ординат — дисперсии помех Nt (ступенчатая линия). Фиксированной температуре Т/2 соответствует горизонтальная линия. Под ней (между ней и сту- пенчатой линией) лежат отрезки (Кх)ц в соответствии с (8.6.34). Точки пересечения указанных двух линий определяют границы множества L. Площадь, лежащая между горизонтальной и ступен- чатой линией, равна суммарной полезной энергии а, а заштрихо- ванная площадь, лежащая между ступенчатой линией и осью абс- цисс — суммарной энергии помех 2 ЛГг- i e l 281
Аналогичными методами пространство X (как функция от Т) определяется и в более сложных случаях. 5. Вычислим для гауссовых каналов термодинамический по- тенциал G.4.3), определяющий оценку G.4.2) вероятности ошибки декодирования. Информация / (л-, у) - In det (К,УЛ) - Рис. 8.2. Определение пропускной способности для случая не- зависимых (спектральных) составляющих полезного сигнала и аддитивных по- мех с равнораспределенны- ми составляющими. уже входила в формулу (8.6.12). Подставляя ее в равенство = e -si (х, у) p(x)p(y\x)dxdy, при учете (8.6.4), (8.6.8), получаем X ехр{ L sKy1]y}dxdy. (8:6.37) Этот интеграл легко вычислить при помощи известной общей матричной формулы E.4.19). Он, очевидно, оказывается равным eMs) = det~s/2 (К„ A) det/2 (ККЖ) det/2 где —s)drAd— (l-s)drA В, В = — A—s)Ad (l—s)A + sKg1 (8.6.38)
Чтобы вычислить det Б, воспользуемся формулой det fb °)=detddet(b —cd^c7"), (8.6.39) Vcr dj которая следует из формулы (П.2.4) приложения. Ее применение дает X det~{/2 [К;1 + (l — s)dTkd — (l —sJdTA(A — + sK^1)-1Ad]-det-s/2(K!/A)det-I/2[l— s+sK Xdet~1/2[1 + A— s)KxdrAd-(l-sJdrA(A-sA Логарифмируя это выражение и учитывая формулу F.5.4), находим Si 1 Г -1 (8.6.40) Последний член мы здесь несколько упростили, приняв во внима- ние, что drAd — (I— s)drA(A — sA+sK^1) Ad = Если воспользоваться формулой Sp / (AB) = Sp / (BA) (8.6.41) при f (z) = In A+2) [см. (П.1.5), (П.1.6)], то в последнем члене в (8.6.40) можно перенести d справа налево, после чего два послед- них члена удобно объединить в один: Spln(l— s + sKK»1) + Spln[l+(l— s)sdKKdrK^1(l— s + = Sp In[1 —s + sKKy1 + sA — s) Здесь, кроме того, полезно заменить dK«dr на Ку — К [см. (8.6.10)]. Тогда равенство (8.6.40) примет вид fi(s)= — — Sp \пКуА —Sp ln[l— & + &КК;1]. (8.6.42) Поскольку ККу1 = К^1А, то, как мы видим, функция [Л (s) ока- залась выраженной через единственную матрицу КУА. Принимая во внимание (8.6.23), (8.6.22), можно преобразовать формулу 283
(8.6.42) таким образом, чтобы ц (s) выражалась через единственную матрицу сА. В самом деле, подставляя (8.6.23), имеем цE)= — — Spln(l — dA^d7" A + Td c-1drdrA) — Lspln[(l— sJ + s2(l — dA-VA + Tdc-^A)-1]. Перенося cFA справа налево в соответствии с формулой (8.6.41) [во втором члене при f(z) = ln[l + (l— s2)г] — ln(l+z)], получаем Этой формуле можно придать также вид [ФН — Spln(PcA-1) — — Sp In [( — s2 + s2pcA-!] (8.6.43) или —Spln^Ac) -Spln[s2-+ A —s^TAc-1]. (8.6.44) Отсюда получаем, в частности, дисперсию информации ji"(O) = Sp (l -сА~1) = 7 -SpcX-1. (8.6.45) Если применить (8.6.43) к частному случаю (8.6.31), то будем иметь 2JV sr , /, , а \ г , / . , а \ = In 1 4--— In I—s2 ^r- I. 2 \ rN } 2 V a + rNj Во втором же рассмотренном примере (8.6.33) имеем Используем (8.6.43), чтобы вычислить коэффициент G.4.19) в формуле G.4.2) для вероятности ошибки. Поскольку в (8.6.43) входит лишь одна матрица, производную ц' (s) можно вычислить простым способом не принимая во внимание матричную неком- мутативность. Это дает 1—s^ Здесь учтено, что [*' @) = —С. В итоге согласно G.4.2) находим, что коэффициент а в оценке Рош<2е-°« (8.6.46) 284
находится 2 cn s Dp Используя 2 1 s2 путем решения о 1 —РсА 1_s2+s2PcA": ~s'2+s2PcA тождество -РсА системы ¦+ ! sP 1 уравнении In A ss + 1 -1 эту систему можно привести к виду a = s (C—R) + — Spln(l—s2 + s2pcAll); (8.6.47) С—/? = Sp(l — При малых отклонениях С — R можно воспользоваться разложе- нием G.4.24). Так, удерживая лишь первый член и учитывая (8.6.45), имеем JCR)l +.-¦ (8.6.48) 8.7. Стационарные гауссовы каналы 1. Стационарным каналам свойственна инвариантность отно- сительно преобразования сдвига по индексу (времени): (Хх, ..., Хт)->(Х1+п, ..., Хт+п), (г/х Ут)^>~(У1+п> •••> Ут+п)' где п — произвольно. Пространства X, Y предполагаются имею- щими одинаковую размерность. В таких каналах матрицы с{), Aij, dtj зависят лишь от разности индексов Cu = ci4, Aij^Ai-j, dij = di-]. (8.7.1) Рассмотрим сначала пространства X = Y конечной размер- ности т. Для строгой стационарности в этом случае функции си ах, du входящие в (8.7.1), должны быть периодичны по / с периодом, равным т: Ci> Щ+m^ai, di+m = di- (8.7.2) Матрицы (8.7.1) удобно привести к диагональному виду унитар- ным преобразованием x = U+x, (8.7.3) где и = ||г/яII. и* = ^ге2я/"/и. /- '-1- •- m (8-7-4) 285
[см. E.5.8)]. Его унитарность легко проверить. Зрмитово-Сопря- женный оператор U+ = || Utk II = II 47- е~ 2ЛШ/т I (8-7-5) II V т || как показано в § 5.4, действительно совпадает с обратным опера- тором U. Преобразованная матрица m ** г г и прочие будут диагональны: = ||dy6,ft||, (8.7.6) причем т m ~ VI —2nijl/m ~д VI — 2rt«j7/m 5;= 2е~2я'///и4 (8.7.7) После указанного преобразования помехи будут независимыми, и данный канал будет напоминать канал, рассмотренный в п. 4 пре- дыдущего параграфа. Матрица (8.6.20) будет иметь вид Поскольку она должна быть невырожденна в пространстве X, то пространство X должно строиться лишь на тех компонентах X] (х = Ux), для которых dj ф 0. Прочие компоненты не следует рассматривать. Матрица (8.6.22) принимает вид Условие ее положительной определенности еще более суживает подпространство X = X (Т) и оставляет лишь те компоненты, для которых Nfij < | d} \2T. Вследствие (8.7.6) формулы (8.6.27), (8.6.25) дают C=i- V lnl^ilL, (8.7.8) 2 7^11Т ciN> - d - (8-7'9) 286
Не представляет труда также записать функцию (8.6.43): позволяющую оценить вероятность ошибки. 2. Приведенные формулы допускают обобщение также на случай бесконечномерного пространства X. Пусть, например, х есть слу- чайная функция на отрезке [О, То]. Канал, как и раньше, предполагается строго стационарным, т. е. матрицы с, A, d, которые теперь имеют вид с (f — t"), A (f — t"), d (f — t"), (f, t" ? [О, Т0]) и по аналогии с (8.7.2) удовлетворяют соотношениям с(г + Г0)-с(т), Л(т + Т0) = Л(т), d(T + T0) = d(x). (8.7.11) Рассматривая А-разбиение (А = Tolm) интервала @, То) точ- и tj = /А, мы можем положить ками и применить предыдущую теорию. Формулы (8.7.7) теперь можно записать A = 2 е-2я'"/|Я с (/А) А = 2 е- 2я///'/го с (^ i i и аналогично для Aj, dj. Выражение в правой части при Д ->- 0 стремится к пределу с (Щ = Т( &-i2nit'T°c(t)dt = f e-i2nit/T°c(t)dt, (8.7.12) V T° > о -Г./2 поэтому с,-А приближенно равно с Bnj/T0): ^•А->сBя//То) = с(со;-) при Д-~>0 Bя//То = со^. (8.7.13) Аналогично A j А -> Л (со;), сГ7 А -^ J"(coj-), где Т "Г А~ {®)= [\~ш A{t)dt = —, d(®)=(e-iB>td(t)dt. (8.7.14) J N((o) J о о При этом lM(8.7.15) с (m}) N (<uj)
Учитывая (8.7.15) в пределе А —v О получаем и аналогично 2 /~„ c(°>j)' (8.7.17) где суммирование идет по области с (со,-) Л^ (со7-) < Т \ d (соу) |2. Эти формулы можно было бы получить, минуя предельный переход и непосредственно рассматривая интегральное унитарное преобра- зование i~tOjtx(t)dt, / = 0,1,2,.... (8.7.18) Эти величины образуют компоненты Фурье исходной функции и ока- зываются в стационарном случае независимыми. 3. Другим случаем бесконечномерного пространства является тот случай, когда х = (..., хъ х2, •••) представляет собой процесс в дискретном времени, но на бесконечном интервале. Тогда условия периодичности (8.7.2) отпадают. Соответствующие результаты могут быть получены из формул п. 1 предельным переходом /п->°о. Преобразование (8.7.4) теперь удобно брать в форме (8.7.19) а вместо (8.7.6) писать полагая с} = с (kj), .... Формула (8.7.7) при этом запишется в виде F 2e"'Vc,,... (8.7.20) и сохранит значение при m — <х>. Суммы в формулах (8.7.8)—(8.7.10) в пределе пг -> оо пере- ходят в интегралы. В самом деле, из соотношения kj = 2njlm сле- дует m (kJ+1 — Xj)/2n = 1. Поэтому равенство (8.7.8) можно за- писать 288
Поделив обе части равенства на т и перейдя к пределу, будем иметь im-1 = -L Г ln-pIM-Л (8.7.21) >оо т 4я __ J N(k)c(K) Nc<\d\2T и аналогично а (8.7.22) Nc<Vd IT1" J Чтобы найти Сх (flj), надо исключить отсюда Т. 4. Рассмотрим, наконец, тот случай, когда х есть процесс в не- прерывном времени и на бесконечном интервале. Формулы для та- кого случая можно получить из результатов п. 2 дополнительным предельным переходом Т0-»-оо. При Tq-^oo аргументы со; = 2я//Го в формулах (8.7.12)—(8.7.17) все больше сгущаются, поскольку coj+1 — со7- = 2л/Т0. Поделив (8.7.16) на Го, в пределе, имеем С Со = lim — = = _L Г lnL^IL<fo. (8.7.23) Аналогично п 1 /У | 1 t"T"l Г0->о° Г„ 4я Здесь в соответствии с (8.7.12), (8.7.14) с (со) = $ e-le>tc(f)dt, d(a) — — оо спектры функций с (f — Г), с? (/' — Г)> а Л^ (со) — спектральная плотность помех: оо iV(co)= \e~i<i>xK(t)dT. (8.7.23a) Аналогичным образом из (8.7.10) находим удельную (рассчитан- ную на единицу времени) функцию ft0 (s): АПЫС<Т\1 dco. (8.7.24) 289
Преобразование х = U+ x, диагонализирующее матрицы с, К, d, теперь имеет вид интеграла Фурье Интегралы в полученных формулах предполагаются сходящимися. 5. Формулы, относящиеся к непрерывному и дискретному вре- мени, имеют общую область применимости: это те случаи, когда при непрерывном времени спектры Кх (<*>). d (со) отличны от нуля лишь в конечной полосе частот. Как известно, при этом процесс х (t), протекающий в непрерывном времени, эквивалентен последова- тельности значений х (th) в дискретные моменты времени tk (теорема Котельникова). Соответствующий интервал обозначим '*+!—** = т0, (8.7.25) тогда т = Т0/т0. Поскольку 2nt!/m_ 2ЯЩ— т)/т с — с , то в (8.7.4) можно считать, что у пробегает значения не от 1 до т, а от —т0 до т — тй—1, где т0 — любое целое число. В част- ности, можно взять т0 = т/2 или (т — 1)/2. Соответственно этому можно считать, что Kj = 2nj/m в формулах п. 3 пробегает значения не от 0 до 2я, а, скажем, от —я до п. Сравним теперь формулы coj = 2nj/T0 [см. (8.7.13)] и Я,- = 2щ1т (8.7.19). Очевидно, что со и %, связаны соотношением Х1т0. (8.7.26) При этом интервал —я < Я < я эквивалентен частотному интерва- лу —я/т0 < со < я/т0. (8.7.27) Если спектры сосредоточены лишь в этом интервале, то, учитывая (8.7.26), видим, что формулы (8.7.21), (8.7.23) эквивалентны друг другу, поскольку Со = тСг1Т0 — Сг1х0 в силу (8.7.25), а также | (ЦТ)]2 /=N(XO{X) = \d((i>)\2/N(a)'c(a) при % = а>т0 согласно (8.7.7), (8.7.13), (8.7.20), (8.7.23а). Указанное совпадение имеет место и для других формул. Нера- венство (8.7.27) дает связь между шириной частотного интервала и временным интервалом т0. 6. В заключение параграфа обсудим формулу (8.6.46) при боль- ших m или То. Очевидно можно ввести удельный коэффициент ах = lim aim при дискретном времени или а0 = lim a/T0 при непрерывном. Тогда вместо (8.6.46) будет иметь место асимптотиче- ская оценка п г ОЩ 2Q0
точнее ТПП Вероятность ошибки Рош будет стремиться к нулю при m ->¦ оо или То -v оо, даже если п = 1. Соответствующий удельный коэффи- циент ах или а0 будет находиться из уравнений, аналогичных, ска- жем, (8.6.47), если в них перейти к удельным величинам C1 = limC/m, R1 = \imRlm, C0 = limC/T0, m-^oo m^-oo TQ^oo R0 = \\mR/T0. Так, в случае непрерывного времени вместо (8.6.47) будем иметь n p ^ ^o ^o — ~z— cw<r|3|2 Формула (8.6.48), очевидно, примет вид а0 = я J j слг<г|5|21 Существенным является условие конечности входящего сюда интеграла. В приведенном выше рассмотрении конечным пг, То соответство- вал строго стационарный периодический (с периодом пг или То) процесс. Полученные нами предельные формулы (при пг -»- оо, То -»- оо) будут теми же самыми, если для конечных пг, То рассма- тривать отрезки процесса, стационарного лишь для бесконечных пг, То подобно тому, как это делалось в § 5.5, 5.7. 8.8. Аддитивные каналы I. Пусть X и Y одинаковые линейные пространства. Канал [р (у\х), с (х)] называется аддитивным, если X = X и если плот- ность р (у\х) зависит лишь от разности р (у\х) = р0 (у —¦ х). Это значит, что у = х + z получается прибавлением к х случайной величины z, имеющей плотность распределения р0 (г). Предполагая, что Х = Х, рассмотрим те упрощения, которые вносит предполо- жение об аддитивности в теорию, изложенную в § 8.2, 8.3. Уравнение (8.3.5) при этом записывается в форме п узС \Х) U /7Z, [0.0. 1) 291
где Hz = Ну (\х) теперь не зависит от х. Ему можно также при- дать вид $ро(у-х)[\пр(у) + С + Hz~$a]dy= - $с(х). (8.8.2) Здесь применен непрерывный вариант записи: если рассматривае- мое линейное пространство дискретно, то под плотностями распре- деления нужно понимать сумму дельта-функций, сосредоточенных в точках решетки. Указанное уравнение можно разрешить относи- тельно функции используя метод преобразования Фурье. Изложим эквивалентный этому методу операторный метод. Введем характеристическую функцию e^s) = Seszp0(z)dz (8.8.3) (вообще s — вектор). Поскольку в силу (8.8.3) то преобразование G « = I Ро (у - х) f (у) dy = j р0 (г) f(x+z) dz, очевидно, можно записать в операторной форме (8.8.4) Сравнивая (8.8.4) с (8.3.2), видим, что в данном случае оператор L имеет вид Отсюда находим обратный оператор ?-i = e-n и*/**). (8.8.5) При помощи этого оператора задача отыскания пропускной способ- ности и экстремального распределения решается в соответствии с формулами § 8.3. Оператор, транспонированный по отношению к (8.8.5), таков: {L-rf^e-M-W'K (8.8.6) Поэтому F(y) L-i =- (L-iO" F(y) = е- ^ ~d/dx) F (у). Формула (8.3.7) при помощи операторов (8.8.5), (8.8.6) записывает- ся в виде р (х) = е-»(-<*/<**> ехр {Ра—С—Я2—Ре-^ <-<"dx) с (х)}. (8.8.7) 292
Конструируем также некоторые другие формулы § 8.3. Соотношения н ~н* (8.3.10) принимают вид Ь (у) = [e-w/dx) c (x)]y=Xt v (у) = е~н*. Поэтому из (8.3.11) получаем потенциалы ^)С(х)]^) ^ c(x)\dx. Отсюда в соответствии с (8.2.13), (8.2.14) имеем ^-*WWc(x)]dx, (8.8.9) a_ I _„ I vl Г _ —II f Эти формулы в принципе дают решение задачи. 2. Пример 1. Пусть х — одномерное непрерывное пространство, с (х) — функция четвертой степени: с (х) = xi, а распределение р0 (z) — гауссово: Тогда gH(s) __ gO2s2/2 и, следовательно, (8.8.10) так как отличны от нуля лишь производные Формулы (8.3.11), (8.8.8) с учетом (8.8.10) дают: _ +0° 2 ==^РФ = е~Я2-313°' С e-p(/«+6Povjj/ = 2pi-1/4 х J е-<« + б /рЪ" *2 ^ = e-^2-3P°J [A a2 Т/г e(^/2) P<J« x 0 L 2 J (8-8Л1) 293
Учитывая, что в данном случае Нг = - J Po (z) In р0 B) dz = ± In Bяа§) + -i- = -j- 1пBяаае), и вводя обозначения V 1% {X) ¦= при помощи формул (8.2.18), (8.2.19), (8.8.11) или при помощи (8.8.9) получаем l 2 Пример 2. Пусть теперь с (х) = ch (ая), а р0 (г) — распределение, имеющее характеристическую функцию которое необязательно гауссово, но симметрично: Э (s) = Э (—s). Поскольку dx . теперь имеем Т е"' Ш {&аХ + ^^ = \ 9~1 (СХ) ^ + " 9-1 (~а) = б (а) ch ах вследствие указанной симметрии. Вычисляем для этого случая ста- тистический интеграл: Формулы (8.2.18), (8.2.19) при этом дают Р')- (8-8.12) Здесь Р' = р/6 (а) — новый параметр, заменяющий р. 3. Гауссовы каналы, исследованные в § 8.6, являются частны- ми случаями аддитивных каналов, если в качестве фигурирующего 294
там пространства X рассматривать пространство, образованное точками х' = dx, или если преобразование d тождественное (будем предполагать последнее). В этом частном случае функции с (х) и ц (s) являются квадратичными: с (х) — — хг сх, \л (s) = — sr Ks (матричная запись), и преобразование е ^dx' с (х) сводится к сле- дующему: „ = 0 \дх дх Действительно, К — ( — хг сх ] = Ксх, так что dx I 2 ) If. К —)(— *тсх) = Sp(Kc), \dx dxj\2 j ^v ' а прочие более высокие производные обращаются в нуль. Потенциа- лы (8.8.8) при этом легко вычислить, пользуясь формулой E.3.19), что дает ^) (8.8.13) Поскольку то формулы (8.2.18), (8.2.19) приводят к результату а=—i-SpKc + 4-Spl, 2 2 (8.8.14) С= __L Spin ^)_-l-SplnB«K)= -{SpincK- —i-lnpSpl. Ввиду того, что Sp 1 = г = г совпадает с размерностью про- странства, а матрица К = А в данном случае не отличается от А (так как d = 1), то равенства (8.8.14) согласуются с найденными ранее формулами (8.6.25), (8.6.27).
Глава 9 ОПРЕДЕЛЕНИЕ ЦЕННОСТИ ИНФОРМАЦИИ Понятие ценности информации, вводимое в настоящей главе, связывает шенноновскую теорию информации с теорией стастисти- ческих решений. В последней теории основным является понятие средних потерь или риска, которое характеризирует качество прини- маемых решений. Ценность информации специализируется как та максимальная польза, которую данное количество информации спо- собно принести в деле уменьшения средних потерь. Такое опреде- ление ценности информации оказывается связанным с формули- ровкой и решением определенных условных вариационных задач. Ввести понятие ценности информации можно тремя родственны- ми способами, выбирая за основу хартлиевское, больцмановское или шенноновское количество информации. При выборе шеннонов- ского количества информации нужно решать третью вариационную задачу. Между указанными определениями существует известная связь, и одно понятие может служить удобной заменой другого. Все эти понятия характеризуют определенный объект — бейесов- скую систему, который наряду с каналом является важнейшим объектом исследования теории информации. Прежде чем теория ценности информации превратилась в само- стоятельный раздел теории информации, существующий и развиваю- щийся независимо от теории передачи сообщений по каналам, не- которые ее элементы и результаты вызревали в недрах традицион- ной теории, исследующей каналы. К. Шенноном в 1948 г. [1] была рассмотрена третья вариационная задача, взятая в форме миними- зации энтропии при заданном уровне потерь или, в шенноновской терминологии, при заданной точности воспроизведения. Использо- ванная при этом терминология далека от терминологии статистиче- ских решений, но это, разумеется, не меняет математической сущ- ности. Позднее (Колмогоров [1]) было введено основанное на указан- ной вариационной задаче понятие е-энтропии и получен ряд отно- сящихся к нему результатов. Вместо термина е-энтропия мы используем здесь термин а - и нформация, поскольку рассматри- вается все-таки не энтропия, а шенноновская информация. В настоящее время в работах американских авторов вслед за работами Шеннона [1,3] данная теория (в первоначальной шенно- новской интерпретации) получила значительное развитие (см. ocq- 896
бенно монографию Бергера flj). Мы придерживаемся, однако, дру- гой интерпретации и другой терминологиии. В принятом нами способе изложения понятия и результаты тео- рии рассматриваются независимо от понятия каналов с помехами, их пропускной способности. Мы хотим подчеркнуть, что круг во- просов, связанный с третьей вариационной задачей, равноправен кругу вопросов, относящихся ко второй или первой вариационной задаче (это, конечно, не исключает возможности объединенного рас- смотрения, например, формулировки обобщенной теоремы Шенно- на, см. § 11.5). 9.1. Уменьшение средних штрафов при уменьшении неопределенности Польза, приносимая информацией, заключается в том, что она позволяет уменьшить потери, связанные со средними штрафами. Предполагается, что в условии задачи указана функция штрафов, которая по-разному штрафует различные действия и решения, при- нимаемые действующим лицом. За более удачные действия назна- чаются меньшие штрафы или большие награды, чем за менее удач- ные. Цель заключается в минимизации средних штрафов. Име- ющаяся в распоряжении информация позволяет добиться меньшего уровня средних потерь. Прежде чем переходить к математической формулировке ска- занного, рассмотрим в этом параграфе, носящем подготовительный характер, более простую задачу (типа первой вариационной задачи), иллюстрирующую тот факт, что высокая неопределенность в систе- ме (негинформация), действительно, повышает уровень потерь. Пусть имеется система с дискретными возможными состояниями. В "действительности осуществляется одно из возможных состояний и величина |, описывающая состояние, принимает одно определен- ное значение. Пусть в соответствии с назначением системы указана функция штрафа с (?). Если, например, требуется, чтобы система придерживалась вблизи нулевого состояния | = 0 (задача стабили- зации), то может быть взята, скажем, функция штрафа с (?) = | ?|. По каким-либо причинам пусть в данной задаче невозможно обеспечить идеальное равенство ? = 0. Например, вследствие неиз- бежных флюктуации в составных частях системы, в ней присутст- вует статистический разброс, т. е. имеет место неопределенность — негинформация. При этом величина ? будет случайной и будет опи- сываться некоторыми вероятностями Р(?). Мерой неопределенности, как известно, является энтропия #|=_2Р(|IпР(?). (9.1.1) Будем предполагать, что количество неопределенности Я| зафик- сировано, и рассмотрим, какие при этом возможны средние штрафы 297
Me (?). Существует некоторый нижний предел для этих штрафов, который может быть найден теми же методами, что и в § 3.2, 3.3, 3.6. В самом деле, там уже решалась задача на экстремум средних штрафов при условии фиксированной энтропии (первая экстре- мальная задача). Напомним решение этой задачи. Оптимальное распределение вероятностей имеет вид P?)==ffiF.-»cib)t (9.1.2) где e-PF0^2e-PfE) (9.1.3) I [см. C.3.5)]. Параметр р = 1/Т определяется из условия фиксиро- ванной энтропии (9.1.1). Согласно C.3.15) имеем *ЫИ нь (9.1.4) dT s После определения параметра Р или Т минимальные средние штра- фы определяются по формуле RAHt) = j^{§F0) = F0-Td-^. (9.1.5) Указанные формулы позволяют проследить, как минимальные сред- ние штрафы зависят от неопределенности #| в системе. Согласно теореме 3.4 потери Ro (#j) при Т > 0 возрастают с ростом энтропии Н%. Пусть теперь имеется приток информации, уменьшающий энтропию согласно A.1.2). Если сначала в системе была негинформа- ция Н% и вследствие притока информации / она уменьшилась до величины #| — / = #ps, то, очевидно, это привело к уменьшению потерь I). (9.1.6) Указанная разность говорит о той пользе, которую принесла ин- формация /. Она есть количественная мера ценности информации. Будем предполагать / = Д#? малой величиной. Тогда из (9.1.6) будем иметь Таким образом, производную dRJdHi = Т можно считать диффе- ренциальной ценностью уменьшения энтропии (дифференциальной ценностью информации). Пример 1. Пусть ^ может принимать целые значения ...,—1, О, 1, 2, ..., а штрафом служит функция с(?) = |||. Обозначая е~р = z, находим для этой задачи статистическую сумму -Р".= 2 6-01*1=1 + 2 2 25=1+ 2 + 2 1+3 298
Следовательно, dz dz _ г г _ 2г ~~1 — г 1+г ~ 1 —г2 (9.1.7) (9.1.8) Принимая во внимание формулу #g = $R0 — &F0, находим энтро- пию #6=-^ + 1п^. (9Л.9) Это уравнение позволяет определить z (Hi) и, следовательно, пара- метры р и Т. Используя выражения (9.1.8), (9.1.9), дающие параме- Рис. 9.1. Средние потери и дифферен- циальная ценность информа- ции как функции от энтро- пии (пример 1). трическое представление зависимости Ro (Я|), нетрудно построить график этой зависимости. Используя (9.1.9), нетрудно найти и диф- ференциальную ценность Т(Нг)= Поведение функции Ro (Н%) и дифференциальной ценности Т (#|) представлено на рис. 9.1. Пример 2. Предположим, что ? принимает одно из 8 значений —3, —2, —1, 0, 1,2, 3, 4, а функция штрафа с (?) = 11| такая же, что и раньше. Тогда (9.1.10) 1-г и поэтому ,= —Z ¦ 2г 4г« dz (9.1.11) 299
Вместо формулы (9.1.9) теперь получаем #! = —2z In г 1—2* In 1—2 In A — z% (9.1.12) Зависимость Ro от Щ, соответствующая формулам (9.1.11), (9.1.12), представлена на рис. 9.2. Нулевой энтропии Я| =0 соответствуют значения: Ro = 0, z = 0, р = оо, Т = 0. 1 2 , //4 Рис. 9.2. Средние потери для приме- ра 2 (#g в битах). С ростом температуры Т энтропия #| и потери Ro монотонно возрастают. В пределе Т -*¦ оо, р -у 0, г-*- 1 мы имеем максималь- но возможную энтропию ?!l 31n2 = 3 бита 1-г и средние потери п ,. 2гA+г2 —2г3) о Ro = hm —x—t '- = 2, z-l 1—г* z-l 1—г которые соответствуют равномерному распределению Р (g) = 1/8. Как было отмечено, уменьшение неопределенности в системе может быть достигнуто приобретением информации. При этом коли- чество информации мыслилось просто как разность двух энтропии #! одной переменной ?. Между тем, согласно сказанному в гл. 6, количество информации / = Iху является более сложным понятием, предполагающим существование двух случайных величин х, у (а не одной ?). Должна быть случайная величина х, о которой пере- дается информация, и случайная величина у, которая несет эту информацию. Это заставляет усложнить приведенные в настоящем параграфе рассуждения, перейдя от простой (первой) вариационной задачи к усложненной вариационной задаче, которую будем на- зывать третьей вариационной задачей теории информации. 300
9.2. Ценность хартлиевского количества информации. Пример 1. Рассмотрим следующий пример, близкий к примерам пре- дыдущего параграфа. Пусть х есть внутренняя координата системы, принимающая значения —3, —2, —1, 0, 1, 2, 3, 4, а и является оценочной переменной, выбираемой из тех же значений, подобно переменной ? примера 2 предыдущего параграфа. Будем считать, что указанные восемь точек расположены по кругу (рис. 9.3). Желательно, чтобы оценочная переменная и Рис. 9.3. Вид функции штрафов для рассматриваемого примера. с{х,и)< и л ¦— х и X N была как можно ближе к внутренней переменной х. Это описывает- ся, например, введением функции штрафа с(х,и) = т\п[\х — и\, 8 — \х—и\]. (9.2.1) Последняя изображена на рис. 9.3 и обладает симметрией отно- сительно отражения и поворота системы восьми точек на угол я/4. Априори переменную х будем считать равномерно распределен- ной: Р (х) = 78. Если мы не получаем никаких сведений о значении х, то мы в качестве и можем взять наугад любое значение, скажем 3. Нетрудно подсчитать, что при этом будет иметь место средний штраф Мс(х, ы) = 0.—+ 1 -2-—+ 2-2- —+ 3-2- —+ 4-—= 2. к ' 8 8 8 88 Уменьшить средний штраф можно только путем предварительного уточнения переменной х, то есть путем приобретения информации. Пусть, скажем, количество информации ограничено 1 битом. Мы узнаем, что осуществляется какая-то одна возможность из двух, например х, принадлежит или не принадлежит некоторому подмно- жеству Ех исходного множества Е восьми точек. Обозначим это сообщение у = у (х). Приняв сообщение, что х ? Еъ мы, естествен- но, выберем и из Е±. Аналогично выберем и из остального множест- ва Е — Ех = Ео, если узнаем, что х не принадлежит Ег. Такой выбор 301
можно сделать оптимальным образом, выбрав то значение и, ко- торое минимизирует выражение М[с(х, , и)Р(х) Р(х). Способ разбиения восьми точек на две части таюке можно выбрать оптимальным, т. е. таким, который дает наименьшие средние по- тери MminM[c(je, и)\у]. и Как нетрудно проверить, наилучшим способом разбиения являет- ся разбиение круга из восьми точек на два одинаковых полукруга V 1,5 - 0,5 1 0 _ - / /vJH 1 i 1 ^-"— п— / гл i / !J V(l) — - В 1 i i i п / 2 I, бит !M=2) (M=3) (Ч) E1 (б] G}(8) Рис. 9.4. Значения ценности информа- ции для одного примера. по четыре точки в каждом. Внутри каждого полукруга целесообразно выбрать любую из двух внутренних точек. Такой выбор приводит к средним штрафам Шс(х, u) = 0-~+2-l-~ + 1-2-—=1. 4 4 4 Таким образом, в оптимальном случае 1 бит информации при- носит ту пользу, что уменьшает средние потери с двух до единицы. Следовательно, ценность 1 бита информации равна единице: V(l) = 1, если описанную ценность обозначить через V. Аналогичное рассмотрение можно провести и для 2 битов инфор- мации. Теперь уже множество Е разбивается на четыре части, лучше всего на четыре пары соседних точек. Узнав, в какой паре находит- ся х, выбираем в качестве и любую точку из этой пары. С вероятно- стью V2 она совпадает с х, и с вероятностью V2 она отличается от х на единицу. Средний штраф оказывается равным V2. Следователь- 302
Mo, информация уменьшила потери с 2 до V2. Ценность 2 битов ин- формации оказалась равной 3/2: V B) = 3/2. Приняв информацию в 3 бита, мы можем точно узнать значение х и положить и = х, после чего штраф обратится в нуль. Следова- тельно, ценность битов информации равна в данной модели двум: К C) = 2. Указанные выше значения ценности соответствуют точ- кам А, В, С на рис. 9.4. Если М = е{ — 2бит равняется трем, то следует производить разбиение восьми точек на три области: Еъ ?2» Б3. Для каждого из таких разбиений нужно подсчитать выгоду 2 — М min M [с (х, и) \ | Eh] и выбрать оптимальное разбиение. Подсчет показывает, что оптимальным является разбиение, в котором ?х состоит из двух точек, а ?2 и Е3 — из трех. Ему соответствует выгода 1,375. Полу- ченная точка (log 3; 1,375) откладывается на плоскости (/бит, V) (точка D на рис. 9.4). Аналогично строятся и точки, соответствую- щие М = 5; 6; 7. Перечислим оптимальные разбиения и соответст- вующие им координаты: Состав разбие- ний A,1,2,2,2) A,1,1,1,2,2) D,4) B,3,3) B,2,2,2) A,1,1,2,3) A,1,1,1,1,3) A,1,1,1,1,1,2) A,1,1,1,2,5 A,1,1,1,1. J Лэит 1,59 2 2,32 2,59 2,81 1 1,375 1,5 1,625 1,75 1,875 Значениям М = 5 и 6 соответствуют два равнокачественных оп- тимальных разбиения. Найденные точки А, В, С, D соответст- вующие оптимальным разбиениям, соединяются ступенчатой ли- нией V (/) (рис. 9.4), изображающей ценность хартлиевской ин- формации. Из сказанного ясно, что ценность информации V (I) опреде- ляется как максимально возможное уменьшение средних штрафов, которого можно добиться, получив данное количество информации, касающейся принадлежности величины х некоторой области из ог- раниченного числа М (/) областей [М (/) — максимальное целое число, содержащееся в е7]. 2. Описанный выше способ определения ценности информации можно распространить на общий случай. Предполагается, что за- дана случайная величина х и функция штрафов с (х, и) как функ- ция от двух переменных: от значения я и от оценки и. Лицо, выбирающее оценку или управление и, получает пред- варительно некоторую информацию о значении х. Принимаемое им сообщение ограничено М значениями, где М — целое число, другими словами, оно должно иметь вид одного из М высказываний. Таким образом, количество получаемой информации является огра- ниченным, оно равно хартлиевскому количеству информации / = \пМ (см. § 1.1). 303
Обозначим через у = у (х) величину, наблюдаемую действую- щим лицом. Согласно сказанному выше она принимает одно из М значений. После наблюдения действующее лицо, естественно, вы- бирает оптимальную оценку и = d (у), минимизирующую условные средние штрафы. Она определяется равенством М[с(х, d(y))\y] = minM[c(x, u)\y]. (9.2.2) Каждому значению у •= г//4 можно сопоставить тем самым одно оп- тимальное значение и ~ uh. Поэтому функция и ~ d (у (х)) подоб- но у (х) будет функцией не более чем с М значениями. Усредняя условные средние штрафы (9.2.2), получаем полные средние штрафы i?=-MminM[c(.r, u)\y]. (9.2.3) и Если никакой информации о значении неизвестной случайной ве- личины х не поступает, то при выборе оптимальной оценки и не ос- тается ничего другого, как минимизировать по и средние штрафы Же (х, и) = 2с (х, и) Р (х), что дает уровень потерь х i?0-=min2c(x, и)Р(х)=тт№с(х, и). (9.2.4) их и Здесь Же (х, и) - М [с(х, и)\и\, т. е. по и усреднение не произво- дится. Пользу, приносимую информацией, естественно связать с разностью потерь (9.2.3) и (9.2.4). Определим ценность информации / = In M как максимальную выгоду, которую можно получить от хартлиевского количества информации / = In M: V{\nM)-=minMc(x. u)~inf MminM [с(х, и)\у]. (9.2.5) и у (х) и Здесь помимо минимизации по и производится минимизация по все- возможным функциям у (х) с М значениями. Теорема 9. 1. При минимизации (9.2.5) по всевозможным функциям у (х) с М значениями можно ограничиться лишь неран- домизированными зависимостями у от х, т. е. включение в рассмот- рение случайных зависимостей у (х) (когда у случайно при фикси- рованном х) не изменяет экстремума. Для нерандомизированных зависимостей наблюдение конкрет- ного значения у = yh и М значений уъ ..., ум эквивалентно ука- занию области Ek (из М взаимно исключающих областей Еъ ... ...,Ем), в которой находится х. Минимизация по у (х) в (9.2.5) све- дется тогда к минимизации V(/) = minМс(х, и)— inf Жт\пЖ[с(х, u)\Ek], (9.2.6) k h~ 304
по всевозможным разбиениям Е1 + ... + Ем пространства X значений х на области Еь ..., Ем при М ^ е7. Подробнее (9.2.6) записывается так: V (/) = min \ с{х, и) Р {dx)~ inf 2 Р (^min^ с (х, и) Р(dx\Ek). « 2 яхk « 2 я ft (9.2.6а) Доказательство теоремы 9.1. Пусть у ~ уг (х) зависит от х рандомизированным образом и пробегает значения уг, ..., ум- Это значит, что при фиксированномх величина у является случайной и описывается некоторым распределением вероятностей Р,.(у\х). Пусть dr (г/)— оптимальное решающее правило для ука- занной зависимости, определяемое из (9.2.2). Запишем для него потери (9.2.3) #r = 22>(x, dr(y))P(x)Pr(y\x). (9.2.7) х у Построим новую, уже не рандомизированную зависимость У = Уп (х) следующим образом. Пусть при фиксированном х зна- чение уп (х) есть то значение у (из уъ ..., ум), которое минимизи- рует функцию с (х, dT (у)). Тогда с(х, dr{y))^>c{x, dr{tJn{x))), (// = ;/!,..., ум), и в силу (9.2.7) К>ЪЪс {х, dr(упЩ Р(х)Рп(у\х) = = k"{x, dr(yn(x)))P(x). (9.2.8) Сумму, стоящую справа, можно записать (x) = 2 c(x, dr(yn))P(x)Pn(yn\x) = х> Уп где индекс п отмечает нерандомизированный случай. Очевидно, что 2 с (ж, dr{yn)) Рп{х\уп)^т\п^с{х, и)Рп{х\уп). х их Поэтому х, и)Рп(х\уп). (9.2.9) 305
Выражение, стоящее справа, обозначаем через Rn. Сопоставление неравенств (9.2.8), (9.2.9) доказывает, что Rr > Rn = 2 К (Уп) min 2 с (х, и) Рп (х | ул), Уп и * т. е. нерандомизированная зависимость уп (х) не хуже с точки зре- ния величины средних штрафов рандомизированной зависимости ут (х). Доказательство закончено. ш* 3. Из приведенного выше определения немедленно следует одно простое применение понятия ценности хартлиевского количества информации, а именно применение к конструированию измеритель- но-передающей системы, содержащей информационное ограниче- ние. ИУ X 7 1 у„ i Кана\ у. ? 2 Рис. 9.5. Система передачи макси- мально ценной информации. Канал без помех. ИУ — измерительное устройство. Пусть имеется измерительное устройство (ИУ) (рис. 9.5), вы- ходной сигнал х которого совпадает со значением измеряемой ве- личины, скажем непрерывной. Точное значение х, однако, не мо- жет быть сообщено потребителю, так как на пути стоит канал без помех с ограниченной пропускной способностью или записывающее устройство ограниченной информационной емкости, так что значе- ние у может принимать лишь одно из М — [е1] значений. Целью является получение значений и, «наиболее близких» к х в смысле функции штрафов с (х, и). Требуется сконструировать такие бло- ки 1 и 2, помеченные на рис. 9.5 знаком вопроса, которые давали бы минимальные средние штрафы. Поскольку общее количество информации ограничено, через канал нужно передавать наиболее ценную информацию. Принимая во внимание определение ценности хартлиевского количества информации, легко понять, как решается данная за- дача. Блок 1 должен осуществлять разбиение пространства значе- ний х на оптимальные области Ех, ¦¦-, Ем, которые фигурируют в (9.2.6), и выдавать номер области, т. е. у = k. Блок 2 должен после получения одного из возможных сигналов k выдавать зна- чение uh, при котором обращается в минимум условное математи- ческое ожидание М [с (х, и) Eh]. Сказанное в основном справедливо и в том случае, когда в кана- ле имеются помехи, т. е. когда его выходной сигнал у не обязан совпадать с входным у'. Этот случай асимптотически сводится к пре- дыдущему, если систему заставлять работать многократно, заменив х на ? = (хх хп), и — на ? = (их ип) (га достаточно больше), и воспользоваться теоремой Шеннона об асимптотической безоши- бочности декодирования. При этом, как показано на рис. 9.6, 306
потребуется поставить на входе канала кодировщик канала (КК), а на выходе — декодировщик канала (ДК), работа которых опре- деляется по теории оптимального кодирования и декодирования (гл. 7). Структура же блоков / и 2 такая же, что и на рис. 9.5. Рассмотренный выше способ определения ценности информации V (/) имеет ряд недостатков. Во-первых, он определяет ценность информации лишь для целого числа М = е7. Остается неясным вопрос, какую пользу приносит дробная часть величины е7. Во-вторых, если в рассмотренном примере менять число точек, беря, скажем, 9, 10 и т. д. точек, то ценность информации будет 7 ИУ 1 к КК Канал ДК к 7 Z Рис. 9.6. Система передачи максимально ценной информации. Канал с помехами. КК — кодировщик канала; ДК — декодировщик канала; т\ = (</i...., уп). испытывать нерегулярные скачки. В-третьих, хартлиевское коли- чество информации / = In M, являющееся аргументом функции V (/), не имеет характера разности двух энтропии, как это было, скажем, в § 9.1. Поэтому приведенное здесь определение плохо согласуется с идеями § 9.1. Согласование будет лучшим, если в качестве аргумента взять шенновское количество информации 1ху, поскольку оно равно разности Нх — Нх\у энтропии до сооб- щения и после сообщения. Определение ценности информации, даваемое ниже, имеет чер- ты обоих приведенных выше определений (§9.1 и 9.2). 9.3. Определение ценности шенноновского количества информации и а-информации Как и в п. 2 предыдущего параграфа, будем считать, что задана случайная величина х, описываемая распределением Р (dx) и (из- меримая) функция штрафов с (х, и) от х и от оценки и. Значения х и и являются точками заданных измеримых пространств X и U со- ответственно. Тем самым задана система [Р (dx), с (х, и)], которую будем называть бейесовской системой. Для любого условного распределения Р (du | х) можно вычис- лить средние штрафы или риск (9.3.1) 307 ГЛс(х, и) = \с(х, u)P(du\x)P(dx)
и шенноновское количество информации P(du\x)P(dx). Сформулируем следующую третью экстремальную задачу. Назовем условное распределение Р (du\x) экстремальным, если оно обращает в экстремум средние штрафы (9.3.1) при фиксиро- ванном значении количества информации (9.3.2): /*» = /, (9-3.3) где / — независимо задаваемое число. Как показывает анализ, это же распределение обращает в экстремум, а именно в минимум, информацию 1хи при фиксированных средних штрафах: 1хи = т\п, с {х, u)P{du | х) Р {dx) =- а = fix. (9.3.4) Средние штрафы (риск) (9.3.1) экстремального распределения бу- дем обозначать буквой R. Вследствие условия (9.3.3) они являются функцией от /: R (/) = J с (х, и) Р (du | х) Р (dx). (9.3.5) Наряду с R (/) можно рассматривать и обратную зависимость 1хи (а). Значение / (а) называем информацией, соответствующей уровню потерь R = а или, коротко, а-информацией. Как видно из последующего (теорема 9.6), функция 1хи (а) является вогну- той (рис. 9.7). Поэтому функция R (/) является, вообще говоря, двузначной. В общем случае функция R (/) принимает минималь- ное значение, равное нулю, на некотором интервале #о<Ж#о. (9.3.6) Функцию R (/) = R+ (/), обратную функции / (R), R ^ Ro, на- зовем нормальной ветвью, а функцию R (/) = R_ (/), обратную к / (R), R 2& R'o — аномальной ветвью. Для нормальной ветви опре- деляем ценность шенноновской информации R0-R+(I). (9.3.7) Для аномальной ветви ценность информации определяем формулой V (/) = #_(/)—#6. (9.3.8) При таком определении ценность информации всегда является неот- рицательной. В конкретных случаях та или иная ветвь может уйти в бесконечность, т. е. отсутствовать. Чтобы пояснить смысл определений (9.3.7), (9.3.8), рассмотрим сначала, что представляет собой Ro, R'a. Диапазон (9.3.6) соответ- 308
ствует нулевой информации связи /,.„ = 0. Это значит, что для него в (9.3.5) распределение Р (du | х) не зависит от х, так что где М [с (х, и)\и] = Iс (х, и) Р (dx). Отсюда видно, что, меняя Р (du), мы можем получить диапазон изменения R @): minМ[с(х, и)| и] < R@)< maxM[с(х, и)\и]. Рис. 9.7. Типичный ход зависимости Il \ V([) ^ Cj\ ^.\ Pl\ ¦х.\ V(I) I r / Rg Rq R Сравнивая его с (9.3.6), получаем [c(x, u)\u]; Ro = max 1Л[с(х, и)\ и]. (9.3.9) Далее, как будет видно из теоремы 9.3 (см. § 9.4. п. 2), нормальная ветвь соответствует минимальным штрафам #+(/)= min Мс(х,и), (9.3.10) Р (du | х) а аномальная — максимальным /?_(/)= max Nlc(x,u) (9.3.11) Р (du | х) при выполнении условия (9.3.3). Поэтому формулу (9.3.7) можно записать так: , и)\и]— min Mc(x,u), P(du\x)eO (9.3.12) где множество G определяется условием /*„</• (9-3-13) Сравнивая (9.3.13) с (9.2.5), замечаем аналогию этих двух опреде- лений ценности информации. В обоих случаях V (I) имеет смысл максимально возможного (при условии фиксированного количества /) уменьшения средних штрафов. 309
Формула же (9.3.8) в силу (9.3.9), (9.3.11) принимает вид У(/)= max Шс(х, и)—тахМ[с(л:, и) \и]. (9.3.14) Р (du | х) и При этом функцию с (х, и) следует интерпретировать не как штрафы, а как поощрения (выигрыши). Ценность информации имеет смысл максимально возможного среднего выигрыша, даваемого заданным количеством информации /. Разумеется, нетрудно записать и соот- ветствующий этому случаю вариант определения ценности харт- лиевской информации. Вместо формулы (9.2.5) будем иметь V (In М) = sup max М [с (х, и) \ у] — max М [с (х, и)\и]. (9.3.15) у (х) и и Таким образом, теории ценности информации свойственна ес- тественная симметрия относительно замены операций минимиза- ции и максимизации, что соответствует замене знака у функции с (х, и). Коснемся вопроса о диапазоне изменения функции R (/) или, что то же, функции ценности V (/). Нулевому количеству ин- формации, как уже отмечалось, соответствует интервал (9.3.6). Если количество информации, напротив, устремить к максималь- ному (конечному или бесконечному) значению, то будем иметь со- вершенно точное значение величины х. Оптимальную оценку при этом можно получить непосредственно минимизацией штрафов с (х, и). При усреднении получим нижнее предельное значение min с (х> «)• х и Аналогично для аномальной ветви максимизацией штрафов с (х, и) и усреднением получаем верхнее предельное значение #в = 2 Р (х) max с (х, и). х и Таким образом, функция R (I) лежит в диапазоне RH<R(I)<RB. [(9.3.16) Соответственно этому функция ценности лежит в диапазоне О < V (I) < Ro — RM, (нормальная ветвь) и в диапазоне О < V (/) <:'/?в — R'o (аномальная ветвь). Непосредственно из определения (9.3.12), (9.3.13) ценности шенноновского количества информации вытекают следствия, свя- зывающие теорию ценности информации с теорией оптимальных статистических решений. Приведем следующий несложно доказы- ваемый результат. Теорема 9.2. Пусть заданы бейесовская система с (х, и), Р (х) и наблюдаемая функция у (х), описываемая условным распре- делением р (у\х). Каков бы ни был решающий алгоритм и = d (у) (рандомизированный или нерандомизированный), уровень потерь удовлетворяет неравенству Mc(x,d(y))> R(Ixy)^ RQ-V (Ixv). (9.3.17) 310
Доказательство. Нетрудно Ёйдеть, что каков бы ни был решающий алгоритм и = d (у), количество информации о не- известном значении х не может увеличиться при вынесении оценки, т. е. выполняется неравенство 1хи<1ху. (9.3.18) Из определения (9.3.12), (9.3.13) имеем Mc(x,d(y))^R0-V(Ixu), (9.3.19) поскольку распределение относится к множеству распределений, перебираемых при миними- зации min Me (x, и). Зависимость V (/), как указывалось выше, р («i х) является неубывающей. Поэтому из (9.3.18), (9.3.19) получаем (9.3.17). Доказательство закончено. Приведенная теорема свидетельствует о плодотворности вве- денного понятия ценности информации. Вопрос о том, как факти- чески достигать предельно малых средних штрафов, указываемых теорией ценности информации, будет разбираться в гл. 11. Понятие информации, соответствующей заданному уровню потерь, было введено (под названием скорости создания сообщений) Шенноном [1] и (под названием W-энтропии или е-энтропии) Кол- могоровым [1], а понятие ценности информации — Стратоновичем [3]. Количества ценности хартлиевского и шенноновского коли- честв информации не совпадают, причем из их определения следует неравенство V (/) ^ V (/). Важным асимптотическим результатом теории информации является их количественное совпадение V (/) ж т V (/) в асимптотическом смысле (гл. 11). Этот результат по глу- бине и важности можно сравнить с рассмотренным в гл. 7 другим асимптотическим результатом — с асимптотической безошибочно- стью передачи сообщений по каналу с помехами. 9.4. Решение третьей вариационной задачи. Соответствующие ей потенциалы 1. Задачу отыскания описанного в предыдущем параграфе экст- ремального распределения и зависимости R (/) или V (/) мы назы- ваем третьей вариационной задачей теории информации. Как и при решении второй вариационной задачи, для простоты сначала бу- дем считать, что х и и представляют собой дискретные величины, а затем полученные результаты обобщим на произвольный случай. 311
Будем варьировать вероятности Р (х,и) совместного распре- деления величин х, и так, чтобы обратить в экстремум средние штрафы 23 с (х, u)P(x,u) = extr (9.4.1) при дополнительном условии 2 !1пР(х,и) — 1пП?Р(л:,и)| — 1пР(х)\Р(х,и) = 1 (9.4.2) [см. (9.3.3)]. Поскольку априорное распределение Р (х) не должно подвергаться изменениям, нужно к (9.4.2) присоединить условие и) = Р(х). (9.4.3) Полное условие нормировки 2Я(*,и)=1 (9.4.4) х,и можно не учитывать, так как оно является следствием из (9.4.3). Не будем вводить также условие неотрицательности Р (х, и) ^ О, так как найденное без него решение оказывается ему удовлетво- ряющим (см. ниже). Условную экстремальную задачу (9.4.1)— (9.4.3) будем решать при помощи неопределенных множителей Лагранжа 1/р\ у (х), отыскивая экстремум выражения и)Р(х,и) + 21 [ЫР(х,и) — \пР(х) — . и)]Р(х, г/) + 2 У(х)Р(х, и). (9.4.5) х,и Обозначим через Z то множество пар (х, и) (т. е. ту область прост- ранства XX U), которым соответствуют положительные вероятности Р (х, и) > 0 в экстремальном распределении. Производная от (9.4.5) по Р (х, и) должна обращаться в нуль. При этом в силу (9.4.3) не будем дифференцировать In P (х). После дифференциро- вания К получаем (являющееся необходимым условием экстремаль- ности) равенство (9.4.6) или P(x,u) = P{x)P(u)e-vM-fc<x'u) при (*,#)? 1. (9.4.7) Здесь обозначено SP(*,a) = P(u). (9.4.8) X Величины Р, у [х) определяются из условий (9.4.2), (9.4.3). Умно- жая (9.4.6) на Р(х, и) и суммируя по х, и, получаем РЯ + Г = -/ЯВ1 (9.4.9) 312
где г =-2 y (*)*>(*)• (9-4Л°) X Вследствие (9.3.3) р# + Г = — /. (9.4.11) Подставляя далее (9.4.7) в (9.4.3) и (9.4.8), получаем равенства 2 P(*)e-v<*>-fM*.«) = l, (9.4.12) 2 P(u)e-P«(*' «>=е*<*>. (9.4.13) Здесь условия х?Zu HufZ, соответствуют условию (х, ы) ? Z. 2. Теорема 9.3. Если рассматривать лишь вариации dP (х, и) или dP (и [ х), оставляющие область Z неизменной, то расп- ределение (9.4.7) соответствует минимальной информации 1хи при фиксированном условии Мс (х, и) = а. Оно соответствует также ми- нимальным средним штрафам (9.3.1) при условии (9.3.3), если Р> О, и максимальным средним штрафам, если р <С 0. Доказательство. Дважды дифференцируя функцию (9.4.5) по переменным Р (х, и), (х, и) ? Z, находим матрицу вто- рых производных дР (х,и)дР(х', и') дР (х,и) дР (х', и') Р(х,и) ~Ти"' (X'U)?Z>(X',U')€Z. (9.4.14) Докажем, что эта матрица является неотрицательно определенной. Для этого достаточно показать, что таковой является х-матрица г ®ХХ Р (х, и) Р (и) х {и фиксировано) или матрица — -^- при любом положитель- ном ах. Образуем квадратичную форму ах 2j а X х х х Р (х, и) Р (и) где vx — произвольный вектор. Введем новые переменные wx ра- венством vx=P (x | и) wx и будем иметь 313
Но выражение в фигурных скобках есть не что иное, как дисперсия величины wx, соответствующая распределению Р (х\и). Ее неотри- цательность доказывает неотрицательную определенность матрицы Lxx>, а, следовательно, и матрицы (9.4.14). Вследствие этого функции К и /„.„ являются вогнутыми функци- ями переменных Р (х, и), (х, и) ? Z. Разлагая эти функции в ряд Тейлора в точке, соответствующей экстремальному распределению (9.4.7), и учитывая, что линейные члены разложения для этого распределения исчезают, получаем в силу указанной неотрицатель- ной определенности dK>0; dIxu^O. (9.4.15) Раз эти соотношения справедливы для произвольных вариаций пере- менных Р (х, и), (х, и) ? Z, то они справедливы, в том числе и для вариаций, совместимых с дополнительными условиями (9.4.3) и др. При фиксированном условии Мс (х, и) = а согласно (9.4.15) имеем d/xu ^ 0, что доказывает первое утверждение теоремы. Для дока- зательства второго утверждения нужно учесть, что соотношение с(х, u)] + dIxu + '2y(x)d2lP{x, и) > 0, (9.4.15а) взятое в сочетании с условиями /хи = 1 и (9.4.3) дает f>d [Me (x, и)] > 0, т. е. d [Me] > 0 при Р > 0 и d (Me) < 0 при р* < 0. Дока- зательство закончено. t* Теорема 9.4. «Активная» область Z, где экстремальные вероятности отличны от нуля: Р (х, и) > 0, имеет цилиндрический вид Z = XxU. (9.4.16) Здесь X— область, где Р (х) > 0, a U — область, где Р (и) > 0. Доказательство. Предположим, что Z — Z1 не сов- падает с X X U. Тогда, очевидно, Zx должна быть частью области XX U. Экстремальное распределение для области Zx согласно (9.4.7) представляется в виде Рх (х, и) = Р {х) Pt {и) e-vi <*>-Рс <*< "), {х, и) е Zlt (9.4.17) где ух (х), Рх (и) удовлетворяют всем необходимым условиям. Ис- пользуя (9.4.17), построим вспомогательное распределение Р2 (х, и), с вероятностями, отличными от нуля в более широкой области Z2 = X X U. Положим Pt{x,u) = P{x)Pt{u\x), (x,u)eZ,, (9.4.18) где Р.(и\х)= {) = P(u)e-v. (*)-Ре (*."). 2 P(«)e-v.W-^(*.«) и ей 314
Учитывая равенство (9.4.13), принимающее вид нетрудно видеть, что нб Ъ поскольку область суммирования расширена. Поэтому ¦y2(x) = ln 2_/>(«)е-Р'<*'">> YiM- и еи Отсюда усреднением получаем Г2>1\. (9.4.19) Для обоих распределений (9.4.17), (9.4.18) справедлива формула (9.4.9), т. е. р#х + 1г = — IV, р#2 + /, = — Г,. Из (9.4.19) имеем Р#,+ /,<?#!+/. (9.4.20) Ранее параметр р предполагается фиксированным. Рассмотрим теперь все семейство Z (Р) зависящих от р активных областей и про- ведем описанное расширение областей Z2 (P)->-Z2 (E) для каждого р\ Тогда из соотношения (9.4.20), справедливого при каждом Р, будет вытекать, что /2 (#) < lx (R) или ^2 (/) < ^ (/) при Р > 0. Сле- довательно, рассматривая лишь цилиндрические «активные» об- ласти (9.4.15), мы не проиграем в оптимальности. Доказательство закончено. Как выражение, стоящее в правой части (9.4.7), так и выраже- ние, стоящее в левой части, вне области X X U, равны нулю. По- этому для экстремального распределения равенство Р (х, и) = Р (х) Р (и) е-т <*>-Рс <*- "> (9.4.21) выполняется повсеместно. Вследствие теоремы 9.4 равенства (9.4.12), (9.4.13) записываются в виде 2P(x)e-vW-fc(^)=l> и б G, (9.4.22) 2 Р(ы)е-ес<*-«> = ет<*>, Х?Х. (9.4.23) и е<7 В этих формулах суммирование можно проводить также по всему пространству значений х и и. Уравнения (9.4.22), (9.4.23) с соответствующим условием (9.4.2) при фиксированной области U позволяют найти оптимальное рас- пределение (9.4.21). Каждой области U, удовлетворяющей ряду условий, будет соответствовать, таким образом, экстремальная за- висимость R (/). Для полного решения задачи остается еще решить вопрос о том, как выбрать активную область U из множества D 315
допустимых областей. Для этого выбора естественно использовать условие экстремальности (9.4.24) вытекающее из (9.4.1). Если множество D допускает непрерывные изменения 6U области О, то условие (9.4.24), как правило, можно заменить условием стационарности 67? = 0. (9.4.25) Здесь вариация 8R соответствует вариации 8U области U, причем информация / остается постоянной: б/ = 0. (9.4.26) Вариация 8U, несмотря на отсутствие вариаций (9.4.25), (9.4.26), может сопровождаться ненулевыми вариациями бр, 6Г. Из соотно- шения (9.4.9) в силу (9.4.25), (9.4.26) получаем условие #6р = —6Г, (9.4.27) которое будет использовано в дальнейшем. Как будет показано в дальнейшем, это условие может быть приведено также к виду A0.1.8), что означает экстремальность потенциала Г при фиксиро- ванном р. 3. Перейдем к выводу «термодинамических» соотношений, свя- занных с третьей вариационной задачей. Оказывается,что они во многом аналогичны соотношениям первой и второй вариационных задач (§3.3, 3.6 и 8.2). Обратимся сначала к соотношению (9.4.11). Потенциал (9.4.10) естественно интерпретировать как —$F, где F примет вид F = R + TI (9.4.28) — аналог свободной энергии, а р = \1Т. Тогда (9.4.28) будет напоминать известное в термодинамике соотношение F = U — ТН (V — внутренняя энергия: И — энтропия). Разница между этими соотношениями лишь в том, что член TI входит с противоположным знаком. Перейдем к выводу прочих соотношений, напоминающих обычные соотношения термодинамики. Начнем с того варианта, в котором берется потенциал Г (Р), а не свободная энергия F (Т) = — 7Т A/Т). Теорема 9.5. Для третьей вариационной задачи выпол- няются соотношения ~=-R, (9-4.29) dp Р— Г = /, (9.4.30) ^-= L (9.4.31) dl р к ' 316
по аналогии с первыми двумя вариационными задачами. Доказательство. Будем варьировать параметр Р в урав- нении (9.4.22), Эта вариация сопровождается, вообще говоря, ва- риацией функции у (х) и активной области U. Представим вариацию dy (x), а также dT как сумму двух вариаций: dy (х) = d, у (х) + 8у (х); dF = d1 Г + 6Г. (9.4.32) Вариации d±y (x), dtV соответствуют вариации djP параметра р при неизменной области 0, а вариации бу (х), 6Г, бр = dp — d$ со- ответствуют изменению б О области U. Дифференцируя (9.4.22) при постоянной области U, получаем I" dl у {х)- + с (х, и)] Р (х) L dPi J '-РС (х- и) - Умножая это равенство на Р (и) и суммируя по и ? U при учете формулы (9.4.21), находим т. е. получаем AL=_ ^ (9.4.33) вследствие (9.3.5), (9.4.10). Из (9.4.33), (9.4.11) с очевидностью следует соотношение P-^j-Г = /. (9.4.34) Требуемые соотношения (9.4.29), (9.4.30) получим, если учтем, что dY в силу (9.4.27), (9.4.33). Для вывода (9.4.31) достаточно взять диф- ференциал от обеих частей равенства (9.4.30), что дает и учесть (9.4.29). Доказательство закончено. Согласно теореме 9.5 для вычисления зависимости R (/) удобно пользоваться потенциалом Г (Р). При этом, как видно из приведен- ного доказательства, дифференцирование потенциала по р можно проводить, считая область О не зависящей от р. 317
Аналогичные соотношения справедливы и для свободной энер- гии/7 (Т) = — 7Т A/7). В самом деле, подставляя Г (р) = — $F A/р) в (9.4.29)—(9.4.31), будем иметь (9.4.36) (9.4.37) Из приведенных соотношений видно, что зависимость R (/) являет- ся преобразованием Лежандра ( 9) (9-4.38) dF dT dR_ dl _ r. .— 7. функции F (Т), а функция / (/?) есть преобразование Лежандра /(Я)=-Р.(Я)Я--Г(Р(#)) (>=--J(P)) (9.4.39) функции Г ф). Производную ~P-^v(I) (9.4.40) или, что то же самое, производную целесообразно интерпретировать как дифференциальную ценность информации. Вследствие (9.4.30), (9.4.36) она оказалась связанной с температурным параметром простым соотношением о(/) = |7|= 1/|Р|. (9.4.41) Эта функция всегда неотрицательна. 4. Ряд общих утверждений можно высказать относительно свойств выпуклости функций Г (Р), / (R), F (T), R (/). Теорема 9.6. Функции I (R), Г (р) являются вогнутыми; нормальная ветвь функции R (/) является вогнутой, а аномальная ветвь — выпуклой. Доказательство. Докажем сначала вогнутость функ- ции / (R). Для этого возьмем два значения R', R" из допустимого диапазона (9.3.16). Пусть им соответствуют экстремальные распре- деления Р' (х, и), Р" (х, и) и значения информации / (R'), I (R"). Рассмотрим промежуточную точку Это значение является средними штрафами для распределения Рк = %Р'(х, и) + (\ — Х)Р"(х, и). (9.4.42) 318
Пусть Ixu [Pa, есть информация связи Ixu для распределения (9.4.42). При доказательстве теоремы 9.3 было показано, что выра- жение Ixu = Ixu [P] является вогнутой функцией от вероятностей Р (х, и), поэтому Ки IP».] < Я/ (Я') + A-1I (ЯГ)- (9-4.43) Сравним теперь значение 1хи [Р\\ и значение / (Яь), являющееся решением экстремальной задачи (9.3.4). Распределение (9.4.42) входит в число распределений, перебираемых при минимизации, так что / (Ях) <; Ixu [R\\. Сопоставляя это неравенство с (9.4.41), получаем что и доказывает вогнутость функции / (Я). Вогнутость функции Г (р) вытекает из вогнутости функции / (Я), если учесть, что эти функции связаны преобразованием Лежандра (9.4.38), а преобразо- вание Лежандра сохраняет свойство выпуклости или вогнутости. Последний факт легче всего показать для того случая, когда рас- сматриваемые функции дважды дифференцируемы. Дифференцируя (9.4.29), имеем -*!——*?. (9 4 44) Запишем теперь (9.4.31) в виде -^Г=-Р, (9-4.45) и возьмем производную по Я d-lL=—*-. (9.4.46) dR* dR V ' Сравнивая равенства (9.4.44), (9.4.46), получаем d4 Отсюда видно, что условие вогнутости d2I/dR2 ^ 0 приводит к усло- вию вогнутости cPT/dfi2 ^ 0. Нормальные ветви функции Я (/), F (Т) характеризуются тем, что значения параметров р\ Г положительны. Вследствие (9.4.31) производная йИйЯ для нормальной ветви отрицательна и из вогну- тости функции / (Я) следует вогнутость обратной функции / (Я). Если производная dlldR положительна, то имеет место изменение направления выпуклости при переходе к обратной функции Я (I). Доказательство закончено. Кроме функции (9.4.38) и функции ценности V (/) = Я @) — — Я+ (/)_можно ввести соответствующие случайные функции, т. е. 319
функции, зависящие не только от /, но и от случайной переменной х. Принимая во внимание формулу (9.4.10), записанную в виде нетрудно видеть, что преобразование Лежандра (9.4.38) можно про- извести до усреднения по х, т. е. преобразовать по Лежандру функ- цию F (Т,х) = —ТуA/Т,х). Соответствующее изображение V(x,I)=—F(T,x) + TI дТ назовем случайной ценностью или ценностью случайной информации, поскольку / = 3F (Т, х)/дТ = —у (р\ х) + §ду (р\ х)/д$ в силу (9.4.23), (9.4.21) есть не что иное, как случайная информация при 9.5. Решение вариационной задачи при некоторых дополнительных предположениях 1. Приведем решение третьей вариационной задачи в более явном виде для двух частных случаев. Обозначив W=Q(x), (9.5.1) запишем уравнение (9.4.22) в форме S-M*-»)=l, и6 U. (9.5.2) Предположим сначала, что это уравнение допускает решение относительно неизвестной функции Q (х) как система линейных уравнений, или линейное интегральное уравнение. Другими сло- вами, существует преобразование обратное преобразованию Lj?s21e-l»«*.«>g(*W(u). X т. е. 1|6«»11 = 1|е-Рс<*-->||-1. (9-5.3) Тогда из (9.5.2) будем иметь 320
и, если учесть (9.5.1), иеи Усреднение с весом Р(х) дает выражение для потенциала (9.5.4) Используя (9.4.28), (9.4.29), отсюда получаем зависимость меж- ду i? и / в параметрической форме 2 P(x), -У, (9.5.5) (9.5.6) В последней формуле вычитаемое выражение в правой части, оче- видно, имеет смысл условной энтропии Нх | „. Если ввести функцию и ее преобразование Лежандра dVn ( dVa то полученные результаты (9.5.5), (9.5.6) можно записать в следую- щей компактной форме: J = HX-HO(R). (9.5.7) 2. Сделаем теперь другое предположение, а именно предполо- жим, что функция Q (х) = Q (9.5.1) является постоянной в области X. Вынося Q за знак суммы, в этом случае из (9.5.2) будем иметь р-рс (х, и) _ _L . Сумма в левой части равенства напоминает статистическую сумму C.3.11), C.6.2), вводимую при решении первой вариационной за- дачи. В принятых предположениях эта сумма не должна зависеть от и. По аналогии с (9.1.3) обозначим _ v e-p х Q(P) (9.5.8) 321
Тогда In Q — §F0 и из (9.5.1) получаем Y(x) = lnP(x) — pF0. (9.5.9) и (после усреднения) -tfx-pF0. (9.5.10) Как указывалось в предыдущем параграфе, функция /?(/) мо- жет быть получена преобразованием Лежандра (9.5.11) функции fm= ТТ(\/Т) — ТН -j-F0(T). (9.5.12) Кроме вспомогательной функции —Fo (T), удобно ввести ее пре- образование Лежандра (9.5.13) в полной аналогии с формулами (9.1.4), (9.1.5). Тогда преобразова- ние Лежандра (9.5.11) функции (9.5.12) запишется так: F0(T) т. е. при = RO(HX-1) (H-=HX-I) (9.5.14) в силу (9.5.13). Формула (9.5.14) согласуется с (9.5.7), поскольку функция /?0 (Н) является обратной к функции Но (R). Образуя функцию ценности информации V(I) = R @) - R (I) ф > 0), получаем формулу V(I) = R0(HX)~R0(HX-I), (9.5.15) вполне аналогичную формуле (9.1.6). Энтропия Н = Нх — I, оче- видно, имеет смысл условной энтропии Нх\и~ Нрг. Таким образом, в рассматриваемом случае развитая теория цен- ности информации полностью подтверждает предварительные сооб- ражения, изложенные в § 9.1, в которых информация рассматрива- лась просто как разность двух энтропии, а не как шенноновское ко- личество информации, связывающее две случайные величины. В рас- сматриваемом случае вследствие (9.4.21), (9.5.1) и соотношения Q = еР^о экстремальное распределение имеет вид Р(х, w) = P(M)eP/ro-P^U, id. Ему, очевидно, соответствуют условные вероятности 322
бид которых напоминает выражение (9.1.2). Рассмотрим примеры, тесно связанные с примерами, которые были изучены в §9.1 и 9.2. Пример 1. Пусть имеется бейесовская система, описанная в на- чале § 9.2. Для нее была подсчитана ценность хартлиевского количества информации. Найдем для сравнения ценность шеннонов- ского количества информации. Запишем для данного примера уравнение (9.5.2), учитывая, что функция с (х, и) (9.2.1) зависит лишь от разности х — и. Это урав- нение принимает вид SQ (л) е-Р" (*-«> = !. X Это уравнение имеет решение, когда в качестве активной области выбрана вся область О', состоящая из восьми точек. Решение соот- ветствует тривиальной, т. е. постоянной функции Q (х) = Q. Стати- стическая сумма (9.5.8) не зависит от а и совпадает с суммой (9.1.10). Зависимость Ro (Я) представлена параметрически выражениями (9.1.11), (9.1.12). Она изображена на рис. 9.2. Равномерное распределение Р (х) = 1/8 соответствует энтро- пии Нх = 3 In 2. Поэтому из формулы (9.5.14) имеем R (/) = R0C\n2— /), а функция ценности шенноновского количества ин- формации имеет вид V (/) ¦= Ro C In 2) — Ro C In 2—/). Эта функция представлена графически на рис. 9.4. Данная кривая является не чем иным, как перевернутой кривой рис. 9.2. Ступенчатой линией (рис. 9.4) изображены те значения ценности хартлиевской информации, которые были найдены в § 9.2. Она ле- жит ниже основной кривой V (/). Так ценность V (/) одного бита информации, как видно из графика, равна 1,35, что превосходит значение 1, найденное по теории § 9.2. Аналогично ценность V (/) двух битов информации равна 1,78 и больше ранее найденного зна- чения 1,5. Для любого другого числа точек, располагающихся по кругу, ценность шенноновской информации может быть найдена совер- шенно аналогичным образом, причем будут наблюдаться монотон- ные зависимости без каких-либо нерегулярных скачков. В данном примере отчетливо видна разница между ценностью хартлиевского и шенноновского количества информации. Как видно из дальнейшего (гл.11) в некоторых более сложных случаях это различие стирается, например, если рассматривать не пару описанных выше случайных величин х, и, а последовательности хг, ..., xN; Ux, ..., uN подобных величин при больших N. Пример 2. Рассмотрим пример, в котором имеется пространство из бесконечного числа точек. 323
Пусть х и и могут принимать любые целые значения ..., —1, О, 1, 2, ..., подобно переменной | в примере 1 § 9.1. Возьмем простую функцию штрафов с (х, «)= \х — Ц. и априорные вероятности Р(х)= 1~v vl'l @<v<l). (9.5.16) l+v В отличие от предыдущего примера априорное распределение яв- ляется неравномерным. Уравнение (9.5.2), записываемое в виде оо 2 Q(x)e-Pi*-«i=I, х= —со имеет в качестве решения константу H где Fo — функция от р, подсчитанная в (9.1.7). Исключением пара- метра г = е~Р из выражения (9.1.8), (9.1.9) может быть найдена зависимость Ro (H). Для вычисления функции ценности информации по формуле (9.5.15) остается найти энтропию Нх априорного рас- пределения (9.5.16). По аналогии с (9.1.9) нетрудно получить x~ 1—v2 ' " 1 —v Итак, в данном примере так же, как и в предыдущем, функция ценности (9.5.15) может быть подсчитана при помощи функции Ro (Я), найденной в §9.1 (пример 1) и изображенной на рис. 9.1. Вид вероятностей Р (и), а также экстремального распределения Р (х, и) теперь находится более сложно, чем в предыдущем примере, когда распределение Р (и) подобно Р (х) было равномерным. Теперь для отыскания Р (и) необходимо решить уравнение (9.4.23). По- скольку в силу (9.5.1), (9.5.16) e e Q l+ это уравнение принимает вид Данное уравнение допускает точное решение. Умножая обе части на хх (т = ёк) и суммируя по х, получаем 324
но У е-Э I о I та = у г| а I т<г = _1_ + _! 1 о = — °° 1— т 1-г2 1 — 2zcosX-\-z" L^!(9.5.17) и, следовательно, , п/.л / 1-v \2H-z2-2zcosA и х л ~ / . |-v2 —2vcos; Совершая преобразование 1 -И2 — 2zcosX г cos А —A-1-г2)/2г 1-1-v2 — 2vcos k~ v cos Я — (l+v2)/2v _ _z_ Г (l+v2)/2v — (l+z2)/2z1 z z(l+v2)/v—1—z2 ~~ v |_ cosA— (l+v2)/2v J v 1— 2zcosX+v2 ' и еще раз пользуясь формулой (9.5.17), получаем искомые вероят- ности Р(ы)= ^/J^M26u0+ (v-z)(l-vz) J-v ,„ W v i 1-г ) "° v(l-zJ 1+v Теперь в соответствии с (9.4.21) нетрудно подсчитать и вероятности совместного распределения Р{х, и) = что дает полное решение экстремальной задачи. 9.6. Ценность больцмановского количества информации Основной исходной мерой количества информации, без сомнения, является хартлиевское количество информации / = In M (см. § 1.1), непосредственно связанное с числом реализаций М. На практике часто пользуются шенноновским количеством информа- ции F.2.1), которое удобно вычислять аналитически для сложных практических случайных величин и процессов. Однако следует иметь в виду, что обоснованием шенноновского количества информа- ции в конечном счете является его сводимость к хартлиевскому ко- личеству, о чем говорит теорема Шеннона (гл. 7). Ценность шенно- новской информации V (/) является удобной аппроксимацией цен- ности хартлиевской информации V (/). 325
Рассмотрим еще одно количество информации — больцманов- ское, которое занимает промежуточное положение между хартлиев- ским и шенноновским количествами, и соответствующую функцию ценности. Как видно из сказанного в гл. 1, количество информации мож- но определять не только формулой Хартли A.1.5) и формулой Шен- нона F.2.1), но и формулой Больцмана УМ / = Яи=-2 Р(у)\пР(у) (9.6.1) [см. A.2.3)]. Последнее количество информации отличается от хартлиевского количества, а именно Я„<1пЛ1, если отличные от^нуля вероятности Р (у) не равны друг другу. В любом случае количество информации (9.6.1) занимает промежуточ- ное положение у>/Уг (9.6.2) между хартлиевским количеством информации In M и шеннонов- ским /уг = Ну — tfylz. Соответственно этому можно ввести функцию V (I) ценности больцмановского количества информации, которая будет занимать промежуточное положение между функцией V (I) ценности хартли- евского количества информации и функцией V (/) ценности шеннонов- ского количества. При определении ценности V (/) (9.2.6) рассматривалась выгода А = ттИс(х, и) — MminM [c(x, u)\Eh], (9.6.3) и и приносимая информацией у = yk, носящей дискретный характер. Затем эта выгода максимизировалась по различным разбиениям Ех + ... + Ем пространства значений х на фиксированное коли- чество областей. При рассмотрении количества информации (9.6.1) дискретный характер наблюдаемой величины у = yk, очевидно, нужно сохранить и рассматривать ту же выгоду (9.6.3), соответст- вующую разбиению ЪЕк. Максимизацию же по различным разбие- ниям нужно проводить несколько иначе. Именно теперь нужно фик- сировать не условие М ^ е1, наложенное на число областей, а условие Нк а- Ц P(Eh) In P (?ft)</, (9.6.4) k наложенное на энтропию разбиения ^Eh. Число же областей мо- жет быть любым. В остальном формула, определяющая V (/), будет 326
совпадать с (9.2.6): P(I) = minMc(x, и) — inf M minM [с(л;, и)\Ек], (9.6.5) где минимизация по 2?ft соответствует условию (9.6.4). Мы ви- дим, что выражение в правой части (9.6.5) совпадает с соответст- вующими выражениями (9.2.6) и (9.2.6а). Теорема 9.7. Функция ценности V (/) больцмановского количества информации лежит между функциями ценности V (/) и V (/): У(/)< V(I). (9.6.6) Доказательство. Пусть uk — значение, определяемое минимизацией второго члена в (9.6.3). Из (9.6.4) вытекает, что Huh ^ Л и, следовательно, Поэтому переходные вероятности Р (uh \ х) входят в множество G переходных вероятностей, перебираемых при минимизации в опре- делении (9.3.12). Отсюда С другой стороны, при минимизации в (9.2.6) перебираются раз- биения Ег + ... + Ем = X. Для каждого такого разбиения усло- вие (9.6.4) выполняется. Следовательно, класс разбиений, перебирае- мых в (9.6.5), является более широким, чем в (9.2.6). Отсюда выте- кает, что Доказательство закончено. Пример. Чтобы проиллюстрировать сказанное выше, вернемся к примеру, рассмотренному в п. 1 § 9.2 и в § 9.5 (пример 1). Будем перебирать всевозможные разбиения множества из 8 точек на связ- ные области Еъ ..., Ем (разбиения на области, не состоящие из смежных точек, не являются экстремальными). Для каждого раз- биения найдем значение больцмановской информации (9.6.1), где Р (Уи) = Р (Eh), и разность (9.6.3), причем первый член в данном случае равен двум. Найденные таким образом точки (/, Д) отклады- ваем на плоскости (I,V). Далее проводим на ней ступенчатую линию V (I) так, чтобы последняя имела максимально низкое и правое положение при условии, что ни одна из точек не лежит выше и ле- вее ее. Это соответствует минимизации по разбиениям, фигурирую- щей в (9.6.5). Точки, лежащие на указанной ступенчатой линии, относятся к экстремальным разбиениям. Прочие точки отбрасывают- ся как неэкстремальные. Линия V (I) изображена на рис. 9.4 (в тех 327
местах, где она не совпадает с V (/) пунктиром. Приведем эк- стремальные разбиения и соответствующие координаты: Состав разбиений /бит V(/) Состав разбиений /бит V(/) A,7) 0,537 0,5 A,1 1 1 ,3,3) ,81 ,5 B,6) 0,819 0,75 A ,1, 2 1 C,5) 0,954 1 1,2,3) ,16 ,625 A 1 1 A, ,2,5) ,299 ,125 1,1,1,1 2,41 1,75 A, 1 1 ,3) 3,4) ,406 ,25 A,1 B,3,3) 1,562 1,375 1,1,1,1,2) 2,75 1,875 Здесь в верхней строке в скобках для каждого оптимального раз- биения Ег + ... -f- Ем указано число смежных точек, входящих в Ех, ¦••, Ем соответственно. Линия V (/), как видно на рис. 9.4, располагается между ли- ниями V (I) и V (/), иногда совпадая с V (/). Это полностью согла- суется с неравенствами (9.6.6). В заключение параграфа приведем один просто доказываемый, но важный факт, касающийся всех трех функций ценности информа- ции. Теорема 9.8. Функции ценности V (/), V (/), V (I) для бейесовской системы \Р (dx), с (х, и)] инвариантны относительно следующего преобразования функции штрафов: с' (х, и) = с0 (х) + с (х, и), (9.6.7) где с0 (х) — любая (измеримая) функция с конечным средним зна- чением. Для доказательства инвариантности функций V (/), V (I) нуж- но учесть, что MminM[c'(je, u)\Eh] = МпппМ[с°(x)\Eh] + и и + MminM[c(x, u)\Eh] = Me0(x) + MminM \c(x u)\Eh] min Me' (x, u) = Me0 (x) + minMe(x, u), (9.6.8) (9.6.9) вследствие чего в разности (9.6.3) члены Мс° (х) сокращаются. Для доказательства инвариантности V (/) достаточно учесть при рас- 328
смотрении второго члена в (9.3.12) кроме (9.6.9) соотношение Мс'(х,и) = Мс°(%) + ГЛс (х, и). При замене (9.6.7) остается неизменным также оптимальное раз- биение 2-?fe или оптимальные переходные вероятности P(du\x). и Все сказанное выше распространяется и на тот случай, когда функ- ция с (х, и) имеет смысл не штрафов, а поощрений и когда миними- зация в (9.6.3) и других формулах должна быть заменена на макси- мизацию: 9.7. Другой подход к определению ценности шенноновской информации 1. Зададимся целью приблизить по форме определение ценности шенноновского количества информации к определениям (9.2.5), (9.2.6), которые в отличие от (9.3.12) содержат минимизацию по и во втором члене. Для этого дадим другое ее определение при помощи минимизации по и. Введем модифицированную функцию ценности V (I) шеннонов- ского количества информации, которая, как это будет видно из даль- нейшего, иногда совпадает с V (/): V(I) = V(I). (9.7.1) Пусть задана бейесовская система [Р (dx), с (х, и)]. Введем вспо- могательную случайную величину z, принимающую значения из некоторого пространства Z и связанную с х переходными вероят- ностями Р (dz\x). Будем трактовать г как наблюдаемую величину, несущую информацию об х. После наблюдения z оптимальная не- рандомизированная оценка и = d B), как обычно в теории опти- мальных статистических решений, определяется минимизацией ГЛ[с(х, u)|z]=inf. (9.7.2) и Добавим теперь минимизацию по различным переходным вероят- ностям Р (dz\x), которые совместимы с информационным ограниче- нием /„</• (9-7.3) Это приводит к функции ценности информации F(/) = infMc(*, и)—inf MinfM[c(^,u)|z], (9.7.4) где G — множество условных распределений Р (dz\x), удовлетво- ряющих условию (9.7.3). 329
Нетрудно понять, что при любом выборе пространства Z вы- полняется неравенство V(/)<V(/). (9.7.5) В самом деле, из (9.7.3) следует, что Ixu sj /, так как Ixu ^ 1хг. Поэтому распределение \ р (du\z) P (dz \ х) при Р (dz | х) ? G вхо- Z дит в множество G распределений Р (du | х), перебираемых при мини- мизации по Р (du \x) в определении (9.3.12) функции V (/). Указан- ный факт (9.7.5), разумеется, связан с разобранной ранее теоремой 9.2. 2. Функция ценности (9.7.4) согласно ее определению оказы- вается зависящей от выбора измеримого пространства Z. Докажем, что его всегда можно подобрать таким образом, чтобы V (I) достигло своей верхней границы, т. е. чтобы неравенство (9.7.5) обратилось в равенство (9.7.1). Доказательство. Допустим, что для рассматриваемой бейесовской системы [Р (dx, с (х, и)] экстремум третьей вариацион- ной задачи при условии 1хи<1 (9.7.6) достигается на определенном распределении Р (du\x), которое обо- значим P0(du\x). Это экстремальное распределение задает двумер- ное распределение Рэ (dx\du) = Р (dx) Рэ (du\x) и условное рас- пределение P3(dx\u). Почти при каждом и распределение P3(dx\u) есть вероятностная мера на X, т. е. точка я = z пространства П. Таким образом, фиксация условного распределения Рэ (dx\u) озна- чает фиксацию (определенного почти всюду) нерандомизирован- ного отображения пространства U значений и на П. Пусть в схеме х->и-+п (9.7.7) рандомизированное преобразование х ->• и осуществляется с ве- роятностями перехода Pa(du\x), а второе преобразование—в со- ответствии с указанным выше отображением. Очевидно, что /хп ^ Ixu (в силу общих свойств шенноновской информации). Вслед- ствие (9.7.6) отсюда имеем 1ХЛ <: /. Таким образом, распределение P3(dn\x) описанной конкрет- ной схемы преобразований (9.7.7) удовлетворяет условию (9.7.3) при г = л. Оно входит в множество G распределений, перебирае- мых в (9.7.4), откуда имеем V(/)>infMc(jc, и) — MinfM[c(x, u')\z = PB(dx\u)]. (9.7.8) и и' Здесь последний член соответствует вышеуказанному конкретному распределению Pb(dz\x). Условное математическое ожидание 330
М [с (х, u)\z = Рэ (dx\u)] берется с вероятностями P[dx\z = Pa(dx\u)]= ^P(dx\z,u)P(du\z) = и = \P3(dx\u)P(du\z) = P3(dx\u), и так как {zP(du\z) — z (где z = P9(dx\u)). Вследствие (9.4.21) имеем с (х, и) = поэтому (9.7.9) (*) l_j Pa {dx | и) Р (dx) (9.7.10) и' m[c(x,u')\z) = —^m[y(X)\z\ + infMf—i-ln W\^ z\ * I P P(dx) \ (9.7.11) В силу самого понятия inf имеем -Т1п- Lin^-3^'"") Р (9.7.12) при любом и". Возьмем в качестве и" прообраз точки z (по указан- ному выше отображению и -*¦ z), т. е. одну из тех точек и", для ко- торых Рэ (dx|и") = z = P9(dx\u). Тогда неравенство (9.7.12) примет вид * 1 . х ]п га\их\и Р P(dx) 4—Lin Р»^|И> L P P (dx) z = Pg (dx | « (9.7.13) Здесь в правую часть подставлено Рд (dx \ и) вместо Рд (dx | и"). Под- ставляя далее (9.7.13) в (9.7.11) и усредняя по z, получаем inf Щс(х, и') P —Lin [опять использовано (9.7.10)]. Это соотношение позволяет преобра- зовать (9.7.8) к виду inf ГЛс(х, и) — f c(x, u)PB(dx, du). 331
Выражение в правой части здесь есть не что иное как ценность V (I) шенноновской информации. Сравнение полученного неравенства V (/) ^ V (/) с (9.7.5) дает (9.7.1). Доказательство закончено. 3. Вследствие теоремы 9.9 и формулы (9.7.4) ценность шеннонов- ского количества информации задается выражением V(/) = inf [с(х, u)P(dx) — inf [P(dn) inf [c(x, и) x u j p ш wee J « J x P(dx\n), (9.7.14) где P (dn) = J P (dx) P (dn\x);P (dx \n) = P (dx) P (dn | x)/P (dn); x я ^ л (rfx) — точка пространства распределений П. При этом множество G условных распределений ограничено неравенством /*я</ (9.7.3). Покажем теперь, что функции ценности V (/), V (/), в свою оче- редь, могут быть определены по формуле (9.7.14), но при замене допустимого множества G на какие-то более узкие множества G, G соответственно, такие, что G zd G zd G. Для фиксированного разбиения ^Ек = X, входящего в опре- k деления (9.2.6), (9.6.5), целесообразно положить \x) = 2jP(Ek\x)d{dn, P(dx\Eh)), (9.7.15) где б (dn, P (dx \ Eh)) — вероятностная мера в пространстве П, сконцентрированная в точке я (dx) = P (dx\Ek). Из (9.7.15) имеем {dn, P(dx\Eh)), (9.7.16) n, P(dx\Eh)), (9.7.17) Как видно из выражения в правой части (9.7.15), событие х ? ?&« с вероятностью 1 влечет событие я (dx) = P(dx\Eh') и наоборот. Поэтому P(dx\n) = P(dx\Ek-) (9.7.18) при n(dx) = P(dx\En-), т. е. при x^Eh-. Для множества распределений типа (9.7.15) согласно (9.7.17) интеграл по я в (9.7.14) превращается в сумму и мы имеем (x, u)P(dx) — inf %Р(Ек) х P (dn | х) к х inf [c(x, u)P(dx\n = P(dx\Ek)). и J Далее вследствие (9.7.18) это выражение принимает вид V=inf f c(x, u)P(dx)— inf 'Et P(Ek) inf [с(х, u)P(dx\Ek). и J P (dn I x) к и J 332
При этом для множества распределений типа (9.7.15) минимизация по Р {йл\х) сводится к минимизации по разбиениям 2j Ek = X. k Полученное выражение совпадает с выражением, стоящим в правой части формул (9.2.6а), (9.6.5). Следовательно, ценности информации V (/), V (/) также могут быть определены по формуле (9.7.14), если при минимизации перебираются распределения вида (9.7.15). Мно- жество G, соответствующее определению ценности V(I), есть мно- жество тех распределений типа (9.7.15), для которых выполнено не- равенство (9.6.4). Вследствие указанной эквивалентности событий х ? Ek и л (dx) = P (dx\Eh) преобразование х-*- л сводится к преобразова- нию х ->- k. Это значит, что в данном случае Поэтому из (9.6.4) вытекает условие Ixn sj /, т. е. условие (9.7.3). Следовательно, G принадлежит множеству G. Принадлежность же G множеству G вытекает из того факта, что условие (9.6.4) более слабое, чем условие ограниченности числа областей Еъ ..., Ем* М = еЛ
Глава 10 ЦЕННОСТЬ ШЕННОНОВСКОЙ ИНФОРМАЦИИ ДЛЯ ВАЖНЕЙШИХ БЕЙЕСОВСКИХ СИСТЕМ В данной главе общая теория, касающаяся ценности шенноновского количества информации и изложенная в предыдущей главе, применяется к ряду важных частных случаев бейесовских систем. Для этих систем здесь получены явные выражения, опреде- ляющие потенциал Г (р), который позволяет в параметрической форме найти зависимость между потерями (риском) i? и количест- вом информации / и затем найти функцию ценности V (/). Вначале рассматриваются те бейесовские системы, для которых пространство X является особенно простым, а именно состоящим из двух точек. При этом для решения третьей вариационной задачи требуется решать лишь несложное алгебраическое уравнение с одним неизвестным. В случае систем с однородной функцией штрафов (§ 10.2) для получения решения может быть применен метод пре- образования Фурье или эквивалентный ему операторный метод. Другие своеобразные (матричные) методы применяются в важ- ном случае гауссовых бейесовских систем, характеризующихся га- уссовым априорным распределением и билинейной функцией штра- фов. Они позволяют получить решение задачи и рассмотреть зависи- мость активного подпространства U от параметра р или /. Особо рассмотрены различные (конечномерные и бесконечномерные) ста- ционарные гауссовы системы, для которых функция ценности ин- формации записывается в параметрической форме. 10.1. Система с двумя состояниями 1. Рассмотрим тот простой случай, когда пространство X зна- чений случайной величины х состоит из двух точек хг и х2. Вероят- ности Р (хг) = р, Р (х2) =1 — р предполагаются заданными. Про- странство 0 возможных оценок и предполагаем более сложным, на- пример возьмем в качестве него действительную ось. При этом функ- ция штрафов с (х, и.) сведется к двум функциям от и: с (xlt и) = сг (и); с {х%, и) = с, (и). 334
Уравнение (9.5.2) для данной бейесовской системы будет иметь вид J -pc'(u) = Jj Q.e-pc'(u) = l, «6 V. A0.1.1) Эти соотношения представляют собой систему уравнений относи- тельно двух неизвестных Qu Q2. В предположении невырожденно- сти матрицы |]e~pc»(V| указанные неизвестные определяются двумя уравнениями A0.1.2) т. е. пространство U состоит из двух точек иъ и2. Рассматриваемая бейесовская система относится к тому част- ному случаю, который был рассмотрен в п. 1 § 9.5. Матрица (9.5.3) при этом имеет вид Pci(«i) p-Pcj ("ON-1 Э(^() Используя (9.5.4), находим потенциал Г (C) = —/г2 (р)—р In [е-Рс* <"«)—е — A — р) In [e-Pc' («i)_е-Рс> ( + In [e~PCi («i)-Pc2 («2) е~РСг или A0.1.3) где 2d =с (и) с-, (и ); Id =c (и) с (и); A0.1.4) Дифференцируя потенциал по р (при постоянных и1г и2), можно найти R и /. При помощи преобразования Лежандра /8 (/?') = —Г,—Р# (/?' = — dp функции Г2(Р)=—plnshprf,—(I—rtl результат можно записать I = h2(p)+Ii(R-M). A0.1.6) Неизвестные значения ulf ы2 должны быть определены из до- полнительных уравнений. Чтобы записать эти уравнения, исполь- 335
зуем условие (9.4.27), соответствующее вариации 8U области U, т. е. вариациям 8иъ 6w2. В силу (9.4.29) вариацию 6Г можно запи- сать ^ + borRbf> + 8oT, A0.1.7) dp где вариация 6ОГ соответствует вариации области U, проводимой без вариации параметра р\ Подставляя A0.1.7) в (9.4.27), получаем условие 6ОГ = 0. A0.1.8) Поскольку вариации 6иь 6м2 независимы, условие A0.1.8) дает два уравнения -^ = 0; -™0. A0.1.9) oui ди2 Предполагая, что якобиан dd1 ddj diii ди2 преобразования A0.1.4) отличен от пуля, уравнения A0.1.9) можно заменить уравнениями Дифференцируя A0.1.4), записываем их в явном виде + rf2)+ -|p-0. A0.1.11) 2. Рассмотрим для примера квадратичные функции штрафов Cl(«)=-(« —a^ + bj; C2(u)=(u-a2f + b2. A0.1.12) Вводя центрированную переменную и — и — (ал -\- п2)/2, приве- дем их к виду Cl{u) - (н —(flj — a2)/2J + 6i; c2 (и) = (м + (а1-а2)/2J + 62. В силу инвариантности относительно преобразования (9.6.7) эти функции можно заменить функциями Cl[u)=u — (ax — a2)u; c2[u) = u +(a1—ai)u. A0.1.13) 336
В данном случае согласно A0.1.4) 2d1 = Zl — u2i — (a1 — ai) [й2 — их), 2di=~u2i—H22 + {a1 — ai){ii1 — u2), A0.1.14) Значения их, и2 должны быть определены из уравнений A0.1.9), A0.1.10). Вследствие симметрии функций A0.1.13) можно искать симметричные корни и2 = —их, что сильно упрощает уравнения. Так функция A0.1.3) вследствие A0.1.14) принимает вид Г(Р)=— h2(p)—In sh И + \nsh2$dx—$M = = —Аа(р) + 1пBсЬр^) —pAf, A0.1.15) где dx = d2 = {a1—a2)ux\ M=~u\ = d\l(ax—a%f. Приравнивая нулю частную производную функции A0.1.15) по du получаем уравнение для определения % (ах — агу th р^ = 2dx. A0.1.16) Это трансцендентное уравнение имеет единственное положительное решение при {аг — а2Jр ^ 2. После решения уравнения A0.1.16) определяется их = dxl(ax — а2). Взяв частную производную от A0.1.15) по Р, обычным способом получаем (учитывая A0.1.16)) ^—Ъ\, I = К (Р) —ln B ch Ю + 2р~и\. Удобно ввести параметр $ = 2их/(ах — а2) = th fidx, при помо- щи которого последние формулы запишутся так: R=— (ax — a2f®2/4 A/2Э) О arth О, A0.1.17) / = ft,(p) —In2 + (l/2)ln A —д2) -Ь О arthО. A0.1.18) Выражая агШФ через логарифмы, последнее выражение можно представить в форме A0.1.19) Отсюда видно, что нулевая информация / = 0 имеет место при зна- чении A + Ф)/2 = р, ft = 2р — 1. Согласно A0.1.17) этому зна- чению соответствуют потери R @) = —(а2 — а2J (р —1/2J, так что {ai~4ai)* [о»_Bр —1)»]. A0.1.20) 337
Исключая параметр ¦& из A0.1.19), A0.1.20), находим зависи- мость между ценностью V и количеством информации / в виде урав- нения При изменении количества информации / от 0 до /г2 (р) ценность V меняется отО до (аг — а2J X [V4 — (р — 1/2)Ц = {аг — а2J р A— р) (при этом Ф меняется от 2р — 1 до 1). 10.2. Системы с однородной функцией штрафов 1. В этом параграфе будем предполагать, что функция штра- фов с (х, и) бейесовской системы [Р (х), с (х, и)] является однород- ной, т. е. зависит от х и и лишь через посредство их разности: с (х, и) = с (х — и) = с (г), другими словами, является инвариант- ной относительно преобразования сдвига х -*- х + а, и -*¦ и + а. При этом подразумевается, что х, и, z = х — и, а принимают зна- чения из одного и того же пространства X, что преобразование сдви- га оставляет это пространство инвариантным. Следовательно, про- странство X не должно иметь границ, но может иметь конечный «объем», например, быть периодически замкнутым. Применим к равенству (9.5.2), принимающему вид e-Bc«*-«)=l, A0.2.1) указанное преобразование сдвига, которое перейдет в равенство 2 Q(x + а) е-Ре <*-«>= 1. A0.2.2) X Предполагая, что преобразование сдвига оставляет активное подпространство U инвариантным, получаем из сравнения A0.2.1) и A0.2.2), что Q (х) = Q (х + а), т. е. Q (х) = Q является констан- той. Поэтому в данном случае применима теория, изложенная в п. 2 §9.5, и можно пользоваться формулами (9.5.8), (9.5.10), (9.5.15). Зная потенциал Г =— Нх — $F0, в соответствии с (9.4.28), (9.4.29) нетрудно найти Функция ценности информации получается из этих двух формул исключением параметра Т = 1/р. Поскольку в рассматриваемом случае функция Q (х) является константой, экстремальное распределение (9.4.21), согласно (9.5.9) принимает вид Рд(х, ы) = Рэ(и)е0р.-ес <*-«>. A0.2.4) 338
Отсюда видно, что условное распределение />э(*|и) = еР|'«-Рс<*-«> A0.2.5) не зависит от априорного распределения Р (х). Величина Я = = —dFjdT = Нх—/ в формулах A0.2.3) есть не что иное как энтропия Нх\и этого условного распределения: Н = —М In P (х\ и). Априорное распределение Р (х) оказывает влияние в A0.2.4) лишь на распределение Рэ(и). Уравнение (9.4.23), определяющее его, можно в силу (9.5.9) записать 2 е-Р' <*-«> Ра (и) = е-»р* Р (х). A0.2.6) и Оно решается методом преобразования Фурье, поскольку Фурье- изображение интеграла свертки равно произведению изображений. Вводя^характеристические функции 6 (s) = е>* <s> = 2 е" Р (х); % (s) = ev <s) = 2 esu Pg (и), из уравнения A0.2.6) получаем или v (s) = |х (s)— [Ч» (Р, s)—Ч» (Р. 0)], A0.2.7) где еФ(Р'») = 2е"РсB)+и, A0.2.8) г причем Ч)(Р, 0)= Р^оA/Р). A0.2.9) Соотношение A0.2.6) можно в силу A0.2.8) записать также в опе- раторной форме ехр и^,-±^-^ф,0)]ра(х) = Р(х) A0.2.10) по аналогии с (8.8.4). Разрешая последнее уравнение, получаем /»e W = ехр Г-ф(р,-^ Взяв разложение 339
а также разложение можно записать A0.2.11) в виде (-1)" СО СО Л ** п\1х\...\1п\ n=l h 'n=1 A0.2.12) Здесь производные kx = (dlty/dsl) (P, 0) согласно A0.2.5), A0.2.8) сов- падают с кумулянтами распределения Р (г) = exp [p.F0 — Рс (z)]. Полученной формулой A0.2.12) удобно пользоваться, когда апри- орное распределение Р (х) является значительно более широким, чем условное распределение A0.2.5), так что члены разложения бы- стро убывают. Особенно прост тот случай, когда распределение Р (х) является равномерным: р (Х) = &-"*. Тогда из A0.2.6) вытекает, что Рэ {и) имеет такой же вид: Рэ (и) - е~"х. A0.2.13) Приведенные в этом параграфе соотношения справедливы как для дискретного, так и для непрерывного пространства X. В не- прерывном случае, конечно, суммы следует заменить интегралами. Может оказаться, что в случае непрерывного или неограниченного пространства некоторые члены рассмотренных выражений, напри- мер Нх, не имеют самостоятельного смысла. Однако они встречают- ся в сочетании с другими членами и функциями в такой форме, что сочетание в целом (например, сумма Нх + dFoldT) имеет смысл. 2. Примеры. Рассмотренные в § 9.2 и 9.5 примеры, в которых х было дискретной случайной величиной, относятся именно к слу- чаю систем с однородной функцией штрафа. В настоящем параграфе мы рассмотрим примеры, в которых слу- чайная величина х принимает непрерывные значения и описывается плотностью распределения вероятностей р (х). Пусть функция штрафов с (г) имеет нижеследующий вид: A0.2.14) { оо вне z,0. 340 оо вне Zo.
Тогда, записывая формулу (9.5.8) в непрерывном варианте: e-fw» = Ce-Pe<*>dz=$ dz, будем иметь где ?1 = f dz— «объем» той области Zo, в которой c(z) Ф <х>. Рис. 10.1. Зависимость средних штра- фов от количества инфор- мации для функции штра- фов вида A0.2.14). Применяя формулы A0.2.3) к данному случаю, находим R = -^—FF) = 0; I = Hx — lnQ. A0.2.15) dp Отсюда видно, что для обеспечения нулевого уровня потерь необ- ходимо количество информации, равное /вр = In Q = — Пп [Йр (*)] Р (х) dx. A0.2.16) При меньшем количестве информации возникает ненулевая вероят- ность бесконечных штрафов и поэтому уровень потерь R — Мс (х,и) становится равным бесконечности. Ход описанной специфической зависимости R от / показан на рис. 10.1. В многомерном случае, когда задана точность воспроизведения (равная е) по каждой координате, имеем где г — размерность пространства. При этом критическое значение информации A0.2.16) равно е A0.2.17) 341
3. Пусть теперь пространство X есть г -мерное линейное про- странство, а функция с (г) квадратична: c(z)= A0.2.18) 2 Применяя (9.5.8), находим потенциал &F0 = — г In Согласно A0.2.3) &F0 = — г In [e-t*'dz= — lni. J 2 я = Hx—(r/2)ln(neT). A0.2.19) Рис. 10.2. Функции ценности инфор- мации для квадратичной функции штрафов A0.2.20). Если е2 = Mzf — точность по каждой координате, то уровень потерь R = Мс (г) можно в силу A0.2.18) приравнять геа. Тогда формулы A0.2.19) дадут = rln nL_ е V2 что напоминает A0.2.17). Исключая параметр 71 из A0.2.19), на- ходим функцию ценности информации A0.2.20) показанную на рис. 10.2. Запишем также плотность распределения Ру (и), определяемую формулой A0.2.11). В данном случае распределение A0.2.5) являет- ся гауссовым „ ра(х\и)= (-?¦) е ' и имеет характеристическую функцию 342
= Mexp |2 s; (xi —Ui)} = expj —- 2s? 1, Поэтому A0.2.11) дает Члены разложения сходятся как степенной ряд отношения |2 . ./ е \4 где j dxn j dxn+x Если это отношение мало, то можно оставить лишь несколько членов разложения, например Аналогичная формула имеет место и для предыдущего примера A0.2.14), когда Именно, если 0 вне Zo. то из разложения типа A0.2.12) будем иметь Приведенные результаты справедливы в том предположении, что вероятности A0.2.11) являются неотрицательными и энтропия Нх априорного распределения не меньше условной энтропии Нх\и = = Hz распределения A0.2.5), получаемого в результате решения экстремальной задачи. 4. В заключение этого параграфа рассмотрим функцию М»@ = 1п 2 е"<*'">/»„(«), A0.2.22) и 343
которая, как будет видно из гл. 11, играет существенную роль при решении вопроса о том, насколько отличаются друг от друга функ- ции ценности шенноновского и хартлиевского количества информа- ции. В случае однородной функции штрафа выражение можно представить в следующей операторной форме a(x), A0.2.23) что аналогично A0.2.10) (функция г|) (Р, s) определена формулой A0.2.8)). Подставляя сюда A0.2.11), будем иметь , -?") + *(Р. 0)] . A0.2.24) В том простом частном случае, когда распределение Рд (и) равно- мерное A0.2.13), формула A0.2.23) дает или ( Lj=r(-O, A0.2.25) если учесть A0.2.9), (9.5.10). Функция \ix(f) при этом не зависит от х. 10.3. Гауссовы бейесовские системы 1. Пусть х и и есть точки эвклидовых пространств RT, Rs, имею- щих размерность г и s соответственно. Бейесовская система [р (х), с (х, и)] называется гауссовой, если распределение р (х) гауссово, а с (х, и) представляет собой сумму линейной и квадратичной форм от х и и. Выбирая соответствующим образом начало координат в Rs, будем, следовательно, иметь с(х, u)^c°(x) + xTgu + — urhu, A0.3.1) (где с0 (х) = с0 + с^х + у хтс2х, что однако, не является обяза- тельным). Здесь использована матричная форма записи: (Щ. = (*!, ..., хг); и= : ); иг = («1 иа), ,хт/ V«. 344
g, h — матрицы. Далее согласно определению гауссовой си- стемы при подходящем выборе начала координат р(х)= det1'2 —exp j -хгах]. A0.3.2) Матрица а — невырожденная, положительно определенная. Если распределение р (х) является вырожденным, т. е. сосредоточено в некотором подпространстве X cz Rr, то можно ограничиться рас- смотрением пространства X = R~, заменив г на г (< г). Таким обра- зом, без ограничения общности корреляционную матрицу kx = а~х распределения A0.3.2) можно считать невырожденной. Для гауссовых систем функцию q (x) (см. (9.5.1)) можно искать в следующей гауссовой форме: р (х) е-v(*)-P«° (*) = q (х) е-Рс° <*> = ехр (а + хг р хгхх \. A0.3.3) Аналогично распределение рэ (и) полагаем гауссовым A0.3.4) и сосредоточенным в некотором подпространстве U = Rj (размер- ностью s) пространства Rs. В частности, может иметь место совпаде- ние R~ = Rr. В дальнейшем, ограничиваясь рассмотрением про- странства Rj, мы и под матрицами h, g будем понимать s X s- и г X s-матрицы. Итак, рассматриваются такие пространства i?~? Rj значений х, и, что матрицы к^. = а~г, ки = ап1 являются не- вырожденными. Входящие в A0.3.3), A0.3.4) неизвестные а; р= Pi\ ; х = \\xij\\; m; au определяются в дальнейшем. Подставляя A0.3.3), A0.3.4) в уравнение (9.5.2), получаем ^ ехр |хгр хгхх — fixTgu\dx = ехр |—а + — urhu . Предполагая, что матрица х положительно определенная, и, сле- довательно, det х Ф 0, возьмем этот интеграл при помощи формулы {1 1 /А хт Ах + хт y\dx= det-1/2 X ехр{— у7"Л у], A0.3.5) 345
где А — положительно определенная матрица (эту формулу легко вывести из E.4.19). Это приводит к результату {о \ — а + — urhu|. Логарифмируем это равенство и приравниваем порознь квадра- тичные по и члены, линейные и постоянные. Это дает уравнения pgrx-ig==h) (Ю.3.6) —gT x-1p = 0, A0.3.7) indetpx^p. A0.3.8) 2 2я 2 К К V ; Чтобы получить другие необходимые соотношения, обратимся ко второму уравнению (9.4.23), которое, умножив на р (х), запишем в форме $ /> (и) р (х) e~v <*>- Ре <*• н) ^ = р (х), л; 6 X. и Подставляя сюда A0.3.2)—A0.3.4), будем иметь ^constexpj -хгах + — хг хх— хт р|. A0.3.9) Матрица au + f5h предполагается невырожденной, положительно определенной. Из A0.3.9), еще раз используя формулу A0.3.5), получаем -i- (ш^ аи - р х^ g) (а„ + ph)-i (а„ m - pgr x) = = хг(а — и)х — хт p + const. Это равенство должно выполняться при всех х. Поэтому можно при- равнять порознь квадратичные и линейные по х формулы, что дает p2g(att + ph)-1g^=>c-a, A0.3.10) pg(au + ph)-1aum==p. A0.3.11) Уравнения A0.3.6)—A0.3.8), A0.3.10), A0.3.11) позволяют определить неизвестные au, x, m, р, а, входящие в A0.3.3) и A0.3.4). Разрешая A0.3.10) относительно х и подставляя в A0.3.6), полу- чаем матричное уравнение 2g(au + ph)-1gr]-1g = h, A0.3.12) 346
которое, как видно из дальнейшего, полностью определяет матрицу аи. Вводя неизвестную матрицу B = (au+ph)-1, A0.3.13) и учитывая, что а = kj1, переписываем A0.3.12) в виде Pgrk*[l* + |32gBgrkJ-ig = h A0.3.14) AЖ— единичный оператор в R~). Используя операторное тождество / (АС) А = А/(СА) A0.3.15) [см. формулу (П. 1.1)] при A = g, C = BgTk3c> /(z)= со = 2 ( —P22)", преобразуем A0.3.14) к виду п=0 (ю.3.16) где кж = gr kx g, а 1„—единичный оператор в U = R~. Нетрудно записать решение уравнения A0.3.16): lu + |32Bk3c = ph-iLC) тогда РВ= h— ФКУ1- A0.3.17) Здесь предположено, что матрицы h, кж являются невырожденными это условие характеризует подпространство U). Вследствие 10.3.13), A0.3.10) из A0.3.17) получаем aB=p[h-l-(pkJ-1]-1-ph, A0.3.18) и = а+ pg[h-i -(P^)-1] gr = kj1- gkj'g7" Л f-gh-igr. A0.3.19) Далее в силу A0.3.11), A0.3.17), A0.3.13) имеем p = g[h-i-(pk,)-1]aum. A0.3.20) Подставляя это равенство в A0.3.7), находим и в силу A0.3.6) ьИ-(р^)-1] ¦. =о. Поскольку матрицы h, h — ((Зк^.) = §В предположены не- вырожденными, это дает ацгп = 0, A0.3.21) 347
и вследствие A0.3.20) р = 0. A0.3.22) Наконец, из A0.3.8) согласно A0.3.22), A0.3.19) получаем а = -L In det-^ = — lndet Г— (a-gkj g7" + Pgh gr 1. 2 2я 2 L 2я J A0.3.23) Тем самым функции A0.3.3), A0.3.4) являются полностью найден- ными. 2. Для вычисления потенциала Г (Р) в силу (9.4.10) нужно разрешить A0.3.3) относительно у (х) и усреднить по х с весом A0.3.2): Г(р)=—а+ —M(xrxx —xrax) + — lndet — v ' 2 к ' 2 2л — Щсо{х) = — — In det (xkx) + Zi + —Мхг(х—а)х—pMc°(*). A0.3.24) Здесь учтены A0.3.22), A0.3.23). Поскольку М(и — а)ххт = (х—а)кЛ. = хкЛ.— \х в силу A0.3.2), то A0.3.24) можно записать Г(Р) - - ^-Spln(xkJ+ ^-Sp(xkx-lx)-pMco(x).(lO.3.25) Сюда следует подставить равенство A0.3.19), вследствие которого хкж— lx= g(ph-i —k^)gTiix. A0.3.26) Воспользуемся матричной формулой Sp / (АВ) = Sp / (ВА), A0.3.27) которая справедлива, если / @) = 0 [см. (П..5), (П.1.6)]. Полагая в A0.3.27) А = g (pir1 — k^1), В = g^, имеем Применяя это равенство при учете A0.3.26) к A0.3.25) для функций / (z) = In (I + г), f (z) = z, будем иметь Г(Р) = --J- Sp In (Ркж h-i)+-i-Sp(p k^h-i-lJ-pMc0 (x). A0.3.28) 348
Зависимость Г от р, следовательно, можно представить формулой Г(Р) = - -flnp ^Splnkxh-i J--PM. A0.3.29) Здесь s = Sp 1Ы —размерность пространства U (Р), а М = Мс° (х) Sp kx fr1. Для вычисления R и / в соответствии с (9.4.29), (9.4.30) оста- ется продифференцировать потенциал A0.3.28), A0.3.29). Из общей теории, относящейся к третьей вариационной задаче (см. доказа- тельство теоремы 9.5) следует, что при этом активною область U ф) с одинаковым успехом можно варьировать или считать постоянной. Выбирая последнюю более простую возможность из A0.3.28), полу- чаем (ю.з.зо) Для получения функции ценности информации (9.3.7) следует образовать разность A0.3.31) Анализ характера активных областей U, показывает, что если значение следа Sp In (fikjr1), которое в силу A0.3.30) совпадает с 21, равно нулю, то равен нулю и след Sp A/р — kjr1). Поэтому формула A0.3.31) принимает более простой вид A0.3.32) Последнее соотношение вместе со второй формулой A0.3.30) дает параметрическое представление зависимости V (/). 3. Охарактеризуем пространство U (Р). Для того чтобы изложен- ная в этом параграфе теория была справедливой, как уже отмеча- лось, необходимо, чтобы матрицы х и В = ph + au были поло- жительно определенными и, следовательно, невырожденными, а также чтобы матрицы h и кх были невырожденными. Нетрудно видеть, что матрица кх — gT k^g является неотрицательно опре- деленной, поэтому из ее невырожденности следует ее положительная определенность. Принимая далее во внимание A0.3.17), видим, что требование положительной определенности матрицы В = h — — (Ркд.) в сочетании с требованием положительной определенно- 349
сти кх приводит при р > 0 к положительной определенности и, следовательно, невырожденности матрицы h" = В + (Рк,.). На- конец, учитывая A0.3.19), заключаем, что матрица х = а + p2gBgr является положительно определенной, коль скоро матрица а яв- ляется положительно определенной, а матрица gBgr неотрицательно определенной. Таким образом, для выполнения всех нужных тре- бований достаточно выполнения двух требований: 1) чтобы матри- ца кх = gr k*g_6buia положительно определенной и 2) чтобы раз- ность h-1 — (ркд.) была положительно определенной: h— фк^-^полож. опр. A0.3.33) Положительная определенность аи вытекает из A0.3.33) и A0.3.18). Если х пробегает значения из X = R~, то u = grx пробегает значения из некоторого подпространства, которое мы обозначим Uo (cz Rs). Можно утверждать, что пространство U ф) есть мак- симальное линейное подпространство пространства Uo, в котором выполняются указанные требования 1) и 2). 4. Примеры. Рассмотрим сначала одномерный пример, когда г = s = 1. В этом случае кх = g2ks и из формулы A0.3.32) имеем V (')-=-^ A-е- *>) A0.3.34) (матрицы совпадают с числами). Перейдем к двумерному случаю, когда имеются две независимые гауссовы случайные величины с дисперсиями ku k2 и нулевыми средними значениями. Пусть матрицы g, h имеют диагональный вид: 8i 0\ h=(h1 0 Р gj' [О К Для определенности будем предполагать, что Ь-&\1кх В соответствии с условиями 1) и 2) пространство U ф) будет состоять из точек (%, и2) =(«ъ 0) прямой и2 = 0 при h-Jkxg\ <C P < и совпадать со всем двумерным пространством U=R2 при | В первом случае, когда U ф) одномерно, имеем 80Ч; «* = (*. о* В двумерном случае 350
Записывая формулы A0.3.30) для данного примера при учете A0.3.10), получаем / = R= -^/2^+ Мсо(л:) при при при Исключая 5, находим ценность информации Г 1 2 при 1 < их : 1П — 2 В точке / = /2, p = d*V d 1 _ ~d~P~ ~ ~dT ~f " при / вторая производная dT ~dT A0.3.35) A0.3.36) претерпевает скачок. Она равна V" (I2 — 0) = —2V — = —2k<?\lhb слева от точки / = /2 — 0 и V" GЙ + 0) = — V = = —k^g\lh^ справа от точки / = /2. Ход найденной зависимости V (/) изображен на рис. 10.3. Раз- мерность г пространства U (Р) можно интерпретировать как число активных степеней свободы, которое может меняться при изменении температуры. Это приводит к скачкообразному изменению второй производной A0.3.36), что аналогично скачкообразному изменению теплоемкости в термодинамике (фазовый переход второго рода). 5. В заключение вычислим для гауссовых систем функцию A0.2.22). Учитывая A0.3.1), A0.3.4), A0.3.21), имеем цх (t) = — In det (au/2n) + tc° (x) + Tgu -\ urhu uTauu \du. 2 2 / In ^ exp Применяя формулу A0.3.5), получаем 351
A0.3.37) где аи1 определяется формулой A0.3.18). Отсюда, в частности, мож- но найти математическое ожидание A0.3.38) М МО = Шс» (ж) - ^-Sp In (I-/ha^1) и производные ha -1 и (O()+JSp 2 1-thau1 ' <t т -l 2—thau т -h —fx^ga»1- ГТ7ёГх 2 О-Ла»1J A —ftaa ) Рис. 10.3. Функция ценности для гаус- совой системы с «фазовым переходом», соответству- ющая формуле (Ю.3.35). A0.3.39) A0.3.40) Если скомбинировать A0.3.37) с A0.3.39) и положить t = —р, то будем иметь J A0.3.41) Вытекающие из A0.3.18) соотношения -p-a»h-i = ( 1 i- hkj 352
позволяют в полученных результатах перейти от матрицы haj' к матрице ~kxh~L. Так из A0.3.40), A0.3.41) будем иметь i;(-p)=-L Spfl 2_Ькг 2 \ P <xh-1— 1 A0.3.42) ii(—P) + M—P) 1 g^x. A0.3.43) J Эти формулы понадобятся в §11.4. 10.4. Стационарные гауссовы системы 1. Пусть х и и состоят из многих компонент: Бейесовская система является стационарной, если ей свойственна инвариантность относительно преобразования сдвига (xlt..., хг)-> (х1+п,..., хг+п)', {и1, ..., мг)-> ->(«,+„, ... иг+п) (xh+r = xh, uk+r = uh). Для этого случайный процесс х должен быть стационарным, т. е. распределение р (х) должно удовлетворять условию p(xv ..., xr) = p(xl+n, .... xr+n\ а также функция штрафов должна удовлетворять условию стацио- нарности с(хг, ..., хт; Mj, ..., ur) = c(xl+n, ..., xr+n; ul+n, ..., wr+n). Применительно к гауссовым системам указанные условия ста- ционарности приводят к требованию, чтобы матрицы ам. иы, 1Ы> (ю.4.1) входящие в выражения A0.3.1), A0.3.2), были стационарными, т. е. чтобы их элементы зависели лишь от разности индексов: Рассмотрим сначала тот случай, когда пространства имеют ко- нечную размерность г. Матрицы A0.4.1) можно привести к диаго- нальному виду унитарным преобразованием x' = U+x A0.4.2) 353
с матрицей ^ /,/=1,...,г. A0.4.3) при этом U+hU=IA,6Jm|; A0.4.4) где ill — VC (It, ^lU.4:.Oj по аналогии с E.5.9), (8.7.6). После указанной диагонализации формулы A0.3.30) примут вид / =~ — V In [fki | gi |2//Ы; A0.4.6) 2 . ' = -rS(i/P- "Г г — ! 2 , r~s Унитарное преобразование A0.4.2) привело к тому, что новые пере- менные (g-u+и стали некоррелированными, т. е. независимыми. Рассматривая коор- динаты (fW-) \UrJ \UrJ удобно охарактеризовать активное подпространство U. В нем часть этих координат равна нулю. Неравными нулю являются согласно A0.3.33) лишь те координаты, для которых Ркг | & \2/ht > 1. A0.4.7) Поэтому в A0.4.6) суммирование нужно проводить лишь по тем I, для которых последнее неравенство выполняется. Число таких значений индекса и есть г. 2. Пусть теперь х — {х (t)} есть случайная функция на отрез- ке [0, То], т. е. пространство х является бесконечномерным (функ- циональным). 354
Бейесовскую систему будем предполагать строго стационарной, считая, что матрицы h, g, а имеют вид -nil. (Ю.4.8) и аналогично для а, где h (т), g (т), а (т) — периодические функции с периодом То. Унитарное преобразование, диагонализирующее эти матрицы, имеет вид преобразования Фурье т„ (UX), = X/ = X'(<O,) = :-?== " (со, = 2я//Г0; / = 0, 1, ...). При этом будем иметь (см, (8.7.12)) f A0.4.9) -Т,/1 и т. п. для других матриц. Формулы A0.3.30) в этом случае будут иметь вид, аналогичный A0.4.6), То 2Т0 A0.4.10) с той лишь разницей, что индекс / может теперь пробегать всевоз- можные целые значения ... —1, 0, 1, 2, ..., для которых выпол- няются условия ),)Г >?(«,) A0.4.11) типа A0.4.7). Пусть Фтах есть максимальная величина Фтах-тал| ^- /-..., -1.0, 1,2,...j. Тогда при р < 1/Фтах не будет иметься индексов I, для которых выполнялось бы условие A0.4.11) и суммы в A0.4.10) будут отсутст- вовать, так что / будет равно нулю, а (#0)/o=o=-^Mc°(x). A0.4.12) Ненулевое значение /0 появится как только Р достигнет значения 1/Фтах и превзойдет его. Учитывая A0.4.12) по обычной формуле 355
из A0.4.10) получаем выражение для ценности информации ¦ 7... 1 V Г ?"(@/) \ s(a>i) I2 1 A0.4.13) Зависимость Vo (/0) получена согласно A0.4.10), A0.4.13) з пара- метрической форме. 3. Рассмотрим тот случай, когда х — {..., х_и х0, хъ хъ ...} есть бесконечная стационарная последовательность и элементы ма- триц зависят лишь от разности i — /. Тогда эти матрицы диагонализи- руются унитарным преобразованием ^,, A0.4.14) где —п < X < п. По аналогии с A0.4.4), A0.4.5) в этом случае нетрудно получить и+Ш = |Л(ХN(Ь-Г)|,..., A(X) = Se-'«hfc. A0.4.15) k Преобразование A0.4.14) можно рассматривать как предель- ный случай (при /¦->- оо) преобразования A0.4.2), A0.4.3), причем % = %i~ 2пгЦ. Из сравнения A0.4.5) и A0.4.15) имеем Лг=Л Bл1/г),... Поэтому формулы A0.4.6) дают . 1 _ \ у, Г kBnl/r)\gBnl/r)\n 1 г It jL [Р hBnljr) Совершая здесь предельный переход /¦-> оо, поскольку АХ = 2л//', получаем отсюда интегралы = - f 4я J (Я,) Интегрирование проводится по тому подынтервалу L (J3) интервала (—л, я), где р/г (A.) |g (A,) |2 > h (к). Найденные формулы определя- ют удельные величины /ъ Rlt приходящиеся в среднем на один эле- мент последовательностей {..., хъх2, ...}, {..., ии иг, ...). Обошачая через \L\ длину подынтервала L (р). из A0.4. Ш) имеем 14 356 4Л/Л - -Ф, hO2e-4J"'/|L4 const, A0.4 17)
где —!— Г Ф (К) dk, Фа = ехр(—!— Г — некие средние (в L ({$)) значения функций Ф (к) =k(k)\g (к) flh (к), In Ф (к). 4. Пусть, наконец, имеется стационарный процесс на бесконеч- ной непрерывной временной оси. Функции К, g при этом есть функции лишь разности времен, подобно A0.4.8). Этот случай мож- но рассматривать как предельный случай системы, рассмотренной в п. 2 или в п. 3. Так в формулах п. 2 требуется совершить предель- ный переход То-*- оо, в процессе которого точки сог = 2nl/T0 на оси со неограниченно уплотняются (Лсо=2я/Г0) и суммы в A0.4.10), A0.4.13) переходят в интегралы: 4я J ив) L _l_ Г ГГ(ЫНF(co)Р L]. (Ю.4.18) Входящие сюда функции h (со), ^(со), ..., определены равенством A0.4.9) оо A(to).= Г e~iaxh(r)dT A0.4.19) —оо Интегрирование в A0.4.18) проводится по той области L ф) оси со, где p!((o)|i(fl>)|a>A(e>). A0.4.20) Обозначим через | L | суммарную длину этой области, тогда из последних формул A0.4.18) аналогично A0.4.17) будем иметь где ф°= ~ш 1ф (со) dw; ф' ~= ехр IW11п Ф (со) da}' A0.4.21) Эти средние оказываются слабо зависящими от р. 5. Рассмотрим в качестве примера стационарный гауссов про- цесс х = {х (t)}, имеющий корреляционную функцию 357
так что в соответствии с A0.4.19) k (со) = 2усУ(у* + со2). A0.4.22) В качестве функции штрафа возьмем квадратичную функцию с(х, и) = — или в матричной форме записи с(х, и) = — хгх—хти-\ и7" и. A0.4.23) Рис. 10.4. Удельная функция ценно- сти информации для приме- ра с функцией штрафов A0.4.23). При этом матрицы h, g, как видно из сравнения с A0.3.1), имеют вид h = || б (t — t') ||; g = — I 6 (t — t') 1 и поэтому A0.4.24) Функция A0.4.21) в данном случае в силу A0.4.22), A0.4.24) вы- глядит так: Ф (со) = 2уа2/(у2 + со2). Условие A0.4.20) принимает вид 2р>т2 > f + со2, следовательно, при фиксированном значении Р > у/2о2 область L (Р) является отрезком — У2$уо2 — у2 <С со <С V^2$ya2 — у2. Вме- сто параметра |3 будем рассматривать параметр у = \^2$а2/у — 1. Тогда р = у A + г/2)/2сх2 и указанный интервал L будет иметь вид —уу < со < уу. Учитывая, что У 1 2*7 dx arctg у —у 358
1 Г i / ?Jln( —у из формул A0.4.18) будем иметь A0.4.25) Вследствие A0.4.23) и стационарности процесса удвоенные удель- ные потери 2RQ, отнесенные к единице времени, совпадают со сред- ним квадратом ошибки 2R0 = М [х (t) — и (t)]2, а удвоенная цен- ность 2V0 (/0) = ст2 — 2R0 (/о) показывает величину максимального его уменьшения, которое возможно при данном удельном количест- ве информации /0. Кривая ценности, соответствующая формулам A0.4.25), приве- дена на рис. 10.4. Пользуясь этими формулами, можно также получить приближенные формулы для зависимости Vo (/о) при ма- лых и при больших значениях параметра у (или отношения 101у). При малых у <С 1 воспользуемся разложениями arctg у = у - tf/З + уЧЪ -..., у/(\ + у2) = у ^ у3 + if + .... Подставляя их в A0.4.25), получаем , у I У3 уъ я\35 и после исключения у: V(/)/ n = — — у3 уъ + ...), я\3 5 / о()(^ При больших у ^> 1 произведем разложение по обратному пара- метру, а именно i Я I 1 Я 1 , 1 Q arctg u=- arctg — — и И w~d—..., &у 2 у 2^зу Формулы A0.4.25) дадут nV0/a2 = п12 — 2уг + D/3) г/. Исключая отсюда- г/, будем иметь Vo/o* = Va-B/я2) (/0/т + V2)-x + О (Лт3). Для данного примера нетрудно записать также потенциал A0.3.28).
Глава 11 АСИМПТОТИЧЕСКИЕ РЕЗУЛЬТАТЫ, КАСАЮЩИЕСЯ ЦЕННОСТИ ИНФОРМАЦИИ. ТРЕТЬЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА Главным асимптотическим результатом, затрагивающим ценность информации, следует признать факт асимптотической рав- ноценности различных родов информации: хартлиевской, больцма- новской, шенноновской, имеющей место при весьма широких пред- положениях типа требований информационной устойчивости. Этот факт не сводится к факту асимптотической безошибочности переда- чи информации через канал с помехами, утверждаемому теоремой Шеннона (гл. 7), а является самостоятельным и не менее значимым. Комбинация двух указанных фактов приводит к обобщенному результату, носящему название обобщенной теоремы Шеннона (§ 11.5). В последней рассматривается общий критерий качества, определяемый произвольной функцией штрафов и соответствующим ей риском. Исторически факт асимптотической равноценности ин- формации был впервые доказан A959 г.) именно в такой комбини- рованной, завуалированной форме, в сочетании со вторым фактом (асимптотической безошибочности). Он не осмысливался сначала как самостоятельный факт, а составлял по существу часть обобщен- ной теоремы Шеннона. Мы в этой главе придерживаемся другого способа изложения и рассматриваем факт асимптотической равноценности различных количеств информации как совершенно особый самостоятельный факт, более элементарный, нежели обобщенная теорема Шеннона. Этот способ изложения мы считаем более предпочтительным как с принципиальной, так и с педагогической точки зрения. При этом отчетливее видна симметрия теории информации, равноправие второй и третьей вариационных задач. Помимо самого факта асимптотической равноценности информа- ции, разумеется, важен и интересен вопрос о величине расхожде- ния между ценностями различных родов информации. В § 11.3, 11.4 приводятся найденные автором первые члены асимптотического раз- ложения для указанного расхождения.,Эти члены являются точ- ными для выбранного случайного кодирования и дают представле- ние (как во всяком асимптотическом, полусходящемся разложении) о быстроте убывания расхождения, хотя сумма всех остальных членов разложения и не оценивается. Особо рассматривается вопрос 360
об инвариантности результатов относительно преобразования функ- ции штрафов с (I, 0 -> с (I, 0 + / (?), которое не сказывается на передаче информации и на ее ценности. Предпочтение отдается тем формулам, в которых фигурируют величины и функции, инва- риантные относительно указанного преобразования, например, берется отношение инвариантной разности R — R = V — V к ин- вариантной величине У, а не к риску R, который является неинва- риантным (см. теорему 11.2). Разумеется, исследования в данном направлении могут быть дополнены и улучшены. Скажем, при рассмотрении обобщенной теоремы Шеннона в §11-5 законно поставить вопрос о быстроте исчезновения расхождения в рисках. Этот вопрос, однако, остался нерассмотренным. 11.1. О различии между ценностями различных родов информации. Предварительные формы Пусть имеется бейесовская система IP (dx), с (х, и)], т. е. задана случайная величина х из вероятностного пространства (X, F, Р) и F X G-измеримая функция штрафов с ( х, и), где и (из измеримого пространства (U, G))— принимаемая оценка. В гл. 9 для такой си- стемы были определены функции ценности различных количеств информации: хартлиевского, больцмановского и шенноновского. Эти функции соответствуют минимальным средним потерям Мс (х, и), достижимым при приеме заданных количеств информации. Инфор- мация хартлиевского типа состоит в указании, какой области Eh из оптимального разбиения Ех + ... + Ем = X (Eh ? F) принад- лежит значение х. Минимальные потери iT(/) = infMiuf Щс{х, u)\Eh] A1.1.1) 2?fe и определяются минимизацией как по оценкам и, так и по различным разбиениям. Ограничение хартлиевского количества информации значением / соответствует ограничению М sgC e7 числа указанных областей. При ограничении шенноновского количества информации рас- сматриваются минимальные штрафы /?(/)= inf Cc(x,u)P(dx)P(du\x), A1.1.2) P(du\x) J где минимизация производится по условным распределениям Р (du\x), совместимым с неравенством 1хи^1- Минимальные потери R (/), соответствующие ограничению больцмановского количества информации, согласно (9.6.6) заключе- ны между потерями A1.1.1) и A1.1.2): /?(/)<!(/)<«(/). (П.1.3) 361
Поэтому все три функции R (/), R (/), R (/) будут близки друг к другу, если близки R (/) и R (/). Из определения функций R (/), R (/), R (/) непосредственно следует лишь неравенство A1.1.3). Возникает вопрос, насколько сильно отличаются друг от друга функции R (I) и R (/). Если они не сильно различаются, то вместо трудно вычисляемой функции R (/) можно рассматривать значительно легче вычисляемую функ- цию R (/), обладающую такими удобными свойствами как дифферен- цируемость и пр. Исследованию различия между функциями R (/), R(I), а значит и между функциями ценности V(I), V (I), V (I), посвящена настоящая глава. Оказывается, что для бейесовских систем определенного типа — систем, обладающих свойством «ин- формационной устойчивости», имеет место асимптотическое сов- падение указанных функций. Этот фундаментальный асимптотиче- ский результат — третью асимптотическую теорему, по глубине и значимости можно сравнить с соответствующими асимптотическими результатами первой и второй теорем. Прежде чем давать определение информационно устойчивых бейесовских систем, рассмотрим составные системы, обобщением которых являются информационно устойчивые системы. Назовем бейесовскую систему [Рп ((Щ, с (?, Q] п-й степенью системы [Рх (dx), сг (х, и)], если случайная величина Ъ, является совокупно- стью (х1г ..., хп) из п одинаково распределенных, независимых, слу- чайных величин, являющихся копией величины х, т. е. оценка ? является совокупностью одинаковых »,, ..., и„, а функ- ция штрафа является суммой c(l,t)=^c1(xhui). A1.1.5) Как к системе [Plt cxl, так и к ее степени можно применять фор- мулы A1.1.1), A1.1.2). Количество информации 1п ~ п!х для со- ставной системы естественно взять в п раз больше, чем для простой системы. Тогда экстремальное распределение Р (dt, \ ?), соответствую- щее формуле A1.1.2) для составной системы, распадается согласно (9.4.21) на произведение Pin(d^\l) = PIi{du1\x1)...PIi{dull\xn), A1.1.6) где Р/,(^ы|х)—аналогичное экстремальное распределение для простой системы. В соответствии с A1.1.2) имеем RAh) - ^.(x, u)P1(dx)P,i(du\x). A1.1.7) 362
Для n-й степени вследствие A1.1.5), A1.1.7) будем иметь R,,Un) = nR1{I1). A1.1.8) Сложнее обстоит дело в отношении функции A1.1.1). Функции Rn (nlj), R1 (/j) сложной и составной системы уже не связаны таким простым соотношением. Для составной системы число об- ластей разбиения можно брать равным М = [en/i], тогда как для простой системы т ^ [е'1] (скобки обозначают целую часть). Очевидно, что М ^ пгп, поэтому разбиение . B?7i)...B?z) ' A1.1.9) пространства Х"=(Х х ...хХ) на т" областей, индуцируемое экс- тремальным разбиением ^ Ek = X малой системы, входит в число допустимых разбиений, перебираемых в формуле Rn(nlj) = int MinfM[c(g, t)\Gk]- A1.1.10) м t k= 1 Отсюда вытекает, что RAnhXnR^r,). A1.1.11) Кроме разбиений A1.1.9), однако, теперь имеется большое число допустимых разбиений другого вида. Поэтому есть основание ожи- дать, что nRx (/х) будет существенно больше, чем Rn (д/х). Есть основание ожидать, что для некоторых систем удельные потери Rn (nl^/n, [заведомо превосходящие Rx (/x) в силу A1.1.3), A1.1.8)], убывают с ростом п и приближаются к своему предельно малому возможному значению, которое оказывается совпадающим именно с Rn (nl-^ln = Ri (I]). Этот факт и составляет содержание основ- ного результата (третьей асимптотической теоремы). При его дока- зательстве попутно получается и другой важный результат, а имен- но обнаруживается рецепт, как находить разбиение 2 Gk, близкое (в асимптотическом смысле) к оптимальному. Оказывается для этого пригодна процедура, аналогичная декодированию по случайному коду Шеннона (см. §7.2). Берутся М кодовых точек ?i, ..., ?^ (напомним, что каждая из них представляет собой блок (иъ ..., ип)). Эти точки являются результатом М-кратного случайного выбрасы- вания, совершаемого с вероятностями P,n{dl)= \P{dl)PIn{dl\l) = PIi{ul)...P,i{un), A1.1.12) хп где Pi (dt, \ ?) — оптимальное распределение A1.1.6). Число кодо- вых точек берем таким: М — [е' (/„ — n,IL) 1г не зависит от п), причем величину 1п для доказательства последующей теоремы 11.1 следует полагать несколько отличающейся от величины In = nllt 363
входящей в A1.1.12). Указанные кодовые точки и «расстояние» с (?, 0 от \ до ? определяют разбиение Та %Gk = Xn. A1.1.13) Область Gk содержит те точки |, которые «ближе» к точке ?А, чем к другим точкам (равноудаленные точки можно по произволу от- нести к любой из конкурирующих областей). Если для указанного разбиения A1.1.13) в качестве оценки вместо точки ?,, минимизи- рующей выражение М [с (?, ?)|Gft] выбрать точку t,k, при помощи которой построена область Gk, то это будет сопряжено с некоторой оптимальностью, т. е. A1.1.14) Сравнивая левую часть неравенства A1.1.14) с A1.1.10), очевидно, имеем Rn (п/~) < М inf М \с (I, I) | Gh] < ММ \с (I, у | Gh]. В выражении ММ [с (g, Z,k)\Gh] точки ^ ^ предполагаются фиксированными. Записывая его подробнее как М {М [с (?, t,h) \Gh]\ Si» •••» Сп}. следовательно, имеем неравенство ..., U}, A1.1.15) которое пригодится в следующем параграфе. Для дальнейшего полезно напомнить также (см. гл. 9), что эк- стремальное распределение A1.1.12) формулой (9.4.23), т. е. форму- лой jp(??) A1.1.16) или j-pc'<*'")/>/,(<*«), A1.1.17) связано с функциями Yi (*)> Vn (I) = 7i (xi) + ••• + 7i (xn)- По- следние после усреднения дают потенциалы 1\ ф) = My! W = J P (dx;) In j е-рс1(ЛГ' и) Р/, (du), A1.1.18) Гвф) = М7п(Ю = пГ1(Р), A1.1.19) позволяющие вычислить средние штрафы R» = -n^r№> ^=—^*> A1.1.20) ар ар и количество информации /„ = «Л; /i=P-^-(P)—гх(р) (П.1.21) согласно (9.4.10), (9.4.29), (9.4.30). 364
11.2. Теорема об асимптотической равноценности различных количеств информации 1. Прежде чем переходить к основным асимптотическим ре- зультатам, касающимся равноценности различных родов информа- ции, выведем полезные для дальнейшего неравенства A1.2.5), A1.2.13), позволяющие оценить сверху минимальные потери Rn (nli)< соответствующие хартлиевскому количеству информации. Воспользуемся неравенством A1.1.15), которое справедливо для любого набора кодовых точек ?ь ..., Z,M- Оно останется справедли- вым, если произвести усреднение по статистическому ансамблю ко- довых точек, описываемому вероятностями Р/п (d^) ... P/n(d?,%), М = [е"Ч. При этом будем иметь Запишем выражение L в правой части подробнее. Поскольку Gk — область точек ?, где «расстояние» с (?, ?й) не превосходит «расстояния» с (?, ?{) до любой точки ^ из ?ь ••¦. ?й> имеем M[c(ES)|G] и, следовательно, также М {М [с (I, ?ft) | Cft] | d,.... Си} = 2 /> (Gft) M [с (g, Sft) | Gft] = Усредняя по Si» •••» &й» будем иметь A1.2.2) В каждом k-u члене удобно в первую очередь произвести интегри- рование по точкам ?ь не совпадающим с ?ft. Если ввести функцию распределения при A1.2.3) при Я<0, 365
то после (М — 1)-кратного интегрирования по точкам ?,-, не совпа- дающим с ?ft, из (П.2.2) будем иметь (П.2.4) It Знак неравенства возник по той причине, что при с (?, t,u) ^ О мы несколько расширили области Gt (i Ф k), присоединив к ним все «спорные» точки |, для которых с (?, ?fe) = с (?, ?г), а при с (?, Ц) < 0 сузили эти области, отбросив все подобные точки. Нетрудно видеть также, что A1.2.4) можно записать в виде P(dl) \ Xd{l —[I— — оо или в силу A1.2.1) k). A1.2.5) В правой части здесь усредняется по \ математическое ожидание, соответствующее функции распределения . A1.2.6) Очевидно, что l-^-ll-^I'^l—/"б, т. е. F^k^Ftty), A1.2.7) поскольку 1 — F| (Я,) ^ 1. Вместо Fx (к) удобно ввести близкую к ней (при больших п) функцию распределения F2 {%) = max {1 — е-й Fб <?•>, Fs (Л)}. A1.2.8) Нетрудно доказать, что F1==l — (I— FE)B> I— e-^Fi. A3.2.9) В самом деле, используя неравенство имеем A—/16)й<е-^Е1 A1.2.10) что эквивалентно A1.2.9). Используя A1.2.7), A1.2.9), получаем, что функция A1.2.8) не превосходит функции A1.2.6): Л.). A1.2.11) 366
Из последнего неравенства вытекает X). A1.2.12) Чтобы в этом убедиться, можно учесть, например, что из A1.2.11) следует неравенство Хх (F) ^ Л2 (F) для обратных функций, через которые разность ^XdF^ — I XdF1 записывается в виде f [k2 (F) — о — кг (F)] dF, и, следовательно, является неотрицательной. Итак, неравенство A1.2.5) только усилится, если в правой части l^dF-L заменить на jA.d/'V Следовательно, будем иметь ^), A1.2.13) где F2 (А,) определяется формулой A1.2.8) при УМ = [е"Ч. По- лученное неравенство будет использовано в § 11.3. 2. Теорема 11.1. Пусть имеются бейесовские системы [Рп (d%), с (g, t,)], являющиеся п-й степенью системы [Р1 (dx), cx (х, и)], причем функция штрафа ограничена сверху: \c1(x,u)\%Ki. A1.2.14) Тогда удельные потери, соответствующие различным родам информа- ции, в пределе совпадают: /Un/)?(/) A1.2.15) при п->¦ оо. Иначе говоря, имеет место асимптотическая равно- ценность Vn(nI1)lVn{nIl)-+\ A1.2.16) шенноновского и хартлисвского количеств информации. Предпола- гается, что входящие в A1.2.15) удельные потери конечны и функция Rx (Ij) непрерывна. При доказательстве этой теоремы будем следовать Шеннону [4], сформулировавшему этот результат в других терминах. Доказательство. 1) Вследствие A1.1.4) при экстре- мальном распределении A1.1.6) случайная информация представляет собой сумму независимых случайных величин. Такой же вид имеет и функция штрафов A1.1.5).. Каждая из них имеет конечное математическое ожидание. Применяя закон больших чи- сел (теорему Хинчина), имеем -LC(?,?)--L. n n 1, 367
<eUl при n -> oo при любом е > 0. Следовательно, каково бы ни было б > 0 при достаточно боль- ших п > п (е, б), будем иметь Р{с(I, t)/n<i?1(/]) + e}>l~62/2, P{/(L9/«</, + 4>l-№ A1.2.17) Обозначим через Г множество пар (g, ?), для которых одновременно выполняются оба неравенства c&tXnlR^IJ + n], A1.2.18) /(?,?)< n (/t+ e). A1.2.19) Тогда из A1.2.17) получаем Р (Г) > 1 — б2. A1.2.20) В самом деле, вероятность события А, противоположного собы. тия A1.2.18), а также вероятность события В, противоположного A1.2.19), не больше 62/2. Поэтому для их объединения имеем Событие же, противоположное A U В, есть не что иное, как Г, и, следовательно, справедливо A1.2.20). Пусть для фиксированного ? множество Zg есть множество тех ?, которые в паре с \ входят в Г, другими словами, Zj — сечение множества Г. При таком определении Р (Z||?) = Р (ГЦ). Рассмотрим множество В тех элементов ?, для которых P(ZE|?)>1—6. A1.2.21) Из A1.2.20) следует, что Р(в)>1 — б. A1.2.22) Чтобы в этом убедиться, предположим противное, т. е., что />(Е)<1— 6; P(S)>6 A1.2.22а) (S — дополнение к В). Вероятность Р {Г} дополнения к Г можно в этом случае оценить следующим образом. Воспользуемся представ- лением _ Р(Г) = $/>(Г | ?)/>(#), причем разобъем этот интеграл на две части и оставим лишь один подынтеграл: ss A1.2.226) 36S
В дополнении 3, очевидно, выполняется неравенство, противо- положное A1.2.21): Р (ZE11) = Р (Г 11) < б, т. е. Р (Г 11) > 6, при ? 6 S. Подстав- ляя эту оценку в A1.2.226) и учитывая A1.2.22а), находим Р (Г) >6 J Р (d?) = 6Р C) > б*. Это противоречит A1.2.20) и, следовательно, предположение A1.2.22а) неверно. Неравенство A1.2.19) означает, что т. е. Суммируя по ? 6 2|, отсюда получаем или, используя A1.2.21), P(Z|)>e-"'/'+E)(l—6) (i€B) при n>n(?,S). A1.2.23) 2) Используем теперь формулу A1.2.5). Возьмем функцию рас- пределения 0 при (/х) + /ге) при 1 при A1.2.24) Вследствие условия ограниченности A1.2.14) функции штрафа, вероятность выполнения неравенства с (\, ¦?) > nKi равна нулю и из A1.2.3) получаем Fi(nKi) = 1. Вследствие A1.2.6) следует, ¦что F-, (пКг) = 1. Таким образом, функции F1 (Я) и F3 (к) на участ- ке к ^ пК\ совпадают. На участке nRx Aг) + т < к <С nKi имеем ^з (ty ^ Fx (к), поскольку F3 (к) = F± (nRx (/i) + tie) ^ Fx (к) при п/?х G1) + /ге^ Я в силу неубывающего характера функции Fx (Я). Следовательно, неравенство F3 (к) < Fx (Я) справедливо при всех значениях Я. Из него следует обратное неравенство для средних: (Я) ^jldF1 (Я), подобно тому как A1.2.12) следовало из A1.2.11). Поэтому формула A1.2.5) дает . (Н.2.25) 369
но J MFa (к) = \nRx (I,) + пг] F± (nR1 (IJ + ne) -\- согласно A1.2.24). Следовательно, из A1.2.25) при учете A1.2.6) получаем или п V Г р (Л%\ a — MF% inR, (ЛL-пё) /11 ОЧЙ если учесть A1.2.10). Выполнение предполагаемого при этом не- равенства Ki — ^1 (Ii) — е > 0 обеспечивается увеличением Кг. 3) Вследствие A1.2.3) имеем с (I, t) < rinl (/,) + ne при nR^IJ + n&^O; A1.2.26a) при rai?1(/1) + ne<0, где | фиксировано. Сравним эту величину с вероятностью />(ZO-J/>(</?), A1.2.266) фигурирующей в A1.2.23). Для значений ?, входящих в множество Z| согласно определению, данному ранее, выполняется неравенство A1.2.18) (а также A1.2.19)). Поэтому область интегрирования Z| в A1.2.266) является частью области интегрирования в A1.2.26а) и, следовательно, Подставляя сюда A1.2.23), получаем f 6 (л/?! (/!) + /№)> е-" <'•+*> A—6) (g 6 S). A1.2.27) Разобьем интеграл в A1.2.26) на два: интеграл по множеству Н и дополнительному множеству Е. В первом из них используем A1.2.27), а во втором заменим экспоненту на единицу. Это даст J ехр [ —ЛНч (/!#!(/!) +пе)] 370
J [ —Xfe~n/l~ne(l-6)]-hl—Р(Э)< в < exp [-M е- "''-"E(l — 6)J + 6, A1.2.28) где учтено неравенство A1.2.22). Здесь М = [en7i ] > е"т' — 1, причем целесообразно положить /х = 1г + 2е, е > 0. Тогда не- равенство A1.2.28) примет вид J P (dl) exp [ —Mf. (nRy (I,) + m)\ < <exp{ — e'I6(l — б)A— е-' )} + Подставляя последнее в A1.2.26), будем иметь — Rn(n71)<sR п + 2/С16 + 2/С1ехр{—е"ЕA—б)A —е-~)} A1.2.29) (использовано, что |^| < Кх в силу A1.2.14)). Итак, мы получили, что при любых 1г, е > 0, б > 0, не завися- щих от п, найдется такое п (е, б), что неравенство A1.2.29) будет выполняться для всех п> п (е, б). Это значит limsup — ^„(^Ti П->со W НО пюо Птехр{ — епеA— б)A — е-";~)}= 0 (берется б < 1). Поэтому имеем но lim sup — \ (nl^ — Ri QiX Ri Gi—2e) - -^(/J-fe + 2^6. A1.2.30) Вследствие непрерывности функции Rx (/x) подбором достаточно малых е и б выражение, стоящее в. правой части A1.2.30), может быть сделано сколь угодно малым. Следовательно, lim sup— RninTj^RAIi)- Эта формула в сочетании с неравенством lim inf — \{пТх) ^RM, A1.2.30a) 371
вытекающим из A1.1.3) и A1.1.8), доказывает соотношение lim sup—R1(nl1)--l\m inf— Ri(Ii) = Ri{Ii)> т. e. A1.2.15). Доказательство закончено. 3. Доказанная теорема 11.1 допускает естественное обобщение на те случаи, когда рассматриваемая система не является п-й сте- пенью какой-либо элементарной системы, но вместо этого выпол- нены какие-то другие более общие условия. Соответствующее обобщение аналогично обобщению, которое производится при пере- ходе от теоремы 7.1 к теореме 7.2, при котором требование, чтобы канал был п-й степенью элементарного канала, заменяется требо- ванием информационной устойчивости. Также и в данном случае наложим такое условие на рассматриваемые бейесовские системы, чтобы это не потребовало по существу никаких изменений в выше- приведенном доказательстве. Согласно обычному приему из дока- зательства надо исключить п и удельные величины 1Ъ Rlf ..., рас- сматривая вместо этого лишь комбинации / = п1ъ R = nRx и т. д. Потребуем, чтобы последовательность случайных величин |, ? (за- висящих от п или какого-либо другого параметра) была информаци- онно устойчивой в смысле определения, данного в § 7.3. Кроме того, потребуем, чтобы имела место сходимость по вероятности [с(?, 9 —?]/V(/)-*-0 при п->оо. A1.2.31) Легко понять, что при этих условиях сохранятся неравенства типа A1.2.17), принимающие теперь вид Р{/(?, Р</ + е2/)>1-1/282 для п> п (еь е2, б) причем 8ХУ = е2/ = пе. Вместо прежнего соотношения 1Х = 1Х + 2е теперь будем иметь =/ + 2е2/. Условие ограниченности A1.2.14) возьмем таким: ), A1.2.32) где К не зависит от п. В приведенном доказательстве потребуется лишь изменение способа записи формул. Соотношение A1.2.29) теперь примет вид R G) < R G-2в2 /) + Ё1V (I) + 2КУ (I) 8 + + 2/СУ(/)ехр { —еЕ^A—б)A—е-7)) или V(l-2e2f) A1.2.33) 372
при любых не зависящих от п величинах гъ е2, б и при n > n (elt 82, 6) Вследствие условия А определения информационной устойчивости (см. § 7.3) при любом е2>0 выражение ехр {—е6*7 A —6)A —е~7)} (где 7 = A + 2е2) /) при п ->¦ оо стремится к нулю, если б < 1. Поэтому в результате предельного перехода п -»- оо из A1.2.33) имеем 1 — liminf Щ)-—Р^—<Ё1 + 2/(б. (П.2.33а) п-*оо v(l) !/(/ —2е2/) Предположим, что существует предел Ф(«/), A1.2.34) который представляет собой функцию, непрерывную по у. Тогда из A1.2.33а) будем иметь lim inf VG) m / 1 V(T) ±±у (—;—\>\—e,—г/се. Вследствие произвольности вь е2, 6 и непрерывности функции Ф (t/), отсюда получаем liminf УЛ1-^1 . A1.2.34а) п-+°° v(T) Для доказательства сходимости -Ш^-»-1 A1.2.35) VO) остается только сравнить A1.2.34а) с неравенством VG) которое служит обобщением A1.2.30а). 4. В § 9.6 отмечалось, что функции ценности информации V (/), V (/) остаются инвариантными при преобразовании A1.2.36) функции штрафов (см. теорему 9.8). При этом остаются неизмен- ными также разность рисков R — R и области Gk, определенные в § 11.1, если не меняются кодовые точки ?ft и распределение Р (dQ, с которым они выбрасываются. Между тем условия A1.2.31), A1.2.32) не остаются инвариантными при указанном преобразовании A1.2.36). Так A1.2.31) переходит в соотношение [с' (I, С)-Мс' (Б, ?)-/(E) + Mf(S)]/V (/)-*¦ 0, 373
Которое, очевидно, вообще не совпадает с Учитывая это, можно воспользоваться свободой выбора функции / (!) в преобразовании A1.2.36), чтобы добиться выполнения усло- вий A1.2.31), A1.2.32) в том случае, если они первоначально не выполнялись. Это расширяет круг случаев, для которых удается' доказать сходимость A1.2.34), ослабляет условия асимптотической равноценности в вышеизложенной теории. Специальным подбором функции / (!) в A1.2.36) можно вооб- ще устранить надобность в условии A1.2.31). В самом деле, в слу- чае экстремального распределения Р(?|?), как видно из (9.4.21), выполняется соотношение -/(g, D = Рс (?,?) +v (Ю- A1.2.37) Пользуясь свободой выбора функции / (!) в A1.2.36), положим / (!) = у (|)/|3. Тогда новое «расстояние» с' (!, ?) совпадает с —/ (!, Q/p и сходимость A1.2.31) для него можно будет не огова- ривать, так как она будет вытекать из условия [1A, 0 — /|J//^-vO (по вероятности) A1.2.38) информационной устойчивости, если, конечно, отношение //pi/ не возрастает до бесконечности. Назовем последовательность, бейе- совских систем IP [сЩ, с (!, ?] информационно устойчивой, если для экстремальных распределений последовательность случайных величин !, ? является информационно устойчивой. Тогда из выше- изложенного вытекает следующее. Теорема 11.2 (общий вид третьей асимптотической теоре- мы). Если задана информационно устойчивая последовательность бейесовских систем, для которых выполняется соотношение огра- ниченности 1 / а, X) |< К' V (I)/V (/) A1.2.39) (К' не зависит от п) и условие непрерывности по у функции A1.2.34), то имеет место сходимость A1.2.35). Условие A1.2.39), как не- трудно понять, возникло из A1.2.32), К' == Р KV' (/). 5. Используем изложенную выше теорию для более подробного анализа измерительно-передающей системы, рассмотренной в п. 3 § 9.2. Асимптотическая равноценность хартлиевской и шеннонов- ской информации позволяет улучшить работу системы, схема ко- торой дана на рис. 9.5, т. е. снизить средние штрафы от уровня ? «) — V(I), I=--\nm, до уровня R{I) = mmMc(x, u) — V(I), и определяемого ценностью шенноновской информации. 374
Чтобы этого достичь, нужно, приводя систему в действие много- кратно, заменить х на блок ? = (xlt ..., х„), аи — на блок ? = = («!, ..., ип) при достаточно большом п. В качестве штрафов дол- жен рассматриваться суммарный штраф. После этого можно при- менять теорему 11.1 и конструировать блоки / и 2, изображенные на рис. 11.1 по тем же принципам, как это делалось в п. 3 §9.2. Теперь, однако, зная доказательство теоремы 11.1, мы можем кон- кретно разобрать их действие. Не стремясь к точной оптимальности, возьмем в качестве требуемого разбиения ^ Ек = Хп рассмотрен- ное выше разбиение A1.1.13). Области Gh здесь определяются по принципу близости к случайным кодовым точкам ?1( ..., &&. Это раз- Рис. 11.1. Блочный вариант системы с информационным ограни- чением Пропускная способ- ность канала в п р?з боль ше, чем на рис 9 5 биение является, как доказано, асимптотически оптимальным. Дру- гими словами, система (рис. 11.1), в которой блок 1 классифици- рует входной сигнал ? по принадлежности к областям Gk и выдает на выходе номер области, содержащей ?, работает асимптотически оптимально. Легко видеть, что описанная работа блока 1 совершенно аналогична рассмотренной в гл. 7 работе декодировщика на выходе канала с помехами, только вместо «расстояния» G.1.8) теперь учи- тывается «расстояние» с (?, Q, а также Ъ., ц заменены на ?, \. Эта аналогия позволяет назвать блок / измерительным декодировщиком, блок же 2 работает как блок оптимальных оценок. Описанная информационная система и системы несколько бо- лее общего вида рассматривались в работах Стратоновича [31, Стра- тоновича и Гришанина [1], Гришанина и Стратоновича [1]. Информационные ограничения типа рассмотренных ранее (рис. 9.6, 11.1) могут учитываться в различных системах'оптималь- ной фильтрации, автоматического регулирования, динамического программирования и даже теории игр. Иногда указанные ограниче- ния связаны с ограниченностью притока информации, иногда с ограниченностью памяти, иногда с ограничением сложности авто- мата или регулятора. Учет ограничений приводит к проникновению понятий и методов теории информации в упомянутые теории, к сра- станию их с теорией информации. В динамическом программирова- нии (см., например, Беллман [11) и часто в других теориях рассма- тривается ряд действий, совершаемых последовательно во времени. В связи с этим информационные ограничения в этом случае носят многократный характер. Это приводит к последовательностному обобщению вышеизложенных результатов. Ряд вопросов, относя- щихся к указанному направлению, изучается в работах Стратоно- вича [5, 7], Стратоновича и Гришанина [21. 375
П.З. Быстрота исчезновения различия в ценности шенноновской и хартлиевской информации Теорема 11.1, приведенная выше, устанавливает самый факт асимптотической равноценности шенноновского и хартлиевского количеств информации. Представляет интерес вопрос о том, как быстро исчезает различие между ценностями указанных количеств. Напомним, что в гл. 7 вслед за теоремами 7.1, 7.2 устанавливаю- щими факт асимптотического исчезновения вероятности ошибки декодирования, были приведены теоремы, в которых исследовалась быстрота исчезновения этой вероятности. Не представляет сомнений то, что в отношении быстроты исчез- новения различия V (/) — V (/) (аналогично проблеме асимпто- тической безошибочности) может быть получено большое количество результатов различной степени сложности и силы. При этом могут быть применены различные методы. Мы приведем здесь лишь не- которые сравнительно несложные результаты по данной проблеме. Подсчитаем первые члены асимптотического разложения разности V (/) — V (/) по степеням малого параметра п.'1. При этом будет выяснено, что важная для доказательства теоремы 11.1 оговорка об ограниченности A1.2.14) функции штрафов не является сущест- венной для асимптотической равноценности информации, а обуслов- лена лишь принятым методом доказательства. Обратимся к формуле A1.2.13), которую, вводя обозначение S = jkdF2 (К), запишем в виде Здесь и в дальнейшем мы отождествляем / с /, 1г с /1( М с М, по- скольку теперь нет надобности проводить различие между ними. Займемся асимптотическим подсчетом выражения, стоящего в правой части последнего неравенства. 1. Учитывая A1.2.8), имеем S = S1 + S2 + S3, A1.3.2) где Ь=-°° %=с St= J M[Fs(a,) —l+e"*"^]. A1.3.4) Здесь удобно положить 376
Входящую в эти формулы функцию распределения [? зафиксировано, Р соответствует Pjn(dt,), см. A1.2.3)] оценим при помощи теоремы 4.8, точнее, того ее обобщения, о котором говорит- ся немедленно после ее доказательства. Для простоты будем предпо- лагать, что отрезок [slt s2], упомянутый в теореме 4.8, достаточно велик, так что уравнение D.4.17) A1.3.7) имеет корень s при любых значениях К = х. Тогда t{) [[]i()]] A1.3.5) при I < ^ с (?, ?) Pin (dt,) = с, а также )] ) х при I>с, A1.3.6) где s — корень уравнения A1.3.8) Различные выражения A1.3.5), A1.3.6) соответствуют различным знакам корня s. В силу A1.3.5) — A1.3.7) первый интеграл A1.3.3) преобразует- ся к виду о jig (s)dexp | — exp {nlx — s^| (s) + A1.3.9) где интегрирование ведется по s, нижний предел интегрирования s* определяется формулой lim p,| (s) = —оо. Для большей наглядности (может быть, несколько условно) обозначаем 1Х = Нп; [ix = щ/n и пишем О (п) вместо О ((*!). Чтобы оценить указанный интеграл, рассмотрим точку г оси s, определяемую уравнением 1х —щ[ (г) + ^ (Г) L in [2я щ'[ (г) г2] = 0, A1.3.10) где (*! (О = — (*е@. и произведем разложение функций, входящих ft в A1.3.9) в ряд Тейлора относительно этой точки: 377
s\i[ (s)—^ (s) - r\i[ (r) — ^ (r) + rfil (r) (s — r) + +}[ni;"«Tii!(f)](s-rL.... In [ 2я njjii (s) s2] -= In [2я nfii (r) r2] + + [v-i'{r)№(r) + 2/r](s-r) + ... Подставляя эти разложения в интеграл A1.3.9), получаем -Lsi = v.[(r)[l-e-«Fi®]- — г — )x"\{f) J (x = s—r), A1.3.11) где с нужной нам точностью а = —гц;' (Г)+О (п-1); 2р - —rjj.;" (г)—и-Т @+0 (п~1).(\ 1.3.12) Выбираем отрицательный корень г<0 A1.3.13) уравнения A1.3.10) (если он имеется), так что а > 0. Делая за- мену переменной епах = г, приводим A1.3.11) к виду S^HHl-^G)]!iIW Г 1пгх « J x dexp{e-lll2+(P/»«!)I2+--- xIH-O^-1)]}--, A1.3.14) @» = e"a(s+ —r)), из которой видна относительная величина тех или иных членов при больших п. Разлагая экспоненту ехр [ —elnz HP/™2) in2 z+ ...]== ехр [_е1п г+е] в ряд Тейлора по s = ф/па2) In2 z + ..., имеем ехр( — геЕ) = ехр —г—ге ze2—... = 378
хA+ -|- + ...)-...]. A1.3.15) п'1, п~2 и получим Подставляя A1.3.15) в A1.3.14), удержим лишь члены порядка 1, 1 2 е — паг -nt^]-^H Г 1пгх па J е— MFar 2п2а2 Если придерживаться меньшей точности, то будет иметь место бо- лее простая формула п га о или, если учесть A1.3.12), со — S,-р., (r) + — f \nzde-*+n-*... A1.3.16) п пг ,) о Здесь мы пренебрегли членом —\it (r)e~MF^c\ который убывает с ростом п и М = [en!i] несравненно быстрее, чем п~г, а также интегральными выражениями CO I ]nzerzdz, которые весьма быстро убывают с ростом п, так как г~паг и г* = _ ena(s,—г) экспоненциально стремятся к оо и 0 соответственно (напомним, что г < О, s* О). Легко оценить величину указанных интегралов, например, опустив сравнительно мало влияющие сомножители In г в первом интеграле и е~г во втором. Однако мы не будем на этом далее задерживаться. Интеграл, входящий в A1.3.16), равен постоянной Эйлера С = 0,577... В самом деле, представляя его как предел а lim С lnzd(e —1) 379
и интегрируя по частям: а а а 'г—1) = (е~2—l)]nz -fC A—е~г)х О 0 0 x^L = (e-_l)lne+f(l-e--)-^-fe--^.+lna. 2 J Z J 2 О 1 этот интеграл можно привести к виду (см. Янке и Эмде [1], с. 97). Поэтому найденный результат A1.3.16) принимает вид -i-S1 = ji1'('-) + —+ «-2- A1.3.17) п пг Вместо корня г уравнения A1.3.10) удобно рассматривать корень <7| более простого уравнения /i- A1.3.18) Из сопоставления этих уравнений видно, что _L jnt^x^^L n2 2« ^цЭД и условие существования отрицательного корня A1.3.13) эквива- лентно (при больших п) условию существования корня <7|<0. A1.3.20) Дифференцированием легко убедиться, что функция sj*g (s) — |Xg (s) имеет минимальное значение в точке s = 0, которое равно нулю. Поэтому уравнение A1.3.18) хотя бы при достаточно малых 1Х имеет два корня: положительный и отрицательный, так что отрица- тельный корень <7g выбрать можно. Согласно A1.3.19) формула A1.3.17) приводится к виду n... A1.3.21) 2. Перейдем к оценке интеграла A1.-3.4). Обозначим через Кг граничную точку, определяемую из уравнения Ft(kf)=l— e-MFl^l A1.3.22) 380
При больших М (именно, М > 1) величина 1 — F (Яг) = г являет- ся малой (е <С 1). Преобразуя A1.3.22) к виду _1_ 2 находим приближенное решение этого уравнения: 1— Fl{XI) = e=-e-M + Me-2M + ..., A1.3.22а) что подтверждает указанную малость е. В области Я > Яг, по кото- рой ведется интегрирование в A1.3.4), производная ~dX х —i—— dX положительная при М > 1, в чем легко убедиться, учитывая, что при Я > Яс- Поэтому интеграл A1.3.4) можно мажорировать следующим обра- зом: S3= J [^() + ]< $||6() + яг яг A1.3.23) оо где S3 = Г | Я, \de~MFi^~>— отрицательная добавка, которую-отбра- Я сываем. Начиная с некоторых М > М (с) значение Хг заведомо превос- ходит среднее значение, так что в интеграле A1.3.23) можно вос- пользоваться оценкой A1.3.6). Из этой формулы нетрудно получить ~npiK~Xr) + --, A1.3.24) где p = srliI(Sr)>0 Ы(8г) = К), A1.3.25) а точки заменяют другие величины, вид которых для нас несущест- вен. Подставляя A1.3.24) в A1.3.23), получаем х = 0 х=0 Используя A1.3.6), выражение в правой части можно записать в таком виде: S3< е~"^яг)+¦ • [|яг| +...}. A1.3.26) 381
Здесь (д. — образ по Лежандру = sfi; (s) — Hj (s) (пц,; (s) = точки заменяют менее существенные члены. Если бы кг не зависело от п, то согласно A1.3.26) оценка инте- грала S3 исчезала бы с ростом п в основном экспоненциально. Но Кт в силу A1.3.22а), вообще говоря, растете ростом п, поэтому растет и ц (кг) (функция ц (А,), как легко проверить, имеет при X > с воз- растающий характер). Это еще более увеличивает быстроту исчезно- вения выражения в правой части A1.3.26). Итак, интеграл S3 исче- зает с ростом п несравненно быстрее, чем члены асимптотического разложения A1.3.21). Поэтому член S3 в A1.3.2) можно не прини- мать во внимание. 3. Оценим теперь второй интеграл S2 в A1.3.3). Выбрав некото- рое положительное число Ь> \с\, представим его в виде суммы двух членов S2 = S; + S2"; A1.3.27) Ъ ос Очевидно iS;|<6[e"^^")_e-^(u)j<6e-^lt?). A1.3.28) Для оценки интеграла S1 используем A1.3.6) и формулу типа A1.3.24) 5;' _ — J X dexp{ — М[\— A— Здесь по аналогии с A1.3.25) рь > G. Но =. —e-M[(b -\ У—) X Xdexp{+N e-v} = e-M[eN—l\b — A1.3.29) где обозначено N = М [1 — Fg (b)], z = е~у. Для первого члена в A1.3.29) имеем неравенство Т1 =: е~м [eN~ 1 ] Ъ < 6 е-^ f N = b е~ ^ (*'. A1.3.30) 382
Вычислим второй член в A1.3.29). Из формулы [e-P2\nzdz= — — (C + lnp)+ — Ei(—p) о р р (Рыжик и Градштейн [1] формулы C.711.2) и C.711.3)) аналитиче- ским продолжением получаем о причем 1 , . _ [ еЛ'г In zdz - — (С |- In N) Ei (N), ел/ г 1 9 1 (E. Янке и Ф. Эмде [1], с. 98). Следовательно, основная зависимость второго члена Т% в A1.3.29) от М определяется экспоненциальным множителем е-^+^ = е"^^(&)- Итак, все три члена A1.3.28), A1.3.30) и Г2, составляющие 52, убывают с ростом п весьма быстро. Так же, как и S3, они не оказы- вают влияния на асимптотическое разложение типа A1.3.21) по степеням малого параметра п~\ (в комбинации с логарифмами In n). В формуле A1.3.2) поэтому нужно учитывать лишь один член Si, так что в силу A1.3.21) имеем 5 < ^ Ш щ-1" К2Я) [i'i {яг) q\\ + + — -f- О in In2 /г). A1.3.31) Вследствие этого неравенство A1.3.1) принимает вид -L Rn (п1г) < j {К (</|) ^ In [2nnv'[ (q%) Я1]+^}Р №) + j-O(n-4n2n)... A1.3.32) 4. В соответствии с последней формулой проведем усреднение по |. Это усреднение облегчается тем, что функция A1.3.8) пред- ставляет собой сумму большого числа одинаково распределенных случайных слагаемых In j etCl (*г> и) Prl (du), а р,х = j*t//i — их среднее арифметическое: A1.3.33) В силу закона больших чисел оно сходится к математическому ожиданию vx ( — /, Р) = М^ @ -= J P (dx) In J e'" <*- "' Р/, (du), (П.3.34) 383
которое просто связано с потенциалом A1.1.18): vA-t, p)=Vl (-0 = I\ (-*). A1.3.35) При каждом фиксированном t согласно указанному закону имеет место скодимость по вероятности: МО + М-0, (П.3.36) а также для производных -О, (П-37) если последние существуют. Вследствие сходимости A1.3.36), A1.3.37) корень q% уравне- ния A1.3.18) будет сходиться по вероятности к корню q = —z уравнения -<7vi(-9)--v1(-9) = /1 или zv'1(z)-v1(z) = I1. A1.3.38) Последнее уравнение совпадает с A1.1.21). Поэтому z= р, так что <7i->- — P при п->оо. A1.3.39) Согласно (9.4.37) имеем р = — dlldR, причем для нормальной ветви R+ (9.3.10) параметр р положителен (см. § 9.3). Отсюда получаем неравенство cfc <C 0, которое согла- суется с условием A1.3.20). Вследствие сходимости A1.3.37), A1.3.39) и равенств A1.3.35), A1.1.20) первый член Мц[ (<7g) в A1.3.32) стремится к Rx (Ij). Это доказывает (если учесть еще исчезновение прочих членов) сходимость о которой уже шла речь в теореме A1.1). Чтобы исследовать быстроту сходимости, рассмотрим отклонение случайных величин, входящих в усредняемое выражение в A1.3.32) от их предельных неслучайных значений. Введем случайное от- клонение б(Ах = [Ах (—р) — vx (P). Оно, как и случайное отклонение 6>i = 1*1 (—Р) + v[ (P), в силу A1.3.33) имеет нулевое математи- ческое ожидание и дисперсию порядка п'1 = -j- Г/5(dx)In2 (e-^^-vP/ti — | Г/3 (dx) In Г е- P* (*. ») p,x (du) и аналогично для 6ц[. 384
Чтобы при усреднении величины р,[ (qi) учесть вклад случайных отклонений, имеющих порядок п~\ представим эту величину как разложение по б(х, 6р/ с включением квадратичных членов. Обозначая q% + р = 8q и разлагая правую часть уравнений A1.3.18) по бд с учетом квадратичных членов, будем иметь Подставляя сюда и отбрасывая члены более высокого порядка, чем квадратичные получаем Члены нулевого порядка здесь сокращаются в силу A1.3.38) где г = р, и мы имеем l (Р) откуда P[v"(P)]2 Подставляя этот результат в разложение = - v; (p) + 6jx; + V* получаем после сокращений i vi / i 2P3vi' (P) Здесь учтено, что Мб^ = MS{jkj = 0. Прочие члены, входящие в подынтегральное выражение A1.3.32), требуют меньшей точности вычислений. Для них доста- 385
Точно просто подставить, вместо случайных значений, предельные значения. В итоге будем иметь ^Г + 6^/2^< (Р) + ° (д)- (!l -3-40) ¦ Теми же самыми методами, производя расчеты с большей сте- пенью точности, можно найти и более высокие члены этого асимпто- тического разложения. При этом можно получить подтверждение тех пунктов вышеизложенного вывода, которые представляются не- достаточно обоснованными. В приведенном рассмотрении предполагалось, что отрезок (s1; s.z) определения и дифференцируемое™ потенциала (х= (I), упоми- наемый в теореме 4.8J достаточно велик, между тем существенной в действительности является лишь некоторая окрестность точки s = —р. Прочие участки прямой s оказывают влияние лишь на экспоненциальные члены типа A1.3.26), A1.3.28), A1.3.30) и не сказываются на асимптотическом разложении A1.3.40). Правда, аномалии в поведении функции цх (s) на этих прочих участках осложняют доказательство. Для справедливости формулы A1.3.40) не является необходимым выполнение условия A1.2.14) ограниченности функции штрафов. Однако ее вывод несколько упростится, если принять это условие. Тогда не потребуется детальная оценка интегралов 52, S3 и инте- грала по области Н. Вместо этого можно будет ограничиться дока- зательством достаточно быстрого (экспоненциального) исчезновения вероятности соответствующих областей интегрирования. Значение постоянной К при этом будет несущественным, так как не войдет в окончательный результат. Как видно из приведенного вывода, члены асимптотического разложения A1.3.40) являются точными для выбранного случайного кодирования. Могут быть найдены более высокие члены, но уже вы- писанные члены не могут быть улучшены, если не отказаться от при- нятого способа кодирования. Представляет интерес вопрос, на-' сколько приведенная оценка A1.3.40) близка к действительному значению разности (l/n) R (п1х) — Rx (/x) и насколько она может быть улучшена, если использовать более совершенные приемы ко- дирования. 11.4. Другие способы записи основного результата. Обобщения и частные случаи 1. В предыдущем параграфе вместо функции A1.3.8) была вве- дена функция (хх (/) = A/и) щ (t). Это было вызвано по существу лишь соображениями удобства и наглядности, чтобы подчеркнуть 386
относительную величину членов. Изложение почти не изменится, если удельные величины \iu v1( Ru 1г и др. рассматривать лишь в произведении с п, иначе говоря, если вообще не вводить удельных величин. Вместо основной результирующей формулы A1.3.40), умножив ее на п, будем иметь формулу 0< R{I)-R(I) = V(/)- V{IX-^I 4 2^3 V О) где в соответствии с A1.3.34), A1.3.8) v( — 0 = MjiE@= j /)D)lnJe?c(l'E)P/((i0, A1.4.2) A1.4.3) (индекс п опущен, член С/р введен под знак логарифма; у = ес = = 1,781). При указанной модификации изложения, как и в п. 3 § 11.2, становится не нужным, чтобы бейесовская система была обя- зательно п-й степенью какой-то элементарной бейесовской системы. Дважды дифференцируя A1.4.2) в точке t = —fi и учитывая A1.1.16), получаем V(P) - p В силу (9.4.21) входящие сюда интегралы по ? являются интегра- лами условного математического ожидания с условными вероят- ностями Р (d?IS)- Поэтому v" (|3) - м {м [с2 (Ш ?1 - (м ин, О ШJ}- = MD[c(|, ?)||], A1.4.4) где D [... | ?] означает условную дисперсию. Средняя условная дисперсия A1.4.4), как легко убедиться, не меняется при преобра- зовании A1.2.36). Совершая преобразование A1.2.37), следователь- но, будем иметь PV'(P) - MD[/A, S)||l. A1.4.5) Рассмотрим теперь, что представляет собой входящий в A1.4.1) средний квадрат М фЬ\л' + ?jiJ, который в силу A1.4.3) совпадает с дисперсией: М(рбц'+бц)а-О[Э^(-Р) + ИБ(-р)] (П.4.6) случайной величины $\i{ (—Р) -I Щ (—Р). П t р A138) у \{ Р Щ Р Полагая t — —р в A1.3.8) и сопоставляя это выражение с (9.4.23), видим, что 387
Далее, дифференцируя A1.3.8) в точке t = —р, находим Вследствие (9.4.21) этот интеграл есть не что иное, как интеграл усреднения с условным распределением Р (dt,\ %), т. е. Отсюда и из A1.4.7) имеем Но —Ре (?, Q —у (|) в силу (9.4.21) совпадает со случайной инфор- мацией / (?, ?), так что P№'(-P) + M-P)=-M[/(&,?)|g]=-/s,(|E). (Н.4.8) Итак, мы видим, что выражение A1.4.6) есть дисперсия частично усредненной случайной информации: Вследствие A1.4.5), A1.4.9) основной формуле A1.4.1) можно при- дать вид О < 2|3 IV (/) - V (/)] < In {-*L MD [/ (I, S) | ?]} + A1.4.10) 2. В некоторых частных случаях экстремальное распределение Р/ (d?) не зависит от р, т. е. от /. Тогда, как видно из (9.4.23), A1.3.8), функция щ (t) = ц (I, t, P), зависящая, вообще говоря, от |, t, р, оказывается не зависящей от р, а зависимость ее от | и ^ совпадает с зависимостью функции у (|) == у E, Р) от | и от —р: {* (I, t,P) = y a, -f) при всех L A1.4.11) Усреднением этого равенства по | в силу (9.4.10), A1.4.2), получаем v (—*) = Г (—0 при всех f. A1.4.12) Поэтому в формуле A1.4.1) можно заменить v" ф) на Г" (Р). Далее полезно вспомнить, что согласно (9.4.31) значение |3 связано с про- изводными функций R (/), V (/): _L=_^ = y'(/), A1.4.13) р а/ так что l). A1.4.14) Вторую производную Г" (Р) также нетрудно выразить через функ- цию / (R) (или V (/)), так как эти функции связаны между собой 388
преобразованием Лежандра 1см. (9.4.30) и (9.4.29)]. Дифференци- руя (9.4.30), имеем dl "dp' Отсюда 1 _ 1 riB [i2 Г" (Р) ~~ р dl ' или, если продифференцировать A1.4.14) и учесть A1.4.13), 1/(Р2Г" (Р)) = .- V" (I)IV' (/). A1.4.15) В силу A1.4.14), A1.4.15), A1.4.9) основную формулу A1.4.1) в данном случае можно записать 0 < V (/) — V(I) < -- V (/) InГ 2я Г(/IпГ Щ 2 L V2 V" (/) L V" (/)D[/S, (||)|+o(l). A1.4.16) Иногда, кроме того, функция A1.4.11) оказывается не зависящей от \. С таким положением мы встречались в § 10.2, где для частного случая была получена формула A0.2.25), Согласно последней н у) = Г (—0,- так что ц= (/) = v (-0 = Г (-0; ^ @ = 0, и усреднение по \ становится излишним. В этом случае дисперсия A1.4.6), A1.4.9) обращается в нуль и формула A1.4.16) несколько упрощается, принимая вид ¦2л V (/) ~ V" (I) A1.4.17) При этом становится излишним рассмотрение, проведенное в п. 4 предыдущего параграфа. 3. В некоторых важных случаях последовательность значений / и последовательность бейесовских систем [Р (d|), с (|, Q] (зави- сящих от п или другого параметра) такова, что для экстремально- го распределения А. [ = 1Ъ1^оо A1.4.18) Б. Существуют конечные ненулевые пределы A1.4.19) (у произвольно и не зависит от /). Нетрудно убедиться, что сумма 389
совпадает с полной дисперсией D I/ (|, ?)]. Следовательно, из су- ществования первых двух пределов A1.4.19) вытекает существова- ние конечного предела lim-j-D[/& ?)]. Поэтому, с одной стороны, из А, Б вытекают условия информацион- ной устойчивости для | и ?, указанные в ^ 7.3, как это стандартно доказывается путем применения неравенства Чебышева, из Б следует также A1.2.34). Таким образом, если еще выполнено усло- вие ограниченности A1.2.39) и непрерывности функции A1.2.34) по у, то в данном случае будет иметь место сходимость A1.2.35) по теореме 11.2. С другой стороны, из A1.4.18) и конечности преде- лов A1.4.19) при учете A1.4.14) вытекает, что 27 dl Далее Di;EIF)J 1 ^о. A1.4.20) при / ->¦ схз. Поэтому и для логарифмического члена в A1.4.10 имеем Вследствие A1.4.20), A1.4.21) из A1.4.10) в данном случае следует сходимость A1.2.35), прочие члены, замененные на о A) в правой части A1.4.10), убывают еще быстрее. При этом условие A1.2.39), как мы видим, является необязательным. 4. Остановимся особо на одном частном случае — случае гауссо- вых бейесовских систем, которым были посвящены § 10.3, 10.4. При этом, вообще говоря, нельзя пользоваться упрощениями п. 2 и приходится обращаться к формуле A1.4.10). Значение CV ф), входящее в A1.4.5), уже было найдено ранее в гл. 10; оно опреде- ляется равенством A0.3.42), которое легко преобразовать к виду A1.4.22) Далее, чтобы вычислить дисперсию A1.4.9), следует воспользовать- ся формулой A0.3.43). Дисперсия выражений, квадратичных по гауссовым переменным, уже вычислялась ранее в § 5.4. Применяя тот же способ вычисления [основанный на формулах E.4.15), E.4.16I 390
к соотношению A0.3.43), вместо E.4.14), как нетрудно видеть, по- лучим 2 (PkthV (Pk»Y = —Sp(lu—rhk~') A14.23) (так как grkag = kx). После подстановки A1.4.22), A1.4.23) в A1.4.1), A1.4.6) будем иметь { [ [± 7' 0 < 2Р [V (/)-V (/)| < in {-?. S р 1 ц- [± hk + Sp(lu- yhkr'j^Spi^-^-i-hkr'j'j + od) A1.4.24) Если, помимо приведенных выражений, принять во внимание форму- лу A0.3.30), то условие А предыдущего пункта примет вид Sp!n(pX.h-l)-^oo A1.4.25) Требование существования предела lim (dV/dl), входящего в усло- вие Б A1.4.19), эквивалентно в силу A1.4.14) требованию существо- вания предела Mm Р = р0. A1.4.26) Два первых предела в A1.4.19) записываются в виде |imSp[l.-(P-4fc')'l ^Spq.-p-'hfc)^ {ПЛ Sp In (Pk^-h-1) Spln(Pk,h-i) Наконец, условие существования предела V (yl)II вследствие ЛО.3.32) принимает вид lim Sp (kx h-1 - p-1 lj/Sp In (pk, tr1), A1.4.28) где РУ определяется из условия h-1). A1 4.29) Рассмотрим для примера гауссов случайный процесс в непрерыв- ном зремени, периодический на отрезке [0, То|. Он может быть полу- чен из непериодического стационарного процесса описанной в нача- ле § 5.7 периодизацией E.7.1). Бейесовская система с таким перио- дическим процессом рассматривалась в п. 2 § 10.4. Для нее следы, входящие в A0.3.30), сводились к суммам A0.4.10). Подобным же образом выражаются и следы в A1.4.24). Если к тому же суммы за- менить интегралами, что с некоторым приближением справедливо при больших То, и устремить Го -> оо [см. вывод формул A0.4.18)], 391
в отходящие в A1.4.27)—A1.4.29) следы Sp будут приблизительно пропорциональны То: Sp / (kx h-1) » Ь- j / (Ф (со)) d© A1.4.30) при выполнении условия сходимости интегралов. Здесь п)| Л (се) й(со), Л (со) и прочие имеют тот же смысл, что и в§ 10.4 [см. A0.4.19), A0.4.21I. Область интегрирования L (со) определена неравенством A0.4.20). В этом случае пределы A1.4.27), A1.4.28) действительно существуют и равны отношению соответствующих интегралов. Например, первый предел A1.4.27) равен В силу A1.4.30) разность 1 — V/V, как легко видеть из A1.4.24), убывает с ростом То по закону const 77' 11.5. Обобщенная теорема Шеннона Здесь будет рассмотрено обобщение результатов § 7.3 (теоремы 7.J и 7.2) и §8.1 (теорема 8.1) на случай произвольного критерия качества. Напомним, что в гл. 7 был взят единственный кри- терий качества, именно, качество информационной системы харак- теризовалось средней вероятностью принятия ложного сообщения. Работами Колмогорова [1], Шеннона [4], Добрушина [1] начато распространение указанных результатов на случай более общего критерия качества, характеризуемого произвольной функцией штра- фов с(?, ?). Соответствующую теорему, сформулированную для про- извольной функции с (?, 0 и превращающуюся для частного вида функции 0 при (|, ? — дискретные величины) в указанные обычные результаты, естественно называть обобщенной теоремой Шеннона. Описанное направление исследований, поскольку в нем явно вводится функция штрафов с (|, ?) и считается заданным априорно распределение Р (d%), тесно связано с третьей вариационной зада- чей и с материалом, изложенным в гл. 9—11. В этом направлении могут быть получены результаты различной силы и детальности. Мы приведем здесь лишь одну естественную теорему, которая почти 392
немедленно вытекает из обычной теоремы Шеннона и результатов §11.2 и не потребует, следовательно, нового доказательства. Пусть заданы случайные величины I, ?, описываемые совмест- ным распределением Р (dldt,). Имеется^ также канал [Р (Оц\ ц)], выходная переменная (или переменные) т) которого связана с вход- ной переменной т) в соответствии с условными вероятностями Р (drill]). Требуется осуществить кодирование \ -*- ц, подобрав вероятности P(dr\\^), и декодирование т]->-?, подобрав вероят- ности P(dt,\r\), таким способом, чтобы распределение Р (dl,, dt,), индуцируемое распределениями Р (d?), P(dT)|?), P(d\\\r\), P (d^! л). совпадало с исходным распределением Р (d\ d?). Легко видеть, что величины |, т], т], ?, связанные схемой g —»-Л-^ Л-^ Е*. A1.5.2) представляют собой цепь Маркова с указанными переходными ве- роятностями. Применяя формулу F.3.7), имеем 7(?л)(л~?) = 7(?л) (Гл) = hX "^ ^лТ| I + 6л П + rm\ it- С1 ^ -5-3) В то же время по той же формуле можно получить 7№) (л X) = !т + 71л/л + 7л1 Гл + him- (п-5А) В силу условия Маркова будущее не зависит от прошлого при фиксированном настоящем, следовательно, информация связи между прошлым (?) и будущим (т]) при фиксированном настоящем (п) равна нулю: /,~ , = 0. По той же причине 7л11л=0; 71Г1лл=°- (П.5.5) Приравнивая между собой A1.5.4), A1.5.3) и учитывая A1.5.5), имеем h% + 7л? I б + 7i ч \Х + 7лл~1 II ^ !т- A1 -5-6) Но информации /^ц, ^ц\Х' 7лл"||Т ^как и всякое шенноновское количество информации) неотрицательны. Поэтому из A1.5.6) полу- чаем неравенство /^</^ или /Гс<С, A1.5.7) если учесть определение пропускной способности С_= sup / ~ (см. (8.1.3)). Отсюда видно, что распределение P(d|-dS) может копи- ровать исходное распределение P(d?dQ только при том необхо- димом условии, что 1К<С, A1.5.8) 393
В противном случае не существует таких способов кодирования и декодирования [т. е. таких P(dT)||), P(dZ\t])], чтобы Р(с?Е,A?) совпадало с P(d\dQ. Этот вывод, как мы видим, следует из самых общих свойств рассматривае!мых понятий. Менее тривиальным является тот факт, что условие A1.5,8), а точнее условие Iim supIitlС < 1, A1.5.9) является в асимптотическом смысле достаточным, если не для совпадения распределения Р (d% dQ с Р {d\ dt,), то во всяком слу- чае для достаточно хорошего в определенном смысле качества этого распределения. Чтобы сформулировать указанный факт, нужно ввести критерий качества —функцию штрафов с (?, ?). Усло- вие совпадения P(d\dQ с P{d\dQ заменяем на более слабое условие |Мс(Н, ?)|-'Ф+(Мс(hi)—Me(?,?))-> 0 A1.5.10) которое говорит о том, что качество распределения Р (d|d?) асим- птотически не хуже, чем Р (d?d?). Основное утверждение форму- лируется для последовательности схем A1.5.2), зависящих, скажем, от п. Теорема 11.3. Пусть: 1) последовательность пар %, ? случайных величин является информационно устойчивой (см. § 7.3); 2) имеет место сходимость «O*HEC)Uq A1.5.11) Uq Me (E, С) по вероятности Р {d\dQ [ср. A1.2.31)]; 3) последовательность функций штрафа удовлетворяет условию ограниченности \сA, 0|</С|Мс(?, 0| A1.5.12) [ср. A1.2.32); /С не зависит от я]; 4) последовательность каналов [Р (dr\ | ц)] является информаци- онно устойчивой (т. е. (т), ц) при экстремальном распределении являются информационно устойчивыми); 5) выполняется условие A1.5.9). Тогда существуют способы кодирования и декодирования, обеспе- чивающие асимптотическую равнокачественность в смысле сходи- мости A1.5.10). Доказательство использует полученные ранее ре- зультаты и указывает способы кодирования и декодирования, т. е. конструктивно определяет ?. 394
Условия I—3 теоремы позволяют доказать неравенство lira sup IRl-HRihl + ^hz) — Л1<е1 + Ш (Я = Me (?,?); е1 = в4///?) A1.5.13) совершенно тем же способом, как и в § 11.2 были доказаны соот- ношения A1.2.33а) на основе условий информационной устойчивости и условий A1.2.31), A1.2.32) (см. также вывод A1.2.30)). В A1.5.13) s, б — сколь угодно малые, не зависящие от п положительные ве- личины, a R Aц -f- 2e2/|j) — средние штрафы: ?(/K + 2ea/K) = MinfM[c(?, ?)|?й], A1.5.14) соответствующие некоторому разбиению 2^s пространства зна- чений g на 7И = [е7^8^] областей. Эти области могут быть построены при помощи случайных кодовых точек t,h, выбрасыва- емых с вероятностями Р (d?) (см. §11.1, 11.2). Из A1.5.14) следует, что существуют такие точки t,h, что R (/к + 2еа /к) > 2 Р (?ft) Me (g, ?ft) -88 k (е3 > 0 сколь угодно мало) и в силу A1.5.13) lim sup| R |-i [2 P (Eh) M [c (g,?ft) | Eh] -R 1 < Bl + 4Kb +1 R \-%. A1.5.15) Будем передавать по каналу Р (eft] |т]) сообщение о том, какой кодо- вой области Ek принадлежит значение \. Вследствие A1.5.9) можно выбрать такое е2) чтобы выполнялось неравенство [1ц + 82 [21ц + С)]/С < 1, начиная с некоторого п. Поскольку М = [ехр Aц + 2е2/^)], это означает выполнение неравенства In М/С < 1 — s2, т. е. условия (8.1.5). Последнее вместе с требованием 4) теоремы 11.3 обеспечивает применение тео- ремы 8.1 (обобщенной по типу георемы 7.2), согласно которой ве- роятность ошибки при приеме сообщения по каналу с увеличе- нием п может быть сделана сколь угодно малой: Рош<84, A1.5.16) начиная с некоторого п (е4 любое). Пусть / означает номер приня- того сообщения, имеющего вид \ ? Ег. Декодирующее устройство, получив это сообщение, дает на выходе сигнал ? = ?г. Таким обра: зом, выходная переменная ? имеет плотность распределения Совместное распределение Р (d^dQ имеет вид t^l A1.5.17) *, 1 395
фЕк (|) = 1 при 16 Ek; ®Ek (|) = 0 вне Ёк), где Р (l\k) — вероятность принять сообщение g ? ?;, если было передано сообщение | ? ?&. Распределению A1.5.17) соответствуют средние штрафы ft,г (/1 &) М [с (Е, + 2 Р (?ft)Р (/1 Щ {М [с (I, Ь) | ?ft] - М [с(I, lh) \Eh]}. к-ф1 Мажорируем последнюю сумму, используя A1.5.12). Это дает \Я\-1\1ЛсA, Z)-IiP(Eh)tMc& Sft)|Eft]|< <2K2P{Eh)Pom(\k) (Pom(\k)= 2 Р{1\Щ). A1.5.18) ft /,;^ft Усредняя по ансамблю случайных кодов и учитывая A1.5.16), имеем = М Рош (| А) = Рош < е4. Отсюда можно сделать вывод, что существует некоторый неслучай- ный код, который не хуже первого в смысле неравенства IiP(Eh)Pom(lk)<si, A1.5.19) к и поэтому в силу A1.5.18) Комбинируя это неравенство с A1.5.15), получаем lim suplflrMMcfoi) —Mc(g, l)\ < Ч + 4/<S + | R | Поскольку s2, б, е3, е4 могут быть взяты сколь угодно малыми, отсюда следует A1.5.10). Доказательство закончено. Выше предполагалось, что задано исходное распределение Р {d\dQ. Проведенное рассмотрение без труда распространяется на те случаи, когда задано некоторое допустимое множество подоб- ных распределений или бейесовская система [Р {(Щ, с (?, Q1 с фик- сирвванным уровнем потерь Мс (|,?)< а. В этом последнем случае доказывается сходимость условие A1.5.9) заменяется на lim sup / (a)/C< 1; 396
условие A1.5.12)-на A1.2.39), а условия 1), 2) теоремы 113 нужно заменить требованиями информационной устойчивости бейе- совской системы (§ 11.2, п. 4), чтобы можно было применить теорему В заключение убедимся, что обычная формулировка теоремы Шеннона следует из приведенных результатов. Для этого возьмем в качестве g и ? одинаковые дискретные величины, с М значениями, а распределение Р (?, Q выберем таким При этом, очевидно, IlZ=Hi = Hi=lnM, A1.5.20) так что условие 1^-*-оо выполняется, если М-*-оо. Далее / (?, 9 = 1п Л при ? = ?; следовательно, второе условие Б инфор- мационной устойчивости § 7.3 тривиальным образом выполняется. Требование 1) теоремы 11.3 поэтому выполняется, если М ->¦ <х>. Выбирая функцию штрафов A1.5.1), убеждаемся, что выполняются также требования 2), 3). Неравенство A1.5.9) согласно A1.5.20) принимает вид lim sup In М/С < 1, что эквивалентно соотношению (8.1.5). При функции штрафов A1.5.1) имеем Мс (?, ?) =—1 и соотношение A1.5.10) принимает вид l-Mfi.r=2;JP(gl?)-v0I A1.5.21) НО есть не что иное, как средняя вероятность ошибки G.1.11), так что сходимость A1.5.21) совпадает с G.3.7). Итак, мы получили, что в данном частном случае теорема 11.3 действительно дублирует те- орему 7.2.
Глава 12 ТЕОРИЯ ИНФОРМАЦИИ И ВТОРОЙ ЗАКОН ТЕРМОДИНАМИКИ В этой главе обсуждается связь понятий количества ин- формации и физической энтропии. Как известно, последнее поня- тие позволяет дать количественную формулировку второго закона термодинамики, который запрещает в изолированной системе про- цессы, сопровождающиеся увеличением энтропии. Если возможен приток информации dl о системе, т. е. если физическая система яв- ляется изолированной лишь в тепловом, но не в информационном отношении, то указанный закон следует обобщить, заменив нера- венство <Ш > 0 неравенством dH + dl > 0. Следовательно, если имеется приток информации, то можно тепловую энергию системы (без помощи холодильника) превратить в механическую. Другими словами, возможен вечный двигатель второго рода, питающийся информацией. В § 12.1 и 12.2 процесс превращения тепловой энергии в меха- ническую за счет информации рассматривается количественно, причем описывается конкретный механизм, позволяющий его осу- ществить. Этот механизм заключается в установке и передвижении определенным образом непроницаемых стенок внутри физической системы. Тем самым известные относящиеся к этому вопросу полу- качественные рассуждения, содержащиеся, например, в книге Бриллюэна [1], получают точное количественное подтверждение. Обобщение второго закона термодинамики никоим образом не отменяет его первоначальной формулировки. Отсюда в § 12.3 де- лается заключение о необходимости энергетических затрат при фактическом измерении координат физической системы и записи этой информации. Если система находится при температуре Т, то для получения и записи количества информации dl о ней необходимо потратить как минимум Tdl энергии. В противном случае соедине- ние автоматического измерителя и информационного преобразова- теля тепловой энергии в механическую дало бы вечный двигатель второго рода. Указанная общая закономерность подтверждается для конкретной модели измерителя, описанной в § 12.3. Вывод о необходимости минимальных энергетических затрат распространяется также на физические каналы с шумом, соответст- вующим заданной температуре Т (§ 12.5). Таким образом, второй 398
закон термодинамики накладывает некоторые ограничения на воз- можности физической реализации инфомационных систем: автома- тов-измерителей и каналов. 12.1. Информация о физической системе, находящейся в состоянии термодинамического равновесия. Обобщенный второй закон термодинамики В теории ценности информации (гл. 9) рассматривается инфор- мация о координате х, которая является случайной величиной, имеющей закон распределения р (х) dx. В настоящем параграфе, чтобы выявить связь теории информации с законами термодинамики, будем предполагать, что х является непрерывной координатой физи- ческой системы, находящейся в состоянии термодинамического рав- новесия. Энергия системы предполагается известной функцией Е (х) от этой координаты. Будем рассматривать состояние, соот- ветствующее температуре Т. В этом случае распределение опреде- ляется формулой Больцмана—Гиббса р (х) = exp {[F — Е (х)УТ), A2.1.1) где F=— Tin {e-E{x)/Tdx A2.1.2) — свободная энергия системы. Температура Т берется в энергети- ческих единицах, при которых постоянная Больцмана равна 1. Удобно предполагать, что имеется термостат с температурой Т и указанное распределение устанавливается в результате длитель- ного контакта с этим термостатом. С точки зрения общей теории ценности информации распределе- ние A2.1.1) является специальным случаем распределения вероят- ностей, входящих в определение бейесовской системы. На него, естественно, распространяются общие результаты, полученные в гл. 9 и 10 для произвольных бейесовских систем. Кроме этого, фи- зический характер рассматриваемой системы позволяет исследовать особые явления, связанные со вторым законом термодинамики. Нас будет интересовать здесь возможность превращения тепловой энер- гии в механическую, обусловленная приходом информации о коор- динате х. При определении ценности хартлиевского и больцмановского количества информации (§ 9.2 и 9.6), предполагалось, что поступаю- щая информация о значении х имеет простой вид. Указывается, ка- кой именно области Е^ из заданного разбиения ^Еь = X про- к странства X значений х принадлежит точка х. При этом поступившая информация эквивалентна указанию номера области Eh. Покажем, что такая информация действительно позволяет переводить тепло- 399
вую энергию в механическую. При указании области Ек априорное распределение A2.1.1) переходит в апостериорное распределение -~*' A2.1.3) О вне Eh, где F(Ek)=— rinj &"EWITdx. A2.1.4) — условная свободная энергия. Поскольку известно, что х находится в области Ek, эту область можно окружить непроницаемыми стен- ками, вводя вместо энергетической функции Е (х) функцию ^?„ A2Л<5) оо вне Ek. Распределение A2.1.3) есть как раз равновесное распределение типа A2.2.1) для такой функции. Затем будем медленно раздвигать стенки, окружающие область Ек, до тех пор, пока они не уйдут в бесконечность. На стенки дей- ствует давление, сила давления при раздвижении стенок будет со- вершать работу. Энергия в форме механической работы будет по- ступать ко внешним телам, механически связанным со стенками. Эта энергия равна хорошо известному в термодинамике интегралу типа А= [ pdv \Р= давление). J \ dv J Дифференциал работы dA можно получить, варьируя область Ек в выражении A2.1.4). При расширении области Ek до области El — Е'ь + dEk ко внешним телам переходит механическая энергия F(E'k)-E(x) = T fe T dx. A2.1.6) f В силу медленности раздвижения указанный энергетический пере- ход совершается без изменения температуры системы. Это имеет место вследствие притока тепловой энергии из термостата, контакт с ко- торым не должен прерываться. Тогда источником уходящей из системы механической энергии будет тепловая энергия термостата, которая будет превращаться в механическую работу. Чтобы под- считать полную работу A h, нужно просуммировать дифференциалы A2.1.6). При уходе стенок в бесконечность область Ek совпадает со всем пространством X, а свободная энергия F (Е'ь) — с A2.1.2). Поэтому полная работа равна разности свободных энергий A2.1.2) и A2.1.4) Ak = F(Eh)-F. A2.1.7) 400
Если проинтегрировать A2.1.1) по Eh, то получим Р (Ek), анало- гичный интеграл для A2.1.3) равен единице. Отсюда имеем формулу е т =P(Eh). A2.1.8) Учитывая A2.1.8), из A2.1.7) получаем Ah=-TlnP(Ek) = TH(\Ek) A2.1.9) Н (I Eh) — условная энтропия). Найденная формула соответствует тому случаю, когда точка х оказывается в области Ek, что происходит с вероятностью Р (Еь). Усредняя A2.1.9) по^различным областям, нетрудно подсчитать среднюю энергию, превратившуюся из тепловой формы в механиче- скую: . A2.1.9а) Дополняя найденное соотношение знаком неравенства, относящегося к неравновесному (протекающему недостаточно медленно) процес- су, имеем A2.1.10) Итак, мы получили, что максимальное количество тепловой энер- гии, переходящее в работу, равно произведению абсолютной темпе- ратуры на больцмановское количество приходящей информации. Приток информации о физической системе позволяет переводить тепловую энергию в работу без передачи части тепловой энергии холодильнику. Утверждение второго закона термодинамики о не- возможности такого процесса справедливы лишь при отсутствии притока информации. При наличии притока информации dl обыч- ная формулировка второго закона, разрешающая в изолированной системе лишь те процессы, в которых суммарная энтропия не умень- шается: Ш > 0, A2.1.11) становится недостаточной. Условие A2.1.11) должно быть заменено условием неубывания суммы энтропии и информации: dH + dI>0. A2.1.12) В рассмотренном выше процессе превращения теплоты в работу имел место приток информации А/ = #?fe. Энтропия термостата уменьшалась на ДЯ = —А/Т, энтропия рабочей системы в итоге не изменилась. Следовательно, для указанного процесса условие A2.1.12) справедливо со знаком равенства. Знак равенства обуслов- лен идеальным характером рассмотренного процесса, который был подобран специальным образом. Если бы стенками ограничивалась не область Eh, а более крупная область или если бы раздвижение стенок было не бесконечно медленным и т. п., то в условии A2.1.12) 401
имел бы место знак неравенства. Полученное Количество работы было бы меньше, чем A2.1.9а). Вследствие A2.1.12) большего количества работы, чем A2.1.9а), получить из теплоты невозможно. Мысль о возможности описанного выше обобщения второго за- кона термодинамики на случай систем с притоком информации воз- никла давно в связи с обсуждением «демона Максвелла». Последний, открывая или закрывая дверцу в стенке между двумя сосудами (в за- висимости от того, с какой скоростью подлетает молекула к дверце), может создать разность температур или разность давлений, не со- вершая работы, вопреки второму закону термодинамики. Для та- кой деятельности «демону» необходим приток информации. Преде- лы нарушения «демоном» второго закона термодинамики ограни- чены величиной приходящей информации. Согласно сказанному выше это можно утверждать не только качественно, но и форму- лировать в виде точного количественного закона A2.1.12). В процессах, не связанных с притоком информации, второй закон термодинамики, взятый в обычном виде A2.1.11), конечно, остается незыблемым. Более того, даже формулу A2.1.10), соот- ветствующую обобщенному закону A2.1.12), мы получили, по су- ществу, опираясь на второй закон A2.1.11) при рассмотрении расширяющейся области Eh. Именно, формулы A2.1.6), A2.1.7) являются следствием второго закона A2.1.11). Покажем это. Обоз- начая через dQ количество теплоты, пришедшее из термостата, за- писываем изменение энтропии термостата в виде dHr=-dQ/T. A2.1.13) По первому закону термодинамики dA=dQ~dU, A2.1.14) где U = ME (x) — внутренняя энергия системы, связанная со свободной энергией F известным соотношением U = F + ТНХ. Диф- ференцируя последнее, имеем dF = dU — TdHx, A2.1.15) Второй закон A2.1.11) в данном случае имеет вид dHT + dHx > 0, TdHx — dQ > 0, что в силу A2.1.14), A2.1.15), эквивалентно соот- ношению dA^—dF. A2.1.16) Взяв это соотношение со знаком равенства, что соответствует иде- альному процессу, получим первое соотношение A2.1.6). 12.2. Приток шенноновской информации и превращение теплоты в работу Сказанное выше о возможности превращения тепловой энергии в механическую вследствие притока информации распространяется и на тот случай, когда информация носит более сложный характер, 402
когда она не сводится к указанию области принадлежности Ек. Такой более сложный случай мы будем иметь, если область Ек ука- зывается не безошибочно. Пусть k — номер области, сопряженный с возможной ошибкой, ak — истинный номер области, содержащей х. В данном случае количество поступающей информации опреде- ляется шенноновскои формулой / = HE]i — Heu \T- Оно меньше, чем энтропия НЕ,, рассматривавшаяся в предыдущем параграфе. Далее в более общем случае информация о значении х может поступать не в виде номера области, а в виде какой-то другой слу- чайной величины у, статистически связанной с х. В этом случае количество информации также определяется шенноновскои форму- лой [см, F 2.1)]: 1 = НХ-Нх1у. A2.2.1) Апостериорное распределение р(х\у) теперь будет иметь более сложную форму, чем A2.1.3). Тем не менее обобщенный второй закон термодинамики будет иметь прежний вид A2.1.12), если под / понимать шенноновское количество информации A2.2.1). Формула A2.1.10) теперь заменится формулой А < 77. A2.2.2) Чтобы в этом убедиться, следует рассмотреть бесконечно медленный изотермический переход от состояния, соответствующего апосте- риорному распределению р (х\у) и имеющего энтропию Нх(\у), к первоначальному (априорному) состоянию с заданным распреде- лением р (х). Этот переход должен происходить в соответствии со вторым законом термодинамики A2.1.11), т. е. в соответствии с фор- мулами A2.1.13), A2.1.16). Суммируя элементарные работы A2.1.16), получаем, что каждому наблюденному значению у соответствует работа Ay^-F + Fiy). A2.2.3) Здесь F — свободная энергия A2.1.2), a F (у) — свободная энергия F(y) = M[E(x)\y]-THx{\y), A2-2.4) (соответствующая апостериорному распределению р (х\у), которая мыслится как равновесная при поставленных стенках (см. ниже). Подставляя A2.2.4) в A2.2.3) и усредняя по у при учете соотноше- ния F = ME (х) — ТНХ, получаем А^ТНХ-ТНХ\У, A2.2.5) т. е. неравенство A2.2.2). Однако в данном более общем случае конкретный идеальный термодинамический процесс, при котором соотношение A2.2.2) справедливо со знаком равенства, сложнее, чем в § 12.1. Поскольку теперь апостериорная вероятность р (х \ у) не сконцентрирована в одной области Eh, мы не можем удалять в бесконечность стенки, 403
поставленные вокруг этой области (так можно делать только, если, используя условие информационной устойчивости, перейти к рас- смотрению безошибочной информации). Тем не менее использованный прием установки, передвижения и убирания стенок применим и те- перь. Как и в § 12.1, установка и убирание стенок должны осущест- вляться мгновенно, без изменения энергии и энтропии; поэтому-то физическая равновесная свободная энергия после установки стенок оказывается равной выражению A2.2.4). Рассмотрим несколько подробнее, как осуществить термодинами- ческий процесс, близкий к идеальному. Возьмем апостериорное рас- пределение р (х\у) и установим в пространстве X систему стенок, которая разбивает это пространство на ячейки Eh. Если бы этих стенок не было, то в процессе релаксации распределение р (х\у) само собой перешло в равновесное распределение р (х) A2.1.1). Система стенок удерживает систему в состоянии с распределением р (х\у). На стенки действуют со стороны физической системы неко- торые механические силы. Будем теперь медленно перемещать стенки таким образом, чтобы фактическое распределение непрерывно пере- шло от неравновесного р (х\у) к равновесному A2.1.1). Все проме- жуточные состояния при этом должны быть состояниями термоди- намического равновесия для данной конфигурации стенок. Конечное состояние является состоянием равновесия не только при наличии стенок, но и при их отсутствии. Поэтому стенки под конец можно не- заметно убрать. В процессе перемещения стенок механические силы, действующие на стенку, совершают механическую работу, среднее значение которой подсчитывается термодинамическими методами наподобие A2.2.3)—A2.2.5). Мы будем иметь в точности равенст- во А = 77, если удастся подобрать конфигурации стенок так, чтобы начальное распределение р (х\у) и конечное A2.1.1) были точно равновесными для начальной и конечной конфигурации. Когда распределения р (х), р (х\у) неравномерные, чтобы приблизиться к пределу 77, может потребоваться специальный предельный пере- ход, при котором размеры отдельных ячеек между стенками долж- ны стремиться к нулю. В качестве примера рассмотрим более простой случай, когда идеальный термодинамический процесс возможен при небольшом числе ячеек. Пусть X = [О, V] представляет собой отрезок, а функция Е (х) = 0 является постоянной, так что распределение A2.1.1) равномерное. Пусть далее производится измерение, в какой поло- вине отрезка [О, V] находится точка х. Пусть информация об этом передается с ошибкой, вероятность которой равна р. При этом количество информации равно / = In 2 + р In р + A — р) In A — р). A2.2.5а) Пусть пришло сообщение, что у ~ 1, т. е. х находится в левой по- ловине: х ? [О, У/2]. Этому сообщению соответствует апостериор- ное распределение 404
2pjV при У/2<*<У. ( } В точке х = z0 = У/2 устанавливаем стенку, которую затем будем медленно перемещать. Чтобы найти силы, действующие на стенку, для каждого положения z стенки вычислим свободную энергию. Поскольку Е (х) = 0, вычисление свободной энергии сводится к вы- числению энтропии. Если стенка из точки х = У/2 перемещена в точку х = z, то распределение A2.2.6) заменяется распределением р(х\г,\) = 1 р при 0<л;<2, V— г ему соответствует энтропия г р при z<. A2.2.7) и свободная энергия F(l,z) = — ГA— рIп— Tpln-^i- . A2.2.8) 1 —р р Дифференцируя по z, находим действующую на стенку силу —?4i?L = A-rtT-"-v=T- A2'2-9) Если бы координата х находилась слева, то действующая сила рав- нялась бы Tlz (по аналогии с формулой давления идеального газа z играет роль объема), если бы х была справа, то действовала бы сила —77(У — z). Формула A2.2.9) дает апостериорное математическое ожидание этих сил, так как 1—р есть апостериорная вероятность неравенства х < У/2. Работу силы A2.2.9) на отрезке [z0, zj можно вычислить, взяв разность потенциалов A2.2.8): A1 = -F(l,z^ + F(l,z0). A2.2.10) Начальное положение стенки, как указывалось, лежит посереди- не (z0 = У/2). Конечное положение таково, что распределение A2.2.7) становится равновесным. Это дает A - p)lzx = p/(V - Zl) = 1/У, Zl = A - р) V. Подставляя указанные значения z0, zx в A2.2.10), A2.2.8), находим искомую работу Аг = Т A — р) In [2 A — р)] + Тр In Bp). A2.2.11) 405
Аналогичный результат имеет место и для второго сообщения у = 2. При этом стенку нужно передвигать в другую сторону. Средняя работа А определяется тем же выражением A2.2.11). Срав- нение этого выражения с A2.2.5а) показывает, что выполняется со- отношение A2.2.2) со знаком равенства. В заключение нужно указать, что условие равновесности исход- ного распределения р (х) [см. A2.1.1)] является необязательным. Если исходное состояние р (х) физической системы является нерав- новесным, то следует мгновенно (пока координаты х не успевают измениться) «включить в действие» некоторый новый гамильтониан Е (х), отличающийся от первоначального Е (х) и такой, чтобы распределение р (х) для него было равновесным. После этого можно применить все предыдущие рассуждения. Когда же процесс превра- щения тепловой энергии в работу будет закончен, следует мгновен- но «выключить» Е (х), перейдя к Е (х). Энергетические затраты на «включение» и «выключение» гамильтониана Е (х) взаимно компен- сируются. Итак, независимо от условия равновесности информаци- онное обобщение второго закона термодинамики формулируется: Теорема 12.1. Если физическая система S изолирована в тепловом отношении и о ней имеется количество информации I (неважно хартлиевское, больцмановское или шенноновское), то в ней возможны лишь такие процессы, для которых изменение сум- марной энтропии превосходит —/: АН > —/. При этом нижняя граница физически достижима. При упоминании о тепловой изоляции здесь имеется в виду,что тепловая энергия, которую при указанных процессах можно пре- вратить в работу, берется из самой системы S, т. е. термостат вклю- чен в 5. Как известно, второй закон термодинамики является асимпто- тическим, не вполне точным. Он нарушается для процессов, связан- ных с тепловыми флюктуациями. Учитывая это обстоятельство, мож- но дать ему уточненную (ослабленную) формулировку: в тепло- изолированной системе не могут происходить процессы, для которых приращение энтропии ДЯ«—1. A2.2.12) Если энтропию брать в термодинамических единицах согласно A.1.7), то в правой части A2.2.12), вместо 1, следует поставить по- стоянную Больцмана k. Тогда A2.2.12) примет вид Д#физ<< —k. Соответственно тому, как в уточненной формулировке, условие Д# < 0 заменено более сильным неравенством ДЯ <^ —1, можно изменить и формулировку теоремы 12.1. В уточненной формули- ровке она должна запрещать процессы, для которых Д# + /<— 1 или ДЯфиз + /г/<—k. A2.2.13) Член с / здесь существен, если / > 1. Аналогичные уточнения можно ввести и в материал других пара- графов, однако мы не будем на этом останавливаться. 406
12.3. Энергетические затраты на создание и запись информации. Пример В предыдущих параграфах случайная переменная у, несущая информацию о координате (или координатах) х физической системы предполагалась заранее заданной случайной величиной, статисти- чески связанной (коррелированной) с х. Особого внимания заслужи- вает вопрос, как физически реализовать эту информационную слу- чайную величину. Ее естественно трактовать как одну (или несколь- ко) координату из координат (т. е. динамических переменных) неко- торой другой физической системы So, которую назовем измеритель- ным прибором. Второй закон термодинамики приводит к определен- ным утверждениям, касающимся процедуры физического создания такого информационного сигнала у, статистически связанного с х. Эти утверждения касаются энергетических затрат, необходимых для создания у, и являются своего рода обращением утверждений, изложенных в § 12.1 и 12.2. Дело в том, что рассмотренную ранее физическую систему 5 (с термостатом), которая «превращает информацию и теплоту в ра- боту», и измерительный прибор So (действующий автоматически), который создает информацию, можно объединить в одну комбини- рованную систему и применить к ней второй закон термодинамики. К комбинированной системе уже не будет поступать информации, поэтому неравенство A2.1.12) для нее примет обычную форму A2.1.11). Если измерительный прибор или термостат, с которым он контактирует, имеют ту же температуру Т, что и физическая систе- ма с координатой х, то итоговое превращение теплоты в работу долж- но отсутствовать по обычному второму закону термодинамики. Это значит, что механическая энергия типа A2.1.10) или A2.2.5) должна превратиться в теплоту в измерительном приборе. Мы получаем, следовательно, что всякий физический измерительный прибор, имею- щий температуру Т, для создания количества информации / о коор- динате физической системы должен превращать в теплоту по меньшей мере энергию 77. Это неотъемлемое свойство всякого физического измерителя проверим сначала на одной простой модели реального измерите- ля. Сконструируем измеритель таким образом, чтобы измерение координаты х физической системы не влияло на поведение этой си- стемы. Удобно рассматривать двумерную или даже одномерную модель. Пусть х есть координата (или координаты) центра метал- лического шарика, который без трения движется внутри трубки из изолятора (или между параллельными пластинками). Внутрь изолятора вставлены (и зашлифованы) пары электродов — металли- ческих пластин, на которые подается разность потенциалов. Когда шарик находится в определенном месте, он соединяет одну пару электродов и тем самым замыкает соответствующую цепь (рис. 12.1). По протеканию тока можно судить о месте положения шарика. Про- странство значений х оказывается разбито на области Elt ..., Ем, 407
соответствующие размерам электродов. Если число пар электродов равно М = 2",-т. е. целой степени от 2, то удобно выбрать п источ- ников э. д. с. и так соединить электроды, чтобы факт протекания (или непротекания) тока от одного источника нес в себе один бит информации о номере области Еъ ..., ЕМ- Пример такого соединения для п = 3 показан на рис. 12.1 и 12.2. Когда цепь, соответствую- щая одному биту информации, замыкается, то возникающий ток перемагничивает магнитик, помещенный в катушке и играющий роль ячейки памяти. Если тока не возникает, магнитик остается намагниченным в другом направлении. В итоге в тройке магнити- ков оказывается записанным (двоичным кодом) номер области ?ft. Размеры областей Ek, т. е. пластин, можно подбирать из сооб- ражения оптимальности, рассматриваемых в теории ценности ин- формации. Если целью является получение максимальной работы Рис. 12.1. Расположение измерительных контактов в трубке. A2.1.9а), то области Ек нужно выбирать так, чтобы им соответст- вовали одинаковые вероятности \ = ...=p(EM)=l/M, A2.3.1) тогда больцмановское и хартлиевское количества информации будут совпадать: HEk = In M и формула A2.1.9а) даст максимальную механическую энергию, равную Т In M. Логарифм числа областей In M можно назвать предельной информационной емкостью изме- рительного прибора. В действительности количество информации, даваемое измери- тельным прибором, оказывается меньше, чем In M, вследствие ошибок, возникающих в приборе. Источником этих ошибок являют- ся тепловые флюктуации, в частности флюктуации тока, протекаю- щего через катушки Lr. Предполагаем, что температура Т измери- тельного прибора задана (Т берется в энергетических единицах). По законам статистической физики средняя энергия флюктуацион- ного тока 1ф, текущего через катушку индуктивности L, опреде- ляется формулой — LM/$ = — T, A2.3.2) 408
т. е. пропорциональна абсолютной температуре Т. Полезный ток 1„ от источника э. д. с. Шт (рис. 12.1 и 12.2) складывается с флюкту- ационным током гф. Средняя энергия полезного тока ЬЩ2 и состав- ляет в данном случае те самые энергетические затраты, о которых говорилось выше, которые присущи любому реальному измерителю. Найдем связь между энергетическими затратами и количеством информации, учитывая флюктуационный ток 1Ф. Рис. 12.2. Другие способы соединения измерительных контактов. При заданном полезном токе iu суммарный ток i = г'ф + in имеет гауссово распределение с дисперсией, находимой из A2.3.2), т. е. A2.3.3) Полезный ток [если выполняется A2.3.1)] при М — 2п с вероятно- стью х/2 принимает значение 0 и с вероятностью V2 — некоторое значение ix. Следовательно, (I2.3.4) Подсчитаем информацию связи 11Л . Учитывая A2.3.3), A2.3.4), имеем In p(t'|0) =—In—[I +e(L/T)-(ui/2T)] in_Piii?iL _ p @ 2 P (i) Первое выражение нужно усреднить с весом р (ipO^ а второе — с весом р (i | jj). Вводя переменную I = (ix/2 — i) l^L/T (и | = (i — — гх/2) У L/T для второго интеграла), имеем для обоих интегралов одно и то же выражение где л = 409
Следовательно, искомая информация равна этому же выражению. Приведем его к такому виду: п ' /s Л Второй член заведомо отрицателен, поскольку ch 1^ > 1, In ch ^т] > 0, следовательно, /л/п<т1а = ?«?/47\ A2.3.5) Но величина LtJ/4 есть не что иное, как средняя энергия полезного тока: 1 1 1 N 1 2 2 V 2 /2 Мы доказали тем самым, что для получений информации 1Ь1 за- трата средней энергии полезного тока должна превосходить Tlt,in. Сказанное относится к одной катушке. Суммируя по различным п цепям, для получения суммарной информации / ¦= ^ (/,-,,• ),, необ- ходимо затратить энергии в среднем не менее чем 77. Для дан- ного измерительного прибора подтверждается, следовательно, ска- занное выше об энергетических затратах, необходимых для получе- ния информации. Учет тепловых флюктуации в других элементах прибора еще более усиливает неравенство А > 77. 12.4. Энергетические затраты на создание и запись информации. Общая формулировка В рассмотренном примере в роли информационной координаты у выступали токи i, текущие через катушки Lu L2, ... (рис. 12.1, 12.2). Чтобы иметь дело с более устойчивыми, лучше сохраняющими- ся во времени информационными переменными, целесообразно по- местить в катушки магнитики, которые намагничивались бы при про- хождении тока. Тогда в роли переменных у будут выступать соот- ветствующие намагниченности тх, т2, ... Поскольку намагничен- ность тг является некоторой функцией начальной тг0 (независимой от х) намагниченности и тока i (т = f (m0, г)), то ясно, что количе- ство информации 1тх не будет превосходить^количества Iix + ImaX — = hx, т. е. рассмотренного ранее количества Iix, так что неравенство Ilx ^ А/Т A2.3.5) при переходе к 1тх может только усилиться. Тот случай, когда в роли информационного сигнала у высту- пают намагниченности тъ т2, ... запоминающих магнитиков, вполне аналогичен случаю записи информации на магнитофонной ленте, где число «элементарных магнитиков» весьма велико. Из рассмотренного примера видно, что физически процесс «создания» информации измерительным прибором неотделим от процесса фи- 410
зического записывания информации. Проверенное ранее для част- ного примера основное неравенство IT ^ А можно доказать, исхо- дя из общетермодинамических соображений, если ввести ряд общих и точных определений. Пусть х — часть переменных % динамической системы S, а у — часть координат г| системы So, относящихся к тому же самому мо- менту времени. Назовем нормальным физическим записыванием информации физический процесс, протекающий при взаимодействии систем S и So между собой и, возможно, также с другими системами, при котором первоначальное состояние, характеризуемое мульти- пликативным совместным распределением рг (?) ра (tj) переходит в конечное состояние р (?, tj) с теми же парциальными распределе- ниями рг (?) и р2 (tj). До начала процесса записывания и после него системы 5 и 50 предполагаются невзаимодействующими. Теперь можно дать общую формулировку основному утвержде- нию. Теорема 12.2 Если нормальное физическое записывание ин- формации протекает при контакте с термостатом, имеющим тем- пературу Т, то для его осуществления необходимо потребление и пере- дача термостату (в виде теплоты) энергии А > IT, A2.4.1) где 1 = НХ+НУ-НХУ A2.4.2) — шенноновское количество информации. Доказательство. Обозначим через Я+ энтропию ком- бинированной системы 5 + So, а через НТ — энтропию термостата. Применяя второй закон термодинамики к процессу записывания информации, имеем Л#+ + Л#г>0. A2.4.3) При этом изменение энтропии Я+, очевидно, таково: АЯ+ = Я^-Я|-Я11=-/|Л. A2.4.4) Термостату в итоге передана энтропия ЛЯг > 1щ и, следовательно, отдана тепловая энергия А > 77^. Откуда она взялась? Согласно условиям теоремы взаимодействие систем 5 и So в начале и в конце отсутствует, так что средняя суммарная энергия U+ сводится к сумме средних парциальных энергий: U+ = МЕг (I) + M?2 (tj). Они же остаются неизменными вследствие неизменности парциаль- ных распределений рх (?) и р2 (tj). Итак А[/+ = 0 и, следовательно, энергия А должна быть взята в процессе записывания информации извне от каких-то внешних источников нетепловой энергии. Для получения A2.4.1) остается лишь учесть неравенство Ixy ^ /|л. Доказательство закончено. В заключение этого параграфа рассмотрим еще один пример записи информации, совершенно другого типа, нежели пример из 411
§ 12.3. Из сравнения этих примеров видно, что источники внешней энергии могут иметь совершенно различную природу. Пусть требуется получить и записать информацию о флюктуи- рующей координате х стрелки, вращающейся на оси и поддержи- ваемой вблизи положения равновесия пружинкой П (рис. 12.3). Рис. 12.3. Пример создания и записи информации при помощи сдвигаемых и раздвигаемых взаимодействующих стрелок с пружинами П. 1 л ( (+) X / На конце стрелки помещен шарик, заряженный положительно. Чтобы осуществить «измерение и запись» координаты х стрелки, подносим к ней аналогичную же вторую стрелку, посаженную на ту же ось, но с шариком, заряженным отрицательно. При сближении стрелок мы воспримем некоторую энергию Аъ обусловленную при- тяжением шариков. Сближение предполагаем очень быстрым, так что координаты стрелок х, у в процессе него не успевают измениться. Получившееся после сближения состояние будет неравновесным. Оно перейдет в равновесное состояние, в котором между коорди- натами стрелок х, у установится корреляция. Удобно предполагать, что сила притяжения шариков гораздо больше возвращающих сил пружинок, так что корреляция будет очень тесной. Переход в рав- новесное состояние будет сопровождаться уменьшением средней энергии взаимодействия шариков («спуск в потенциальную яму») и выделением в термостат (окружающую среду) тепловой энергии Л. После того, как равновесное (коррелированное) распределение Р (х> У) установится, мы быстро раздвигаем стрелки (раздвижение, как и сближение, происходит вдоль оси вращения и не затрагивает вращательной координаты). При этом мы затрачиваем работу Л2, которая, разумеется, больше, чем воспринятая ранее работа Лх, поскольку модуль разности | х — у \ теперь стал в среднем меньше. Парциальные распределения р (х) и р (у) почти не изменятся, если среднее М (х — уJ очень мало. Как показывает термодинамический анализ, подобный тому, который был приведен при доказательстве теоремы 12.2, в данном примере Л2 — Ах = А > IT. После раздвижения стрелок между ними имеется корреляция, но нет силового взаимодействия. Процесс «записи» информации за- кончен. Полученную «запись», разумеется, можно переработать, 412
превратить в другую форму, скажем, записать на магнитофонную ленту. При этом количество записанной информации может только уменьшиться. В данном примере работу, необходимую для записи информации, совершает человек или устройство, сближающее и раздвигающее стрелки. Такая работа, согласно общей теории, должна затрачи- ваться везде, где происходит создание информации, создание новых корреляций, а не просто переработка старых. Общая теория при этом указывает лишь нижний теоретический уровень этих затрат. Практические энергетические затраты, конечно, могут превосходить и даже значительно превосходить этот термодинамический уровень. Сравнение практических затрат с минимальными теоретическими позволяет судить о степени энергетического совершенства реальных устройств. 12.5. Энергетические затраты в физических каналах Энергетические затраты необходимы не только для создания и записи информации, но и для ее передачи, если последняя проис- ходит в условиях наличия флюктуационных возмущений, например тепловых. Как известно из статистической физики, в линейных системах на каждую степень свободы приходится средняя равновес- ная флюктуационная энергия, равная Тф12, где Тф — температура окружающей среды (термостата). В ряде работ (Брюллюэна [1] и др.) высказывалась мысль, что для передачи одного ната информа- ции в этих условиях необходима энергия не меньше Тф (мы поль- зуемся энергетическими единицами температуры, так что постоян- ная Больцмана полагается равной единице). В настоящем парагра- фе мы пытаемся уточнить это положение и привести для него соот- ветствующее доказательство. Назовем физическим каналом канал, описываемый переходными вероятностями р (у | х) и функцией штрафов с (х), если у имеет смысл полного набора динамических переменных некоторой физической системы 5. Функцию Гамильтона (энергию) последней обозначим через Е (у) (она неотрицательна). Зная ее, по обычным формулам можно вычислить равновесный потенциал Г(р)=— pF =lnJe-PB<")rfy A2.5.1) и зависимость энтропии от средней энергии A2.5.2) Теорема 12.3 Пропускная способность (см. §8.1) физи- ческого канала [р (у\х), с (х)] удовлетворяет неравенству ТфС(а)^МЕ(у)-аф, A2.5.3) 413
где уровень аф и «температура флюктуации» Тф определены равен- ствами Гф~1 = 1ш(аф): Н(аф) = Нуи. A2.5.4) Средняя энергия ME (у) и условная энтропия Ну \ х подсчитывают- ся при экстремальном распределении р0 (х), реализующим пропуск- ную способность, которое предполагается существующим. Пред- полагается также, что второе уравнение A2.5.4) имеет корень аф в нормальной ветви, где Тф > 0. Доказательство. Формулы A2.5.1), A2.5.2) появляют- ся при решении первой вариационной задачи (см., например, § 3.6)—¦ задачи на экстремум энтропии Ну при ограничении ME (у) — А. Поэтому выполняется неравенство Я, < Я (ME (г/)) A2.5.5) (фиксирован уровень ME (у)). Далее, как следует из общей теории (см. следствие из теоремы 4.1), функция Я (R) является выпуклой так что ее производная — невозрастающая функция от R. Пропускная способность канала совпадает с шенноновским ко- личеством информации С(а) = Ну-Ну1х A2.5.7) для экстремального распределения ро(х), обращающего его в услов- ный максимум. Из A2.5.5) и обычного неравенства Ну > Ну\х находим Ну]х^Н(МЕ(у)). A2.5.8) Поскольку аф— корень уравнения Ну\х — Н (аф) в нормальной ветви выпуклой функции Я (•), где производная неотрицательна, то в какой бы ветви ни лежало значение М? (у), из A2.5.8) имеем пф^МЕ (у). Учитывая его и невозрастающий характер производ- ной A2.5.6), получаем Н (ME (у)) — Н (а^) ^(аф) [ME (у)—аф]. Это неравенство в сочетании с С (а) ^С Я (М? (у)) — Н(аф)у вытекающим из A2.5.7) и A2.5.5), дает A2.5.3). Доказательство закончено. Вследствие положительности величины аф, вытекающей из не- отрицательного характера энергии Е(у), в A2.5.3) член —аф можно отбросить. От этого неравенство может только усилиться. Однако это делать не всегда целесообразно, поскольку формула A2.5.3) допускает следующую простую интерпретацию. Величину аф можно трактовать как среднюю «энергию флюктуационного шума», а раз- ность ME (у) — йф ¦— как оставшуюся после прохождения через канал «энергию полезного сигнала». Тогда согласно A2,5.3) на 414
каждый нат пропускной способности будет приходиться по меньшей мере «энергия полезного сигнала» Тф. Если а~ энергия полезного сигнала до прохождения через канал, которую естественно считать превосходящей оставшуюся энергию ME (у) — аф, то тем более будет выполняться неравенство а/С (а) > Тф. Проще всего конкретизировать эти рассуждения для случая квадратичной энергии утелу A2.5.9) и аддитивного независимого шума 'Q (с нулевым средним значением): */ = *+?. A2.5.10) Подставляя A2.5.10) в A2.5.9) и усредняя, имеем ME (у) = Мхте2х + М?ге2?, т. е. ME (у) = ME (х) + ME(Q. A2.5.11) Вследствие A2.5.10) и независимости шума далее имеем HyU=Ht. A2.5.12) Первую экстремальную задачу, решением которой является рас- смотренная ранее функция Я (R) или обратная функция R (Я), мож- но, как известно (§ 3.2), трактовать как задачу минимизации средней энергии ME при фиксированной энтропии. Следовательно, R (Н%) есть минимальное значение энергии, возможное при фиксированной энтропии Я;, т. е. MEiQ^RWd, A2.5.13) но R (Hi) в силу A2.5.4), A2.5.12) есть не что иное, как аф, поэтому A2.5.13) можно записать МЯ(?)>аф. A2.5.14) Из A2.5.11) и A2.5.14) получаем ГАЕ {у)—аф < МЕ{х). Это нера- венство позволяет преобразовать основное доказанное нами нера- венство A2.5.3) к виду ГфС(а)<М?(л:) или ТфС(а)^а, A2.5.15) если функция штрафов с (х) совпадает с энергией Е (х). Приведенные здесь результаты, касающиеся физических кана- лов, тесно связаны с теоремой 8.5. В этой теореме, однако, «темпе- ратурный» параметр 1/C имеет формально-математический смысл. Чтобы он приобрел смысл физической температуры, нужно штрафы с (х) или Ъ {у) специализировать как физическую энергию. Согласно неравенству A2.5.15) в гауссовых физических каналах для передачи одного ната информации требуется по меньшей мере энергия Тф. Следует отметить, что какого-либо универсального не- равенства типа A2.5.15), включающего не эффективную, а факти- ческую температуру канала, вывести не удается. 415
Приложение НЕКОТОРЫЕ МАТРИЧНЫЕ (ОПЕРАТОРНЫЕ) ТОЖДЕСТВА П.1. Правила переноса оператора слева направо Пусть заданы две произвольные не обязательно квадрат- ные матрицы А и В, такие, чтобы произведения ВА и АВ имели смысл. На языке операторов это означает следующее: если А пере- водит элемент пространства X в элемент пространства Y, то В пере- водит элемент пространства Y в элемент пространства X, т. е. задает обратное отображение. При широких предположениях отно- сительно функции / (z) справедлива формула А/(ВА) = / (АВ) А. (П. 1.1) Докажем ее в предположении, что функция / представима раз- ложением Тейлора /(«) =S -~fn(°)zn' (П. 1.2) где z = АВ или ВА. (Большое число обобщений может быть полу- чено предельным переходом lim fm = f, где fm — последовательность подходящих представимых функций). Подставляя (П. 1.2) в (П.1Л), убеждаемся, что как правая, так и левая часть равенства обращаются в одно и то же выражение V -1 fin) @) ABA... ABA. Это доказывает равенство (П. 1.1). Матрицы АВ и ВА имеют, вообще говоря, разную размерность, являются операторами, действующими в различных пространствах (первый в Y, второй в X). То же самое относится и к матрицам / (АВ) и / (ВА). Сравним, однако, их следы. Пользуясь разложением (П. 1.2), имеем (П. 1.3) /'@)Sp(BA)-r-i-r@)Sp(BABA) + ... (П. 1.4) Но SpAB = 5pBA=5=2^u^i> а значит и SpA[(BA)ftB] = — Sp[(BA)ftB] А. Поэтому все члены в (П. 1.3), (П. 1.4), кроме пер- вого, совпадают. Первые члены Sp / @) в общем случае не совпа- дают, так как оператор / @) в разложении функции / (АВ) и тот же оператор в разложении / (ВА) кратен единичной матрице различных 416
размерностей. Если же выполнено условие /@) = 0, (П.,.5) то, следовательно, Sp / (АВ) = Sp f (BA). (П. 1.6) Если бы мы интересовались детерминантами, то для соответствую- щего равенства det F (АВ) = det F (ВА) (П. 1.7) вместо (П. 1.5) имели бы условие F @) = 1, так как In det F = = Sp In F (In F = /). П.2. Детерминант составной матрицы Требуется вычислить детерминант матрицы где A, D — квадратные, а В, С не обязательно квадратные матри- цы. Матрицу D предполагаем невырожденной. Обозначим О \/А В\ / А В\ .. /1 0\т = ( ,такчтоК= L \о d-vvc d) Id-1 с i/ ^о d) A и 0 здесь матрицы) и, следовательно, det К = det D det L. (П.2.2) Непосредственным перемножением легко проверить, что А BW! B)/A-BDC \ (П.2.3) , , /1 В\ , , ,/А —BD-XC 0\ .... nnln но det/ =1; det I =det(A —BD^C). Поэтому (П.2.3) дает detL==det(A — BD^C). Подставляя это равенство в (П.2.2), получаем det/A BW det D det (A—BD-1 С). (П.2.4) [С D/ Аналогично, если А существует, то det(A B) = detAdet(D-CA-1B). (П.2.5) \С D/ Согласно указанным формулам задача вычисления исходного детерминанта сводится к задаче вычисления детерминантов меньшей размерности. 417
Список литературы Беллман P. (Bellman R). 1. Динамическое программирование. Пер. с англ., М., ИЛ, 1960. Бергер Т. (Berger Т.) 1. Rate distortion theory. A Mathematical basis for data compression. Prentkc-Hall, Inc. Englewood Cliffs, New Jersey, 1971. Бриллюен Л. (Brillouin L.). 1. Наука и теория информации. Пер. с франц. М., Физматгиз, 1960. Добрушин Р. Л. 1. Общая формулировка основной теоремы Шеннона в теории информа- ции. — УМН, 1959, т. 14, вып. 6. 2. Математические вопросы шенноновской теории оптимального коди- рования информации. — «Проблемы передачи информации», 1961, вып. 10. Дуб Дж. Л. (Doob J. L.). 1. Вероятностные процессы. Пер. с англ., М., ИЛ, 1956. Гнеденко Б. В. 1. Курс теории вероятностей. М., Физматгиз, 1961. Голдман С. (Goldman S.). 1. Теория информации. Пер. с англ., М., ИЛ, 1957. Гришанин Б. А., Стратонович Р. Л. 1. Ценность информацией достаточные статистики при наблюдении слу- чайного процесса. — «Известия АН СССР. Техническая кибернетика», 1966, № 6, с. 4—12. Колмогоров А. Н. 1. Теория передачи информации. — В кн.: Сессия АН СССР по науч- ным проблемам автоматизации производства, 1956. Пленарные заседания. М., Изд. АН СССР, 1957. Крафт Л. Г. (Kraft L. G.). 1. A device for quantizing, grouping and coding amplitude modulated pulses.—M. S. Thesis, Electrical Engeneering dept., M. 1. Т., 1949, March. Кульбак С. (Kullback S.). 1. Теория информации и статистика. Пер. с англ., М., «Наука», 1967. Леонтович М. А. 1. Статистическая физика. М. — Л., Гостехиздат, 1944. 2. Введение в термодинамику. М. — Л. Гостехиздат, 1952. Пинскер М. С. 1. Количество информации о гауссовом случайном процессе, содержа- щееся во втором процессе, стационарно с ним связанном. ¦— «ДАН СССР», 1954, т. 98, с. 213—216. 2. Вычисление скорости создания сообщений стационарным случайным процессом и пропускной способности стационарного канала. — ДАН СССР, 1956, т. III, вып. 4, с. 753—756. Рао С. P. (Rao С. R.) 2. Линейные статистические методы и их применения. Пер. с англ., М., ИЛ, 1968. Рыжик И. М., Градштейн И. С. 1. Таблицы интегралов, сумм, рядов и произведений. М., Гостехиздат, 1951. Стратонович Р. Л. 1. Энтропия систем со случайным числом частиц. — ЖЭТФ, 1955, т. 28, вып. 4. 418
т»„о2' ,^E,1ПГИСКС намагниченности в модели Изинга. — «Физика твердо!и тела», 1УЫ, т. о, выи 10 у^, °-ималь- 5. Ценность информации при наблюдении случайного процесса в си- стемах, содержащих конечные автоматы. — «Известия АН СССР. Тех- ническая кибернетика», 1966, т. 5, с. 3—13. 6. Количество информации и энтропия отрезков стационарных гауссо- вых процессов. — «Проблемы передачи информации», 1967, т. 3, вып. 2. 7. Экстремальные задачи теории информации и динамическое програм- мирование. — «Известия АН СССР. Техническая кибернетика», 1967, № 5, с. 63—77. Стратонович Р. Л., Гришаиин Б. А. 1. Ценность информации при невозможности прямого наблюдения оце- ниваемой случайной величины. — «Известия АН СССР. Техническая кибернетика», 1966, № 3, с. 3—15. 2. Игровые задачи с ограничениями информационного типа. — «Изве- стия АН СССР. Техническая кибернетика», 1968, № 1, с. 3—12. Файнстейн A. (Feinstein A.) 1. Основы теории информации. Пер. с англ., М., ИЛ, 1960. Фаио P. M. (Fano R. М.) 1. Передача информации. Статистическая теория связи. Пер. с англ., М. «Мир», 1965. Хартли Р. В. Л. (Hartley R. V. L.) 1. Передача информации, 1928. — В кн.: Теория информации и ее приложения. Пер. с англ. Под ред. А. А. Харкевича, М., Физматгиз, 1959. Хилл Т. Л. (НШ Т. L.) 1. Статистическая механика. Пер. с англ., М., ИЛ, 1960. Хуфман Д. A. (Huffman D. А.) 1. A method for the construction of minimum redundancy codes. — tProc. IRE», 1952, v. 40. Шеннон К. (Shannon С.) 1. Математическая теория связи, 1948. — В кн.: К- Шеннон. Работы по теории информации и кибернетике. Пер. с англ. Под ред. Р. Л. Добру- шина и О. Б. Лупанова, М., ИЛ, 1963. 2. Связь при наличии шума, 1949. Там же. 3. Некоторые результаты теории кодирования для каналов с шумами, 1957. Там же. 4. Теоремы кодирования для дискретного источника при заданном кри- терии точности, 1959. Там же. Янке Е., Эмде Ф. 1. Таблицы функций с формулами и кривыми. Пер. с нем., М. — Л., Гостехиздат, 1949.
Предметный указатель а-информация 308 Бит 13 Больцмана формула 10 Вероятность апостериорная финальная 123 — ошибки 229 средняя 230 Ветвь аномальная 265, 308 — нормальная 265, 308 Гиббса распределение каноническое 70, 85, 89, 398 — теорема 89 Длина записи 45, 51 ^-процесс вторичный апостериорный 124 Емкость информационная 65 Задача вариационная первая 65, 67 вторая 257, 258, 259 — — третья 311 Закон сохранения количества информации 43 — термодинамики второй 400, 405 обобщенный 400, 405 Иенсона неравенство 15 Информация связи парная (взаимная) 184 случайная 187 — — тройная 393 — — удельная 206 • условная 189 Канал абстрактный 258, 260 — аддитивный 291 — гауссов 275 стационарный 285 — двоичный 272, 274 —- дискретный без помех 64 — симметричный 270 — физический 413 пропускная способность 413 Код 45, 228 — дешифруемый 49 Крафта 49 — оптимальный 46 — Шениоиа случайный 231 Кодирование информации 43, 44 «блочное» 44 оптимальное 43 — — скользящее (текущее) 44 Количество информации больцмановское 14, 326 хартлиевское 12 шенноновское 181, 186 Котельникова теорема 290 Леви формула 104 Лежандра преобразование 80, 88, 239 Маркова условие 122 Метод неопределенных множителей Лагран- жа 67 «Микросостояние» 10 «Модель Изиига» 77 Нат 13 Негинформация 297 Область «активная» 67, 260, 314 Ошибка декодирования 58, 230 Параметр канонический 85, 86 — термодинамический внешний 79 внутренний 79, 85 сопряженный 80, 86 Плотность энтропии 165 Помеха простая 183 Последовательность бейесовских систем информационно-устойчивая 374 Потенциал термодинамический 73 — характеристический 29, 86, 101, 133, 197, 203, 211 условный 249 Принцип аддитивности 12 Пропускная способность 61, 65, 258 Процесс вторичный апостериорный 119, 124 — дискретный ПО марковский 114 — стационарный 114 стационарный ПО — марковский диффузный 165 условный 120, 172, 215 , энтропия 120 — стационарно-связанный 205 — стационарный периодический 145 — точечный случайный 152 Равноценность информации асимптотиче- ская 367 Радона-Никодимова производная 34 Распределение каноническое 86 — экстремальное 308 Риск 307 Свободная энергия 70 Свойство иерархической аддитивности 19, 39, 190, 191 Система бейесовская 307 гауссовая 344 стационарная 353 Случайный поток 152 Сообщение элементарное 47 Соотношение термодинамическое 70, 71, 263, 316 Стирлинга формула 158 Сумма статистическая 70, 82 Теорема асимптотическая вторая 234, 236 первая 99 третья 363, 367, 374 Условие мультипликативности 40, 42 — нормировки 67, 312 Условный марковский процесс 172, 215 Устойчивость информационная 236 — каноническая 95 — энтропийная 25, 28 — — достаточное условие 27 Фоксра — Планка уравнение 165, 175 стационарное 168 Функция правдоподобия 229 — семиинвариантов производящая 87 — ценности информации 303, 329 — штрафов 64, 303 Хартли формула 10. 13 Хинчина теорема 235 Ценность информации 296, 298, 303 больцмаиовской 326, 327 дифференциальная 298, 299 — — случайная 320 хартлиевской 304 шенноновской 308, 329 Цепь марковская 114 Чебышева неравенство 22 Чернова неравенство 102 Шениона теорема 234, 259 обобщенная 360, 392, 394 Штраф средний 307 Энтропия 10, 11 — больцмановская 14 — конца отрезка 109, 113 — максимальное значение 15, 38 — непрерывной случайной величины 33, 34 — свойства 15, 16 — случайная 14 — удельная 23. 109, Ш, 165 — условная 17, 39 Энергия свободная 70
Оглавление Предисловие - ........ 3 Введение ' ' 5 Глава 1 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ И ЭНТРОПИИ ПРИ ОТСУТСТВИИ ПОМЕХ 9 § 1.1. Определение энтропии в случае равновероятных возмож- ностей И § 1.2. Энтропия в случае неравновероятных возможностей и ее свой- ства 13 § 1.3. Условная энтропия. Свойство иерархической аддитивности 16 § 1.4. Асимптотическая эквивалентность неравновероятных возмож- ностей равновероятным 21 § 1.5. Асимптотическая равновероятность и энтропийная устой- чивость 25 § 1.6. Определение энтропии непрерывной случайной величины ... 30 § 1.7. Свойства энтропии в обобщенной версии. Условная энтропия 37 Глава 2 КОДИРОВАНИЕ ДИСКРЕТНОЙ ИНФОРМАЦИИ ПРИ ОТСУТСТВИИ 1п ПОМЕХ И ШТРАФОВ 43 § 2.1. Основные принципы кодирования дискретной информации 44 § 2.2. Основные теоремы для кодирования без помех. Равнораспре- деленные независимые сообщения 48 § 2.3. Оптимальное кодирование по Хуфману. Примеры 53 § 2.4. Погрешности кодирования без помех при конечной длине за- писи 57 Глава 3 КОДИРОВАНИЕ ПРИ НАЛИЧИИ ШТРАФОВ. ПЕРВАЯ ВАРИАЦИОННАЯ „, ЗАДАЧА 61 § 3.1. Прямой способ вычисления информационной емкости записи для одного примера 62 § 3.2. Дискретный канал без помех и его пропускная способность 64 § 3.3. Решение первой вариационной задачи. Термодинамические параметры и потенциалы 67 § 3.4. Примеры применения общих методов вычисления пропускной способности 73 § 3.5. Метод потенциалов в случае большего числа параметров . . 79 § 3.6. Пропускная способность канала без шумов со штрафами в обоб- щенной версии 82 Глава 4 ПЕРВАЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА И СВЯЗАННЫЕ С НЕЙ РЕ- ЗУЛЬТАТЫ 84 § 4.1. Потенциал Г или производящая функция семиинвариантов 85 § 4.2. Некоторые асимптотические результаты статистической тер- модинамики. Устойчивость канонического распределения . . 89 § 4.3. Асимптотическая эквивалентность двух видов ограничений 96 § 4.4. Некоторые теоремы, касающиеся характеристического потен- циала '01 421
Глава S ВЫЧИСЛЕНИЕ ЭНТРОПИИ ДЛЯ ЧАСТНЫХ СЛУЧАЕВ. ЭНТРОПИЯ tnn СЛУЧАЙНЫХ ПРОЦЕССОВ 109 § 5.1. Энтропия отрезка стационарного дискретного процесса и удель- ная энтропия 110 § 5.2. Энтропия марковской цепи 114 § 5.3. Удельная энтропия части компонент дискретного марковского процесса и условного марковского процесса 120 § 5.4. Энтропия гауссовых случайных величин 129 § 5.5. Энтропия стационарной последовательности. Гауссова по- следовательность 134 § 5.6. Энтропия случайных процессов в непрерывном времени. Общие понятия и соотношения 141 § 5.7. Энтропия гауссового процесса в непрерывном времени . . . 144 § 5.8. Энтропия точечного случайного процесса 152 § 5.9. Энтропия дискретного марковского процесса в непрерывном времени 162 § 5.10. Энтропия диффузионных марковских процессов 165 § 5.11. Энтропия комбинированного марковского процесса, услов- ного процесса и части компонент марковского процесса . . . 170 Глава 6 ИНФОРМАЦИЯ ПРИ НАЛИЧИИ ПОМЕХ. ШЕННОНОВСКОЕ КОЛИЧЕСТ- ВО ИНФОРМАЦИИ lol § 6.1. Потери информации при вырожденных преобразованиях и при простых помехах 181 § 6.2. Информация связи дискретных случайных величин 186 § 6.3. Условная информация. Иерархическая аддитивность инфор- мации 189 § 6.4. Количество информации связи в общем случае 195 § 6.5. Информация связи гауссовых величин 198 § 6.6. Удельная информация стационарных и стационарно связан- ных процессов. Гауссовы процессы 205 § 6.7. Информация связи компонент марковского процесса .... 212 Глава 7 ПЕРЕДАЧА СООБЩЕНИЙ ПРИ НАЛИЧИИ ПОМЕХ. ВТОРАЯ АСИМПТО- „.. ТИЧЕСКАЯ ТЕОРЕМА В РАЗЛИЧНЫХ ФОРМУЛИРОВКАХ 22Ь § 7.1. Принципы передачи и приема информации при наличии помех 227 § 7.2. Случайный код и средняя вероятность ошибки 230 § 7.3. Асимптотическая безошибочность декодирования. Теорема Шеннона (вторая асимптотическая теорема) 234 § 7.4. Асимптотическая формула для вероятности ошибки 237 § 7.5. Усиленные оценки для оптимального декодирования . ... 241 § 7.6. Некоторые общие соотношения между энтропиями и взаим- ными информациями при кодировании и декодировании . . . 252 Глава 8 ПРОПУСКНАЯ СПОСОБНОСТЬ КАНАЛОВ. ВАЖНЫЕ ЧАСТНЫЕ СЛУЧАИ „__ КАНАЛОВ 257 § 8.1. Определение пропускной способности каналов 257 § 8.2. Решение второй экстремальной задачи. Соотношения для про- пускной способности и потенциала 260 § 8.3. Вид оптимального распределения и статистическая сумма . . 267 § 8.4. Симметричные каналы 270 § 8.5. Двоичные каналы 272 § 8.6. Гауссовы каналы 275 § 8.7. Стационарные гауссовы каналы 285 § 8.8. Аддитивные каналы 291 422
Глава 9 ОПРЕДЕЛЕНИЕ ЦЕННОСТИ ИНФОРМАЦИИ 296 § 9.1. Уменьшение средних штрафов при уменьшении неопределен- ности 297 § 9.2. Ценность хартлиевского количества информации. Пример ' 301 § 9.3. Определение ценности шенноновского количества информа- мации и а-информации 307 § 9.4. Решение третьей вариационной задачи. Соответствующие ей потенциалы 311 § 9.5. Решение вариационной задачи при некоторых дополнительных предположениях 320 § 9.6. Ценность больцмановского количества информации 325 § 9.7. Другой подход к определению ценности шенноновской инфор- мации 329 Глава 10 ЦЕННОСТЬ ШЕННОНОВСКОЙ ИНФОРМАЦИИ ДЛЯ ВАЖНЕЙШИХ БЕЙ- „„ ЕСОВСКИХ СИСТЕМ , 334 § 10.1. Система с двумя состояниями 334 § 10.2. Системы с однородной функцией штрафов 338 § 10.3. Гауссовы бейесовскис системы 344 § 10.4. Стационарные гауссовы системы 353 Глава 11 АСИМПТОТИЧЕСКИЕ РЕЗУЛЬТАТЫ, КАСАЮЩИЕСЯ ЦЕННОСТИ ИНФОР- МАЦИИ. ТРЕТЬЯ АСИМПТОТИЧЕСКАЯ ТЕОРЕМА 360 § 11.1. О различии между ценностями различных родов информации. Предварительные формы 361 § 11.2. Теорема об асимптотической равноценности различных ко- личеств информации 365 § 11.3. Быстрота исчезновения различия в ценности шенноновской и хартлиевской информации 376 § 11.4. Другие способы записи основного результата. Обобщения и частные случаи 386 § 11.5. Обобщенная теорема Шеннона 392 Глава 12 ТЕОРИЯ ИНФОРМАЦИИ И ВТОРОЙ ЗАКОН ТЕРМОДИНАМИКИ 398 § 12.1. Информация о физической системе, находящейся в состоянии термодинамического равновесия. Обобщенный второй закон термодинамики 399 § 12.2. Приток шенноновской информации и превращение теплоты в работу 402 § 12.3. Энергетические затраты на создание и запись информации. Пример 407 § 12.4. Энергетические затраты на создание и запись информации. Общая формулировка 410 § 12.5. Энергетические затраты в физических каналах 413 Приложение НЕКОТОРЫЕ МАТРИЧНЫЕ (ОПЕРАТОРНЫЕ) ТОЖДЕСТВА 416 § П.1. Правило переноса оператора слева направо 416 § П.2. Детерминант составной матрицы 417 Список литературы 418 Предметный указатель , 420 423
Стратонович Р. Л. Теория информации М, «Сов радио», 1975 424 с с ил Книга посвящена одному из главных направлении теоретической кибернетики Дается систематическое изложение важнейших, ставшич уже традиционными, результатов шенноиовской теории информации а также ряда новых вопросов, разработанных автором Книга рассчитана на научных работников — специалистов в обла сти кибернетики и статистической теории связи, а также аспирантов и студентов высших учебных заведении